แยกข้อความจาก PDF C#

รูปแบบ PDF ใช้กันอย่างแพร่หลายในการสร้างเอกสารแบบอ่านอย่างเดียวสำหรับการแบ่งปันและการพิมพ์ โดยทั่วไป เอกสาร PDF จะมีรูปภาพพร้อมกับข้อความ และในบางกรณี คุณอาจต้องแยกรูปภาพเหล่านี้ในขณะที่แยกวิเคราะห์ PDF บทความนี้ครอบคลุมวิธีการแยกรูปภาพจาก PDF โดยทางโปรแกรมใน C# .NET

C# .NET API เพื่อแยกรูปภาพออกจาก PDF - ดาวน์โหลดฟรี

ในการแยกรูปภาพจาก PDF เราจะใช้ Aspose.PDF for .NET เป็น API อันทรงพลังที่ให้คุณใช้คุณสมบัติการสร้างและการจัดการ PDF ที่หลากหลาย นอกจากนี้ยังช่วยให้คุณสามารถแยกวิเคราะห์ PDF และแยกรูปภาพได้อย่างราบรื่น คุณสามารถ ดาวน์โหลด API หรือติดตั้งโดยใช้ NuGet

PM> Install-Package Aspose.PDF

แยกรูปภาพจาก PDF ใน C

ต่อไปนี้เป็นขั้นตอนในการแยกรูปภาพจาก PDF ใน C#

  • โหลดเอกสารโดยใช้คลาส Document
  • วนซ้ำหน้าต่างๆ ของเอกสาร PDF โดยใช้ชุด Document.Pages
  • สำหรับแต่ละหน้า เข้าถึงทุก XImage ในคอลเลกชัน Page.Resources.Images
  • สร้างวัตถุ FileStream สำหรับแต่ละภาพและบันทึกเป็น JPEG, PNG ฯลฯ
  • สุดท้าย ปิด FileStream

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกรูปภาพจาก PDF

// เปิดเอกสาร
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// วนซ้ำผ่านหน้าต่างๆ
foreach (var page in pdfDocument.Pages)
{
    // เลื่อนดูภาพทั้งหมด
    foreach (XImage image in page.Resources.Images)
    {
        // สร้างสตรีมไฟล์สำหรับรูปภาพ
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // บันทึกภาพเอาต์พุต
        image.Save(outputImage, ImageFormat.Jpeg);

        // ปิดสตรีม
        outputImage.Close();

        imageCounter++;
    }

    // รีเซ็ตตัวนับ
    imageCounter = 1;
}

รับใบอนุญาตฟรี

คุณสามารถใช้ Aspose.PDF for .NET ได้โดยไม่มีข้อจำกัดในการประเมินโดยใช้ ใบอนุญาตชั่วคราว

บทสรุป

การแยกวิเคราะห์ไฟล์ PDF และแยกข้อความหรือรูปภาพอาจจำเป็นในหลายกรณี ในบทความนี้ คุณได้เรียนรู้วิธีแยกรูปภาพจากไฟล์ PDF โดยทางโปรแกรมใน C# คุณสามารถสำรวจเพิ่มเติมเกี่ยวกับ C# PDF API ได้โดยใช้ เอกสารประกอบ นอกจากนี้ คุณสามารถโพสต์คำถามของคุณบน ฟอรัม ของเรา

ดูสิ่งนี้ด้วย