Trích xuất văn bản từ PDF C#

Định dạng PDF được sử dụng rộng rãi để tạo tài liệu chỉ đọc để chia sẻ và in. Nói chung, tài liệu PDF chứa hình ảnh cùng với văn bản và trong một số trường hợp nhất định, bạn có thể cần trích xuất những hình ảnh này trong khi phân tích cú pháp PDF. Theo đó, bài viết này trình bày cách trích xuất hình ảnh từ PDF theo chương trình trong C# .NET.

C# .NET API để trích xuất hình ảnh từ PDF - Tải xuống miễn phí

Để trích xuất hình ảnh từ PDF, chúng tôi sẽ sử dụng Aspose.PDF for .NET. Đây là một API mạnh mẽ cho phép bạn triển khai một loạt các tính năng tạo và thao tác PDF. Ngoài ra, nó cho phép bạn phân tích cú pháp PDF và trích xuất hình ảnh một cách liền mạch. Bạn có thể tải xuống API hoặc cài đặt nó bằng NuGet.

PM> Install-Package Aspose.PDF

Trích xuất hình ảnh từ PDF trong C#

Sau đây là các bước để trích xuất hình ảnh từ PDF trong C#.

  • Tải tài liệu bằng lớp Tài liệu.
  • Lặp lại các trang của tài liệu PDF bằng bộ sưu tập Document.Pages.
  • Đối với mỗi trang, hãy truy cập mọi XImage trong bộ sưu tập Page.Resources.Images.
  • Tạo đối tượng FileStream cho mỗi hình ảnh và lưu dưới dạng JPEG, PNG, v.v.
  • Cuối cùng, đóng FileStream.

Mẫu mã sau đây cho thấy cách trích xuất hình ảnh từ PDF.

// Mở tài liệu
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Lặp lại các trang
foreach (var page in pdfDocument.Pages)
{
    // Lặp lại tất cả các hình ảnh
    foreach (XImage image in page.Resources.Images)
    {
        // Tạo luồng tệp cho hình ảnh
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Lưu hình ảnh đầu ra
        image.Save(outputImage, ImageFormat.Jpeg);

        // Đóng luồng
        outputImage.Close();

        imageCounter++;
    }

    // Lập lại truy cập
    imageCounter = 1;
}

Nhận giấy phép miễn phí

Bạn có thể sử dụng Aspose.PDF for .NET mà không có giới hạn đánh giá bằng cách sử dụng giấy phép tạm thời.

Sự kết luận

Phân tích cú pháp tệp PDF và trích xuất văn bản hoặc hình ảnh có thể được yêu cầu trong nhiều trường hợp khác nhau. Trong bài này, bạn đã học cách trích xuất hình ảnh từ tệp PDF theo chương trình trong C#. Bạn có thể khám phá thêm về C# PDF API bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể đăng các câu hỏi của mình trên diễn đàn của chúng tôi.

Xem thêm