Đã quét PDF để có thể tìm kiếm bằng OCR trong C#

Các tệp PDF đôi khi dựa trên hình ảnh thường được tạo bằng máy quét hoặc thiết bị hình ảnh. Bạn có thể chuyển đổi tệp PDF đã quét thành tệp PDF có thể tìm kiếm bằng OCR để văn bản có thể được chỉnh sửa hoặc cập nhật trong tài liệu. Phù hợp với tình huống đó, bài viết này giải thích cách chuyển đổi một tệp PDF đã quét thành một tệp PDF có thể tìm kiếm được bằng các hoạt động OCR theo chương trình sử dụng C#.

Đã quét PDF sang PDF có thể tìm kiếm bằng OCR - Cài đặt API C#

Bạn có thể thực hiện các thao tác OCR trên tệp PDF được quét bằng API Aspose.OCR for .NET. Chỉ cần định cấu hình API bằng cách tải xuống tệp DLL từ phần Bản phát hành mới hoặc sử dụng lệnh cài đặt NuGet sau:

PM> Install-Package Aspose.OCR

Chuyển đổi PDF đã quét thành PDF có thể tìm kiếm theo chương trình bằng C#

Bạn có thể chuyển đổi tệp PDF đã quét thành tài liệu PDF Có thể Tìm kiếm trong khi nhận dạng văn bản về mặt quang học bằng cách làm theo các bước bên dưới:

  1. Khởi tạo thể hiện lớp AsposeOcr.
  2. Nhận dạng hình ảnh từ PDF bằng phương pháp RecognizePdf.
  3. Đặt các thuộc tính khác nhau để nhận dạng OCR với lớp DocumentRecognitionSettings.
  4. Lưu kết quả OCR dưới dạng tệp PDF có thể tìm kiếm.

Đoạn mã bên dưới giải thích cách chuyển đổi một tệp PDF đã quét thành tài liệu PDF có thể tìm kiếm theo cách lập trình bằng C#:

// Đường dẫn PDF nhiều trang được quét
string fullPath = "multi_page.pdf";

// Khởi tạo đối tượng lớp AsposeOcr
AsposeOcr api = new AsposeOcr();

// Nhận dạng hình ảnh từ PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Lưu kết quả dưới dạng PDF có thể tìm kiếm
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể đánh giá tính năng nhận dạng văn bản trong PDF được quét bằng các thao tác OCR mà không có bất kỳ giới hạn nào bằng cách yêu cầu giấy phép tạm thời miễn phí.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF đã quét thành tài liệu PDF có thể tìm kiếm bằng cách thực hiện các thao tác OCR trên nó theo chương trình trong C#. Hơn nữa, bạn có thể kiểm tra một số tính năng khác liên quan đến OCR do API cung cấp bằng cách truy cập tài liệu. Vui lòng liên hệ với chúng tôi tại diễn đàn nếu có bất kỳ thắc mắc nào.

Xem thêm