quét pdf sang văn bản csharp

Tệp PDF được quét về cơ bản là một hoặc nhiều hình ảnh phẳng được chụp bởi máy quét hoặc máy ảnh. Bạn không thể sao chép, dán hoặc xử lý thông tin từ các tệp đó. Bài viết này đề cập đến cách chuyển đổi PDF được quét thành văn bản trong C#.

Chuyển đổi PDF sang văn bản được quét – Cài đặt API C#

Aspose.OCR for .NET API được sử dụng để thực hiện các thao tác OCR. Nó có thể nhận dạng các ký tự quang học từ hình ảnh hoặc tài liệu PDF được quét. Vui lòng định cấu hình API bằng cách tải xuống tệp DLL từ phần Bản phát hành mới hoặc bằng lệnh cài đặt NuGet sau đây.

PM> Install-Package Aspose.OCR

Chuyển đổi PDF được quét thành chuỗi văn bản trong C#

Bạn có thể chuyển đổi tệp PDF được quét thành chuỗi văn bản bằng cách thực hiện các thao tác OCR trên tệp đó. Bạn cần làm theo các bước dưới đây để in văn bản từ tài liệu PDF được quét:

  1. Chỉ định cài đặt để nhận dạng tệp PDF được quét.
  2. Khởi tạo cá thể lớp AsposeOcr.
  3. Khởi tạo đối tượng lớp RecognitionResult.
  4. In văn bản sau khi nhận dạng nó từ tệp PDF được quét.

Đoạn mã sau cho biết cách nhận dạng văn bản từ tệp PDF được quét trong C#:

// Khởi tạo thể hiện của lớp AsposeOcr
AsposeOcr api = new AsposeOcr();

// Chỉ định cài đặt để nhận dạng tệp PDF được quét
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Khởi tạo đối tượng lớp RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// In văn bản sau khi nhận dạng nó từ PDF được quét
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Chuyển đổi tệp PDF được quét thành tệp TXT theo chương trình trong C#

Bạn có thể chuyển đổi tệp PDF được quét thành tệp TXT theo các bước sau:

  1. Khởi tạo đối tượng lớp AsposeOcr.
  2. Tạo đối tượng lớp DocumentRecognitionSettings.
  3. Lưu kết quả nhận dạng và khởi tạo phiên bản lớp StringBuilder.
  4. Lưu kết quả vào tệp TXT.

Đoạn mã dưới đây giải thích cách chuyển đổi tệp PDF được quét thành tệp TXT theo chương trình trong C#:

// Khởi tạo thể hiện của lớp AsposeOcr
AsposeOcr api = new AsposeOcr();

// Nhận dạng hình ảnh từ PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Lưu kết quả nhận dạng
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Khởi tạo đối tượng lớp StringBuilder
StringBuilder builder = new StringBuilder();

// Lưu kết quả dưới dạng tệp TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Nhận giấy phép đánh giá miễn phí

Bạn có thể yêu cầu giấy phép đánh giá miễn phí để kiểm tra toàn bộ khả năng của API.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi PDF được quét thành chuỗi văn bản hoặc tệp văn bản theo lập trình bằng C#. Ngoài ra, bạn có thể kiểm tra một số tính năng khác của API bằng cách truy cập tài liệu. Vui lòng liên hệ với chúng tôi tại forum trong trường hợp có bất kỳ thắc mắc nào.

Xem thêm