Đã quét PDF sang Word OCR csharp

Tệp PDF được quét chứa hình ảnh mà không thể chọn hoặc chỉnh sửa văn bản. Trong một số tình huống nhất định, bạn có thể cần chuyển đổi PDF đã quét sang tài liệu Word. Trong bài viết này, bạn sẽ học cách chuyển đổi PDF đã quét sang tài liệu Word ở định dạng DOCX hoặc DOC bằng cách sử dụng C#:

Trình chuyển đổi PDF sang Word DOCX đã quét - Cài đặt API C#

Bạn có thể làm việc với các tệp PDF được quét bằng cách thực hiện các thao tác OCR với API Aspose.OCR for .NET và sau đó tạo tài liệu Word bằng API Aspose.Words for .NET được lập trình bằng C#. Bạn có thể định cấu hình các API bằng cách tải xuống tệp DLL từ Bản phát hành mới hoặc bằng các lệnh cài đặt NuGet sau:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Chuyển đổi PDF đã quét sang tài liệu Word theo phương pháp lập trình bằng C#

Bạn có thể chuyển đổi các tệp PDF được quét sang tài liệu Word bằng cách nhận dạng văn bản theo phương pháp quang học. Hoạt động OCR chuyển đổi PDF đã quét thành văn bản và sau đó tài liệu Word được tạo ở định dạng DOC hoặc DOCX. Vui lòng làm theo các bước dưới đây để chuyển đổi PDF đã quét sang tài liệu Word:

  1. Khởi tạo thể hiện lớp AsposeOcr.
  2. Nhận dạng hình ảnh từ PDF với lớp DocumentRecognitionSettings.
  3. Khởi tạo đối tượng lớp StringBuilder và lưu văn bản.
  4. Khởi tạo tài liệu word với lớp Document.
  5. Chỉ định định dạng phông chữ và đoạn văn.
  6. Lưu tài liệu Word đầu ra dưới dạng tệp DOCX hoặc DOC.

Đoạn mã sau cho biết cách chuyển đổi một tệp PDF được quét sang tài liệu Word theo cách lập trình bằng C#:

// Khởi tạo phiên bản lớp AsposeOcr
AsposeOcr api = new AsposeOcr();

// Nhận dạng hình ảnh từ PDF với lớp DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Lưu kết quả nhận dạng
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Khởi tạo đối tượng lớp StringBuilder
StringBuilder text = new StringBuilder();

// Lưu kết quả dưới dạng văn bản
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Khởi tạo tài liệu word với lớp Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Chỉ định định dạng phông chữ
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Chỉ định định dạng đoạn văn
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Lưu tài liệu Word đầu ra. 
doc.Save("Scanned_PDF_to_Word.docx");

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể kiểm tra toàn bộ công suất của các API bằng cách yêu cầu giấy phép tạm thời miễn phí.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi một tệp PDF được quét sang tài liệu Word ở định dạng DOCX hoặc DOC theo cách lập trình bằng C#. Hơn nữa, bạn có thể khám phá một số tính năng khác liên quan đến OCR bằng cách truy cập tài liệu. Vui lòng liên hệ với chúng tôi tại diễn đàn nếu có bất kỳ thắc mắc nào.

Xem thêm

Mẹo: Nếu bạn cần lấy tài liệu Word từ bản trình bày PowerPoint, bạn có thể sử dụng trình chuyển đổi Aspose Bản trình bày sang tài liệu Word.