Đã quét PDF sang Word Java OCR

Các tệp PDF được tạo bằng máy ảnh hoặc thiết bị máy quét có chứa hình ảnh được quét. Những hình ảnh như vậy không thể được xử lý để lựa chọn hoặc chỉnh sửa văn bản, vì vậy bạn có thể cần phải chuyển đổi PDF đã quét sang tài liệu Word ở định dạng DOCX hoặc DOC. Bài viết này trình bày cách chuyển đổi tệp PDF được quét sang tệp Word theo lập trình bằng Java.

API Java để chuyển đổi PDF đã quét thành tệp Word

Bạn có thể thao tác các tài liệu PDF được quét bằng các thao tác OCR bằng API Aspose.OCR cho Java và sau đó tạo tệp Word với API Aspose.Words for Java theo cách lập trình. Chỉ cần thiết lập các API bằng cách tải xuống các tệp JAR từ phần Tải xuống hoặc sử dụng các thông số kỹ thuật của Maven sau:

Kho:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Sự phụ thuộc:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Chuyển đổi PDF đã quét sang tài liệu Word theo lập trình bằng Java

Bạn có thể chuyển đổi tệp PDF được quét sang tài liệu Word bằng kỹ thuật nhận dạng ký tự quang học. Đây là một quy trình gồm hai bước trong đó PDF được quét sẽ được chuyển đổi thành văn bản và sau đó văn bản được chuyển đổi thành tài liệu Word ở định dạng DOC hoặc DOCX. Bạn cần làm theo các bước dưới đây để chuyển đổi PDF đã quét thành tài liệu Word:

  1. Khởi tạo đối tượng lớp AsposeOCRPdf.
  2. Nhận dạng hình ảnh từ tệp PDF bằng đối tượng loại DocumentRecognitionSettings.
  3. Chỉ định đối tượng lớp String và lưu văn bản.
  4. Khởi tạo một tài liệu từ mới với lớp Tài liệu.
  5. Đặt định dạng phông chữ và đoạn văn.
  6. Cuối cùng, ghi tài liệu Word đầu ra vào đĩa dưới dạng tệp DOCX hoặc DOC.

Đoạn mã dưới đây trình bày cách chuyển đổi tệp PDF được quét sang tài liệu Word dưới dạng tệp DOC hoặc DOCX theo cách lập trình bằng Java:

// Khởi tạo một phiên bản của AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Nhận tệp PDF để nhận dạng     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Nhận dạng tệp PDF đầu vào với phương pháp RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// In kết quả
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Khởi tạo tài liệu word với lớp Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Chỉ định định dạng phông chữ
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Chỉ định định dạng đoạn văn
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Lưu tài liệu Word đầu ra. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Nhận Giấy phép Tạm thời Miễn phí

Bạn có thể đánh giá các API mà không có bất kỳ giới hạn nào bằng cách yêu cầu giấy phép tạm thời miễn phí.

Sự kết luận

Trong bài viết này, bạn đã khám phá cách chuyển đổi một tệp PDF được quét sang tài liệu Word dưới dạng tệp DOCX hoặc DOC theo cách lập trình bằng Java. Hơn nữa, bạn có thể xem các tính năng khác liên quan đến OCR bằng cách truy cập tài liệu. Trong trường hợp có bất kỳ thắc mắc nào, vui lòng liên hệ với chúng tôi tại diễn đàn.

Xem thêm

Thông tin: Bạn có thể quan tâm đến một API Java khác (Aspose.Slides for Java) cho phép bạn chuyển đổi bản trình bày (thành PDF, tài liệu từ, v.v.) và [nhập hình ảnh] 14 hoặc các tài liệu khác thành bản trình bày.