掃描的 PDF 到 Word Java OCR

使用照相機或掃描儀設備創建的 PDF 文件包含掃描圖像。此類圖像無法進行文本選擇或編輯處理,因此您可能需要將掃描的 PDF 轉換為 DOCXDOC 格式的 Word 文檔。本文介紹如何使用 Java 以編程方式將掃描的 PDF 文件轉換為 Word 文件。

將掃描的 PDF 轉換為 Word 文件的 Java API

您可以使用 Aspose.OCR for Java API 通過 OCR 操作來處理掃描的 PDF 文檔,然後以編程方式使用 Aspose.Words for Java API 生成 Word 文件。通過從 下載 部分下載 JAR 文件或使用以下 Maven 規範來簡單地設置 API:

存儲庫:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依賴:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

使用 Java 以編程方式將掃描的 PDF 轉換為 Word 文檔

您可以使用光學字符識別技術將掃描的 PDF 文件轉換為 Word 文檔。這是一個兩步過程,首先將掃描的 PDF 轉換為文本,然後將文本轉換為 DOC 或 DOCX 格式的 Word 文檔。您需要按照以下步驟將掃描的 PDF 轉換為 Word 文檔:

  1. 實例化 AsposeOCRPdf 類對象。
  2. 使用 DocumentRecognitionSettings 類型對像從 PDF 文件中識別圖像。
  3. 指定 String 類對象並保存文本。
  4. 使用 Document 類初始化一個新的 word 文檔。
  5. 設置字體和段落格式。
  6. 最後,將輸出的 Word 文檔以 DOCX 或 DOC 文件的形式寫入磁盤。

下面的代碼片段演示瞭如何使用 Java 以編程方式將掃描的 PDF 文件轉換為 Word 文檔作為 DOC 或 DOCX 文件:

// 初始化 AsposeOcrPdf 實例
AsposeOCRPdf api = new AsposeOCRPdf();

// 獲取用於識別的 PDF 文件     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// 使用 RecognizePdf 方法識別輸入的 PDF 文件
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// 打印結果
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// 使用 Document 類初始化 word 文檔。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 指定字體格式
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// 指定段落格式
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// 保存輸出 Word 文檔。 
doc.save("Scanned_PDF_to_Word_Java.docx");

獲得免費的臨時許可證

您可以通過申請 免費臨時許可證 來不受任何限制地評估 API。

結論

在本文中,您探索瞭如何使用 Java 以編程方式將掃描的 PDF 文件轉換為 Word 文檔作為 DOCX 或 DOC 文件。此外,您可以通過訪問 文檔 查看其他與 OCR 相關的功能。如有任何疑問,請隨時通過論壇與我們聯繫。

也可以看看

信息:您可能對另一個 Java API(Aspose.Slides for Java)感興趣,它允許您將演示文稿(轉換為 PDF、word 文檔 等)和導入圖像 ] 或其他文檔轉換成演示文稿。