扫描的 PDF 到 Word Java OCR

使用相机或扫描仪设备创建的 PDF 文件包含扫描的图像。此类图像无法进行文本选择或编辑处理,因此您可能需要将扫描的 PDF 转换为 DOCXDOC 格式的 Word 文档。本文介绍如何使用 Java 以编程方式将扫描的 PDF 文件转换为 Word 文件。

用于将扫描的 PDF 转换为 Word 文件的 Java API

您可以使用 Aspose.OCR for Java API 使用 OCR 操作操作扫描的 PDF 文档,然后使用 Aspose.Words for Java API 以编程方式生成 Word 文件。只需通过从 Downloads 部分下载 JAR 文件或使用以下 Maven 规范来设置 API:

存储库:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依赖:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

使用 Java 以编程方式将扫描的 PDF 转换为 Word 文档

您可以使用光学字符识别技术将扫描的 PDF 文件转换为 Word 文档。这是一个两步过程,将扫描的 PDF 转换为文本,然后将文本转换为 DOC 或 DOCX 格式的 Word 文档。您需要按照以下步骤将扫描的 PDF 转换为 Word 文档:

  1. 实例化 AsposeOCRPdf 类对象。
  2. 使用 DocumentRecognitionSettings 类型对象识别 PDF 文件中的图像。
  3. 指定 String 类对象并保存文本。
  4. 使用 Document 类初始化一个新的 word 文档。
  5. 设置字体和段落格式。
  6. 最后,将输出的 Word 文档作为 DOCX 或 DOC 文件写入磁盘。

下面的代码片段演示了如何使用 Java 以编程方式将扫描的 PDF 文件转换为 Word 文档作为 DOC 或 DOCX 文件:

// 初始化 AsposeOcrPdf 的一个实例
AsposeOCRPdf api = new AsposeOCRPdf();

// 获取PDF文件进行识别     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// 使用 RecognizePdf 方法识别输入的 PDF 文件
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// 打印结果
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// 使用 Document 类初始化 word 文档。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 指定字体格式
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// 指定段落格式
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// 保存输出 Word 文档。 
doc.save("Scanned_PDF_to_Word_Java.docx");

获得免费临时许可证

您可以通过申请 免费临时许可证 来不受任何限制地评估 API。

结论

在本文中,您探索了如何使用 Java 以编程方式将扫描的 PDF 文件转换为 Word 文档作为 DOCX 或 DOC 文件。此外,您可以通过访问 文档 了解其他与 OCR 相关的功能。如有任何疑问,请随时通过 论坛 与我们联系。

也可以看看

信息:您可能对另一个 Java API (Aspose.Slides for Java) 感兴趣,它允许您转换演示文稿(转换为 PDF、word 文档 等)和 导入图像 或其他文件放入演示文稿。