扫描的 PDF 到 Excel OCR Java

扫描的 PDF 文件包含图像格式的数据,因为它们通常由扫描仪创建。在某些情况下,您可能需要扫描 PDF 文件中的数字信息。因此,您可以执行 OCR 操作来创建 Excel 文件。本文介绍如何在 Java 中以编程方式创建具有 OCR 功能的扫描 PDF 到 Excel 转换器。

使用 OCR 创建扫描的 PDF 到 Excel 转换器 – Java API 安装

您可以使用 Aspose.OCR for Java API 通过 OCR 功能光学识别 PDF 文件中的文本。只需通过从 New Releases 部分下载 JAR 文件或使用以下 Maven 规范来安装 API:

存储库:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依赖:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

在 Java 中以编程方式将扫描的 PDF 转换为 Excel

您可以按照以下步骤使用 OCR 将扫描的 PDF 文件转换为 Excel:

  1. 创建一个 AsposeOcr 类对象。
  2. 使用 DocumentRecognitionSettings 类指定设置。
  3. 使用 RecognizePdf 方法识别扫描的 PDF 文件。
  4. 将输出 OCR 结果保存为 Excel 文件。

以下代码片段详细说明了如何在 Java 中以编程方式将扫描的 PDF 转换为 Excel 文件:

// 扫描的 PDF 文件路径
String fullPath = "scanned.pdf";

// 初始化 AsposeOcr 类对象
AsposeOCRPdf api = new AsposeOCRPdf();

// 初始化 DocumentRecognitionSettings 类对象
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// 识别 PDF 中的图像           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 将结果另存为 Excel XLSX 文件
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

获得免费评估许可证

您可以通过请求 免费临时许可证 来评估用于通过 OCR 操作创建扫描 PDF 到 Excel 转换器的 API,而不受任何限制。

结论

在本文中,您了解了如何使用 Java 中的 OCR 功能以编程方式将扫描的 PDF 文件转换为 Excel 文件。此外,请访问文档,了解其他与 OCR 相关的功能。如有任何疑问,请随时在 论坛 上给我们写信。

也可以看看