扫描的 PDF 文件包含图像格式的数据,因为它们通常由扫描仪创建。在某些情况下,您可能需要扫描 PDF 文件中的数字信息。因此,您可以执行 OCR 操作来创建 Excel 文件。本文介绍如何在 Java 中以编程方式创建具有 OCR 功能的扫描 PDF 到 Excel 转换器。
使用 OCR 创建扫描的 PDF 到 Excel 转换器 – Java API 安装
您可以使用 Aspose.OCR for Java API 通过 OCR 功能光学识别 PDF 文件中的文本。只需通过从 New Releases 部分下载 JAR 文件或使用以下 Maven 规范来安装 API:
存储库:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
依赖:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
在 Java 中以编程方式将扫描的 PDF 转换为 Excel
您可以按照以下步骤使用 OCR 将扫描的 PDF 文件转换为 Excel:
- 创建一个 AsposeOcr 类对象。
- 使用 DocumentRecognitionSettings 类指定设置。
- 使用 RecognizePdf 方法识别扫描的 PDF 文件。
- 将输出 OCR 结果保存为 Excel 文件。
以下代码片段详细说明了如何在 Java 中以编程方式将扫描的 PDF 转换为 Excel 文件:
// 扫描的 PDF 文件路径
String fullPath = "scanned.pdf";
// 初始化 AsposeOcr 类对象
AsposeOCRPdf api = new AsposeOCRPdf();
// 初始化 DocumentRecognitionSettings 类对象
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// 识别 PDF 中的图像
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// 将结果另存为 Excel XLSX 文件
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);
获得免费评估许可证
您可以通过请求 免费临时许可证 来评估用于通过 OCR 操作创建扫描 PDF 到 Excel 转换器的 API,而不受任何限制。
结论
在本文中,您了解了如何使用 Java 中的 OCR 功能以编程方式将扫描的 PDF 文件转换为 Excel 文件。此外,请访问文档,了解其他与 OCR 相关的功能。如有任何疑问,请随时在 论坛 上给我们写信。