有时 PDF 文件是使用来自扫描仪或相机设备的图片创建的。在某些情况下,您可能需要使用 OCR 将扫描的 PDF 文件转换为可搜索的 PDF 文件,以便您可以处理 PDF 文件中的文本内容。据此,本文介绍了如何使用 Java 以编程方式通过 OCR 功能将扫描的 PDF 转换为可搜索的 PDF。
通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装
您可以使用 Aspose.OCR for Java API 通过 OCR 功能光学识别 PDF 文件中的文本。只需通过从 New Releases 部分下载 JAR 文件或使用以下 Maven 规范来安装 API:
存储库:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
依赖:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
使用 Java 以编程方式将扫描的 PDF 转换为可搜索的 PDF
您可以使用 OCR 识别扫描的 PDF 文件的内容。这使您能够通过以下步骤将扫描的 PDF 文件转换为可搜索的 PDF 文档:
- 创建一个 AsposeOcr 类对象。
- 使用 RecognizePdf 方法从扫描的 PDF 中识别数据。
- 使用 DocumentRecognitionSettings 类设置 OCR 识别的页码。
- 将输出 OCR 结果保存为可搜索的 PDF 文件。
以下代码片段详细说明了如何在 Java 中以编程方式将扫描的 PDF 转换为可搜索的 PDF 文件:
// 扫描的多页 PDF 路径
String fullPath = "multi_page.pdf";
// 初始化 AsposeOcr 类对象
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// 识别 PDF 中的图像
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// 将结果另存为可搜索的 PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
获得免费评估许可证
您可以通过请求 免费临时许可证 来评估该功能以使用 OCR 操作识别扫描 PDF 中的文本,而不受任何限制。
结论
在本文中,您学习了如何使用 Java 中的 OCR 功能以编程方式将扫描的 PDF 文件转换为可搜索的 PDF 文档。此外,您可以通过访问 文档 了解 API 的其他 OCR 相关功能。如有任何疑问,请随时在 论坛 上给我们写信。