使用 Java 中的 OCR 将扫描的 PDF 转换为可搜索的 PDF

有时 PDF 文件是使用来自扫描仪或相机设备的图片创建的。在某些情况下，您可能需要使用 OCR 将扫描的 PDF 文件转换为可搜索的 PDF 文件，以便您可以处理 PDF 文件中的文本内容。据此，本文介绍了如何使用 Java 以编程方式通过 OCR 功能将扫描的 PDF 转换为可搜索的 PDF。

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装
在 Java 中以编程方式将扫描的 PDF 转换为可搜索的 PDF

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装

您可以使用 Aspose.OCR for Java API 通过 OCR 功能光学识别 PDF 文件中的文本。只需通过从 New Releases 部分下载 JAR 文件或使用以下 Maven 规范来安装 API：

存储库：

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依赖：

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

使用 Java 以编程方式将扫描的 PDF 转换为可搜索的 PDF

您可以使用 OCR 识别扫描的 PDF 文件的内容。这使您能够通过以下步骤将扫描的 PDF 文件转换为可搜索的 PDF 文档：

创建一个 AsposeOcr 类对象。
使用 RecognizePdf 方法从扫描的 PDF 中识别数据。
使用 DocumentRecognitionSettings 类设置 OCR 识别的页码。
将输出 OCR 结果保存为可搜索的 PDF 文件。

以下代码片段详细说明了如何在 Java 中以编程方式将扫描的 PDF 转换为可搜索的 PDF 文件：

// 扫描的多页 PDF 路径
String fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 类对象
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// 识别 PDF 中的图像           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 将结果另存为可搜索的 PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

获得免费评估许可证

您可以通过请求免费临时许可证来评估该功能以使用 OCR 操作识别扫描 PDF 中的文本，而不受任何限制。

结论

在本文中，您学习了如何使用 Java 中的 OCR 功能以编程方式将扫描的 PDF 文件转换为可搜索的 PDF 文档。此外，您可以通过访问文档了解 API 的其他 OCR 相关功能。如有任何疑问，请随时在论坛上给我们写信。

也可以看看

通过使用 Java 对来自 URL 的图像执行 OCR 来识别文本

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装#

使用 Java 以编程方式将扫描的 PDF 转换为可搜索的 PDF#

获得免费评估许可证#

结论#

也可以看看#

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装

使用 Java 以编程方式将扫描的 PDF 转换为可搜索的 PDF

获得免费评估许可证

结论

也可以看看