扫描到可搜索的 PDF Java

有时 PDF 文件是使用来自扫描仪或相机设备的图片创建的。在某些情况下,您可能需要使用 OCR 将扫描的 PDF 文件转换为可搜索的 PDF 文件,以便您可以处理 PDF 文件中的文本内容。据此,本文介绍了如何使用 Java 以编程方式通过 OCR 功能将扫描的 PDF 转换为可搜索的 PDF。

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – Java API 安装

您可以使用 Aspose.OCR for Java API 通过 OCR 功能光学识别 PDF 文件中的文本。只需通过从 New Releases 部分下载 JAR 文件或使用以下 Maven 规范来安装 API:

存储库:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依赖:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

使用 Java 以编程方式将扫描的 PDF 转换为可搜索的 PDF

您可以使用 OCR 识别扫描的 PDF 文件的内容。这使您能够通过以下步骤将扫描的 PDF 文件转换为可搜索的 PDF 文档:

  1. 创建一个 AsposeOcr 类对象。
  2. 使用 RecognizePdf 方法从扫描的 PDF 中识别数据。
  3. 使用 DocumentRecognitionSettings 类设置 OCR 识别的页码。
  4. 将输出 OCR 结果保存为可搜索的 PDF 文件。

以下代码片段详细说明了如何在 Java 中以编程方式将扫描的 PDF 转换为可搜索的 PDF 文件:

// 扫描的多页 PDF 路径
String fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 类对象
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// 识别 PDF 中的图像           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 将结果另存为可搜索的 PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

获得免费评估许可证

您可以通过请求 免费临时许可证 来评估该功能以使用 OCR 操作识别扫描 PDF 中的文本,而不受任何限制。

结论

在本文中,您学习了如何使用 Java 中的 OCR 功能以编程方式将扫描的 PDF 文件转换为可搜索的 PDF 文档。此外,您可以通过访问 文档 了解 API 的其他 OCR 相关功能。如有任何疑问,请随时在 论坛 上给我们写信。

也可以看看