掃描到可搜索的 PDF Java

有時 PDF 文件是使用來自掃描儀或相機設備的圖片創建的。在某些情況下,您可能需要使用 OCR 將掃描的 PDF 文件轉換為可搜索的 PDF 文件,以便您可以處理 PDF 文件中的文本內容。據此,本文介紹瞭如何使用 Java 以編程方式將掃描的 PDF 轉換為可通過 OCR 功能搜索的 PDF。

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – Java API 安裝

您可以使用 Aspose.OCR for Java API 以光學方式識別具有 OCR 功能的 PDF 文件中的文本。通過從 New Releases 部分下載 JAR 文件或使用下面的 Maven 規範來簡單地安裝 API:

存儲庫:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依賴:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

使用 Java 以編程方式將掃描的 PDF 轉換為可搜索的 PDF

您可以使用 OCR 識別掃描的 PDF 文件的內容。這使您能夠通過以下步驟將掃描的 PDF 文件轉換為可搜索的 PDF 文檔:

  1. 創建一個 AsposeOcr 類對象。
  2. 使用 RecognizePdf 方法從掃描的 PDF 中識別數據。
  3. 使用 DocumentRecognitionSettings 類設置 OCR 識別的頁碼。
  4. 將輸出 OCR 結果保存為可搜索的 PDF 文件。

以下代碼片段詳細說明瞭如何在 Java 中以編程方式將掃描的 PDF 轉換為可搜索的 PDF 文件:

// 掃描的多頁 PDF 路徑
String fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 類對象
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// 識別 PDF 中的圖像           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 將結果另存為可搜索的 PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

獲得免費評估許可證

您可以通過申請 免費臨時許可證 來評估使用 OCR 操作無限制地識別掃描 PDF 中文本的功能。

結論

在本文中,您了解瞭如何在 Java 中以編程方式將掃描的 PDF 文件轉換為具有 OCR 功能的可搜索 PDF 文檔。此外,您可以通過訪問 文檔 查看 API 的其他 OCR 相關功能。如有任何疑慮,請隨時在 論壇 上給我們寫信。

也可以看看