有時 PDF 文件是使用來自掃描儀或相機設備的圖片創建的。在某些情況下,您可能需要使用 OCR 將掃描的 PDF 文件轉換為可搜索的 PDF 文件,以便您可以處理 PDF 文件中的文本內容。據此,本文介紹瞭如何使用 Java 以編程方式將掃描的 PDF 轉換為可通過 OCR 功能搜索的 PDF。
通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – Java API 安裝
您可以使用 Aspose.OCR for Java API 以光學方式識別具有 OCR 功能的 PDF 文件中的文本。通過從 New Releases 部分下載 JAR 文件或使用下面的 Maven 規範來簡單地安裝 API:
存儲庫:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
依賴:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
使用 Java 以編程方式將掃描的 PDF 轉換為可搜索的 PDF
您可以使用 OCR 識別掃描的 PDF 文件的內容。這使您能夠通過以下步驟將掃描的 PDF 文件轉換為可搜索的 PDF 文檔:
- 創建一個 AsposeOcr 類對象。
- 使用 RecognizePdf 方法從掃描的 PDF 中識別數據。
- 使用 DocumentRecognitionSettings 類設置 OCR 識別的頁碼。
- 將輸出 OCR 結果保存為可搜索的 PDF 文件。
以下代碼片段詳細說明瞭如何在 Java 中以編程方式將掃描的 PDF 轉換為可搜索的 PDF 文件:
// 掃描的多頁 PDF 路徑
String fullPath = "multi_page.pdf";
// 初始化 AsposeOcr 類對象
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// 識別 PDF 中的圖像
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// 將結果另存為可搜索的 PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
獲得免費評估許可證
您可以通過申請 免費臨時許可證 來評估使用 OCR 操作無限制地識別掃描 PDF 中文本的功能。
結論
在本文中,您了解瞭如何在 Java 中以編程方式將掃描的 PDF 文件轉換為具有 OCR 功能的可搜索 PDF 文檔。此外,您可以通過訪問 文檔 查看 API 的其他 OCR 相關功能。如有任何疑慮,請隨時在 論壇 上給我們寫信。