掃描的 PDF 文件包含圖像格式的數據,因為它們通常是由掃描儀創建的。在某些情況下,您可能需要掃描的 PDF 文件中的數字信息。因此,您可以執行 OCR 操作來創建 Excel 文件。本文介紹如何在 Java 中以編程方式創建具有 OCR 功能的掃描 PDF 到 Excel 轉換器。
使用 OCR 創建掃描的 PDF 到 Excel 轉換器 – Java API 安裝
您可以使用 Aspose.OCR for Java API 以光學方式識別具有 OCR 功能的 PDF 文件中的文本。通過從 New Releases 部分下載 JAR 文件或使用下面的 Maven 規範來簡單地安裝 API:
存儲庫:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
依賴:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
在 Java 中以編程方式將掃描的 PDF 轉換為 Excel
您可以按照以下步驟將掃描的 PDF 文件轉換為帶有 OCR 的 Excel:
- 創建一個 AsposeOcr 類對象。
- 使用 DocumentRecognitionSettings 類指定設置。
- 使用 RecognizePdf 方法識別掃描的 PDF 文件。
- 將輸出的 OCR 結果保存為 Excel 文件。
以下代碼片段詳細說明瞭如何在 Java 中以編程方式將掃描的 PDF 轉換為 Excel 文件:
// 掃描的PDF文件路徑
String fullPath = "scanned.pdf";
// 初始化 AsposeOcr 類對象
AsposeOCRPdf api = new AsposeOCRPdf();
// 初始化 DocumentRecognitionSettings 類對象
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// 識別 PDF 中的圖像
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// 將結果保存為 Excel XLSX 文件
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);
獲得免費評估許可證
您可以通過請求 免費臨時許可證 來評估用於通過 OCR 操作創建掃描的 PDF 到 Excel 轉換器的 API,沒有任何限制。
結論
在本文中,您了解瞭如何在 Java 中以編程方式將掃描的 PDF 文件轉換為具有 OCR 功能的 Excel 文件。此外,請訪問 文檔 查看其他與 OCR 相關的功能。如有任何疑慮,請隨時在 論壇 上給我們寫信。