掃描的 PDF 到 Excel OCR Java

掃描的 PDF 文件包含圖像格式的數據,因為它們通常是由掃描儀創建的。在某些情況下,您可能需要掃描的 PDF 文件中的數字信息。因此,您可以執行 OCR 操作來創建 Excel 文件。本文介紹如何在 Java 中以編程方式創建具有 OCR 功能的掃描 PDF 到 Excel 轉換器。

使用 OCR 創建掃描的 PDF 到 Excel 轉換器 – Java API 安裝

您可以使用 Aspose.OCR for Java API 以光學方式識別具有 OCR 功能的 PDF 文件中的文本。通過從 New Releases 部分下載 JAR 文件或使用下面的 Maven 規範來簡單地安裝 API:

存儲庫:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依賴:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

在 Java 中以編程方式將掃描的 PDF 轉換為 Excel

您可以按照以下步驟將掃描的 PDF 文件轉換為帶有 OCR 的 Excel:

  1. 創建一個 AsposeOcr 類對象。
  2. 使用 DocumentRecognitionSettings 類指定設置。
  3. 使用 RecognizePdf 方法識別掃描的 PDF 文件。
  4. 將輸出的 OCR 結果保存為 Excel 文件。

以下代碼片段詳細說明瞭如何在 Java 中以編程方式將掃描的 PDF 轉換為 Excel 文件:

// 掃描的PDF文件路徑
String fullPath = "scanned.pdf";

// 初始化 AsposeOcr 類對象
AsposeOCRPdf api = new AsposeOCRPdf();

// 初始化 DocumentRecognitionSettings 類對象
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// 識別 PDF 中的圖像           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 將結果保存為 Excel XLSX 文件
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

獲得免費評估許可證

您可以通過請求 免費臨時許可證 來評估用於通過 OCR 操作創建掃描的 PDF 到 Excel 轉換器的 API,沒有任何限制。

結論

在本文中,您了解瞭如何在 Java 中以編程方式將掃描的 PDF 文件轉換為具有 OCR 功能的 Excel 文件。此外,請訪問 文檔 查看其他與 OCR 相關的功能。如有任何疑慮,請隨時在 論壇 上給我們寫信。

也可以看看