PDFをExcelOCRJavaにスキャン

スキャンされたPDFファイルは、スキャナーによって作成されることが多いため、画像形式のデータで構成されています。特定の状況では、スキャンされたPDFファイルからの数値情報が必要になる場合があります。したがって、Excelファイルを作成するためのOCR操作を実行できます。この記事では、JavaでプログラムによってOCR機能を使用してスキャンしたPDFからExcelへのコンバーターを作成する方法について説明します。

OCRを使用してスキャンしたPDFからExcelへのコンバーターを作成–JavaAPIのインストール

Aspose.OCR for Java APIを使用して、OCR機能を使用してPDFファイル内のテキストを光学的に認識できます。 New ReleasesセクションからJARファイルをダウンロードするか、以下のMaven仕様を使用して、APIをインストールするだけです。

リポジトリ:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依存:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

スキャンしたPDFをJavaでプログラム的にExcelに変換する

以下の手順に従って、スキャンしたPDFファイルをOCRを使用してExcelに変換できます。

  1. AsposeOcrクラスオブジェクトを作成します。
  2. DocumentRecognitionSettingsクラスで設定を指定します。
  3. RecognizePdfメソッドを使用してスキャンしたPDFファイルを認識します。
  4. 出力OCR結果をExcelファイルとして保存します。

次のコードスニペットは、スキャンしたPDFをJavaでプログラムによってExcelファイルに変換する方法を詳しく説明しています。

// スキャンされたPDFファイルのパス
String fullPath = "scanned.pdf";

// AsposeOcrクラスオブジェクトを初期化します
AsposeOCRPdf api = new AsposeOCRPdf();

// DocumentRecognitionSettingsクラスオブジェクトを初期化します
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// PDFから画像を認識する           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// 結果をExcelXLSXファイルとして保存
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

無料の評価ライセンスを取得する

無料の一時ライセンスをリクエストすることで、制限なしにOCR操作でスキャンされたPDFからExcelへのコンバーターを作成するためのAPIを評価できます。

結論

この記事では、スキャンしたPDFファイルをJavaでプログラム的にOCR機能を使用してExcelファイルに変換する方法を理解しました。さらに、ドキュメントにアクセスして、その他のOCR関連の機能を確認してください。ご不明な点がございましたら、フォーラムまでお気軽にご連絡ください。

関連項目