スキャンされたPDFファイルは、スキャナーによって作成されることが多いため、画像形式のデータで構成されています。特定の状況では、スキャンされたPDFファイルからの数値情報が必要になる場合があります。したがって、Excelファイルを作成するためのOCR操作を実行できます。この記事では、JavaでプログラムによってOCR機能を使用してスキャンしたPDFからExcelへのコンバーターを作成する方法について説明します。
OCRを使用してスキャンしたPDFからExcelへのコンバーターを作成–JavaAPIのインストール
Aspose.OCR for Java APIを使用して、OCR機能を使用してPDFファイル内のテキストを光学的に認識できます。 New ReleasesセクションからJARファイルをダウンロードするか、以下のMaven仕様を使用して、APIをインストールするだけです。
リポジトリ:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
依存:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
スキャンしたPDFをJavaでプログラム的にExcelに変換する
以下の手順に従って、スキャンしたPDFファイルをOCRを使用してExcelに変換できます。
- AsposeOcrクラスオブジェクトを作成します。
- DocumentRecognitionSettingsクラスで設定を指定します。
- RecognizePdfメソッドを使用してスキャンしたPDFファイルを認識します。
- 出力OCR結果をExcelファイルとして保存します。
次のコードスニペットは、スキャンしたPDFをJavaでプログラムによってExcelファイルに変換する方法を詳しく説明しています。
// スキャンされたPDFファイルのパス
String fullPath = "scanned.pdf";
// AsposeOcrクラスオブジェクトを初期化します
AsposeOCRPdf api = new AsposeOCRPdf();
// DocumentRecognitionSettingsクラスオブジェクトを初期化します
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// PDFから画像を認識する
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// 結果をExcelXLSXファイルとして保存
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);
無料の評価ライセンスを取得する
無料の一時ライセンスをリクエストすることで、制限なしにOCR操作でスキャンされたPDFからExcelへのコンバーターを作成するためのAPIを評価できます。
結論
この記事では、スキャンしたPDFファイルをJavaでプログラム的にOCR機能を使用してExcelファイルに変換する方法を理解しました。さらに、ドキュメントにアクセスして、その他のOCR関連の機能を確認してください。ご不明な点がございましたら、フォーラムまでお気軽にご連絡ください。