検索可能なPDFJavaにスキャン

PDFファイルは、スキャナーまたはカメラデバイスからの画像を使用して作成される場合があります。特定の状況では、スキャンしたPDFファイルをOCRを使用して検索可能なPDFファイルに変換し、PDFファイルのテキストコンテンツを操作できるようにする必要がある場合があります。これに従って、この記事では、Javaを使用してプログラムでOCR機能を使用してスキャンしたPDFを検索可能なPDFに変換する方法について説明します。

スキャンされたPDFからOCRによる検索可能なPDF–JavaAPIのインストール

Aspose.OCR for Java APIを使用して、OCR機能を使用してPDFファイル内のテキストを光学的に認識できます。 New ReleasesセクションからJARファイルをダウンロードするか、以下のMaven仕様を使用して、APIをインストールするだけです。

リポジトリ:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

依存:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

スキャンしたPDFをJavaを使用してプログラムで検索可能なPDFに変換する

スキャンしたPDFファイルの内容をOCRで認識できます。これにより、スキャンしたPDFファイルを次の手順で検索可能なPDFドキュメントに変換できます。

  1. AsposeOcrクラスオブジェクトを作成します。
  2. RecognizePdfメソッドを使用してスキャンしたPDFからデータを認識します。
  3. DocumentRecognitionSettingsクラスを使用して、OCR認識のページ番号を設定します。
  4. 出力OCR結果を検索可能なPDFファイルとして保存します。

次のコードスニペットは、スキャンしたPDFをJavaでプログラムによって検索可能なPDFファイルに変換する方法を詳しく説明しています。

無料の評価ライセンスを取得する

無料の一時ライセンスをリクエストすることで、制限なしにOCR操作でスキャンされたPDFのテキストを認識する機能を評価できます。

結論

この記事では、スキャンしたPDFファイルをJavaのOCR機能を使用して検索可能なPDFドキュメントに変換する方法を学習しました。さらに、ドキュメントにアクセスすると、APIの他のOCR関連の機能を確認できます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目