スキャンしたPDFをC#のOCRで検索可能

PDFファイルは、通常スキャナーまたはイメージングデバイスを使用して作成される画像に基づいている場合があります。スキャンしたPDFファイルをOCRを使用して検索可能なPDFファイルに変換し、ドキュメント内のテキストを編集または更新できるようにすることができます。そのシナリオに従って、この記事では、C#を使用してプログラムでOCR操作を実行してスキャンしたPDFを検索可能なPDFに変換する方法について説明します。

スキャンされたPDFからOCRによる検索可能なPDF– C#APIのインストール

Aspose.OCR for .NET APIを使用して、スキャンしたPDFファイルに対してOCR操作を実行できます。 新しいリリースセクションからDLLファイルをダウンロードするか、次のNuGetインストールコマンドを使用して、APIを構成するだけです。

PM> Install-Package Aspose.OCR

スキャンしたPDFをC#を使用してプログラムで検索可能なPDFに変換する

以下の手順に従って、テキストを光学的に認識しながら、スキャンしたPDFファイルを検索可能なPDFドキュメントに変換できます。

  1. AsposeOcrクラスインスタンスを初期化します。
  2. RecognizePdfメソッドを使用してPDFから画像を認識します。
  3. DocumentRecognitionSettingsクラスを使用して、OCR認識にさまざまなプロパティを設定します。
  4. OCRの結果を検索可能なPDFファイルとして保存します。

以下のコードスニペットは、C#を使用してプログラムでスキャンしたPDFを検索可能なPDFドキュメントに変換する方法を説明しています。

// スキャンされた複数ページのPDFパス
string fullPath = "multi_page.pdf";

// AsposeOcrクラスオブジェクトを初期化します
AsposeOcr api = new AsposeOcr();

// PDFから画像を認識する           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 結果を検索可能なPDFとして保存
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

無料の評価ライセンスを取得する

無料の一時ライセンスをリクエストすることで、制限なしにOCR操作でスキャンされたPDFのテキストを認識する機能を評価できます。

結論

この記事では、C#でプログラムによってOCR操作を実行することにより、スキャンしたPDFファイルを検索可能なPDFドキュメントに変換する方法を学習しました。さらに、ドキュメントにアクセスすると、APIが提供する他のいくつかのOCR関連機能を確認できます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目