スキャンされたPDFからテキストへのCsharp

スキャンされたPDFファイルは、基本的にスキャナーまたはカメラによってキャプチャされた1つ以上のフラットな画像です。このようなファイルから情報をコピー、貼り付け、または処理することはできません。この記事では、スキャンしたPDFをC#でテキストに変換する方法について説明します。

スキャンされたPDFからテキストへのコンバーター– C#APIのインストール

Aspose.OCR for .NETAPIはOCR操作を実行するために使用されます。画像やスキャンしたPDF文書から文字を光学的に認識できます。 新しいリリースセクションからDLLファイルをダウンロードするか、次のNuGetインストールコマンドを使用して、APIを構成してください。

PM> Install-Package Aspose.OCR

スキャンしたPDFをC#でテキスト文字列に変換する

スキャンしたPDFファイルに対してOCR操作を実行することにより、そのファイルをテキスト文字列に変換できます。スキャンしたPDFドキュメントからテキストを印刷するには、以下の手順に従う必要があります。

  1. スキャンしたPDFファイルを認識するための設定を指定します。
  2. AsposeOcrクラスインスタンスを初期化します。
  3. RecognitionResultクラスオブジェクトを初期化します。
  4. スキャンしたPDFからテキストを認識した後、テキストを印刷します。

次のコードスニペットは、C#でスキャンしたPDFからテキストを認識する方法を示しています。

// AsposeOcrクラスインスタンスを初期化します
AsposeOcr api = new AsposeOcr();

// スキャンしたPDFファイルを認識するための設定を指定します
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// RecognitionResultクラスオブジェクトを初期化します
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// スキャンしたPDFからテキストを認識して印刷します
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

スキャンしたPDFをC#でプログラム的にTXTファイルに変換する

次の手順で、スキャンしたPDFファイルをTXTファイルに変換できます。

  1. AsposeOcrクラスオブジェクトをインスタンス化します。
  2. DocumentRecognitionSettingsクラスオブジェクトを作成します。
  3. 認識結果を保存し、StringBuilderクラスインスタンスを初期化します。
  4. 結果をTXTファイルに保存します。

以下のコードスニペットは、スキャンしたPDFファイルをC#でプログラムによってTXTファイルに変換する方法を説明しています。

// AsposeOcrクラスインスタンスを初期化します
AsposeOcr api = new AsposeOcr();

// PDFから画像を認識する           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 認識結果を保存する
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// StringBuilderクラスオブジェクトを初期化します
StringBuilder builder = new StringBuilder();

// 結果をTXTファイルに保存します
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

無料の評価ライセンスを取得する

無料の評価ライセンスをリクエストして、APIを最大限にテストできます。

結論

この記事では、スキャンしたPDFをC#を使用してプログラムでテキスト文字列またはテキストファイルに変換する方法を学習しました。さらに、ドキュメントにアクセスして、APIの他のいくつかの機能を確認できます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目