スキャンされたPDFからテキストへのcsharp

スキャンされた PDF ファイルは、基本的に、スキャナーまたはカメラによってキャプチャされた 1 つまたは複数のフラット イメージです。このようなファイルから情報をコピー、貼り付け、または処理することはできません。この記事では、スキャンした PDF を C# でテキストに変換する方法について説明します。

スキャンした PDF からテキストへの変換 – C# API のインストール

Aspose.OCR for .NET API を使用して OCR 操作を実行します。画像やスキャンしたPDF文書から光学的に文字を認識できます。 New Releases セクションから DLL ファイルをダウンロードするか、次の NuGet インストール コマンドを使用して、API を構成してください。

PM> Install-Package Aspose.OCR

スキャンした PDF を C# でテキスト文字列に変換する

スキャンした PDF ファイルに対して OCR 操作を実行して、テキスト文字列に変換できます。スキャンした PDF ドキュメントからテキストを印刷するには、次の手順に従う必要があります。

  1. スキャンしたPDFファイルを認識するための設定を行います。
  2. AsposeOcr クラス インスタンスを初期化します。
  3. RecognitionResult クラス オブジェクトを初期化します。
  4. スキャンした PDF からテキストを認識して印刷します。

次のコード スニペットは、C# でスキャンした PDF からテキストを認識する方法を示しています。

// AsposeOcr クラス インスタンスの初期化
AsposeOcr api = new AsposeOcr();

// スキャンしたPDFファイルを認識するための設定を指定する
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// RecognitionResult クラス オブジェクトの初期化
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// スキャンした PDF からテキストを認識して印刷する
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

スキャンした PDF を C# でプログラムによって TXT ファイルに変換する

次の手順で、スキャンした PDF ファイルを TXT ファイルに変換できます。

  1. AsposeOcr クラス オブジェクトをインスタンス化します。
  2. DocumentRecognitionSettings クラス オブジェクトを作成します。
  3. 認識結果を保存し、StringBuilder クラスのインスタンスを初期化します。
  4. 結果を TXT ファイルに保存します。

以下のコード スニペットは、スキャンした PDF ファイルを C# でプログラムによって TXT ファイルに変換する方法を説明しています。

// AsposeOcr クラス インスタンスの初期化
AsposeOcr api = new AsposeOcr();

// PDF から画像を認識する           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 認識結果を保存
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// StringBuilder クラス オブジェクトの初期化
StringBuilder builder = new StringBuilder();

// 結果をTXTファイルに保存
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

無料の評価ライセンスを入手

無料の評価ライセンス をリクエストして、API を最大限にテストすることができます。

結論

この記事では、スキャンした PDF を C# を使用してプログラムでテキスト文字列またはテキスト ファイルに変換する方法を学習しました。さらに、ドキュメント にアクセスして、API の他のいくつかの機能を確認することもできます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目