スキャンされた PDF ファイルは、基本的に、スキャナーまたはカメラによってキャプチャされた 1 つまたは複数のフラット イメージです。このようなファイルから情報をコピー、貼り付け、または処理することはできません。この記事では、スキャンした PDF を C# でテキストに変換する方法について説明します。
- スキャンした PDF からテキストへの変換 – C# API のインストール
- スキャンした PDF を C# でテキスト文字列に変換する
- スキャンした PDF を C# でプログラムによって TXT ファイルに変換する
スキャンした PDF からテキストへの変換 – C# API のインストール
Aspose.OCR for .NET API を使用して OCR 操作を実行します。画像やスキャンしたPDF文書から光学的に文字を認識できます。 New Releases セクションから DLL ファイルをダウンロードするか、次の NuGet インストール コマンドを使用して、API を構成してください。
PM> Install-Package Aspose.OCR
スキャンした PDF を C# でテキスト文字列に変換する
スキャンした PDF ファイルに対して OCR 操作を実行して、テキスト文字列に変換できます。スキャンした PDF ドキュメントからテキストを印刷するには、次の手順に従う必要があります。
- スキャンしたPDFファイルを認識するための設定を行います。
- AsposeOcr クラス インスタンスを初期化します。
- RecognitionResult クラス オブジェクトを初期化します。
- スキャンした PDF からテキストを認識して印刷します。
次のコード スニペットは、C# でスキャンした PDF からテキストを認識する方法を示しています。
// AsposeOcr クラス インスタンスの初期化
AsposeOcr api = new AsposeOcr();
// スキャンしたPDFファイルを認識するための設定を指定する
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// RecognitionResult クラス オブジェクトの初期化
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// スキャンした PDF からテキストを認識して印刷する
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
スキャンした PDF を C# でプログラムによって TXT ファイルに変換する
次の手順で、スキャンした PDF ファイルを TXT ファイルに変換できます。
- AsposeOcr クラス オブジェクトをインスタンス化します。
- DocumentRecognitionSettings クラス オブジェクトを作成します。
- 認識結果を保存し、StringBuilder クラスのインスタンスを初期化します。
- 結果を TXT ファイルに保存します。
以下のコード スニペットは、スキャンした PDF ファイルを C# でプログラムによって TXT ファイルに変換する方法を説明しています。
// AsposeOcr クラス インスタンスの初期化
AsposeOcr api = new AsposeOcr();
// PDF から画像を認識する
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 認識結果を保存
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// StringBuilder クラス オブジェクトの初期化
StringBuilder builder = new StringBuilder();
// 結果をTXTファイルに保存
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
無料の評価ライセンスを入手
無料の評価ライセンス をリクエストして、API を最大限にテストすることができます。
結論
この記事では、スキャンした PDF を C# を使用してプログラムでテキスト文字列またはテキスト ファイルに変換する方法を学習しました。さらに、ドキュメント にアクセスして、API の他のいくつかの機能を確認することもできます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。