スキャンされたPDFファイルには画像形式のデータが含まれており、そのようなドキュメントからの情報が必要になる場合があります。特定の状況では、スキャンされたPDFファイルに、Excelで操作する必要のある数値情報が含まれている場合があります。それに応じて、OCR操作を実行してExcelファイルを作成できます。この記事では、C#を使用してプログラムでOCR機能を使用してスキャンしたPDFからExcelへのコンバーターを作成する方法について説明します。
OCRを使用してスキャンしたPDFからExcelへのコンバーターを作成– C#APIのインストール
Aspose.OCR for .NETAPIによって提供されるOCR機能を使用できます。 New ReleasesセクションからDLLファイルをダウンロードするか、以下のNuGetインストールコマンドを使用して、OCRを使用してスキャンしたPDFからExcelへのコンバーターを簡単に作成できます。
PM> Install-Package Aspose.OCR
スキャンしたPDFをC#でプログラム的にExcelに変換する
以下の手順に従って、スキャンしたPDFドキュメントをOCRを使用してExcelファイルに変換できます。
- AsposeOcrクラスオブジェクトをインスタンス化します。
- DocumentRecognitionSettingsクラスオブジェクトを指定します。
- RecognizePdfメソッドでスキャンしたPDFファイルを認識します。
- SaveMultipageDocumentメソッドを使用して出力Excelファイルを保存します。
次のコードサンプルは、C#を使用してスキャンしたPDFをExcelに変換する方法を説明しています。
// スキャンされたPDFファイルのパス
string path = "Scanned.pdf";
// AsposeOcrcalssオブジェクトを初期化します
AsposeOcr api = new AsposeOcr();
// PDFファイルを認識するための設定を指定します
DocumentRecognitionSettings settings = new DocumentRecognitionSettings();
settings.StartPage = 0;
settings.PagesNumber = 1;
// スキャンしたPDFファイルからページを認識する
List<RecognitionResult> res = api.RecognizePdf(path , settings);
// 出力結果をExcelファイルとしてXLSX形式で保存します
AsposeOcr.SaveMultipageDocument("output.xlsx", SaveFormat.Xlsx, res);
無料の評価ライセンスを取得する
無料の一時ライセンスをリクエストすることで、スキャンしたPDFをフル容量でExcelに変換する機能を評価できます。
結論
この記事では、OCR操作を適用してテキストを光学的に認識することにより、スキャンしたPDFファイルをExcelに変換する方法を確認しました。これは、CSVファイルがスキャナーでスキャンされてPDFファイルが作成される場合などのシナリオで役立ちます。 C#を使用してプログラムでExcelファイルに変換できます。さらに、ドキュメントを参照すると、APIによって提供される他のOCR関連の機能を確認できます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。