スキャンされたPDFからWordOCRへのcsharp

スキャンしたPDFファイルには、テキストを選択または編集できない画像が含まれています。特定の状況では、スキャンしたPDFをWord文書に変換する必要がある場合があります。この記事では、C#を使用してプログラムでスキャンしたPDFをDOCXまたはDOC形式のWord文書に変換する方法を学習します。

スキャンされたPDFからWordへのDOCXコンバーター– C#APIのインストール

Aspose.OCR for .NET APIでOCR操作を実行し、C#を使用してプログラムでAspose.Words for .NET APIを使用してWord文書を作成することにより、スキャンしたPDFファイルを操作できます。 新しいリリースからDLLファイルをダウンロードするか、次のNuGetインストールコマンドを使用して、APIを構成できます。

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

スキャンしたPDFをC#を使用してプログラムでWord文書に変換する

テキストを光学的に認識することにより、スキャンしたPDFファイルをWord文書に変換できます。 OCR操作により、スキャンされたPDFがテキストに変換され、Word文書がDOCまたはDOCX形式で生成されます。スキャンしたPDFをWord文書に変換するには、以下の手順に従ってください。

  1. AsposeOcrクラスインスタンスを初期化します。
  2. DocumentRecognitionSettingsクラスを使用してPDFから画像を認識します。
  3. StringBuilderクラスオブジェクトを初期化し、テキストを保存します。
  4. DocumentクラスでWord文書を初期化します。
  5. フォントと段落の書式を指定します。
  6. 出力Word文書をDOCXまたはDOCファイルとして保存します。

次のコードスニペットは、スキャンしたPDFファイルをC#を使用してプログラムでWord文書に変換する方法を示しています。

無料の評価ライセンスを取得する

無料の一時ライセンスをリクエストすることで、APIをフル稼働でテストできます。

結論

この記事では、スキャンしたPDFファイルをC#を使用してプログラムでDOCXまたはDOC形式のWord文書に変換する方法を学習しました。さらに、ドキュメントにアクセスすると、他のいくつかのOCR関連機能を調べることができます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。

関連項目

ヒント:PowerPointプレゼンテーションからWord文書を取得する必要がある場合は、AsposeプレゼンテーションからWord文書コンバーターを使用できます。