スキャンしたPDFファイルには、テキストを選択または編集できない画像が含まれています。特定の状況では、スキャンしたPDFをWord文書に変換する必要がある場合があります。この記事では、C#を使用してプログラムでスキャンしたPDFをDOCXまたはDOC形式のWord文書に変換する方法を学習します。
スキャンされたPDFからWordへのDOCXコンバーター– C#APIのインストール
Aspose.OCR for .NET APIでOCR操作を実行し、C#を使用してプログラムでAspose.Words for .NET APIを使用してWord文書を作成することにより、スキャンしたPDFファイルを操作できます。 新しいリリースからDLLファイルをダウンロードするか、次のNuGetインストールコマンドを使用して、APIを構成できます。
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
スキャンしたPDFをC#を使用してプログラムでWord文書に変換する
テキストを光学的に認識することにより、スキャンしたPDFファイルをWord文書に変換できます。 OCR操作により、スキャンされたPDFがテキストに変換され、Word文書がDOCまたはDOCX形式で生成されます。スキャンしたPDFをWord文書に変換するには、以下の手順に従ってください。
- AsposeOcrクラスインスタンスを初期化します。
- DocumentRecognitionSettingsクラスを使用してPDFから画像を認識します。
- StringBuilderクラスオブジェクトを初期化し、テキストを保存します。
- DocumentクラスでWord文書を初期化します。
- フォントと段落の書式を指定します。
- 出力Word文書をDOCXまたはDOCファイルとして保存します。
次のコードスニペットは、スキャンしたPDFファイルをC#を使用してプログラムでWord文書に変換する方法を示しています。
無料の評価ライセンスを取得する
無料の一時ライセンスをリクエストすることで、APIをフル稼働でテストできます。
結論
この記事では、スキャンしたPDFファイルをC#を使用してプログラムでDOCXまたはDOC形式のWord文書に変換する方法を学習しました。さらに、ドキュメントにアクセスすると、他のいくつかのOCR関連機能を調べることができます。ご不明な点がございましたら、フォーラムまでお気軽にお問い合わせください。
関連項目
ヒント:PowerPointプレゼンテーションからWord文書を取得する必要がある場合は、AsposeプレゼンテーションからWord文書コンバーターを使用できます。