C# で PDF を TXT に変換する

プログラマーは、分析や情報抽出などのさらなる処理のために、PDF ファイルからコンテンツをプレーン テキストとして抽出する必要があることがよくあります。適切なツールがない場合、PDF ファイルを処理して PDF 全体を TXT 形式に変換するのは面倒な作業です。そこでこのブログでは、C# でプログラムによって PDF ファイルを TXT 形式に変換する方法を説明します。

PDF から TXT への変換のための C# ライブラリ

Aspose.Words for .NET は、開発者が Word ドキュメントだけでなく、PDF を含む他のさまざまな形式を操作できるようにする素晴らしいドキュメント処理 API です。 Aspose.Words は、広範な機能セットにより、ドキュメントの操作、変換、生成タスクを簡素化します。このライブラリを利用して、.NET アプリケーションで PDF ファイルを TXT 形式に変換します。

以下のコマンドを使用して、NuGet からライブラリをインストールできます。または、リリース セクションから DLL をダウンロードします。

PM> Install-Package Aspose.Words 

C# で PDF を TXT に変換する

Aspose.Words for .NET は、PDF ファイルからテキストを抽出する複雑な操作をすべて隠し、以下で説明するように、いくつかの手順で PDF から TXT への変換を実行できるようにします。

  • PDF ファイルを読み込みます。
  • 単一の関数呼び出しで PDF を TXT 形式に変換します。

したがって、ソース PDF がどれほど大きくても、数行のコードで PDF ファイル内のコンテンツをプレーン テキストに変換できます。この変換を実行するコードを C# で記述してみましょう。

  • まず、Document クラスを使用して PDF を読み込みます。
  • 次に、Document.Save(filePath) メソッドを使用してドキュメントを TXT ファイルとして保存します。

次の C# コード スニペットは、PDF を TXT 形式に変換します。

// PDFファイルをロードする
Document pdf = new Document("document.pdf");

// PDFをTXTとして保存
pdf.Save("pdf.txt", SaveFormat.Text);

無料の API ライセンスを取得する

評価制限なしで PDF ファイルを TXT 形式に変換するための 無料の一時ライセンス を取得できます。

結論

このブログ投稿では、Aspose.Words for .NET ライブラリを使用して C# で PDF を TXT に変換する方法を検討しました。ガイドラインに従い、コード スニペットを使用すると、大きな PDF ファイルを簡単に処理し、プレーン テキストに変換できます。 Aspose.Words はドキュメント処理タスクを簡素化し、アプリケーションでさまざまなドキュメント形式を扱う開発者にとって貴重なツールになります。この .NET ワードプロセッサ ライブラリの ドキュメント にアクセスして、その驚くべき機能を調べることができます。ご質問がございましたら、フォーラム 経由でお気軽にお問い合わせください。

関連項目