PythonでDOCXをTXTに変換する

MS Word DOCおよびDOCX形式は、リッチテキストドキュメントの作成に一般的に使用されます。テキスト、表、グラフィック、アニメーション、およびその他のさまざまな要素をDOC/DOCXドキュメントに追加できます。ただし、Word文書のテキストを解析および分析する場合など、特定の場合には、プログラムでDOC/DOCXファイルをTXT形式に変換する必要があります。これを実現するために、この記事では、PythonでDOCまたはDOCXファイルをTXT形式に変換する方法について説明します。

Python DOC/DOCXからTXTへのコンバータライブラリ

DOCおよびDOCXファイルをTXT形式で保存するには、Aspose.Words for Pythonを使用します。これは、テキストドキュメントをシームレスに作成および操作するための一連の機能を提供する、強力で高速なライブラリです。さらに、ドキュメントを他の形式に高品質で変換できます。次のpipコマンドを使用して、PyPIからPythonアプリケーションにライブラリをインストールできます。

> pip install aspose-words

PythonでDOCXをTXTに変換する

PythonでDOCXファイルをTXTに変換する方法を見てみましょう。このために必要なのは、DOCXファイルをロードしてTXTファイルとして保存することだけです。以下は、PythonでDOCXファイルをTXT形式で保存する手順です。

  • Documentクラスを使用してDOCXファイルをロードします。
  • Document.save()メソッドを使用してDOCXをTXTとして保存します。

次のコードサンプルは、PythonでDOCXからTXTへの変換を実行する方法を示しています。

import aspose.words as aw

# Load DOC/DOCX document
doc = aw.Document("Input.docx")

# Save as TXT
doc.save("Output.txt")

無料ライセンスを取得する

無料の一時ライセンスを取得、評価の制限なしにAspose.Words for Pythonを使用できます。

結論

この記事では、PythonでDOCまたはDOCXファイルをTXT形式に変換する方法を学びました。この機能を使用すると、DOCXファイルからテキストを抽出し、プレーンなTXTファイルの形式で保存できます。したがって、テキストをより便利に分析できます。さらに、ドキュメントを使用してライブラリについて詳しく知ることができます。また、フォーラムから質問や質問を共有することもできます。

関連項目