この記事では、Python アプリケーションで Word DOCX または DOC ファイルからプレーン テキストを抽出する最も簡単な方法を説明します。この記事を読めば、DOCX または DOC ファイルを Python で TXT に変換する方法を学ぶことができます。
MS Word は、リッチ テキスト ドキュメントを作成できる一般的なワープロ アプリケーションです。 MS Word では、請求書、技術文書、レポートなど、さまざまなドキュメントが作成されています。 DOC および DOCX は、MS Word がドキュメントの保存に使用するファイル形式です。
プログラマーは、Python アプリケーション内からプレーン テキストを抽出するために、多数の Word DOC/DOCX ファイルを処理する必要がある場合があります。それでは、Python で DOC または DOCX から TXT への変換を実行する方法を見てみましょう。
Python DOCX から TXT へのコンバーター - 無料ダウンロード
Aspose.Words for Python は、DOC や DOCX などの一般的なテキスト ドキュメントを操作するための幅広い機能を備えた素晴らしいライブラリです。ライブラリは、Word 文書からテキストを処理および取得する方法を容易にします。したがって、このライブラリを使用して DOC/DOCX ファイルを TXT 形式に変換します。
次の pip コマンドを使用して、Aspose.Words for Python をアプリケーションにインストールできます。
pip install aspose-words
Python で DOCX を TXT に変換する方法
Aspose.Words for Python を使用すると、DOCX から TXT への変換が簡素化され、以下に示すように、いくつかの手順で実行できます。
- ディスクから DOCX ファイルを読み込みます。
- DOCX を TXT 形式で目的の場所に保存します。
テキストを抽出するために、Word 文書全体をページごと、または行ごとに解析する必要はありません。 Python でこれらの手順を実行して、DOCX ファイルを TXT 形式に変換する方法を見てみましょう。
Python で DOC を TXT として保存する
Python で DOC または DOCX ファイルを TXT として保存する手順は次のとおりです。
- Document クラスを使用して DOC ファイルを読み込みます。
- Document.save(filePath) メソッドを使用して DOC を TXT として保存し、ファイルのパスをパラメーターとして渡します。
次のコード サンプルは、Python で DOC を TXT に変換する方法を示しています。
import aspose.words as aw
# DOCファイルをロード
doc = aw.Document("document.doc")
# DOC を TXT として保存
doc.save("doc-to-text.txt")
Python DOC から TXT へのコンバーター - 無料ライセンスを取得
無料の一時ライセンス を使用して、評価制限なしで DOC ファイルを TXT 形式に変換できます。
結論
この記事では、Python で DOC または DOCX ファイルを TXT 形式に変換する方法を学びました。コード サンプルを使用して、DOCX ファイルを TXT として Python の目的の場所に読み込んで保存する方法を確認しました。さらに、Aspose.Words for Python のドキュメントにアクセスして、ライブラリの詳細を調べることができます。ご不明な点がございましたら、フォーラム からお気軽にお問い合わせください。