本文提供了從 Python 應用程序中的 Word DOCX 或 DOC 文件中提取純文本的最簡單方法。閱讀本文後,您將學習如何在 Python 中將 DOCX 或 DOC 文件轉換為 TXT。
MS Word 是一種流行的文字處理應用程序,可讓您創建富文本文檔。在 MS Word 中創建範圍廣泛的文檔,包括發票、技術文檔、報告等。 DOC 和 DOCX 是 MS Word 用來存儲文檔的文件格式。
作為程序員,您可能需要處理一堆 Word DOC/DOCX 文件以從 Python 應用程序中提取純文本。那麼讓我們看看如何在 Python 中執行 DOC 或 DOCX 到 TXT 的轉換。
Python DOCX 到 TXT 轉換器 - 免費下載
Aspose.Words for Python 是一個了不起的庫,具有廣泛的功能來處理流行的文本文檔,包括 DOC 和 DOCX。該庫簡化了從 Word 文檔中處理和檢索文本的方式。因此,我們將使用此庫將 DOC/DOCX 文件轉換為 TXT 格式。
您可以使用以下 pip 命令在您的應用程序中安裝 Aspose.Words for Python。
pip install aspose-words
如何在 Python 中將 DOCX 轉換為 TXT
Aspose.Words for Python 簡化了 DOCX 到 TXT 的轉換,您可以在幾個步驟中執行,如下所述:
- 從磁盤加載 DOCX 文件。
- 將 DOCX 作為 TXT 格式保存到所需位置。
您無需逐頁或逐行解析整個 Word 文檔以從中提取文本。現在讓我們看看如何在 Python 中執行這些步驟以將 DOCX 文件轉換為 TXT 格式。
在 Python 中將 DOC 保存為 TXT
以下是在 Python 中將 DOC 或 DOCX 文件另存為 TXT 的步驟。
- 使用 Document 類加載 DOC 文件。
- 使用 Document.save(filePath) 方法將 DOC 保存為 TXT,並將文件的路徑作為參數傳遞。
以下代碼示例顯示瞭如何在 Python 中將 DOC 轉換為 TXT。
import aspose.words as aw
# 加載DOC文件
doc = aw.Document("document.doc")
# 將文檔保存為 TXT
doc.save("doc-to-text.txt")
Python DOC 到 TXT 轉換器 - 獲得免費許可證
您可以使用 免費臨時許可證 將 DOC 文件轉換為 TXT 格式,沒有評估限制。
結論
在本文中,您學習瞭如何在 Python 中將 DOC 或 DOCX 文件轉換為 TXT 格式。借助代碼示例,您了解瞭如何在 Python 中將 DOCX 文件作為 TXT 文件加載和保存到所需位置。此外,您可以訪問 Aspose.Words for Python 的文檔來探索有關該庫的更多信息。如果您有任何疑問,請隨時通過我們的 論壇 告訴我們。