本文提供了从 Python 应用程序中的 Word DOCX 或 DOC 文件中提取纯文本的最简单方法。阅读本文后,您将学习如何在 Python 中将 DOCX 或 DOC 文件转换为 TXT。
MS Word 是一种流行的文字处理应用程序,可让您创建富文本文档。在 MS Word 中创建了广泛的文档,包括发票、技术文档、报告等。 DOC 和 DOCX 是 MS Word 用于存储文档的文件格式。
作为程序员,您可能需要处理一堆 Word DOC/DOCX 文件以从 Python 应用程序中提取纯文本。那么让我们看看如何在 Python 中执行 DOC 或 DOCX 到 TXT 的转换。
Python DOCX 到 TXT 转换器 - 免费下载
Aspose.Words for Python 是一个了不起的库,具有广泛的功能来处理流行的文本文档,包括 DOC 和 DOCX。该库简化了从 Word 文档中处理和检索文本的方式。因此,我们将使用该库将 DOC/DOCX 文件转换为 TXT 格式。
您可以使用以下 pip 命令在您的应用程序中安装 Aspose.Words for Python。
pip install aspose-words
如何在 Python 中将 DOCX 转换为 TXT
Aspose.Words for Python 简化了 DOCX 到 TXT 的转换,您可以在几个步骤中执行,如下所述:
- 从磁盘加载 DOCX 文件。
- 将 DOCX 以 TXT 格式保存到所需位置。
您无需逐页或逐行解析整个 Word 文档即可从中提取文本。现在让我们看看如何在 Python 中执行这些步骤以将 DOCX 文件转换为 TXT 格式。
在 Python 中将 DOC 保存为 TXT
以下是在 Python 中将 DOC 或 DOCX 文件另存为 TXT 的步骤。
- 使用 Document 类加载 DOC 文件。
- 使用 Document.save(filePath) 方法将 DOC 保存为 TXT,并将文件的路径作为参数传递。
以下代码示例展示了如何在 Python 中将 DOC 转换为 TXT。
import aspose.words as aw
# 加载 DOC 文件
doc = aw.Document("document.doc")
# 将文档另存为 TXT
doc.save("doc-to-text.txt")
Python DOC 到 TXT 转换器 - 获得免费许可证
您可以使用 免费临时许可证 将 DOC 文件转换为 TXT 格式,而不受评估限制。
结论
在本文中,您学习了如何在 Python 中将 DOC 或 DOCX 文件转换为 TXT 格式。在代码示例的帮助下,您已经了解了如何将 DOCX 文件作为 TXT 加载并保存到 Python 中的所需位置。此外,您可以访问 Aspose.Words for Python 的文档以了解有关该库的更多信息。如果您有任何问题,请随时通过我们的 论坛 告诉我们。