本文提供了从 Python 应用程序中的 Word DOCX 或 DOC 文件中提取纯文本的最简单方法。阅读本文后,您将学习如何在 Python 中将 DOCXDOC 文件转换为 TXT

在 Python 中将 DOC DOCX 转换为 TXT

MS Word 是一种流行的文字处理应用程序,可让您创建富文本文档。在 MS Word 中创建了广泛的文档,包括发票、技术文档、报告等。 DOC 和 DOCX 是 MS Word 用于存储文档的文件格式。

作为程序员,您可能需要处理一堆 Word DOC/DOCX 文件以从 Python 应用程序中提取纯文本。那么让我们看看如何在 Python 中执行 DOC 或 DOCX 到 TXT 的转换。

Python DOCX 到 TXT 转换器 - 免费下载

Aspose.Words for Python 是一个了不起的库,具有广泛的功能来处理流行的文本文档,包括 DOC 和 DOCX。该库简化了从 Word 文档中处理和检索文本的方式。因此,我们将使用该库将 DOC/DOCX 文件转换为 TXT 格式。

您可以使用以下 pip 命令在您的应用程序中安装 Aspose.Words for Python。

pip install aspose-words

如何在 Python 中将 DOCX 转换为 TXT

Aspose.Words for Python 简化了 DOCX 到 TXT 的转换,您可以在几个步骤中执行,如下所述:

  • 从磁盘加载 DOCX 文件。
  • 将 DOCX 以 TXT 格式保存到所需位置。

您无需逐页或逐行解析整个 Word 文档即可从中提取文本。现在让我们看看如何在 Python 中执行这些步骤以将 DOCX 文件转换为 TXT 格式。

在 Python 中将 DOC 保存为 TXT

以下是在 Python 中将 DOC 或 DOCX 文件另存为 TXT 的步骤。

  • 使用 Document 类加载 DOC 文件。
  • 使用 Document.save(filePath) 方法将 DOC 保存为 TXT,并将文件的路径作为参数传递。

以下代码示例展示了如何在 Python 中将 DOC 转换为 TXT。

import aspose.words as aw

# 加载 DOC 文件
doc = aw.Document("document.doc")

# 将文档另存为 TXT
doc.save("doc-to-text.txt")

Python DOC 到 TXT 转换器 - 获得免费许可证

您可以使用 免费临时许可证 将 DOC 文件转换为 TXT 格式,而不受评估限制。

结论

在本文中,您学习了如何在 Python 中将 DOC 或 DOCX 文件转换为 TXT 格式。在代码示例的帮助下,您已经了解了如何将 DOCX 文件作为 TXT 加载并保存到 Python 中的所需位置。此外,您可以访问 Aspose.Words for Python 的文档以了解有关该库的更多信息。如果您有任何问题,请随时通过我们的 论坛 告诉我们。

也可以看看