在 Python 中将 DOCX 转换为 TXT

MS Word DOCDOCX 格式通常用于创建富文本文档。您可以将文本、表格、图形、动画和各种其他元素添加到 DOC/DOCX 文档中。但是,在某些情况下,例如解析和分析 Word 文档中的文本,您必须以编程方式将 DOC/DOCX 文件转换为 TXT 格式。为此,本文介绍了如何在 Python 中将 DOC 或 DOCX 文件转换为 TXT 格式。

Python DOC/DOCX 到 TXT 转换器库

要将 DOC 和 DOCX 文件保存为 TXT 格式,我们将使用 Aspose.Words for Python。它是一个强大且高速的库,提供了一系列无缝创建和操作文本文档的功能。此外,它还可以将文档高质量地转换为其他格式。您可以使用以下 pip 命令从 PyPI 将库安装到您的 Python 应用程序中。

> pip install aspose-words

在 Python 中将 DOCX 转换为 TXT

让我们看看如何在 Python 中将 DOCX 文件转换为 TXT。为此,您只需加载 DOCX 文件并将其保存为 TXT 文件。以下是在 Python 中以 TXT 格式保存 DOCX 文件的步骤。

  • 使用 Document 类加载 DOCX 文件。
  • 使用 Document.save() 方法将 DOCX 保存为 TXT。

以下代码示例展示了如何在 Python 中执行 DOCX 到 TXT 的转换。

import aspose.words as aw

# 加载 DOC/DOCX 文档
doc = aw.Document("Input.docx")

# 另存为TXT
doc.save("Output.txt")

获得免费许可证

您可以获得免费的临时许可证 使用 Aspose.Words for Python,而不受评估限制。

结论

在本文中,您学习了如何在 Python 中将 DOC 或 DOCX 文件转换为 TXT 格式。此功能允许您从 DOCX 文件中提取文本并以纯 TXT 文件的形式保存。因此,您可以更方便地分析文本。此外,您可以使用 文档 了解有关该库的更多信息。此外,您可以通过我们的 论坛 分享您的问题或疑问。

也可以看看