Word 到 HTML Python

在各种情况下都需要 Word 到 HTML 的转换,例如在网页上嵌入文档的内容。在本文中,您将学习如何使用 Python 将 MS Word DOCXDOC 文档转换为 HTML。此外,您将学习如何使用不同的选项动态控制 Word 到 HTML 的转换。

Python Word 到 HTML 转换器 API

为了将 Word 文档转换为 HTML,我们将使用 Aspose.Words for Python。它是一个功能强大且功能丰富的 API,用于创建和操作 Word 文档。此外,它还提供了将 Word 文档高保真转换为其他格式的功能。 Aspose.Words for Python 在 PyPI 上可用,您可以使用以下 pip 命令安装它。

pip install aspose-words 

在 Python 中将 Word 文档转换为 HTML

以下是使用 Python 将 Word 文档转换为 HTML 文件的步骤。

  • 使用 Document 类加载 Word 文档。
  • 创建 HtmlSaveOptions 类的对象。
  • 使用 HtmlSaveOptions.exportfontresources 属性启用字体资源的导出。
  • 使用 Document.save() 方法将 Word 文档转换为 HTML。

以下代码示例展示了如何在 Python 中将 DOCX 文件转换为 HTML。

import aspose.words as aw

# 从磁盘加载文档
doc = aw.Document("Document.docx")

# 启用字体导出
options = aw.saving.HtmlSaveOptions()
options.export_font_resources = True
  
# 将文档另存为 HTML
doc.save("Document.html", options)

在 Python 中自定义 Word 到 HTML 的转换

Aspose.Words for Python 还提供了不同的选项来自定义 Word 到 HTML 的转换。例如,您可以转换带有往返信息的文档,指定保存资源文件的文件夹等。

使用往返信息转换 Word 文档

HTML 不支持 MS Word 提供的所有功能,因此,为了模仿 HTML 中的 Word 文档,我们需要保存称为往返信息的附加信息。以下是打开 Word 到 HTML 转换中的往返信息导出的步骤。

  • 使用 Document 类加载 Word 文档。
  • 创建 HtmlSaveOptions 类的对象并将 HtmlSaveOptions.exportroundtripinformation 属性设置为 true。
  • 使用 Document.save() 方法将 Word 文档转换为 HTML,并将 HTML 文件的名称和 HtmlSaveOptions 作为参数传递。

下面的代码示例演示如何将 Word 中的往返信息导出到 HTML 转换。

import aspose.words as aw

# 从磁盘加载文档
doc = aw.Document("Document.docx")

# 启用往返信息
saveOptions = aw.saving.HtmlSaveOptions()
saveOptions.export_roundtrip_information = True 

# 将文档另存为 HTML
doc.save("Document.html", saveOptions)

Word 到 HTML:为资源指定文件夹

您还可以指定要存储所有资源(例如图像、CSS 文件和字体)的文件夹。为此,您可以使用 HtmlSaveOptions.exportfontresources 属性。您还可以分别使用 HtmlSaveOptions.fontsfolder 和 HtmlSaveOptions.imagesfolder 属性为字体和图像指定单独的文件夹。以下是在 Word 到 HTML 转换中使用单独文件夹保存资源的步骤。

  • 使用 Document 类加载 Word 文档。
  • 创建 HtmlSaveOptions 类的对象并将 HtmlSaveOptions.exportfontresources 属性设置为 true。
  • 使用 HtmlSaveOptions.resourcefolder 属性指定资源文件夹的名称。
  • 使用 Document.save() 方法将 Word 文档转换为 HTML,并将 HTML 文件的名称和 HtmlSaveOptions 作为参数传递。

下面的代码示例演示如何在 Word 到 HTML 的转换中指定资源文件夹。

import aspose.words as aw

# 从磁盘加载文档
doc = aw.Document("Document.docx")

# 指定资源文件夹
saveOptions.export_font_resources = True
saveOptions.resource_folder = docs_base.artifacts_dir + "Resources"
saveOptions.resource_folder_alias = "http:#example.com/resources"

# 将文档另存为 HTML
doc.save("Document.html", saveOptions)

获取免费 API 许可证

您可以获得临时许可证 以便在没有评估限制的情况下使用 Aspose.Words for Python。

结论

在本文中,您学习了如何使用 Python 将 Word 文档转换为 HTML。此外,您还了解了如何动态自定义 Word 到 HTML 的转换。此外,您可以使用 documentation 探索 Aspose.Words for Python 的其他功能。此外,您可以通过我们的 论坛 提问。

也可以看看

信息:您可能对另一个 Python API(Aspose.Slides for Python via NET)感兴趣,它允许您将演示文稿转换为图像将图像导入演示文稿