HTML 格式很受欢迎,因为几乎所有计算机环境都支持它。 WORD 到 HTML 或 MHTML 的转换在您需要使用 C++ 在 Web 应用程序中显示此类文件的情况下很有帮助。 Aspose.Words for C++ API 是最佳选择,因为它的特性和效率。您可以通过将 Microsoft Word 文件 (DOC/DOCX) 转换为 HTML 或 MHTML 格式来丰富您的 C++ 应用程序。以下是本文的大纲,我们将详细探讨 Word 转换:

C++ Microsoft Word 文件转换器 API – 安装

我们需要安装 Aspose.Words for C++ API 来转换 Microsoft Word (DOCX/DOC) 文件。您可以轻松地从 NuGet 库安装 API,或在控制台上使用以下命令安装它。

Install-Package Aspose.Words.Cpp -Version 20.8.0

使用 C++ 将 Word (DOCX/DOC) 转换为 HTML

当您想要呈现内容以便在浏览器中显示内容时,Word 到 HTML 的转换很有帮助。您的 C++ 应用程序可以通过以下步骤快速执行转换:

  1. 加载源word文件
  2. 以 HTML 格式保存文档

下面的代码展示了如何使用 C++ 将 word 转换为 HTML:

// 从
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Test File.docx");

// 以 HTML 格式保存 word 文档
doc->Save(u"Document_out.html", SaveFormat::Html);

使用 C++ 将 Word 转换为带有嵌入式字体的 HTML

Word 文件 (DOCX/DOC) 可能包含某些平台上可能不支持的自定义字体。在这种情况下,字体在输出结果中可能会出现乱码。但是,Aspose.Words for C++ API 允许您使用 Base64 编码将字体资源嵌入到 HTML 中。您可以设置 ExportFontsAsBase64 属性,该属性将在输出 HTML 文件中嵌入字体。您需要按照以下步骤来实现这些要求:

  1. 加载源 DOCX 文件
  2. 设置 ExportFontsAsBase64 属性
  3. 保存输出 HTML 文件

以下代码片段显示了如何使用 C++ 将 Word 转换为带有嵌入式字体的 HTML:

// 加载源 DOCX 文件
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Document.docx");

// 初始化 HtmlSaveOptions 对象
System::SharedPtr<HtmlSaveOptions> saveOptions = System::MakeObject<HtmlSaveOptions>();
saveOptions->set_ExportFontResources(true);
saveOptions->set_ExportFontsAsBase64(true);
        
// 保存输出 HTML
System::String outputPath = u"ExportFontsAsBase64.html";
doc->Save(outputPath, saveOptions);

此外,如果您使用记事本编辑 HTML 文件,或在浏览器中查看源代码,您会注意到嵌入到文件中的 Base64 字体。以下屏幕截图显示了输出 HTML 文件的示例:

将 Word 转换为 HTML

在 C++ 中使用往返信息将 Word 转换为 HTML

Microsoft Word 文档可以包含许多 HTML 文件格式不支持的信息和功能。有时您需要将 Word 转换为 HTML,然后再转换回 Word 格式。为了确保这些转换之间的最大保真度,Aspose.Words for C++ API 可以额外保存一些信息,称为“往返信息”。让我们按照以下步骤来测试这样的转换:

  1. 加载源 DOCX 文件
  2. ExportRoundtripInformation 设置为 true
  3. 保存输出 HTML 文件

下面的代码片段显示了如何使用 C++ 将 Word 转换为带有往返信息的 HTML:

// 加载输入 DOCX 文件
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Document.doc");

// 设置 HtmlSaveOptions
System::SharedPtr<HtmlSaveOptions> saveOptions = System::MakeObject<HtmlSaveOptions>();
saveOptions->set_ExportFontResources(true);
saveOptions->set_ExportFontsAsBase64(true);

// 保存输出 HTML 文件        
System::String outputPath = u"ExportFontsAsBase64.html";
doc->Save(outputPath, saveOptions);

在 C++ 中将 Word 转换为 MHTML

MHTML 文件格式很受欢迎,因为它包含单个输出文件中的所有内容。您可以使用 C++ 将 Word 文件 (DOCX/DOC) 转换为 MHTML 格式,步骤如下:

  1. 加载源 DOCX 文件
  2. 以 MHTML 格式保存输出

下面的代码片段显示了如何使用 C++ 将 Word 转换为 MHTML:

// 将文档加载到 Aspose.Words。
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Test File.docx");

// 以 MHTML 格式保存输出。
doc->Save(u"Document_out.mhtml", SaveFormat::Mhtml);

结论

我们已经学习了如何使用不同的选项将 Word (DOCX/DOC) 转换为 HTML 或 MHTML。还详细讨论了一些功能,例如保存往返信息或将字体嵌入为 Base64 资源。但是,如有任何问题,请随时通过 免费支持论坛 与我们联系。

也可以看看