Converter Word DOC DOCX para HTML MHTML

Este artigo aborda como converter documentos do Word DOC DOCX para HTML ou MHTML usando C# ou VB.NET. A API Aspose.Words for .NET pode ser usada para realizar essa conversão com bastante facilidade. A conversão de documentos do Microsoft Word é um caso de uso popular, portanto, diferentes opções são suportadas pela API. Você pode dar uma olhada nos títulos que são abordados neste artigo:

C# Word to HTML ou API do conversor MHTML

Aspose.Words for .NET API é especialmente projetado para trabalhar com formatos de arquivo suportados pelo Microsoft Word. Você pode converter um arquivo DOCX ou DOC para o formato de arquivo HTML ou MHTML baixando a API da seção New Releases ou instalando-a em NuGet usando o comando abaixo:

Install-Package Aspose.Words -Version 20.9.0

Converter Word DOC ou DOCX para HTML em C#

Você pode converter com eficiência um documento do Word (DOC/DOCX) em uma página da Web HTML programaticamente em aplicativos .NET usando C# ou VB.NET. Você precisa seguir os passos abaixo para a conversão:

  1. Carregar documento do word DOCX de entrada
  2. Inicialize uma instância de HtmlSaveOptions
  3. Salve o arquivo HTML de saída

O trecho de código a seguir segue estas etapas e mostra como converter DOC/DOCX em HTML usando C# ou VB.NET:

// Carregue o documento do disco.
Document doc = new Document(dataDir + "Test File.docx");

// Definir HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Html;

// Salve o documento em HTML
doc.Save(dataDir + "Document.html", options);

Converter Word DOC ou DOCX para HTML com informações de ida e volta em C#

Algumas informações adicionais são salvas durante a conversão de Word para HTML. É conhecido como informações de ida e volta e é útil para os cenários em que o arquivo HTML convertido é novamente renderizado como um documento do Word. Você pode seguir estas etapas para converter DOC/DOCX para HTML usando C#:

  1. Carregar o documento do word de entrada
  2. Defina ExportRoundtripInformation como verdadeiro
  3. Salve o arquivo HTML de saída

O trecho de código abaixo explica como converter o arquivo Word DOC/DOCX em HTML com informações de ida e volta usando C# ou VB.NET:

// Carregue o documento do disco.
Document doc = new Document(dataDir + "Test File (doc).docx");

HtmlSaveOptions options = new HtmlSaveOptions();

// A propriedade HtmlSaveOptions.ExportRoundtripInformation especifica
// Se as informações de ida e volta devem ser gravadas ao salvar em HTML, MHTML ou EPUB.
// O valor padrão é true para HTML e false para MHTML e EPUB.
options.ExportRoundtripInformation = true;
            
doc.Save(dataDir + "ExportRoundtripInformation_out.html", options);

Converter Word DOC ou DOCX para MHTML em C#

O formato de arquivo MHTML vale a pena mencionar quando você precisa de um único arquivo HTML com imagens e fontes incorporadas. Você pode converter um documento do Word (DOC/DOCX) para MHTML com as etapas abaixo:

  1. Carregar arquivo DOC/DOCX de origem
  2. Defina SaveFormat para MHTML

O trecho de código abaixo mostra como converter um documento do Word (DOC/DOCX) para MHML usando C# ou VB.NET:

// Carregue o documento do disco.
Document doc = new Document(dataDir + "Test File.docx");

// Definir HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Mhtml;

// Salve o documento em MHTML
doc.Save(dataDir + "Document.mhtml", options);

Conclusão

Neste artigo, abordamos como converter documentos do Word em arquivos HTML ou MHTML em C# sem a necessidade de instalar o aplicativo Microsoft Word. Além disso, você aprendeu com exemplos e etapas detalhadas para fazer as chamadas de API para exportar documentos do Word para os formatos de arquivo necessários. Além disso, você pode dar uma olhada em referências de API e Documentação. Além disso, você pode nos escrever e perguntar sobre qualquer coisa no Free Support Forum.

Veja também