Convertir Word DOC DOCX a HTML MHTML

Este artículo cubre cómo convertir documentos de Word DOC DOCX a HTML o MHTML usando C# o VB.NET. Aspose.Words for .NET La API se puede utilizar para realizar esta conversión con bastante facilidad. La conversión de documentos de Microsoft Word es un caso de uso popular, por lo que la API admite diferentes opciones. Puede echar un vistazo a los encabezados que se tratan en este artículo:

API de conversión de C# Word a HTML o MHTML

Aspose.Words for .NET API está especialmente diseñado para funcionar con formatos de archivo compatibles con Microsoft Word. Puede convertir un archivo DOCX o DOC a formato de archivo HTML o MHTML descargando la API desde la sección Nuevas versiones, o instalándola desde NuGet usando el siguiente comando:

Install-Package Aspose.Words -Version 20.9.0

Convierta Word DOC o DOCX a HTML en C#

Puede convertir de manera eficiente un documento de Word (DOC/DOCX) en una página web HTML mediante programación en aplicaciones .NET usando C# o VB.NET. Debe seguir los pasos a continuación para la conversión:

  1. Cargar documento de Word DOCX de entrada
  2. Inicializar una instancia de HtmlSaveOptions
  3. Guarde el archivo HTML de salida

El siguiente fragmento de código sigue estos pasos y muestra cómo convertir DOC/DOCX a HTML usando C# o VB.NET:

// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "Test File.docx");

// Establecer HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Html;

// Guarde el documento en HTML
doc.Save(dataDir + "Document.html", options);

Convierta Word DOC o DOCX a HTML con información de ida y vuelta en C#

Cierta información adicional se guarda durante la conversión de Word a HTML. Se conoce como información de ida y vuelta y es útil para los escenarios en los que el archivo HTML convertido se vuelve a representar como un documento de Word. Puede seguir estos pasos para convertir DOC/DOCX a HTML usando C#:

  1. Cargue el documento de Word de entrada
  2. Establezca Exportar información de ida y vuelta en verdadero
  3. Guarde el archivo HTML de salida

El fragmento de código a continuación explica cómo convertir un archivo Word DOC/DOCX a HTML con información de ida y vuelta usando C# o VB.NET:

// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "Test File (doc).docx");

HtmlSaveOptions options = new HtmlSaveOptions();

// La propiedad HtmlSaveOptions.ExportRoundtripInformation especifica
// Ya sea para escribir la información de ida y vuelta al guardar en HTML, MHTML o EPUB.
// El valor predeterminado es verdadero para HTML y falso para MHTML y EPUB.
options.ExportRoundtripInformation = true;
            
doc.Save(dataDir + "ExportRoundtripInformation_out.html", options);

Convierta Word DOC o DOCX a MHTML en C#

Vale la pena mencionar el formato de archivo MHTML cuando necesita un solo archivo HTML con imágenes y fuentes incrustadas. Puede convertir un documento de Word (DOC/DOCX) a MHTML con los siguientes pasos:

  1. Cargar archivo DOC/DOCX de origen
  2. Establezca Guardar formato en MHTML

El fragmento de código a continuación muestra cómo convertir un documento de Word (DOC/DOCX) a MHML usando C# o VB.NET:

// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "Test File.docx");

// Establecer HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Mhtml;

// Guarde el documento en MHTML
doc.Save(dataDir + "Document.mhtml", options);

Conclusión

En este artículo, hemos cubierto cómo convertir documentos de Word a archivos HTML o MHTML en C# sin necesidad de instalar la aplicación Microsoft Word. Además, ha aprendido con ejemplos y pasos detallados para realizar llamadas a la API para exportar documentos de Word a los formatos de archivo requeridos. Además, puede echar un vistazo a Referencias API y Documentación. Además, puede escribirnos y preguntar sobre cualquier cosa en Foro de soporte gratuito.

Ver también