Los formatos de archivo DOC/DOCX de Microsoft Word son famosos porque el procesador de texto admite una variedad de funciones para organizar y explicar la información. Asimismo, el formato de archivo HTML es útil para mostrar información en aplicaciones web. En este artículo, aprenderá a convertir archivos de Word (DOC/DOCX) a HTML o HTML5 usando Java. Los siguientes son los casos de uso que explorará aquí:

Conversor de Java DOCX a HTML o HTML5 - Instalación

Lo primero es lo primero, puede configurar fácilmente Aspose.Words for Java API en sus aplicaciones. Puede descargar el archivo JAR de la nueva sección de versiones donde todas las API se actualizan casi todos los meses. Además, todas las API de Java que ofrece Aspose están alojadas en el repositorio de Maven. Del mismo modo, la dependencia de Aspose.Words for Java se puede definir en su proyecto Maven con las siguientes configuraciones:

Repositorio:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Dependencia:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Ahora estamos listos para la conversión de DOCX a HTML en una aplicación Java.

Convierta Word (DOC/DOCX) a HTML usando Java

Puede convertir Word a HTML siguiendo los pasos a continuación:

  1. Cargue el archivo de Word de origen con extensión DOC o DOCX
  2. Guarde el archivo como HTML de salida

El ejemplo de código a continuación muestra cómo convertir DOCX a HTML usando Java:

// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Guarde el documento en HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Vista previa del archivo DOCX de entrada

Word a HTML en Java

Vista previa del archivo HTML de salida

DOCX a HTML en Java

Entonces puede notar la alta fidelidad de la representación de documentos con estas capturas de pantalla. La API es capaz de convertir texto, imágenes, tablas y mucho más.

Convierta DOCX a HTML5 usando Java

HTML5 es la última versión de HTML. Hemos notado solicitudes repetidas para admitir HTML5 en la API de Aspose.Words. Por lo tanto, se admite la conversión de DOCX a HTML5 y puede convertir archivos siguiendo los pasos:

  1. En primer lugar, cargue el archivo DOCX de entrada
  2. Establezca HtmlSaveOptions mientras configura SaveFormat
  3. Establecer el valor de enumeración de HtmlVersion.HTML\5
  4. Guardar archivo de salida

El fragmento de código a continuación muestra cómo convertir DOCX a HTML5 en Java:

// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Convierta un archivo de Word protegido por contraseña a HTML usando Java

Los archivos DOC o DOCX a veces están protegidos con contraseña o encriptados con una contraseña. También puede convertir dichos archivos a HTML. Sin embargo, necesitará la contraseña mientras carga el archivo de Word. Puede seguir los pasos a continuación para la conversión de DOCX a HTML:

  1. En primer lugar, inicialice un objeto de la clase LoadOptions
  2. Establecer la contraseña
  3. Cargue el archivo DOCX encriptado
  4. Convertir DOCX a HTML

Del mismo modo, el siguiente ejemplo de código muestra cómo convertir un archivo DOCX protegido con contraseña a HTML usando Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Cargue el documento desde el disco.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Guarde el documento en formato HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Convertir Word a MHTML usando Java

Los archivos MHTML son archivos individuales que contienen contenidos y medios incrustados. Puede convertir archivos de Word (DOC/DOCX) a MHTML con los siguientes pasos:

  1. Cargar archivo DOCX de entrada
  2. Guarde el archivo MHTML de salida usando SaveFormat.MHTML

El fragmento de código siguiente se basa en estos pasos. Por lo tanto, muestra cómo convertir DOCX a MHML con Java:

// Cargue el documento de Word desde el disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Guarde el documento en MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Conclusión

En conclusión, hemos aprendido a convertir documentos de Word sin necesidad de Microsoft Word. Por ejemplo, DOCX a HTML, MHTML o HTML5 según sus requisitos. Asimismo, hemos observado con capturas de pantalla que la conversión se realiza con alta fidelidad y compatibilidad entre los formatos de archivo. Así que puedes probar la API en tu propio entorno Java. Sin embargo, si tiene algún problema al configurar o probar la API, ¡puede ponerse en contacto con nosotros a través de Foros de soporte gratuitos!

Ver también