Les formats de fichiers Microsoft Word DOC/DOCX sont célèbres car le traitement de texte prend en charge une variété de fonctionnalités pour organiser et expliquer les informations. De même, le format de fichier HTML est utile pour afficher des informations dans les applications Web. Dans cet article, vous apprendrez la conversion de fichiers Word (DOC/DOCX) en HTML ou HTML5 à l’aide de Java. Voici les cas d’utilisation que vous allez explorer ici :

Convertisseur Java DOCX en HTML ou HTML5 - Installation

Tout d’abord, vous pouvez facilement configurer l’API Aspose.Words for Java dans vos applications. Vous pouvez télécharger le fichier JAR à partir de la nouvelle section Releases où toutes les API sont mises à jour presque tous les mois. De plus, toutes les API Java, proposées par Aspose, sont hébergées sur le référentiel Maven. De même, la dépendance Aspose.Words for Java peut être définie dans votre projet Maven avec les configurations suivantes :

Repository:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Dependency:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Nous sommes maintenant prêts pour la conversion DOCX en HTML dans une application Java.

Convertir Word (DOC/DOCX) en HTML en utilisant Java

Vous pouvez convertir Word en HTML en suivant les étapes ci-dessous :

  1. Charger le fichier Word source avec l’extension DOC ou DOCX
  2. Enregistrez le fichier en tant que sortie HTML

L’exemple de code ci-dessous montre comment convertir DOCX en HTML à l’aide de Java :

// Chargez le document à partir du disque.
Document doc = new Document(dataDir + "TestFile.docx");
// Enregistrez le document au format HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Aperçu du fichier DOCX d’entrée

Word en HTML en Java

Aperçu du fichier HTML de sortie

DOCX vers HTML en Java

Vous pouvez donc remarquer la haute fidélité du rendu des documents avec ces captures d’écran. L’API est capable de convertir du texte, des images, des tableaux et bien plus encore.

Convertir DOCX en HTML5 en utilisant Java

HTML5 est la dernière version de HTML. Nous avons noté des demandes répétées de prise en charge de HTML5 dans l’API Aspose.Words. Par conséquent, la conversion DOCX vers HTML5 est prise en charge et vous pouvez convertir des fichiers en procédant comme suit :

  1. Tout d’abord, chargez le fichier DOCX d’entrée
  2. Définissez HtmlSaveOptions lors de la définition de SaveFormat
  3. Définir la valeur d’énumération de HtmlVersion.HTML5
  4. Enregistrer le fichier de sortie

L’extrait de code ci-dessous montre comment convertir DOCX en HTML5 en Java :

// Chargez le document à partir du disque.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Convertir un fichier Word protégé par mot de passe en HTML à l’aide de Java

Les fichiers DOC ou DOCX sont parfois protégés par un mot de passe ou cryptés à l’aide d’un mot de passe. Vous pouvez également convertir ces fichiers en HTML. Cependant, vous aurez besoin du mot de passe lors du chargement du fichier Word. Vous pouvez suivre les étapes ci-dessous pour la conversion DOCX en HTML :

  1. Tout d’abord, initialisez un objet de la classe LoadOptions
  2. Définir le mot de passe
  3. Charger le fichier DOCX crypté
  4. Convertir DOCX en HTML

De même, l’exemple de code suivant montre comment convertir un fichier DOCX protégé par mot de passe en HTML à l’aide de Java :

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Chargez le document à partir du disque.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Enregistrez le document au format HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Convertir Word en MHTML en utilisant Java

Les fichiers MHTML sont des fichiers uniques qui contiennent du contenu et des médias intégrés. Vous pouvez convertir des fichiers Word (DOC/DOCX) en MHTML en procédant comme suit :

  1. Charger le fichier DOCX d’entrée
  2. Enregistrer le fichier MHTML de sortie à l’aide de SaveFormat.MHTML

L’extrait de code ci-dessous est basé sur ces étapes. Par conséquent, il montre comment convertir DOCX en MHML avec Java :

// Charger le document Word à partir du disque.
Document doc = new Document(dataDir + "TestFile.docx");
// Enregistrez le document en MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Conclusion

En conclusion, nous avons appris la conversion de documents Word sans avoir besoin de Microsoft Word. Par exemple, DOCX vers HTML, MHTML ou HTML5 selon vos besoins. De même, nous avons observé avec des captures d’écran que la conversion est effectuée avec une haute fidélité et une compatibilité entre les formats de fichiers. Vous pouvez donc essayer l’API dans votre propre environnement Java. Cependant, si vous rencontrez un problème lors de la configuration ou du test de l’API, vous pouvez nous contacter via Forums d’assistance gratuits !

Voir également