Microsoft Word Dateiformate DOC/DOCX sind berühmt, weil das Textverarbeitungsprogramm eine Vielzahl von Funktionen zum Organisieren und Erklären von Informationen unterstützt. Ebenso ist das HTML Dateiformat hilfreich, um Informationen in Webanwendungen anzuzeigen. In diesem Artikel lernen Sie die Konvertierung von Word Dateien (DOC/DOCX) in HTML oder HTML5 mit Java kennen. Im Folgenden sind die Anwendungsfälle aufgeführt, die Sie hier untersuchen werden:

Java DOCX zu HTML oder HTML5 Konverter - Installation

Das Wichtigste zuerst: Sie können Aspose.Words for Java API ganz einfach in Ihren Anwendungen konfigurieren. Sie können die JAR Datei im neuen Releases Bereich herunterladen, wo alle APIs fast jeden Monat aktualisiert werden. Darüber hinaus werden alle von Aspose angebotenen Java APIs über das Maven-Repository gehostet. Ebenso kann Aspose.Words for Java-Abhängigkeit in Ihrem Maven Projekt mit den folgenden Konfigurationen definiert werden:

Repository:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Abhängigkeit:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Jetzt sind wir bereit für die Konvertierung von DOCX in HTML in einer Java Anwendung.

Konvertieren Sie Word (DOC/DOCX) mit Java in HTML

Sie können Word in HTML konvertieren, indem Sie die folgenden Schritte ausführen:

  1. Laden Sie die Word quelldatei mit der Erweiterung DOC oder DOCX
  2. Speichern Sie die Datei als Ausgabe HTML

Das folgende Codebeispiel zeigt, wie Sie DOCX mit Java in HTML konvertieren:

// Laden Sie das Dokument von der Festplatte.
Document doc = new Document(dataDir + "TestFile.docx");
// Speichern Sie das Dokument in HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Geben Sie die Vorschau der DOCX Datei ein

Word zu HTML in Java

Vorschau der HTML Datei ausgeben

DOCX zu HTML in Java

So können Sie anhand dieser Screenshots die hohe Wiedergabetreue des Dokument-Renderings feststellen. Die API kann Text, Bilder, Tabellen und vieles mehr konvertieren.

Konvertieren Sie DOCX mit Java in HTML5

HTML5 ist die neueste Version von HTML. Wir haben wiederholte Anfragen zur Unterstützung von HTML5 in der Aspose.Words-API festgestellt. Daher wird die Konvertierung von DOCX in HTML5 unterstützt und Sie können Dateien mit den folgenden Schritten konvertieren:

  1. Laden Sie zunächst die DOCX-Eingabedatei
  2. Legen Sie HtmlSaveOptions fest, während Sie SaveFormat festlegen
  3. Legen Sie den Enumerationswert von HtmlVersion.HTML\5 fest
  4. Ausgabedatei speichern

Das folgende code snippet zeigt, wie DOCX in HTML5 in Java konvertiert wird:

// Laden Sie das Dokument von der Festplatte.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Konvertieren Sie passwortgeschützte Word Dateien mit Java in HTML

DOC oder DOCX Dateien sind manchmal passwortgeschützt oder mit einem Passwort verschlüsselt. Sie können solche Dateien auch in HTML konvertieren. Allerdings benötigen Sie das Passwort beim Laden der Word Datei. Sie können die folgenden Schritte für die Umwandlung von DOCX in HTML ausführen:

  1. Initialisieren Sie zunächst ein Objekt der LoadOptions Klasse
  2. Legen Sie das Passwort fest
  3. Laden Sie die verschlüsselte DOCX Datei
  4. Konvertieren Sie DOCX in HTML

Ebenso zeigt das folgende Codebeispiel, wie Sie eine passwortgeschützte DOCX Datei mit Java in HTML konvertieren:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Laden Sie das Dokument von der Festplatte.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Speichern Sie das Dokument im HTML-Format.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Konvertieren Sie Word mit Java in MHTML

MHTML Dateien sind einzelne Dateien, die eingebettete Inhalte und Medien enthalten. Sie können Word Dateien (DOC/DOCX) mit den folgenden Schritten in MHTML konvertieren:

  1. Eingabe-DOCX Datei laden
  2. Speichern Sie die MHTML-Ausgabedatei mit SaveFormat.MHTML

Das folgende code snippet basiert auf diesen Schritten. Daher zeigt es, wie man DOCX mit Java in MHML konvertiert:

// Laden Sie ein Word Dokument von der Festplatte.
Document doc = new Document(dataDir + "TestFile.docx");
// Speichern Sie das Dokument in MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Fazit

Abschließend haben wir die Konvertierung von Word Dokumenten gelernt, ohne Microsoft Word zu benötigen. Zum Beispiel DOCX zu HTML, MHTML oder HTML5 gemäß Ihren Anforderungen. Ebenso haben wir bei Screenshots beobachtet, dass die Konvertierung mit hoher Genauigkeit und Kompatibilität zwischen den Dateiformaten durchgeführt wird. Sie können die API also in Ihrer eigenen Java-Umgebung ausprobieren. Wenn Sie jedoch beim Einrichten oder Testen der API auf ein Problem stoßen, können Sie sich über die kostenlosen Support-Foren mit uns in Verbindung setzen!

Siehe auch