Formáty souborů Microsoft Word DOC/DOCX jsou známé, protože textový procesor podporuje řadu funkcí pro uspořádání a vysvětlení informací. Podobně je formát souboru HTML užitečný pro zobrazování informací ve webových aplikacích. V tomto článku se naučíte převod souborů Word (DOC/DOCX) na HTML nebo HTML5 pomocí Java. Níže jsou uvedeny případy použití, které zde budete zkoumat:

Java DOCX to HTML nebo HTML5 Converter – instalace

Za prvé, můžete snadno nakonfigurovat Aspose.Words for Java API ve svých aplikacích. Soubor JAR si můžete stáhnout z nové sekce vydání, kde jsou všechna API aktualizována téměř každý měsíc. Kromě toho jsou všechna Java API nabízená Aspose hostována přes úložiště Maven. Podobně lze ve vašem projektu Maven definovat závislost Aspose.Words for Java s následujícími konfiguracemi:

úložiště:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Závislost:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Nyní jsme všichni připraveni na konverzi DOCX do HTML v aplikaci Java.

Převeďte Word (DOC/DOCX) do HTML pomocí Java

Word můžete převést do HTML pomocí následujících kroků:

  1. Načtěte zdrojový soubor Word s příponou DOC nebo DOCX
  2. Uložte soubor jako výstupní HTML

Ukázka kódu níže ukazuje, jak převést DOCX do HTML pomocí Java:

// Načtěte dokument z disku.
Document doc = new Document(dataDir + "TestFile.docx");
// Uložte dokument do HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Vstupní náhled souboru DOCX

Word to HTML v Javě

Náhled výstupního souboru HTML

DOCX do HTML v Javě

Takže si můžete všimnout vysoké věrnosti vykreslování dokumentů pomocí těchto snímků obrazovky. Rozhraní API je schopné převádět text, obrázky, tabulky a mnoho dalšího.

Převeďte DOCX do HTML5 pomocí Java

HTML5 je nejnovější verze HTML. Zaznamenali jsme opakované žádosti o podporu HTML5 v Aspose.Words API. Proto je podporován převod DOCX do HTML5 a soubory můžete převádět podle následujících kroků:

  1. Nejprve načtěte vstupní soubor DOCX
  2. Při nastavování SaveFormat nastavte HtmlSaveOptions
  3. Nastavte hodnotu výčtu HtmlVersion.HTML5
  4. Uložit výstupní soubor

Níže uvedený fragment kódu ukazuje, jak převést DOCX na HTML5 v Javě:

// Načtěte dokument z disku.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Převeďte soubor Word chráněný heslem do HTML pomocí Java

Soubory DOC nebo DOCX jsou někdy chráněny heslem nebo šifrovány pomocí hesla. Takové soubory můžete také převést do HTML. Při načítání souboru word však budete potřebovat heslo. Pro převod DOCX do HTML můžete postupovat podle následujících kroků:

  1. Nejprve inicializujte objekt třídy LoadOptions
  2. Nastavte heslo
  3. Načtěte zašifrovaný soubor DOCX
  4. Převést DOCX do HTML

Podobně následující ukázka kódu ukazuje, jak převést soubor DOCX chráněný heslem do HTML pomocí Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Načtěte dokument z disku.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Uložte dokument ve formátu HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Převeďte Word do MHTML pomocí Java

Soubory MHTML jsou jednotlivé soubory, které obsahují vložený obsah a média. Soubory Word (DOC/DOCX) můžete převést na MHTML pomocí následujících kroků:

  1. Načtěte vstupní soubor DOCX
  2. Uložte výstupní MHTML soubor pomocí SaveFormat.MHTML

Níže uvedený fragment kódu je založen na těchto krocích. Proto ukazuje, jak převést DOCX na MHML pomocí Java:

// Načíst dokument aplikace Word z disku.
Document doc = new Document(dataDir + "TestFile.docx");
// Uložte dokument do MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Závěr

Nakonec jsme se naučili převádět dokumenty aplikace Word bez potřeby aplikace Microsoft Word. Například DOCX do HTML, MHTML nebo HTML5 podle vašich požadavků. Podobně jsme u snímků obrazovky pozorovali, že převod je prováděn s vysokou věrností a kompatibilitou mezi formáty souborů. Můžete si tedy API vyzkoušet ve svém vlastním prostředí Java. Pokud se však při nastavování nebo testování API setkáte s jakýmkoli problémem, můžete nás kontaktovat prostřednictvím Free Support Forums!

Viz také