Microsoft Word 文件格式 DOC/DOCX 之所以著名,是因為文字處理器支持多種功能來組織和解釋信息。同樣,HTML 文件格式有助於在 Web 應用程序中顯示信息。在本文中,您將學習使用 Java 將 Word 文件 (DOC/DOCX) 轉換為 HTML 或 HTML5。以下是您將在此處探索的用例:

Java DOCX 到 HTML 或 HTML5 轉換器 - 安裝

首先,您可以輕鬆地在您的應用程序中配置 Aspose.Words for Java API。您可以從新的 Releases section 下載 JAR 文件,其中幾乎每個月都會更新所有 API。此外,Aspose 提供的所有 Java API 都託管在 Maven 存儲庫上。同樣,可以在您的 Maven 項目中使用以下配置定義 Aspose.Words for Java 依賴項:

存儲庫:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

依賴:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

現在我們已經準備好在 Java 應用程序中將 DOCX 轉換為 HTML。

使用 Java 將 Word (DOC/DOCX) 轉換為 HTML

您可以按照以下步驟將 Word 轉換為 HTML:

  1. 加載帶有 DOC 或 DOCX 擴展名的源 Word 文件
  2. 將文件另存為輸出 HTML

下面的代碼示例顯示瞭如何使用 Java 將 DOCX 轉換為 HTML:

// 從磁盤加載文檔。
Document doc = new Document(dataDir + "TestFile.docx");
// 將文檔保存為 HTML。
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

輸入 DOCX 文件預覽

Java 中的 Word 到 HTML

輸出 HTML 文件預覽

Java 中的 DOCX 到 HTML

因此,您可以通過這些屏幕截圖注意到文檔呈現的高保真度。 API 能夠轉換文本、圖像、表格等。

使用 Java 將 DOCX 轉換為 HTML5

HTML5 是 HTML 的最新版本。我們注意到在 Aspose.Words API 中反復請求支持 HTML5。因此,支持 DOCX 到 HTML5 的轉換,您可以通過以下步驟轉換文件:

  1. 首先,加載輸入DOCX文件
  2. 在設置 SaveFormat 的同時設置 HtmlSaveOptions
  3. 設置 HtmlVersion.HTML5 的枚舉值
  4. 保存輸出文件

下面的代碼片段顯示瞭如何在 Java 中將 DOCX 轉換為 HTML5:

// 從磁盤加載文檔。
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

使用 Java 將受密碼保護的 Word 文件轉換為 HTML

DOC 或 DOCX 文件有時使用密碼進行密碼保護或加密。您還可以將此類文件轉換為 HTML。但是,加載 word 文件時需要密碼。您可以按照以下步驟將 DOCX 轉換為 HTML:

  1. 首先,初始化一個 LoadOptions 類的對象
  2. 設置密碼
  3. 加載加密的 DOCX 文件
  4. 將 DOCX 轉換為 HTML

同樣,以下代碼示例顯示瞭如何使用 Java 將受密碼保護的 DOCX 文件轉換為 HTML:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// 從磁盤加載文檔。
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//以 HTML 格式保存文檔。
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

使用 Java 將 Word 轉換為 MHTML

MHTML 文件是包含嵌入內容和媒體的單個文件。您可以通過以下步驟將 word 文件 (DOC/DOCX) 轉換為 MHTML:

  1. 加載輸入 DOCX 文件
  2. 使用 SaveFormat.MHTML 保存輸出 MHTML 文件

下面的代碼片段基於此步驟。因此,它展示瞭如何使用 Java 將 DOCX 轉換為 MHML:

// 從磁盤加載 word 文檔。
Document doc = new Document(dataDir + "TestFile.docx");
// 將文檔保存為 MHTML。
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

結論

總而言之,我們已經學會了無需 Microsoft Word 即可轉換 Word 文檔。例如,根據您的要求將 DOCX 轉換為 HTML、MHTML 或 HTML5。同樣,我們通過屏幕截圖觀察到轉換是在文件格式之間以高保真度和兼容性執行的。因此,您可以在自己的 Java 環境中試用 API。但是,如果您在設置或測試 API 時遇到任何問題,則可以通過 免費支持論壇 與我們聯繫!

也可以看看