MicrosoftWordファイル形式DOC/DOCXは、ワードプロセッサが情報を整理および説明するためのさまざまな機能をサポートしているため、有名です。同様に、HTMLファイル形式はWebアプリケーションで情報を表示するのに役立ちます。この記事では、Javaを使用したWordファイル(DOC / DOCX)からHTMLまたはHTML5への変換について学習します。ここで検討するユースケースは次のとおりです。
- Javaを使用してWord(DOC / DOCX)をHTMLに変換する
- Javaを使用してDOCXをHTML5に変換する
- Javaを使用してパスワードで保護されたWordファイルをHTMLに変換する
- Javaを使用してWordをMHTMLに変換する
JavaDOCXからHTMLまたはHTML5へのコンバーター-インストール
まず最初に、アプリケーションでAspose.Words for JavaAPIを簡単に構成できます。 JARファイルは、すべてのAPIがほぼ毎月更新される新しいリリースセクションからダウンロードできます。さらに、Asposeが提供するすべてのJava APIは、Mavenリポジトリーを介してホストされます。同様に、Aspose.Words for Javaの依存関係は、Mavenプロジェクトで次の構成で定義できます。
リポジトリ:
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
</repositories>
依存:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>jdk17</classifier>
</dependency>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>javadoc</classifier>
</dependency>
</dependencies>
これで、JavaアプリケーションでのDOCXからHTMLへの変換の準備が整いました。
Javaを使用してWord(DOC / DOCX)をHTMLに変換する
以下の手順に従って、WordをHTMLに変換できます。
- DOCまたはDOCX拡張子を持つソースWordファイルをロードします
- ファイルを出力HTMLとして保存します
以下のコードサンプルは、Javaを使用してDOCXをHTMLに変換する方法を示しています。
// ディスクからドキュメントをロードします。
Document doc = new Document(dataDir + "TestFile.docx");
// ドキュメントをHTMLに保存します。
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);
入力DOCXファイルプレビュー
HTMLファイルのプレビューを出力
したがって、これらのスクリーンショットを使用すると、ドキュメントレンダリングの忠実度が高いことに気付くことができます。 APIは、テキスト、画像、表などを変換できます。
Javaを使用してDOCXをHTML5に変換する
HTML5はHTMLの最新バージョンです。 Aspose.WordsAPIでHTML5をサポートするための繰り返しのリクエストに注意しました。したがって、DOCXからHTML5への変換がサポートされており、次の手順でファイルを変換できます。
- まず、入力DOCXファイルをロードします
- SaveFormatの設定中にHtmlSaveOptionsを設定します
- HtmlVersion.HTML\5の列挙値を設定します
- 出力ファイルを保存する
以下のコードスニペットは、JavaでDOCXをHTML5に変換する方法を示しています。
// ディスクからドキュメントをロードします。
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);
doc.save(dataDir + "TestFile.html", opts);
Javaを使用してパスワードで保護されたWordファイルをHTMLに変換する
DOCまたはDOCXファイルは、パスワードで保護されているか、パスワードを使用して暗号化されている場合があります。このようなファイルをHTMLに変換することもできます。ただし、ワードファイルをロードするときにパスワードが必要になります。 DOCXからHTMLへの変換については、以下の手順に従ってください。
- まず、LoadOptionsクラスのオブジェクトを初期化します
- パスワードを設定する
- 暗号化されたDOCXファイルをロードします
- DOCXをHTMLに変換する
同様に、次のコードサンプルは、Javaを使用してパスワードで保護されたDOCXファイルをHTMLに変換する方法を示しています。
LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// ディスクからドキュメントをロードします。
Document doc = new Document(dataDir + "TestFile.docx" , options);
//ドキュメントをHTML形式で保存します。
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);
Javaを使用してWordをMHTMLに変換する
MHTMLファイルは、コンテンツとメディアが埋め込まれた単一のファイルです。次の手順で、Wordファイル(DOC / DOCX)をMHTMLに変換できます。
- 入力DOCXファイルをロードします
- SaveFormat.MHTMLを使用して出力MHTMLファイルを保存します
以下のコードスニペットは、この手順に基づいています。したがって、Javaを使用してDOCXをMHMLに変換する方法を示します。
// ディスクからワードドキュメントをロードします。
Document doc = new Document(dataDir + "TestFile.docx");
// ドキュメントをMHTMLに保存します。
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);
結論
結論として、MicrosoftWordを必要とせずにWord文書の変換を学びました。たとえば、要件に応じてDOCXからHTML、MHTML、またはHTML5へ。同様に、スクリーンショットで、変換がファイル形式間の高い忠実度と互換性で実行されることを確認しました。したがって、独自のJava環境でAPIを試すことができます。ただし、APIの設定またはテスト中に問題が発生した場合は、無料サポートフォーラムからご連絡ください。