場合によっては、HTMLコンテンツをWord文書に変換する必要があります。たとえば、WYSIWYG HTMLエディタからドキュメントを生成したり、WebページをDOCXまたはDOC形式に変換したりします。この変換をプログラムで実行するために、この記事では、HTMLファイルをWord DOCX、DOC、DOCM、またはJavaの他の形式に変換する方法について説明します。
HTMLをWordに変換するJavaライブラリ
HTMLをDOCX、DOC、DOT、DOCM、およびその他のWord形式に変換するには、Aspose.Words for Javaを使用します。これは、Word文書をプログラムで作成および操作するための強力なライブラリです。さらに、ワードプロセッシングドキュメントへの/への高忠実度の変換を提供する組み込みのドキュメントコンバーターを提供します。 APIのJARはダウンロードセクションからダウンロードするか、pom.xmlの次のMaven構成を使用してインストールできます。
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>21.11</version>
<type>pom</type>
</dependency>
JavaでHTMLをDOCX/DOC/DOCMに変換する
Aspose.Words for Javaを使用すると、HTMLファイルからWord形式への変換は、以下に説明するいくつかの手順で実行できます。
- Documentクラスを使用してHTMLファイルをロードします。
- Document.save(string, SaveFormat)メソッドを使用して、HTMLファイルをWord文書として保存します。
Document.save()メソッドのSaveFormat列挙型は、HTMLファイルを変換する形式を指定します。次のコードサンプルは、JavaでHTMLからWord文書を生成する方法を示しています。
// Documentクラスを使用してHTMLファイルをロードする
Document document = new Document("template.html");
// HTMLファイルをWordDOCX形式に変換します
document.save("output.docx", SaveFormat.DOCX);
JavaのURLを使用してWebページをWordに変換する
WebページをそのURLから直接Word文書に変換することもできます。以下は、JavaでURLを使用してHTMLをDOCXに変換する手順です。
- URLクラスのインスタンスを作成し、目的のURLで初期化します。
- InputStreamオブジェクトへのURLを開きます。
- HtmlLoadOptionsクラスのインスタンスを作成します。
- Documentクラスのインスタンスを作成し、InputStreamオブジェクトとHtmlLoadOptionsオブジェクトで初期化します。
- Document.save(string, SaveFormat)メソッドを使用して、WebページをWord文書として保存します。
次のコードサンプルは、URLを使用してWebページをWord文書に変換する方法を示しています。
// URLを作成して初期化します
URL oracleURL = new URL("https://docs.oracle.com/javase/tutorial/networking/urls/readingURL.html");
// 入力ストリームとしてWebページを取得する
InputStream is = oracleURL.openStream();
// HTMLロードオプションを初期化する
HtmlLoadOptions htmloptions = new HtmlLoadOptions();
// ストリームをDocumentオブジェクトにロードします
Document doc = new Document(is, htmloptions);
// DOCXとして保存
doc.save("output.docx", SaveFormat.DOCX);
Javaを使用してHTML文字列をWordに変換する
Aspose.Words for Javaを使用すると、HTML文字列からWord文書を動的に生成することもできます。この操作を実行する手順は次のとおりです。
- Documentクラスのインスタンスを作成します。
- DocumentBuilderクラスのインスタンスを作成し、Documentオブジェクトで初期化します。
- DocumentBuilder.InsertHtml(string)メソッドを使用してドキュメントにHTMLを挿入します。
- Document.save(string, SaveFormat)メソッドを使用してWord文書を保存します。
次のコードサンプルは、Javaを使用してHTML文字列をDOCXファイルに変換する方法を示しています。
// 新しいドキュメントを作成する
Document doc = new Document();
// ドキュメントビルダーを作成する
DocumentBuilder builder = new DocumentBuilder(doc);
// HTMLを挿入
builder.insertHtml("<ul>\r\n" +
"<li>Item1</li>\r\n" +
"<li>Item2</li>\r\n" +
"</ul>");
// DOCXとして保存
doc.save("html-string-to-word.docx", SaveFormat.DOCX);
無料のAPIライセンスを取得する
無料の一時ライセンスを取得することで、評価の制限なしにAspose.WordsforJavaを使用できます。
結論
この記事では、Javaを使用してプログラムでHTMLファイルをWord DOCX、DOC、DOCM、またはその他の形式に変換する方法を学習しました。さらに、HTML文字列またはWebページをURLからWord文書に動的に変換する方法を見てきました。 Aspose.Words for Javaをインストールし、提供されたコードを使用してHTMLからWordへのコンバーターを構築するだけです。さらに、ドキュメントにアクセスして、Aspose.WordsforJavaの詳細を調べることができます。さらに、あなたは私たちのフォーラムであなたの質問を私たちと共有することができます。
関連項目
情報:PowerPointプレゼンテーションからWord文書を取得する必要がある場合は、AsposeプレゼンテーションからWord文書コンバーターを使用できます。