WordからHTMLへのPython

WordからHTMLへの変換は、ドキュメントのコンテンツをWebページに埋め込む場合など、さまざまな場合に必要です。この記事では、Pythonを使用してMS WordDOCXまたはDOCドキュメントをHTMLに変換する方法を学習します。さらに、さまざまなオプションを使用して、WordからHTMLへの変換を動的に制御する方法を学習します。

Python Word to HTML Converter API

Word文書をHTMLに変換するために、Aspose.Words for Pythonを使用します。これは、Word文書を作成および操作するための強力で機能豊富なAPIです。また、Word文書を他の形式に忠実に変換できます。 Aspose.Words for PythonはPyPIで入手でき、次のpipコマンドを使用してインストールできます。

pip install aspose-words 

PythonでWord文書をHTMLに変換する

以下は、Pythonを使用してWord文書をHTMLファイルに変換する手順です。

  • Documentクラスを使用してWord文書をロードします。
  • HtmlSaveOptionsクラスのオブジェクトを作成します。
  • HtmlSaveOptions.export_font_resourcesプロパティを使用してフォントリソースのエクスポートを有効にします。
  • Document.save()メソッドを使用してWord文書をHTMLに変換します。

次のコードサンプルは、PythonでDOCXファイルをHTMLに変換する方法を示しています。

import aspose.words as aw

# Load the document from disk
doc = aw.Document("Document.docx")

# Enable export of fonts
options = aw.saving.HtmlSaveOptions()
options.export_font_resources = True
  
# Save the document as HTML
doc.save("Document.html", options)

PythonでWordからHTMLへの変換をカスタマイズする

Aspose.Words for Pythonには、WordからHTMLへの変換をカスタマイズするためのさまざまなオプションも用意されています。たとえば、ラウンドトリップ情報を含むドキュメントを変換したり、リソースファイルを保存するフォルダを指定したりできます。

往復情報を含むWord文書を変換する

HTMLはMSWordが提供するすべての機能をサポートしているわけではないため、HTMLでWord文書を模倣するには、ラウンドトリップ情報と呼ばれる追加情報を保存する必要があります。以下は、WordからHTMLへの変換でラウンドトリップ情報のエクスポートをオンにする手順です。

  • Documentクラスを使用してWord文書をロードします。
  • HtmlSaveOptionsクラスのオブジェクトを作成し、HtmlSaveOptions.export_roundtrip_informationプロパティをtrueに設定します。
  • Document.save()メソッドを使用してWord文書をHTMLに変換し、HTMLファイルの名前とHtmlSaveOptionsをパラメーターとして渡します。

次のコードサンプルは、WordからHTMLへの変換でラウンドトリップ情報をエクスポートする方法を示しています。

import aspose.words as aw

# Load the document from disk
doc = aw.Document("Document.docx")

# Enable round-trip information
saveOptions = aw.saving.HtmlSaveOptions()
saveOptions.export_roundtrip_information = True 

# Save the document as HTML
doc.save("Document.html", saveOptions)

WordからHTMLへ:リソース用のフォルダーを指定する

画像、CSSファイル、フォントなどのすべてのリソースを保存するフォルダーを指定することもできます。このために、HtmlSaveOptions.export_font_resourcesプロパティを使用できます。 HtmlSaveOptions.fonts_folderプロパティとHtmlSaveOptions.images_folderプロパティをそれぞれ使用して、フォントと画像に別々のフォルダーを指定することもできます。以下は、WordからHTMLへの変換でリソースを保存するために別のフォルダーを使用する手順です。

  • Documentクラスを使用してWord文書をロードします。
  • HtmlSaveOptionsクラスのオブジェクトを作成し、HtmlSaveOptions.export_font_resourcesプロパティをtrueに設定します。
  • HtmlSaveOptions.resource_folderプロパティを使用してリソースフォルダーの名前を指定します。
  • Document.save()メソッドを使用してWord文書をHTMLに変換し、HTMLファイルの名前とHtmlSaveOptionsをパラメーターとして渡します。

次のコードサンプルは、WordからHTMLへの変換でリソースフォルダーを指定する方法を示しています。

import aspose.words as aw

# Load the document from disk
doc = aw.Document("Document.docx")

# Specify resource folder
saveOptions.export_font_resources = True
saveOptions.resource_folder = docs_base.artifacts_dir + "Resources"
saveOptions.resource_folder_alias = "http:#example.com/resources"

# Save the document as HTML
doc.save("Document.html", saveOptions)

無料のAPIライセンスを取得する

評価の制限なしにAspose.Words for Pythonを使用するために、一時ライセンスを取得できます。

結論

この記事では、Pythonを使用してWord文書をHTMLに変換する方法を学びました。さらに、WordからHTMLへの変換を動的にカスタマイズする方法を見てきました。さらに、ドキュメントを使用して、Aspose.Words for Pythonの他の機能を調べることができます。また、フォーラムから質問することもできます。

関連項目

情報:プレゼンテーションを画像に変換および画像をプレゼンテーションにインポートできる別のPythonAPI(Aspose.Slides for Python via NET)に興味があるかもしれません。