C++を使用してPDFをHTMLに変換する

PDFは、個人やさまざまな組織間でドキュメントを交換するために広く使用されている標準のドキュメント形式です。人気がありますが、コンテンツを表示するための理想的な選択肢であるとは限りません。たとえば、Webページでは、HTMLが、より満足のいくユーザーエクスペリエンスのためのより良い選択です。 PDFコンテンツをWebサイトに表示したい場合は、それをHTMLに変換すると役立つ場合があります。これに照らして、この記事では、C++を使用してPDFドキュメントをHTML形式に変換する方法を説明します。

PDFドキュメントをHTML形式に変換するためのC++API

Aspose.PDF for C++は、PDFドキュメントを作成、読み取り、更新できるC++ライブラリです。さらに、APIはPDFファイルからHTML形式への変換をサポートしています。 APIは、NuGetからインストールするか、ダウンロードセクションから直接ダウンロードできます。

PM> Install-Package Aspose.PDF.Cpp

C++を使用してPDFドキュメントをHTML形式に変換する

Aspose.PDF for C++ APIを使用すると、PDFドキュメントをHTML形式に簡単に変換できます。たった2行のコードで変換を実行できます。 PDFドキュメントをHTML形式に変換するには、以下の手順に従ってください。

次のサンプルコードは、C++を使用してPDFドキュメントをHTML形式に変換する方法を示しています。

// ソースPDFドキュメントを開く
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// HTMLファイルを保存します
pdfDocument->Save(u"OutputDirectory\\output.html", SaveFormat::Html);

ソースPDFファイル

サンプルコードで使用されているソースPDFファイル。

HTMLファイルを出力する

サンプルコードで生成された出力HTMLファイル

C++を使用して追加オプションを使用してPDFドキュメントをHTML形式に変換する

Aspose.PDF for C++ APIは、変換プロセスによって生成されたHTMLをカスタマイズする機能を提供します。このために、APIはHtmlSaveOptionsクラスを提供します。以下は、HtmlSaveOptionsクラスによって提供されるオプションの一部です。

  • FontSavingMode:変換中に使用されるフォント保存モードを設定するために使用されます。 FontSavingModes列挙型は、その値を設定するために使用されます。
  • RasterImagesSavingMode:変換中にラスター画像を処理する方法を設定するために使用されます。 RasterImagesSavingModes列挙型は、その値を設定するために使用されます。
  • LettersPositioningMethod:単語内の文字の位置を設定します。 LettersPositioningMethods列挙型は、その値を設定するために使用されます。
  • SpecialFolderForAllImages:画像が保存されるパスを設定するために使用されます。
  • SplitIntoPages:PDFの各ページを個別のHTMLページとして変換するか、ドキュメント全体を単一のHTMLファイルに変換するかを設定します。
  • SplitCssIntoPagesSplitIntoPagesがtrueに設定されている場合、SplitCssIntoPagesは、CSSを単一のファイルとして保存するかHTMLページごとに個別のファイルとして保存するかを設定します。

以下は、追加のオプションを使用してPDFドキュメントをHTML形式に変換する手順です。

以下は、HtmlSaveOptionsクラスを使用してHTML出力をカスタマイズする方法を示すC++サンプルコードです。

// ソースPDFドキュメントを開く
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// HtmlSaveOptionsクラスのインスタンスを作成します
SharedPtr<HtmlSaveOptions> options = MakeObject<HtmlSaveOptions>();

// 必要なオプションを設定します
options->PartsEmbeddingMode = HtmlSaveOptions::PartsEmbeddingModes::EmbedAllIntoHtml;
options->LettersPositioningMethod = HtmlSaveOptions::LettersPositioningMethods::UseEmUnitsAndCompensationOfRoundingErrorsInCss;
options->RasterImagesSavingMode = HtmlSaveOptions::RasterImagesSavingModes::AsEmbeddedPartsOfPngPageBackground;
options->FontSavingMode = HtmlSaveOptions::FontSavingModes::SaveInAllFormats;

// HTMLファイルを保存します
pdfDocument->Save(u"OutputDirectory\\output.html", options);

無料ライセンスを取得する

無料の一時ライセンスをリクエストすることで、評価の制限なしにAPIを試すことができます。

結論

この記事では、C++を使用してPDFドキュメントをHTML形式に変換する方法を学習しました。さらに、Aspose.PDF for C++ APIが提供する追加オプションを使用して、生成されたHTMLをカスタマイズする方法を学習しました。 APIは、PDF関連のタスクを自動化するための多くの追加機能を提供します。 公式ドキュメントを使用して、APIを詳細に調べることができます。ご不明な点がございましたら、無料サポートフォーラムまでお気軽にお問い合わせください。

関連項目