Преобразование PDF в HTML с помощью C++

PDF — это стандартный формат документов, который широко используется для обмена документами между отдельными лицами и различными организациями. Несмотря на то, что он популярен, он не всегда может быть идеальным выбором для показа контента. Например, на веб-страницах HTML — лучший выбор для более удобного взаимодействия с пользователем. Если вы хотите отобразить содержимое PDF на веб-сайте, преобразование его в HTML может оказаться полезным. В свете этого в этой статье вы узнаете, как конвертировать PDF-документы в формат HTML с помощью C++.

C++ API для преобразования PDF-документов в формат HTML

Aspose.PDF for C++ — это библиотека C++, позволяющая создавать, читать и обновлять PDF-документы. Кроме того, API поддерживает преобразование файлов PDF в формат HTML. Вы можете либо установить API через NuGet, либо загрузить его напрямую из раздела загрузки.

PM> Install-Package Aspose.PDF.Cpp

Преобразование PDF-документов в формат HTML с помощью C++

Преобразование документа PDF в формат HTML очень просто с помощью Aspose.PDF for C++ API. Вы можете выполнить преобразование всего двумя строками кода. Чтобы преобразовать документ PDF в формат HTML, выполните следующие действия.

В следующем примере кода показано, как преобразовать документы PDF в формат HTML с помощью C++.

// Откройте исходный PDF-документ
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// Сохраните HTML-файл
pdfDocument->Save(u"OutputDirectory\\output.html", SaveFormat::Html);

Исходный PDF-файл

Исходный PDF-файл, используемый в примере кода.

Выходной HTML-файл

Выходной файл HTML, сгенерированный кодом примера

Преобразование документов PDF в формат HTML с дополнительными параметрами с использованием C++

Aspose.PDF for C++ API предоставляет вам возможность настраивать HTML-код, сгенерированный в процессе преобразования. Для этого API предлагает класс HtmlSaveOptions. Ниже приведены некоторые параметры, предоставляемые классом HtmlSaveOptions.

  • FontSavingMode: используется для установки режима сохранения шрифта, используемого во время преобразования. Перечисление FontSavingModes используется для установки его значения.
  • RasterImagesSavingMode: используется для установки способа обработки растровых изображений во время преобразования. Перечисление RasterImagesSavingModes используется для установки его значения.
  • LettersPositioningMethod: устанавливает положение букв в словах. Перечисление LettersPositioningMethods используется для установки его значения.
  • SpecialFolderForAllImages: используется для установки пути, по которому будут сохраняться изображения.
  • SplitIntoPages: определяет, должна ли каждая страница PDF быть преобразована как отдельная страница HTML или весь документ должен быть преобразован в один файл HTML.
  • SplitCssIntoPages: когда для параметра SplitIntoPages установлено значение true, SplitCssIntoPages определяет, следует ли сохранять CSS в виде отдельного файла или отдельного файла для каждой HTML-страницы.

Ниже приведены шаги для преобразования документа PDF в формат HTML с дополнительными параметрами.

Ниже приведен пример кода C++, демонстрирующий использование класса HtmlSaveOptions для настройки вывода HTML.

// Откройте исходный PDF-документ
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// Создайте экземпляр класса HtmlSaveOptions.
SharedPtr<HtmlSaveOptions> options = MakeObject<HtmlSaveOptions>();

// Установите нужные параметры
options->PartsEmbeddingMode = HtmlSaveOptions::PartsEmbeddingModes::EmbedAllIntoHtml;
options->LettersPositioningMethod = HtmlSaveOptions::LettersPositioningMethods::UseEmUnitsAndCompensationOfRoundingErrorsInCss;
options->RasterImagesSavingMode = HtmlSaveOptions::RasterImagesSavingModes::AsEmbeddedPartsOfPngPageBackground;
options->FontSavingMode = HtmlSaveOptions::FontSavingModes::SaveInAllFormats;

// Сохраните HTML-файл
pdfDocument->Save(u"OutputDirectory\\output.html", options);

Получить бесплатную лицензию

Вы можете попробовать API без ограничений по ознакомительной версии, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как преобразовать документы PDF в формат HTML с помощью C++. Кроме того, вы узнали, как использовать дополнительные параметры, предоставляемые Aspose.PDF for C++ API, для настройки сгенерированного HTML. API предоставляет множество дополнительных функций для автоматизации ваших задач, связанных с PDF. Вы можете подробно изучить API, используя официальную документацию. Если у вас есть какие-либо вопросы, свяжитесь с нами на бесплатном форуме поддержки.

Смотрите также