Convertir PDF en HTML en utilisant C++

PDF est un format de document standard largement utilisé pour l’échange de documents entre individus et différentes organisations. Même s’il est populaire, ce n’est pas toujours le choix idéal pour afficher du contenu. Par exemple, sur les pages Web, HTML est le meilleur choix pour une expérience utilisateur plus satisfaisante. Si vous souhaitez afficher le contenu PDF sur un site Web, sa conversion en HTML peut s’avérer utile. À la lumière de cela, cet article vous apprendra comment convertir des documents PDF au format HTML en utilisant C++.

API C++ pour convertir des documents PDF au format HTML

Aspose.PDF for C++ est une bibliothèque C++ qui vous permet de créer, lire et mettre à jour des documents PDF. De plus, l’API prend en charge la conversion de fichiers PDF au format HTML. Vous pouvez soit installer l’API via NuGet ou la télécharger directement à partir de la section downloads.

PM> Install-Package Aspose.PDF.Cpp

Convertir des documents PDF au format HTML à l’aide de C++

La conversion d’un document PDF au format HTML est un jeu d’enfant avec l’API Aspose.PDF for C++. Vous pouvez effectuer la conversion avec seulement deux lignes de code. Pour convertir un document PDF au format HTML, veuillez suivre les étapes ci-dessous.

L’exemple de code suivant montre comment convertir des documents PDF au format HTML à l’aide de C++.

// Ouvrir le document PDF source
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// Enregistrez le fichier HTML
pdfDocument->Save(u"OutputDirectory\\output.html", SaveFormat::Html);

Fichier PDF source

Fichier PDF source utilisé dans l'exemple de code.

Fichier HTML de sortie

Fichier HTML de sortie généré par l'exemple de code

Convertir des documents PDF au format HTML avec des options supplémentaires à l’aide de C++

L’API Aspose.PDF for C++ vous permet de personnaliser le code HTML généré par le processus de conversion. Pour cela, l’API propose la classe HtmlSaveOptions. Voici quelques-unes des options fournies par la classe HtmlSaveOptions.

  • FontSavingMode : Il est utilisé pour définir le mode d’enregistrement des polices utilisé lors de la conversion. L’énumération FontSavingModes est utilisée pour définir sa valeur.
  • RasterImagesSavingMode : Il est utilisé pour définir la manière dont les images raster doivent être traitées lors de la conversion. L’énumération RasterImagesSavingModes est utilisée pour définir sa valeur.
  • LettersPositioningMethod : Il définit le positionnement des lettres dans les mots. L’énumération LettersPositioningMethods est utilisée pour définir sa valeur.
  • SpecialFolderForAllImages : Il est utilisé pour définir le chemin où les images seront enregistrées.
  • SplitIntoPages : Il définit si chaque page du PDF doit être convertie en une page HTML distincte ou si l’ensemble du document doit être converti en un seul fichier HTML.
  • SplitCssIntoPages : lorsque SplitIntoPages est défini sur true, SplitCssIntoPages définit si le CSS doit être enregistré en tant que fichier unique ou en tant que fichier séparé pour chaque page HTML.

Voici les étapes pour convertir un document PDF au format HTML avec des options supplémentaires.

Voici l’exemple de code C++ qui illustre l’utilisation de la classe HtmlSaveOptions pour personnaliser la sortie HTML.

// Ouvrir le document PDF source
auto pdfDocument = MakeObject<Document>(u"SourceDirectory\\Sample 1.pdf");

// Créer une instance de la classe HtmlSaveOptions
SharedPtr<HtmlSaveOptions> options = MakeObject<HtmlSaveOptions>();

// Définissez les options souhaitées
options->PartsEmbeddingMode = HtmlSaveOptions::PartsEmbeddingModes::EmbedAllIntoHtml;
options->LettersPositioningMethod = HtmlSaveOptions::LettersPositioningMethods::UseEmUnitsAndCompensationOfRoundingErrorsInCss;
options->RasterImagesSavingMode = HtmlSaveOptions::RasterImagesSavingModes::AsEmbeddedPartsOfPngPageBackground;
options->FontSavingMode = HtmlSaveOptions::FontSavingModes::SaveInAllFormats;

// Enregistrez le fichier HTML
pdfDocument->Save(u"OutputDirectory\\output.html", options);

Obtenez une licence gratuite

Vous pouvez essayer l’API sans limitation d’évaluation en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez appris à convertir des documents PDF au format HTML à l’aide de C++. De plus, vous avez appris à utiliser les options supplémentaires fournies par l’API Aspose.PDF for C++ pour personnaliser le code HTML généré. L’API fournit de nombreuses fonctionnalités supplémentaires pour automatiser vos tâches liées au PDF. Vous pouvez explorer l’API en détail en utilisant la documentation officielle. Si vous avez des questions, n’hésitez pas à nous contacter sur le forum d’assistance gratuit.

Voir également