Convertir des fichiers PDF en XML en C#

XML est un langage de balisage bien connu similaire au HTML. Cependant, ses utilisations s’étendent à de multiples domaines tels que la gestion des données, le web, les outils bureautiques, les documents, etc. Dans des cas particuliers, les documents PDF sont convertis en fichiers XML pour obtenir la représentation structurée du contenu. Ainsi, la représentation basée sur des balises des documents PDF peut être traitée plus commodément à différentes fins. En conséquence, dans cet article, vous apprendrez à convertir un fichier PDF en XML par programmation dans C# .NET.

API C# .NET pour convertir PDF en XML - Téléchargement gratuit

Pour la conversion PDF vers XML, nous utiliserons Aspose.PDF for .NET. Il s’agit d’une API populaire qui vous permet de créer et de traiter des fichiers PDF à partir d’applications .NET. De plus, il fournit un convertisseur haute fidélité pour convertir les fichiers PDF vers d’autres formats. Vous pouvez télécharger les binaires de l’API ou l’installer à l’aide de NuGet.

PM> Install-Package Aspose.PDF

Convertir PDF en XML en C#

Aspose.PDF for .NET permet la conversion de documents PDF aux normes XML suivantes :

  • MobiXML
  • PDFXML

Voyons comment convertir un PDF dans chacun des formats XML mentionnés ci-dessus en utilisant Aspose.PDF for .NET.

C# PDF vers MobiXML

Voici les étapes pour convertir un PDF au format MobiXML en C#.

L’exemple de code suivant montre comment convertir un PDF en XML avec le format MobiXML en C#.

// Charger le document PDF
var document = new Document("candy.pdf");

// Enregistrer le document au format MobiXML
document.Save("standard-xml-output.xml", SaveFormat.MobiXml);

PDF vers PdfXML en C# .NET

Pour convertir un PDF au format PdfXML, vous devez passer SaveFormat.PdfXml comme deuxième paramètre de la méthode Document.Save(string, SaveFormat). L’exemple de code suivant montre comment convertir un PDF au format PdfXML en C#.

// Charger le document PDF
var document = new Document("candy.pdf");

// Enregistrer le document au format PdfXML
document.Save("standard-xml-output.xml", SaveFormat.PdfXml);

Convertisseur C# PDF en XML - Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite afin d’utiliser Aspose.PDF for .NET sans limitation d’évaluation.

Conclusion

Dans cet article, vous avez appris à convertir un document PDF en XML en C#. De plus, nous avons expliqué explicitement comment convertir un PDF au format MobiXML ou PdfXML par programme. En outre, vous pouvez en savoir plus sur l’API PDF .NET à l’aide de la documentation. Si vous avez des questions ou des questions, vous pouvez nous contacter via notre forum.

Voir également