Convertir archivos PDF a XML en C#

XML es un conocido lenguaje de marcado similar a HTML. Sin embargo, sus usos se extienden a través de múltiples dominios como gestión de datos, web, herramientas de Office, documentos, etc. En casos particulares, los documentos PDF se convierten en archivos XML para obtener la representación estructurada del contenido. Por lo tanto, la representación basada en etiquetas de los documentos PDF se puede procesar de manera más conveniente para diferentes propósitos. En consecuencia, en este artículo, aprenderá cómo convertir un archivo PDF a XML mediante programación en C# .NET.

C# .NET API para convertir PDF a XML - Descarga gratuita

Para la conversión de PDF a XML, usaremos Aspose.PDF for .NET. Es una API popular que le permite crear y procesar archivos PDF desde aplicaciones .NET. Además, proporciona un convertidor de alta fidelidad para convertir archivos PDF a otros formatos. Puede descargar los archivos binarios de la API o instalarlos mediante NuGet.

PM> Install-Package Aspose.PDF

Convertir PDF a XML en C#

Aspose.PDF for .NET permite la conversión de documentos PDF a los siguientes estándares XML:

  • MobiXML
  • PdfXML

Veamos cómo convertir un PDF a cada uno de los formatos XML mencionados anteriormente usando Aspose.PDF for .NET.

C# PDF a MobiXML

Los siguientes son los pasos para convertir un PDF a formato MobiXML en C#.

El siguiente ejemplo de código muestra cómo convertir un PDF a XML con formato MobiXML en C#.

// Cargar documento PDF
var document = new Document("candy.pdf");

// Guardar documento en formato MobiXML
document.Save("standard-xml-output.xml", SaveFormat.MobiXml);

PDF a PdfXML en C# .NET

Para convertir un PDF a formato PdfXML, debe pasar SaveFormat.PdfXml como segundo parámetro del método Document.Save(string, SaveFormat). El siguiente ejemplo de código muestra cómo convertir un PDF a formato PdfXML en C#.

// Cargar documento PDF
var document = new Document("candy.pdf");

// Guardar documento en formato PdfXML
document.Save("standard-xml-output.xml", SaveFormat.PdfXml);

Convertidor de PDF a XML de C#: obtenga una licencia gratuita

Puede obtener una licencia temporal gratuita para usar Aspose.PDF for .NET sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido cómo convertir un documento PDF a XML en C#. Además, hemos cubierto explícitamente cómo convertir un PDF a formato MobiXML o PdfXML mediante programación. Además, puede explorar más sobre la API de PDF de .NET utilizando la documentación. En caso de que tenga alguna pregunta o consulta, puede contactarnos a través de nuestro foro.

Ver también