Convertir archivos PDF a XML en Java

XML es un lenguaje de marcado versátil que se usa para múltiples propósitos, como administración de datos, web, herramientas de Office, documentos, etc. Dado que XML es conveniente para ser procesado por programas de computadora, el PDF los documentos a menudo se convierten a formatos XML para obtener la representación estructurada del contenido. El XML convertido utiliza diferentes etiquetas para representar el documento PDF. En este artículo, aprenderá cómo convertir un archivo PDF a XML mediante programación en Java.

API de Java para convertir PDF a XML - Descarga gratuita

Aspose.PDF for Java es una poderosa API para la generación y manipulación de PDF. Con la API, puede crear, procesar y convertir sin problemas archivos PDF de diseños simples y complejos. Usaremos esta API para la conversión de PDF a XML en este artículo. Puede descargar el JAR de la API o instalarlo usando las siguientes configuraciones de Maven.

Repositorio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

Dependencia:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>22.4</version>
</dependency>

Convertir PDF a XML en Java

Aspose.PDF admite los siguientes estándares XML para la conversión de PDF a XML:

  • MobiXML
  • PdfXML

Puede elegir cualquiera de los formatos mencionados anteriormente para el archivo XML convertido. Entonces, procedamos a ver cómo realizar la conversión de PDF a XML dentro de las aplicaciones Java.

Java Convertir PDF a MobiXML

Los siguientes son los pasos para convertir un PDF a formato MobiXML en Java.

El siguiente ejemplo de código muestra cómo convertir un PDF a formato MobiXML en Java.

// Cargar documento PDF
Document document = new Document("candy.pdf");

// Guardar documento en formato MobiXML
document.save("standard-xml-output.xml", SaveFormat.MobiXml);

Convertir PDF a PdfXML en Java

Para convertir un PDF a formato PdfXML, debe pasar SaveFormat.PdfXml como segundo parámetro del método Document.save(string, SaveFormat). El siguiente ejemplo de código muestra cómo convertir un PDF a formato PdfXML en Java.

// Cargar documento PDF
Document document = new Document("candy.pdf");

// Guardar documento en formato MobiXML
document.save("standard-xml-output.xml", SaveFormat.PdfXml);

Conversor de PDF a XML de Java: obtenga una licencia gratuita

Puede obtener una licencia temporal gratuita para usar Aspose.PDF for Java sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido cómo convertir un documento PDF a XML en Java. Ha visto cómo convertir un PDF a formato MobiXML o PdfXML mediante programación. Además, puede visitar la documentación para obtener más información sobre Aspose.PDF for Java. En caso de que tenga alguna pregunta o consulta, puede contactarnos a través de nuestro foro.

Ver también