Converter arquivos PDF para XML em Java

XML é uma linguagem de marcação versátil que é usada para vários propósitos, como gerenciamento de dados, web, ferramentas do Office, documentos, etc. Como o XML é conveniente para ser processado por programas de computador, o PDF os documentos são frequentemente convertidos em formatos XML para obter a representação estruturada do conteúdo. O XML convertido usa tags diferentes para representar o documento PDF. Neste artigo, você aprenderá como converter um arquivo PDF para XML programaticamente em Java.

API Java para converter PDF em XML - Download grátis

Aspose.PDF for Java é uma API poderosa para geração e manipulação de PDF. Usando a API, você pode criar, processar e converter facilmente arquivos PDF de layouts simples e complexos. Usaremos esta API para conversão de PDF para XML neste artigo. Você pode baixar o JAR da API ou instalá-lo usando as seguintes configurações do Maven.

Repositório:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

Dependência:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>22.4</version>
</dependency>

Converter PDF para XML em Java

O Aspose.PDF suporta os seguintes padrões XML para conversão de PDF para XML:

  • MobiXML
  • PDFXML

Você pode escolher qualquer um dos formatos mencionados acima para o arquivo XML convertido. Então, vamos ver como realizar a conversão de PDF para XML em aplicativos Java.

Java Converter PDF para MobiXML

A seguir estão as etapas para converter um PDF para o formato MobiXML em Java.

O exemplo de código a seguir mostra como converter um PDF para o formato MobiXML em Java.

// Carregar documento PDF
Document document = new Document("candy.pdf");

// Salvar documento no formato MobiXML
document.save("standard-xml-output.xml", SaveFormat.MobiXml);

Converter PDF para PDFXML em Java

Para converter um PDF para o formato PdfXML, você precisa passar SaveFormat.PdfXml como o segundo parâmetro do método Document.save(string, SaveFormat). O exemplo de código a seguir mostra como converter um PDF para o formato PdfXML em Java.

// Carregar documento PDF
Document document = new Document("candy.pdf");

// Salvar documento no formato MobiXML
document.save("standard-xml-output.xml", SaveFormat.PdfXml);

Java PDF to XML Converter - Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para usar o Aspose.PDF para Java sem limitações de avaliação.

Conclusão

Neste artigo, você aprendeu como converter um documento PDF em XML em Java. Você viu como converter um PDF para o formato MobiXML ou PdfXML programaticamente. Além disso, você pode visitar a documentação para ler mais sobre o Aspose.PDF para Java. Caso você tenha alguma dúvida ou pergunta, você pode entrar em contato conosco através do nosso fórum.

Veja também