XML é uma linguagem de marcação bem conhecida semelhante ao HTML. No entanto, seus usos se espalham por vários domínios, como gerenciamento de dados, web, ferramentas do Office, documentos, etc. Em casos particulares, os documentos PDF são convertidos em arquivos XML para obter a representação estruturada do conteúdo. Assim, a representação baseada em tags dos documentos PDF pode ser processada de forma mais conveniente para diferentes propósitos. Assim, neste artigo, você aprenderá como converter um arquivo PDF em XML programaticamente em C# .NET.
API C# .NET para converter PDF em XML - Download grátis
Para conversão de PDF para XML, usaremos Aspose.PDF for .NET. É uma API popular que permite criar e processar arquivos PDF a partir de aplicativos .NET. Além disso, oferece um conversor de alta fidelidade para converter arquivos PDF para outros formatos. Você pode baixar os binários da API ou instalá-la usando NuGet.
PM> Install-Package Aspose.PDF
Converter PDF para XML em C#
Aspose.PDF para .NET permite a conversão de documentos PDF para os seguintes padrões XML:
- MobiXML
- PDFXML
Vamos ver como converter um PDF para cada um dos formatos XML mencionados acima usando o Aspose.PDF para .NET.
C# PDF para MobiXML
A seguir estão as etapas para converter um PDF para o formato MobiXML em C#.
- Carregue o documento PDF usando a classe Document.
- Converta PDF para XML usando o método Document.Save(string, SaveFormat) e passe SaveFormat.MobiXml como segundo parâmetro.
O exemplo de código a seguir mostra como converter um PDF em XML com o formato MobiXML em C#.
// Carregar documento PDF
var document = new Document("candy.pdf");
// Salvar documento no formato MobiXML
document.Save("standard-xml-output.xml", SaveFormat.MobiXml);
PDF para PDFXML em C# .NET
Para converter um PDF para o formato PdfXML, você precisa passar SaveFormat.PdfXml como o segundo parâmetro do método Document.Save(string, SaveFormat). O exemplo de código a seguir mostra como converter um PDF para o formato PdfXML em C#.
// Carregar documento PDF
var document = new Document("candy.pdf");
// Salvar documento no formato PDFXML
document.Save("standard-xml-output.xml", SaveFormat.PdfXml);
C# PDF to XML Converter - Obtenha uma licença gratuita
Você pode obter uma licença temporária gratuita para usar o Aspose.PDF para .NET sem limitações de avaliação.
Conclusão
Neste artigo, você aprendeu como converter um documento PDF em XML em C#. Além disso, abordamos explicitamente como converter um PDF para o formato MobiXML ou PdfXML programaticamente. Além disso, você pode explorar mais sobre a API .NET PDF usando a documentação. Caso você tenha alguma dúvida ou pergunta, você pode entrar em contato conosco através do nosso fórum.