Extrair texto de PDF C#

O formato PDF é amplamente usado para criar documentos somente leitura para compartilhamento e impressão. Geralmente, os documentos PDF contêm imagens junto com texto e, em certos casos, pode ser necessário extrair essas imagens ao analisar os PDFs. De acordo com isso, este artigo aborda como extrair imagens de PDF programaticamente em C# .NET.

API C# .NET para extrair imagens de PDF - Download grátis

Para extrair imagens de PDF, usaremos Aspose.PDF for .NET. É uma API poderosa que permite implementar uma ampla gama de recursos de geração e manipulação de PDF. Além disso, permite analisar o PDF e extrair imagens sem problemas. Você pode baixar a API ou instalá-la usando NuGet.

PM> Install-Package Aspose.PDF

Extraindo imagens de um PDF em C#

A seguir estão as etapas para extrair imagens de um PDF em C#.

O exemplo de código a seguir mostra como extrair imagens do PDF.

// Abrir documento
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Percorrer as páginas
foreach (var page in pdfDocument.Pages)
{
    // Percorrer todas as imagens
    foreach (XImage image in page.Resources.Images)
    {
        // Criar fluxo de arquivo para imagem
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Salvar imagem de saída
        image.Save(outputImage, ImageFormat.Jpeg);

        // Fechar fluxo
        outputImage.Close();

        imageCounter++;
    }

    // Reiniciar contador
    imageCounter = 1;
}

Obtenha uma licença gratuita

Você pode usar o Aspose.PDF para .NET sem limitações de avaliação usando uma licença temporária.

Conclusão

A análise dos arquivos PDF e a extração do texto ou das imagens podem ser necessárias em vários casos. Neste artigo, você aprendeu como extrair imagens de arquivos PDF programaticamente em C#. Você pode explorar mais sobre a API C# PDF usando a documentação. Além disso, você pode postar suas dúvidas em nosso fórum.

Veja também