Extraer texto de PDF C#

El formato PDF se usa ampliamente para crear documentos de solo lectura para compartir e imprimir. Generalmente, los documentos PDF contienen imágenes junto con texto y, en ciertos casos, es posible que deba extraer estas imágenes mientras analiza los PDF. De acuerdo con eso, este artículo cubre cómo extraer imágenes de PDF mediante programación en C# .NET.

C# .NET API para extraer imágenes de PDF - Descarga gratuita

Para extraer imágenes de PDF, usaremos Aspose.PDF for .NET. Es una potente API que le permite implementar una amplia gama de funciones de manipulación y generación de PDF. Además, le permite analizar el PDF y extraer imágenes sin problemas. Puede descargar la API o instalarla mediante NuGet.

PM> Install-Package Aspose.PDF

Extraer imágenes de un PDF en C#

Los siguientes son los pasos para extraer imágenes de un PDF en C#.

  • Cargue el documento usando la clase Document.
  • Recorra las páginas del documento PDF utilizando la colección Document.Pages.
  • Para cada página, acceda a cada XImage en la colección Page.Resources.Images.
  • Cree un objeto FileStream para cada imagen y guárdelo como JPEG, PNG, etc.
  • Finalmente, cierre FileStream.

El siguiente ejemplo de código muestra cómo extraer imágenes del PDF.

// Abrir documento
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Bucle a través de las páginas
foreach (var page in pdfDocument.Pages)
{
    // Bucle a través de todas las imágenes
    foreach (XImage image in page.Resources.Images)
    {
        // Crear secuencia de archivos para la imagen
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Guardar imagen de salida
        image.Save(outputImage, ImageFormat.Jpeg);

        // Cerrar transmisión
        outputImage.Close();

        imageCounter++;
    }

    // Reiniciar contador
    imageCounter = 1;
}

Obtenga una licencia gratis

Puede usar Aspose.PDF for .NET sin limitaciones de evaluación usando una licencia temporal.

Conclusión

En varios casos, podría ser necesario analizar los archivos PDF y extraer el texto o las imágenes. En este artículo, ha aprendido cómo extraer imágenes de archivos PDF mediante programación en C#. Puede explorar más sobre la API de PDF de C# utilizando la documentación. Además, puede publicar sus consultas en nuestro foro.

Ver también