Extraer imágenes de PDF Python

Si está buscando un método sencillo para extraer imágenes de un PDF usando Python, este artículo proporciona una solución valiosa. Siguiendo unos sencillos pasos, puede aprender cómo procesar eficientemente un archivo PDF y extraer sus imágenes. Entonces, veamos cómo extraer imágenes de un archivo PDF en Python.

Biblioteca de Python para extraer imágenes en PDF

Para extraer imágenes de un PDF, usaremos Aspose.PDF for Python. Es una biblioteca PDF robusta que le permite crear y procesar archivos PDF sin esfuerzo. Además, te permite analizar el PDF y extraer imágenes en unas pocas líneas de código. Utilice el siguiente comando pip para instalar la biblioteca en su aplicación.

> pip install aspose-pdf 

Cómo extraer imágenes de un PDF en Python

Los siguientes son los pasos que seguiremos para extraer imágenes de un archivo PDF.

  • Cargue el archivo PDF.
  • Recorra las páginas del PDF.
  • Extraiga las imágenes una por una.
  • Guarde las imágenes extraídas.

Ahora transformemos estos pasos en código Python y extraigamos imágenes de un PDF.

Extracción de imágenes PDF en Python

Los siguientes son los pasos para extraer imágenes de un PDF en Python.

  • Primero, cargue el PDF usando la clase Document.
  • Recorra las páginas del PDF usando la colección document.pages.
  • Para cada página, acceda a cada XImage en la colección resources.images.
  • Guarde cada imagen en la ubicación deseada usando el método XImage.save().

El siguiente ejemplo de código muestra cómo extraer imágenes de un PDF en Python.

import aspose.pdf as ap
import aspose.pydrawing as drawing

# Cargue el PDF
document = ap.Document("document.pdf")

image_counter = 1
image_name = "image_{counter}.jpg"

# Recorrer todas las páginas
for page in document.pages:

    # Recorrer las imágenes en la página
   for image in page.resources.images: 
        
        # Cree un objeto de flujo de memoria para guardar la imagen
        with open(image_name.format(counter=image_counter), "wb") as stream:
           
            # Guarda la imagen
            image.save(stream, drawing.imaging.ImageFormat.jpeg)
            image_counter = image_counter + 1

Extractor de imágenes PDF en línea

También proporcionamos un analizador de PDF en línea, que se basa en Aspose.PDF for Python. Puede utilizar esta herramienta gratuita para analizar los archivos PDF y extraer imágenes.

Biblioteca PDF de Python

Puede obtener una licencia temporal gratuita y extraer imágenes de archivos PDF sin ninguna limitación.

Además, puede explorar más sobre la biblioteca PDF de Python utilizando la documentación. Además, puede publicar sus consultas en nuestro foro.

Conclusión

En este artículo, ha aprendido a extraer imágenes de un PDF en Python. La guía paso a paso y el ejemplo de código han demostrado cómo analizar un PDF y extraer imágenes de cada página. Además, le proporcionamos una aplicación en línea gratuita para la extracción de texto e imágenes en PDF. Puede utilizar esta aplicación desde cualquier dispositivo que tenga conexión a Internet.

Ver también