extraer imagenes de pdf en python

Las imágenes se usan comúnmente en documentos PDF junto con el texto, lo que hace que el contenido sea más atractivo y elaborado. Mientras procesa y analiza los documentos PDF, es posible que también necesite extraer imágenes. Por lo tanto, en este artículo, demostraremos cómo procesar archivos PDF y extraer imágenes mediante programación en Python. La guía paso a paso y el ejemplo de código demostrarán todo el proceso de extracción de imágenes.

Biblioteca de Python para extraer imágenes de PDF

Para extraer imágenes de un archivo PDF, usaremos Aspose.Words for Python. Es una biblioteca poderosa y rica en funciones para crear y manipular documentos de texto, incluidos PDF y DOCX. Puede instalar la biblioteca desde PyPI usando el siguiente comando pip.

> pip install aspose-words

Pasos para extraer imágenes de PDF

Aspose.Words for Python le permite extraer las imágenes de un archivo PDF en unos pocos pasos simples. El siguiente es el flujo de trabajo de cómo extraer imágenes de un PDF usando Aspose.Words for Python.

  • Cargue el archivo PDF desde la ubicación deseada.
  • Convierte PDF a formato DOCX.
  • Procese la versión DOCX de PDF y extraiga imágenes
  • Guarde cada imagen como un archivo en la ubicación deseada.

La siguiente sección demuestra cómo transformar los pasos mencionados anteriormente en código Python y extraer imágenes de un PDF.

Extraer imágenes de PDF en Python

En el proceso de extracción de imágenes, primero convertiremos el archivo PDF a formato DOCX. En un archivo DOCX, las imágenes están representadas por los nodos de forma. Por lo tanto, procesaremos cada forma y extraeremos la imagen de ella.

Los siguientes son los pasos para extraer imágenes de un PDF en Python.

  • Primero, cargue el archivo PDF usando la clase Document.
  • Luego, guarde el PDF en formato DOCX y cargue la versión DOCX del archivo PDF.
  • Recupere todas las formas en un objeto usando el método Document.getchildnodes(NodeType.SHAPE, True).
  • Recorra las formas y realice las siguientes operaciones para cada nodo de forma:
    • Convierta la forma en el tipo Shape usando el método asshape().
    • Use el método Shape.hasimage() para verificar si la forma tiene una imagen.
    • Extrae la imagen de la forma y guárdala usando el método Shape.imagedata.save(string).

El siguiente ejemplo de código muestra la extracción de imágenes de un documento PDF en Python.

# Importar módulo Aspose.Words for Python
import aspose.words as aw

# cargue el archivo PDF y conviértalo al formato Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# cargar la versión DOCX de PDF
doc = aw.Document("pdf.docx")

# recuperar todas las formas
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# bucle a través de formas
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # establecer el nombre del archivo de imagen
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # guardar imagen
        shape.image_data.save(imageFileName)
        imageIndex += 1

Biblioteca de extracción de imágenes PDF de Python: obtenga una licencia gratuita

Puede obtener una licencia temporal gratuita para extraer imágenes de PDF sin limitaciones de evaluación.

Conclusión

Al analizar los documentos PDF, también es necesario extraer imágenes junto con el texto. En este artículo, ha aprendido a extraer imágenes de un PDF en Python. Simplemente puede instalar Aspose.Words for Python e integrar la extracción de imágenes en sus aplicaciones.

Explore la biblioteca de extracción de imágenes PDF de Aspose

Aspose.Words for Python ofrece una gama de otras características para manipular documentos de texto. Puede visitar la documentación para explorar más sobre la biblioteca. En caso de que tenga alguna pregunta, no dude en hacérnosla saber a través de nuestro foro.

Ver también