extraer imágenes de documentos de word en python

Una imagen vale mas que mil palabras. Esta es la razón por la que las imágenes son una parte integral de los documentos, específicamente los documentos de Word. Las imágenes se utilizan para hacer que el contenido sea más atractivo y llamativo. Al analizar documentos de Word, puede encontrarse con el escenario en el que necesita extraer imágenes. Para lograr esto mediante programación, este artículo cubre cómo extraer imágenes de documentos de Word en Python.

Biblioteca de Python para extraer imágenes de documentos de Word

Aspose.Words for Python es una biblioteca potente y rica en funciones que se utiliza para crear y manipular documentos de Word. Usaremos esta biblioteca para extraer imágenes de archivos DOCX o DOC. Puede instalarlo en sus aplicaciones Python desde PyPI usando el siguiente comando pip.

pip install aspose-words

Extraer imágenes de documentos de Word en Python

Las imágenes en los documentos de Word están representadas por los nodos de forma. Por lo tanto, para recuperar imágenes de un documento, deberá analizar las formas. Los siguientes pasos muestran cómo extraer imágenes de un documento de Word en Python.

  • Primero, cargue el documento de Word usando la clase Document.
  • Luego, recupere todas las formas en un objeto usando el método Document.get_child\nodes(NodeType.SHAPE, True).
  • Recorra las formas y, para cada forma, realice las siguientes operaciones:
    • Convierta la forma en el tipo Shape usando el método as\shape().
    • Verifique si la forma tiene una imagen usando el método Shape.has\image().
    • Guarde la forma como una imagen usando el método Shape.image\data.save(string).

El siguiente ejemplo de código muestra cómo extraer imágenes de un documento DOCX en Python.

import aspose.words as aw

# load the Word document
doc = aw.Document("calibre.docx")

# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# loop through shapes
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # set image file's name
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # save image
        shape.image_data.save(imageFileName)
        imageIndex += 1

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal para usar Aspose.Words for Python sin limitaciones de evaluación.

Conclusión

Las imágenes se usan comúnmente en documentos de Word para hacer que el contenido sea más atractivo. En varios casos, también es necesario extraer imágenes de los documentos junto con el texto. Por lo tanto, en este artículo ha aprendido cómo extraer imágenes de documentos de Word en Python. Además de esto, puede explorar la documentación de Aspose.Words for Python. En caso de que tenga alguna pregunta, no dude en hacérnosla saber a través de nuestro foro.

Ver también

Información: si alguna vez necesita obtener un documento de Word de una presentación de PowerPoint, puede usar el convertidor Aspose Presentación a documento de Word.