extrair imagens de documentos do word em python

Uma imagem vale mais que mil palavras. Esta é a razão pela qual as imagens são parte integrante dos documentos, especificamente documentos do Word. As imagens são usadas para tornar o conteúdo mais atraente e atraente. Ao analisar documentos do Word, você pode se deparar com o cenário em que precisa extrair imagens. Para conseguir isso programaticamente, este artigo aborda como extrair imagens do Word DOC DOCX em Python.

Biblioteca Python para extrair imagens de documentos do Word DOC DOCX

Aspose.Words for Python é uma biblioteca poderosa e rica em recursos que é usada para criar e manipular documentos do Word. Usaremos esta biblioteca para extrair imagens de arquivos DOCX ou DOC. Você pode instalá-lo em seus aplicativos Python de PyPI usando o seguinte comando pip.

pip install aspose-words

Extraindo imagens do Word DOC em Python

As imagens nos documentos do Word são representadas pelos nós de forma. Portanto, para recuperar imagens de um documento, você terá que analisar as formas. As etapas a seguir mostram como extrair imagens de um Word DOC em Python.

  • Primeiro, carregue o documento do Word usando a classe Document.
  • Em seguida, recupere todas as formas em um objeto usando o método Document.getchildnodes(NodeType.SHAPE, True).
  • Percorra as formas e, para cada forma, execute as seguintes operações:
    • Converta a forma no tipo Shape usando o método asshape().
    • Verifique se a forma tem imagem usando o método Shape.hasimage().
    • Salve a forma como uma imagem usando o método Shape.imagedata.save(string).

O exemplo de código a seguir mostra como extrair imagens de um documento Word DOCX em Python.

import aspose.words as aw

# load the Word document
doc = aw.Document("calibre.docx")

# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# loop through shapes
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # set image file's name
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # save image
        shape.image_data.save(imageFileName)
        imageIndex += 1

API para extrair imagens do DOC DOCX - Obtenha uma licença de API gratuita

Você pode obter uma licença temporária para usar o Aspose.Words for Python sem limitações de avaliação.

Conclusão

As imagens são comumente usadas em documentos do Word para tornar o conteúdo mais atraente. Em vários casos, também é necessário extrair imagens dos documentos junto com o texto. Portanto, neste artigo, você aprendeu como extrair imagens de documentos Word DOC DOCX em Python. Além disso, você pode explorar a documentação do Aspose.Words for Python. Caso você tenha alguma dúvida, sinta-se à vontade para nos informar através do nosso fórum.

Veja também

Informações: Se você precisar obter um documento do Word de uma apresentação do PowerPoint, poderá usar o conversor Aspose Apresentação para documento do Word.