Uma imagem vale mais que mil palavras. Esta é a razão pela qual as imagens são parte integrante dos documentos, especificamente documentos do Word. As imagens são usadas para tornar o conteúdo mais atraente e atraente. Ao analisar documentos do Word, você pode se deparar com o cenário em que precisa extrair imagens. Para conseguir isso programaticamente, este artigo aborda como extrair imagens do Word DOC DOCX em Python.
Biblioteca Python para extrair imagens de documentos do Word DOC DOCX
Aspose.Words for Python é uma biblioteca poderosa e rica em recursos que é usada para criar e manipular documentos do Word. Usaremos esta biblioteca para extrair imagens de arquivos DOCX ou DOC. Você pode instalá-lo em seus aplicativos Python de PyPI usando o seguinte comando pip.
pip install aspose-words
Extraindo imagens do Word DOC em Python
As imagens nos documentos do Word são representadas pelos nós de forma. Portanto, para recuperar imagens de um documento, você terá que analisar as formas. As etapas a seguir mostram como extrair imagens de um Word DOC em Python.
- Primeiro, carregue o documento do Word usando a classe Document.
- Em seguida, recupere todas as formas em um objeto usando o método Document.getchildnodes(NodeType.SHAPE, True).
- Percorra as formas e, para cada forma, execute as seguintes operações:
- Converta a forma no tipo Shape usando o método asshape().
- Verifique se a forma tem imagem usando o método Shape.hasimage().
- Salve a forma como uma imagem usando o método Shape.imagedata.save(string).
O exemplo de código a seguir mostra como extrair imagens de um documento Word DOCX em Python.
import aspose.words as aw
# load the Word document
doc = aw.Document("calibre.docx")
# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# loop through shapes
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# set image file's name
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# save image
shape.image_data.save(imageFileName)
imageIndex += 1
API para extrair imagens do DOC DOCX - Obtenha uma licença de API gratuita
Você pode obter uma licença temporária para usar o Aspose.Words for Python sem limitações de avaliação.
Conclusão
As imagens são comumente usadas em documentos do Word para tornar o conteúdo mais atraente. Em vários casos, também é necessário extrair imagens dos documentos junto com o texto. Portanto, neste artigo, você aprendeu como extrair imagens de documentos Word DOC DOCX em Python. Além disso, você pode explorar a documentação do Aspose.Words for Python. Caso você tenha alguma dúvida, sinta-se à vontade para nos informar através do nosso fórum.
Veja também
- Criar documentos do MS Word usando Python
- Converter documento do Word para HTML usando Python
- Converter documentos do Word para PNG, JPEG ou BMP em Python
- Documentos do Word para Markdown usando Python
- Compare dois documentos do Word em Python
Informações: Se você precisar obter um documento do Word de uma apresentação do PowerPoint, poderá usar o conversor Aspose Apresentação para documento do Word.