извлекать изображения из текстовых документов в python

Одна картинка стоит тысячи слов. По этой причине изображения являются неотъемлемой частью документов, особенно документов Word. Изображения используются для того, чтобы сделать контент более привлекательным и привлекательным. При анализе документов Word вы можете столкнуться со сценарием, когда вам нужно извлечь изображения. Чтобы добиться этого программно, в этой статье рассказывается, как извлекать изображения из документов Word в Python.

Библиотека Python для извлечения изображений из документов Word

Aspose.Words for Python — это мощная и многофункциональная библиотека, которая используется для создания документов Word и управления ими. Мы будем использовать эту библиотеку для извлечения изображений из файлов DOCX или DOC. Вы можете установить его в свои приложения Python из PyPI с помощью следующей команды pip.

pip install aspose-words

Извлечение изображений из документов Word в Python

Изображения в документах Word представлены узлами формы. Следовательно, чтобы получить изображения из документа, вам придется проанализировать фигуры. Следующие шаги показывают, как извлечь изображения из документа Word в Python.

  • Сначала загрузите документ Word, используя класс Document.
  • Затем извлеките все фигуры в объект с помощью метода Document.getchildnodes(NodeType.SHAPE, True).
  • Переберите фигуры и для каждой фигуры выполните следующие операции:
    • Приведите форму к типу Shape, используя метод asshape().
    • Проверьте, есть ли у формы изображение, используя метод Shape.hasimage().
    • Сохраните фигуру как изображение, используя метод Shape.imagedata.save(string).

В следующем примере кода показано, как извлечь изображения из документа DOCX в Python.

import aspose.words as aw

# load the Word document
doc = aw.Document("calibre.docx")

# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# loop through shapes
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # set image file's name
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # save image
        shape.image_data.save(imageFileName)
        imageIndex += 1

Получите бесплатную лицензию API

Вы можете получить временную лицензию на использование Aspose.Words for Python без ограничений на пробную версию.

Вывод

Изображения обычно используются в документах Word, чтобы сделать содержимое более привлекательным. В различных случаях изображения также требуется извлекать из документов вместе с текстом. Поэтому в этой статье вы узнали, как извлекать изображения из документов Word в Python. Кроме того, вы можете изучить документацию Aspose.Words для Python. Если у вас возникнут вопросы, сообщите нам об этом через наш форум.

Смотрите также

Информация: Если вам когда-нибудь понадобится получить документ Word из презентации PowerPoint, вы можете использовать конвертер Aspose Presentation to Word Document.