Одна картинка стоит тысячи слов. По этой причине изображения являются неотъемлемой частью документов, особенно документов Word. Изображения используются для того, чтобы сделать контент более привлекательным и привлекательным. При анализе документов Word вы можете столкнуться со сценарием, когда вам нужно извлечь изображения. Чтобы добиться этого программно, в этой статье рассказывается, как извлекать изображения из документов Word в Python.
- Библиотека Python для извлечения изображений из документов Word
- Извлечение изображений из документов Word
Библиотека Python для извлечения изображений из документов Word
Aspose.Words for Python — это мощная и многофункциональная библиотека, которая используется для создания документов Word и управления ими. Мы будем использовать эту библиотеку для извлечения изображений из файлов DOCX или DOC. Вы можете установить его в свои приложения Python из PyPI с помощью следующей команды pip.
pip install aspose-words
Извлечение изображений из документов Word в Python
Изображения в документах Word представлены узлами формы. Следовательно, чтобы получить изображения из документа, вам придется проанализировать фигуры. Следующие шаги показывают, как извлечь изображения из документа Word в Python.
- Сначала загрузите документ Word, используя класс Document.
- Затем извлеките все фигуры в объект с помощью метода Document.getchildnodes(NodeType.SHAPE, True).
- Переберите фигуры и для каждой фигуры выполните следующие операции:
- Приведите форму к типу Shape, используя метод asshape().
- Проверьте, есть ли у формы изображение, используя метод Shape.hasimage().
- Сохраните фигуру как изображение, используя метод Shape.imagedata.save(string).
В следующем примере кода показано, как извлечь изображения из документа DOCX в Python.
import aspose.words as aw
# load the Word document
doc = aw.Document("calibre.docx")
# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# loop through shapes
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# set image file's name
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# save image
shape.image_data.save(imageFileName)
imageIndex += 1
Получите бесплатную лицензию API
Вы можете получить временную лицензию на использование Aspose.Words for Python без ограничений на пробную версию.
Вывод
Изображения обычно используются в документах Word, чтобы сделать содержимое более привлекательным. В различных случаях изображения также требуется извлекать из документов вместе с текстом. Поэтому в этой статье вы узнали, как извлекать изображения из документов Word в Python. Кроме того, вы можете изучить документацию Aspose.Words для Python. Если у вас возникнут вопросы, сообщите нам об этом через наш форум.
Смотрите также
- Создавайте документы MS Word с помощью Python
- Преобразование документа Word в HTML с помощью Python
- Преобразование документов Word в PNG, JPEG или BMP в Python
- Документы Word в Markdown с использованием Python
- Сравните два документа Word в Python
Информация: Если вам когда-нибудь понадобится получить документ Word из презентации PowerPoint, вы можете использовать конвертер Aspose Presentation to Word Document.