витягувати зображення з документів Word на python

Малюнок вартий тисячі слів. Саме тому зображення є невід’ємною частиною документів, зокрема документів Word. Зображення використовуються, щоб зробити вміст більш привабливим і привабливим. Під час розбору документів Word ви можете зіткнутися зі сценарієм, коли вам потрібно витягти зображення. Щоб досягти цього програмним шляхом, у цій статті описано, як видобувати зображення з Word DOC DOCX у Python.

Бібліотека Python для вилучення зображень із документів Word DOC DOCX

Aspose.Words for Python — це потужна та багатофункціональна бібліотека, яка використовується для створення та обробки документів Word. Ми будемо використовувати цю бібліотеку для вилучення зображень із файлів DOCX або DOC. Ви можете встановити його у своїх програмах Python з PyPI за допомогою такої команди pip.

pip install aspose-words

Видобування зображень із Word DOC на Python

Зображення в документах Word представлені вузлами форми. Тому, щоб отримати зображення з документа, вам доведеться проаналізувати фігури. Наступні кроки показують, як витягти зображення з Word DOC у Python.

  • Спочатку завантажте документ Word за допомогою класу Document.
  • Потім отримайте всі фігури в об’єкт за допомогою методу Document.getchildnodes(NodeType.SHAPE, True).
  • Перегляньте фігури та виконайте такі дії для кожної фігури:
    • Приведіть фігуру до типу Shape за допомогою методу asshape().
    • Перевірте, чи фігура має зображення, використовуючи метод Shape.hasimage().
    • Збережіть форму як зображення за допомогою методу Shape.imagedata.save(string).

У наведеному нижче прикладі коду показано, як видобувати зображення з документа Word DOCX у Python.

import aspose.words as aw

# завантажити документ Word
doc = aw.Document("calibre.docx")

# отримати всі фігури
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# проходити по фігурах
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # встановити назву файлу зображення
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # зберегти зображення
        shape.image_data.save(imageFileName)
        imageIndex += 1

API для вилучення зображень із DOC DOCX - Отримайте безкоштовну ліцензію API

Ви можете отримати тимчасову ліцензію на використання Aspose.Words for Python без оціночних обмежень.

Висновок

Зображення зазвичай використовуються в документах Word, щоб зробити вміст більш привабливим. У різних випадках разом із текстом з документів потрібно також витягувати зображення. Отже, у цій статті ви дізналися, як видобувати зображення з документів Word DOC DOCX на Python. Окрім цього, ви можете переглянути документацію Aspose.Words for Python. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.

Дивись також

Інформація: якщо вам колись знадобиться отримати документ Word із презентації PowerPoint, ви можете скористатися конвертером Aspose Презентація в документ Word.