витягувати зображення з pdf на python

Зображення зазвичай використовуються в PDF-документах разом із текстом, що робить вміст більш привабливим і складним. Під час обробки та аналізу PDF-документів вам може знадобитися також витягнути зображення. Тому в цій статті ми продемонструємо, як програмно обробляти PDF-файли та видобувати зображення на Python. Покроковий посібник і зразок коду продемонструють весь процес вилучення зображення.

Бібліотека Python для вилучення зображень із PDF

Щоб отримати зображення з PDF-файлу, ми будемо використовувати Aspose.Words for Python. Це потужна та багатофункціональна бібліотека для створення та обробки текстових документів, включаючи PDF та DOCX. Ви можете встановити бібліотеку з PyPI за допомогою такої команди pip.

> pip install aspose-words

Кроки для вилучення зображень із PDF

Aspose.Words for Python дозволяє видобувати зображення з PDF-файлу за кілька простих кроків. Нижче наведено процес вилучення зображень із PDF-файлу за допомогою Aspose.Words for Python.

  • Завантажте файл PDF із потрібного місця.
  • Перетворення PDF у формат DOCX.
  • Обробка DOCX-версії PDF і вилучення зображень
  • Збережіть кожне зображення як файл у потрібному місці.

У наступному розділі показано, як перетворити згадані вище дії в код Python і витягти зображення з PDF-файлу.

Видобувайте зображення з PDF на Python

У процесі вилучення зображення ми спочатку конвертуємо файл PDF у формат DOCX. У файлі DOCX зображення представлені вузлами форми. Тому ми опрацюємо кожну фігуру та витягнемо з неї зображення.

Нижче наведено кроки для отримання зображень із PDF-файлу в Python.

  • Спочатку завантажте PDF-файл за допомогою класу Document.
  • Потім збережіть PDF у форматі DOCX і завантажте DOCX-версію PDF-файлу.
  • Отримайте всі фігури в об’єкт за допомогою методу Document.getchildnodes(NodeType.SHAPE, True).
  • Перегляньте фігури та виконайте такі операції для кожного вузла фігури:
    • Приведіть фігуру до типу Shape за допомогою методу asshape().
    • Використовуйте метод Shape.hasimage(), щоб перевірити, чи фігура має зображення.
    • Витягніть зображення з фігури та збережіть його за допомогою методу Shape.imagedata.save(string).

Наведений нижче приклад коду демонструє вилучення зображення з документа PDF у Python.

# Імпортувати модуль Aspose.Words for Python
import aspose.words as aw

# завантажити файл PDF і конвертувати у формат Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# завантажити DOCX версію PDF
doc = aw.Document("pdf.docx")

# отримати всі фігури
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# проходити по фігурах
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # встановити назву файлу зображення
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # зберегти зображення
        shape.image_data.save(imageFileName)
        imageIndex += 1

Python PDF Image Extraction Library – отримайте безкоштовну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб видобувати зображення з PDF без обмежень оцінки.

Висновок

Під час аналізу PDF-документів разом із текстом потрібно також витягувати зображення. У цій статті ви дізналися, як видобувати зображення з PDF-файлу на Python. Ви можете просто встановити Aspose.Words for Python і інтегрувати вилучення зображень у свої програми.

Ознайомтеся з бібліотекою видобування зображень PDF Aspose

Aspose.Words for Python пропонує низку інших функцій для роботи з текстовими документами. Ви можете відвідати документацію, щоб дізнатися більше про бібліотеку. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.

Дивись також