Зображення зазвичай використовуються в PDF-документах разом із текстом, що робить вміст більш привабливим і складним. Під час обробки та аналізу PDF-документів вам може знадобитися також витягнути зображення. Тому в цій статті ми продемонструємо, як програмно обробляти PDF-файли та видобувати зображення на Python. Покроковий посібник і зразок коду продемонструють весь процес вилучення зображення.
- Бібліотека Python для вилучення зображень із PDF
- Кроки для вилучення зображень із PDF
- Видобування зображень із PDF на Python
Бібліотека Python для вилучення зображень із PDF
Щоб отримати зображення з PDF-файлу, ми будемо використовувати Aspose.Words for Python. Це потужна та багатофункціональна бібліотека для створення та обробки текстових документів, включаючи PDF та DOCX. Ви можете встановити бібліотеку з PyPI за допомогою такої команди pip.
> pip install aspose-words
Кроки для вилучення зображень із PDF
Aspose.Words for Python дозволяє видобувати зображення з PDF-файлу за кілька простих кроків. Нижче наведено процес вилучення зображень із PDF-файлу за допомогою Aspose.Words for Python.
- Завантажте файл PDF із потрібного місця.
- Перетворення PDF у формат DOCX.
- Обробка DOCX-версії PDF і вилучення зображень
- Збережіть кожне зображення як файл у потрібному місці.
У наступному розділі показано, як перетворити згадані вище дії в код Python і витягти зображення з PDF-файлу.
Видобувайте зображення з PDF на Python
У процесі вилучення зображення ми спочатку конвертуємо файл PDF у формат DOCX. У файлі DOCX зображення представлені вузлами форми. Тому ми опрацюємо кожну фігуру та витягнемо з неї зображення.
Нижче наведено кроки для отримання зображень із PDF-файлу в Python.
- Спочатку завантажте PDF-файл за допомогою класу Document.
- Потім збережіть PDF у форматі DOCX і завантажте DOCX-версію PDF-файлу.
- Отримайте всі фігури в об’єкт за допомогою методу Document.getchildnodes(NodeType.SHAPE, True).
- Перегляньте фігури та виконайте такі операції для кожного вузла фігури:
- Приведіть фігуру до типу Shape за допомогою методу asshape().
- Використовуйте метод Shape.hasimage(), щоб перевірити, чи фігура має зображення.
- Витягніть зображення з фігури та збережіть його за допомогою методу Shape.imagedata.save(string).
Наведений нижче приклад коду демонструє вилучення зображення з документа PDF у Python.
# Імпортувати модуль Aspose.Words for Python
import aspose.words as aw
# завантажити файл PDF і конвертувати у формат Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")
# завантажити DOCX версію PDF
doc = aw.Document("pdf.docx")
# отримати всі фігури
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# проходити по фігурах
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# встановити назву файлу зображення
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# зберегти зображення
shape.image_data.save(imageFileName)
imageIndex += 1
Python PDF Image Extraction Library – отримайте безкоштовну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб видобувати зображення з PDF без обмежень оцінки.
Висновок
Під час аналізу PDF-документів разом із текстом потрібно також витягувати зображення. У цій статті ви дізналися, як видобувати зображення з PDF-файлу на Python. Ви можете просто встановити Aspose.Words for Python і інтегрувати вилучення зображень у свої програми.
Ознайомтеся з бібліотекою видобування зображень PDF Aspose
Aspose.Words for Python пропонує низку інших функцій для роботи з текстовими документами. Ви можете відвідати документацію, щоб дізнатися більше про бібліотеку. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.