Извлечение изображений из PDF Python

Если вы ищете простой способ извлечения изображений из PDF с помощью Python, эта статья предлагает ценное решение. Выполнив несколько простых шагов, вы научитесь эффективно обрабатывать файл PDF и извлекать из него изображения. Итак, давайте посмотрим, как извлечь изображения из файла PDF в Python.

Библиотека Python для извлечения изображений в PDF

Чтобы извлечь изображения из PDF, мы будем использовать Aspose.PDF for Python. Это надежная библиотека PDF, позволяющая без труда создавать и обрабатывать PDF-файлы. Кроме того, он позволяет анализировать PDF и извлекать изображения в несколько строк кода. Используйте следующую команду pip, чтобы установить библиотеку в вашем приложении.

> pip install aspose-pdf 

Как извлечь изображения из PDF в Python

Ниже приведены шаги, которые мы будем выполнять, чтобы извлечь изображения из файла PDF.

  • Загрузите файл PDF.
  • Пролистайте страницы в PDF.
  • Извлекайте изображения одно за другим.
  • Сохраните извлеченные изображения.

Давайте теперь преобразуем эти шаги в код Python и извлечем изображения из PDF.

Извлечение PDF-изображения в Python

Ниже приведены шаги для извлечения изображений из PDF-файла в Python.

  • Сначала загрузите PDF-файл с помощью класса Document.
  • Пролистайте страницы PDF-файла, используя коллекцию document.pages.
  • Для каждой страницы получите доступ к каждому XImage в коллекции resources.images.
  • Сохраните каждое изображение в нужное место, используя метод XImage.save().

В следующем примере кода показано, как извлечь изображения из PDF-файла в Python.

import aspose.pdf as ap
import aspose.pydrawing as drawing

# Загрузите PDF
document = ap.Document("document.pdf")

image_counter = 1
image_name = "image_{counter}.jpg"

# Перебрать все страницы
for page in document.pages:

    # Перебирать изображения на странице
   for image in page.resources.images: 
        
        # Создайте объект потока памяти для сохранения изображения
        with open(image_name.format(counter=image_counter), "wb") as stream:
           
            # Сохранить изображение
            image.save(stream, drawing.imaging.ImageFormat.jpeg)
            image_counter = image_counter + 1

Онлайн PDF-экстрактор изображений

Мы также предоставляем онлайн-парсер PDF, основанный на Aspose.PDF for Python. Вы можете использовать этот бесплатный инструмент для анализа файлов PDF и извлечения изображений.

PDF-библиотека Python

Вы можете получить бесплатную временную лицензию и извлекать изображения из файлов PDF без каких-либо ограничений.

Кроме того, вы можете узнать больше о библиотеке Python PDF, используя документацию. Кроме того, вы можете оставлять свои вопросы на нашем форуме.

Заключение

В этой статье вы узнали, как извлекать изображения из PDF в Python. Пошаговое руководство и пример кода продемонстрировали, как анализировать PDF-файл и извлекать изображения с каждой страницы. Кроме того, мы предоставили вам бесплатное онлайн-приложение для извлечения текста и изображений из PDF. Вы можете использовать это приложение с любого устройства, имеющего подключение к Интернету.

Смотрите также