Извлечь текст из PDF в Python

При обработке файлов PDF вам часто приходится извлекать содержимое со страниц в виде обычного текста. Этот обычный текст можно в дальнейшем использовать для различных целей, таких как анализ текста, обработка текста и т. д. В этой статье вы узнаете, как извлечь текст из PDF в Python. С помощью примеров кода статья продемонстрирует, как выполнить извлечение текста из всего PDF-файла или отдельной страницы.

Библиотека Python для извлечения текста из PDF

Для извлечения текста из файлов PDF мы будем использовать Aspose.PDF for Python. Это мощная библиотека для работы с PDF, которая позволяет создавать и обрабатывать PDF-файлы. Кроме того, он позволяет конвертировать файлы PDF в другие форматы.

Вы можете установить Aspose.PDF for Python, используя следующую команду pip.

pip install aspose-pdf

Извлечь текст из PDF в Python

Ниже приведены шаги для извлечения текста из PDF-файла в Python.

  • Используйте класс Document для загрузки файла PDF.
  • Создайте экземпляр класса TextDevice.
  • Запустите цикл на количество страниц раз.
  • На каждой итерации извлекайте текст со страницы с помощью метода TextDevice.process() и сохраняйте извлеченный текст в файле .txt.

В следующем примере кода показано, как извлечь текст из PDF в Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Открыть PDF-документ
document = ap.Document("input.pdf")

# Создать текстовое устройство
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Экспорт страницы в TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Извлечь текст с определенной страницы в PDF

Вы также можете извлечь текст с определенной страницы PDF-файла, используя номер страницы в массиве Document.pages. В следующем примере кода показано, как извлечь текст с определенной страницы в PDF.

import aspose.pdf as ap

# Открыть PDF-документ
document = ap.Document("input.pdf")

# Создать текстовое устройство
textDevice = ap.devices.TextDevice()

# Извлечь текст с первой страницы
textDevice.process(document.pages[1], "extracted_text.txt")

Извлечь текст из PDF онлайн

Вы также можете использовать наш онлайн-инструмент для извлечения текста из PDF для извлечения текста из PDF-файлов. Это бесплатный инструмент, который вы можете использовать без какой-либо подписки или регистрации.

Бесплатная библиотека для извлечения текста из PDF

Получите бесплатную временную лицензию и извлекайте текст из файлов PDF без каких-либо ограничений.

Изучите библиотеку Python PDF

Вы можете узнать больше о библиотеке Python PDF, используя документацию. Кроме того, вы можете размещать свои запросы на нашем форуме.

Заключение

В этой статье вы узнали, как извлечь текст из PDF в Python. Шаги и примеры кода продемонстрировали, как извлечь текст из всего PDF-файла или конкретной страницы. Вы можете легко установить библиотеку и выполнять извлечение текста из своих приложений Python.

Смотрите также