При обработке файлов PDF вам часто приходится извлекать содержимое со страниц в виде обычного текста. Этот обычный текст можно в дальнейшем использовать для различных целей, таких как анализ текста, обработка текста и т. д. В этой статье вы узнаете, как извлечь текст из PDF в Python. С помощью примеров кода статья продемонстрирует, как выполнить извлечение текста из всего PDF-файла или отдельной страницы.
- Библиотека Python для извлечения текста из PDF
- Извлечь текст из PDF в Python
- Извлечь текст со страницы в PDF
- Онлайн-экстрактор PDF-текста
Библиотека Python для извлечения текста из PDF
Для извлечения текста из файлов PDF мы будем использовать Aspose.PDF for Python. Это мощная библиотека для работы с PDF, которая позволяет создавать и обрабатывать PDF-файлы. Кроме того, он позволяет конвертировать файлы PDF в другие форматы.
Вы можете установить Aspose.PDF for Python, используя следующую команду pip.
pip install aspose-pdf
Извлечь текст из PDF в Python
Ниже приведены шаги для извлечения текста из PDF-файла в Python.
- Используйте класс Document для загрузки файла PDF.
- Создайте экземпляр класса TextDevice.
- Запустите цикл на количество страниц раз.
- На каждой итерации извлекайте текст со страницы с помощью метода TextDevice.process() и сохраняйте извлеченный текст в файле .txt.
В следующем примере кода показано, как извлечь текст из PDF в Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Открыть PDF-документ
document = ap.Document("input.pdf")
# Создать текстовое устройство
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Экспорт страницы в TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Извлечь текст с определенной страницы в PDF
Вы также можете извлечь текст с определенной страницы PDF-файла, используя номер страницы в массиве Document.pages. В следующем примере кода показано, как извлечь текст с определенной страницы в PDF.
import aspose.pdf as ap
# Открыть PDF-документ
document = ap.Document("input.pdf")
# Создать текстовое устройство
textDevice = ap.devices.TextDevice()
# Извлечь текст с первой страницы
textDevice.process(document.pages[1], "extracted_text.txt")
Извлечь текст из PDF онлайн
Вы также можете использовать наш онлайн-инструмент для извлечения текста из PDF для извлечения текста из PDF-файлов. Это бесплатный инструмент, который вы можете использовать без какой-либо подписки или регистрации.
Бесплатная библиотека для извлечения текста из PDF
Получите бесплатную временную лицензию и извлекайте текст из файлов PDF без каких-либо ограничений.
Изучите библиотеку Python PDF
Вы можете узнать больше о библиотеке Python PDF, используя документацию. Кроме того, вы можете размещать свои запросы на нашем форуме.
Заключение
В этой статье вы узнали, как извлечь текст из PDF в Python. Шаги и примеры кода продемонстрировали, как извлечь текст из всего PDF-файла или конкретной страницы. Вы можете легко установить библиотеку и выполнять извлечение текста из своих приложений Python.