Витягніть текст із PDF на Python

Під час обробки файлів PDF вам часто потрібно витягти вміст зі сторінок як звичайний текст. Цей простий текст можна надалі використовувати для різних цілей, наприклад для аналізу тексту, обробки тексту тощо. У цій статті ви дізнаєтесь, як витягти текст із PDF-файлу в Python. За допомогою прикладів коду в статті буде продемонстровано, як виконати вилучення тексту з усього PDF-файлу або окремої сторінки.

Бібліотека Python для вилучення тексту з PDF

Щоб отримати текст із PDF-файлів, ми використаємо Aspose.PDF for Python. Це потужна бібліотека для роботи з PDF-файлами, яка дозволяє створювати та обробляти PDF-файли. Крім того, він дозволяє конвертувати файли PDF в інші формати.

Ви можете встановити Aspose.PDF for Python за допомогою такої команди pip.

pip install aspose-pdf

Витягніть текст із PDF на Python

Нижче наведено кроки для отримання тексту з PDF-файлу в Python.

  • Використовуйте клас Document, щоб завантажити файл PDF.
  • Створіть екземпляр класу TextDevice.
  • Запустіть цикл для кількості сторінок.
  • У кожній ітерації витягуйте текст зі сторінки за допомогою методу TextDevice.process() і зберігайте витягнутий текст у файлі .txt.

У наведеному нижче прикладі коду показано, як отримати текст із PDF-файлу на Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Відкрийте документ PDF
document = ap.Document("input.pdf")

# Створення текстового пристрою
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Експорт сторінки в TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Витягніть текст із певної сторінки в PDF

Ви також можете витягнути текст із певної сторінки PDF-файлу за допомогою номера сторінки в масиві Document.pages. У наведеному нижче прикладі коду показано, як витягнути текст із певної сторінки у PDF.

import aspose.pdf as ap

# Відкрийте документ PDF
document = ap.Document("input.pdf")

# Створення текстового пристрою
textDevice = ap.devices.TextDevice()

# Вилучити текст з першої сторінки
textDevice.process(document.pages[1], "extracted_text.txt")

Витягніть текст із PDF онлайн

Ви також можете скористатися нашим онлайн-інструментом вилучення тексту PDF, щоб витягти текст із файлів PDF. Це безкоштовний інструмент, яким можна користуватися без будь-якої підписки чи реєстрації.

Безкоштовна бібліотека вилучення тексту PDF

Отримайте безкоштовну тимчасову ліцензію та витягуйте текст із PDF-файлів без будь-яких обмежень.

Дослідіть PDF-бібліотеку Python

Ви можете дізнатися більше про бібліотеку PDF Python за допомогою документації. Крім того, ви можете розміщувати свої запити на нашому форумі.

Висновок

У цій статті ви дізналися, як видобувати текст із PDF-файлу на Python. Кроки та зразки коду продемонстрували, як витягнути текст із цілого PDF-файлу або окремої сторінки. Ви можете легко інсталювати бібліотеку та виконувати вилучення тексту з програм Python.

Дивись також