Витягніть текст із PDF на Python

Як програмісту вам може знадобитися обробити купу PDF-файлів і витягти з них текст. Вилучення тексту з PDF може знадобитися для різних цілей, наприклад для аналізу тексту. У цій статті ми збираємося продемонструвати, як легко отримати текст із PDF-файлу в Python. Крім того, ви дізнаєтеся, як витягнути текст і зберегти його у файл TXT.

Бібліотека Python для вилучення тексту з PDF – безкоштовне завантаження

Aspose.Words for Python — це дивовижна бібліотека, яка дозволяє без проблем створювати й обробляти текстові документи. Ви можете маніпулювати документами популярних форматів, таких як DOC, DOCX і PDF. Ми збираємося використовувати цю бібліотеку для вилучення тексту з наших файлів PDF. Ви можете встановити бібліотеку з PyPI за допомогою такої команди pip.

> pip install aspose-words

Як витягти текст із PDF на Python

Aspose.Words for Python надзвичайно спростив вилучення тексту PDF, приховавши складні операції від користувача. Вам потрібно лише завантажити PDF-файл і зберегти витягнутий текст. Наступні кроки демонструють, як отримати текст із PDF-файлу за допомогою Aspose.Words for Python.

  • Завантажте файл PDF із потрібного місця.
  • Розпакуйте та збережіть текст у файлі .txt.

І це все. Потім ви можете обробити файл .txt і маніпулювати звичайним текстом, витягнутим із PDF-файлу.

Давайте тепер розглянемо, як програмно витягти текст із PDF-файлу на Python.

Вилучення тексту з PDF на Python

Нижче наведено кроки разом із класами та методами для вилучення тексту PDF у Python.

  • Завантажте PDF-файл за допомогою класу Document.
  • Витягніть текст із PDF-файлу у файл .txt за допомогою методу Document.save(fileName).

У наведеному нижче прикладі коду показано вилучення тексту з PDF-файлу в Python.

# Імпортувати модуль Aspose.Words for Python
import aspose.words as aw

# Завантажити файл PDF
pdf = aw.Document("file.pdf")

# Витягніть і збережіть текст у файлі TXT
pdf.save("extracted-text.txt")

На наступному знімку екрана показано вхідний файл PDF, який ми використовували для вилучення тексту.

PDF для вилучення тексту в Python

На наступному знімку екрана показано витягнутий текст у файлі TXT.

Видобутий текст із PDF у TXT

PDF Text Extractor для Python – отримайте безкоштовну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб видобувати текст із PDF без обмежень оцінки.

Висновок

У цій статті ви дізналися, як видобувати текст із PDF-файлів у Python. Ви бачили, як легко та швидко можна витягнути текст із PDF-файлу та програмним способом зберегти його у файлі TXT. Тепер ви можете реалізувати вилучення тексту для пакета PDF-файлів у своїх програмах Python.

Ознайомтеся з PDF Text Extractor Aspose для Python

Ви можете дослідити інші функції Aspose.Words for Python за допомогою документації. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.

Дивись також