Извлечь текст из PDF в Python

Вам, как программисту, может понадобиться обработать кучу PDF-файлов и извлечь из них текст. Извлечение текста из PDF может потребоваться для различных целей, таких как анализ текста. В этой статье мы собираемся продемонстрировать, как легко извлечь текст из файла PDF в Python. Кроме того, вы узнаете, как извлечь текст и сохранить его в файл TXT.

Библиотека Python для извлечения текста из PDF — скачать бесплатно

Aspose.Words for Python — замечательная библиотека, позволяющая легко создавать и обрабатывать текстовые документы. Вы можете работать с документами популярных форматов, таких как DOC, DOCX и PDF. Мы собираемся использовать эту библиотеку для извлечения текста из наших файлов PDF. Вы можете установить библиотеку из PyPI с помощью следующей команды pip.

> pip install aspose-words

Как извлечь текст из PDF в Python

Aspose.Words for Python сделал извлечение текста PDF чрезвычайно простым, скрыв сложные операции от пользователя. Вам нужно только загрузить файл PDF и сохранить извлеченный текст. Следующие шаги демонстрируют, как извлечь текст из PDF-файла с помощью Aspose.Words for Python.

  • Загрузите файл PDF из нужного места.
  • Извлеките и сохраните текст в файл .txt.

И это все. Затем вы можете обработать файл .txt и манипулировать простым текстом, извлеченным из PDF.

Давайте теперь посмотрим, как программно извлечь текст из PDF в Python.

Извлечение текста из PDF в Python

Ниже приведены шаги, а также классы и методы для извлечения текста PDF в Python.

  • Загрузите файл PDF, используя класс Document.
  • Извлеките текст из PDF в файл .txt, используя метод Document.save(fileName).

В следующем примере кода показано извлечение текста из файла PDF в Python.

# Импорт Aspose.Words для модуля Python
import aspose.words as aw

# Загрузить PDF-файл
pdf = aw.Document("file.pdf")

# Извлечение и сохранение текста в файле TXT
pdf.save("extracted-text.txt")

На следующем снимке экрана показан входной файл PDF, который мы использовали для извлечения текста.

PDF для извлечения текста в Python

На следующем снимке экрана показан извлеченный текст в файле TXT.

Извлеченный текст из PDF в TXT

PDF Text Extractor для Python — получите бесплатную лицензию

Вы можете получить бесплатную временную лицензию для извлечения текста из PDF без ограничений пробной версии.

Вывод

В этой статье вы узнали, как извлекать текст из файлов PDF в Python. Вы видели, как легко и быстро можно извлечь текст из PDF и сохранить его в файле TXT программными средствами. Теперь вы можете реализовать извлечение текста для пакета PDF-файлов в своих приложениях Python.

Исследуйте Aspose’ PDF Text Extractor для Python

Вы можете изучить другие функции Aspose.Words for Python, используя документацию. Если у вас возникнут какие-либо вопросы, дайте нам знать через наш форум.

Смотрите также