Вам, как программисту, может понадобиться обработать кучу PDF-файлов и извлечь из них текст. Извлечение текста из PDF может потребоваться для различных целей, таких как анализ текста. В этой статье мы собираемся продемонстрировать, как легко извлечь текст из файла PDF в Python. Кроме того, вы узнаете, как извлечь текст и сохранить его в файл TXT.
- Библиотека Python для извлечения текста из файлов PDF
- Как извлечь текст из PDF
- Извлечение текста из PDF в Python
Библиотека Python для извлечения текста из PDF — скачать бесплатно
Aspose.Words for Python — замечательная библиотека, позволяющая легко создавать и обрабатывать текстовые документы. Вы можете работать с документами популярных форматов, таких как DOC, DOCX и PDF. Мы собираемся использовать эту библиотеку для извлечения текста из наших файлов PDF. Вы можете установить библиотеку из PyPI с помощью следующей команды pip.
> pip install aspose-words
Как извлечь текст из PDF в Python
Aspose.Words for Python сделал извлечение текста PDF чрезвычайно простым, скрыв сложные операции от пользователя. Вам нужно только загрузить файл PDF и сохранить извлеченный текст. Следующие шаги демонстрируют, как извлечь текст из PDF-файла с помощью Aspose.Words for Python.
- Загрузите файл PDF из нужного места.
- Извлеките и сохраните текст в файл .txt.
И это все. Затем вы можете обработать файл .txt и манипулировать простым текстом, извлеченным из PDF.
Давайте теперь посмотрим, как программно извлечь текст из PDF в Python.
Извлечение текста из PDF в Python
Ниже приведены шаги, а также классы и методы для извлечения текста PDF в Python.
- Загрузите файл PDF, используя класс Document.
- Извлеките текст из PDF в файл .txt, используя метод Document.save(fileName).
В следующем примере кода показано извлечение текста из файла PDF в Python.
# Импорт Aspose.Words для модуля Python
import aspose.words as aw
# Загрузить PDF-файл
pdf = aw.Document("file.pdf")
# Извлечение и сохранение текста в файле TXT
pdf.save("extracted-text.txt")
На следующем снимке экрана показан входной файл PDF, который мы использовали для извлечения текста.
На следующем снимке экрана показан извлеченный текст в файле TXT.
PDF Text Extractor для Python — получите бесплатную лицензию
Вы можете получить бесплатную временную лицензию для извлечения текста из PDF без ограничений пробной версии.
Вывод
В этой статье вы узнали, как извлекать текст из файлов PDF в Python. Вы видели, как легко и быстро можно извлечь текст из PDF и сохранить его в файле TXT программными средствами. Теперь вы можете реализовать извлечение текста для пакета PDF-файлов в своих приложениях Python.
Исследуйте Aspose’ PDF Text Extractor для Python
Вы можете изучить другие функции Aspose.Words for Python, используя документацию. Если у вас возникнут какие-либо вопросы, дайте нам знать через наш форум.