Як програмісту вам може знадобитися обробити купу PDF-файлів і витягти з них текст. Вилучення тексту з PDF може знадобитися для різних цілей, наприклад для аналізу тексту. У цій статті ми збираємося продемонструвати, як легко отримати текст із PDF-файлу в Python. Крім того, ви дізнаєтеся, як витягнути текст і зберегти його у файл TXT.
- Бібліотека Python для вилучення тексту з PDF-файлів
- Як витягти текст із PDF
- Вилучення тексту з PDF-файлу на Python
Бібліотека Python для вилучення тексту з PDF – безкоштовне завантаження
Aspose.Words for Python — це дивовижна бібліотека, яка дозволяє без проблем створювати й обробляти текстові документи. Ви можете маніпулювати документами популярних форматів, таких як DOC, DOCX і PDF. Ми збираємося використовувати цю бібліотеку для вилучення тексту з наших файлів PDF. Ви можете встановити бібліотеку з PyPI за допомогою такої команди pip.
> pip install aspose-words
Як витягти текст із PDF на Python
Aspose.Words for Python надзвичайно спростив вилучення тексту PDF, приховавши складні операції від користувача. Вам потрібно лише завантажити PDF-файл і зберегти витягнутий текст. Наступні кроки демонструють, як отримати текст із PDF-файлу за допомогою Aspose.Words for Python.
- Завантажте файл PDF із потрібного місця.
- Розпакуйте та збережіть текст у файлі .txt.
І це все. Потім ви можете обробити файл .txt і маніпулювати звичайним текстом, витягнутим із PDF-файлу.
Давайте тепер розглянемо, як програмно витягти текст із PDF-файлу на Python.
Вилучення тексту з PDF на Python
Нижче наведено кроки разом із класами та методами для вилучення тексту PDF у Python.
- Завантажте PDF-файл за допомогою класу Document.
- Витягніть текст із PDF-файлу у файл .txt за допомогою методу Document.save(fileName).
У наведеному нижче прикладі коду показано вилучення тексту з PDF-файлу в Python.
# Імпортувати модуль Aspose.Words for Python
import aspose.words as aw
# Завантажити файл PDF
pdf = aw.Document("file.pdf")
# Витягніть і збережіть текст у файлі TXT
pdf.save("extracted-text.txt")
На наступному знімку екрана показано вхідний файл PDF, який ми використовували для вилучення тексту.
На наступному знімку екрана показано витягнутий текст у файлі TXT.
PDF Text Extractor для Python – отримайте безкоштовну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб видобувати текст із PDF без обмежень оцінки.
Висновок
У цій статті ви дізналися, як видобувати текст із PDF-файлів у Python. Ви бачили, як легко та швидко можна витягнути текст із PDF-файлу та програмним способом зберегти його у файлі TXT. Тепер ви можете реалізувати вилучення тексту для пакета PDF-файлів у своїх програмах Python.
Ознайомтеся з PDF Text Extractor Aspose для Python
Ви можете дослідити інші функції Aspose.Words for Python за допомогою документації. Якщо у вас виникнуть запитання, не соромтеся повідомити нас через наш форум.