У цій статті ви дізнаєтесь, як видобувати таблиці з файлів PDF за допомогою Python. PDF є популярним форматом для обміну даними, однак вилучення таблиць із PDF може бути складним завданням. Є кілька доступних бібліотек Python, які можуть допомогти нам із цим завданням. Проте точного вилучення даних може бути недостатньо.
Отже, давайте дізнаємося, як отримати табличні дані з PDF із високою точністю за кілька рядків коду. До кінця цього підручника ви зможете видобувати таблиці з файлів PDF за допомогою Python і маніпулювати ними за потреби.
- Бібліотека Python для вилучення таблиць PDF
- Видобуток даних із PDF-таблиць у Python
- Онлайн-інструмент для вилучення таблиць PDF
Бібліотека Python для вилучення таблиць із PDF
Щоб отримати дані з таблиць у файлах PDF, ми будемо використовувати Aspose.PDF for Python. Це потужна бібліотека Python із набором функцій для обробки PDF-файлів і роботи з ними. Ви можете встановити Aspose.PDF for Python за допомогою такої команди pip.
pip install aspose-pdf
Витягніть таблицю з PDF на Python
Нижче наведено кроки для отримання даних із таблиць у PDF за допомогою Python.
- Завантажте PDF-файл за допомогою класу Document.
- Отримати посилання на сторінку у форматі PDF, де розташована таблиця.
- Ініціалізуйте об’єкт TableAbsorber і відвідайте вибрану сторінку за допомогою методу TableAbsorber.visit(Page).
- У циклі перебирайте список таблиць у колекції TableAbsorber.tablelist.
- Для кожної таблиці перегляньте колекцію рядків у AbsorbedTable.rowlist.
- Для кожного поглиненого рядка виконайте ітерацію по колекції комірок у AbsorbedRow.celllist.
- Нарешті, прокрутіть колекцію текстових фрагментів кожної поглиненої клітинки та надрукуйте текст.
У наведеному нижче прикладі коду показано, як отримати текст із таблиці PDF у Python.
import aspose.pdf as pdf
# Завантажити файл PDF
pdfDocument = pdf.Document("input.pdf")
# Ініціалізація об'єкта TableAbsorber
tableAbsorber = pdf.text.TableAbsorber()
# Розберіть усі таблиці на першій сторінці
tableAbsorber.visit(pdfDocument.pages[1])
# Отримайте посилання на першу таблицю
absorbedTable = tableAbsorber.table_list[0]
# Перейдіть по всіх рядках таблиці
for pdfTableRow in absorbedTable.row_list:
# Перейдіть по всіх стовпцях у рядку
for pdfTableCell in pdfTableRow.cell_list:
# Витягніть фрагменти тексту
textFragmentCollection = pdfTableCell.text_fragments
# Переглядайте фрагменти тексту
for textFragment in textFragmentCollection:
# Роздрукуйте текст
print(textFragment.text)
Онлайн-інструмент для вилучення таблиць PDF
Ви також можете спробувати наш безкоштовний онлайн-інструмент, екстрактор таблиць PDF, щоб витягти таблиці з файлів PDF, який базується на Aspose.PDF for Python.
Використовуйте PDF-бібліотеку Python безкоштовно
Ви можете отримати безкоштовну тимчасову ліцензію та витягувати дані з таблиць у файли PDF без будь-яких обмежень.
Ознайомтеся з бібліотекою Python PDF
Ви можете дізнатися більше про бібліотеку PDF Python за допомогою документації. Також ви можете опублікувати свої запити на нашому форумі.
Висновок
У цій статті ви дізналися, як видобувати дані з таблиць у PDF за допомогою Python. Ви можете використовувати той самий код з невеликими змінами, щоб витягти таблиці з усіх сторінок PDF-файлу. Так само ви можете витягти дані з усіх таблиць або окремої таблиці на сторінці. Просто встановіть Aspose.PDF for Python у своїй програмі та відчуйте швидкий і простий спосіб видобування табличних даних із файлів PDF.