Розпакуйте PDF-таблиці в Python

У цій статті ви дізнаєтесь, як видобувати таблиці з файлів PDF за допомогою Python. PDF є популярним форматом для обміну даними, однак вилучення таблиць із PDF може бути складним завданням. Є кілька доступних бібліотек Python, які можуть допомогти нам із цим завданням. Проте точного вилучення даних може бути недостатньо.

Отже, давайте дізнаємося, як отримати табличні дані з PDF із високою точністю за кілька рядків коду. До кінця цього підручника ви зможете видобувати таблиці з файлів PDF за допомогою Python і маніпулювати ними за потреби.

Бібліотека Python для вилучення таблиць із PDF

Щоб отримати дані з таблиць у файлах PDF, ми будемо використовувати Aspose.PDF for Python. Це потужна бібліотека Python із набором функцій для обробки PDF-файлів і роботи з ними. Ви можете встановити Aspose.PDF for Python за допомогою такої команди pip.

pip install aspose-pdf

Витягніть таблицю з PDF на Python

Нижче наведено кроки для отримання даних із таблиць у PDF за допомогою Python.

  • Завантажте PDF-файл за допомогою класу Document.
  • Отримати посилання на сторінку у форматі PDF, де розташована таблиця.
  • Ініціалізуйте об’єкт TableAbsorber і відвідайте вибрану сторінку за допомогою методу TableAbsorber.visit(Page).
  • У циклі перебирайте список таблиць у колекції TableAbsorber.tablelist.
  • Для кожної таблиці перегляньте колекцію рядків у AbsorbedTable.rowlist.
  • Для кожного поглиненого рядка виконайте ітерацію по колекції комірок у AbsorbedRow.celllist.
  • Нарешті, прокрутіть колекцію текстових фрагментів кожної поглиненої клітинки та надрукуйте текст.

У наведеному нижче прикладі коду показано, як отримати текст із таблиці PDF у Python.

import aspose.pdf as pdf

# Завантажити файл PDF
pdfDocument = pdf.Document("input.pdf")

# Ініціалізація об'єкта TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# Розберіть усі таблиці на першій сторінці
tableAbsorber.visit(pdfDocument.pages[1])

# Отримайте посилання на першу таблицю
absorbedTable = tableAbsorber.table_list[0]

# Перейдіть по всіх рядках таблиці
for pdfTableRow in absorbedTable.row_list:
    
    # Перейдіть по всіх стовпцях у рядку
   for pdfTableCell in pdfTableRow.cell_list:
        
        # Витягніть фрагменти тексту
        textFragmentCollection = pdfTableCell.text_fragments
        
        # Переглядайте фрагменти тексту
       for textFragment in textFragmentCollection:
            
            # Роздрукуйте текст
            print(textFragment.text)
            

Онлайн-інструмент для вилучення таблиць PDF

Ви також можете спробувати наш безкоштовний онлайн-інструмент, екстрактор таблиць PDF, щоб витягти таблиці з файлів PDF, який базується на Aspose.PDF for Python.

Використовуйте PDF-бібліотеку Python безкоштовно

Ви можете отримати безкоштовну тимчасову ліцензію та витягувати дані з таблиць у файли PDF без будь-яких обмежень.

Ознайомтеся з бібліотекою Python PDF

Ви можете дізнатися більше про бібліотеку PDF Python за допомогою документації. Також ви можете опублікувати свої запити на нашому форумі.

Висновок

У цій статті ви дізналися, як видобувати дані з таблиць у PDF за допомогою Python. Ви можете використовувати той самий код з невеликими змінами, щоб витягти таблиці з усіх сторінок PDF-файлу. Так само ви можете витягти дані з усіх таблиць або окремої таблиці на сторінці. Просто встановіть Aspose.PDF for Python у своїй програмі та відчуйте швидкий і простий спосіб видобування табличних даних із файлів PDF.

Дивись також