Estrai tabelle PDF in Python

In questo articolo imparerai come estrarre tabelle da file PDF usando Python. PDF è un formato popolare per la condivisione dei dati, tuttavia, l’estrazione di tabelle da un PDF può essere un’attività impegnativa. Sono disponibili diverse librerie Python che possono aiutarci in questo compito. Tuttavia, potrebbe mancare un’estrazione accurata dei dati.

Scopriamo quindi come estrarre dati tabulari da PDF con elevata precisione all’interno di poche righe di codice. Alla fine di questo tutorial, sarai in grado di estrarre tabelle da file PDF usando Python e manipolarle secondo necessità.

Libreria Python per estrarre tabelle da PDF

Per estrarre i dati dalle tabelle nei file PDF, useremo Aspose.PDF for Python. È una potente libreria Python con una serie di funzionalità per l’elaborazione e la manipolazione dei PDF. Puoi installare Aspose.PDF for Python usando il seguente comando pip.

pip install aspose-pdf

Estrai una tabella da PDF in Python

Di seguito sono riportati i passaggi per estrarre i dati dalle tabelle in un PDF utilizzando Python.

  • Carica il file PDF utilizzando la classe Document.
  • Ottieni il riferimento della pagina in PDF in cui si trova la tabella.
  • Inizializza l’oggetto TableAbsorber e visita la pagina selezionata utilizzando il metodo TableAbsorber.visit(Page).
  • In un ciclo, scorrere l’elenco delle tabelle nella raccolta TableAbsorber.tablelist.
  • Per ogni tabella, scorrere la raccolta di righe in AbsorbedTable.rowlist.
  • Per ogni riga assorbita, scorrere la raccolta di celle in AbsorbedRow.celllist.
  • Infine, scorrere la raccolta di frammenti di testo di ciascuna cella assorbita e stampare il testo.

L’esempio di codice seguente mostra come estrarre il testo dalla tabella PDF in Python.

import aspose.pdf as pdf

# Carica file PDF
pdfDocument = pdf.Document("input.pdf")

# Inizializza l'oggetto TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# Analizza tutte le tabelle in prima pagina
tableAbsorber.visit(pdfDocument.pages[1])

# Ottenere un riferimento della prima tabella
absorbedTable = tableAbsorber.table_list[0]

# Scorri tutte le righe della tabella
for pdfTableRow in absorbedTable.row_list:
    
    # Scorri tutte le colonne nella riga
   for pdfTableCell in pdfTableRow.cell_list:
        
        # Recupera i frammenti di testo
        textFragmentCollection = pdfTableCell.text_fragments
        
        # Scorrere i frammenti di testo
       for textFragment in textFragmentCollection:
            
            # Stampa il testo
            print(textFragment.text)
            

Strumento online per estrarre tabelle PDF

Puoi anche provare il nostro strumento online gratuito, estrattore di tabelle PDF, per estrarre tabelle da file PDF, basato su Aspose.PDF for Python.

Usa la libreria PDF di Python gratuitamente

Puoi ottenere una licenza temporanea gratuita ed estrarre i dati dalle tabelle nei file PDF senza alcuna limitazione.

Esplora la libreria PDF di Python

Puoi esplorare di più sulla libreria Python PDF usando la documentazione. Inoltre, puoi pubblicare le tue domande sul nostro forum.

Conclusione

In questo articolo, hai imparato come estrarre i dati dalle tabelle in un PDF usando Python. Puoi utilizzare lo stesso codice con piccole modifiche per estrarre le tabelle da tutte le pagine di un PDF. Allo stesso modo, puoi estrarre i dati da tutte le tabelle o da una particolare tabella su una pagina. Installa semplicemente Aspose.PDF for Python nella tua applicazione e sperimenta un modo semplice e veloce per estrarre dati tabulari da file PDF.

Guarda anche