In questo articolo imparerai come estrarre tabelle da file PDF usando Python. PDF è un formato popolare per la condivisione dei dati, tuttavia, l’estrazione di tabelle da un PDF può essere un’attività impegnativa. Sono disponibili diverse librerie Python che possono aiutarci in questo compito. Tuttavia, potrebbe mancare un’estrazione accurata dei dati.
Scopriamo quindi come estrarre dati tabulari da PDF con elevata precisione all’interno di poche righe di codice. Alla fine di questo tutorial, sarai in grado di estrarre tabelle da file PDF usando Python e manipolarle secondo necessità.
- Libreria Python per estrarre tabelle PDF
- Estrai dati da tabelle PDF in Python
- Strumento online per estrarre tabelle PDF
Libreria Python per estrarre tabelle da PDF
Per estrarre i dati dalle tabelle nei file PDF, useremo Aspose.PDF for Python. È una potente libreria Python con una serie di funzionalità per l’elaborazione e la manipolazione dei PDF. Puoi installare Aspose.PDF for Python usando il seguente comando pip.
pip install aspose-pdf
Estrai una tabella da PDF in Python
Di seguito sono riportati i passaggi per estrarre i dati dalle tabelle in un PDF utilizzando Python.
- Carica il file PDF utilizzando la classe Document.
- Ottieni il riferimento della pagina in PDF in cui si trova la tabella.
- Inizializza l’oggetto TableAbsorber e visita la pagina selezionata utilizzando il metodo TableAbsorber.visit(Page).
- In un ciclo, scorrere l’elenco delle tabelle nella raccolta TableAbsorber.tablelist.
- Per ogni tabella, scorrere la raccolta di righe in AbsorbedTable.rowlist.
- Per ogni riga assorbita, scorrere la raccolta di celle in AbsorbedRow.celllist.
- Infine, scorrere la raccolta di frammenti di testo di ciascuna cella assorbita e stampare il testo.
L’esempio di codice seguente mostra come estrarre il testo dalla tabella PDF in Python.
import aspose.pdf as pdf
# Carica file PDF
pdfDocument = pdf.Document("input.pdf")
# Inizializza l'oggetto TableAbsorber
tableAbsorber = pdf.text.TableAbsorber()
# Analizza tutte le tabelle in prima pagina
tableAbsorber.visit(pdfDocument.pages[1])
# Ottenere un riferimento della prima tabella
absorbedTable = tableAbsorber.table_list[0]
# Scorri tutte le righe della tabella
for pdfTableRow in absorbedTable.row_list:
# Scorri tutte le colonne nella riga
for pdfTableCell in pdfTableRow.cell_list:
# Recupera i frammenti di testo
textFragmentCollection = pdfTableCell.text_fragments
# Scorrere i frammenti di testo
for textFragment in textFragmentCollection:
# Stampa il testo
print(textFragment.text)
Strumento online per estrarre tabelle PDF
Puoi anche provare il nostro strumento online gratuito, estrattore di tabelle PDF, per estrarre tabelle da file PDF, basato su Aspose.PDF for Python.
Usa la libreria PDF di Python gratuitamente
Puoi ottenere una licenza temporanea gratuita ed estrarre i dati dalle tabelle nei file PDF senza alcuna limitazione.
Esplora la libreria PDF di Python
Puoi esplorare di più sulla libreria Python PDF usando la documentazione. Inoltre, puoi pubblicare le tue domande sul nostro forum.
Conclusione
In questo articolo, hai imparato come estrarre i dati dalle tabelle in un PDF usando Python. Puoi utilizzare lo stesso codice con piccole modifiche per estrarre le tabelle da tutte le pagine di un PDF. Allo stesso modo, puoi estrarre i dati da tutte le tabelle o da una particolare tabella su una pagina. Installa semplicemente Aspose.PDF for Python nella tua applicazione e sperimenta un modo semplice e veloce per estrarre dati tabulari da file PDF.