Durante l’elaborazione dei file PDF, spesso è necessario estrarre il contenuto dalle pagine come testo normale. Questo testo semplice può inoltre essere utilizzato per vari scopi, come l’analisi del testo, l’elaborazione del testo, ecc. In questo articolo imparerai come estrarre il testo da un PDF in Python. Con l’aiuto di esempi di codice, l’articolo dimostrerà come eseguire l’estrazione del testo su un intero PDF o su una singola pagina.
- Libreria Python per estrarre testo da PDF
- Estrai testo da PDF in Python
- Estrai testo da una pagina in PDF
- Estrattore di testo PDF online
Libreria Python per estrarre testo da PDF
Per estrarre il testo dai file PDF, useremo Aspose.PDF for Python. È una potente libreria di manipolazione PDF che ti consente di creare ed elaborare file PDF. Inoltre, ti consente di convertire i file PDF in altri formati.
Puoi installare Aspose.PDF for Python usando il seguente comando pip.
pip install aspose-pdf
Estrai testo da PDF in Python
Di seguito sono riportati i passaggi per estrarre il testo da un PDF in Python.
- Utilizzare la classe Documento per caricare il file PDF.
- Crea un’istanza della classe TextDevice.
- Avvia un ciclo per il numero di pagine volte.
- In ogni iterazione, estrai il testo da una pagina utilizzando il metodo TextDevice.process() e salva il testo estratto nel file .txt.
L’esempio di codice seguente mostra come estrarre testo da PDF in Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Apri documento PDF
document = ap.Document("input.pdf")
# Crea dispositivo di testo
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Esporta la pagina in TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Estrai il testo da una pagina specifica in PDF
Puoi anche estrarre il testo da una pagina specifica del PDF utilizzando il numero di pagina nell’array Document.pages. L’esempio di codice seguente mostra come estrarre il testo da una pagina specifica in PDF.
import aspose.pdf as ap
# Apri documento PDF
document = ap.Document("input.pdf")
# Crea dispositivo di testo
textDevice = ap.devices.TextDevice()
# Estrai il testo dalla prima pagina
textDevice.process(document.pages[1], "extracted_text.txt")
Estrai testo da PDF online
Puoi anche utilizzare il nostro strumento di estrazione del testo PDF online per estrarre il testo dai file PDF. È uno strumento gratuito che puoi utilizzare senza alcun abbonamento o registrazione.
Libreria di estrazione testo PDF gratuita
Ottieni la tua licenza temporanea gratuita ed estrai il testo dai file PDF senza alcuna limitazione.
Esplora la libreria PDF di Python
Puoi esplorare di più sulla libreria Python PDF usando la documentazione. Inoltre, puoi pubblicare le tue domande sul nostro forum.
Conclusione
In questo articolo, hai imparato come estrarre testo da PDF in Python. I passaggi e gli esempi di codice hanno dimostrato come estrarre il testo da un intero PDF o da una pagina specifica. Puoi facilmente installare la libreria ed eseguire l’estrazione del testo dall’interno delle tue applicazioni Python.