Estrai testo da PDF in Python

Durante l’elaborazione dei file PDF, spesso è necessario estrarre il contenuto dalle pagine come testo normale. Questo testo semplice può inoltre essere utilizzato per vari scopi, come l’analisi del testo, l’elaborazione del testo, ecc. In questo articolo imparerai come estrarre il testo da un PDF in Python. Con l’aiuto di esempi di codice, l’articolo dimostrerà come eseguire l’estrazione del testo su un intero PDF o su una singola pagina.

Libreria Python per estrarre testo da PDF

Per estrarre il testo dai file PDF, useremo Aspose.PDF for Python. È una potente libreria di manipolazione PDF che ti consente di creare ed elaborare file PDF. Inoltre, ti consente di convertire i file PDF in altri formati.

Puoi installare Aspose.PDF for Python usando il seguente comando pip.

pip install aspose-pdf

Estrai testo da PDF in Python

Di seguito sono riportati i passaggi per estrarre il testo da un PDF in Python.

  • Utilizzare la classe Documento per caricare il file PDF.
  • Crea un’istanza della classe TextDevice.
  • Avvia un ciclo per il numero di pagine volte.
  • In ogni iterazione, estrai il testo da una pagina utilizzando il metodo TextDevice.process() e salva il testo estratto nel file .txt.

L’esempio di codice seguente mostra come estrarre testo da PDF in Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Apri documento PDF
document = ap.Document("input.pdf")

# Crea dispositivo di testo
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Esporta la pagina in TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Estrai il testo da una pagina specifica in PDF

Puoi anche estrarre il testo da una pagina specifica del PDF utilizzando il numero di pagina nell’array Document.pages. L’esempio di codice seguente mostra come estrarre il testo da una pagina specifica in PDF.

import aspose.pdf as ap

# Apri documento PDF
document = ap.Document("input.pdf")

# Crea dispositivo di testo
textDevice = ap.devices.TextDevice()

# Estrai il testo dalla prima pagina
textDevice.process(document.pages[1], "extracted_text.txt")

Estrai testo da PDF online

Puoi anche utilizzare il nostro strumento di estrazione del testo PDF online per estrarre il testo dai file PDF. È uno strumento gratuito che puoi utilizzare senza alcun abbonamento o registrazione.

Libreria di estrazione testo PDF gratuita

Ottieni la tua licenza temporanea gratuita ed estrai il testo dai file PDF senza alcuna limitazione.

Esplora la libreria PDF di Python

Puoi esplorare di più sulla libreria Python PDF usando la documentazione. Inoltre, puoi pubblicare le tue domande sul nostro forum.

Conclusione

In questo articolo, hai imparato come estrarre testo da PDF in Python. I passaggi e gli esempi di codice hanno dimostrato come estrarre il testo da un intero PDF o da una pagina specifica. Puoi facilmente installare la libreria ed eseguire l’estrazione del testo dall’interno delle tue applicazioni Python.

Guarda anche