Estrai testo da PDF in Python

Come programmatore, potrebbe essere necessario elaborare una serie di file PDF ed estrarne del testo. L’estrazione di testo da PDF potrebbe essere richiesta per vari scopi come l’analisi del testo. In questo articolo, dimostreremo quanto sia facile estrarre il testo da un file PDF in Python. Inoltre, imparerai come estrarre il testo e salvarlo in un file TXT.

Libreria Python per estrarre testo da PDF - Download gratuito

Aspose.Words for Python è una straordinaria libreria che ti consente di creare ed elaborare documenti di testo senza problemi. Puoi manipolare i documenti dei formati più diffusi come DOC, DOCX e PDF. Utilizzeremo questa libreria per eseguire l’estrazione di testo sui nostri file PDF. Puoi installare la libreria da PyPI usando il seguente comando pip.

> pip install aspose-words

Come estrarre testo da PDF in Python

Aspose.Words for Python ha reso estremamente semplice l’estrazione del testo PDF nascondendo le complesse operazioni all’utente. Devi solo caricare il file PDF e salvare il testo estratto. I passaggi seguenti mostrano come estrarre testo da un PDF utilizzando Aspose.Words for Python.

  • Carica il file PDF dalla posizione desiderata.
  • Estrai e salva il testo in un file .txt.

E questo è tutto. È quindi possibile elaborare il file .txt e manipolare il testo normale estratto dal PDF.

Diamo ora un’occhiata a come estrarre il testo da un PDF a livello di codice in Python.

Estrazione di testo da PDF in Python

Di seguito sono riportati i passaggi insieme a classi e metodi per l’estrazione di testo PDF in Python.

  • Carica il file PDF utilizzando la classe Document.
  • Estrai il testo dal PDF in un file .txt usando il metodo Document.save(fileName).

L’esempio di codice seguente mostra l’estrazione di testo da un file PDF in Python.

# Importa il modulo Aspose.Words for Python
import aspose.words as aw

# Carica file PDF
pdf = aw.Document("file.pdf")

# Estrai e salva il testo in un file TXT
pdf.save("extracted-text.txt")

Lo screenshot seguente mostra il file PDF di input che abbiamo utilizzato per l’estrazione del testo.

PDF per estrarre testo in Python

Lo screenshot seguente mostra il testo estratto in un file TXT.

Testo estratto da PDF a TXT

PDF Text Extractor per Python - Ottieni una licenza gratuita

Puoi ottenere una licenza temporanea gratuita per estrarre testo da PDF senza limitazioni di valutazione.

Conclusione

In questo articolo, hai imparato come estrarre testo da file PDF in Python. Hai visto con quanta facilità e rapidità puoi estrarre testo da un PDF e salvarlo in un file TXT in modo programmatico. Ora puoi implementare l’estrazione di testo per un batch di file PDF nelle tue applicazioni Python.

Esplora l’estrattore di testo PDF di Aspose per Python

Puoi esplorare altre funzionalità di Aspose.Words for Python usando la documentazione. In caso di domande, non esitare a farcelo sapere tramite il nostro forum.

Guarda anche