Come programmatore, potrebbe essere necessario elaborare una serie di file PDF ed estrarne del testo. L’estrazione di testo da PDF potrebbe essere richiesta per vari scopi come l’analisi del testo. In questo articolo, dimostreremo quanto sia facile estrarre il testo da un file PDF in Python. Inoltre, imparerai come estrarre il testo e salvarlo in un file TXT.
- Libreria Python per estrarre testo da file PDF
- Come estrarre testo da un PDF
- Estrazione di testo da un PDF in Python
Libreria Python per estrarre testo da PDF - Download gratuito
Aspose.Words for Python è una straordinaria libreria che ti consente di creare ed elaborare documenti di testo senza problemi. Puoi manipolare i documenti dei formati più diffusi come DOC, DOCX e PDF. Utilizzeremo questa libreria per eseguire l’estrazione di testo sui nostri file PDF. Puoi installare la libreria da PyPI usando il seguente comando pip.
> pip install aspose-words
Come estrarre testo da PDF in Python
Aspose.Words for Python ha reso estremamente semplice l’estrazione del testo PDF nascondendo le complesse operazioni all’utente. Devi solo caricare il file PDF e salvare il testo estratto. I passaggi seguenti mostrano come estrarre testo da un PDF utilizzando Aspose.Words for Python.
- Carica il file PDF dalla posizione desiderata.
- Estrai e salva il testo in un file .txt.
E questo è tutto. È quindi possibile elaborare il file .txt e manipolare il testo normale estratto dal PDF.
Diamo ora un’occhiata a come estrarre il testo da un PDF a livello di codice in Python.
Estrazione di testo da PDF in Python
Di seguito sono riportati i passaggi insieme a classi e metodi per l’estrazione di testo PDF in Python.
- Carica il file PDF utilizzando la classe Document.
- Estrai il testo dal PDF in un file .txt usando il metodo Document.save(fileName).
L’esempio di codice seguente mostra l’estrazione di testo da un file PDF in Python.
# Importa il modulo Aspose.Words for Python
import aspose.words as aw
# Carica file PDF
pdf = aw.Document("file.pdf")
# Estrai e salva il testo in un file TXT
pdf.save("extracted-text.txt")
Lo screenshot seguente mostra il file PDF di input che abbiamo utilizzato per l’estrazione del testo.
Lo screenshot seguente mostra il testo estratto in un file TXT.
PDF Text Extractor per Python - Ottieni una licenza gratuita
Puoi ottenere una licenza temporanea gratuita per estrarre testo da PDF senza limitazioni di valutazione.
Conclusione
In questo articolo, hai imparato come estrarre testo da file PDF in Python. Hai visto con quanta facilità e rapidità puoi estrarre testo da un PDF e salvarlo in un file TXT in modo programmatico. Ora puoi implementare l’estrazione di testo per un batch di file PDF nelle tue applicazioni Python.
Esplora l’estrattore di testo PDF di Aspose per Python
Puoi esplorare altre funzionalità di Aspose.Words for Python usando la documentazione. In caso di domande, non esitare a farcelo sapere tramite il nostro forum.