OCR PDF ed estrazione di testo da PDF in Python

La tecnologia di riconoscimento ottico dei caratteri (OCR) svolge un ruolo fondamentale nella digitalizzazione di testo stampato, scansionato o scritto a mano da varie fonti, inclusi documenti PDF. In questo post del blog impareremo come eseguire l’OCR di documenti PDF ed estrarre testo da PDF in Python.

Questo articolo tratta i seguenti argomenti:

  1. API OCR Python da PDF a TXT
  2. PDF OCR ed estrazione testo da PDF
  3. Salva PDF scansionato in testo
  4. Risorse didattiche gratuite

Da PDF a TXT: API OCR Python

Utilizzeremo Aspose.OCR for Python per eseguire l’OCR su documenti PDF ed estrarre testo dai PDF. Aspose.OCR for Python è una potente API di riconoscimento ottico dei caratteri (OCR) in grado di riconoscere il testo da immagini scansionate, foto di smartphone, screenshot e aree di immagini. L’API restituisce risultati di testo riconosciuti nei formati di documenti e scambio dati più diffusi, tra cui PDF, XML, JSON e testo normale.

Oltre a convertire le immagini in testo, Aspose.OCR for Python può anche creare PDF ricercabili basati su scansioni. L’API può anche correggere automaticamente gli errori di ortografia nei testi riconosciuti, rendendola ideale per una varietà di applicazioni.

Per favore scarica il pacchetto o installa l’API da PyPI utilizzando il seguente comando pip nella console:

pip install aspose-ocr-python-net

Python OCR PDF: estrae testo da PDF in Python

Possiamo eseguire l’OCR su documenti PDF ed estrarre il testo riconosciuto seguendo i passaggi indicati di seguito:

  1. Crea un’istanza della classe AsposeOcr.
  2. Inizializza un oggetto della classe DocumentRecognitionSettings.
  3. Aggiungi il file PDF al batch di riconoscimento.
  4. Successivamente, chiama il metodo aware().
  5. Infine, mostra il testo identificato utilizzando la classe RecognitionResult.

Il seguente codice di esempio mostra come eseguire l’OCR di documenti PDF ed estrarre testo da PDF in Python.

# Questo esempio di codice dimostra come riconoscere ed estrarre testo da un documento PDF scansionato in Python.
import aspose.ocr as ocr

# Inizializza il motore OCR
api = ocr.AsposeOcr()

# Inizializza le impostazioni di riconoscimento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Aggiungi file al batch di riconoscimento
files = ocr.OcrInput(ocr.InputType.PDF)

# Accedi al PDF scansionato e imposta il numero di pagina e il numero totale di pagine
files.add("C:\\Files\\sample.pdf", 0, 1)

# Riconoscere il testo
result = api.recognize(files , settings)

# Stampa il risultato del riconoscimento
print(result[0].recognition_text)

Python OCR PDF: salva PDF scansionato in testo in Python

Possiamo eseguire l’OCR su documenti PDF e salvare il testo riconosciuto seguendo i passaggi indicati di seguito:

  1. Crea un’istanza della classe AsposeOcr.
  2. Inizializza un oggetto della classe DocumentRecognitionSettings.
  3. Aggiungi il file PDF al batch di riconoscimento.
  4. Successivamente, chiama il metodo aware().
  5. Infine, salva il testo utilizzando il metodo savemultipagedocument(). Prende come argomenti il percorso del file di output, gli oggetti SaveFormat e RecognitionResult.

Il seguente codice di esempio mostra come eseguire l’OCR di documenti PDF e salvare il testo riconosciuto in Python.

# Questo esempio di codice illustra come salvare il testo riconosciuto ed estratto utilizzando Python.
import aspose.ocr as ocr

# Inizializza il motore OCR
api = ocr.AsposeOcr()

# Inizializza le impostazioni di riconoscimento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Aggiungi file al batch di riconoscimento
files = ocr.OcrInput(ocr.InputType.PDF)

# Accedi al PDF scansionato e imposta il numero di pagina e il numero totale di pagine
files.add("C:\\Files\\sample.pdf", 0, 1)

# Riconoscere il testo
result = api.recognize(files , settings)

# Stampa il risultato del riconoscimento
print(result[0].recognition_text)

# Salva il testo estratto
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Ottieni una licenza di valutazione gratuita

Puoi ottenere una licenza temporanea gratuita per provare la libreria senza limitazioni di valutazione.

PDF OCR Python - Risorse gratuite

Puoi esplorare ulteriormente le seguenti risorse per apprendere l’API OCR Python:

Conclusione

In questo articolo abbiamo imparato come eseguire l’OCR su documenti PDF ed estrarre testo da PDF in Python. La possibilità di estrarre testo dai PDF utilizzando l’OCR rappresenta un punto di svolta in numerosi settori, dall’archiviazione e la documentazione legale all’analisi dei dati e alla digitalizzazione dei contenuti. Sfruttando Aspose.OCR for Python, gli sviluppatori e gli appassionati possono integrare perfettamente le funzionalità OCR nei loro progetti Python. In caso di ambiguità, non esitate a contattarci sul nostro forum di supporto gratuito.

Guarda anche