OCR PDF Python

I documenti PDF scansionati sono spesso difficili da lavorare a causa della mancanza di testo ricercabile o modificabile. Tuttavia, con la potenza della tecnologia OCR (Optical Character Recognition), estrarre il testo dai PDF scansionati e convertirli in formati ricercabili o modificabili diventa una realtà. In questo post del blog imparerai come eseguire il riconoscimento del testo PDF con OCR in Python. Esploreremo anche come estrarre il testo dai file PDF scansionati, convertirli in PDF ricercabili o modificabili e liberare il potenziale delle capacità OCR di Python utilizzando la libreria Aspose.OCR for Python tramite .NET.

Riconosci il testo dal PDF scansionato con OCR - Installazione dell’API Python

Il riconoscimento ottico dei caratteri (OCR) è una tecnologia che consente la conversione di immagini o documenti scansionati in testo leggibile dalla macchina. Analizzando le forme e i modelli dei caratteri in un’immagine, gli algoritmi OCR identificano e riconoscono il testo, rendendo possibile l’estrazione e l’elaborazione delle informazioni contenute all’interno. Prima di iniziare, è necessario installare Aspose.OCR for Python tramite .NET scaricandolo dalla pagina New Releases o configurarlo da PyPi eseguendo il comando di installazione seguente:

pip install aspose-ocr-python-net

Riconosci testo da PDF con OCR in Python

Puoi riconoscere o estrarre testo da PDF con OCR in Python. Estrarrà il testo da un documento PDF scansionato in modo efficiente poiché i passaggi seguenti delineano il semplice processo per riconoscere il testo da PDF con OCR in Python:

  1. Crea un’istanza di un oggetto della classe AsposeOcr.
  2. Carica il file PDF scansionato.
  3. Riconosci il testo con l’OCR e stampa l’output sulla console.

Il codice di esempio seguente mostra come riconoscere il testo da PDF con OCR in Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Converti PDF scansionato in PDF ricercabile o modificabile con OCR in Python

I file PDF scansionati contengono immagini in cui non è possibile cercare il testo, quindi è necessario convertirlo in un documento PDF ricercabile per rendere il documento leggibile dalla macchina ed elaborarlo ulteriormente di conseguenza. Si prega di seguire i passaggi seguenti per convertirlo in un documento PDF ricercabile o modificabile in Python:

  1. Crea un oggetto della classe AsposeOcr.
  2. Inizializza l’istanza della classe [RecognitionSettings][5] e imposta le proprietà richieste.
  3. Carica il file PDF e imposta l’intervallo di pagine per il riconoscimento con OCR.
  4. Salva il file PDF ricercabile di output.

Il seguente codice di esempio mostra come convertire un PDF scansionato in un documento PDF ricercabile con OCR in Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Qui è degno di nota il fatto che puoi eseguire l’OCR di qualsiasi intervallo di pagine nel documento PDF. Ad esempio, riconoscere il testo da pagine specifiche solo dove l’indice della pagina è in base zero e l’ultimo parametro è il conteggio per il numero di pagine da elaborare con l’API. Inoltre, è possibile impostare diverse impostazioni di riconoscimento per la pre-elaborazione del file sorgente, come la rimozione del rumore, l’impostazione del contrasto, il controllo dell’inclinazione delle pagine di input, ecc. per un riconoscimento migliorato e preciso del testo con l’OCR.

Ottieni una licenza di valutazione gratuita

Puoi richiedere una licenza temporanea gratuita per valutare l’API senza alcuna limitazione di valutazione.

Riassumendo

Con la potenza della tecnologia OCR e Python, l’estrazione del testo dai PDF scansionati e la loro conversione in formati ricercabili o modificabili è diventata altamente accessibile. Qui abbiamo esplorato il processo di riconoscimento del testo PDF con OCR in Python. Abbiamo discusso il processo di installazione e l’estrazione del testo dai PDF scansionati, l’implementazione dell’OCR e la conversione dei PDF scansionati in formati ricercabili o modificabili. Sfruttando le funzionalità OCR e impiegando tecniche avanzate, puoi sbloccare tutto il potenziale dei PDF scansionati e renderli più accessibili e versatili nei tuoi progetti. In caso di ambiguità o domande, contattaci tramite il forum di supporto gratuito.

Guarda anche