Da PDF a Word OCR Python

La conversione di PDF scansionati in documenti Word offre numerosi vantaggi come la modifica del testo all’interno del documento, semplificando l’esecuzione di modifiche o aggiornamenti. Consente inoltre la ricerca del testo, che è preziosa per documenti di grandi dimensioni o quando si effettuano ricerche. Inoltre, puoi anche eseguire il controllo ortografico per correggere eventuali errori di battitura o parole errate durante l’esecuzione dell’OCR in Python. Di conseguenza, questo articolo spiega come convertire i PDF scansionati in documenti Word con OCR in Python utilizzando la libreria Aspose.OCR for Python tramite .NET.

Da PDF a Word con OCR – Installazione dell’API Python

Prima di immergerci nel riconoscimento del testo, assicuriamoci di disporre dell’ambiente necessario configurato per eseguire l’OCR in Python. Assicurati di aver installato Python sul tuo sistema, preferibilmente la versione 3.x o successiva, insieme a un editor di codice affidabile o un ambiente di sviluppo integrato (IDE) come Visual Studio Code o IDLE, ecc. Quindi devi configurare Aspose.OCR for Python via .NET accedendovi dalla sezione New Releases o da PyPi con il seguente comando di installazione:

pip install aspose-ocr-python-net

Converti PDF scansionato in Word con OCR in Python

Puoi convertire un PDF scansionato in Word con OCR seguendo i passaggi seguenti:

  1. Inizializza l’API utilizzando la classe AsposeOcr.
  2. Impostare diverse impostazioni per il riconoscimento.
  3. Riconosci il testo con OCR e salva il file DOCX Word di output.

Il seguente frammento di codice mostra come convertire un PDF scansionato in Word con OCR in Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

Da PDF a Word con OCR e controllo ortografico in Python

I motori OCR a volte possono produrre imprecisioni, soprattutto quando si tratta di layout complessi, scrittura a mano o scansioni di bassa qualità. In tali casi, la correzione ortografica gioca un ruolo cruciale nel migliorare la precisione del testo convertito. Questa sezione riguarda in particolare la conversione da PDF a Word con OCR e la funzione di controllo ortografico in Python. È necessario seguire i passaggi seguenti per soddisfare questi requisiti:

  1. Inizializza un’istanza della classe AsposeOcr.
  2. Impostare proprietà diverse utilizzando la classe RecognitionSettings.
  3. Riconosci il PDF con OCR e controlla l’ortografia della stringa estratta.
  4. Esporta il documento Word di output in formato DOCX.

Il codice di esempio seguente spiega come convertire un PDF in un documento Word con OCR in Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Ottieni una licenza di valutazione gratuita

Puoi ottenere una licenza temporanea gratuita per evitare limitazioni di valutazione e filigrane.

Riassumendo

In questo post del blog, abbiamo esplorato come convertire i PDF scansionati in documenti Word utilizzando l’OCR in Python. Abbiamo discusso dell’importanza dell’OCR e dei suoi vantaggi, fornito una guida dettagliata per configurare l’ambiente, estrarre il testo dal documento PDF con approcci diversi specificando diverse impostazioni e salvarlo in un documento Word. Questa guida ti consente di automatizzare la conversione dei PDF scansionati in documenti Word modificabili utilizzando Python e OCR, aprendo un mondo di possibilità per l’estrazione e la manipolazione dei dati. Nel caso in cui tu abbia bisogno di discutere di qualsiasi tua preoccupazione, non esitare a scriverci al forum di supporto gratuito.

Guarda anche