PDF OCR ed estrazione di testo da PDF in C#

Un file PDF è uno dei documenti commerciali più comuni. In alcuni casi, potrebbe essere necessario leggere i documenti PDF scansionati a livello di programmazione. La difficoltà di estrarre il testo dai file PDF scansionati ha portato allo sviluppo di strumenti che semplificano la lettura e il recupero del testo da tali documenti PDF. A seconda del contenuto del documento, l’estrazione del testo dai file PDF può essere utile per una serie di motivi. In questo articolo impareremo come eseguire l’OCR di documenti PDF ed estrarre testo da PDF in C#.

In questo articolo verranno trattati i seguenti argomenti:

  1. API OCR da PDF a testo C#
  2. OCR PDF ed Estrai testo da PDF
  3. Esegui OCR su PDF e salva testo
  4. OCR da PDF a file Word
  5. OCR da PDF a JSON

API OCR da PDF a testo C#

Utilizzeremo l’API Aspose.OCR for .NET per eseguire l’OCR sul documento PDF. Può riconoscere immagini scansionate, foto di smartphone, schermate e aree di immagini. L’API restituisce risultati di testo riconosciuti nei formati di scambio di documenti e dati più diffusi. Oltre a convertire le immagini in testo, l’API può anche creare PDF ricercabili basati su scansioni. Inoltre, è in grado di correggere automaticamente gli errori di ortografia nei testi riconosciuti.

L’API fornisce la classe AsposeOcr che fornisce vari metodi per eseguire operazioni OCR. Fornisce il metodo RecognizePdf(string, DocumentRecognitionSettings) per riconoscere il testo dal documento PDF fornito. La classe DocumentRecognitionSettings dell’API fornisce le impostazioni per il processo di riconoscimento PDF. La classe RecognitionResult rappresenta i risultati del riconoscimento dell’immagine.

Si prega di scaricare la DLL dell’API o installarla utilizzando NuGet.

PM> Install-Package Aspose.OCR

PDF OCR ed estrazione di testo da PDF in C#

Possiamo eseguire l’OCR su documenti PDF ed estrarre il testo riconosciuto seguendo i passaggi indicati di seguito:

  1. Innanzitutto, crea un’istanza della classe AsposeOcr.
  2. Successivamente, inizializza un oggetto della classe DocumentRecognitionSettings.
  3. Quindi, specificare la lingua da utilizzare per l’OCR.
  4. Successivamente, ottieni RecognitionResult chiamando il metodo RecognizePdf(). Prende il percorso dell’immagine e l’oggetto DocumentRecognitionSettings come argomenti.
  5. Infine, scorri l’elenco RecognitionResult e mostra il testo identificato.

Il codice di esempio seguente mostra come eseguire l’OCR di documenti PDF ed estrarre il testo riconosciuto in C#.

// Questo esempio di codice mostra come eseguire l'OCR di documenti PDF ed estrarre il testo riconosciuto.
// Inizializzare il motore PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inizializza le impostazioni di riconoscimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Specificare la lingua per l'OCR. Multilingua per impostazione predefinita
recognitionSettings.Language = Language.Eng;

// Riconoscere il testo da PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Mostra il testo riconosciuto
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
PDF OCR ed estrazione di testo da PDF in C#

PDF OCR ed estrazione di testo da PDF in C#

Esegui l’OCR su PDF e salva il testo in C#

Possiamo eseguire l’OCR su documenti PDF e salvare il testo riconosciuto seguendo i passaggi indicati di seguito:

  1. Innanzitutto, crea un’istanza della classe AsposeOcr.
  2. Successivamente, inizializza un oggetto della classe DocumentRecognitionSettings.
  3. Quindi, specificare la lingua da utilizzare per l’OCR.
  4. Successivamente, chiama il metodo RecognizePdf() per ottenere RecognitionResult. Prende il percorso dell’immagine e l’oggetto DocumentRecognitionSettings come argomenti.
  5. Infine, salva il testo utilizzando il metodo SaveMultipageDocument(). Prende il percorso del file di output, l’oggetto SaveFormat e RecognitionResult come argomenti.

Il codice di esempio seguente mostra come eseguire l’OCR di documenti PDF e salvare il testo riconosciuto in C#.

// Questo esempio di codice mostra come eseguire l'OCR di documenti PDF ed estrarre il testo riconosciuto.
// Inizializzare il motore PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inizializza le impostazioni di riconoscimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Specificare la lingua per l'OCR. Multilingua per impostazione predefinita
recognitionSettings.Language = Language.Eng;

// Riconoscere il testo da PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salva il testo riconosciuto
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Esegui l'OCR su PDF e salva il testo in C#

Esegui l’OCR su PDF e salva il testo in C#

PDF OCR e conversione di PDF scansionati in Word in C#

Possiamo eseguire l’OCR su documenti PDF scansionati e salvare il testo riconosciuto nel documento Word seguendo i passaggi menzionati in precedenza. Tuttavia, dobbiamo solo specificare SaveFormat.Docx nell’ultimo passaggio.

Il codice di esempio seguente mostra come eseguire l’OCR su PDF e salvare il testo riconosciuto come documento Word in C#.

// Questo esempio di codice mostra come eseguire l'OCR di documenti PDF e salvare il testo riconosciuto come DOCX.
// Inizializzare il motore PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inizializza le impostazioni di riconoscimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Specificare la lingua per l'OCR. Multilingua per impostazione predefinita
recognitionSettings.Language = Language.Eng;

// Riconoscere il testo da PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salva il testo riconosciuto come DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
PDF OCR e conversione di PDF scansionati in Word in C#

PDF OCR e conversione di PDF scansionati in Word in C#

OCR PDF e Converti PDF in JSON in C#

Possiamo eseguire l’OCR su documenti PDF e salvare il testo riconosciuto in un file JSON seguendo i passaggi menzionati in precedenza. Tuttavia, dobbiamo solo specificare SaveFormat.Json nell’ultimo passaggio.

Il codice di esempio seguente mostra come eseguire l’OCR del PDF e salvare il testo riconosciuto come file JSON in C#.

// Questo esempio di codice mostra come eseguire l'OCR di documenti PDF e salvare il testo riconosciuto come JSON.
// Inizializzare il motore PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inizializza le impostazioni di riconoscimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Specificare la lingua per l'OCR. Multilingua per impostazione predefinita
recognitionSettings.Language = Language.Eng;

// Riconoscere il testo da PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salva il testo riconosciuto come JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Ottieni una licenza di valutazione gratuita

Puoi ottenere una licenza temporanea gratuita per provare la libreria senza limiti di valutazione.

Conclusione

In questo articolo, abbiamo imparato come eseguire l’OCR su documenti PDF ed estrarre testo da PDF in C#. Abbiamo anche visto come salvare il testo riconosciuto come file TXT, DOCX e JSON. Inoltre, puoi saperne di più su Aspose.OCR per l’API .NET utilizzando documentazione. In caso di ambiguità, non esitate a contattarci sul nostro forum.

Guarda anche