Converti documento PDF scansionato in file di testo in modo programmatico in C#

Un file PDF scansionato è fondamentalmente una o più immagini piatte catturate da uno scanner o da una fotocamera. Non è possibile copiare, incollare o elaborare informazioni da tali file. Questo articolo illustra come convertire un PDF scansionato in testo in C#.

Conversione da PDF scansionato a testo – Installazione API C#
Converti PDF scansionato in stringa di testo in C#
Converti PDF scansionato in file TXT a livello di codice in C#

Conversione da PDF scansionato a testo – Installazione API C#

L’API Aspose.OCR for .NET viene utilizzata per eseguire operazioni OCR. Può riconoscere i caratteri otticamente da immagini o documenti PDF scansionati. Configurare l’API scaricando il file DLL dalla sezione New Releases o con il seguente comando di installazione NuGet.

PM> Install-Package Aspose.OCR

Converti PDF scansionato in stringa di testo in C#

È possibile convertire un file PDF scansionato in una stringa di testo eseguendo operazioni OCR su di esso. È necessario seguire i passaggi seguenti per stampare il testo da un documento PDF scansionato:

Specificare l’impostazione per il riconoscimento del file PDF scansionato.
Inizializza l’istanza della classe AsposeOcr.
Inizializza l’oggetto di classe RecognitionResult.
Stampa il testo dopo averlo riconosciuto da un PDF scansionato.

Il seguente frammento di codice mostra come riconoscere il testo dal PDF scansionato in C#:

// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Specificare l'impostazione per il riconoscimento del file PDF scansionato
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inizializza l'oggetto della classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Stampa il testo dopo averlo riconosciuto dal PDF scansionato
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Converti PDF scansionato in file TXT a livello di codice in C#

È possibile convertire un file PDF scansionato in un file TXT con i seguenti passaggi:

Crea un’istanza dell’oggetto di classe AsposeOcr.
Crea un oggetto di classe DocumentRecognitionSettings.
Salva i risultati del riconoscimento e inizializza l’istanza della classe StringBuilder.
Salva il risultato in un file TXT.

Il frammento di codice seguente spiega come convertire un file PDF scansionato in un file TXT a livello di programmazione in C#:

// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Riconoscere le immagini da PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inizializza l'oggetto della classe StringBuilder
StringBuilder builder = new StringBuilder();

// Salva il risultato in un file TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Ottieni la licenza di valutazione gratuita

Puoi richiedere una licenza di valutazione gratuita per testare l’API nella sua piena capacità.

Conclusione

In questo articolo, hai imparato a convertire un PDF scansionato in una stringa di testo o in un file di testo a livello di programmazione utilizzando C#. Inoltre, puoi controllare molte altre funzionalità dell’API visitando documentation. Non esitate a contattarci su forum in caso di dubbi.

Guarda anche

Converti immagine in PDF ricercabile con OCR usando C#

Conversione da PDF scansionato a testo – Installazione API C##

Converti PDF scansionato in stringa di testo in C##

Converti PDF scansionato in file TXT a livello di codice in C##

Ottieni la licenza di valutazione gratuita#

Conclusione#

Guarda anche#