pdf scansionato in testo csharp

Un file PDF scansionato è fondamentalmente una o più immagini piatte catturate da uno scanner o da una fotocamera. Non è possibile copiare, incollare o elaborare informazioni da tali file. Questo articolo illustra come convertire un PDF scansionato in testo in C#.

Convertitore da PDF a testo scansionato – Installazione dell’API C#

L’API Aspose.OCR for .NET viene utilizzata per eseguire operazioni OCR. Può riconoscere otticamente i caratteri dalle immagini o dai documenti PDF scansionati. Configura l’API scaricando il file DLL dalla sezione Nuove versioni o con il seguente comando di installazione NuGet.

PM> Install-Package Aspose.OCR

Converti PDF scansionato in stringa di testo in C#

È possibile convertire un file PDF scansionato in una stringa di testo eseguendo operazioni OCR su di esso. È necessario seguire i passaggi seguenti per stampare il testo da un documento PDF scansionato:

  1. Specificare l’impostazione per il riconoscimento del file PDF scansionato.
  2. Inizializza l’istanza della classe AsposeOcr.
  3. Inizializza l’oggetto classe RecognitionResult.
  4. Stampa il testo dopo averlo riconosciuto dal PDF scansionato.

Il seguente frammento di codice mostra come riconoscere il testo dal PDF scansionato in C#:

// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Specificare l'impostazione per il riconoscimento del file PDF scansionato
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inizializza l'oggetto classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Stampa il testo dopo averlo riconosciuto dal PDF scansionato
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Converti PDF scansionato in file TXT a livello di codice in C#

È possibile convertire un file PDF scansionato in un file TXT con i seguenti passaggi:

  1. Istanziare l’oggetto classe AsposeOcr.
  2. Crea un oggetto classe DocumentRecognitionSettings.
  3. Salva i risultati del riconoscimento e inizializza l’istanza della classe StringBuilder.
  4. Salva il risultato in un file TXT.

Il frammento di codice seguente spiega come convertire un file PDF scansionato in un file TXT a livello di codice in C#:

// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Riconosci le immagini da PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inizializza l'oggetto della classe StringBuilder
StringBuilder builder = new StringBuilder();

// Salva il risultato in un file TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Ottieni la licenza di valutazione gratuita

Puoi richiedere una licenza di valutazione gratuita per testare l’API nella sua piena capacità.

Conclusione

In questo articolo, hai imparato come convertire i PDF scansionati in una stringa di testo o in un file di testo a livello di codice usando C#. Inoltre, puoi controllare molte altre funzionalità dell’API visitando la documentazione. Non esitare a contattarci al forum in caso di dubbi.

Guarda anche