
Un file PDF scansionato è fondamentalmente una o più immagini piatte catturate da uno scanner o da una fotocamera. Non è possibile copiare, incollare o elaborare informazioni da tali file. Questo articolo illustra come convertire un PDF scansionato in testo in C#.
- Convertitore da PDF a testo scansionato – Installazione dell’API C#
- Converti PDF scansionato in stringa di testo in C#
- Converti PDF scansionato in file TXT a livello di codice in C#
Convertitore da PDF a testo scansionato – Installazione dell’API C#
L’API Aspose.OCR for .NET viene utilizzata per eseguire operazioni OCR. Può riconoscere otticamente i caratteri dalle immagini o dai documenti PDF scansionati. Configura l’API scaricando il file DLL dalla sezione Nuove versioni o con il seguente comando di installazione NuGet.
PM> Install-Package Aspose.OCR
Converti PDF scansionato in stringa di testo in C#
È possibile convertire un file PDF scansionato in una stringa di testo eseguendo operazioni OCR su di esso. È necessario seguire i passaggi seguenti per stampare il testo da un documento PDF scansionato:
- Specificare l’impostazione per il riconoscimento del file PDF scansionato.
- Inizializza l’istanza della classe AsposeOcr.
- Inizializza l’oggetto classe RecognitionResult.
- Stampa il testo dopo averlo riconosciuto dal PDF scansionato.
Il seguente frammento di codice mostra come riconoscere il testo dal PDF scansionato in C#:
// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();
// Specificare l'impostazione per il riconoscimento del file PDF scansionato
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Inizializza l'oggetto classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Stampa il testo dopo averlo riconosciuto dal PDF scansionato
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Converti PDF scansionato in file TXT a livello di codice in C#
È possibile convertire un file PDF scansionato in un file TXT con i seguenti passaggi:
- Istanziare l’oggetto classe AsposeOcr.
- Crea un oggetto classe DocumentRecognitionSettings.
- Salva i risultati del riconoscimento e inizializza l’istanza della classe StringBuilder.
- Salva il risultato in un file TXT.
Il frammento di codice seguente spiega come convertire un file PDF scansionato in un file TXT a livello di codice in C#:
// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();
// Riconosci le immagini da PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Inizializza l'oggetto della classe StringBuilder
StringBuilder builder = new StringBuilder();
// Salva il risultato in un file TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Ottieni la licenza di valutazione gratuita
Puoi richiedere una licenza di valutazione gratuita per testare l’API nella sua piena capacità.
Conclusione
In questo articolo, hai imparato come convertire i PDF scansionati in una stringa di testo o in un file di testo a livello di codice usando C#. Inoltre, puoi controllare molte altre funzionalità dell’API visitando la documentazione. Non esitare a contattarci al forum in caso di dubbi.