Un file PDF scansionato è fondamentalmente una o più immagini piatte catturate da uno scanner o da una fotocamera. Non è possibile copiare, incollare o elaborare informazioni da tali file. Questo articolo illustra come convertire un PDF scansionato in testo in C#.
- Conversione da PDF scansionato a testo – Installazione API C#
- Converti PDF scansionato in stringa di testo in C#
- Converti PDF scansionato in file TXT a livello di codice in C#
Conversione da PDF scansionato a testo – Installazione API C#
L’API Aspose.OCR for .NET viene utilizzata per eseguire operazioni OCR. Può riconoscere i caratteri otticamente da immagini o documenti PDF scansionati. Configurare l’API scaricando il file DLL dalla sezione New Releases o con il seguente comando di installazione NuGet.
PM> Install-Package Aspose.OCR
Converti PDF scansionato in stringa di testo in C#
È possibile convertire un file PDF scansionato in una stringa di testo eseguendo operazioni OCR su di esso. È necessario seguire i passaggi seguenti per stampare il testo da un documento PDF scansionato:
- Specificare l’impostazione per il riconoscimento del file PDF scansionato.
- Inizializza l’istanza della classe AsposeOcr.
- Inizializza l’oggetto di classe RecognitionResult.
- Stampa il testo dopo averlo riconosciuto da un PDF scansionato.
Il seguente frammento di codice mostra come riconoscere il testo dal PDF scansionato in C#:
// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();
// Specificare l'impostazione per il riconoscimento del file PDF scansionato
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Inizializza l'oggetto della classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Stampa il testo dopo averlo riconosciuto dal PDF scansionato
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Converti PDF scansionato in file TXT a livello di codice in C#
È possibile convertire un file PDF scansionato in un file TXT con i seguenti passaggi:
- Crea un’istanza dell’oggetto di classe AsposeOcr.
- Crea un oggetto di classe DocumentRecognitionSettings.
- Salva i risultati del riconoscimento e inizializza l’istanza della classe StringBuilder.
- Salva il risultato in un file TXT.
Il frammento di codice seguente spiega come convertire un file PDF scansionato in un file TXT a livello di programmazione in C#:
// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();
// Riconoscere le immagini da PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Inizializza l'oggetto della classe StringBuilder
StringBuilder builder = new StringBuilder();
// Salva il risultato in un file TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Ottieni la licenza di valutazione gratuita
Puoi richiedere una licenza di valutazione gratuita per testare l’API nella sua piena capacità.
Conclusione
In questo articolo, hai imparato a convertire un PDF scansionato in una stringa di testo o in un file di testo a livello di programmazione utilizzando C#. Inoltre, puoi controllare molte altre funzionalità dell’API visitando documentation. Non esitate a contattarci su forum in caso di dubbi.