Scansionato da PDF a Word OCR csharp

I file PDF scansionati contengono immagini in cui il testo non può essere selezionato o modificato. In determinate situazioni, potrebbe essere necessario convertire PDF scansionati in documenti Word. In questo articolo imparerai come convertire i PDF scansionati in documenti Word in formato DOCX o DOC a livello di codice usando C#:

Convertitore da PDF scansionato a Word DOCX – Installazione API C#

È possibile lavorare con i file PDF scansionati eseguendo operazioni OCR con l’API Aspose.OCR for .NET e quindi creare un documento Word utilizzando l’API Aspose.Words for .NET a livello di codice utilizzando C#. Puoi configurare le API scaricando i file DLL da Nuove versioni o con i seguenti comandi di installazione di NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Converti PDF scansionato in documento Word a livello di codice usando C#

Puoi convertire file PDF scansionati in documenti Word riconoscendo il testo otticamente. Le operazioni OCR convertono il PDF scansionato in testo e quindi il documento Word viene generato in formato DOC o DOCX. Si prega di seguire i passaggi seguenti per convertire il PDF scansionato in un documento Word:

  1. Inizializza l’istanza della classe AsposeOcr.
  2. Riconosci le immagini da PDF con la classe DocumentRecognitionSettings.
  3. Inizializza l’oggetto classe StringBuilder e salva il testo.
  4. Inizializza il documento di Word con la classe Document.
  5. Specificare il carattere e la formattazione del paragrafo.
  6. Salva il documento Word di output come file DOCX o DOC.

Il frammento di codice seguente mostra come convertire un file PDF scansionato in un documento Word a livello di codice usando C#:

// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Riconosci le immagini da PDF con la classe DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Inizializza l'oggetto della classe StringBuilder
StringBuilder text = new StringBuilder();

// Salva il risultato come testo
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Inizializza il documento di Word con la classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Specificare la formattazione del carattere
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Specificare la formattazione del paragrafo
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Salva il documento Word di output. 
doc.Save("Scanned_PDF_to_Word.docx");

Ottieni la licenza di valutazione gratuita

Puoi testare le API a pieno regime richiedendo una licenza temporanea gratuita.

Conclusione

In questo articolo, hai imparato come convertire un file PDF scansionato in un documento Word in formato DOCX o DOC a livello di codice usando C#. Inoltre, puoi esplorare molte altre funzionalità relative all’OCR visitando la documentazione. Non esitare a contattarci nel forum in caso di domande.

Guarda anche

Suggerimento: se hai bisogno di ottenere un documento Word da una presentazione PowerPoint, puoi utilizzare il convertitore Aspose Presentazione in documento Word.