I file PDF scansionati contengono immagini in cui il testo non può essere selezionato o modificato. In determinate situazioni, potrebbe essere necessario convertire PDF scansionati in documenti Word. In questo articolo imparerai come convertire i PDF scansionati in documenti Word in formato DOCX o DOC a livello di codice usando C#:
- Convertitore da PDF scansionato a Word DOCX – Installazione API C#
- Converti PDF scansionato in documento Word a livello di codice usando C#
Convertitore da PDF scansionato a Word DOCX – Installazione API C#
È possibile lavorare con i file PDF scansionati eseguendo operazioni OCR con l’API Aspose.OCR for .NET e quindi creare un documento Word utilizzando l’API Aspose.Words for .NET a livello di codice utilizzando C#. Puoi configurare le API scaricando i file DLL da Nuove versioni o con i seguenti comandi di installazione di NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Converti PDF scansionato in documento Word a livello di codice usando C#
Puoi convertire file PDF scansionati in documenti Word riconoscendo il testo otticamente. Le operazioni OCR convertono il PDF scansionato in testo e quindi il documento Word viene generato in formato DOC o DOCX. Si prega di seguire i passaggi seguenti per convertire il PDF scansionato in un documento Word:
- Inizializza l’istanza della classe AsposeOcr.
- Riconosci le immagini da PDF con la classe DocumentRecognitionSettings.
- Inizializza l’oggetto classe StringBuilder e salva il testo.
- Inizializza il documento di Word con la classe Document.
- Specificare il carattere e la formattazione del paragrafo.
- Salva il documento Word di output come file DOCX o DOC.
Il frammento di codice seguente mostra come convertire un file PDF scansionato in un documento Word a livello di codice usando C#:
// Inizializza l'istanza della classe AsposeOcr
AsposeOcr api = new AsposeOcr();
// Riconosci le immagini da PDF con la classe DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Salva i risultati del riconoscimento
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Inizializza l'oggetto della classe StringBuilder
StringBuilder text = new StringBuilder();
// Salva il risultato come testo
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Inizializza il documento di Word con la classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Specificare la formattazione del carattere
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Specificare la formattazione del paragrafo
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Salva il documento Word di output.
doc.Save("Scanned_PDF_to_Word.docx");
Ottieni la licenza di valutazione gratuita
Puoi testare le API a pieno regime richiedendo una licenza temporanea gratuita.
Conclusione
In questo articolo, hai imparato come convertire un file PDF scansionato in un documento Word in formato DOCX o DOC a livello di codice usando C#. Inoltre, puoi esplorare molte altre funzionalità relative all’OCR visitando la documentazione. Non esitare a contattarci nel forum in caso di domande.
Guarda anche
Suggerimento: se hai bisogno di ottenere un documento Word da una presentazione PowerPoint, puoi utilizzare il convertitore Aspose Presentazione in documento Word.