Skannad PDF till Word OCR csharp

Skannade PDF-filer innehåller bilder där text inte kan väljas eller redigeras. I vissa situationer kan du behöva konvertera skannade PDF-filer till Word-dokument. I den här artikeln kommer du att lära dig hur du konverterar skannade PDF-filer till Word-dokument i formatet DOCX eller DOC programmatiskt med C#:

Skannad PDF till Word DOCX Converter – C# API-installation

Du kan arbeta med skannade PDF-filer genom att utföra OCR-operationer med Aspose.OCR for .NET API och sedan skapa ett Word-dokument med hjälp av Aspose.Words for .NET API programmatiskt med C#. Du kan konfigurera API:erna genom att ladda ner DLL-filerna från New Releases, eller med följande NuGet-installationskommandon:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Konvertera skannade PDF-filer till Word-dokument med hjälp av C#

Du kan konvertera skannade PDF-filer till Word-dokument genom att känna igen texten optiskt. OCR-operationer konverterar den skannade PDF-filen till text och sedan genereras Word-dokumentet i DOC- eller DOCX-format. Följ stegen nedan för att konvertera skannade PDF-filer till ett Word-dokument:

  1. Initiera klassinstansen AsposeOcr.
  2. Känn igen bilder från PDF med klassen DocumentRecognitionSettings.
  3. Initiera klassobjektet StringBuilder och spara texten.
  4. Initiera word-dokument med klassen Document.
  5. Ange teckensnitt och styckeformatering.
  6. Spara utdata Word-dokument som DOCX- eller DOC-fil.

Följande kodsnutt visar hur man konverterar en skannad PDF-fil till ett Word-dokument programmatiskt med C#:

// Initiera AsposeOcr-klassinstansen
AsposeOcr api = new AsposeOcr();

// Känn igen bilder från PDF med klassen DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Spara igenkänningsresultat
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Initiera StringBuilder-klassobjekt
StringBuilder text = new StringBuilder();

// Spara resultatet som text
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Initiera word-dokument med klassen Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Ange teckensnittsformatering
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Ange styckeformatering
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Spara utdata Word-dokument. 
doc.Save("Scanned_PDF_to_Word.docx");

Få gratis utvärderingslicens

Du kan testa API:erna i full kapacitet genom att begära en gratis temporär licens.

Slutsats

I den här artikeln har du lärt dig hur du konverterar en skannad PDF-fil till ett Word-dokument i DOCX- eller DOC-format med hjälp av C#. Dessutom kan du utforska flera andra OCR-relaterade funktioner genom att besöka dokumentationen. Vänligen kontakta oss på forumet om du har några frågor.

Se även

Tips: Om du någonsin behöver få ett Word-dokument från en PowerPoint-presentation kan du använda Aspose Presentation to Word Document-konverteraren.