Skannade PDF-filer innehåller bilder där text inte kan väljas eller redigeras. I vissa situationer kan du behöva konvertera skannade PDF-filer till Word-dokument. I den här artikeln kommer du att lära dig hur du konverterar skannade PDF-filer till Word-dokument i formatet DOCX eller DOC programmatiskt med C#:
- Skannad PDF till Word DOCX Converter – C# API-installation
- Konvertera skannade PDF-filer till Word-dokument med hjälp av C#
Skannad PDF till Word DOCX Converter – C# API-installation
Du kan arbeta med skannade PDF-filer genom att utföra OCR-operationer med Aspose.OCR for .NET API och sedan skapa ett Word-dokument med hjälp av Aspose.Words for .NET API programmatiskt med C#. Du kan konfigurera API:erna genom att ladda ner DLL-filerna från New Releases, eller med följande NuGet-installationskommandon:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Konvertera skannade PDF-filer till Word-dokument med hjälp av C#
Du kan konvertera skannade PDF-filer till Word-dokument genom att känna igen texten optiskt. OCR-operationer konverterar den skannade PDF-filen till text och sedan genereras Word-dokumentet i DOC- eller DOCX-format. Följ stegen nedan för att konvertera skannade PDF-filer till ett Word-dokument:
- Initiera klassinstansen AsposeOcr.
- Känn igen bilder från PDF med klassen DocumentRecognitionSettings.
- Initiera klassobjektet StringBuilder och spara texten.
- Initiera word-dokument med klassen Document.
- Ange teckensnitt och styckeformatering.
- Spara utdata Word-dokument som DOCX- eller DOC-fil.
Följande kodsnutt visar hur man konverterar en skannad PDF-fil till ett Word-dokument programmatiskt med C#:
// Initiera AsposeOcr-klassinstansen
AsposeOcr api = new AsposeOcr();
// Känn igen bilder från PDF med klassen DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Spara igenkänningsresultat
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Initiera StringBuilder-klassobjekt
StringBuilder text = new StringBuilder();
// Spara resultatet som text
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Initiera word-dokument med klassen Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Ange teckensnittsformatering
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Ange styckeformatering
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Spara utdata Word-dokument.
doc.Save("Scanned_PDF_to_Word.docx");
Få gratis utvärderingslicens
Du kan testa API:erna i full kapacitet genom att begära en gratis temporär licens.
Slutsats
I den här artikeln har du lärt dig hur du konverterar en skannad PDF-fil till ett Word-dokument i DOCX- eller DOC-format med hjälp av C#. Dessutom kan du utforska flera andra OCR-relaterade funktioner genom att besöka dokumentationen. Vänligen kontakta oss på forumet om du har några frågor.
Se även
Tips: Om du någonsin behöver få ett Word-dokument från en PowerPoint-presentation kan du använda Aspose Presentation to Word Document-konverteraren.