Naskenované PDF do Wordu OCR csharp

Naskenované soubory PDF obsahují obrázky, kde text nelze vybrat nebo upravit. V určitých situacích může být nutné převést naskenované PDF do dokumentu aplikace Word. V tomto článku se dozvíte, jak převést naskenovaný PDF do dokumentu Word ve formátu DOCX nebo DOC programově pomocí C#:

Převodník naskenovaných PDF do Wordu DOCX – instalace C# API

S naskenovanými soubory PDF můžete pracovat provedením operací OCR pomocí Apose.OCR for .NET API a poté vytvořit dokument aplikace Word pomocí Apose.Words for .NET API programově pomocí C#. Rozhraní API můžete nakonfigurovat stažením souborů DLL z New Releases nebo pomocí následujících instalačních příkazů NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Převeďte naskenované PDF na dokument Word programově pomocí C#

Naskenované soubory PDF můžete převést na dokumenty aplikace Word tak, že text rozpoznáte opticky. Operace OCR převedou naskenované PDF na text a poté se dokument Word vygeneruje ve formátu DOC nebo DOCX. Chcete-li převést naskenovaný soubor PDF do dokumentu aplikace Word, postupujte podle následujících kroků:

  1. Inicializujte instanci třídy AsposeOcr.
  2. Rozpoznejte obrázky z PDF pomocí třídy DocumentRecognitionSettings.
  3. Inicializujte objekt třídy StringBuilder a uložte text.
  4. Inicializujte dokument aplikace Word pomocí třídy Document.
  5. Určete písmo a formátování odstavce.
  6. Uložte výstupní dokument aplikace Word jako soubor DOCX nebo DOC.

Následující fragment kódu ukazuje, jak převést naskenovaný soubor PDF na dokument aplikace Word programově pomocí C#:

// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznejte obrázky z PDF pomocí třídy DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Uložte výsledky rozpoznávání
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Inicializujte objekt třídy StringBuilder
StringBuilder text = new StringBuilder();

// Uložit výsledek jako text
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Inicializujte dokument aplikace Word pomocí třídy Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Určete formátování písma
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Určete formátování odstavce
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Uložit výstupní dokument aplikace Word. 
doc.Save("Scanned_PDF_to_Word.docx");

Získejte bezplatnou zkušební licenci

Rozhraní API můžete otestovat v plné kapacitě tím, že požádáte o bezplatnou dočasnou licenci.

Závěr

V tomto článku jste se naučili, jak převést naskenovaný soubor PDF na dokument aplikace Word ve formátu DOCX nebo DOC programově pomocí C#. Kromě toho můžete prozkoumat několik dalších funkcí souvisejících s OCR návštěvou dokumentace. V případě jakýchkoliv dotazů nás neváhejte kontaktovat na fóru.

Viz také

Tip: Pokud někdy potřebujete získat dokument aplikace Word z prezentace PowerPoint, můžete použít převodník Aspose Presentation to Word Document.