Naskenované PDF s možností vyhledávání pomocí OCR v C#

Soubory PDF jsou někdy založeny na obrázcích, které jsou obvykle vytvořeny pomocí skeneru nebo zobrazovacího zařízení. Naskenovaný soubor PDF můžete převést na soubor PDF s možností vyhledávání pomocí OCR, aby bylo možné text v dokumentu upravovat nebo aktualizovat. V souladu s tímto scénářem tento článek vysvětluje, jak převést naskenovaný PDF do PDF s možností vyhledávání pomocí operací OCR programově pomocí C#.

Naskenované PDF do PDF s možností vyhledávání pomocí OCR – instalace C# API

Operace OCR na naskenovaném souboru PDF můžete provádět pomocí Aspose.OCR for .NET API. Jednoduše nakonfigurujte API stažením souboru DLL ze sekce New Releases nebo pomocí následujícího instalačního příkazu NuGet:

PM> Install-Package Aspose.OCR

Převeďte naskenované PDF na prohledávatelné PDF programově pomocí C#

Naskenovaný soubor PDF můžete převést na dokument PDF s možností vyhledávání a zároveň opticky rozpoznat text podle následujících kroků:

 1. Inicializujte instanci třídy AsposeOcr.
 2. Rozpoznejte obrázky z PDF pomocí metody RecognizePdf.
 3. Nastavte různé vlastnosti pro rozpoznávání OCR pomocí třídy DocumentRecognitionSettings.
 4. Uložte výsledek OCR jako soubor PDF s možností vyhledávání.

Níže uvedený úryvek kódu vysvětluje, jak převést naskenovaný PDF na dokument PDF s možností vyhledávání programově pomocí C#:

// Naskenovaná vícestránková cesta PDF
string fullPath = "multi_page.pdf";

// Inicializujte objekt třídy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznejte obrázky z PDF      
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
  StartPage = 0,
  PagesNumber = 1
});

// Uložit výsledek jako PDF s možností vyhledávání
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Získejte bezplatnou zkušební licenci

Funkci rozpoznávání textu v naskenovaném PDF s operacemi OCR můžete bez jakýchkoli omezení vyhodnotit, když si vyžádáte bezplatnou dočasnou licenci.

Závěr

V tomto článku jste se naučili, jak převést naskenovaný soubor PDF na dokument PDF s možností vyhledávání pomocí OCR operací na něm programově v C#. Kromě toho můžete zkontrolovat několik dalších funkcí souvisejících s OCR, které nabízí API, když navštívíte dokumentaci. V případě jakýchkoliv dotazů nás neváhejte kontaktovat na fóru.

Viz také