Převeďte naskenovaný dokument PDF na textový soubor programově v C#

Naskenovaný soubor PDF obsahuje jeden nebo více plochých obrázků zachycených skenerem nebo fotoaparátem. Informace z takových souborů nemůžete kopírovat, vkládat ani zpracovávat. Tento článek popisuje, jak převést naskenovaný PDF na text v C#.

Převod naskenovaného PDF na text – instalace C# API
Převést naskenované PDF na textový řetězec v C#
Převeďte naskenované PDF na soubor TXT programově v C#

Převod naskenovaného PDF na text – instalace C# API

Aspose.OCR for .NET API se používá k provádění operací OCR. Dokáže rozpoznat znaky opticky z obrázků nebo naskenovaných PDF dokumentů. Nakonfigurujte rozhraní API stažením souboru DLL ze sekce New Releases nebo pomocí následujícího instalačního příkazu NuGet.

PM> Install-Package Aspose.OCR

Převést naskenované PDF na textový řetězec v C#

Naskenovaný soubor PDF můžete převést na textový řetězec provedením operací OCR. Chcete-li vytisknout text z naskenovaného dokumentu PDF, musíte provést následující kroky:

Zadejte nastavení pro rozpoznání naskenovaného souboru PDF.
Inicializujte instanci třídy AsposeOcr.
Inicializujte objekt třídy RecognitionResult.
Vytiskněte text poté, co jej rozpoznáte z naskenovaného PDF.

Následující fragment kódu ukazuje, jak rozpoznat text z naskenovaného PDF v C#:

// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Zadejte nastavení pro rozpoznání naskenovaného souboru PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inicializujte objekt třídy RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Vytiskněte text po jeho rozpoznání z naskenovaného PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Převeďte naskenované PDF na soubor TXT programově v C#

Naskenovaný soubor PDF můžete převést na soubor TXT pomocí následujících kroků:

Vytvořte instanci objektu třídy AsposeOcr.
Vytvořte objekt třídy DocumentRecognitionSettings.
Uložte výsledky rozpoznávání a inicializujte instanci třídy StringBuilder.
Uložte výsledek do souboru TXT.

Níže uvedený fragment kódu vysvětluje, jak převést naskenovaný soubor PDF na soubor TXT programově v C#:

// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();

// Rozpoznejte obrázky z PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Uložte výsledky rozpoznávání
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inicializujte objekt třídy StringBuilder
StringBuilder builder = new StringBuilder();

// Uložte výsledek do souboru TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Získejte bezplatnou zkušební licenci

Můžete požádat o bezplatnou zkušební licenci a otestovat API v jeho plné kapacitě.

Závěr

V tomto článku jste se naučili, jak převést naskenovaný PDF na textový řetězec nebo textový soubor programově pomocí C#. Kromě toho můžete zkontrolovat několik dalších funkcí rozhraní API na stránce dokumentace. V případě jakýchkoliv obav nás neváhejte kontaktovat na forum.

Viz také

Převést obrázek do PDF s možností vyhledávání pomocí OCR pomocí C#

Převod naskenovaného PDF na text – instalace C# API#

Převést naskenované PDF na textový řetězec v C##

Převeďte naskenované PDF na soubor TXT programově v C##

Získejte bezplatnou zkušební licenci#

Závěr#

Viz také#