Naskenovaný soubor PDF obsahuje jeden nebo více plochých obrázků zachycených skenerem nebo fotoaparátem. Informace z takových souborů nemůžete kopírovat, vkládat ani zpracovávat. Tento článek popisuje, jak převést naskenovaný PDF na text v C#.
- Převod naskenovaného PDF na text – instalace C# API
- Převést naskenované PDF na textový řetězec v C#
- Převeďte naskenované PDF na soubor TXT programově v C#
Převod naskenovaného PDF na text – instalace C# API
Aspose.OCR for .NET API se používá k provádění operací OCR. Dokáže rozpoznat znaky opticky z obrázků nebo naskenovaných PDF dokumentů. Nakonfigurujte rozhraní API stažením souboru DLL ze sekce New Releases nebo pomocí následujícího instalačního příkazu NuGet.
PM> Install-Package Aspose.OCR
Převést naskenované PDF na textový řetězec v C#
Naskenovaný soubor PDF můžete převést na textový řetězec provedením operací OCR. Chcete-li vytisknout text z naskenovaného dokumentu PDF, musíte provést následující kroky:
- Zadejte nastavení pro rozpoznání naskenovaného souboru PDF.
- Inicializujte instanci třídy AsposeOcr.
- Inicializujte objekt třídy RecognitionResult.
- Vytiskněte text poté, co jej rozpoznáte z naskenovaného PDF.
Následující fragment kódu ukazuje, jak rozpoznat text z naskenovaného PDF v C#:
// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Zadejte nastavení pro rozpoznání naskenovaného souboru PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Inicializujte objekt třídy RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Vytiskněte text po jeho rozpoznání z naskenovaného PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Převeďte naskenované PDF na soubor TXT programově v C#
Naskenovaný soubor PDF můžete převést na soubor TXT pomocí následujících kroků:
- Vytvořte instanci objektu třídy AsposeOcr.
- Vytvořte objekt třídy DocumentRecognitionSettings.
- Uložte výsledky rozpoznávání a inicializujte instanci třídy StringBuilder.
- Uložte výsledek do souboru TXT.
Níže uvedený fragment kódu vysvětluje, jak převést naskenovaný soubor PDF na soubor TXT programově v C#:
// Inicializujte instanci třídy AsposeOcr
AsposeOcr api = new AsposeOcr();
// Rozpoznejte obrázky z PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Uložte výsledky rozpoznávání
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Inicializujte objekt třídy StringBuilder
StringBuilder builder = new StringBuilder();
// Uložte výsledek do souboru TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Získejte bezplatnou zkušební licenci
Můžete požádat o bezplatnou zkušební licenci a otestovat API v jeho plné kapacitě.
Závěr
V tomto článku jste se naučili, jak převést naskenovaný PDF na textový řetězec nebo textový soubor programově pomocí C#. Kromě toho můžete zkontrolovat několik dalších funkcí rozhraní API na stránce dokumentace. V případě jakýchkoliv obav nás neváhejte kontaktovat na forum.