OCR PDF a extrahování textu z PDF v C#

Soubor PDF je jedním z nejběžnějších obchodních dokumentů. V určitých případech můžeme potřebovat číst naskenované dokumenty PDF programově. Obtížnost extrahování textu z naskenovaných souborů PDF vedla k vývoji nástrojů, které usnadňují čtení a načítání textu z takových dokumentů PDF. V závislosti na obsahu vašeho dokumentu může být extrahování textu ze souborů PDF užitečné z mnoha důvodů. V tomto článku se naučíme, jak OCR PDF dokumenty a extrahovat text z PDF v C#.

V tomto článku se budeme zabývat následujícími tématy:

  1. OCR PDF to Text C# API
  2. OCR PDF a extrahování textu z PDF
  3. Proveďte OCR na PDF a uložte text
  4. OCR PDF do souboru Word
  5. OCR PDF do JSON

OCR PDF to Text C# API

K provádění OCR na dokumentu PDF budeme používat Aspose.OCR for .NET API. Dokáže rozpoznat naskenované obrázky, fotografie smartphonu, snímky obrazovky a oblasti obrázků. Rozhraní API vrací rozpoznané textové výsledky v nejoblíbenějších formátech pro výměnu dokumentů a dat. Kromě převodu obrázků na text může API také vytvářet prohledávatelné PDF na základě skenů. Navíc je schopen autoopravovat pravopisné chyby v rozpoznaných textech.

Rozhraní API poskytuje třídu AsposeOcr, která poskytuje různé metody pro provádění operací OCR. Poskytuje metodu RecognizePdf(string, DocumentRecognitionSettings) pro rozpoznání textu z poskytnutého dokumentu PDF. Třída DocumentRecognitionSettings rozhraní API poskytuje nastavení pro proces rozpoznávání PDF. Třída RecognitionResult představuje výsledky rozpoznávání obrazu.

Prosím buď stáhněte si DLL rozhraní API, nebo jej nainstalujte pomocí NuGet.

PM> Install-Package Aspose.OCR

OCR PDF a extrahování textu z PDF v C#

Můžeme provést OCR na dokumentech PDF a extrahovat rozpoznaný text podle následujících kroků:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále inicializujte objekt třídy DocumentRecognitionSettings.
  3. Poté zadejte jazyk, který se má použít pro OCR.
  4. Poté získejte RecognitionResult voláním metody RecognizePdf(). Jako argumenty bere cestu k obrázku a objekt DocumentRecognitionSettings.
  5. Nakonec projděte seznam RecognitionResult a zobrazte identifikovaný text.

Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a extrahování rozpoznaného textu v C#.

// Tento příklad kódu ukazuje, jak OCR dokumenty PDF a extrahovat rozpoznaný text.
// Inicializujte motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Zadejte jazyk pro OCR. Ve výchozím nastavení vícejazyčné
recognitionSettings.Language = Language.Eng;

// Rozpoznejte text z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Zobrazit rozpoznaný text
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF a extrahování textu z PDF v C#

OCR PDF a extrahování textu z PDF v C#

Proveďte OCR na PDF a uložte text v C#

Můžeme provést OCR na dokumentech PDF a uložit rozpoznaný text podle následujících kroků:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále inicializujte objekt třídy DocumentRecognitionSettings.
  3. Poté zadejte jazyk, který se má použít pro OCR.
  4. Poté zavolejte metodu RecognizePdf() a získejte RecognitionResult. Jako argumenty bere cestu k obrázku a objekt DocumentRecognitionSettings.
  5. Nakonec text uložte pomocí metody SaveMultipageDocument(). Jako argumenty bere cestu k výstupnímu souboru, objekt SaveFormat a RecognitionResult.

Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a uložení rozpoznaného textu v C#.

// Tento příklad kódu ukazuje, jak OCR dokumenty PDF a extrahovat rozpoznaný text.
// Inicializujte motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Zadejte jazyk pro OCR. Ve výchozím nastavení vícejazyčné
recognitionSettings.Language = Language.Eng;

// Rozpoznejte text z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Uložte rozpoznaný text
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Proveďte OCR na PDF a uložte text v C#

Proveďte OCR na PDF a uložte text v C#

OCR PDF a převod naskenovaného PDF do Wordu v C#

Můžeme provést OCR na naskenovaných dokumentech PDF a uložit rozpoznaný text v dokumentu aplikace Word podle výše uvedených kroků. V posledním kroku však stačí zadat SaveFormat.Docx.

Následující ukázkový kód ukazuje, jak OCR PDF a uložit rozpoznaný text jako dokument aplikace Word v C#.

// Tento příklad kódu ukazuje, jak OCR dokumenty PDF a uložení rozpoznaného textu jako DOCX.
// Inicializujte motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Zadejte jazyk pro OCR. Ve výchozím nastavení vícejazyčné
recognitionSettings.Language = Language.Eng;

// Rozpoznejte text z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Uložte rozpoznaný text jako DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF a převod naskenovaného PDF do Wordu v C#

OCR PDF a převod naskenovaného PDF do Wordu v C#

OCR PDF a převod PDF na JSON v C#

Můžeme provést OCR na dokumentech PDF a uložit rozpoznaný text do souboru JSON podle výše uvedených kroků. V posledním kroku však musíme zadat soubor SaveFormat.Json.

Následující ukázkový kód ukazuje, jak OCR PDF a uložit rozpoznaný text jako soubor JSON v C#.

// Tento příklad kódu ukazuje, jak OCR dokumenty PDF a uložení rozpoznaného textu jako JSON.
// Inicializujte motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Zadejte jazyk pro OCR. Ve výchozím nastavení vícejazyčné
recognitionSettings.Language = Language.Eng;

// Rozpoznejte text z PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Uložte rozpoznaný text jako JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Získejte bezplatnou zkušební licenci

Můžete získat bezplatnou dočasnou licenci a vyzkoušet knihovnu bez omezení hodnocení.

Závěr

V tomto článku jsme se naučili, jak provádět OCR na dokumentech PDF a extrahovat text z PDF v C#. Také jsme viděli, jak uložit rozpoznaný text jako soubor TXT, DOCX a JSON. Kromě toho se můžete dozvědět více o Aspose.OCR pro .NET API pomocí dokumentace. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na našem fóru.

Viz také