OCR obrázek na text a oprava pravopisu v C#

Můžeme provádět OCR na obrázcích nebo naskenovaných dokumentech a extrahovat textová data programově pomocí C#. Poté můžeme spustit kontrolu pravopisu a opravit pravopisné chyby v rozpoznaném textu. V tomto článku se naučíme, jak provést OCR obrázek na text a opravu pravopisu v C#.

Tento článek bude obsahovat následující témata:

  1. OCR Image to Text and C# Spell Check API
  2. OCR obrázek na text a pravopisné chyby
  3. Převést obrázek na text s opravou pravopisu
  4. Uložit rozpoznaný text s opraveným pravopisem
  5. Vlastní text kontroly pravopisu

OCR Image to Text and C# Spell Check API

K provádění OCR na obrázcích, extrakci textu a opravách pravopisu budeme používat API Aspose.OCR for .NET. Dokáže rozpoznat naskenované obrázky, fotografie smartphonu, snímky obrazovky, oblasti obrázků a naskenované soubory PDF. Vrací výsledky rozpoznaného textu v nejoblíbenějších formátech pro výměnu dokumentů a dat. API také umožňuje převod obrázků na text a vytváření prohledávatelných PDF ze skenů. Navíc umožňuje automatické opravy pravopisných chyb v rozpoznaném textu.

Třída AsposeOcr je hlavním API pro knihovnu Aspose OCR. Poskytuje různé způsoby provádění operací OCR. Metoda RecognizeImage() této třídy rozpoznává text na obrázcích podporovaných formátů. Metoda CorrectSpelling() rozhraní API nahrazuje chybně napsaná slova správnými slovy v textu. Třída RecognitionResult představuje výsledky rozpoznávání obrazu. Metoda Save(string, SaveFormat, bool, SpellCheckLanguage, string) této třídy uloží dokument jako prostý text, PDF nebo dokument Microsoft Word. Všechny podporované jazyky pro kontrolu pravopisu jsou definovány ve výčtu SpellCheckLanguage.

Prosím buď stáhněte DLL API, nebo ji nainstalujte pomocí NuGet.

PM> Install-Package Aspose.OCR

OCR obrázek na text a pravopisné chyby v C#

Pomocí následujících kroků můžeme provést OCR na obrázcích a získat seznam pravopisných chyb v rozpoznaném textu:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále inicializujte objekt třídy RecognitionSettings.
  3. Poté získejte RecognitionResult voláním metody RecognizeImage(). Jako argumenty bere cestu k obrázku a objekt RecognitionSettings.
  4. Poté zavolejte metodu GetSpellCheckErrorList() a získejte seznam chybně napsaných slov s návrhy.
  5. Nakonec projděte seznam SpellCheckError a zobrazte výsledky.

Následující ukázkový kód ukazuje, jak získat seznam pravopisných chyb z rozpoznaného textu v C#.

// Tento příklad kódu ukazuje, jak získat seznam chybně napsaných slov z rozpoznaného textu.
// Cesta k obrázku k rozpoznání
string imagePath = @"C:\Files\OCR\sample.png";

// Vytvořte OCR API
AsposeOcr api = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
RecognitionSettings settings = new RecognitionSettings();

// Rozpoznat obrázek           
RecognitionResult result = api.RecognizeImage(imagePath, settings);

// Získejte seznam chybně napsaných slov s návrhy
List<SpellCheckError> errorsList = result.GetSpellCheckErrorList(SpellCheckLanguage.Eng);

foreach (var word in errorsList)
{
    Console.WriteLine($"Misspelled Word - {word.Word}");
    foreach (var suggest in word.SuggestedWords)
    {
        Console.WriteLine($"Suggested word - {suggest.Word}");
    }

    Console.WriteLine();
}
OCR obrázek na text a pravopisné chyby v C#

Získejte seznam pravopisných chyb v C#

Převést obrázek na text s opravou pravopisu v C#

Můžeme převést obrázek na text a automaticky opravit pravopisné chyby podle následujících kroků:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále inicializujte objekt třídy RecognitionSettings.
  3. Poté získejte RecognitionResult voláním metody RecognizeImage(). Jako argumenty bere cestu k obrázku a objekt RecognitionSettings.
  4. Poté zavolejte metodu GetSpellCheckCorrectedText() a získejte text s opravou pravopisu.
  5. Nakonec ukažte výsledky.

Následující ukázkový kód ukazuje, jak automaticky opravit pravopisné chyby z rozpoznaného textu v C#.

// Tento příklad kódu ukazuje, jak automaticky opravit pravopisné chyby z rozpoznaného textu.
// Cesta k obrázku k rozpoznání
string imagePath = @"C:\Files\OCR\sample.png";

// Vytvořte OCR API
AsposeOcr api = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
RecognitionSettings settings = new RecognitionSettings();

// Rozpoznejte text z obrázku    
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Získejte opravený výsledek
string correctedResult = result.GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Ukázat výsledky
Console.WriteLine(correctedResult);
Převést obrázek na text s opravou pravopisu v C#

Převést obrázek na text s opravou pravopisu v C#

Uložit rozpoznaný text s opraveným pravopisem v C#

Rozpoznaný text z obrázku po opravě pravopisu můžeme uložit podle následujících kroků:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále inicializujte objekt třídy RecognitionSettings.
  3. Poté získejte RecognitionResult voláním metody RecognizeImage(). Jako argumenty bere cestu k obrázku a objekt RecognitionSettings.
  4. Nakonec zavolejte metodu Save(string, SaveFormat, bool, SpellCheckLanguage) pro uložení textu. Bere bool hodnotu applySpellingCorrection jako true.

Následující ukázkový kód ukazuje, jak uložit text s opravou pravopisu v C#.

// Tento příklad kódu ukazuje, jak uložit rozpoznaný text s opravou pravopisu.
// Cesta k obrázku k rozpoznání
string imagePath = @"C:\Files\OCR\sample.png";
string resultPath = @"C:\Files\OCR\MyResult.txt";

// Vytvořte OCR API
AsposeOcr api = new AsposeOcr();

// Inicializujte nastavení rozpoznávání
RecognitionSettings settings = new RecognitionSettings();
         
// Rozpoznejte text z obrázku 
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Uložte opravený text
result.Save(resultPath, SaveFormat.Text, true, SpellCheckLanguage.Eng);

Text kontroly pravopisu v C#

Můžeme také spustit kontrolu pravopisu u vlastního textu podle následujících kroků:

  1. Nejprve vytvořte instanci třídy AsposeOcr.
  2. Dále zavolejte metodu CorrectSpelling(). Vyžaduje opravu textu a SpellCheckLanguage jako argumenty.
  3. Nakonec ukažte výsledky.

Následující ukázkový kód ukazuje, jak kontrolovat pravopis vlastního textu v C#.

// Tento příklad kódu ukazuje, jak spustit kontrolu pravopisu na vlastním textovém řetězci.
// Text pro kontrolu pravopisu
string textToCorrect = "This is sample text wth errrors";

// Vytvořte OCR API
AsposeOcr api = new AsposeOcr();

// Spusťte kontrolu pravopisu a opravte chyby
string correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Ukázat výsledky
Console.WriteLine(correctedText);
This is sample text with errors

Získejte bezplatnou zkušební licenci

Můžete získat bezplatnou dočasnou licenci a vyzkoušet Aspose.OCR pro .NET bez omezení hodnocení.

Závěr

V tomto článku jsme se naučili, jak:

  • provádět OCR a rozpoznávat text na obrázku v C#;
  • získat seznam chybně napsaných slov spolu s návrhy správných slov;
  • automatické opravy pravopisných chyb;
  • uložit opravený text programově.

Kromě OCR Image to Text a Kontrola pravopisu v C# se můžete dozvědět více o Aspose.OCR for .NET API pomocí dokumentace. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na našem bezplatném fóru podpory.

Viz také