Imagem OCR para texto e correção ortográfica em C #

Podemos realizar OCR em imagens ou documentos digitalizados e extrair dados textuais programaticamente usando C#. Podemos então executar um corretor ortográfico para corrigir erros de ortografia no texto reconhecido. Neste artigo, aprenderemos como executar imagem OCR para correção de texto e ortografia em C#.

Os seguintes tópicos serão abordados neste artigo:

  1. Imagem de OCR para texto e correção ortográfica C# API
  2. Imagem de OCR para texto e erros de ortografia
  3. Converter imagem em texto com correção ortográfica
  4. Salvar texto reconhecido com ortografia corrigida
  5. Texto personalizado da verificação ortográfica

Imagem OCR para texto e correção ortográfica C# API

Usaremos a API Aspose.OCR for .NET para realizar OCR em imagens, extração de texto e correção ortográfica. Ele pode reconhecer imagens digitalizadas, fotos de smartphones, capturas de tela, áreas de imagens e PDFs digitalizados. Ele retorna resultados de texto reconhecidos nos formatos de troca de dados e documentos mais populares. A API também permite converter imagens em texto e criar PDFs pesquisáveis a partir de digitalizações. Além disso, permite a correção automática de erros ortográficos no texto reconhecido.

A classe AsposeOcr é a principal API para a biblioteca Aspose OCR. Ele fornece vários métodos para realizar operações de OCR. O método RecognizeImage() desta classe reconhece texto nas imagens dos formatos suportados. O método CorrectSpelling() da API substitui palavras com erros ortográficos por palavras corretas no texto. A classe RecognitionResult representa os resultados do reconhecimento da imagem. O método Save(string, SaveFormat, bool, SpellCheckLanguage, string) dessa classe salva o documento como texto simples, PDF ou Documento do Microsoft Word. Todos os idiomas com suporte para verificação ortográfica são definidos na enumeração SpellCheckLanguage.

Por favor, baixe a DLL da API ou instale-a usando NuGet.

PM> Install-Package Aspose.OCR

Imagem de OCR para texto e erros de ortografia em C

Podemos realizar o OCR em imagens e obter uma lista de erros de ortografia no texto reconhecido seguindo as etapas abaixo:

  1. Primeiramente, crie uma instância da classe AsposeOcr.
  2. Em seguida, inicialize um objeto da classe RecognitionSettings.
  3. Em seguida, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
  4. Depois disso, chame o método GetSpellCheckErrorList() para obter uma lista de palavras incorretas com sugestões.
  5. Por fim, percorra a lista SpellCheckError e mostre os resultados.

O código de exemplo a seguir mostra como obter uma lista de erros de ortografia de um texto reconhecido em C#.

// Este exemplo de código demonstra como obter uma lista de palavras com erros ortográficos do texto reconhecido.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";

// Criar API de OCR
AsposeOcr api = new AsposeOcr();

// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();

// Reconhecer imagem           
RecognitionResult result = api.RecognizeImage(imagePath, settings);

// Obter lista de palavras incorretas com sugestões
List<SpellCheckError> errorsList = result.GetSpellCheckErrorList(SpellCheckLanguage.Eng);

foreach (var word in errorsList)
{
    Console.WriteLine($"Misspelled Word - {word.Word}");
    foreach (var suggest in word.SuggestedWords)
    {
        Console.WriteLine($"Suggested word - {suggest.Word}");
    }

    Console.WriteLine();
}
Imagem de OCR para texto e erros de ortografia em C #

Obter uma lista de erros de ortografia em C#

Converter imagem em texto com correção ortográfica em C

Podemos converter uma imagem em texto e corrigir erros de ortografia seguindo as etapas abaixo:

  1. Primeiramente, crie uma instância da classe AsposeOcr.
  2. Em seguida, inicialize um objeto da classe RecognitionSettings.
  3. Em seguida, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
  4. Depois disso, chame o método GetSpellCheckCorrectedText() para obter o texto com correção ortográfica.
  5. Por fim, mostre os resultados.

O código de exemplo a seguir mostra como corrigir automaticamente erros de ortografia de um texto reconhecido em C#.

// Este exemplo de código demonstra como corrigir automaticamente erros de ortografia de um texto reconhecido.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";

// Criar API de OCR
AsposeOcr api = new AsposeOcr();

// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();

// Reconhecer texto de uma imagem    
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Obter resultado corrigido
string correctedResult = result.GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Mostrar resultados
Console.WriteLine(correctedResult);
Converter imagem em texto com correção ortográfica em C #

Converter imagem em texto com correção ortográfica em C #

Salvar texto reconhecido com ortografia corrigida em C#

Podemos salvar o texto reconhecido de uma imagem após a correção ortográfica seguindo as etapas abaixo:

  1. Primeiramente, crie uma instância da classe AsposeOcr.
  2. Em seguida, inicialize um objeto da classe RecognitionSettings.
  3. Depois disso, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
  4. Por fim, chame o método Save(string, SaveFormat, bool, SpellCheckLanguage) para salvar o texto. Ele assume o valor bool applySpellingCorrection como verdadeiro.

O código de exemplo a seguir mostra como salvar o texto com correção ortográfica em C#.

// Este exemplo de código demonstra como salvar o texto reconhecido com correção ortográfica.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";
string resultPath = @"C:\Files\OCR\MyResult.txt";

// Criar API de OCR
AsposeOcr api = new AsposeOcr();

// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();
         
// Reconhecer texto de uma imagem 
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Salve o texto corrigido
result.Save(resultPath, SaveFormat.Text, true, SpellCheckLanguage.Eng);

Texto de verificação ortográfica em C#

Também podemos executar a verificação ortográfica em um texto personalizado seguindo as etapas abaixo:

  1. Primeiramente, crie uma instância da classe AsposeOcr.
  2. Em seguida, chame o método CorrectSpelling(). Leva o texto para corrigir e SpellCheckLanguage como argumentos.
  3. Por fim, mostre os resultados.

O código de exemplo a seguir mostra como verificar a ortografia de texto personalizado em C#.

// Este exemplo de código demonstra como executar a verificação ortográfica em uma string de texto personalizada.
// Texto para verificação ortográfica
string textToCorrect = "This is sample text wth errrors";

// Criar API de OCR
AsposeOcr api = new AsposeOcr();

// Execute a verificação ortográfica para corrigir erros
string correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Mostrar resultados
Console.WriteLine(correctedText);
This is sample text with errors

Obtenha uma licença de avaliação gratuita

Você pode obter uma licença temporária gratuita para experimentar o Aspose.OCR para .NET sem limitações de avaliação.

Conclusão

Neste artigo, aprendemos como:

  • executar OCR e reconhecer texto na imagem em C#;
  • obter uma lista das palavras incorretas juntamente com sugestões de palavras corretas;
  • erros de ortografia de autocorreção;
  • salve o texto corrigido programaticamente.

Além disso, você pode aprender mais sobre Aspose.OCR para .NET API usando a documentação. Em caso de qualquer ambiguidade, não hesite em contactar-nos no nosso fórum.

Veja também