Podemos realizar OCR em imagens ou documentos digitalizados e extrair dados textuais programaticamente usando C#. Podemos então executar um corretor ortográfico para corrigir erros de ortografia no texto reconhecido. Neste artigo, aprenderemos como executar imagem OCR para correção de texto e ortografia em C#.
Os seguintes tópicos serão abordados neste artigo:
- Imagem de OCR para texto e correção ortográfica C# API
- Imagem de OCR para texto e erros de ortografia
- Converter imagem em texto com correção ortográfica
- Salvar texto reconhecido com ortografia corrigida
- Texto personalizado da verificação ortográfica
Imagem OCR para texto e correção ortográfica C# API
Usaremos a API Aspose.OCR for .NET para realizar OCR em imagens, extração de texto e correção ortográfica. Ele pode reconhecer imagens digitalizadas, fotos de smartphones, capturas de tela, áreas de imagens e PDFs digitalizados. Ele retorna resultados de texto reconhecidos nos formatos de troca de dados e documentos mais populares. A API também permite converter imagens em texto e criar PDFs pesquisáveis a partir de digitalizações. Além disso, permite a correção automática de erros ortográficos no texto reconhecido.
A classe AsposeOcr é a principal API para a biblioteca Aspose OCR. Ele fornece vários métodos para realizar operações de OCR. O método RecognizeImage() desta classe reconhece texto nas imagens dos formatos suportados. O método CorrectSpelling() da API substitui palavras com erros ortográficos por palavras corretas no texto. A classe RecognitionResult representa os resultados do reconhecimento da imagem. O método Save(string, SaveFormat, bool, SpellCheckLanguage, string) dessa classe salva o documento como texto simples, PDF ou Documento do Microsoft Word. Todos os idiomas com suporte para verificação ortográfica são definidos na enumeração SpellCheckLanguage.
Por favor, baixe a DLL da API ou instale-a usando NuGet.
PM> Install-Package Aspose.OCR
Imagem de OCR para texto e erros de ortografia em C
Podemos realizar o OCR em imagens e obter uma lista de erros de ortografia no texto reconhecido seguindo as etapas abaixo:
- Primeiramente, crie uma instância da classe AsposeOcr.
- Em seguida, inicialize um objeto da classe RecognitionSettings.
- Em seguida, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
- Depois disso, chame o método GetSpellCheckErrorList() para obter uma lista de palavras incorretas com sugestões.
- Por fim, percorra a lista SpellCheckError e mostre os resultados.
O código de exemplo a seguir mostra como obter uma lista de erros de ortografia de um texto reconhecido em C#.
// Este exemplo de código demonstra como obter uma lista de palavras com erros ortográficos do texto reconhecido.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";
// Criar API de OCR
AsposeOcr api = new AsposeOcr();
// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();
// Reconhecer imagem
RecognitionResult result = api.RecognizeImage(imagePath, settings);
// Obter lista de palavras incorretas com sugestões
List<SpellCheckError> errorsList = result.GetSpellCheckErrorList(SpellCheckLanguage.Eng);
foreach (var word in errorsList)
{
Console.WriteLine($"Misspelled Word - {word.Word}");
foreach (var suggest in word.SuggestedWords)
{
Console.WriteLine($"Suggested word - {suggest.Word}");
}
Console.WriteLine();
}
Converter imagem em texto com correção ortográfica em C
Podemos converter uma imagem em texto e corrigir erros de ortografia seguindo as etapas abaixo:
- Primeiramente, crie uma instância da classe AsposeOcr.
- Em seguida, inicialize um objeto da classe RecognitionSettings.
- Em seguida, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
- Depois disso, chame o método GetSpellCheckCorrectedText() para obter o texto com correção ortográfica.
- Por fim, mostre os resultados.
O código de exemplo a seguir mostra como corrigir automaticamente erros de ortografia de um texto reconhecido em C#.
// Este exemplo de código demonstra como corrigir automaticamente erros de ortografia de um texto reconhecido.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";
// Criar API de OCR
AsposeOcr api = new AsposeOcr();
// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();
// Reconhecer texto de uma imagem
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());
// Obter resultado corrigido
string correctedResult = result.GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Mostrar resultados
Console.WriteLine(correctedResult);
Salvar texto reconhecido com ortografia corrigida em C#
Podemos salvar o texto reconhecido de uma imagem após a correção ortográfica seguindo as etapas abaixo:
- Primeiramente, crie uma instância da classe AsposeOcr.
- Em seguida, inicialize um objeto da classe RecognitionSettings.
- Depois disso, obtenha RecognitionResult chamando o método RecognizeImage(). Ele usa o caminho da imagem e o objeto RecognitionSettings como argumentos.
- Por fim, chame o método Save(string, SaveFormat, bool, SpellCheckLanguage) para salvar o texto. Ele assume o valor bool applySpellingCorrection como verdadeiro.
O código de exemplo a seguir mostra como salvar o texto com correção ortográfica em C#.
// Este exemplo de código demonstra como salvar o texto reconhecido com correção ortográfica.
// Caminho para a imagem a reconhecer
string imagePath = @"C:\Files\OCR\sample.png";
string resultPath = @"C:\Files\OCR\MyResult.txt";
// Criar API de OCR
AsposeOcr api = new AsposeOcr();
// Inicialize as configurações de reconhecimento
RecognitionSettings settings = new RecognitionSettings();
// Reconhecer texto de uma imagem
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());
// Salve o texto corrigido
result.Save(resultPath, SaveFormat.Text, true, SpellCheckLanguage.Eng);
Texto de verificação ortográfica em C#
Também podemos executar a verificação ortográfica em um texto personalizado seguindo as etapas abaixo:
- Primeiramente, crie uma instância da classe AsposeOcr.
- Em seguida, chame o método CorrectSpelling(). Leva o texto para corrigir e SpellCheckLanguage como argumentos.
- Por fim, mostre os resultados.
O código de exemplo a seguir mostra como verificar a ortografia de texto personalizado em C#.
// Este exemplo de código demonstra como executar a verificação ortográfica em uma string de texto personalizada.
// Texto para verificação ortográfica
string textToCorrect = "This is sample text wth errrors";
// Criar API de OCR
AsposeOcr api = new AsposeOcr();
// Execute a verificação ortográfica para corrigir erros
string correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);
// Mostrar resultados
Console.WriteLine(correctedText);
This is sample text with errors
Obtenha uma licença de avaliação gratuita
Você pode obter uma licença temporária gratuita para experimentar o Aspose.OCR para .NET sem limitações de avaliação.
Conclusão
Neste artigo, aprendemos como:
- executar OCR e reconhecer texto na imagem em C#;
- obter uma lista das palavras incorretas juntamente com sugestões de palavras corretas;
- erros de ortografia de autocorreção;
- salve o texto corrigido programaticamente.
Além disso, você pode aprender mais sobre Aspose.OCR para .NET API usando a documentação. Em caso de qualquer ambiguidade, não hesite em contactar-nos no nosso fórum.