O OCR (Optical Character Recognition) é uma tecnologia bem conhecida e amplamente utilizada para reconhecer e ler texto de imagens e documentos digitalizados. Na operação de OCR, os caracteres nas imagens são digitalizados, reconhecidos e convertidos no formato digital. O texto convertido pode ser validado e salvo para realizar outras operações. Neste artigo, mostrarei como executar o OCR para converter imagens em texto programaticamente usando a biblioteca C# .NET OCR. O restante do artigo está dividido nas seguintes seções.
- Biblioteca C# OCR - Instalação
- Converter imagem em texto usando a API C# OCR
- Execute o OCR em imagens com uma única linha de texto
Biblioteca C# OCR - Download Gratuito
Aspose.OCR for .NET é uma biblioteca de OCR poderosa e de alta velocidade para C# que permite digitalizar e converter imagens em texto com bastante facilidade. Ele não requer códigos longos para colocar os recursos de OCR em funcionamento em seus aplicativos .NET. A seguir estão os métodos de instalação da biblioteca C# OCR.
Instale a biblioteca C# .NET OCR por meio do Gerenciador de Pacotes NuGet
Basta pesquisar por Aspose.OCR no NuGet Package Manager e instalá-lo.
Instale a biblioteca C# OCR por meio do console do gerenciador de pacotes
A seguir está o comando para instalar o Aspose.OCR via Package Manager Console.
PM> Install-Package Aspose.OCR
Converter imagem em texto usando a biblioteca C# OCR
Vamos ver como realizar o OCR em uma imagem que pode ser uma página de um documento digitalizado. A seguir estão as etapas para realizar esta operação.
- Crie uma instância da classe AsposeOcr.
- Chame o método AsposeOcr.RecognizeImage(string) passando o caminho da imagem e obtenha o resultado em um objeto string.
O exemplo de código a seguir mostra como converter uma imagem em texto usando C#.
// Para exemplos completos e arquivos de dados, acesse https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// O caminho para o diretório de documentos.
string dataDir = RunExamples.GetDataDir_OCR();
// Inicialize uma instância de AsposeOcr
AsposeOcr api = new AsposeOcr();
// Reconhecer imagem
string result = api.RecognizeImage(dataDir + "Sampleocr.bmp");
// Exibir o texto reconhecido
Console.WriteLine(result);
C# executa o OCR na imagem com uma única linha de texto
No exemplo anterior, realizamos OCR na imagem que continha várias linhas de texto. No entanto, é possível que a imagem contenha apenas uma única linha de texto. Nesses casos, você pode dizer à API para reconhecer apenas a linha. A seguir estão as etapas para converter uma imagem contendo um texto de linha única em C#.
- Crie um objeto da classe AsposeOcr.
- Chame o método AsposeOcr.RecognizeLine(string) e passe para ele o caminho do arquivo de imagem.
- Obtenha o resultado em um objeto string.
O exemplo de código a seguir mostra como executar o OCR e converter uma imagem contendo uma única linha de texto usando C#.
// Para exemplos completos e arquivos de dados, acesse https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// O caminho para o diretório de documentos.
string dataDir = RunExamples.GetDataDir_OCR();
// Inicialize uma instância de AsposeOcr
AsposeOcr api = new AsposeOcr();
// Reconhecer imagem
string result = api.RecognizeLine(dataDir + "sample_line.png");
// Exibir o texto reconhecido
Console.WriteLine(result);
Executar OCR para caracteres não ingleses
O Aspose.OCR não limita os recursos de OCR para o idioma inglês e você também pode reconhecer os caracteres de outros idiomas. O processo de reconhecimento e o código permanecerão os mesmos, independentemente do idioma do texto. A seguir está o conjunto de caracteres que podem ser reconhecidos pela biblioteca C# OCR do Aspose.
Biblioteca C# OCR - Obtenha uma licença gratuita
Você pode usar o Aspose.OCR sem limitações de avaliação solicitando uma [licença temporária gratuita][7].
Conclusão
Este artigo demonstrou como executar o OCR e converter imagens em texto programaticamente em C#. Você pode reconhecer os caracteres nas imagens que contêm uma ou várias linhas de texto. Saiba mais sobre a biblioteca C# OCR na documentação.