Realizar OCR usando C#

El OCR (Reconocimiento Óptico de Caracteres) es una tecnología muy conocida y ampliamente utilizada para reconocer y leer texto de imágenes y documentos escaneados. En la operación de OCR, los caracteres de las imágenes se escanean, reconocen y convierten al formato digital. El texto convertido se puede validar y guardar para realizar otras operaciones. En este artículo, le mostraré cómo realizar OCR para convertir imágenes en texto mediante programación usando C# dentro de sus aplicaciones .NET. El resto del artículo se divide en las siguientes secciones.

Biblioteca C# OCR - Instalación

Aspose.OCR for .NET es una potente biblioteca de OCR que le permite escanear y convertir imágenes en texto con bastante facilidad. No requiere códigos extensos para poner en funcionamiento las funciones de OCR dentro de sus aplicaciones .NET. Los siguientes son los métodos de instalación de la biblioteca C# OCR.

Instalar a través del Administrador de paquetes NuGet

Simplemente busque Aspose.OCR en NuGet Package Manager e instálelo.

Biblioteca C# OCR

Instalar a través de la consola del administrador de paquetes

El siguiente es el comando para instalar Aspose.OCR a través de Package Manager Console.

PM> Install-Package Aspose.OCR

Convertir imagen a texto usando C# OCR API

Veamos cómo realizar OCR en una imagen que posiblemente sea una página de un documento escaneado. Los siguientes son los pasos para realizar esta operación.

El siguiente ejemplo de código muestra cómo convertir una imagen en texto usando C#.

// Para obtener ejemplos completos y archivos de datos, vaya a https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// La ruta al directorio de documentos.
string dataDir = RunExamples.GetDataDir_OCR();

// Inicializar una instancia de AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconocer imagen
string result = api.RecognizeImage(dataDir + "Sampleocr.bmp");

// Mostrar el texto reconocido
Console.WriteLine(result);

Realice OCR en una imagen con una sola línea de texto

En el ejemplo anterior, hemos realizado OCR en la imagen que contenía varias líneas de texto. Sin embargo, es posible que la imagen contenga solo una línea de texto. En tales casos, puede decirle a la API que reconozca solo la línea. Los siguientes son los pasos para convertir una imagen que contiene una sola línea de texto.

El siguiente ejemplo de código muestra cómo realizar OCR y convertir una imagen que contiene una sola línea de texto usando C#.

// Para obtener ejemplos completos y archivos de datos, vaya a https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// La ruta al directorio de documentos.
string dataDir = RunExamples.GetDataDir_OCR();

// Inicializar una instancia de AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconocer imagen
string result = api.RecognizeLine(dataDir + "sample_line.png");

// Mostrar el texto reconocido
Console.WriteLine(result);

Realizar OCR para caracteres no ingleses

Aspose.OCR no limita las funciones de OCR para el idioma inglés y también puede reconocer los caracteres de otros idiomas. El proceso de reconocimiento y el código seguirán siendo los mismos independientemente del idioma del texto. El siguiente es el conjunto de caracteres que puede reconocer la API de OCR de Aspose.

OCR para caracteres no ingleses

Conclusión

Este artículo demostró cómo realizar OCR y convertir imágenes en texto mediante programación usando C#. Puede reconocer los caracteres en las imágenes que contienen una o varias líneas de texto. Obtenga más información sobre la API OCR de C# en la documentación.

Ver también