El OCR (Reconocimiento Óptico de Caracteres) es una tecnología muy conocida y ampliamente utilizada para reconocer y leer texto de imágenes y documentos escaneados. En la operación de OCR, los caracteres de las imágenes se escanean, reconocen y convierten al formato digital. El texto convertido se puede validar y guardar para realizar otras operaciones. En este artículo, le mostraré cómo realizar OCR para convertir imágenes en texto mediante programación usando C# dentro de sus aplicaciones .NET. El resto del artículo se divide en las siguientes secciones.
- Biblioteca C# OCR - Instalación
- Convertir imagen a texto usando C# OCR API
- Realizar OCR en imágenes que tienen una sola línea de texto
Biblioteca C# OCR - Instalación
Aspose.OCR for .NET es una potente biblioteca de OCR que le permite escanear y convertir imágenes en texto con bastante facilidad. No requiere códigos extensos para poner en funcionamiento las funciones de OCR dentro de sus aplicaciones .NET. Los siguientes son los métodos de instalación de la biblioteca C# OCR.
Instalar a través del Administrador de paquetes NuGet
Simplemente busque Aspose.OCR en NuGet Package Manager e instálelo.
Instalar a través de la consola del administrador de paquetes
El siguiente es el comando para instalar Aspose.OCR a través de Package Manager Console.
PM> Install-Package Aspose.OCR
Convertir imagen a texto usando C# OCR API
Veamos cómo realizar OCR en una imagen que posiblemente sea una página de un documento escaneado. Los siguientes son los pasos para realizar esta operación.
- Cree una instancia de la clase AsposeOcr.
- Llame al método AsposeOcr.RecognizeImage(string) pasando la ruta de la imagen y obtenga el resultado en un objeto de cadena.
El siguiente ejemplo de código muestra cómo convertir una imagen en texto usando C#.
// Para obtener ejemplos completos y archivos de datos, vaya a https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// La ruta al directorio de documentos.
string dataDir = RunExamples.GetDataDir_OCR();
// Inicializar una instancia de AsposeOcr
AsposeOcr api = new AsposeOcr();
// Reconocer imagen
string result = api.RecognizeImage(dataDir + "Sampleocr.bmp");
// Mostrar el texto reconocido
Console.WriteLine(result);
Realice OCR en una imagen con una sola línea de texto
En el ejemplo anterior, hemos realizado OCR en la imagen que contenía varias líneas de texto. Sin embargo, es posible que la imagen contenga solo una línea de texto. En tales casos, puede decirle a la API que reconozca solo la línea. Los siguientes son los pasos para convertir una imagen que contiene una sola línea de texto.
- Cree un objeto de la clase AsposeOcr.
- Llame al método AsposeOcr.RecognizeLine(string) y pásele la ruta del archivo de imagen.
- Obtener el resultado en un objeto de cadena.
El siguiente ejemplo de código muestra cómo realizar OCR y convertir una imagen que contiene una sola línea de texto usando C#.
// Para obtener ejemplos completos y archivos de datos, vaya a https://github.com/aspose-ocr/Aspose.OCR-for-.NET
// La ruta al directorio de documentos.
string dataDir = RunExamples.GetDataDir_OCR();
// Inicializar una instancia de AsposeOcr
AsposeOcr api = new AsposeOcr();
// Reconocer imagen
string result = api.RecognizeLine(dataDir + "sample_line.png");
// Mostrar el texto reconocido
Console.WriteLine(result);
Realizar OCR para caracteres no ingleses
Aspose.OCR no limita las funciones de OCR para el idioma inglés y también puede reconocer los caracteres de otros idiomas. El proceso de reconocimiento y el código seguirán siendo los mismos independientemente del idioma del texto. El siguiente es el conjunto de caracteres que puede reconocer la API de OCR de Aspose.
Conclusión
Este artículo demostró cómo realizar OCR y convertir imágenes en texto mediante programación usando C#. Puede reconocer los caracteres en las imágenes que contienen una o varias líneas de texto. Obtenga más información sobre la API OCR de C# en la documentación.