OCR PDF y extraer texto de PDF en C#

Un archivo PDF es uno de los documentos comerciales más comunes. En ciertos casos, es posible que necesitemos leer documentos PDF escaneados mediante programación. La dificultad de extraer texto de archivos PDF escaneados ha llevado al desarrollo de herramientas que facilitan la lectura y recuperación de texto de dichos documentos PDF. Según el contenido de su documento, la extracción de texto de archivos PDF puede ser útil por varios motivos. En este artículo, aprenderemos cómo hacer OCR en documentos PDF y extraer texto de PDF en C#.

En este artículo se tratarán los siguientes temas:

  1. OCR PDF a Texto C# API
  2. OCR PDF y Extraer texto de PDF
  3. Realizar OCR en PDF y guardar texto
  4. OCR PDF a archivo de Word
  5. OCR PDF a JSON

OCR PDF a texto C# API

Usaremos la API Aspose.OCR para .NET para realizar OCR en documentos PDF. Puede reconocer imágenes escaneadas, fotos de teléfonos inteligentes, capturas de pantalla y áreas de imágenes. La API devuelve resultados de texto reconocidos en los formatos de intercambio de datos y documentos más populares. Además de convertir imágenes a texto, la API también puede crear archivos PDF con capacidad de búsqueda basados en escaneos. Además, es capaz de autocorregir errores ortográficos en textos reconocidos.

La API proporciona la clase AsposeOcr que proporciona varios métodos para realizar operaciones de OCR. Proporciona el método RecognizePdf(string, DocumentRecognitionSettings) para reconocer el texto del documento PDF proporcionado. La clase DocumentRecognitionSettings de la API proporciona configuraciones para el proceso de reconocimiento de PDF. La clase RecognitionResult representa los resultados del reconocimiento de imágenes.

Descargue la DLL de la API o instálela usando NuGet.

PM> Install-Package Aspose.OCR

OCR PDF y extraer texto de PDF en C#

Podemos realizar OCR en documentos PDF y extraer el texto reconocido siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOcr.
  2. A continuación, inicialice un objeto de la clase DocumentRecognitionSettings.
  3. Luego, especifique el idioma que se usará para OCR.
  4. Después de eso, obtenga RecognitionResult llamando al método RecognizePdf(). Toma la ruta de la imagen y el objeto DocumentRecognitionSettings como argumentos.
  5. Finalmente, recorra la lista RecognitionResult y muestre el texto identificado.

El siguiente código de muestra muestra cómo OCR documentos PDF y extraer el texto reconocido en C#.

// Este ejemplo de código demuestra cómo OCR documentos PDF y extraer el texto reconocido.
// Inicializar el motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar la configuración de reconocimiento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique el idioma para OCR. Multi-idioma por defecto
recognitionSettings.Language = Language.Eng;

// Reconocer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Mostrar el texto reconocido
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF y extraer texto de PDF en C#

OCR PDF y extraer texto de PDF en C#

Realice OCR en PDF y guarde texto en C#

Podemos realizar OCR en documentos PDF y guardar el texto reconocido siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOcr.
  2. A continuación, inicialice un objeto de la clase DocumentRecognitionSettings.
  3. Luego, especifique el idioma que se usará para OCR.
  4. Después de eso, llame al método RecognizePdf() para obtener RecognitionResult. Toma la ruta de la imagen y el objeto DocumentRecognitionSettings como argumentos.
  5. Finalmente, guarde el texto usando el método SaveMultipageDocument(). Toma la ruta del archivo de salida, el objeto SaveFormat y RecognitionResult como argumentos.

El siguiente código de ejemplo muestra cómo OCR documentos PDF y guardar el texto reconocido en C#.

// Este ejemplo de código demuestra cómo OCR documentos PDF y extraer el texto reconocido.
// Inicializar el motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar la configuración de reconocimiento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique el idioma para OCR. Multi-idioma por defecto
recognitionSettings.Language = Language.Eng;

// Reconocer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Guardar el texto reconocido
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Realice OCR en PDF y guarde texto en C#

Realice OCR en PDF y guarde texto en C#

OCR PDF y convertir PDF escaneado a Word en C#

Podemos realizar OCR en documentos PDF escaneados y guardar el texto reconocido en un documento de Word siguiendo los pasos mencionados anteriormente. Sin embargo, solo necesitamos especificar SaveFormat.Docx en el último paso.

El siguiente código de ejemplo muestra cómo OCR PDF y guardar el texto reconocido como un documento de Word en C#.

// Este ejemplo de código demuestra cómo OCR documentos PDF y guardar el texto reconocido como DOCX.
// Inicializar el motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar la configuración de reconocimiento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique el idioma para OCR. Multi-idioma por defecto
recognitionSettings.Language = Language.Eng;

// Reconocer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Guarde el texto reconocido como DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF y convertir PDF escaneado a Word en C#

OCR PDF y convertir PDF escaneado a Word en C#

OCR PDF y convertir PDF a JSON en C#

Podemos realizar OCR en documentos PDF y guardar el texto reconocido en un archivo JSON siguiendo los pasos mencionados anteriormente. Sin embargo, solo necesitamos especificar SaveFormat.Json en el último paso.

El siguiente código de ejemplo muestra cómo OCR PDF y guardar el texto reconocido como un archivo JSON en C#.

// Este ejemplo de código demuestra cómo OCR documentos PDF y guardar el texto reconocido como JSON.
// Inicializar el motor PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar la configuración de reconocimiento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique el idioma para OCR. Multi-idioma por defecto
recognitionSettings.Language = Language.Eng;

// Reconocer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Guarde el texto reconocido como JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Obtenga una licencia de evaluación gratuita

Puede obtener una licencia temporal gratuita para probar la biblioteca sin limitaciones de evaluación.

Conclusión

En este artículo, hemos aprendido cómo realizar OCR en documentos PDF y extraer texto de PDF en C#. También hemos visto cómo guardar el texto reconocido como un archivo TXT, DOCX y JSON. Además, puede obtener más información sobre Aspose.OCR para la API de .NET utilizando documentación. En caso de cualquier ambigüedad, no dude en contactarnos en nuestro foro.

Ver también