PDF escaneado para buscar con OCR en C#

Los archivos PDF a veces se basan en imágenes que generalmente se crean usando un escáner o un dispositivo de imágenes. Puede convertir un archivo PDF escaneado en un archivo PDF con capacidad de búsqueda con OCR para que el texto se pueda editar o actualizar en el documento. De acuerdo con ese escenario, este artículo explica cómo convertir un PDF escaneado en un PDF con capacidad de búsqueda mediante operaciones de OCR mediante programación usando C#.

PDF escaneado a PDF con opción de búsqueda mediante OCR: instalación de la API de C#

Puede realizar operaciones de OCR en un archivo PDF escaneado con Aspose.OCR for .NET API. Simplemente configure la API descargando el archivo DLL de la sección Nuevas versiones, o usando el siguiente comando de instalación de NuGet:

PM> Install-Package Aspose.OCR

Convierta un PDF escaneado en un PDF con capacidad de búsqueda mediante programación usando C#

Puede convertir un archivo PDF escaneado en un documento PDF con capacidad de búsqueda mientras reconoce ópticamente el texto siguiendo los pasos a continuación:

  1. Inicialice la instancia de clase AsposeOcr.
  2. Reconocer imágenes de PDF usando el método RecognizePdf.
  3. Establezca diferentes propiedades para el reconocimiento OCR con la clase DocumentRecognitionSettings.
  4. Guarde el resultado de OCR como un archivo PDF con capacidad de búsqueda.

El fragmento de código a continuación explica cómo convertir un PDF escaneado en un documento PDF con capacidad de búsqueda mediante programación usando C#:

// Ruta de PDF escaneado de varias páginas
string fullPath = "multi_page.pdf";

// Inicializar objeto de clase AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconocer imágenes de PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Guardar resultado como PDF con capacidad de búsqueda
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Obtenga una licencia de evaluación gratuita

Puede evaluar la función para reconocer texto en PDF escaneados con operaciones de OCR sin ninguna limitación solicitando una licencia temporal gratuita.

Conclusión

En este artículo, aprendió cómo convertir un archivo PDF escaneado en un documento PDF que permite realizar búsquedas mediante la realización de operaciones de OCR mediante programación en C#. Además, puede consultar otras funciones relacionadas con OCR que ofrece la API visitando la documentación. No dude en ponerse en contacto con nosotros en el foro en caso de cualquier consulta.

Ver también