pdf escaneado a texto csharp

Un archivo PDF escaneado es básicamente una o más imágenes planas capturadas por un escáner o una cámara. No puede copiar, pegar ni procesar información de dichos archivos. Este artículo cubre cómo convertir un PDF escaneado a texto en C#.

Conversión de PDF escaneado a texto: instalación de la API de C#

Aspose.OCR for .NET La API se utiliza para realizar operaciones de OCR. Puede reconocer los caracteres ópticamente a partir de imágenes o documentos PDF escaneados. Configure la API descargando el archivo DLL de la sección Nuevas versiones o con el siguiente comando de instalación NuGet.

PM> Install-Package Aspose.OCR

Convertir PDF escaneado a cadena de texto en C#

Puede convertir un archivo PDF escaneado en una cadena de texto realizando operaciones de OCR en él. Debe seguir los pasos a continuación para imprimir el texto de un documento PDF escaneado:

  1. Especifique la configuración para reconocer el archivo PDF escaneado.
  2. Inicialice la instancia de clase AsposeOcr.
  3. Inicialice el objeto de clase RecognitionResult.
  4. Imprima el texto después de reconocerlo de un PDF escaneado.

El siguiente fragmento de código muestra cómo reconocer texto de un PDF escaneado en C#:

// Inicializar instancia de clase AsposeOcr
AsposeOcr api = new AsposeOcr();

// Especifique la configuración para reconocer el archivo PDF escaneado
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inicializar objeto de clase RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Imprimir texto después de reconocerlo del PDF escaneado
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Convierta PDF escaneado a archivo TXT mediante programación en C#

Puede convertir un archivo PDF escaneado en un archivo TXT con los siguientes pasos:

  1. Crear una instancia del objeto de clase AsposeOcr.
  2. Cree el objeto de clase DocumentRecognitionSettings.
  3. Guarde los resultados del reconocimiento e inicialice la instancia de clase StringBuilder.
  4. Guarde el resultado en un archivo TXT.

El fragmento de código siguiente explica cómo convertir un archivo PDF escaneado en un archivo TXT mediante programación en C#:

// Inicializar instancia de clase AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconocer imágenes de PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Guardar resultados de reconocimiento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inicializar objeto de clase StringBuilder
StringBuilder builder = new StringBuilder();

// Guardar resultado en un archivo TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Obtenga una licencia de evaluación gratuita

Puede solicitar una licencia de evaluación gratuita para probar la API en toda su capacidad.

Conclusión

En este artículo, aprendió cómo convertir un PDF escaneado en una cadena de texto o un archivo de texto mediante programación usando C#. Además, puede consultar otras características de la API visitando documentación. No dude en contactarnos en foro en caso de cualquier inquietud.

Ver también