PDF escaneado a Excel OCR Java

Los archivos escaneados PDF comprenden datos en formato de imagen porque a menudo son creados por escáneres. En determinadas situaciones, es posible que necesite información numérica de un archivo PDF escaneado. Entonces puede realizar operaciones de OCR para crear un archivo de Excel. Este artículo cubre cómo crear un convertidor de PDF escaneado a Excel con la función OCR mediante programación en Java.

Cree un convertidor de PDF escaneado a Excel con OCR: instalación de la API de Java

Puede reconocer ópticamente el texto en un archivo PDF con la función OCR mediante la API Aspose.OCR for Java. Simplemente instale la API descargando el archivo JAR de la sección Nuevos lanzamientos, o utilizando las especificaciones de Maven a continuación:

Repositorio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependencia:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Convierta PDF escaneado a Excel mediante programación en Java

Puede convertir un archivo PDF escaneado a Excel con OCR siguiendo los pasos a continuación:

  1. Cree un objeto de clase AsposeOcr.
  2. Especifique la configuración con la clase DocumentRecognitionSettings.
  3. Reconozca el archivo PDF escaneado utilizando el método RecognizePdf.
  4. Guarde el resultado de OCR de salida como un archivo de Excel.

El siguiente fragmento de código explica cómo convertir un PDF escaneado en un archivo de Excel mediante programación en Java:

// Ruta del archivo PDF escaneado
String fullPath = "scanned.pdf";

// Inicializar objeto de clase AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Inicializar objeto de clase DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Reconocer imágenes de PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Guardar resultado como archivo Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Obtenga una licencia de evaluación gratuita

Puede evaluar la API para crear un convertidor de PDF a Excel escaneado mediante operaciones de OCR sin ninguna limitación solicitando una licencia temporal gratuita.

Conclusión

En este artículo, ha aprendido cómo convertir un archivo PDF escaneado en un archivo de Excel con la función OCR mediante programación en Java. Además, eche un vistazo a otras funciones relacionadas con OCR visitando la documentación. Siéntase libre de escribirnos en el foro en caso de cualquier inquietud.

Ver también