A veces, los archivos PDF se crean utilizando imágenes de un escáner o una cámara. En determinadas situaciones, es posible que deba convertir un archivo PDF escaneado en un archivo PDF que permita realizar búsquedas con OCR, de modo que pueda trabajar con contenido de texto en el archivo PDF. De acuerdo con eso, este artículo cubre cómo convertir un PDF escaneado a un PDF con capacidad de búsqueda mediante la función OCR mediante programación usando Java.
- PDF escaneado a PDF con capacidad de búsqueda por OCR: instalación de la API de Java
- Convierta PDF escaneado a PDF con capacidad de búsqueda mediante programación en Java
PDF escaneado a PDF con capacidad de búsqueda por OCR: instalación de la API de Java
Puede reconocer ópticamente el texto en un archivo PDF con la función OCR mediante la API Aspose.OCR for Java. Simplemente instale la API descargando el archivo JAR de la sección Nuevos lanzamientos, o utilizando las especificaciones de Maven a continuación:
Repositorio:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Dependencia:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Convierta un PDF escaneado en un PDF con capacidad de búsqueda mediante programación usando Java
Puede reconocer el contenido de un archivo PDF escaneado con OCR. Esto le permite convertir un archivo PDF escaneado en un documento PDF con capacidad de búsqueda con los siguientes pasos:
- Cree un objeto de clase AsposeOcr.
- Reconocer los datos del PDF escaneado con el método RecognizePdf.
- Configure los números de página para el reconocimiento de OCR utilizando la clase DocumentRecognitionSettings.
- Guarde el resultado de OCR de salida como un archivo PDF con capacidad de búsqueda.
El siguiente fragmento de código explica cómo convertir un PDF escaneado en un archivo PDF con capacidad de búsqueda mediante programación en Java:
Obtenga una licencia de evaluación gratuita
Puede evaluar la función para reconocer texto en PDF escaneados con operaciones de OCR sin ninguna limitación solicitando una licencia temporal gratuita.
Conclusión
En este artículo, aprendió cómo convertir un archivo PDF escaneado en un documento PDF que permite realizar búsquedas con la función OCR mediante programación en Java. Además, puede echar un vistazo a otras características relacionadas con OCR de la API visitando la documentación. No dude en escribirnos al foro en caso de tener alguna inquietud.