PDF escaneado a Word Java OCR

Los archivos PDF creados con una cámara o un dispositivo de escáner contienen imágenes escaneadas. Estas imágenes no se pueden procesar para la selección o edición de texto, por lo que es posible que deba convertir PDF escaneados a documentos de Word en formato DOCX o DOC. Este artículo cubre cómo convertir un archivo PDF escaneado a un archivo de Word mediante programación usando Java.

API de Java para convertir PDF escaneado a archivo de Word

Puede manipular documentos PDF escaneados con operaciones de OCR usando la API Aspose.OCR for Java y luego generar un archivo de Word con la API Aspose.Words for Java mediante programación. Simplemente configure las API descargando los archivos JAR de la sección Descargas o utilizando las siguientes especificaciones de Maven:

Repositorio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependencia:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Convierta un PDF escaneado a un documento de Word mediante programación usando Java

Puede convertir un archivo PDF escaneado en un documento de Word con la técnica de reconocimiento óptico de caracteres. Este es un proceso de dos pasos en el que el PDF escaneado se convierte en texto y luego el texto se convierte en un documento de Word en formato DOC o DOCX. Debe seguir los pasos a continuación para convertir un PDF escaneado a un documento de Word:

  1. Crear una instancia del objeto de clase AsposeOCRPdf.
  2. Reconocer imágenes de un archivo PDF utilizando el tipo de objeto DocumentRecognitionSettings.
  3. Especifique el objeto de clase String y guarde el texto.
  4. Inicialice un nuevo documento de Word con la clase Document.
  5. Establezca las fuentes y el formato de los párrafos.
  6. Finalmente, escriba el documento de Word de salida en el disco como archivo DOCX o DOC.

El fragmento de código siguiente muestra cómo convertir un archivo PDF escaneado en un documento de Word como archivo DOC o DOCX mediante programación usando Java:

// Inicializar una instancia de AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Obtener archivo PDF para reconocer     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Reconocer archivo PDF de entrada con el método RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Imprimir resultado
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Inicialice el documento de Word con la clase Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Especificar formato de fuente
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Especificar formato de párrafo
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Guarde el documento de Word de salida. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Obtenga una Licencia Temporal Gratis

Puede evaluar las API sin limitaciones solicitando una licencia temporal gratuita.

Conclusión

En este artículo, ha explorado cómo convertir un archivo PDF escaneado en un documento de Word como archivo DOCX o DOC mediante programación usando Java. Además, puede echar un vistazo a otras funciones relacionadas con OCR visitando la documentación. Si tiene alguna inquietud, no dude en comunicarse con nosotros en el foro.

Ver también

Información: Puede que le interese otra API de Java (Aspose.Slides for Java) que le permite convertir presentaciones (a PDF, documentos de Word, etc.) e importar imágenes u otros documentos en presentaciones.