PDF numérisé vers Word Java OCR

Les fichiers PDF créés à l’aide d’un appareil photo ou d’un scanner contiennent des images numérisées. Ces images ne peuvent pas être traitées pour la sélection ou l’édition de texte, vous devrez donc peut-être convertir des PDF numérisés en documents Word au format DOCX ou DOC. Cet article explique comment convertir un fichier PDF numérisé en un fichier Word par programmation à l’aide de Java.

API Java pour convertir un PDF numérisé en fichier Word

Vous pouvez manipuler des documents PDF numérisés avec des opérations OCR à l’aide de l’API Aspose.OCR for Java, puis générer un fichier Word avec l’API Aspose.Words for Java par programmation. Configurez simplement les API en téléchargeant les fichiers JAR à partir de la section Téléchargements ou en utilisant les spécifications Maven suivantes :

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependency:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Convertir un PDF numérisé en document Word par programmation à l’aide de Java

Vous pouvez convertir un fichier PDF numérisé en un document Word avec la technique de reconnaissance optique des caractères. Il s’agit d’un processus en deux étapes dans lequel le PDF numérisé est converti en texte, puis le texte est converti en un document Word au format DOC ou DOCX. Vous devez suivre les étapes ci-dessous pour convertir un PDF numérisé en un document Word :

  1. Instanciez l’objet de classe AsposeOCRPdf.
  2. Reconnaître les images d’un fichier PDF à l’aide d’un objet de type DocumentRecognitionSettings.
  3. Spécifiez l’objet de classe String et enregistrez le texte.
  4. Initialisez un nouveau document Word avec la classe Document.
  5. Définissez les polices et la mise en forme des paragraphes.
  6. Enfin, écrivez le document Word de sortie sur le disque en tant que fichier DOCX ou DOC.

L’extrait de code ci-dessous montre comment convertir un fichier PDF numérisé en un document Word en tant que fichier DOC ou DOCX par programmation à l’aide de Java :

// Initialiser une instance de AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Obtenir un fichier PDF pour reconnaître     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Reconnaître le fichier PDF d'entrée avec la méthode RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Résultat d'impression
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Initialisez le document Word avec la classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Spécifier la mise en forme de la police
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Spécifier la mise en forme des paragraphes
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Enregistrer le document Word de sortie. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Obtenez une licence temporaire gratuite

Vous pouvez évaluer les API sans aucune limitation en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez exploré comment convertir un fichier PDF numérisé en un document Word en tant que fichier DOCX ou DOC par programmation à l’aide de Java. De plus, vous pouvez jeter un œil à d’autres fonctionnalités liées à l’OCR en visitant la documentation. En cas de problème, n’hésitez pas à nous contacter sur le forum.

Voir également

Info : Vous pourriez être intéressé par une autre API Java (Aspose.Slides for Java) qui permet de convertir des présentations (en PDF, documents word, etc.) et d’importer des images ou d’autres documents dans des présentations.