Numérisé en PDF interrogeable Java

Parfois, les fichiers PDF sont créés à partir d’images provenant d’un scanner ou d’un appareil photo. Dans certaines situations, vous devrez peut-être convertir un fichier PDF numérisé en un fichier PDF interrogeable avec OCR, afin de pouvoir travailler avec le contenu textuel du fichier PDF. Conformément à cela, cet article explique comment convertir un PDF numérisé en un PDF consultable par la fonction OCR par programmation à l’aide de Java.

PDF numérisé en PDF consultable par OCR - Installation de l’API Java

Vous pouvez reconnaître optiquement le texte d’un fichier PDF avec la fonction OCR à l’aide de l’API Aspose.OCR for Java. Installez simplement l’API en téléchargeant le fichier JAR depuis la section New Releases ou en utilisant les spécifications Maven ci-dessous :

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependency:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Convertir un PDF numérisé en PDF consultable par programmation à l’aide de Java

Vous pouvez reconnaître le contenu d’un fichier PDF numérisé avec OCR. Cela vous permet de convertir un fichier PDF numérisé en un document PDF consultable en procédant comme suit :

  1. Créez un objet de classe AsposeOcr.
  2. Reconnaître les données du PDF numérisé avec la méthode RecognizePdf.
  3. Définissez les numéros de page pour la reconnaissance OCR à l’aide de la classe DocumentRecognitionSettings.
  4. Enregistrez le résultat OCR de sortie sous forme de fichier PDF interrogeable.

L’extrait de code suivant explique comment convertir un PDF numérisé en un fichier PDF interrogeable par programmation en Java :

// Chemin PDF multipage numérisé
String fullPath = "multi_page.pdf";

// Initialiser l'objet de classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Reconnaître les images du PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Enregistrer le résultat au format PDF consultable
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Obtenez une licence d’évaluation gratuite

Vous pouvez évaluer la fonctionnalité de reconnaissance de texte dans un PDF numérisé avec des opérations OCR sans aucune limitation en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez appris comment convertir un fichier PDF numérisé en un document PDF interrogeable avec la fonction OCR par programmation en Java. De plus, vous pouvez jeter un œil à d’autres fonctionnalités de l’API liées à l’OCR en visitant la documentation. N’hésitez pas à nous écrire sur le forum en cas de problème.

Voir également