PDF numérisé vers Excel OCR Java

Les fichiers PDF numérisés comprennent des données au format image car ils sont souvent créés par des scanners. Dans certaines situations, vous pouvez avoir besoin d’informations numériques à partir d’un fichier PDF numérisé. Ainsi, vous pouvez effectuer des opérations d’OCR pour créer un fichier Excel. Cet article explique comment créer un convertisseur PDF vers Excel numérisé avec la fonction OCR par programmation en Java.

Créer un convertisseur PDF numérisé vers Excel avec OCR - Installation de l’API Java

Vous pouvez reconnaître optiquement le texte d’un fichier PDF avec la fonction OCR à l’aide de l’API Aspose.OCR for Java. Installez simplement l’API en téléchargeant le fichier JAR depuis la section New Releases ou en utilisant les spécifications Maven ci-dessous :

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependency:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Convertir un PDF numérisé en Excel par programmation en Java

Vous pouvez convertir un fichier PDF numérisé en Excel avec OCR en suivant les étapes ci-dessous :

  1. Créez un objet de classe AsposeOcr.
  2. Spécifiez les paramètres avec la classe DocumentRecognitionSettings.
  3. Reconnaître le fichier PDF numérisé à l’aide de la méthode RecognizePdf.
  4. Enregistrez le résultat OCR de sortie dans un fichier Excel.

L’extrait de code suivant explique comment convertir un PDF numérisé en un fichier Excel par programmation en Java :

// Chemin d'accès au fichier PDF numérisé
String fullPath = "scanned.pdf";

// Initialiser l'objet de classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Initialiser l'objet de classe DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Reconnaître les images du PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Enregistrer le résultat en tant que fichier Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Obtenez une licence d’évaluation gratuite

Vous pouvez évaluer l’API pour créer un convertisseur PDF vers Excel numérisé par des opérations OCR sans aucune limitation en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez compris comment convertir un fichier PDF numérisé en un fichier Excel avec la fonction OCR par programmation en Java. De plus, veuillez jeter un coup d’œil aux autres fonctionnalités liées à l’OCR en visitant la documentation. N’hésitez pas à nous écrire sur le forum en cas de problème.

Voir également