Effectuer l'OCR à l'aide de Java

La technologie Optical Character Recognition (OCR) a permis de reconnaître et de lire le texte dans les documents et images numérisés. L’OCR vous permet de convertir le texte en lecture seule en une forme modifiable. Le texte converti peut ensuite être traité pour des opérations telles que l’analyse de texte. Dans cet article, je vais vous montrer comment effectuer l’OCR sur des images (PNG, JPG, BMP et GIF) et convertir des images en texte en utilisant l’API Java OCR - Aspose.OCR for Java.

Astuce : Vous pourriez être intéressé par un Text to GIF Converter gratuit qui vous permet de générer des animations à partir de textes.

API Java OCR - Installation

Aspose.OCR for Java peut être téléchargé en tant que JAR ou installé dans une application basée sur Maven à l’aide des configurations suivantes.

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependency:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>20.5</version>
</dependency>

Convertir une image en texte en utilisant Java

Le plus souvent, les images pour l’OCR sont les pages de documents numérisés, factures, reçus, factures, etc. où le texte est composé de plusieurs lignes. Dans de tels scénarios, vous devez récupérer tout le texte de l’image. Voici les étapes à suivre pour effectuer l’OCR sur l’image comportant plusieurs lignes de texte à l’aide d’Aspose.OCR for Java.

L’exemple de code suivant montre comment effectuer l’OCR sur l’image et convertir l’image en texte à l’aide de Java.

// Pour des exemples complets et des fichiers de données, rendez-vous sur https://github.com/aspose-ocr/Aspose.OCR-for-Java
// Chemin d'accès au répertoire des documents.
String dataDir = Utils.getSharedDataDir(PerformOCROnPage.class);

// Le chemin des images
String imagePath = dataDir + "p3.png";

//Créer une instance d'API
AsposeOCR api = new AsposeOCR();

// Reconnaître la page par le chemin complet du fichier
try {
	String result = api.RecognizePage(imagePath);
	System.out.println("Result: " + result);
} catch (IOException e) {
	e.printStackTrace();
}

Convertir des images ayant une seule ligne de texte

Dans l’exemple précédent, nous avons effectué l’OCR sur une image comportant plusieurs lignes de texte. Cependant, il peut arriver que l’image contienne une seule ligne de texte. Dans un tel cas, vous pouvez configurer l’API en conséquence. Voici les étapes pour convertir une image ayant une seule ligne de texte.

L’exemple de code suivant montre comment effectuer l’OCR sur une image comportant une seule ligne de texte à l’aide de Java.

// Pour des exemples complets et des fichiers de données, rendez-vous sur https://github.com/aspose-ocr/Aspose.OCR-for-Java
// Chemin d'accès au répertoire des documents.
String dataDir = Utils.getSharedDataDir(RecognizeLine.class);

// Le chemin des images
String imagePath = dataDir + "0001460985.Jpeg";

//Créer une instance d'API
AsposeOCR api = new AsposeOCR();

try {
	String result = api.RecognizeLine(imagePath);
	System.out.println("File: " + imagePath);
	System.out.println("Result line: " + result);
} catch (IOException e) {
	e.printStackTrace();
}

Conclusion

Dans cet article, vous avez vu comment convertir des images PNG, JPG, BMP et GIF en texte à l’aide de l’API Java OCR. Les exemples de code montrent comment effectuer l’OCR sur des images comportant une ou plusieurs lignes de texte dans les applications Java. Vous pouvez en savoir plus sur l’API Java OCR d’Aspose en utilisant documentation.

Voir également