La technologie Optical Character Recognition (OCR) a permis de reconnaître et de lire le texte dans les documents et images numérisés. L’OCR vous permet de convertir le texte en lecture seule en une forme modifiable. Le texte converti peut ensuite être traité pour des opérations telles que l’analyse de texte. Dans cet article, je vais vous montrer comment effectuer l’OCR sur des images (PNG, JPG, BMP et GIF) et convertir des images en texte en utilisant l’API Java OCR - Aspose.OCR for Java.
- API Java OCR - Installation
- Convertir une image en texte en utilisant Java
- Convertir des images ayant une seule ligne de texte à l’aide de Java
Astuce : Vous pourriez être intéressé par un Text to GIF Converter gratuit qui vous permet de générer des animations à partir de textes.
API Java OCR - Installation
Aspose.OCR for Java peut être téléchargé en tant que JAR ou installé dans une application basée sur Maven à l’aide des configurations suivantes.
Repository:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Dependency:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>20.5</version>
</dependency>
Convertir une image en texte en utilisant Java
Le plus souvent, les images pour l’OCR sont les pages de documents numérisés, factures, reçus, factures, etc. où le texte est composé de plusieurs lignes. Dans de tels scénarios, vous devez récupérer tout le texte de l’image. Voici les étapes à suivre pour effectuer l’OCR sur l’image comportant plusieurs lignes de texte à l’aide d’Aspose.OCR for Java.
- Créez une instance de la classe AsposeOcr.
- Convertissez l’image en texte à l’aide de la méthode AsposeOcr.recognizePage(String fullPath) en transmettant le chemin de l’image.
- Obtenez le texte converti en un objet chaîne.
L’exemple de code suivant montre comment effectuer l’OCR sur l’image et convertir l’image en texte à l’aide de Java.
// Pour des exemples complets et des fichiers de données, rendez-vous sur https://github.com/aspose-ocr/Aspose.OCR-for-Java
// Chemin d'accès au répertoire des documents.
String dataDir = Utils.getSharedDataDir(PerformOCROnPage.class);
// Le chemin des images
String imagePath = dataDir + "p3.png";
//Créer une instance d'API
AsposeOCR api = new AsposeOCR();
// Reconnaître la page par le chemin complet du fichier
try {
String result = api.RecognizePage(imagePath);
System.out.println("Result: " + result);
} catch (IOException e) {
e.printStackTrace();
}
Convertir des images ayant une seule ligne de texte
Dans l’exemple précédent, nous avons effectué l’OCR sur une image comportant plusieurs lignes de texte. Cependant, il peut arriver que l’image contienne une seule ligne de texte. Dans un tel cas, vous pouvez configurer l’API en conséquence. Voici les étapes pour convertir une image ayant une seule ligne de texte.
- Créez un objet de la classe AsposeOcr.
- Convertissez l’image en texte à l’aide de la méthode AsposeOcr.recognizeLine(String fullPath).
- Obtenez le résultat dans un objet chaîne.
L’exemple de code suivant montre comment effectuer l’OCR sur une image comportant une seule ligne de texte à l’aide de Java.
// Pour des exemples complets et des fichiers de données, rendez-vous sur https://github.com/aspose-ocr/Aspose.OCR-for-Java
// Chemin d'accès au répertoire des documents.
String dataDir = Utils.getSharedDataDir(RecognizeLine.class);
// Le chemin des images
String imagePath = dataDir + "0001460985.Jpeg";
//Créer une instance d'API
AsposeOCR api = new AsposeOCR();
try {
String result = api.RecognizeLine(imagePath);
System.out.println("File: " + imagePath);
System.out.println("Result line: " + result);
} catch (IOException e) {
e.printStackTrace();
}
Conclusion
Dans cet article, vous avez vu comment convertir des images PNG, JPG, BMP et GIF en texte à l’aide de l’API Java OCR. Les exemples de code montrent comment effectuer l’OCR sur des images comportant une ou plusieurs lignes de texte dans les applications Java. Vous pouvez en savoir plus sur l’API Java OCR d’Aspose en utilisant documentation.