OCR PDF et extraire le texte d'un PDF en C#

Un fichier PDF est l’un des documents commerciaux les plus courants. Dans certains cas, nous pouvons avoir besoin de lire des documents PDF numérisés par programmation. La difficulté d’extraire du texte à partir de fichiers PDF numérisés a conduit au développement d’outils qui facilitent la lecture et la récupération de texte à partir de ces documents PDF. Selon le contenu de votre document, l’extraction de texte à partir de fichiers PDF peut être utile pour un certain nombre de raisons. Dans cet article, nous allons apprendre à ROC des documents PDF et à extraire le texte d’un PDF en C#.

Les sujets suivants seront abordés dans cet article :

  1. API OCR PDF vers Texte C#
  2. OCR PDF et extraire le texte du PDF
  3. Effectuer l’OCR sur PDF et enregistrer le texte
  4. OCR PDF vers fichier Word
  5. OCR PDF vers JSON

API OCR PDF vers texte C#

Nous utiliserons l’API Aspose.OCR pour .NET pour effectuer l’OCR sur un document PDF. Il peut reconnaître les images numérisées, les photos de smartphone, les captures d’écran et les zones d’images. L’API renvoie des résultats de texte reconnus dans les formats d’échange de documents et de données les plus populaires. En plus de convertir des images en texte, l’API peut également créer des PDF consultables basés sur des numérisations. De plus, il est capable de corriger automatiquement les fautes d’orthographe dans les textes reconnus.

L’API fournit la classe AsposeOcr qui fournit diverses méthodes pour effectuer des opérations OCR. Il fournit la méthode RecognizePdf(string, DocumentRecognitionSettings) pour reconnaître le texte du document PDF fourni. La classe DocumentRecognitionSettings de l’API fournit des paramètres pour le processus de reconnaissance PDF. La classe RecognitionResult représente les résultats de la reconnaissance d’image.

Veuillez soit télécharger la DLL de l’API ou l’installer à l’aide de NuGet.

PM> Install-Package Aspose.OCR

OCR PDF et extraire le texte d’un PDF en C#

Nous pouvons effectuer l’OCR sur des documents PDF et extraire le texte reconnu en suivant les étapes ci-dessous :

  1. Tout d’abord, créez une instance de la classe AsposeOcr.
  2. Ensuite, initialisez un objet de la classe DocumentRecognitionSettings.
  3. Ensuite, spécifiez la langue à utiliser pour l’OCR.
  4. Après cela, obtenez le RecognitionResult en appelant la méthode RecognizePdf(). Il prend le chemin de l’image et l’objet DocumentRecognitionSettings comme arguments.
  5. Enfin, parcourez la liste RecognitionResult et affichez le texte identifié.

L’exemple de code suivant montre comment ROC des documents PDF et extraire le texte reconnu en C#.

// Cet exemple de code montre comment ROC des documents PDF et extraire le texte reconnu.
// Initialiser le moteur PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Initialiser les paramètres de reconnaissance
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Spécifiez la langue pour l'OCR. Multi-langue par défaut
recognitionSettings.Language = Language.Eng;

// Reconnaître le texte d'un PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Afficher le texte reconnu
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF et extraire le texte d'un PDF en C#

OCR PDF et extraire le texte d’un PDF en C#

Effectuer une OCR sur PDF et enregistrer du texte en C#

Nous pouvons effectuer l’OCR sur des documents PDF et enregistrer le texte reconnu en suivant les étapes ci-dessous :

  1. Tout d’abord, créez une instance de la classe AsposeOcr.
  2. Ensuite, initialisez un objet de la classe DocumentRecognitionSettings.
  3. Ensuite, spécifiez la langue à utiliser pour l’OCR.
  4. Après cela, appelez la méthode RecognizePdf() pour obtenir le RecognitionResult. Il prend le chemin de l’image et l’objet DocumentRecognitionSettings comme arguments.
  5. Enfin, enregistrez le texte à l’aide de la méthode SaveMultipageDocument(). Il prend le chemin du fichier de sortie, les objets SaveFormat et RecognitionResult comme arguments.

L’exemple de code suivant montre comment ROC des documents PDF et enregistrer le texte reconnu en C#.

// Cet exemple de code montre comment ROC des documents PDF et extraire le texte reconnu.
// Initialiser le moteur PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Initialiser les paramètres de reconnaissance
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Spécifiez la langue pour l'OCR. Multi-langue par défaut
recognitionSettings.Language = Language.Eng;

// Reconnaître le texte d'un PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Enregistrer le texte reconnu
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Effectuer une OCR sur PDF et enregistrer du texte en C#

Effectuer une OCR sur PDF et enregistrer du texte en C#

OCR PDF et conversion de PDF numérisés en Word en C#

Nous pouvons effectuer l’OCR sur des documents PDF numérisés et enregistrer le texte reconnu dans un document Word en suivant les étapes mentionnées précédemment. Cependant, nous avons juste besoin de spécifier le SaveFormat.Docx à la dernière étape.

L’exemple de code suivant montre comment effectuer une OCR PDF et enregistrer le texte reconnu en tant que document Word en C#.

// Cet exemple de code montre comment ROC des documents PDF et enregistrer le texte reconnu au format DOCX.
// Initialiser le moteur PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Initialiser les paramètres de reconnaissance
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Spécifiez la langue pour l'OCR. Multi-langue par défaut
recognitionSettings.Language = Language.Eng;

// Reconnaître le texte d'un PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Enregistrez le texte reconnu au format DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF et conversion de PDF numérisés en Word en C#

OCR PDF et conversion de PDF numérisés en Word en C#

OCR PDF et conversion de PDF en JSON en C#

Nous pouvons effectuer une OCR sur des documents PDF et enregistrer le texte reconnu dans un fichier JSON en suivant les étapes mentionnées précédemment. Cependant, nous avons juste besoin de spécifier le SaveFormat.Json à la dernière étape.

L’exemple de code suivant montre comment effectuer une OCR PDF et enregistrer le texte reconnu en tant que fichier JSON en C#.

// Cet exemple de code montre comment ROC des documents PDF et enregistrer le texte reconnu au format JSON.
// Initialiser le moteur PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Initialiser les paramètres de reconnaissance
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Spécifiez la langue pour l'OCR. Multi-langue par défaut
recognitionSettings.Language = Language.Eng;

// Reconnaître le texte d'un PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Enregistrez le texte reconnu au format JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Obtenez une licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour essayer la bibliothèque sans limitations d’évaluation.

Conclusion

Dans cet article, nous avons appris à effectuer l’OCR sur des documents PDF et à extraire le texte d’un PDF en C#. Nous avons également vu comment enregistrer le texte reconnu en tant que fichier TXT, DOCX et JSON. En outre, vous pouvez en savoir plus sur Aspose.OCR pour l’API .NET en utilisant documentation. En cas d’ambiguïté, n’hésitez pas à nous contacter sur notre forum.

Voir également