pdf numérisé en texte csharp

Un fichier PDF numérisé est essentiellement une ou plusieurs images plates capturées par un scanner ou un appareil photo. Vous ne pouvez pas copier, coller ou traiter les informations de ces fichiers. Cet article explique comment convertir un PDF numérisé en texte en C#.

Conversion de PDF numérisé en texte - Installation de l’API C#

L’API Aspose.OCR for .NET est utilisée pour effectuer des opérations d’OCR. Il peut reconnaître optiquement les caractères à partir d’images ou de documents PDF numérisés. Veuillez configurer l’API en téléchargeant le fichier DLL à partir de la section New Releases ou avec la commande d’installation NuGet suivante.

PM> Install-Package Aspose.OCR

Convertir un PDF numérisé en chaîne de texte en C#

Vous pouvez convertir un fichier PDF numérisé en une chaîne de texte en effectuant des opérations OCR dessus. Vous devez suivre les étapes ci-dessous pour imprimer le texte d’un document PDF numérisé :

  1. Spécifiez le paramètre de reconnaissance du fichier PDF numérisé.
  2. Initialisez l’instance de classe AsposeOcr.
  3. Initialiser l’objet de classe RecognitionResult.
  4. Imprimez le texte après l’avoir reconnu à partir d’un PDF numérisé.

L’extrait de code suivant montre comment reconnaître le texte d’un PDF numérisé en C# :

// Initialiser l'instance de classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Spécifiez le paramètre de reconnaissance du fichier PDF numérisé
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Initialiser l'objet de classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Imprimer le texte après l'avoir reconnu à partir d'un PDF numérisé
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Convertir un PDF numérisé en fichier TXT par programmation en C#

Vous pouvez convertir un fichier PDF numérisé en fichier TXT en procédant comme suit :

  1. Instanciez l’objet de classe AsposeOcr.
  2. Créez un objet de classe DocumentRecognitionSettings.
  3. Enregistrez les résultats de la reconnaissance et initialisez l’instance de classe StringBuilder.
  4. Enregistrez le résultat dans un fichier TXT.

L’extrait de code ci-dessous explique comment convertir un fichier PDF numérisé en fichier TXT par programmation en C# :

// Initialiser l'instance de classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconnaître les images du PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Enregistrer les résultats de la reconnaissance
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Initialiser l'objet de classe StringBuilder
StringBuilder builder = new StringBuilder();

// Enregistrer le résultat dans un fichier TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Obtenez une licence d’évaluation gratuite

Vous pouvez demander une licence d’évaluation gratuite pour tester l’API dans toute sa capacité.

Conclusion

Dans cet article, vous avez appris à convertir un PDF numérisé en une chaîne de texte ou un fichier texte par programmation à l’aide de C#. De plus, vous pouvez vérifier plusieurs autres fonctionnalités de l’API en visitant documentation. N’hésitez pas à nous contacter sur forum en cas de problème.

Voir également