PDF scanné vers consultable avec OCR en C#

Les fichiers PDF sont parfois basés sur des images qui sont généralement créées à l’aide d’un scanner ou d’un appareil d’imagerie. Vous pouvez convertir un fichier PDF numérisé en un fichier PDF interrogeable avec OCR afin que le texte puisse être modifié ou mis à jour dans le document. Conformément à ce scénario, cet article explique comment convertir un PDF numérisé en un PDF consultable par des opérations OCR par programmation à l’aide de C#.

PDF numérisé en PDF consultable par OCR - Installation de l’API C#

Vous pouvez effectuer des opérations d’OCR sur un fichier PDF numérisé avec l’API Aspose.OCR for .NET. Configurez simplement l’API en téléchargeant le fichier DLL depuis la section New Releases ou en utilisant la commande d’installation NuGet suivante :

PM> Install-Package Aspose.OCR

Convertir un PDF numérisé en PDF consultable par programmation à l’aide de C#

Vous pouvez convertir un fichier PDF numérisé en un document PDF interrogeable tout en reconnaissant optiquement le texte en suivant les étapes ci-dessous :

  1. Initialisez l’instance de classe AsposeOcr.
  2. Reconnaître les images du PDF à l’aide de la méthode RecognizePdf.
  3. Définissez différentes propriétés pour la reconnaissance OCR avec la classe DocumentRecognitionSettings.
  4. Enregistrez le résultat de l’OCR sous forme de fichier PDF interrogeable.

L’extrait de code ci-dessous explique comment convertir un PDF numérisé en un document PDF consultable par programmation à l’aide de C# :

// Chemin PDF multipage numérisé
string fullPath = "multi_page.pdf";

// Initialiser l'objet de classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconnaître les images du PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Enregistrer le résultat au format PDF consultable
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Obtenez une licence d’évaluation gratuite

Vous pouvez évaluer la fonctionnalité de reconnaissance de texte dans un PDF numérisé avec des opérations OCR sans aucune limitation en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez appris à convertir un fichier PDF numérisé en un document PDF interrogeable en effectuant des opérations OCR dessus par programmation en C#. De plus, vous pouvez vérifier plusieurs autres fonctionnalités liées à l’OCR offertes par l’API en visitant la documentation. N’hésitez pas à nous contacter sur le forum en cas de questions.

Voir également