OCR PDF et extraire le texte d'un PDF en Python

La technologie de reconnaissance optique de caractères (OCR) joue un rôle central dans la numérisation de textes imprimés, numérisés ou manuscrits provenant de diverses sources, y compris les documents PDF. Dans cet article de blog, nous apprendrons comment OCR des documents PDF et extraire du texte d’un PDF en Python.

Cet article couvre les sujets suivants :

  1. API OCR Python PDF vers TXT
  2. OCR PDF et extraire le texte d’un PDF
  3. Enregistrer le PDF numérisé en texte
  4. Ressources d’apprentissage gratuites

PDF en TXT - API Python OCR

Nous utiliserons Aspose.OCR for Python pour effectuer l’OCR sur les documents PDF et extraire le texte des PDF. Aspose.OCR for Python est une puissante API de reconnaissance optique de caractères (OCR) qui peut reconnaître le texte des images numérisées, des photos de smartphone, des captures d’écran et des zones d’images. L’API renvoie les résultats de texte reconnus dans les formats d’échange de documents et de données les plus courants, notamment PDF, XML, JSON et texte brut.

En plus de convertir des images en texte, Aspose.OCR for Python peut également créer des PDF consultables basés sur des numérisations. L’API peut également corriger automatiquement les fautes d’orthographe dans les textes reconnus, ce qui la rend idéale pour une variété d’applications.

Veuillez télécharger le package ou installer l’API depuis PyPI à l’aide de la commande pip suivante dans la console :

pip install aspose-ocr-python-net

Python OCR PDF - Extraire le texte d’un PDF en Python

Nous pouvons effectuer l’OCR sur des documents PDF et extraire le texte reconnu en suivant les étapes ci-dessous :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Ajoutez le fichier PDF au lot de reconnaissance.
  4. Après cela, appelez la méthode reconnaître().
  5. Enfin, affichez le texte identifié à l’aide de la classe RecognitionResult.

L’exemple de code suivant montre comment OCR des documents PDF et extraire du texte d’un PDF en Python.

# Cet exemple de code montre comment reconnaître et extraire le texte d'un document PDF numérisé en Python.
import aspose.ocr as ocr

# Initialiser le moteur OCR
api = ocr.AsposeOcr()

# Initialiser les paramètres de reconnaissance
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Ajouter le fichier au lot de reconnaissance
files = ocr.OcrInput(ocr.InputType.PDF)

# Accédez au PDF numérisé et définissez le numéro de page et le nombre total de pages
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconnaître le texte
result = api.recognize(files , settings)

# Résultat de la reconnaissance d'impression
print(result[0].recognition_text)

Python OCR PDF - Enregistrer le PDF numérisé en texte en Python

Nous pouvons effectuer l’OCR sur des documents PDF et enregistrer le texte reconnu en suivant les étapes ci-dessous :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Ajoutez le fichier PDF au lot de reconnaissance.
  4. Après cela, appelez la méthode reconnaître().
  5. Enfin, enregistrez le texte à l’aide de la méthode savemultipagedocument(). Il prend le chemin du fichier de sortie, les objets SaveFormat et RecognitionResult comme arguments.

L’exemple de code suivant montre comment OCR des documents PDF et enregistrer le texte reconnu en Python.

# Cet exemple de code montre comment enregistrer le texte de reconnaissance et d'extraction à l'aide de Python.
import aspose.ocr as ocr

# Initialiser le moteur OCR
api = ocr.AsposeOcr()

# Initialiser les paramètres de reconnaissance
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Ajouter le fichier au lot de reconnaissance
files = ocr.OcrInput(ocr.InputType.PDF)

# Accédez au PDF numérisé et définissez le numéro de page et le nombre total de pages
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconnaître le texte
result = api.recognize(files , settings)

# Résultat de la reconnaissance d'impression
print(result[0].recognition_text)

# Enregistrez le texte extrait
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Obtenez une licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour essayer la bibliothèque sans limitations d’évaluation.

Python OCR PDF - Ressources gratuites

Vous pouvez explorer davantage les ressources suivantes pour apprendre l’API Python OCR :

Conclusion

Dans cet article, nous avons appris comment effectuer l’OCR sur des documents PDF et extraire le texte d’un PDF en Python. La possibilité d’extraire du texte à partir de PDF à l’aide de l’OCR change la donne dans de nombreux secteurs, de l’archivage et de la documentation juridique à l’analyse des données et à la numérisation du contenu. En tirant parti d’Aspose.OCR for Python, les développeurs et les passionnés peuvent intégrer de manière transparente les fonctionnalités OCR dans leurs projets Python. En cas d’ambiguïté, n’hésitez pas à nous contacter sur notre forum d’assistance gratuit.

Voir également