OCR PDF Python

Les documents PDF numérisés sont souvent difficiles à utiliser en raison de leur manque de texte consultable ou modifiable. Cependant, grâce à la puissance de la technologie de reconnaissance optique de caractères (OCR), extraire du texte à partir de fichiers PDF numérisés et les convertir en formats consultables ou modifiables devient une réalité. Dans cet article de blog, vous apprendrez à effectuer la reconnaissance de texte PDF avec OCR en Python. Nous explorerons également comment extraire du texte de fichiers PDF numérisés, les convertir en PDF consultables ou modifiables et libérer le potentiel des capacités OCR de Python à l’aide de la bibliothèque Aspose.OCR for Python via .NET.

Reconnaître le texte d’un PDF numérisé avec OCR - Installation de l’API Python

La reconnaissance optique de caractères (OCR) est une technologie qui permet la conversion d’images ou de documents numérisés en texte lisible par machine. En analysant les formes et les motifs des caractères d’une image, les algorithmes OCR identifient et reconnaissent le texte, permettant d’extraire et de traiter les informations qu’il contient. Avant de commencer, vous devez installer Aspose.OCR for Python via .NET en le téléchargeant depuis la page New Releases ou le configurer depuis PyPi en exécutant la commande d’installation ci-dessous :

pip install aspose-ocr-python-net

Reconnaître le texte d’un PDF avec OCR en Python

Vous pouvez reconnaître ou extraire du texte d’un PDF avec OCR en Python. Il extraira efficacement le texte d’un document PDF numérisé, car les étapes ci-dessous décrivent le processus simple pour reconnaître le texte d’un PDF avec OCR en Python :

  1. Instancie un objet de la classe AsposeOcr.
  2. Chargez le fichier PDF numérisé.
  3. Reconnaître le texte avec OCR et imprimer la sortie sur la console.

L’exemple de code ci-dessous montre comment reconnaître le texte d’un PDF avec OCR en Python :

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Convertir un PDF numérisé en PDF consultable ou modifiable avec OCR en Python

Les fichiers PDF numérisés contiennent des images où vous ne pouvez pas rechercher le texte, vous devez donc le convertir en un document PDF interrogeable pour rendre le document lisible par machine et le traiter en conséquence. Veuillez suivre les étapes ci-dessous pour le convertir en un document PDF consultable ou modifiable en Python :

  1. Créez un objet de classe AsposeOcr.
  2. Initialisez l’instance de classe [RecognitionSettings][5] et définissez les propriétés requises.
  3. Chargez le fichier PDF et définissez la plage de pages pour la reconnaissance avec OCR.
  4. Enregistrez le fichier PDF consultable de sortie.

L’exemple de code suivant montre comment convertir un PDF numérisé en un document PDF consultable avec OCR en Python :

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Ici, il convient de noter que vous pouvez ROC n’importe quelle plage de pages dans le document PDF. Par exemple, reconnaître le texte de pages spécifiques uniquement lorsque l’index de page est basé sur zéro et que le dernier paramètre est le nombre de pages à traiter avec l’API. De plus, vous pouvez définir différents paramètres de reconnaissance pour le prétraitement du fichier source, comme la suppression du bruit, le réglage du contraste, la vérification de l’inclinaison des pages d’entrée, etc. pour une reconnaissance améliorée et précise du texte avec l’OCR.

Obtenez une licence d’évaluation gratuite

Vous pouvez demander une licence temporaire gratuite pour évaluer l’API sans aucune limitation d’évaluation.

Résumé

Grâce à la puissance de la technologie OCR et de Python, l’extraction de texte à partir de fichiers PDF numérisés et leur conversion en formats consultables ou modifiables sont devenus hautement accessibles. Ici, nous avons exploré le processus de reconnaissance de texte PDF avec OCR en Python. Nous avons discuté du processus d’installation et de l’extraction de texte à partir de fichiers PDF numérisés, de la mise en œuvre de l’OCR et de la conversion de fichiers PDF numérisés en formats interrogeables ou modifiables. En tirant parti des capacités d’OCR et en utilisant des techniques avancées, vous pouvez libérer tout le potentiel des PDF numérisés et les rendre plus accessibles et polyvalents dans vos projets. En cas d’ambiguïtés ou de questions, veuillez nous contacter via le forum d’assistance gratuit.

Voir également