PDF à Word OCR Python

La conversion de PDF numérisés en documents Word offre plusieurs avantages, tels que la modification du texte dans le document, ce qui facilite les modifications ou les mises à jour. Il permet également la recherche de texte, ce qui est inestimable pour les documents volumineux ou lors de la recherche. De plus, vous pouvez également effectuer une vérification orthographique pour corriger les fautes de frappe ou les mots mal orthographiés lors de l’exécution de l’OCR en Python. En conséquence, cet article explique comment convertir un PDF numérisé en document Word avec OCR en Python à l’aide de la bibliothèque Aspose.OCR for Python via .NET.

PDF à Word avec OCR - Installation de l’API Python

Avant de plonger dans la reconnaissance de texte, assurons-nous que l’environnement nécessaire est configuré pour exécuter l’OCR en Python. Assurez-vous que Python est installé sur votre système, de préférence la version 3.x ou ultérieure, ainsi qu’un éditeur de code fiable ou un environnement de développement intégré (IDE) tel que Visual Studio Code ou IDLE, etc. Ensuite, vous devez configurer Aspose.OCR for Python via .NET en y accédant depuis la section New Releases ou depuis PyPi avec la commande d’installation suivante :

pip install aspose-ocr-python-net

Convertir un PDF numérisé en Word avec OCR en Python

Vous pouvez convertir un PDF numérisé en Word avec OCR en suivant les étapes ci-dessous :

  1. Initialisez l’API à l’aide de la classe AsposeOcr.
  2. Définissez différents paramètres pour la reconnaissance.
  3. Reconnaître le texte avec OCR et enregistrer le fichier DOCX Word de sortie.

L’extrait de code suivant montre comment convertir un PDF numérisé en Word avec OCR en Python :

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF à Word avec OCR et vérification orthographique en Python

Les moteurs OCR peuvent parfois produire des inexactitudes, en particulier lorsqu’il s’agit de mises en page complexes, d’écriture manuscrite ou de numérisations de mauvaise qualité. Dans de tels cas, la correction orthographique joue un rôle crucial dans l’amélioration de la précision du texte converti. Cette section traite en particulier de la conversion PDF vers Word avec OCR et de la fonction de vérification orthographique de Python. Vous devez suivre les étapes ci-dessous pour répondre à ces exigences :

  1. Initialisez une instance de la classe AsposeOcr.
  2. Définissez différentes propriétés à l’aide de la classe RecognitionSettings.
  3. Reconnaître le PDF avec OCR et vérifier l’orthographe de la chaîne extraite.
  4. Exportez le document Word de sortie au format DOCX.

L’exemple de code ci-dessous explique comment convertir un PDF en un document Word avec OCR en Python :

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Obtenez une licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour éviter les limites d’évaluation et les filigranes.

Résumé

Dans cet article de blog, nous avons exploré comment convertir des PDF numérisés en documents Word à l’aide de l’OCR en Python. Nous avons discuté de l’importance de l’OCR et de ses avantages, fourni un guide étape par étape pour configurer l’environnement, extraire le texte du document PDF avec différentes approches tout en spécifiant plusieurs paramètres et l’enregistrer dans un document Word. Ce guide vous permet d’automatiser la conversion de PDF numérisés en documents Word modifiables à l’aide de Python et d’OCR, ouvrant un monde de possibilités pour l’extraction et la manipulation de données. Si vous avez besoin de discuter de l’une de vos préoccupations, n’hésitez pas à nous écrire sur le forum d’assistance gratuit.

Voir également