Extraire du texte d'un PDF en Python

Lors du traitement de fichiers PDF, vous devez souvent extraire le contenu des pages sous forme de texte brut. Ce texte brut peut en outre être utilisé à diverses fins, telles que l’analyse de texte, le traitement de texte, etc. Dans cet article, vous apprendrez à extraire du texte d’un PDF en Python. À l’aide d’exemples de code, l’article montrera comment effectuer une extraction de texte sur un PDF entier ou sur une seule page.

Bibliothèque Python pour extraire du texte d’un PDF

Pour extraire du texte de fichiers PDF, nous utiliserons Aspose.PDF for Python. Il s’agit d’une puissante bibliothèque de manipulation de PDF qui vous permet de créer et de traiter des fichiers PDF. De plus, il vous permet de convertir des fichiers PDF vers d’autres formats.

Vous pouvez installer Aspose.PDF for Python à l’aide de la commande pip suivante.

pip install aspose-pdf

Extraire le texte d’un PDF en Python

Voici les étapes pour extraire du texte d’un PDF en Python.

  • Utilisez la classe Document pour charger le fichier PDF.
  • Créez une instance de la classe TextDevice.
  • Démarrer une boucle pour le nombre de pages fois.
  • À chaque itération, extrayez le texte d’une page à l’aide de la méthode TextDevice.process() et enregistrez le texte extrait dans le fichier .txt.

L’exemple de code suivant montre comment extraire du texte d’un PDF en Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Ouvrir le document PDF
document = ap.Document("input.pdf")

# Créer un périphérique de texte
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Exporter la page au format TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extraire le texte d’une page spécifique en PDF

Vous pouvez également extraire le texte d’une page spécifique du PDF en utilisant le numéro de page dans le tableau Document.pages. L’exemple de code suivant montre comment extraire du texte d’une page spécifique au format PDF.

import aspose.pdf as ap

# Ouvrir le document PDF
document = ap.Document("input.pdf")

# Créer un périphérique de texte
textDevice = ap.devices.TextDevice()

# Extraire le texte de la première page
textDevice.process(document.pages[1], "extracted_text.txt")

Extraire le texte d’un PDF en ligne

Vous pouvez également utiliser notre outil d’extraction de texte PDF en ligne pour extraire du texte de fichiers PDF. C’est un outil gratuit que vous pouvez utiliser sans abonnement ni inscription.

Bibliothèque d’extraction de texte PDF gratuite

Obtenez votre licence temporaire gratuite et extrayez du texte à partir de fichiers PDF sans aucune limitation.

Explorer la bibliothèque PDF Python

Vous pouvez en savoir plus sur la bibliothèque Python PDF en utilisant la documentation. De plus, vous pouvez poster vos questions sur notre forum.

Conclusion

Dans cet article, vous avez appris à extraire du texte d’un PDF en Python. Les étapes et les exemples de code ont montré comment extraire du texte d’un PDF entier ou d’une page spécifique. Vous pouvez facilement installer la bibliothèque et effectuer une extraction de texte à partir de vos applications Python.

Voir également