Dans cet article, vous apprendrez à créer votre outil de vérification des différences PDF et à comparer deux fichiers PDF en Python.

Comparer des fichiers PDF en Python

Très souvent, vous devez comparer deux versions d’un document PDF et vérifier la différence de contenu. Cela pourrait être nécessaire pour identifier les modifications intentionnelles ou non dans un document. Puisqu’il n’est pas possible de vérifier le fichier PDF mot par mot, divers outils de comparaison PDF en ligne sont disponibles pour vous permettre de trouver la différence entre deux fichiers PDF. Toutefois, si vous souhaitez comparer des fichiers PDF par programmation à partir de votre application Python, cet article vous aide à le faire en quelques étapes simples.

Bibliothèque Python pour comparer des fichiers PDF - Téléchargement gratuit

Aspose.Words for Python est une bibliothèque puissante mais facile à utiliser pour créer et traiter des documents texte, y compris DOC, DOCX et PDF. La bibliothèque vous permet de comparer les documents et de suivre les modifications même au niveau du personnage. Nous allons utiliser cette bibliothèque pour comparer les fichiers PDF dans cet article. Pour installer la bibliothèque à partir de PyPI, vous pouvez utiliser la commande pip suivante.

> pip install aspose-words

Étapes pour comparer des fichiers PDF en Python

Aspose.Words for Python fournit un puissant mécanisme de comparaison PDF et vous permet de trouver facilement les différences. Voici les étapes pour comparer deux fichiers PDF à l’aide de ladite bibliothèque Python.

  • Chargez les deux fichiers PDF.
  • Convertissez les fichiers PDF au format Word.
  • Comparez les deux documents Word pour obtenir des modifications.
  • Enregistrez le document contenant les modifications au format PDF à l’emplacement souhaité.

Dans la section suivante, vous verrez comment transformer les étapes mentionnées ci-dessus en code Python et comparer deux fichiers PDF.

Comparer deux fichiers PDF en Python

Voici les étapes pour comparer deux fichiers PDF et vérifier les différences en Python.

  • Tout d’abord, chargez les deux fichiers PDF à l’aide de la classe Document.
  • Ensuite, convertissez les fichiers PDF au format Word DOCX à l’aide de la méthode Document.save().
  • Créez et définissez les options de comparaison souhaitées et comparez les documents à l’aide de la méthode Document.compare ().
  • Enfin, enregistrez le fichier PDF contenant les différences à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment effectuer une comparaison PDF en Python.

import aspose.words as aw
from datetime import date

# Charger des fichiers PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Convertir des fichiers PDF au format Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Charger les documents Word convertis 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Définir les options de comparaison
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 contiendra les modifications sous forme de révisions après comparaison
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Enregistrer le fichier résultant au format PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

La capture d’écran suivante montre la comparaison de deux fichiers PDF.

Comparaison des fichiers PDF en Python

Bibliothèque de comparaison Python PDF - Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite pour comparer des fichiers PDF sans limitation d’évaluation.

Conclusion

Dans cet article, vous avez appris à comparer deux fichiers PDF en Python. De plus, vous avez vu comment activer ou désactiver dynamiquement différentes options de comparaison pour les fichiers PDF. Ainsi, vous pouvez créer votre application de vérification des différences PDF en Python assez facilement.

Explorez la bibliothèque de comparaison PDF d’Aspose pour Python

Vous pouvez explorer la documentation de la bibliothèque que nous avons utilisée dans cet article pour explorer d’autres fonctionnalités utiles. En cas de questions, vous pouvez nous les poser via notre forum.

Voir également