En este artículo, aprenderá cómo crear su herramienta de verificación de diferencias de PDF y comparar dos archivos PDF en Python.

Comparar archivos PDF en Python

Muy a menudo, necesita comparar dos versiones de un documento PDF y verificar la diferencia en el contenido. Esto podría ser necesario para identificar las modificaciones intencionales o no intencionales en un documento. Dado que no es factible verificar el archivo PDF palabra por palabra, hay disponibles varias herramientas de comparación de PDF en línea que le permiten encontrar la diferencia entre dos archivos PDF. Sin embargo, si desea comparar archivos PDF mediante programación desde su aplicación Python, este artículo lo ayuda a hacerlo en unos pocos pasos sencillos.

Biblioteca de Python para comparar archivos PDF: descarga gratuita

Aspose.Words for Python es una biblioteca poderosa pero fácil de usar para crear y procesar documentos de texto, incluidos DOC, DOCX y PDF. La biblioteca le permite comparar los documentos y realizar un seguimiento de los cambios incluso a nivel de carácter. Vamos a utilizar esta biblioteca para comparar archivos PDF en este artículo. Para instalar la biblioteca desde PyPI, puede usar el siguiente comando pip.

> pip install aspose-words

Pasos para comparar archivos PDF en Python

Aspose.Words for Python proporciona un poderoso mecanismo de comparación de PDF y le permite encontrar las diferencias con facilidad. Los siguientes son los pasos para comparar dos archivos PDF utilizando dicha biblioteca de Python.

  • Cargue ambos archivos PDF.
  • Convierte los archivos PDF a formato Word.
  • Compare ambos documentos de Word para obtener cambios.
  • Guarde el documento que contiene los cambios como PDF en la ubicación deseada.

En la siguiente sección, verá cómo transformar los pasos mencionados anteriormente en código Python y comparar dos archivos PDF.

Compara dos archivos PDF en Python

Los siguientes son los pasos para comparar dos archivos PDF y verificar las diferencias en Python.

  • Primero, cargue ambos archivos PDF usando la clase Document.
  • Luego, convierta archivos PDF a formato Word DOCX usando el método Document.save().
  • Cree y configure las opciones de comparación deseadas y compare documentos utilizando el método Document.compare().
  • Finalmente, guarde el archivo PDF que contiene las diferencias usando el método Document.save().

El siguiente ejemplo de código muestra cómo realizar una comparación de PDF en Python.

import aspose.words as aw
from datetime import date

# Cargar archivos PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Convierte archivos PDF a formato Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Cargar documentos de Word convertidos 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Establecer opciones de comparación
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 contendrá cambios como revisiones después de la comparación
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Guardar el archivo resultante como PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

La siguiente captura de pantalla muestra la comparación de dos archivos PDF.

Comparación de archivos PDF en Python

Biblioteca de comparación de PDF de Python: obtenga una licencia gratuita

Puede obtener una licencia temporal gratuita para comparar archivos PDF sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido a comparar dos archivos PDF en Python. Además, ha visto cómo habilitar o deshabilitar diferentes opciones de comparación para archivos PDF de forma dinámica. Por lo tanto, puede crear su aplicación de verificación de diferencias de PDF en Python con bastante facilidad.

Explore la biblioteca de comparación de PDF de Aspose para Python

Puede explorar la documentación de la biblioteca que hemos utilizado en este artículo para explorar otras características útiles. En caso de cualquier duda, puedes preguntarnos a través de nuestro foro.

Ver también