У цій статті ви дізнаєтесь, як створити свій інструмент перевірки відмінностей PDF і порівняти два PDF-файли в Python.

Порівняйте PDF-файли в Python

Дуже часто потрібно порівняти дві версії PDF-документа та перевірити різницю у вмісті. Це може знадобитися для визначення навмисних чи ненавмисних змін у документі. Оскільки неможливо перевірити PDF-файли слово за словом, доступні різні онлайн-інструменти порівняння PDF, які дозволяють знайти різницю між двома PDF-файлами. Однак якщо ви хочете порівняти PDF-файли програмним шляхом із програми Python, ця стаття допоможе вам зробити це за кілька простих кроків.

Бібліотека Python для порівняння PDF-файлів – безкоштовне завантаження

Aspose.Words for Python — це потужна, але проста у використанні бібліотека для створення та обробки текстових документів, зокрема DOC, DOCX і PDF. Бібліотека дозволяє порівнювати документи та відстежувати зміни навіть на рівні символів. Ми збираємося використовувати цю бібліотеку для порівняння PDF-файлів у цій статті. Щоб установити бібліотеку з PyPI, ви можете використати таку команду pip.

> pip install aspose-words

Кроки для порівняння PDF-файлів у Python

Aspose.Words for Python надає потужний механізм порівняння PDF-файлів і дозволяє легко знаходити відмінності. Нижче наведено кроки для порівняння двох файлів PDF за допомогою бібліотеки Python.

  • Завантажте обидва файли PDF.
  • Перетворіть файли PDF у формат Word.
  • Порівняйте обидва документи Word, щоб отримати зміни.
  • Збережіть документ із змінами у форматі PDF у потрібному місці.

У наступному розділі ви побачите, як перетворити вищезазначені кроки в код Python і порівняти два файли PDF.

Порівняйте два PDF-файли в Python

Нижче наведено кроки для порівняння двох PDF-файлів і перевірки відмінностей у Python.

  • Спочатку завантажте обидва файли PDF за допомогою класу Document.
  • Потім конвертуйте файли PDF у формат Word DOCX за допомогою методу Document.save().
  • Створіть і встановіть потрібні CompareOptions і порівняйте документи за допомогою методу Document.compare().
  • Нарешті, збережіть PDF-файл, що містить відмінності, за допомогою методу Document.save().

У наведеному нижче прикладі коду показано, як виконати порівняння PDF у Python.

import aspose.words as aw
from datetime import date

# Завантажити файли PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Перетворення файлів PDF у формат Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Завантажити конвертовані документи Word 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Встановити параметри порівняння
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 міститиме зміни як версії після порівняння
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Збережіть отриманий файл як PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

На наступному знімку екрана показано порівняння двох PDF-файлів.

Порівняння PDF-файлів у Python

Бібліотека порівняння PDF Python – отримайте безкоштовну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб порівнювати PDF-файли без обмежень оцінки.

Висновок

У цій статті ви дізналися, як порівнювати два PDF-файли в Python. Крім того, ви бачили, як динамічно ввімкнути або вимкнути різні параметри порівняння PDF-файлів. Таким чином, ви можете легко створити свою програму перевірки відмінностей PDF на Python.

Ознайомтеся з бібліотекою порівняння PDF Aspose для Python

Ви можете переглянути документацію бібліотеки, яку ми використали в цій статті, щоб дослідити інші корисні функції. У разі будь-яких питань ви можете поставити нам на нашому форумі.

Дивись також