У цій статті ви дізнаєтесь, як створити свій інструмент перевірки відмінностей PDF і порівняти два PDF-файли в Python.
Дуже часто потрібно порівняти дві версії PDF-документа та перевірити різницю у вмісті. Це може знадобитися для визначення навмисних чи ненавмисних змін у документі. Оскільки неможливо перевірити PDF-файли слово за словом, доступні різні онлайн-інструменти порівняння PDF, які дозволяють знайти різницю між двома PDF-файлами. Однак якщо ви хочете порівняти PDF-файли програмним шляхом із програми Python, ця стаття допоможе вам зробити це за кілька простих кроків.
- Бібліотека Python для порівняння PDF-файлів
- Кроки для порівняння двох PDF-файлів
- Порівняйте два PDF-файли в Python
Бібліотека Python для порівняння PDF-файлів – безкоштовне завантаження
Aspose.Words for Python — це потужна, але проста у використанні бібліотека для створення та обробки текстових документів, зокрема DOC, DOCX і PDF. Бібліотека дозволяє порівнювати документи та відстежувати зміни навіть на рівні символів. Ми збираємося використовувати цю бібліотеку для порівняння PDF-файлів у цій статті. Щоб установити бібліотеку з PyPI, ви можете використати таку команду pip.
> pip install aspose-words
Кроки для порівняння PDF-файлів у Python
Aspose.Words for Python надає потужний механізм порівняння PDF-файлів і дозволяє легко знаходити відмінності. Нижче наведено кроки для порівняння двох файлів PDF за допомогою бібліотеки Python.
- Завантажте обидва файли PDF.
- Перетворіть файли PDF у формат Word.
- Порівняйте обидва документи Word, щоб отримати зміни.
- Збережіть документ із змінами у форматі PDF у потрібному місці.
У наступному розділі ви побачите, як перетворити вищезазначені кроки в код Python і порівняти два файли PDF.
Порівняйте два PDF-файли в Python
Нижче наведено кроки для порівняння двох PDF-файлів і перевірки відмінностей у Python.
- Спочатку завантажте обидва файли PDF за допомогою класу Document.
- Потім конвертуйте файли PDF у формат Word DOCX за допомогою методу Document.save().
- Створіть і встановіть потрібні CompareOptions і порівняйте документи за допомогою методу Document.compare().
- Нарешті, збережіть PDF-файл, що містить відмінності, за допомогою методу Document.save().
У наведеному нижче прикладі коду показано, як виконати порівняння PDF у Python.
import aspose.words as aw
from datetime import date
# Завантажити файли PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")
# Перетворення файлів PDF у формат Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)
# Завантажити конвертовані документи Word
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")
# Встановити параметри порівняння
options = aw.comparing.CompareOptions()
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True
# DOC1 міститиме зміни як версії після порівняння
DOC1.compare(DOC2, "user", date.today(), options)
if (DOC1.revisions.count > 0):
# Збережіть отриманий файл як PDF
DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
print("Documents are equal")
На наступному знімку екрана показано порівняння двох PDF-файлів.
Бібліотека порівняння PDF Python – отримайте безкоштовну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб порівнювати PDF-файли без обмежень оцінки.
Висновок
У цій статті ви дізналися, як порівнювати два PDF-файли в Python. Крім того, ви бачили, як динамічно ввімкнути або вимкнути різні параметри порівняння PDF-файлів. Таким чином, ви можете легко створити свою програму перевірки відмінностей PDF на Python.
Ознайомтеся з бібліотекою порівняння PDF Aspose для Python
Ви можете переглянути документацію бібліотеки, яку ми використали в цій статті, щоб дослідити інші корисні функції. У разі будь-яких питань ви можете поставити нам на нашому форумі.