В этой статье вы узнаете, как создать инструмент проверки различий PDF и сравнить два файла PDF в Python.

Сравните PDF-файлы в Python

Очень часто вам нужно сравнить две версии PDF-документа и проверить разницу в содержании. Это может потребоваться для выявления преднамеренных или непреднамеренных изменений в документе. Поскольку невозможно проверить файл PDF слово за словом, доступны различные онлайн-инструменты сравнения PDF, которые позволяют найти разницу между двумя файлами PDF. Однако, если вы хотите программно сравнить PDF-файлы из своего приложения Python, эта статья поможет вам сделать это за несколько простых шагов.

Библиотека Python для сравнения PDF-файлов — бесплатная загрузка

Aspose.Words for Python — мощная, но простая в использовании библиотека для создания и обработки текстовых документов, включая DOC, DOCX и PDF. Библиотека позволяет сравнивать документы и отслеживать изменения даже на уровне символов. Мы собираемся использовать эту библиотеку для сравнения файлов PDF в этой статье. Чтобы установить библиотеку из PyPI, вы можете использовать следующую команду pip.

> pip install aspose-words

Шаги для сравнения файлов PDF в Python

Aspose.Words for Python предоставляет мощный механизм сравнения PDF и позволяет легко находить различия. Ниже приведены шаги для сравнения двух файлов PDF с использованием указанной библиотеки Python.

  • Загрузите оба файла PDF.
  • Преобразуйте файлы PDF в формат Word.
  • Сравните оба документа Word, чтобы получить изменения.
  • Сохраните документ, содержащий изменения, в формате PDF в нужном месте.

В следующем разделе вы увидите, как преобразовать вышеупомянутые шаги в код Python и сравнить два файла PDF.

Сравните два файла PDF в Python

Ниже приведены шаги для сравнения двух файлов PDF и проверки различий в Python.

  • Сначала загрузите оба PDF-файла, используя класс Document.
  • Затем конвертируйте PDF-файлы в формат Word DOCX с помощью метода Document.save().
  • Создайте и установите желаемые CompareOptions и сравните документы с помощью метода Document.compare().
  • Наконец, сохраните файл PDF, содержащий различия, с помощью метода Document.save().

В следующем примере кода показано, как выполнить сравнение PDF в Python.

import aspose.words as aw
from datetime import date

# Загрузить PDF-файлы
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Преобразование PDF-файлов в формат Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Загрузить преобразованные документы Word 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Установить параметры сравнения
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 будет содержать изменения как редакции после сравнения
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Сохранить полученный файл в формате PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

На следующем снимке экрана показано сравнение двух файлов PDF.

Сравнение файлов PDF в Python

Библиотека сравнения Python PDF — получите бесплатную лицензию

Вы можете получить бесплатную временную лицензию для сравнения файлов PDF без ограничений оценки.

Вывод

В этой статье вы узнали, как сравнить два файла PDF в Python. Кроме того, вы видели, как динамически включать или отключать различные параметры сравнения для файлов PDF. Таким образом, вы можете легко создать приложение для проверки различий PDF на Python.

Изучите библиотеку сравнения PDF-файлов Aspose для Python

Вы можете изучить документацию библиотеки, которую мы использовали в этой статье, чтобы изучить другие полезные функции. В случае возникновения вопросов вы можете задать их нам через наш форум.

Смотрите также