W tym artykule dowiesz się, jak stworzyć narzędzie do sprawdzania różnic PDF i porównać dwa pliki PDF w Python.

Porównaj pliki PDF w Python

Bardzo często trzeba porównać dwie wersje dokumentu PDF i sprawdzić różnicę w treści. Może to być wymagane do zidentyfikowania zamierzonych lub niezamierzonych modyfikacji w dokumencie. Ponieważ nie jest możliwe sprawdzenie plików PDF słowo po słowie, dostępne są różne narzędzia do porównywania plików PDF online, które pozwalają znaleźć różnicę między dwoma plikami PDF. Jeśli jednak chcesz programowo porównywać pliki PDF z poziomu aplikacji Python, ten artykuł pomoże Ci to zrobić w kilku prostych krokach.

Biblioteka Python do porównywania plików PDF — bezpłatne pobieranie

Aspose.Words for Python to potężna, ale łatwa w użyciu biblioteka do tworzenia i przetwarzania dokumentów tekstowych, w tym DOC, DOCX i PDF. Biblioteka pozwala porównywać dokumenty i śledzić zmiany nawet na poziomie postaci. Zamierzamy użyć tej biblioteki do porównania plików PDF w tym artykule. Aby zainstalować bibliotekę z PyPI, możesz użyć następującego polecenia pip.

> pip install aspose-words

Kroki, aby porównać pliki PDF w Python

Aspose.Words for Python zapewnia potężny mechanizm porównywania plików PDF i pozwala z łatwością znaleźć różnice. Poniżej przedstawiono kroki, aby porównać dwa pliki PDF przy użyciu wspomnianej biblioteki Python.

  • Załaduj oba pliki PDF.
  • Konwertuj pliki PDF do formatu Word.
  • Porównaj oba dokumenty programu Word, aby uzyskać zmiany.
  • Zapisz dokument zawierający zmiany jako plik PDF w wybranej lokalizacji.

W poniższej sekcji zobaczysz, jak przekształcić powyższe kroki w kod Python i porównać dwa pliki PDF.

Porównaj dwa pliki PDF w Python

Poniżej przedstawiono kroki, aby porównać dwa pliki PDF i sprawdzić różnice w Python.

  • Najpierw załaduj oba pliki PDF za pomocą klasy Document.
  • Następnie przekonwertuj pliki PDF do formatu Word DOCX za pomocą metody Document.save().
  • Twórz i ustawiaj żądane CompareOptions i porównuj dokumenty za pomocą metody Document.compare().
  • Na koniec zapisz plik PDF zawierający różnice za pomocą metody Document.save().

Poniższy przykładowy kod pokazuje, jak przeprowadzić porównanie plików PDF w języku Python.

import aspose.words as aw
from datetime import date

# Załaduj pliki PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Konwertuj pliki PDF do formatu Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Załaduj przekonwertowane dokumenty programu Word 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Ustaw opcje porównania
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 będzie zawierał zmiany jako wersje po porównaniu
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Zapisz wynikowy plik jako PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

Poniższy zrzut ekranu pokazuje porównanie dwóch plików PDF.

Porównanie plików PDF w Python

Biblioteka porównawcza Python PDF — uzyskaj bezpłatną licencję

Możesz uzyskać bezpłatną tymczasową licencję, aby porównywać pliki PDF bez ograniczeń ewaluacyjnych.

Wniosek

W tym artykule nauczyłeś się porównywać dwa pliki PDF w Python. Co więcej, widziałeś, jak dynamicznie włączać lub wyłączać różne opcje porównywania plików PDF. W ten sposób możesz dość łatwo stworzyć aplikację do sprawdzania różnic PDF w Python.

Przeglądaj bibliotekę porównawczą PDF Aspose dla Python

Możesz zapoznać się z dokumentacją biblioteki, której użyliśmy w tym artykule, aby poznać inne przydatne funkcje. W przypadku jakichkolwiek pytań możesz je zadać za pośrednictwem naszego forum.

Zobacz też