V tomto článku se dozvíte, jak vytvořit nástroj pro kontrolu rozdílů PDF a porovnat dva soubory PDF v Pythonu.

Porovnejte soubory PDF v Pythonu

Velmi často potřebujete porovnat dvě verze dokumentu PDF a zkontrolovat rozdíl v obsahu. To může být vyžadováno pro identifikaci záměrných nebo neúmyslných úprav v dokumentu. Protože není možné kontrolovat soubory PDF slovo po slovu, jsou k dispozici různé online nástroje pro porovnání PDF, které vám umožní najít rozdíl mezi dvěma soubory PDF. Pokud však chcete porovnat soubory PDF programově z vaší aplikace Python, tento článek vám to pomůže udělat v několika snadných krocích.

Knihovna Python pro porovnání souborů PDF – bezplatné stažení

Aspose.Words pro Python je výkonná, ale snadno použitelná knihovna pro vytváření a zpracování textových dokumentů včetně DOC, DOCX a PDF. Knihovna umožňuje porovnávat dokumenty a sledovat změny i na úrovni postavy. Tuto knihovnu použijeme k porovnání souborů PDF v tomto článku. Chcete-li nainstalovat knihovnu z PyPI, můžete použít následující příkaz pip.

> pip install aspose-words

Kroky k porovnání souborů PDF v Pythonu

Aspose.Words pro Python poskytuje výkonný mechanismus porovnávání PDF a umožňuje snadno najít rozdíly. Níže jsou uvedeny kroky k porovnání dvou souborů PDF pomocí uvedené knihovny Python.

  • Načtěte oba soubory PDF.
  • Převeďte soubory PDF do formátu Word.
  • Chcete-li získat změny, porovnejte oba dokumenty aplikace Word.
  • Uložte dokument obsahující změny jako PDF na požadované místo.

V následující části uvidíte, jak převést výše uvedené kroky do kódu Pythonu a porovnat dva soubory PDF.

Porovnejte dva soubory PDF v Pythonu

Následují kroky, jak porovnat dva soubory PDF a zkontrolovat rozdíly v Pythonu.

  • Nejprve načtěte oba soubory PDF pomocí třídy Document.
  • Poté převeďte soubory PDF do formátu Word DOCX pomocí metody Document.save().
  • Vytvořte a nastavte požadované možnosti CompareOptions a porovnejte dokumenty pomocí metody Document.compare().
  • Nakonec uložte soubor PDF obsahující rozdíly pomocí metody Document.save().

Následující ukázka kódu ukazuje, jak provést porovnání PDF v Pythonu.

import aspose.words as aw
from datetime import date

# Načíst soubory PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Převeďte soubory PDF do formátu Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Načtěte převedené dokumenty aplikace Word 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Nastavte možnosti srovnání
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 bude obsahovat změny jako revize po porovnání
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Uložte výsledný soubor jako PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

Následující snímek obrazovky ukazuje srovnání dvou souborů PDF.

Porovnání souborů PDF v Pythonu

Python PDF Comparison Library – Získejte bezplatnou licenci

Můžete získat bezplatnou dočasnou licenci k porovnání souborů PDF bez omezení hodnocení.

Závěr

V tomto článku jste se naučili porovnat dva soubory PDF v Pythonu. Navíc jste viděli, jak dynamicky povolit nebo zakázat různé možnosti porovnání pro soubory PDF. Svou aplikaci pro kontrolu rozdílů PDF tak můžete vytvořit v Pythonu poměrně snadno.

Prozkoumejte Aspose’ PDF Comparison Library pro Python

Můžete prozkoumat dokumentaci knihovny, kterou jsme použili v tomto článku, abyste prozkoumali další užitečné funkce. V případě jakýchkoliv dotazů se nás můžete zeptat na našem fóru.

Viz také