V tomto článku se dozvíte, jak vytvořit nástroj pro kontrolu rozdílů PDF a porovnat dva soubory PDF v Pythonu.
Velmi často potřebujete porovnat dvě verze dokumentu PDF a zkontrolovat rozdíl v obsahu. To může být vyžadováno pro identifikaci záměrných nebo neúmyslných úprav v dokumentu. Protože není možné kontrolovat soubory PDF slovo po slovu, jsou k dispozici různé online nástroje pro porovnání PDF, které vám umožní najít rozdíl mezi dvěma soubory PDF. Pokud však chcete porovnat soubory PDF programově z vaší aplikace Python, tento článek vám to pomůže udělat v několika snadných krocích.
- Knihovna Pythonu pro porovnání souborů PDF
- Kroky k porovnání dvou souborů PDF
- Porovnejte dva soubory PDF v Pythonu
Knihovna Python pro porovnání souborů PDF – bezplatné stažení
Aspose.Words pro Python je výkonná, ale snadno použitelná knihovna pro vytváření a zpracování textových dokumentů včetně DOC, DOCX a PDF. Knihovna umožňuje porovnávat dokumenty a sledovat změny i na úrovni postavy. Tuto knihovnu použijeme k porovnání souborů PDF v tomto článku. Chcete-li nainstalovat knihovnu z PyPI, můžete použít následující příkaz pip.
> pip install aspose-words
Kroky k porovnání souborů PDF v Pythonu
Aspose.Words pro Python poskytuje výkonný mechanismus porovnávání PDF a umožňuje snadno najít rozdíly. Níže jsou uvedeny kroky k porovnání dvou souborů PDF pomocí uvedené knihovny Python.
- Načtěte oba soubory PDF.
- Převeďte soubory PDF do formátu Word.
- Chcete-li získat změny, porovnejte oba dokumenty aplikace Word.
- Uložte dokument obsahující změny jako PDF na požadované místo.
V následující části uvidíte, jak převést výše uvedené kroky do kódu Pythonu a porovnat dva soubory PDF.
Porovnejte dva soubory PDF v Pythonu
Následují kroky, jak porovnat dva soubory PDF a zkontrolovat rozdíly v Pythonu.
- Nejprve načtěte oba soubory PDF pomocí třídy Document.
- Poté převeďte soubory PDF do formátu Word DOCX pomocí metody Document.save().
- Vytvořte a nastavte požadované možnosti CompareOptions a porovnejte dokumenty pomocí metody Document.compare().
- Nakonec uložte soubor PDF obsahující rozdíly pomocí metody Document.save().
Následující ukázka kódu ukazuje, jak provést porovnání PDF v Pythonu.
import aspose.words as aw
from datetime import date
# Načíst soubory PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")
# Převeďte soubory PDF do formátu Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)
# Načtěte převedené dokumenty aplikace Word
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")
# Nastavte možnosti srovnání
options = aw.comparing.CompareOptions()
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True
# DOC1 bude obsahovat změny jako revize po porovnání
DOC1.compare(DOC2, "user", date.today(), options)
if (DOC1.revisions.count > 0):
# Uložte výsledný soubor jako PDF
DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
print("Documents are equal")
Následující snímek obrazovky ukazuje srovnání dvou souborů PDF.
Python PDF Comparison Library – Získejte bezplatnou licenci
Můžete získat bezplatnou dočasnou licenci k porovnání souborů PDF bez omezení hodnocení.
Závěr
V tomto článku jste se naučili porovnat dva soubory PDF v Pythonu. Navíc jste viděli, jak dynamicky povolit nebo zakázat různé možnosti porovnání pro soubory PDF. Svou aplikaci pro kontrolu rozdílů PDF tak můžete vytvořit v Pythonu poměrně snadno.
Prozkoumejte Aspose’ PDF Comparison Library pro Python
Můžete prozkoumat dokumentaci knihovny, kterou jsme použili v tomto článku, abyste prozkoumali další užitečné funkce. V případě jakýchkoliv dotazů se nás můžete zeptat na našem fóru.