在本文中,您將學習如何創建 PDF 差異檢查器工具並使用 Python 比較兩個 PDF 文件。
很多時候,您需要比較 PDF 文檔的兩個版本並檢查內容的差異。這可能需要識別文檔中有意或無意的修改。由於逐字逐句地檢查 PDF 文件是不可行的,因此可以使用各種 在線 PDF 比較工具 來找出兩個 PDF 文件之間的差異。但是,如果您想在 Python 應用程序中以編程方式比較 PDF 文件,本文將幫助您通過幾個簡單的步驟完成。
用於比較 PDF 文件的 Python 庫 - 免費下載
Aspose.Words for Python 是一個功能強大但易於使用的庫,用於創建和處理文本文檔,包括 DOC、DOCX 和 PDF。該庫允許您比較文檔並跟踪甚至在字符級別的更改。我們將使用這個庫來比較本文中的 PDF 文件。要從 PyPI 安裝庫,您可以使用以下 pip 命令。
> pip install aspose-words
在 Python 中比較 PDF 文件的步驟
Aspose.Words for Python 提供了強大的 PDF 比較機制,讓您輕鬆找到差異。以下是使用上述 Python 庫比較兩個 PDF 文件的步驟。
- 載入這兩個 PDF 文件。
- 將 PDF 文件轉換為 Word 格式。
- 比較兩個 Word 文檔以獲取更改。
- 將包含更改的文檔作為 PDF 保存到所需位置。
在下一節中,您將看到如何將上述步驟轉換為 Python 代碼並比較兩個 PDF 文件。
在 Python 中比較兩個 PDF 文件
以下是在 Python 中比較兩個 PDF 文件並檢查差異的步驟。
- 首先,使用 Document 類加載兩個 PDF 文件。
- 然後,使用 Document.save() 方法將 PDF 文件轉換為 Word DOCX 格式。
- 創建和設置所需的 CompareOptions 並使用 Document.compare() 方法比較文檔。
- 最後,使用 Document.save() 方法保存包含差異的 PDF 文件。
以下代碼示例顯示瞭如何在 Python 中執行 PDF 比較。
import aspose.words as aw
from datetime import date
# 加載 PDF 文件
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")
# 將 PDF 文件轉換為 Word 格式
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)
# 加載轉換後的 Word 文檔
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")
# 設置比較選項
options = aw.comparing.CompareOptions()
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True
# DOC1 將包含比較後的更改作為修訂
DOC1.compare(DOC2, "user", date.today(), options)
if (DOC1.revisions.count > 0):
# 將生成的文件另存為 PDF
DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
print("Documents are equal")
以下屏幕截圖顯示了兩個 PDF 文件的比較。
Python PDF 比較庫 - 獲得免費許可證
您可以 獲得免費的臨時許可證 來比較 PDF 文件而沒有評估限制。
結論
在本文中,您學習瞭如何在 Python 中比較兩個 PDF 文件。此外,您還了解瞭如何動態啟用或禁用 PDF 文件的不同比較選項。因此,您可以非常輕鬆地在 Python 中創建 PDF 差異檢查器應用程序。
探索 Aspose 的 Python PDF 比較庫
您可以瀏覽我們在本文中使用的庫的 文檔,以探索其他有用的功能。如有任何問題,您可以通過我們的論壇 向我們提問。