この記事では、PDF 差分チェッカー ツールを作成し、Python で 2 つの PDF ファイルを比較する方法を学習します。
多くの場合、PDF ドキュメントの 2 つのバージョンを比較して、コンテンツの違いを確認する必要があります。これは、ドキュメント内の意図的または意図的でない変更を識別するために必要になる場合があります。 PDF ファイルを単語ごとに確認することは現実的ではないため、さまざまな オンライン PDF 比較ツール を使用して、2 つの PDF ファイルの違いを見つけることができます。ただし、Python アプリケーション内からプログラムで PDF ファイルを比較したい場合は、この記事を参照すると、いくつかの簡単な手順でそれを行うことができます。
PDF ファイルを比較するための Python ライブラリ - 無料ダウンロード
Aspose.Words for Python は、DOC、DOCX、PDF などのテキスト ドキュメントを作成および処理するための強力で使いやすいライブラリです。ライブラリを使用すると、ドキュメントを比較して、文字レベルでも変更を追跡できます。この記事では、このライブラリを使用して PDF ファイルを比較します。 PyPI からライブラリをインストールするには、次の pip コマンドを使用できます。
> pip install aspose-words
Python で PDF ファイルを比較する手順
Aspose.Words for Python は、強力な PDF 比較メカニズムを提供し、違いを簡単に見つけることができます。上記の Python ライブラリを使用して 2 つの PDF ファイルを比較する手順は次のとおりです。
- 両方の PDF ファイルを読み込みます。
- PDF ファイルを Word 形式に変換します。
- 両方の Word ドキュメントを比較して変更を取得します。
- 変更を含むドキュメントを PDF として目的の場所に保存します。
次のセクションでは、上記の手順を Python コードに変換し、2 つの PDF ファイルを比較する方法を説明します。
Python で 2 つの PDF ファイルを比較する
2 つの PDF ファイルを比較し、Python で違いを確認する手順は次のとおりです。
- まず、Document クラスを使用して両方の PDF ファイルを読み込みます。
- 次に、Document.save() メソッドを使用して PDF ファイルを Word DOCX 形式に変換します。
- 必要な CompareOptions を作成および設定し、Document.compare() メソッドを使用してドキュメントを比較します。
- 最後に、 Document.save() メソッドを使用して、差分を含む PDF ファイルを保存します。
次のコード サンプルは、Python で PDF 比較を実行する方法を示しています。
import aspose.words as aw
from datetime import date
# PDFファイルを読み込む
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")
# PDF ファイルを Word 形式に変換する
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)
# 変換された Word ドキュメントを読み込む
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")
# 比較オプションの設定
options = aw.comparing.CompareOptions()
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True
# DOC1 には比較後のリビジョンとして変更が含まれます
DOC1.compare(DOC2, "user", date.today(), options)
if (DOC1.revisions.count > 0):
# 結果ファイルを PDF として保存
DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
print("Documents are equal")
次のスクリーンショットは、2 つの PDF ファイルの比較を示しています。
Python PDF 比較ライブラリ - 無料ライセンスを取得
無料の一時ライセンスを取得して、評価制限なしで PDF ファイルを比較できます。
結論
この記事では、Python で 2 つの PDF ファイルを比較する方法を学びました。さらに、PDF ファイルのさまざまな比較オプションを動的に有効または無効にする方法を見てきました。したがって、Python で PDF 差分チェッカー アプリケーションを非常に簡単に作成できます。
Aspose の Python 用 PDF 比較ライブラリを調べる
この記事で使用したライブラリの ドキュメント を調べて、他の便利な機能を調べることができます。ご不明な点がございましたら、フォーラム からお問い合わせください。