Python で Word、PDF、PPT ドキュメントを比較する

文書の比較は、法的レビューから技術的な編集に至るまで、さまざまな業界で不可欠なタスクです。正確性を確保し、異なるバージョンのドキュメントにわたる変更を特定することは、時間のかかる頭痛の種となる可能性があります。 Word ドキュメントの異なるバージョンを比較する場合でも、PDF ファイル内の変更を分析する場合でも、PowerPoint プレゼンテーション内の矛盾を特定する場合でも、ドキュメントの比較は開発プロセスの重要な側面です。このブログ記事では、Word (DOC または DOCX)、PDF、および PowerPoint (PPT または PPTX) を比較する方法を説明します Python でドキュメントを作成します。

Python ドキュメント比較 API

Aspose は、開発者が Microsoft Office などの外部ソフトウェアに依存せずにさまざまなファイル形式を処理できるドキュメント処理 API の作成を専門としています。 API を使用すると、開発者はさまざまな種類のファイルを作成、編集、変換、レンダリングできます。これには、Word、Excel、PowerPoint, PDF などの一般的なドキュメント形式が含まれますが、画像、アーカイブ (ZIP)、および一部の CAD 形式も含まれます。これらの API が提供する主要な機能の 1 つはドキュメントの比較であり、2 つのドキュメント間の相違点を迅速に特定するのに役立ちます。

Python アプリケーションで Word、PDF、PowerPoint ドキュメントを比較する方法を見てみましょう。

Python で PDF ドキュメントを比較する

Python PDF 比較 API

ファイル形式が複雑なため、PDF ドキュメントの比較は困難な場合があります。ただし、Aspose.Words for Python は、開発者が PDF ドキュメントを効果的に比較できるようにする堅牢なドキュメント処理 API です。これにより、プログラムによるドキュメントの操作方法が簡素化されます。それでは、Python で 2 つの PDF ファイルを比較する手順を見てみましょう。

  1. Aspose.Words for Python via .NET をインストールします。
  2. Document クラスを使用して両方の PDF ファイルを読み込みます。
  3. PDF ファイルを編集可能な Word 形式に変換します。
  4. 必要に応じて、CompareOptions クラスを使用して、必要な比較オプションを指定します。
  5. 変換されたファイルをロードし、Document.compare() メソッドを使用して比較します。
  6. 最後に、Document.save() メソッドを使用して、比較結果を含む PDF を保存します。

次のコード サンプルは、Python で PDF ドキュメントを比較する方法を示しています。

# このコード例は、Python で 2 つの PDF ファイルを比較する方法を示しています。
import aspose.words as aw
from datetime import date

# PDF ファイルをロードする
PDF1 = aw.Document("Document.pdf")
PDF2 = aw.Document("Document2.pdf")

# PDF ファイルを Word 形式に変換する
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# 変換された Word 文書をロードする 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# 比較オプションを設定する
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 には、比較後のリビジョンとして変更が含まれます
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # 結果のファイルを PDF として保存
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

以下のリソースを使用して、Python ドキュメント処理 API を開始してください。

Python で Word ドキュメントを比較する

Python 単語比較 API

Word ドキュメントを比較するには、上記で使用したのと同じドキュメント処理 API Aspose.Words for Python を使用します。 Python で 2 つの Word 文書を比較する手順を見てみましょう。

  1. Aspose.Words for Python via .NET をインストールします。
  2. Document クラスを使用して両方の Word ドキュメントを読み込みます。
  3. Document.compare() メソッドを呼び出してドキュメントを比較します。
  4. 最後に、Document.save() メソッドを使用して、比較結果を含むドキュメントを保存します。

次のコード サンプルは、Python で 2 つの Word ドキュメントを比較する方法を示しています。

# このコード例は、Python で 2 つの Word ファイルを比較する方法を示します。
import aspose.words as aw
from datetime import date

# 最初のドキュメントをロードする
doc = aw.Document("Document.docx")

# 2 番目のドキュメントをロードする
doc2 = aw.Document("Document2.docx")

# 文書を比較する
doc.compare(doc2, "user", date.today())

# ドキュメントを保存してリビジョンを取得します
if (doc.revisions.count > 0):
    doc.save("Compared_Document.docx")
else:
    print("Documents are equal")

Python で PPT スライドを比較する

Python PowerPoint 比較 API

PowerPoint プレゼンテーションのスライドを比較するには、Aspose.Slides for Python API を使用します。これは、Python でプレゼンテーションを操作できるようにする強力なライブラリです。以下は、2 つの PowerPoint プレゼンテーションのスライドを比較する手順です。

  1. Aspose.Slides for Python via .NET をインストールします。
  2. Presentation クラスを使用して、ソースおよびターゲットの PPT ファイルを読み込みます。
  3. ソース PPT ファイルのスライドをループします。
  4. 次に、ターゲット PPT ファイル内のスライド用にネストされたループを作成します。
  5. スライドが等しいかどうかを確認します。

次のコード サンプルは、Python で 2 つの PowerPoint PPT ファイルのスライドを比較する方法を示しています。

# このコード例は、Python で 2 つの PowerPoint プレゼンテーション スライドを比較する方法を示します。
import aspose.slides as slides

with slides.Presentation("AccessSlides.pptx") as p1:
    with slides.Presentation("HelloWorld.pptx") as p2:
       for i in range(len(p1.masters)):
           for j in range(len(p2.masters)):
                if p1.masters[i] == p2.masters[j]:
                    print("Presentation1 MasterSlide#{0} is equal to Presentation2 MasterSlide#{1}".format(i,j))
                else:
                    print("Presentation1 MasterSlide#{0} is not equal to Presentation2 MasterSlide#{1}".format(i,j))

Python PowerPoint 処理 API の詳細を学び、以下のリソースを使用して API の他のさまざまな機能を調べてください。

まとめ

結論として、Aspose は、Word、PDF、および PPT ドキュメントを効率的に比較するために使用できる、強力なドキュメント処理 API を幅広く提供します。これらのライブラリの機能を活用することで、ソフトウェア開発者はドキュメントの比較プロセスを合理化し、作業の正確さと一貫性を確保できます。この記事では、Python を使用して Word、PDF、および PPT 形式のドキュメントを比較する完全なプロセスを説明しました。提供されたガイドラインに従って、ドキュメントの比較を Python アプリケーションに簡単に統合できます。不明な点がある場合は、無料サポート フォーラムまでお気軽にお問い合わせください。