Trong bài viết này, bạn sẽ học cách tạo công cụ kiểm tra sự khác biệt PDF và so sánh hai tệp PDF bằng Python.

So sánh các tệp PDF trong Python

Thông thường, bạn cần so sánh hai phiên bản của tài liệu PDF và kiểm tra sự khác biệt về nội dung. Điều này có thể được yêu cầu để xác định các sửa đổi cố ý hoặc vô ý trong một tài liệu. Vì không khả thi để kiểm tra từng tệp PDF, nên nhiều công cụ so sánh PDF trực tuyến có sẵn cho phép bạn tìm ra sự khác biệt giữa hai tệp PDF. Tuy nhiên, nếu bạn muốn so sánh các tệp PDF theo chương trình từ bên trong ứng dụng Python của mình, bài viết này sẽ giúp bạn thực hiện điều đó trong một vài bước đơn giản.

Thư viện Python để so sánh các tệp PDF - Tải xuống miễn phí {#Python-Library-for-Comp Compare-PDF}

Aspose.Words for Python là một thư viện mạnh mẽ nhưng dễ sử dụng để tạo và xử lý các tài liệu văn bản bao gồm DOC, DOCX và PDF. Thư viện cho phép bạn so sánh các tài liệu và theo dõi các thay đổi ngay cả ở cấp độ ký tự. Chúng tôi sẽ sử dụng thư viện này để so sánh các tệp PDF trong bài viết này. Để cài đặt thư viện từ PyPI, bạn có thể sử dụng lệnh pip sau.

> pip install aspose-words

Các bước để so sánh các tệp PDF trong Python

Aspose. AdWords for Python cung cấp một cơ chế so sánh PDF mạnh mẽ và cho phép bạn dễ dàng tìm thấy sự khác biệt. Sau đây là các bước để so sánh hai tệp PDF bằng cách sử dụng thư viện Python.

  • Tải cả hai tệp PDF.
  • Chuyển đổi các tệp PDF sang định dạng Word.
  • So sánh cả hai tài liệu Word để nhận các thay đổi.
  • Lưu tài liệu có chứa các thay đổi dưới dạng PDF vào vị trí mong muốn.

Trong phần sau, bạn sẽ thấy cách chuyển các bước nêu trên thành mã Python và so sánh hai tệp PDF.

So sánh hai tệp PDF bằng Python

Sau đây là các bước để so sánh hai tệp PDF và kiểm tra sự khác biệt trong Python.

  • Đầu tiên, tải cả hai tệp PDF bằng lớp Tài liệu.
  • Sau đó, chuyển đổi tệp PDF sang định dạng Word DOCX bằng phương thức Document.save().
  • Tạo và đặt các CompareOptions mong muốn và so sánh các tài liệu bằng cách sử dụng phương thức Document.compare().
  • Cuối cùng, lưu tệp PDF chứa các điểm khác biệt bằng phương thức Document.save().

Mẫu mã sau đây cho thấy cách thực hiện so sánh PDF trong Python.

import aspose.words as aw
from datetime import date

# Tải tệp PDF
PDF1 = aw.Document("first.pdf")
PDF2 = aw.Document("second.pdf")

# Chuyển đổi tệp PDF sang định dạng Word
PDF1.save("first.docx", aw.SaveFormat.DOCX)
PDF2.save("second.docx", aw.SaveFormat.DOCX)

# Tải tài liệu Word đã chuyển đổi 
DOC1 = aw.Document("first.docx")
DOC2 = aw.Document("second.docx")

# Đặt các tùy chọn so sánh
options = aw.comparing.CompareOptions()            
options.ignore_formatting = True
options.ignore_headers_and_footers = True
options.ignore_case_changes = True
options.ignore_tables = True
options.ignore_fields = True
options.ignore_comments = True
options.ignore_textboxes = True
options.ignore_footnotes = True

# DOC1 sẽ có những thay đổi dưới dạng sửa đổi sau khi so sánh
DOC1.compare(DOC2, "user", date.today(), options)

if (DOC1.revisions.count > 0):
    # Lưu tệp kết quả dưới dạng PDF
    DOC1.save("compared.pdf", aw.SaveFormat.PDF)
else:
    print("Documents are equal")

Ảnh chụp màn hình sau đây cho thấy sự so sánh của hai tệp PDF.

So sánh các tệp PDF trong Python

Thư viện so sánh Python PDF - Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để so sánh các tệp PDF mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, bạn đã học cách so sánh hai tệp PDF trong Python. Hơn nữa, bạn đã thấy cách bật hoặc tắt các tùy chọn so sánh động khác nhau cho các tệp PDF. Do đó, bạn có thể tạo ứng dụng kiểm tra sự khác biệt PDF của mình bằng Python khá dễ dàng.

Khám phá Thư viện so sánh PDF của Aspose cho Python

Bạn có thể khám phá tài liệu của thư viện mà chúng tôi đã sử dụng trong bài viết này để khám phá các tính năng hữu ích khác. Trong trường hợp có bất kỳ câu hỏi nào, bạn có thể hỏi chúng tôi qua diễn đàn của chúng tôi.

Xem thêm