Tách một tệp PDF thành nhiều tệp bằng Python

Trong thời đại kỹ thuật số ngày nay, các tệp PDF đã trở thành một phần thiết yếu trong cuộc sống của chúng ta. Tuy nhiên, đôi khi chúng tôi có thể cần chia một tệp PDF lớn thành các tệp nhỏ hơn vì nhiều lý do, chẳng hạn như gửi các trang cụ thể cho ai đó hoặc tải chúng lên một trang web. Tình huống tương tự có thể xảy ra khi xử lý tệp PDF bằng Python. Vì vậy, trong bài viết này, chúng ta sẽ xem cách chia nhỏ tệp PDF bằng Python. Chúng tôi sẽ đề cập đến cách chia tệp PDF theo từng trang hoặc tập hợp các trang.

Thư viện Python để tách PDF

Để chia nhỏ các tệp PDF, chúng tôi sẽ sử dụng Aspose.PDF for Python. Đây là một thư viện thao tác PDF giàu tính năng cho phép bạn tạo, chỉnh sửa và xử lý các tài liệu PDF một cách liền mạch. Sử dụng lệnh pip sau để cài đặt thư viện trong ứng dụng Python của bạn.

pip install aspose-pdf

Tách một tệp PDF theo trang bằng Python

Bạn có thể cần các tiêu chí tách PDF khác nhau trong từng trường hợp, ví dụ: tách từng trang trong PDF, chỉ các trang chọn lọc, chỉ các trang chẵn, v.v. Trước tiên, chúng ta hãy xem cách chia tệp PDF theo từng trang trong Python. Dưới đây là các bước để thực hiện thao tác này.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Lặp lại các trang trong bộ sưu tập Document.pages.
  • Trong mỗi lần lặp lại, hãy thực hiện các bước sau:
    • Tạo một đối tượng Tài liệu mới và thêm trang vào tài liệu bằng phương thức Document.pages.add(Page).
    • Lưu tệp PDF bằng phương thức Document.save().

Mẫu mã sau đây cho biết cách tách từng trang trong tệp PDF bằng Python.

import aspose.pdf as ap

# Tải tệp PDF
document = ap.Document("input.pdf")

# Lặp qua từng trang
for page in document.pages:
    # Tạo một tệp PDF mới
    splitPDF = ap.Document()

    # Thêm trang vào PDF
    splitPDF.pages.add(page)

    # Lưu tệp PDF
    splitPDF.save("Page_" + str(page.number) + ".pdf")

Tách các trang cụ thể của PDF bằng Python

Bây giờ chúng ta hãy xem cách chia nhiều trang trong một tệp PDF và lưu chúng vào một tệp riêng biệt. Sau đây là các bước để chia nhiều trang PDF bằng Python.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Tạo một đối tượng Tài liệu mới cho tệp PDF mới.
  • Lặp lại các trang trong bộ sưu tập Document.pages.
  • Trong mỗi lần lặp lại, hãy kiểm tra xem có nên chia trang không.
  • Thêm trang vào tài liệu PDF mới bằng phương pháp Document.pages.add(Page).
  • Cuối cùng, lưu tệp PDF bằng phương thức Document.save().

Mẫu mã sau đây cho biết cách phân chia tập hợp các trang trong PDF bằng Python.

import aspose.pdf as ap

# Tải tệp PDF
document = ap.Document("input.pdf")

# Tạo một tệp PDF mới
splitPDF = ap.Document()

# Lặp qua từng trang
for page in document.pages:
    # Một số điều kiện ở đây
    if page.number%2==0:
        # Thêm trang
        splitPDF.pages.add(page)

# Lưu tệp PDF
splitPDF.save("Split_PDF.pdf")

Tách tệp PDF trực tuyến

Chúng tôi cũng cung cấp công cụ trực tuyến miễn phí để chia nhỏ tệp PDF, dựa trên Aspose.PDF dành cho Python.

Thư viện Python PDF miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để chia nhỏ tệp PDF mà không có bất kỳ giới hạn nào. Ngoài ra, bạn có thể truy cập tài liệu để khám phá thêm về thư viện Python PDF.

Phần kết luận

Trong bài viết này, bạn đã học cách chia nhỏ các tệp PDF bằng Python. Bạn đã biết cách tách từng trang hoặc tập hợp các trang trong PDF thành các tệp riêng biệt. Bạn có thể dễ dàng làm theo các bước và mẫu mã được cung cấp để chia nhỏ tệp PDF trong ứng dụng Python của mình.

Xem thêm