Python tìm và thay thế văn bản trong PDF

Nếu bạn đang tìm kiếm một cách đơn giản nhưng chính xác để tìm và thay thế văn bản trong tệp PDF, bạn đã đến đúng nơi. Trong bài viết này, bạn sẽ tìm hiểu cách thay thế một văn bản cụ thể trong PDF bằng Python. Bằng cách viết một vài dòng mã, bạn có thể phân tích toàn bộ tệp PDF để tìm kiếm và thay thế các từ/cụm từ mong muốn.

Thư viện Python để tìm và thay thế văn bản trong PDF

Để tìm và thay thế văn bản trong tệp PDF, chúng tôi sẽ sử dụng Aspose.PDF for Python. Đây là một thư viện Python mạnh mẽ để tạo và xử lý các tệp PDF một cách dễ dàng. Thư viện cũng cho phép bạn tìm và thay thế văn bản trong tệp PDF với độ chính xác và tốc độ cao.

Để cài đặt thư viện, bạn có thể sử dụng lệnh pip sau.

> pip install aspose-pdf

Tìm và thay thế văn bản trong PDF bằng Python

Các bước sau giải thích cách tìm và thay thế văn bản trong tài liệu PDF bằng Python với sự trợ giúp của Aspose.PDF.

  1. Tải PDF từ đường dẫn của nó bằng lớp Tài liệu.
  2. Tạo một thể hiện của lớp TextFragmentAbsorber và cung cấp cụm từ tìm kiếm cho hàm tạo của nó.
  3. Chấp nhận bộ hấp thụ văn bản cho tất cả các trang của PDF bằng cách sử dụng doc.pages.accept(bộ hấp thụ văn bản).
  4. Lấy các đoạn văn bản được trích xuất thành một đối tượng.
  5. Lặp lại các đoạn văn bản được tìm thấy và thay thế văn bản trong từng đoạn.
  6. Cuối cùng, lưu tài liệu PDF đã cập nhật bằng phương thức Document.save().

Mẫu mã sau đây cho biết cách tìm và thay thế văn bản trong PDF bằng Python.

# Tải tài liệu PDF
document = ap.Document("input.pdf")

# Khởi tạo một đối tượng TextFragmentAbsorber
txtAbsorber = ap.text.TextFragmentAbsorber("text-to-replace")

# văn bản tìm kiếm
document.pages.accept(txtAbsorber)

# Nhận tham chiếu đến các đoạn văn bản được tìm thấy
textFragmentCollection = txtAbsorber.text_fragments

# Phân tích cú pháp tất cả các đoạn văn bản đã tìm kiếm và thay thế văn bản
for txtFragment in textFragmentCollection:
    txtFragment.text = "replaced-text"

# Lưu tệp PDF đã cập nhật
document.save("output.pdf")

Công cụ trực tuyến để thay thế văn bản trong PDF

Chúng tôi cũng đã phát triển công cụ trực tuyến để thay thế văn bản trong tệp PDF, dựa trên Aspose.PDF dành cho Python. Bạn có thể sử dụng công cụ này mọi lúc mọi nơi chỉ cần có kết nối internet.

Thư viện Python miễn phí để thay thế văn bản trong PDF

Bạn có thể lấy giấy phép tạm thời miễn phí và thay thế văn bản trong tệp PDF mà không có bất kỳ giới hạn nào.

Ngoài ra, bạn có thể khám phá các tính năng khác của thư viện Python PDF bằng cách sử dụng tài liệu. Ngoài ra, hãy viết thư cho chúng tôi trên diễn đàn của chúng tôi về các vấn đề, đề xuất hoặc phản hồi của bạn.

Phần kết luận

Trong bài viết này, bạn đã học cách phân tích cú pháp PDF cũng như tìm và thay thế một văn bản cụ thể bằng Python. Trong một vài dòng mã, bạn có thể tìm kiếm và thay thế văn bản trong một loạt tệp PDF. Ngoài ra, chúng tôi đã cung cấp cho bạn một công cụ trực tuyến miễn phí để thay thế văn bản trong tệp PDF. Bạn có thể sử dụng công cụ này từ bất kỳ thiết bị nào có kết nối internet.

Xem thêm