Trích xuất văn bản từ PDF bằng Python

Trong khi xử lý tệp PDF, bạn thường cần trích xuất nội dung từ các trang dưới dạng văn bản thuần túy. Văn bản thuần túy này còn có thể được sử dụng cho nhiều mục đích khác nhau, chẳng hạn như phân tích văn bản, xử lý văn bản, v.v. Trong bài viết này, bạn sẽ tìm hiểu cách trích xuất văn bản từ PDF bằng Python. Với sự trợ giúp của các mẫu mã, bài viết sẽ trình bày cách thực hiện trích xuất văn bản trên toàn bộ tệp PDF hoặc một trang.

Thư viện Python để trích xuất văn bản từ PDF

Để trích xuất văn bản từ tệp PDF, chúng tôi sẽ sử dụng Aspose.PDF for Python. Nó là một thư viện thao tác PDF mạnh mẽ cho phép bạn tạo và xử lý các tệp PDF. Ngoài ra, nó cho phép bạn chuyển đổi các tệp PDF sang các định dạng khác.

Bạn có thể cài đặt Aspose.PDF for Python bằng lệnh pip sau.

pip install aspose-pdf

Trích xuất văn bản từ PDF bằng Python

Sau đây là các bước để trích xuất văn bản từ PDF bằng Python.

  • Sử dụng lớp Tài liệu để tải tệp PDF.
  • Tạo một thể hiện của lớp TextDevice.
  • Bắt đầu một vòng lặp cho số lần trang.
  • Trong mỗi lần lặp lại, hãy trích xuất văn bản từ một trang bằng phương thức TextDevice. process() và lưu văn bản đã trích xuất trong tệp .txt.

Mẫu mã sau đây cho biết cách trích xuất văn bản từ PDF bằng Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Mở tài liệu PDF
document = ap.Document("input.pdf")

# Tạo thiết bị văn bản
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Xuất trang sang TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Trích xuất văn bản từ một trang cụ thể trong PDF

Bạn cũng có thể trích xuất văn bản từ một trang cụ thể của PDF bằng cách sử dụng số trang trong mảng Document.pages. Mẫu mã sau đây cho biết cách trích xuất văn bản từ một trang cụ thể trong PDF.

import aspose.pdf as ap

# Mở tài liệu PDF
document = ap.Document("input.pdf")

# Tạo thiết bị văn bản
textDevice = ap.devices.TextDevice()

# Trích xuất văn bản từ trang đầu tiên
textDevice.process(document.pages[1], "extracted_text.txt")

Trích xuất văn bản từ PDF trực tuyến

Bạn cũng có thể sử dụng công cụ trích xuất văn bản PDF trực tuyến của chúng tôi để trích xuất văn bản từ tệp PDF. Đây là một công cụ miễn phí mà bạn có thể sử dụng mà không cần đăng ký hoặc đăng ký.

Thư viện trích xuất văn bản PDF miễn phí

Nhận giấy phép tạm thời miễn phí của bạn và trích xuất văn bản từ tệp PDF mà không có bất kỳ giới hạn nào.

Khám phá thư viện Python PDF

Bạn có thể khám phá thêm về thư viện Python PDF bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể đăng truy vấn của mình lên diễn đàn của chúng tôi.

Phần kết luận

Trong bài viết này, bạn đã học cách trích xuất văn bản từ PDF bằng Python. Các bước và mẫu mã đã minh họa cách trích xuất văn bản từ toàn bộ tệp PDF hoặc một trang cụ thể. Bạn có thể dễ dàng cài đặt thư viện và thực hiện trích xuất văn bản từ bên trong các ứng dụng Python của mình.

Xem thêm