Trích xuất văn bản từ PDF bằng Python

Là một lập trình viên, bạn có thể cần phải xử lý một loạt các tệp PDF và trích xuất văn bản từ chúng. Trích xuất văn bản từ PDF có thể được yêu cầu cho các mục đích khác nhau như phân tích văn bản. Trong bài viết này, chúng tôi sẽ chứng minh việc trích xuất văn bản từ tệp PDF bằng Python dễ dàng như thế nào. Hơn nữa, bạn sẽ biết cách trích xuất văn bản và lưu vào tệp TXT.

Thư viện Python để trích xuất văn bản từ PDF - Tải xuống miễn phí

Aspose.Words dành cho Python là một thư viện tuyệt vời cho phép bạn tạo và xử lý các tài liệu văn bản một cách liền mạch. Bạn có thể thao tác với các tài liệu có định dạng phổ biến như DOC, DOCX và PDF. Chúng tôi sẽ sử dụng thư viện này để thực hiện trích xuất văn bản trên các tệp PDF của chúng tôi. Bạn có thể cài đặt thư viện từ PyPI bằng lệnh pip sau.

> pip install aspose-words

Cách trích xuất văn bản từ PDF bằng Python

Aspose.Words for Python đã giúp việc trích xuất văn bản PDF trở nên cực kỳ dễ dàng bằng cách ẩn các thao tác phức tạp khỏi người dùng. Bạn chỉ cần tải tệp PDF và lưu văn bản đã trích xuất. Các bước sau đây trình bày cách trích xuất văn bản từ một tệp PDF bằng cách sử dụng Aspose. AdWords dành cho Python.

  • Tải tệp PDF từ vị trí mong muốn.
  • Giải nén và lưu văn bản thành tệp .txt.

Và đó là nó. Sau đó, bạn có thể xử lý tệp .txt và thao tác với văn bản thuần túy được trích xuất từ PDF.

Bây giờ chúng ta hãy xem cách trích xuất văn bản từ PDF theo chương trình bằng Python.

Trích xuất văn bản từ PDF bằng Python

Sau đây là các bước cùng với các lớp và phương pháp trích xuất văn bản PDF bằng Python.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Trích xuất văn bản từ PDF thành tệp .txt bằng phương pháp Document.save (fileName).

Mẫu mã sau đây hiển thị trích xuất văn bản từ tệp PDF bằng Python.

# Nhập mô-đun Aspose. AdWords cho Python
import aspose.words as aw

# Tải tệp PDF
pdf = aw.Document("file.pdf")

# Trích xuất và lưu văn bản trong tệp TXT
pdf.save("extracted-text.txt")

Ảnh chụp màn hình sau đây cho thấy tệp PDF đầu vào mà chúng tôi đã sử dụng để trích xuất văn bản.

PDF để trích xuất văn bản bằng Python

Ảnh chụp màn hình sau đây hiển thị văn bản được trích xuất trong tệp TXT.

Văn bản được trích xuất từ PDF sang TXT

PDF Text Extractor cho Python - Nhận Giấy phép Miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để trích xuất văn bản từ PDF mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, bạn đã học cách trích xuất văn bản từ tệp PDF bằng Python. Bạn đã thấy cách dễ dàng và nhanh chóng bạn có thể trích xuất văn bản từ một tệp PDF và lưu nó trong một tệp TXT theo lập trình. Giờ đây, bạn có thể triển khai trích xuất văn bản cho một loạt tệp PDF trong các ứng dụng Python của mình.

Khám phá Trình trích xuất văn bản PDF của Aspose cho Python

Bạn có thể khám phá các tính năng khác của Aspose. AdWords for Python bằng cách sử dụng tài liệu. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.

Xem thêm