Là một lập trình viên, bạn có thể cần phải xử lý một loạt các tệp PDF và trích xuất văn bản từ chúng. Trích xuất văn bản từ PDF có thể được yêu cầu cho các mục đích khác nhau như phân tích văn bản. Trong bài viết này, chúng tôi sẽ chứng minh việc trích xuất văn bản từ tệp PDF bằng Python dễ dàng như thế nào. Hơn nữa, bạn sẽ biết cách trích xuất văn bản và lưu vào tệp TXT.
- Thư viện Python để trích xuất văn bản từ tệp PDF
- Cách trích xuất văn bản từ PDF
- Trích xuất văn bản từ PDF bằng Python
Thư viện Python để trích xuất văn bản từ PDF - Tải xuống miễn phí
Aspose.Words dành cho Python là một thư viện tuyệt vời cho phép bạn tạo và xử lý các tài liệu văn bản một cách liền mạch. Bạn có thể thao tác với các tài liệu có định dạng phổ biến như DOC, DOCX và PDF. Chúng tôi sẽ sử dụng thư viện này để thực hiện trích xuất văn bản trên các tệp PDF của chúng tôi. Bạn có thể cài đặt thư viện từ PyPI bằng lệnh pip sau.
> pip install aspose-words
Cách trích xuất văn bản từ PDF bằng Python
Aspose.Words for Python đã giúp việc trích xuất văn bản PDF trở nên cực kỳ dễ dàng bằng cách ẩn các thao tác phức tạp khỏi người dùng. Bạn chỉ cần tải tệp PDF và lưu văn bản đã trích xuất. Các bước sau đây trình bày cách trích xuất văn bản từ một tệp PDF bằng cách sử dụng Aspose. AdWords dành cho Python.
- Tải tệp PDF từ vị trí mong muốn.
- Giải nén và lưu văn bản thành tệp .txt.
Và đó là nó. Sau đó, bạn có thể xử lý tệp .txt và thao tác với văn bản thuần túy được trích xuất từ PDF.
Bây giờ chúng ta hãy xem cách trích xuất văn bản từ PDF theo chương trình bằng Python.
Trích xuất văn bản từ PDF bằng Python
Sau đây là các bước cùng với các lớp và phương pháp trích xuất văn bản PDF bằng Python.
- Tải tệp PDF bằng lớp Tài liệu.
- Trích xuất văn bản từ PDF thành tệp .txt bằng phương pháp Document.save (fileName).
Mẫu mã sau đây hiển thị trích xuất văn bản từ tệp PDF bằng Python.
# Nhập mô-đun Aspose. AdWords cho Python
import aspose.words as aw
# Tải tệp PDF
pdf = aw.Document("file.pdf")
# Trích xuất và lưu văn bản trong tệp TXT
pdf.save("extracted-text.txt")
Ảnh chụp màn hình sau đây cho thấy tệp PDF đầu vào mà chúng tôi đã sử dụng để trích xuất văn bản.
Ảnh chụp màn hình sau đây hiển thị văn bản được trích xuất trong tệp TXT.
PDF Text Extractor cho Python - Nhận Giấy phép Miễn phí
Bạn có thể nhận giấy phép tạm thời miễn phí để trích xuất văn bản từ PDF mà không có giới hạn đánh giá.
Sự kết luận
Trong bài viết này, bạn đã học cách trích xuất văn bản từ tệp PDF bằng Python. Bạn đã thấy cách dễ dàng và nhanh chóng bạn có thể trích xuất văn bản từ một tệp PDF và lưu nó trong một tệp TXT theo lập trình. Giờ đây, bạn có thể triển khai trích xuất văn bản cho một loạt tệp PDF trong các ứng dụng Python của mình.
Khám phá Trình trích xuất văn bản PDF của Aspose cho Python
Bạn có thể khám phá các tính năng khác của Aspose. AdWords for Python bằng cách sử dụng tài liệu. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.