Bài viết này cung cấp cách đơn giản nhất để trích xuất văn bản thuần túy từ các tệp Word DOCX hoặc DOC trong các ứng dụng Python của bạn. Sau khi đọc bài viết này, bạn sẽ học cách chuyển đổi tệp DOCX hoặc DOC thành TXT bằng Python.
MS Word là một ứng dụng xử lý văn bản phổ biến cho phép bạn tạo các tài liệu văn bản phong phú. Một loạt các tài liệu đang được tạo trong MS Word bao gồm hóa đơn, tài liệu kỹ thuật, báo cáo, v.v. DOC và DOCX là các định dạng tệp mà MS Word sử dụng để lưu trữ tài liệu.
Là một lập trình viên, bạn có thể cần phải xử lý một loạt các tệp Word DOC / DOCX để trích xuất văn bản thuần túy từ bên trong các ứng dụng Python của bạn. Vì vậy, hãy xem cách thực hiện chuyển đổi DOC hoặc DOCX sang TXT trong Python.
- Python DOCX to TXT Converter - Tải xuống miễn phí
- Các bước chuyển đổi DOCX sang TXT bằng Python
- Lưu DOC dưới dạng tệp TXT bằng Python
Python DOCX to TXT Converter - Tải xuống miễn phí
Aspose.Words for Python là một thư viện tuyệt vời với một loạt các tính năng để thao tác các tài liệu văn bản phổ biến bao gồm DOC và DOCX. Thư viện giúp giảm bớt cách xử lý và truy xuất văn bản từ các tài liệu Word. Do đó, chúng tôi sẽ sử dụng thư viện này để chuyển đổi các tệp DOC / DOCX sang định dạng TXT.
Bạn có thể sử dụng lệnh pip sau để cài đặt Aspose.Words for Python trong ứng dụng của mình.
pip install aspose-words
Cách chuyển đổi DOCX sang TXT bằng Python
Aspose. AdWords for Python đơn giản hóa việc chuyển đổi DOCX sang TXT mà bạn có thể thực hiện trong một vài bước, như được đề cập bên dưới:
- Tải tệp DOCX từ đĩa.
- Lưu DOCX dưới dạng TXT vào vị trí mong muốn.
Bạn không cần phải phân tích cú pháp toàn bộ trang tài liệu Word theo từng trang hoặc từng dòng để trích xuất văn bản từ đó. Bây giờ chúng ta hãy xem cách thực hiện các bước này trong Python để chuyển đổi tệp DOCX sang định dạng TXT.
Lưu DOC dưới dạng TXT bằng Python
Sau đây là các bước để lưu tệp DOC hoặc DOCX dưới dạng TXT bằng Python.
- Tải tệp DOC bằng lớp Tài liệu.
- Lưu DOC dưới dạng TXT bằng phương thức Document.save (filePath) và chuyển đường dẫn của tệp làm tham số.
Mẫu mã sau đây cho thấy cách chuyển đổi DOC sang TXT bằng Python.
import aspose.words as aw
# Tải tệp DOC
doc = aw.Document("document.doc")
# Lưu DOC dưới dạng TXT
doc.save("doc-to-text.txt")
Python DOC to TXT Converter - Nhận giấy phép miễn phí
Bạn có thể sử dụng giấy phép tạm thời miễn phí để chuyển đổi tệp DOC sang định dạng TXT mà không có giới hạn đánh giá.
Sự kết luận
Trong bài viết này, bạn đã học cách chuyển đổi tệp DOC hoặc DOCX sang định dạng TXT trong Python. Với sự trợ giúp của mẫu mã, bạn đã thấy cách tải và lưu tệp DOCX dưới dạng TXT vào vị trí mong muốn bằng Python. Bên cạnh đó, bạn có thể truy cập tài liệu của Aspose.Words for Python để khám phá thêm về thư viện. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.