Chuyển đổi Word sang JSON bằng Python

Trong các trường hợp khác nhau, bạn phải thực hiện chuyển đổi Word sang JSON theo chương trình từ bên trong ứng dụng Python của mình. Ví dụ: để xuất dữ liệu từ tài liệu Word và xử lý hoặc vận chuyển nó ở định dạng JSON. Trong bài viết này, bạn sẽ học cách dễ dàng chuyển đổi văn bản trong tài liệu Word sang định dạng JSON. Hơn nữa, bạn sẽ học cách tải một tài liệu Word được bảo vệ và chuyển đổi nó sang JSON theo lập trình. Vì vậy, chúng ta hãy tiến hành chuyển đổi Word sang JSON trong Python.

Cách chuyển đổi Word sang JSON trong Python

Để chuyển đổi tài liệu Word sang định dạng JSON, chúng ta sẽ thực hiện các bước sau:

  • Tải tài liệu Word.
  • Chuyển đổi nó sang định dạng HTML.
  • Lưu tệp HTML ở định dạng JSON.

Hãy xem cách triển khai các bước này theo chương trình trong Python. Đối với điều này, trước tiên chúng tôi sẽ cài đặt một vài thư viện, như được trình bày trong phần sau.

Thư viện Python để chuyển đổi Word sang JSON - Tải xuống miễn phí

Aspose.Words for Python là một thư viện mạnh mẽ được thiết kế để tạo và xử lý các tài liệu MS Word. Chúng tôi sẽ sử dụng thư viện này để xuất nội dung của tài liệu Word sang HTML. Sau khi có nội dung HTML, chúng tôi sẽ sử dụng Aspose.Cells for Python để lưu nó dưới dạng tệp JSON.

Bạn có thể sử dụng các lệnh pip sau để cài đặt cả hai thư viện.

pip install aspose-cells
pip install aspose-words

Chuyển đổi Word sang JSON bằng Python

Sau đây là các bước để chuyển đổi Word sang JSON trong Python.

  • Tải tài liệu Word bằng lớp Tài liệu của Aspose.Words.
  • Lưu tài liệu Word dưới dạng HTML bằng phương thức Document.save().
  • Tải tệp HTML bằng lớp Workbook của Aspose.Cells.
  • Chuyển đổi tài liệu sang định dạng JSON bằng phương thức Workbook.save().

Mẫu mã sau đây cho thấy cách chuyển đổi tài liệu Word sang JSON trong Python.

# Tải tài liệu
doc = aw.Document("document1.docx")

# Lưu tài liệu ở định dạng HTML
doc.save("html_output.html", aw.SaveFormat.HTML)

# Tải tệp HTML trong một phiên bản của lớp Workbook
book = Workbook("html_output.html")

# Lưu dưới dạng JSON
book.save("word-to-json.json", SaveFormat.JSON)

Chuyển đổi từ được bảo vệ sang JSON bằng Python

Bạn cũng có thể tải các tài liệu Word được bảo vệ bằng mật khẩu của chúng và chuyển đổi chúng sang định dạng JSON. Sau đây là các bước để chuyển đổi tài liệu Word được bảo vệ sang JSON trong Python.

  • Tải tài liệu Word bằng lớp Tài liệu của Aspose.Words.
  • Sử dụng lớp LoadOptions của Aspose.Words để chỉ định mật khẩu của tài liệu Word được bảo vệ.
  • Lưu tài liệu Word dưới dạng HTML bằng phương thức Document.save().
  • Tải tệp HTML bằng lớp Workbook của Aspose.Cells.
  • Chuyển đổi tài liệu sang định dạng JSON bằng phương thức Workbook.save().

Mẫu mã sau đây cho thấy cách chuyển đổi tài liệu Word được bảo vệ sang JSON trong Python.

# Tải tài liệu được bảo vệ bằng LoadOptions
doc = aw.Document("protected_doc.docx", aw.loading.LoadOptions("MyPassword"))

# Lưu tài liệu ở định dạng HTML
doc.save("html_output.html", aw.SaveFormat.HTML)

# Tải tệp HTML trong một phiên bản của lớp Workbook
book = Workbook("html_output.html")

# Lưu dưới dạng JSON
book.save("word-to-json.json", SaveFormat.JSON)

Thư viện chuyển đổi từ Python sang JSON - Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng các thư viện mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi Word sang JSON trong Python. Hơn nữa, bạn đã thấy cách chuyển đổi tài liệu Word được bảo vệ bằng mật khẩu sang JSON theo lập trình. Bên cạnh đó, bạn có thể truy cập tài liệu của Aspose.Words for PythonAspose.Cells for Python để khám phá thêm về các thư viện. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.

Xem thêm