Преобразование Word в JSON в Python

В некоторых случаях вам необходимо выполнить преобразование Word в JSON программно из вашего приложения Python. Например, чтобы экспортировать данные из документа Word и обрабатывать или передавать их в формате JSON. В этой статье вы узнаете, как легко преобразовать текст документа Word в формат JSON. Кроме того, вы узнаете, как загрузить защищенный документ Word и программно преобразовать его в JSON. Итак, давайте приступим к преобразованию Word в JSON в Python.

Как преобразовать Word в JSON в Python

Чтобы преобразовать документ Word в формат JSON, мы выполним следующие шаги:

  • Загрузите документ Word.
  • Преобразуйте его в формат HTML.
  • Сохраните HTML-файл в формате JSON.

Давайте посмотрим, как программно реализовать эти шаги в Python. Для этого мы сначала установим пару библиотек, как показано в следующем разделе.

Библиотеки Python для преобразования Word в JSON — скачать бесплатно

Aspose.Words for Python — мощная библиотека, предназначенная для создания и обработки документов MS Word. Мы будем использовать эту библиотеку для экспорта содержимого документа Word в HTML. Получив HTML-контент, мы воспользуемся Aspose.Cells for Python, чтобы сохранить его в виде файла JSON.

Вы можете использовать следующие команды pip для установки обеих библиотек.

pip install aspose-cells
pip install aspose-words

Преобразование Word в JSON в Python

Ниже приведены шаги для преобразования Word в JSON в Python.

  • Загрузите документ Word, используя класс Document Aspose.Words.
  • Сохраните документ Word как HTML, используя метод Document.save().
  • Загрузите файл HTML, используя класс Workbook Aspose.Cells.
  • Преобразуйте документ в формат JSON с помощью метода Workbook.save().

В следующем примере кода показано, как преобразовать документ Word в JSON в Python.

# Загрузить документ
doc = aw.Document("document1.docx")

# Сохранить документ в формате HTML
doc.save("html_output.html", aw.SaveFormat.HTML)

# Загрузите файл HTML в экземпляр класса Workbook.
book = Workbook("html_output.html")

# Сохранить как JSON
book.save("word-to-json.json", SaveFormat.JSON)

Преобразование защищенного слова в JSON в Python

Вы также можете загрузить защищенные документы Word, используя их пароли, и преобразовать их в формат JSON. Ниже приведены шаги для преобразования защищенного документа Word в JSON в Python.

  • Загрузите документ Word, используя класс Document Aspose.Words.
  • Используйте класс LoadOptions Aspose.Words, чтобы указать пароль защищенного документа Word.
  • Сохраните документ Word как HTML, используя метод Document.save().
  • Загрузите файл HTML, используя класс Workbook Aspose.Cells.
  • Преобразуйте документ в формат JSON с помощью метода Workbook.save().

В следующем примере кода показано, как преобразовать защищенный документ Word в JSON в Python.

# Загрузить защищенный документ с помощью LoadOptions
doc = aw.Document("protected_doc.docx", aw.loading.LoadOptions("MyPassword"))

# Сохранить документ в формате HTML
doc.save("html_output.html", aw.SaveFormat.HTML)

# Загрузите файл HTML в экземпляр класса Workbook.
book = Workbook("html_output.html")

# Сохранить как JSON
book.save("word-to-json.json", SaveFormat.JSON)

Библиотеки конвертера Python Word в JSON — получите бесплатную лицензию

Вы можете получить бесплатную временную лицензию для использования библиотек без ограничений на пробную версию.

Вывод

В этой статье вы узнали, как преобразовать Word в JSON в Python. Более того, вы видели, как программно преобразовать документ Word, защищенный паролем, в JSON. Кроме того, вы можете посетить документацию Aspose.Words for Python и Aspose.Cells for Python, чтобы узнать больше о библиотеках. Если у вас возникнут какие-либо вопросы, дайте нам знать через наш форум.

Смотрите также