Converter Word para JSON em Python

Em vários casos, você precisa realizar a conversão de Word para JSON programaticamente a partir de sua aplicação Python. Por exemplo, para exportar os dados de um documento Word e processá-los ou transportá-los em formato JSON. Neste artigo, você aprenderá como converter facilmente o texto em um documento Word para o formato JSON. Além disso, você aprenderá como carregar um documento Word protegido e convertê-lo para JSON programaticamente. Então, vamos prosseguir para converter Word para JSON em Python.

Como Converter Word para JSON em Python

Para converter um documento Word para o formato JSON, realizaremos os seguintes passos:

  • Carregar o documento Word.
  • Convertê-lo para o formato HTML.
  • Salvar o arquivo HTML no formato JSON.

Vamos ver como implementar esses passos programaticamente em Python. Para isso, primeiro instalaremos algumas bibliotecas, conforme demonstrado na seção a seguir.

Bibliotecas Python para Converter Word para JSON - Download Gratuito

Aspose.Words para Python é uma biblioteca poderosa projetada para criar e processar documentos MS Word. Usaremos esta biblioteca para exportar o conteúdo de um documento Word para HTML. Uma vez que temos o conteúdo HTML, usaremos Aspose.Cells para Python para salvá-lo como um arquivo JSON.

Você pode usar os seguintes comandos pip para instalar ambas as bibliotecas.

pip install aspose-cells
pip install aspose-words

Converter Word para JSON em Python

Os seguintes são os passos para converter Word para JSON em Python.

  • Carregar o documento Word usando a classe Document do Aspose.Words.
  • Salvar o documento Word como HTML usando o método Document.save().
  • Carregar o arquivo HTML usando a classe Workbook do Aspose.Cells.
  • Converter o documento para o formato JSON usando o método Workbook.save().

O seguinte exemplo de código mostra como converter um documento Word para JSON em Python.

# Load document
doc = aw.Document("document1.docx")
# Save document in HTML format
doc.save("html_output.html", aw.SaveFormat.HTML)
# Load the HTML file in an instance of Workbook class
book = Workbook("html_output.html")
# Save as JSON
book.save("word-to-json.json", SaveFormat.JSON)
view raw word-to-json.py hosted with ❤ by GitHub

Converter Word Protegido para JSON em Python

Você também pode carregar documentos Word protegidos usando suas senhas e convertê-los para o formato JSON. Os seguintes são os passos para converter um documento Word protegido para JSON em Python.

  • Carregar o documento Word usando a classe Document do Aspose.Words.
  • Usar a classe LoadOptions do Aspose.Words para especificar a senha do documento Word protegido.
  • Salvar o documento Word como HTML usando o método Document.save().
  • Carregar o arquivo HTML usando a classe Workbook do Aspose.Cells.
  • Converter o documento para o formato JSON usando o método Workbook.save().

O seguinte exemplo de código mostra como converter um documento Word protegido para JSON em Python.

# Load protected document using LoadOptions
doc = aw.Document("protected_doc.docx", aw.loading.LoadOptions("MyPassword"))
# Save document in HTML format
doc.save("html_output.html", aw.SaveFormat.HTML)
# Load the HTML file in an instance of Workbook class
book = Workbook("html_output.html")
# Save as JSON
book.save("word-to-json.json", SaveFormat.JSON)

Bibliotecas Python Word para JSON - Obtenha uma Licença Gratuita

Você pode obter uma licença temporária gratuita para usar as bibliotecas sem limitações de avaliação.

Conclusão

Neste artigo, você aprendeu como converter Word para JSON em Python. Além disso, você viu como converter um documento Word protegido por senha para JSON programaticamente. Além disso, você pode visitar a documentação do Aspose.Words para Python e Aspose.Cells para Python para explorar mais sobre as bibliotecas. Caso tenha alguma dúvida, sinta-se à vontade para nos informar através do nosso forum.

Veja Também