Este artigo fornece a maneira mais simples de extrair texto simples dos arquivos Word DOCX ou DOC em seus aplicativos Python. Depois de ler este artigo, você aprenderá como converter um arquivo DOCX ou DOC para TXT em Python.

Converter DOC DOCX para TXT em Python

MS Word é um aplicativo de processamento de texto popular que permite criar documentos de texto rico. Uma ampla variedade de documentos está sendo criada no MS Word, incluindo faturas, documentos técnicos, relatórios e assim por diante. DOC e DOCX são os formatos de arquivo que o MS Word usa para armazenar os documentos.

Como programador, você pode precisar processar vários arquivos Word DOC/DOCX para extrair o texto simples de seus aplicativos Python. Então vamos ver como realizar a conversão de DOC ou DOCX para TXT em Python.

Conversor Python DOCX para TXT - Download grátis

Aspose.Words for Python é uma biblioteca incrível com uma ampla variedade de recursos para manipular documentos de texto populares, incluindo DOC e DOCX. A biblioteca facilita a maneira de processar e recuperar texto dos documentos do Word. Portanto, usaremos esta biblioteca para converter os arquivos DOC/DOCX para o formato TXT.

Você pode usar o seguinte comando pip para instalar o Aspose.Words for Python em seu aplicativo.

pip install aspose-words

Como converter DOCX para TXT em Python

O Aspose.Words for Python simplifica a conversão de DOCX para TXT que você pode realizar em algumas etapas, conforme mencionado abaixo:

  • Carregue o arquivo DOCX do disco.
  • Salve DOCX como formato TXT no local desejado.

Você não precisa analisar todo o documento do Word página por página ou linha por linha para extrair o texto dele. Vamos agora dar uma olhada em como executar essas etapas em Python para converter um arquivo DOCX para o formato TXT.

Salvar DOC como TXT em Python

A seguir estão as etapas para salvar um arquivo DOC ou DOCX como TXT em Python.

  • Carregue o arquivo DOC usando a classe Document.
  • Salve o DOC como TXT usando o método Document.save(filePath) e passe o caminho do arquivo como parâmetro.

O exemplo de código a seguir mostra como converter um DOC em TXT em Python.

import aspose.words as aw

# Carregar arquivo DOC
doc = aw.Document("document.doc")

# Salvar DOC como TXT
doc.save("doc-to-text.txt")

Python DOC to TXT Converter - Obtenha uma licença gratuita

Você pode usar uma licença temporária gratuita para converter arquivos DOC para o formato TXT sem limitações de avaliação.

Conclusão

Neste artigo, você aprendeu como converter arquivos DOC ou DOCX para o formato TXT em Python. Com a ajuda do exemplo de código, você viu como carregar e salvar arquivos DOCX como TXT no local desejado em Python. Além disso, você pode visitar a documentação do Aspose.Words for Python para explorar mais sobre a biblioteca. Caso você tenha alguma dúvida, sinta-se à vontade para nos informar através do nosso fórum.

Veja também