Convertir DOCX en TXT en Python

Les formats MS Word DOC et DOCX sont couramment utilisés pour créer des documents en texte enrichi. Vous pouvez ajouter du texte, des tableaux, des graphiques, des animations et divers autres éléments aux documents DOC/DOCX. Cependant, dans certains cas, par exemple pour analyser et analyser le texte dans les documents Word, vous devez convertir les fichiers DOC/DOCX au format TXT par programmation. Pour y parvenir, cet article explique comment convertir un fichier DOC ou DOCX au format TXT en Python.

Bibliothèque de conversion Python DOC/DOCX en TXT

Pour enregistrer les fichiers DOC et DOCX au format TXT, nous utiliserons Aspose.Words for Python. Il s’agit d’une bibliothèque puissante et rapide qui fournit un ensemble de fonctionnalités pour créer et manipuler des documents texte de manière transparente. De plus, il offre une conversion de haute qualité des documents vers d’autres formats. Vous pouvez installer la bibliothèque dans votre application Python à partir de PyPI à l’aide de la commande pip suivante.

> pip install aspose-words

Convertir DOCX en TXT en Python

Voyons comment convertir un fichier DOCX en TXT en Python. Pour cela, il vous suffit de charger le fichier DOCX et de l’enregistrer en tant que fichier TXT. Voici les étapes pour enregistrer un fichier DOCX au format TXT en Python.

  • Chargez le fichier DOCX à l’aide de la classe Document.
  • Enregistrez DOCX au format TXT à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment effectuer une conversion DOCX en TXT en Python.

import aspose.words as aw

# Load DOC/DOCX document
doc = aw.Document("Input.docx")

# Save as TXT
doc.save("Output.txt")

Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite pour utiliser Aspose.Words for Python sans limitation d’évaluation.

Conclusion

Dans cet article, vous avez appris à convertir des fichiers DOC ou DOCX au format TXT en Python. Cette fonctionnalité vous permet d’extraire le texte des fichiers DOCX et de l’enregistrer sous la forme d’un fichier TXT brut. Ainsi, vous pouvez analyser le texte plus facilement. De plus, vous pouvez en savoir plus sur la bibliothèque en utilisant la documentation. Vous pouvez également partager vos questions ou requêtes via notre forum.

Voir également