Cet article fournit le moyen le plus simple d’extraire du texte brut à partir des fichiers Word DOCX ou DOC dans vos applications Python. Après avoir lu cet article, vous apprendrez comment convertir un fichier DOCX ou DOC en TXT en Python.
MS Word est une application de traitement de texte populaire qui vous permet de créer des documents en texte enrichi. Un large éventail de documents sont créés dans MS Word, notamment des factures, des documents techniques, des rapports, etc. DOC et DOCX sont les formats de fichiers utilisés par MS Word pour stocker les documents.
En tant que programmeur, vous devrez peut-être traiter un tas de fichiers Word DOC/DOCX pour extraire le texte brut de vos applications Python. Voyons donc comment effectuer une conversion DOC ou DOCX en TXT en Python.
- Convertisseur Python DOCX en TXT - Télécharger gratuit
- Étapes pour convertir DOCX en TXT en Python
- Enregistrer DOC en tant que fichier TXT en Python
Convertisseur Python DOCX en TXT - Télécharger gratuit
Aspose.Words for Python est une bibliothèque étonnante avec un large éventail de fonctionnalités pour manipuler des documents texte populaires, notamment DOC et DOCX. La bibliothèque facilite le traitement et la récupération de texte à partir des documents Word. Par conséquent, nous utiliserons cette bibliothèque pour convertir les fichiers DOC/DOCX au format TXT.
Vous pouvez utiliser la commande pip suivante pour installer Aspose.Words for Python dans votre application.
pip install aspose-words
Comment convertir DOCX en TXT en Python
Aspose.Words for Python simplifie la conversion DOCX en TXT que vous pouvez effectuer en quelques étapes, comme mentionné ci-dessous :
- Chargez le fichier DOCX à partir du disque.
- Enregistrez DOCX au format TXT à l’emplacement souhaité.
Vous n’avez pas besoin d’analyser l’intégralité du document Word page par page ou ligne par ligne pour en extraire le texte. Voyons maintenant comment effectuer ces étapes en Python pour convertir un fichier DOCX au format TXT.
Enregistrer DOC au format TXT en Python
Voici les étapes pour enregistrer un fichier DOC ou DOCX au format TXT en Python.
- Chargez le fichier DOC à l’aide de la classe Document.
- Enregistrez le DOC au format TXT à l’aide de la méthode Document.save(filePath) et transmettez le chemin du fichier en tant que paramètre.
L’exemple de code suivant montre comment convertir un DOC en TXT en Python.
import aspose.words as aw
# Charger le fichier DOC
doc = aw.Document("document.doc")
# Enregistrer le DOC au format TXT
doc.save("doc-to-text.txt")
Convertisseur Python DOC en TXT - Obtenez une licence gratuite
Vous pouvez utiliser une licence temporaire gratuite pour convertir des fichiers DOC au format TXT sans limitation d’évaluation.
Conclusion
Dans cet article, vous avez appris à convertir des fichiers DOC ou DOCX au format TXT en Python. À l’aide d’un exemple de code, vous avez vu comment charger et enregistrer des fichiers DOCX au format TXT à l’emplacement souhaité dans Python. En outre, vous pouvez consulter la documentation de Aspose.Words for Python pour en savoir plus sur la bibliothèque. Si vous avez des questions, n’hésitez pas à nous en faire part via notre forum.