Este artículo proporciona la forma más sencilla de extraer texto sin formato de los archivos DOCX o DOC de Word en sus aplicaciones de Python. Después de leer este artículo, aprenderá cómo convertir un archivo DOCX o DOC a TXT en Python.
MS Word es una popular aplicación de procesamiento de texto que le permite crear documentos de texto enriquecido. Se está creando una amplia gama de documentos en MS Word, incluidas facturas, documentos técnicos, informes, etc. DOC y DOCX son los formatos de archivo que utiliza MS Word para almacenar los documentos.
Como programador, es posible que deba procesar un montón de archivos DOC/DOCX de Word para extraer el texto sin formato desde sus aplicaciones de Python. Entonces, veamos cómo realizar la conversión de DOC o DOCX a TXT en Python.
- Python DOCX to TXT Converter - Descarga gratuita
- Pasos para convertir DOCX a TXT en Python
- Guardar DOC como archivo TXT en Python
Python DOCX to TXT Converter - Descarga gratuita
Aspose.Words for Python es una biblioteca increíble con una amplia gama de funciones para manipular documentos de texto populares, incluidos DOC y DOCX. La biblioteca facilita la forma de procesar y recuperar texto de los documentos de Word. Por lo tanto, usaremos esta biblioteca para convertir los archivos DOC/DOCX a formato TXT.
Puede usar el siguiente comando pip para instalar Aspose.Words for Python en su aplicación.
pip install aspose-words
Cómo convertir DOCX a TXT en Python
Aspose.Words for Python simplifica la conversión de DOCX a TXT que puede realizar en un par de pasos, como se menciona a continuación:
- Cargue el archivo DOCX desde el disco.
- Guarde DOCX como formato TXT en la ubicación deseada.
No necesita analizar todo el documento de Word página por página o línea por línea para extraer el texto. Veamos ahora cómo realizar estos pasos en Python para convertir un archivo DOCX a formato TXT.
Guardar DOC como TXT en Python
Los siguientes son los pasos para guardar un archivo DOC o DOCX como TXT en Python.
- Cargue el archivo DOC usando la clase Document.
- Guarde DOC como TXT usando el método Document.save (filePath) y pase la ruta del archivo como parámetro.
El siguiente ejemplo de código muestra cómo convertir un DOC a TXT en Python.
import aspose.words as aw
# Cargar archivo DOC
doc = aw.Document("document.doc")
# Guardar DOC como TXT
doc.save("doc-to-text.txt")
Python DOC to TXT Converter - Obtenga una licencia gratuita
Puede usar una licencia temporal gratuita para convertir archivos DOC a formato TXT sin limitaciones de evaluación.
Conclusión
En este artículo, ha aprendido cómo convertir archivos DOC o DOCX a formato TXT en Python. Con la ayuda del ejemplo de código, ha visto cómo cargar y guardar archivos DOCX como TXT en la ubicación deseada en Python. Además, puedes visitar la documentación de Aspose.Words for Python para explorar más sobre la biblioteca. En caso de que tenga alguna pregunta, no dude en hacérnosla saber a través de nuestro foro.