В этой статье представлен самый простой способ извлечения простого текста из файлов Word DOCX или DOC в ваших приложениях Python. Прочитав эту статью, вы узнаете, как преобразовать файл DOCX или DOC в TXT в Python.
MS Word — это популярное приложение для обработки текстов, которое позволяет создавать документы с форматированным текстом. В MS Word создается широкий спектр документов, включая счета, технические документы, отчеты и т.д. DOC и DOCX — это форматы файлов, которые MS Word использует для хранения документов.
Как программисту вам может понадобиться обработать несколько файлов Word DOC/DOCX, чтобы извлечь простой текст из ваших приложений Python. Итак, давайте посмотрим, как выполнить преобразование DOC или DOCX в TXT в Python.
- Конвертер Python DOCX в TXT — скачать бесплатно
- Шаги для преобразования DOCX в TXT в Python
- Сохранить DOC как файл TXT в Python
Конвертер Python DOCX в TXT — скачать бесплатно
Aspose.Words for Python — замечательная библиотека с широким набором функций для работы с популярными текстовыми документами, включая DOC и DOCX. Библиотека упрощает обработку и извлечение текста из документов Word. Поэтому мы будем использовать эту библиотеку для преобразования файлов DOC/DOCX в формат TXT.
Вы можете использовать следующую команду pip для установки Aspose.Words for Python в ваше приложение.
pip install aspose-words
Как преобразовать DOCX в TXT в Python
Aspose.Words for Python упрощает преобразование DOCX в TXT, которое вы можете выполнить за пару шагов, как указано ниже:
- Загрузите файл DOCX с диска.
- Сохраните DOCX в формате TXT в нужном месте.
Вам не нужно разбирать весь документ Word постранично или построчно, чтобы извлечь из него текст. Давайте теперь посмотрим, как выполнить эти шаги в Python, чтобы преобразовать файл DOCX в формат TXT.
Сохранить DOC как TXT в Python
Ниже приведены шаги для сохранения файла DOC или DOCX как TXT в Python.
- Загрузите файл DOC, используя класс Document.
- Сохраните DOC как TXT, используя метод Document.save(filePath) и передайте путь к файлу в качестве параметра.
В следующем примере кода показано, как преобразовать DOC в TXT в Python.
import aspose.words as aw
# Загрузить DOC-файл
doc = aw.Document("document.doc")
# Сохранить DOC как TXT
doc.save("doc-to-text.txt")
Конвертер Python DOC в TXT — получите бесплатную лицензию
Вы можете использовать бесплатную временную лицензию для преобразования файлов DOC в формат TXT без ограничений на пробную версию.
Вывод
В этой статье вы узнали, как конвертировать файлы DOC или DOCX в формат TXT в Python. С помощью примера кода вы увидели, как загружать и сохранять файлы DOCX в виде TXT в нужное место в Python. Кроме того, вы можете посетить документацию Aspose.Words for Python, чтобы узнать больше о библиотеке. Если у вас возникнут какие-либо вопросы, сообщите нам об этом через наш форум.