В этой статье представлен самый простой способ извлечения простого текста из файлов Word DOCX или DOC в ваших приложениях Python. Прочитав эту статью, вы узнаете, как преобразовать файл DOCX или DOC в TXT в Python.

Преобразование DOC DOCX в TXT в Python

MS Word — это популярное приложение для обработки текстов, которое позволяет создавать документы с форматированным текстом. В MS Word создается широкий спектр документов, включая счета, технические документы, отчеты и т.д. DOC и DOCX — это форматы файлов, которые MS Word использует для хранения документов.

Как программисту вам может понадобиться обработать несколько файлов Word DOC/DOCX, чтобы извлечь простой текст из ваших приложений Python. Итак, давайте посмотрим, как выполнить преобразование DOC или DOCX в TXT в Python.

Конвертер Python DOCX в TXT — скачать бесплатно

Aspose.Words for Python — замечательная библиотека с широким набором функций для работы с популярными текстовыми документами, включая DOC и DOCX. Библиотека упрощает обработку и извлечение текста из документов Word. Поэтому мы будем использовать эту библиотеку для преобразования файлов DOC/DOCX в формат TXT.

Вы можете использовать следующую команду pip для установки Aspose.Words for Python в ваше приложение.

pip install aspose-words

Как преобразовать DOCX в TXT в Python

Aspose.Words for Python упрощает преобразование DOCX в TXT, которое вы можете выполнить за пару шагов, как указано ниже:

  • Загрузите файл DOCX с диска.
  • Сохраните DOCX в формате TXT в нужном месте.

Вам не нужно разбирать весь документ Word постранично или построчно, чтобы извлечь из него текст. Давайте теперь посмотрим, как выполнить эти шаги в Python, чтобы преобразовать файл DOCX в формат TXT.

Сохранить DOC как TXT в Python

Ниже приведены шаги для сохранения файла DOC или DOCX как TXT в Python.

  • Загрузите файл DOC, используя класс Document.
  • Сохраните DOC как TXT, используя метод Document.save(filePath) и передайте путь к файлу в качестве параметра.

В следующем примере кода показано, как преобразовать DOC в TXT в Python.

import aspose.words as aw

# Загрузить DOC-файл
doc = aw.Document("document.doc")

# Сохранить DOC как TXT
doc.save("doc-to-text.txt")

Конвертер Python DOC в TXT — получите бесплатную лицензию

Вы можете использовать бесплатную временную лицензию для преобразования файлов DOC в формат TXT без ограничений на пробную версию.

Вывод

В этой статье вы узнали, как конвертировать файлы DOC или DOCX в формат TXT в Python. С помощью примера кода вы увидели, как загружать и сохранять файлы DOCX в виде TXT в нужное место в Python. Кроме того, вы можете посетить документацию Aspose.Words for Python, чтобы узнать больше о библиотеке. Если у вас возникнут какие-либо вопросы, сообщите нам об этом через наш форум.

Смотрите также