Ten artykuł zawiera najprostszy sposób wyodrębniania zwykłego tekstu z plików Word DOCX lub DOC w aplikacjach w języku Python. Po przeczytaniu tego artykułu dowiesz się, jak przekonwertować plik DOCX lub DOC na TXT w Python.

Konwertuj DOC DOCX na TXT w Python

MS Word to popularny edytor tekstu, który umożliwia tworzenie dokumentów tekstowych w formacie RTF. W MS Word tworzona jest szeroka gama dokumentów, w tym faktury, dokumenty techniczne, raporty i tak dalej. DOC i DOCX to formaty plików używane przez MS Word do przechowywania dokumentów.

Jako programista być może będziesz musiał przetworzyć kilka plików Word DOC/DOCX, aby wyodrębnić zwykły tekst z aplikacji Python. Zobaczmy więc, jak wykonać konwersję DOC lub DOCX na TXT w Python.

Konwerter Python DOCX na TXT — bezpłatne pobieranie

Aspose.Words for Python to niesamowita biblioteka z szeroką gamą funkcji do manipulowania popularnymi dokumentami tekstowymi, w tym DOC i DOCX. Biblioteka ułatwia sposób przetwarzania i pobierania tekstu z dokumentów Worda. Dlatego użyjemy tej biblioteki do konwersji plików DOC/DOCX do formatu TXT.

Możesz użyć następującego polecenia pip, aby zainstalować Aspose.Words dla języka Python w swojej aplikacji.

pip install aspose-words

Jak przekonwertować DOCX na TXT w Python

Aspose.Words for Python upraszcza konwersję DOCX na TXT, którą można wykonać w kilku krokach, jak wspomniano poniżej:

  • Załaduj plik DOCX z dysku.
  • Zapisz DOCX jako format TXT w żądanej lokalizacji.

Nie musisz analizować całego dokumentu Word strona po stronie lub wiersz po wierszu, aby wyodrębnić z niego tekst. Przyjrzyjmy się teraz, jak wykonać te kroki w Python, aby przekonwertować plik DOCX na format TXT.

Zapisz DOC jako TXT w Python

Poniżej przedstawiono kroki, aby zapisać plik DOC lub DOCX jako TXT w Python.

  • Załaduj plik DOC, używając klasy Document.
  • Zapisz DOC jako TXT przy użyciu metody Document.save(filePath) i podaj ścieżkę pliku jako parametr.

Poniższy przykładowy kod pokazuje, jak przekonwertować DOC na TXT w Python.

import aspose.words as aw

# Załaduj plik DOC
doc = aw.Document("document.doc")

# Zapisz DOC jako TXT
doc.save("doc-to-text.txt")

Python DOC to TXT Converter — Uzyskaj bezpłatną licencję

Możesz użyć bezpłatnej licencji tymczasowej, aby konwertować pliki DOC do formatu TXT bez ograniczeń ewaluacyjnych.

Wniosek

W tym artykule nauczyłeś się, jak konwertować pliki DOC lub DOCX do formatu TXT w Python. Za pomocą przykładowego kodu zobaczyłeś, jak ładować i zapisywać pliki DOCX jako TXT w żądanej lokalizacji w Python. Poza tym możesz odwiedzić dokumentację Aspose.Words for Python, aby dowiedzieć się więcej o bibliotece. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.

Zobacz też