Ten artykuł zawiera najprostszy sposób wyodrębniania zwykłego tekstu z plików Word DOCX lub DOC w aplikacjach w języku Python. Po przeczytaniu tego artykułu dowiesz się, jak przekonwertować plik DOCX lub DOC na TXT w Python.
MS Word to popularny edytor tekstu, który umożliwia tworzenie dokumentów tekstowych w formacie RTF. W MS Word tworzona jest szeroka gama dokumentów, w tym faktury, dokumenty techniczne, raporty i tak dalej. DOC i DOCX to formaty plików używane przez MS Word do przechowywania dokumentów.
Jako programista być może będziesz musiał przetworzyć kilka plików Word DOC/DOCX, aby wyodrębnić zwykły tekst z aplikacji Python. Zobaczmy więc, jak wykonać konwersję DOC lub DOCX na TXT w Python.
- Konwerter Python DOCX na TXT — bezpłatne pobieranie
- Kroki, aby przekonwertować DOCX na TXT w Python
- Zapisz DOC jako plik TXT w Python
Konwerter Python DOCX na TXT — bezpłatne pobieranie
Aspose.Words for Python to niesamowita biblioteka z szeroką gamą funkcji do manipulowania popularnymi dokumentami tekstowymi, w tym DOC i DOCX. Biblioteka ułatwia sposób przetwarzania i pobierania tekstu z dokumentów Worda. Dlatego użyjemy tej biblioteki do konwersji plików DOC/DOCX do formatu TXT.
Możesz użyć następującego polecenia pip, aby zainstalować Aspose.Words dla języka Python w swojej aplikacji.
pip install aspose-words
Jak przekonwertować DOCX na TXT w Python
Aspose.Words for Python upraszcza konwersję DOCX na TXT, którą można wykonać w kilku krokach, jak wspomniano poniżej:
- Załaduj plik DOCX z dysku.
- Zapisz DOCX jako format TXT w żądanej lokalizacji.
Nie musisz analizować całego dokumentu Word strona po stronie lub wiersz po wierszu, aby wyodrębnić z niego tekst. Przyjrzyjmy się teraz, jak wykonać te kroki w Python, aby przekonwertować plik DOCX na format TXT.
Zapisz DOC jako TXT w Python
Poniżej przedstawiono kroki, aby zapisać plik DOC lub DOCX jako TXT w Python.
- Załaduj plik DOC, używając klasy Document.
- Zapisz DOC jako TXT przy użyciu metody Document.save(filePath) i podaj ścieżkę pliku jako parametr.
Poniższy przykładowy kod pokazuje, jak przekonwertować DOC na TXT w Python.
import aspose.words as aw
# Załaduj plik DOC
doc = aw.Document("document.doc")
# Zapisz DOC jako TXT
doc.save("doc-to-text.txt")
Python DOC to TXT Converter — Uzyskaj bezpłatną licencję
Możesz użyć bezpłatnej licencji tymczasowej, aby konwertować pliki DOC do formatu TXT bez ograniczeń ewaluacyjnych.
Wniosek
W tym artykule nauczyłeś się, jak konwertować pliki DOC lub DOCX do formatu TXT w Python. Za pomocą przykładowego kodu zobaczyłeś, jak ładować i zapisywać pliki DOCX jako TXT w żądanej lokalizacji w Python. Poza tym możesz odwiedzić dokumentację Aspose.Words for Python, aby dowiedzieć się więcej o bibliotece. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.