Jako programátor možná budete muset zpracovat spoustu souborů Word DOC/DOCX, abyste extrahovali prostý text z vašich aplikací Python. Tento článek poskytuje výkonné, vysoce kvalitní a jednoduché řešení pro extrahování prostého textu ze souborů Word DOCX nebo DOC v Pythonu. Nakonec se naučíte, jak převést soubor DOCX nebo DOC na TXT v Pythonu.
MS Word je oblíbená aplikace pro zpracování textu, která umožňuje vytvářet dokumenty ve formátu RTF. V MS Word se vytváří široká škála dokumentů včetně faktur, technických dokumentů, zpráv a tak dále. Pojďme se tedy podívat, jak provést převod Wordu na TXT v Pythonu.
- Python DOCX to TXT Converter – zdarma ke stažení
- Kroky k převodu DOCX na TXT v Pythonu
- Uložte DOC jako TXT soubor v Pythonu
Konvertor Python DOCX na TXT
Pro převod Word do TXT použijeme Aspose.Words pro Python. Je to úžasná knihovna se širokou škálou funkcí pro manipulaci s oblíbenými textovými dokumenty včetně DOC a DOCX. Knihovna usnadňuje způsob zpracování a načítání textu z dokumentů aplikace Word. Můžete také použít tuto knihovnu a zdarma převést Word na TXT.
K instalaci Aspose.Words pro Python ve vaší aplikaci můžete použít následující příkaz pip.
pip install aspose-words
Jak převést DOCX na TXT v Pythonu
Aspose.Words for Python zjednodušuje převod DOCX na TXT, který můžete provést v několika krocích, jak je uvedeno níže:
- Načtěte soubor DOCX z disku.
- Uložte DOCX ve formátu TXT na požadované místo.
Nemusíte analyzovat celý dokument Word stránku po stránce nebo řádek po řádku, abyste z něj extrahovali text. Pojďme se nyní podívat na to, jak provést tyto kroky v Pythonu pro převod souboru DOCX do formátu TXT.
Uložte Word DOC jako TXT v Pythonu
Níže jsou uvedeny kroky k uložení souboru DOC nebo DOCX jako TXT v Pythonu.
- Načtěte soubor DOC pomocí třídy Document.
- Uložte DOC jako TXT pomocí metody Document.save(filePath) a předejte cestu k souboru jako parametr.
Následující ukázka kódu ukazuje, jak převést DOC na TXT v Pythonu.
import aspose.words as aw
# Načíst soubor DOC
doc = aw.Document("document.doc")
# Uložit DOC jako TXT
doc.save("doc-to-text.txt")
Zdarma Python DOC to TXT Converter
Pro převod souborů DOC do formátu TXT můžete použít bezplatnou dočasnou licenci bez omezení hodnocení.
Prozkoumejte převodník Word na TXT
Můžete navštívit dokumentaci knihovny Python Word a prozkoumat další funkce. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.
Závěr
V tomto článku jste se naučili, jak převést soubory DOC nebo DOCX do formátu TXT v Pythonu. S pomocí ukázky kódu jste viděli, jak načíst a uložit soubory DOCX jako TXT do požadovaného umístění v Pythonu.