این مقاله ساده ترین روش استخراج متن ساده از فایل های Word DOCX یا DOC در برنامه های پایتون شما را ارائه می دهد. پس از خواندن این مقاله، نحوه تبدیل فایل DOCX یا DOC را به TXT در پایتون خواهید آموخت.
MS Word یک برنامه پردازش کلمه محبوب است که به شما امکان می دهد اسناد متنی غنی ایجاد کنید. طیف گسترده ای از اسناد در MS Word از جمله فاکتورها، اسناد فنی، گزارش ها و غیره ایجاد می شود. DOC و DOCX فرمت های فایلی هستند که MS Word از آنها برای ذخیره اسناد استفاده می کند.
به عنوان یک برنامه نویس، ممکن است لازم باشد دسته ای از فایل های Word DOC/DOCX را پردازش کنید تا متن ساده را از داخل برنامه های پایتون خود استخراج کنید. پس بیایید ببینیم که چگونه تبدیل DOC یا DOCX به TXT را در پایتون انجام دهیم.
- مبدل Python DOCX به TXT - دانلود رایگان
- مراحل تبدیل DOCX به TXT در پایتون
- DOC را به عنوان فایل TXT در پایتون ذخیره کنید
مبدل Python DOCX به TXT - دانلود رایگان
Aspose.Words for Python یک کتابخانه شگفت انگیز با طیف گسترده ای از ویژگی ها برای دستکاری اسناد متنی محبوب از جمله DOC و DOCX است. این کتابخانه روش پردازش و بازیابی متن از اسناد Word را آسان می کند. بنابراین، ما از این کتابخانه برای تبدیل فایل های DOC/DOCX به فرمت TXT استفاده خواهیم کرد.
می توانید از دستور pip زیر برای نصب Aspose.Words برای پایتون در برنامه خود استفاده کنید.
pip install aspose-words
نحوه تبدیل DOCX به TXT در پایتون
Aspose.Words برای Python تبدیل DOCX به TXT را ساده می کند که می توانید طی چند مرحله انجام دهید، همانطور که در زیر ذکر شده است:
- فایل DOCX را از دیسک بارگیری کنید.
- DOCX را با فرمت TXT در مکان دلخواه ذخیره کنید.
برای استخراج متن از آن نیازی نیست کل سند Word را صفحه به صفحه یا خط به خط تجزیه کنید. حال بیایید نگاهی به نحوه انجام این مراحل در پایتون برای تبدیل فایل DOCX به فرمت TXT بیندازیم.
DOC را به عنوان TXT در پایتون ذخیره کنید
در زیر مراحل ذخیره یک فایل DOC یا DOCX به عنوان TXT در پایتون آمده است.
- فایل DOC را با استفاده از کلاس Document بارگیری کنید.
- با استفاده از روش Document.save(filePath) DOC را به عنوان TXT ذخیره کنید و مسیر فایل را به عنوان پارامتر ارسال کنید.
نمونه کد زیر نحوه تبدیل یک DOC به TXT در پایتون را نشان می دهد.
import aspose.words as aw
# فایل DOC را بارگیری کنید
doc = aw.Document("document.doc")
# DOC را به عنوان TXT ذخیره کنید
doc.save("doc-to-text.txt")
مبدل پایتون DOC به TXT - مجوز رایگان دریافت کنید
میتوانید از مجوز موقت رایگان برای تبدیل فایلهای DOC به فرمت TXT بدون محدودیت ارزیابی استفاده کنید.
نتیجه
در این مقاله با نحوه تبدیل فایل های DOC یا DOCX به فرمت TXT در پایتون آشنا شدید. با کمک نمونه کد، نحوه بارگیری و ذخیره فایل های DOCX به عنوان TXT را در مکان دلخواه در پایتون مشاهده کرده اید. علاوه بر این، میتوانید از مستندات Aspose.Words for Python دیدن کنید تا اطلاعات بیشتری در مورد کتابخانه پیدا کنید. در صورت داشتن هرگونه سوال، از طریق [تالار گفتمان4 ما را در جریان بگذارید.