PDF یک فرمت فایل شناخته شده است که طرحبندی ثابتی از سند را در پلتفرمهای ناهمگن ارائه میدهد. مجموعه ای از ویژگی ها و عناصر را برای ایجاد اسناد متنی غنی فراهم می کند. با این حال، در موارد خاص، به عنوان مثال برای تجزیه متن در سند، باید فایلهای PDF را به صورت برنامهنویسی به فرمت TXT تبدیل کنید. برای انجام این کار، این مقاله نحوه تبدیل یک فایل PDF به فرمت TXT در پایتون را پوشش می دهد.
کتابخانه تبدیل PDF به TXT پایتون
برای ذخیره فایلهای PDF در قالب TXT، از Aspose.Words برای Python استفاده میکنیم. این یک کتابخانه قدرتمند پایتون است که به شما امکان ایجاد و دستکاری اسناد متنی را می دهد. می توانید کتابخانه را در برنامه پایتون خود از PyPI با استفاده از دستور pip زیر نصب کنید.
> pip install aspose-words
نحوه تبدیل PDF به TXT در پایتون
بیایید ببینیم چگونه یک فایل PDF را در پایتون به TXT تبدیل کنیم. برای این کار فقط باید فایل PDF را بارگذاری کنید و آن را به عنوان یک فایل TXT ذخیره کنید. در زیر مراحل ذخیره یک فایل PDF با فرمت TXT در پایتون آمده است.
- فایل PDF را با استفاده از کلاس Document بارگیری کنید.
- با استفاده از روش ()Document.save PDF را به صورت TXT ذخیره کنید.
نمونه کد زیر نحوه انجام تبدیل PDF به TXT در پایتون را نشان می دهد.
import aspose.words as aw
# فایل PDF را بارگیری کنید
doc = aw.Document("Input.pdf")
# تبدیل PDF به TXT
doc.save("Output.txt")
مجوز رایگان دریافت کنید
برای استفاده از Aspose.Words برای Python بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.
نتیجه
در این مقاله با نحوه تبدیل فایل های PDF به فرمت TXT در پایتون آشنا شدید. بنابراین، می توانید متن در فایل های PDF را راحت تر پردازش کنید. شما به سادگی می توانید Aspose.Words را برای پایتون نصب کنید و تبدیل PDF به TXT را از داخل برنامه های پایتون خود انجام دهید. علاوه بر این، میتوانید با استفاده از مستندات درباره کتابخانه اطلاعات بیشتری کسب کنید. همچنین، میتوانید سؤالات یا سؤالات خود را از طریق [فروم 7 ما به اشتراک بگذارید.