آیا به دنبال راهی آسان برای استخراج متن از فایل های PDF هستید؟ اگر بله، همانطور که در این مقاله آمده است به مکان مناسبی رسیده اید، یاد خواهید گرفت که چگونه یک فایل PDF را به متن ساده در پایتون تبدیل کنید.

تبدیل PDF به متن در پایتون

PDF به دلیل پشتیبانی از پلتفرم متقابل، یک قالب سند شناخته شده و مورد استفاده جهانی است. بسیاری از مردم ترجیح می دهند اسناد را در قالب PDF به اشتراک بگذارند و چاپ کنند. از آنجایی که PDF بسیار در کار است، ممکن است برای تجزیه و تحلیل متن یا پردازش بیشتر نیاز به استخراج متن ساده از چندین فایل PDF به صورت برنامه ای داشته باشید. بنابراین بیایید ببینیم که چگونه می توان PDF به متن را از داخل یک برنامه پایتون انجام داد.

کتابخانه تبدیل PDF به متن پایتون - دانلود رایگان

Aspose.Words for Python یک کتابخانه قدرتمند است که برای دستکاری فرمت های رایج اسناد متنی، که عمدتاً شامل فایل های MS Word و PDF هستند، طراحی شده است. با استفاده از کتابخانه، می توانید به راحتی متن موجود در اسناد را پردازش کنید. ما از این کتابخانه برای تبدیل فایل های PDF به متن ساده (TXT) استفاده خواهیم کرد.

می توانید از دستور pip زیر برای نصب Aspose.Words برای پایتون در برنامه خود استفاده کنید.

pip install aspose-words

نحوه تبدیل PDF به متن در پایتون

برای تبدیل یک فایل PDF به متن ساده با استفاده از Aspose.Words برای پایتون، مراحل زیر را انجام می دهیم:

  • سند PDF را از دیسک بارگیری کنید.
  • PDF را به عنوان فرمت TXT در مکان دلخواه ذخیره کنید.

و بس.

حال، بیایید ببینیم که چگونه این مراحل را در پایتون برای تبدیل یک فایل PDF به فرمت TXT انجام دهیم.

PDF را به عنوان فایل TXT در پایتون ذخیره کنید

در زیر مراحل ذخیره یک فایل PDF به عنوان TXT در پایتون آمده است.

  • فایل PDF را با استفاده از کلاس Document بارگیری کنید.
  • PDF را به صورت TXT با استفاده از متد Document.save() ذخیره کنید و مسیر فایل را به عنوان پارامتر ارسال کنید.

نمونه کد زیر نحوه تبدیل یک فایل PDF به متن (TXT) در پایتون را نشان می دهد.

import aspose.words as aw

# فایل PDF را بارگیری کنید
doc = aw.Document("document.pdf")

# PDF را به صورت TXT ذخیره کنید
doc.save("pdf-to-text.txt")

مبدل پایتون PDF به TXT - مجوز رایگان دریافت کنید

می‌توانید از مجوز موقت رایگان برای ذخیره فایل‌های PDF به‌عنوان فایل‌های TXT بدون محدودیت ارزیابی استفاده کنید.

نتیجه

در این مقاله با نحوه تبدیل فایل های PDF به متن در پایتون آشنا شدید. با کمک نمونه کد، نحوه بارگیری و ذخیره PDF را به عنوان فایل TXT در مکان مورد نظر در پایتون مشاهده کرده اید. علاوه بر این، می‌توانید از مستندات Aspose.Words for Python دیدن کنید تا اطلاعات بیشتری در مورد کتابخانه پیدا کنید. در صورت داشتن هرگونه سوال، از طریق [تالار گفتمان4 ما را در جریان بگذارید.

همچنین ببینید