متن را از PDF در پایتون استخراج کنید

به عنوان یک برنامه نویس، ممکن است نیاز داشته باشید که دسته ای از فایل های PDF را پردازش کرده و متن را از آنها استخراج کنید. استخراج متن از PDF می تواند برای اهداف مختلفی مانند تجزیه و تحلیل متن مورد نیاز باشد. در این مقاله قصد داریم نشان دهیم که استخراج متن از یک فایل PDF در پایتون چقدر آسان است. علاوه بر این، با نحوه استخراج متن و ذخیره در یک فایل TXT آشنا خواهید شد.

کتابخانه Python برای استخراج متن از PDF - دانلود رایگان

Aspose.Words for Python یک کتابخانه شگفت انگیز است که به شما امکان می دهد اسناد متنی را به صورت یکپارچه ایجاد و پردازش کنید. می توانید اسناد فرمت های محبوب مانند DOC، DOCX و PDF را دستکاری کنید. ما قصد داریم از این کتابخانه برای استخراج متن روی فایل های PDF خود استفاده کنیم. با استفاده از دستور pip زیر می توانید کتابخانه را از PyPI نصب کنید.

> pip install aspose-words

نحوه استخراج متن از PDF در پایتون

Aspose.Words برای Python استخراج متن PDF را با پنهان کردن عملیات پیچیده از کاربر بسیار آسان کرده است. شما فقط باید فایل PDF را بارگذاری کنید و متن استخراج شده را ذخیره کنید. مراحل زیر نحوه استخراج متن از PDF را با استفاده از Aspose.Words برای پایتون نشان می دهد.

  • فایل PDF را از محل مورد نظر بارگیری کنید.
  • متن را استخراج و در یک فایل txt ذخیره کنید.

و همین است. سپس می توانید فایل txt. را پردازش کرده و متن ساده استخراج شده از PDF را دستکاری کنید.

حالا بیایید نگاهی به نحوه استخراج متن از PDF به صورت برنامه نویسی در پایتون بیندازیم.

استخراج متن از PDF در پایتون

در زیر مراحل به همراه کلاس ها و روش های استخراج متن PDF در پایتون آمده است.

  • فایل PDF را با استفاده از کلاس Document بارگیری کنید.
  • با استفاده از روش Document.save(fileName) متن را از PDF به یک فایل txt. استخراج کنید.

نمونه کد زیر استخراج متن از یک فایل PDF در پایتون را نشان می دهد.

# Aspose.Words را برای ماژول پایتون وارد کنید
import aspose.words as aw

# فایل PDF را بارگیری کنید
pdf = aw.Document("file.pdf")

# متن را در یک فایل TXT استخراج و ذخیره کنید
pdf.save("extracted-text.txt")

تصویر زیر فایل PDF ورودی را نشان می دهد که برای استخراج متن استفاده کرده ایم.

PDF برای استخراج متن در پایتون

تصویر زیر متن استخراج شده را در یک فایل TXT نشان می دهد.

متن از PDF به TXT استخراج شد

استخراج متن PDF برای پایتون - مجوز رایگان دریافت کنید

برای استخراج متن از PDF بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

نتیجه

در این مقاله نحوه استخراج متن از فایل های PDF در پایتون را یاد گرفتید. دیده اید که چقدر راحت و سریع می توانید متن را از PDF استخراج کنید و آن را در یک فایل TXT به صورت برنامه ریزی شده ذخیره کنید. اکنون می توانید استخراج متن را برای دسته ای از فایل های PDF در برنامه های پایتون خود پیاده سازی کنید.

استخراج متن PDF Aspose را برای پایتون کاوش کنید

می‌توانید سایر ویژگی‌های Aspose.Words برای پایتون را با استفاده از مستندات کاوش کنید. در صورت داشتن هرگونه سوال، از طریق [تالار گفتمان7 ما را در جریان بگذارید.

همچنین ببینید