هنگام پردازش فایلهای PDF، اغلب نیاز دارید که محتوا را از صفحات به صورت متن ساده استخراج کنید. این متن ساده را می توان برای اهداف مختلفی مانند تجزیه و تحلیل متن، پردازش متن و غیره استفاده کرد. در این مقاله نحوه استخراج متن از PDF در پایتون را خواهید آموخت. با کمک نمونه کد، مقاله نحوه استخراج متن را در کل PDF یا یک صفحه نشان می دهد.
- کتابخانه پایتون برای استخراج متن از PDF
- متن را از PDF در پایتون استخراج کنید
- متن را از یک صفحه در PDF استخراج کنید
- استخراج متن PDF آنلاین
کتابخانه پایتون برای استخراج متن از PDF
برای استخراج متن از فایلهای PDF، از Aspose.PDF برای پایتون استفاده میکنیم. این یک کتابخانه قدرتمند دستکاری PDF است که به شما امکان می دهد فایل های PDF را ایجاد و پردازش کنید. علاوه بر این، به شما امکان تبدیل فایل های PDF به فرمت های دیگر را می دهد.
با استفاده از دستور پیپ زیر می توانید Aspose.PDF را برای پایتون نصب کنید.
pip install aspose-pdf
متن را از PDF در پایتون استخراج کنید
در زیر مراحل استخراج متن از PDF در پایتون آمده است.
- برای بارگذاری فایل PDF از کلاس Document استفاده کنید.
- یک نمونه از کلاس TextDevice ایجاد کنید.
- یک حلقه برای تعداد صفحات بار شروع کنید.
- در هر تکرار، متنی را از یک صفحه با استفاده از روش TextDevice.process() استخراج کنید و متن استخراج شده را در فایل txt ذخیره کنید.
نمونه کد زیر نحوه استخراج متن از PDF در پایتون را نشان می دهد.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# سند PDF را باز کنید
document = ap.Document("input.pdf")
# دستگاه متنی ایجاد کنید
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# صادرات صفحه به TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
متن را از یک صفحه خاص در PDF استخراج کنید
همچنین می توانید با استفاده از شماره صفحه در آرایه Document.pages متن را از یک صفحه خاص از PDF استخراج کنید. نمونه کد زیر نحوه استخراج متن از یک صفحه خاص در PDF را نشان می دهد.
import aspose.pdf as ap
# سند PDF را باز کنید
document = ap.Document("input.pdf")
# دستگاه متنی ایجاد کنید
textDevice = ap.devices.TextDevice()
# متن را از صفحه اول استخراج کنید
textDevice.process(document.pages[1], "extracted_text.txt")
متن را از PDF آنلاین استخراج کنید
همچنین میتوانید از ابزار آنلاین استخراج متن PDF ما برای استخراج متن از فایلهای PDF استفاده کنید. این یک ابزار رایگان است که می توانید بدون هیچ گونه اشتراک یا ثبت نام از آن استفاده کنید.
کتابخانه رایگان استخراج متن PDF
مجوز موقت رایگان خود را دریافت کنید و متن را از فایل های PDF بدون هیچ محدودیتی استخراج کنید.
کتابخانه PDF Python را کاوش کنید
با استفاده از مستندات میتوانید اطلاعات بیشتری درباره کتابخانه PDF Python کاوش کنید. علاوه بر این، می توانید سوالات خود را در [تالار گفتمان] ما ارسال کنید.
نتیجه
در این مقاله نحوه استخراج متن از PDF در پایتون را یاد گرفتید. مراحل و نمونه کد نحوه استخراج متن از یک PDF کامل یا یک صفحه خاص را نشان داده اند. شما به راحتی می توانید کتابخانه را نصب کنید و متن را از داخل برنامه های پایتون خود استخراج کنید.