استخراج متن از PDF در پایتون

هنگام پردازش فایل‌های PDF، اغلب نیاز دارید که محتوا را از صفحات به صورت متن ساده استخراج کنید. این متن ساده را می توان برای اهداف مختلفی مانند تجزیه و تحلیل متن، پردازش متن و غیره استفاده کرد. در این مقاله نحوه استخراج متن از PDF در پایتون را خواهید آموخت. با کمک نمونه کد، مقاله نحوه استخراج متن را در کل PDF یا یک صفحه نشان می دهد.

کتابخانه پایتون برای استخراج متن از PDF

برای استخراج متن از فایل‌های PDF، از Aspose.PDF برای پایتون استفاده می‌کنیم. این یک کتابخانه قدرتمند دستکاری PDF است که به شما امکان می دهد فایل های PDF را ایجاد و پردازش کنید. علاوه بر این، به شما امکان تبدیل فایل های PDF به فرمت های دیگر را می دهد.

با استفاده از دستور پیپ زیر می توانید Aspose.PDF را برای پایتون نصب کنید.

pip install aspose-pdf

متن را از PDF در پایتون استخراج کنید

در زیر مراحل استخراج متن از PDF در پایتون آمده است.

  • برای بارگذاری فایل PDF از کلاس Document استفاده کنید.
  • یک نمونه از کلاس TextDevice ایجاد کنید.
  • یک حلقه برای تعداد صفحات بار شروع کنید.
  • در هر تکرار، متنی را از یک صفحه با استفاده از روش TextDevice.process() استخراج کنید و متن استخراج شده را در فایل txt ذخیره کنید.

نمونه کد زیر نحوه استخراج متن از PDF در پایتون را نشان می دهد.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# سند PDF را باز کنید
document = ap.Document("input.pdf")

# دستگاه متنی ایجاد کنید
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # صادرات صفحه به TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

متن را از یک صفحه خاص در PDF استخراج کنید

همچنین می توانید با استفاده از شماره صفحه در آرایه Document.pages متن را از یک صفحه خاص از PDF استخراج کنید. نمونه کد زیر نحوه استخراج متن از یک صفحه خاص در PDF را نشان می دهد.

import aspose.pdf as ap

# سند PDF را باز کنید
document = ap.Document("input.pdf")

# دستگاه متنی ایجاد کنید
textDevice = ap.devices.TextDevice()

# متن را از صفحه اول استخراج کنید
textDevice.process(document.pages[1], "extracted_text.txt")

متن را از PDF آنلاین استخراج کنید

همچنین می‌توانید از ابزار آنلاین استخراج متن PDF ما برای استخراج متن از فایل‌های PDF استفاده کنید. این یک ابزار رایگان است که می توانید بدون هیچ گونه اشتراک یا ثبت نام از آن استفاده کنید.

کتابخانه رایگان استخراج متن PDF

مجوز موقت رایگان خود را دریافت کنید و متن را از فایل های PDF بدون هیچ محدودیتی استخراج کنید.

کتابخانه PDF Python را کاوش کنید

با استفاده از مستندات می‌توانید اطلاعات بیشتری درباره کتابخانه PDF Python کاوش کنید. علاوه بر این، می توانید سوالات خود را در [تالار گفتمان] ما ارسال کنید.

نتیجه

در این مقاله نحوه استخراج متن از PDF در پایتون را یاد گرفتید. مراحل و نمونه کد نحوه استخراج متن از یک PDF کامل یا یک صفحه خاص را نشان داده اند. شما به راحتی می توانید کتابخانه را نصب کنید و متن را از داخل برنامه های پایتون خود استخراج کنید.

همچنین ببینید