استخراج جداول PDF در پایتون

در این مقاله نحوه استخراج جداول از فایل های پی دی اف با استفاده از پایتون را خواهید آموخت. PDF یک فرمت محبوب برای به اشتراک گذاری داده است، با این حال، استخراج جداول از PDF می تواند یک کار چالش برانگیز باشد. چندین کتابخانه پایتون وجود دارد که می‌توانند در انجام این کار به ما کمک کنند. با این حال، استخراج دقیق داده ها ممکن است وجود نداشته باشد.

بنابراین بیایید دریابیم که چگونه داده های جدولی را از PDF با دقت بالا در چند خط کد استخراج کنیم. در پایان این آموزش، شما قادر خواهید بود جداول را با استفاده از پایتون از فایل های PDF استخراج کرده و در صورت نیاز آنها را دستکاری کنید.

کتابخانه پایتون برای استخراج جداول از PDF

برای استخراج داده‌ها از جداول در فایل‌های PDF، از Aspose.PDF برای Python استفاده می‌کنیم. این یک کتابخانه قدرتمند پایتون با مجموعه ای از ویژگی ها برای پردازش و دستکاری PDF است. با استفاده از دستور پیپ زیر می توانید Aspose.PDF را برای پایتون نصب کنید.

pip install aspose-pdf

یک جدول را از PDF در پایتون استخراج کنید

در زیر مراحل استخراج داده ها از جداول در یک PDF با استفاده از پایتون آمده است.

  • فایل PDF را با استفاده از کلاس Document بارگیری کنید.
  • دریافت مرجع صفحه در PDF که در آن جدول قرار دارد.
  • شی TableAbsorber را مقداردهی اولیه کنید و با استفاده از روش TableAbsorber.visit(Page) از صفحه انتخاب شده بازدید کنید.
  • در یک حلقه، لیست جداول موجود در مجموعه TableAbsorber.tablelist را تکرار کنید.
  • برای هر جدول، از میان مجموعه سطرها در AbsorbedTable.rowlist تکرار کنید.
  • برای هر ردیف جذب شده، از طریق مجموعه سلول ها در AbsorbedRow.celllist تکرار کنید.
  • در نهایت، از میان مجموعه تکه‌های متنی هر سلول جذب شده حلقه بزنید و متن را چاپ کنید.

نمونه کد زیر نحوه استخراج متن از جدول PDF در پایتون را نشان می دهد.

import aspose.pdf as pdf

# فایل PDF را بارگیری کنید
pdfDocument = pdf.Document("input.pdf")

# شی TableAbsorber را راه اندازی کنید
tableAbsorber =  pdf.text.TableAbsorber()

# تمام جداول صفحه اول را تجزیه کنید
tableAbsorber.visit(pdfDocument.pages[1])

# یک مرجع از جدول اول دریافت کنید
absorbedTable = tableAbsorber.table_list[0]

# تمام سطرهای جدول را تکرار کنید
for pdfTableRow in absorbedTable.row_list:
    
    # در تمام ستون های ردیف تکرار کنید
   for pdfTableCell in pdfTableRow.cell_list:
        
        # تکه های متن را واکشی کنید
        textFragmentCollection = pdfTableCell.text_fragments
        
        # از طریق قطعات متن تکرار کنید
       for textFragment in textFragmentCollection:
            
            # متن را چاپ کنید
            print(textFragment.text)
            

ابزار آنلاین برای استخراج جداول PDF

همچنین می‌توانید ابزار آنلاین رایگان ما، PDF table استخراج، را برای استخراج جداول از فایل‌های PDF، که بر اساس Aspose.PDF برای Python است، امتحان کنید.

از کتابخانه PDF Python به صورت رایگان استفاده کنید

می توانید یک [مجوز موقت رایگان] دریافت کنید و داده ها را از جداول در فایل های PDF بدون هیچ محدودیتی استخراج کنید.

کتابخانه PDF Python را کاوش کنید

می‌توانید با استفاده از مستندات اطلاعات بیشتری درباره کتابخانه PDF Python کاوش کنید. همچنین، می توانید سوالات خود را در تالار گفتمان ما ارسال کنید.

نتیجه

در این مقاله نحوه استخراج داده ها از جداول در یک PDF با استفاده از پایتون را یاد گرفتید. می توانید از همان کد با تغییرات کوچک برای استخراج جداول از تمام صفحات یک PDF استفاده کنید. به طور مشابه، می توانید داده ها را از تمام جداول یا یک جدول خاص در یک صفحه استخراج کنید. به سادگی Aspose.PDF برای Python را در برنامه خود نصب کنید و یک روش سریع و آسان برای استخراج داده های جدولی از فایل های PDF را تجربه کنید.

همچنین ببینید