استخراج جداول PDF في بايثون

في هذه المقالة ، ستتعلم كيفية استخراج الجداول من ملفات PDF باستخدام Python. PDF هو تنسيق شائع لمشاركة البيانات ، ومع ذلك ، فإن استخراج الجداول من ملف PDF يمكن أن يكون مهمة صعبة. هناك العديد من مكتبات Python المتاحة التي يمكن أن تساعدنا في هذه المهمة. ومع ذلك ، قد يكون الاستخراج الدقيق للبيانات غير متوفر.

لذلك دعونا نتعرف على كيفية استخراج البيانات المجدولة من PDF بدقة عالية في غضون بضعة أسطر من التعليمات البرمجية. بنهاية هذا البرنامج التعليمي ، ستكون قادرًا على استخراج الجداول من ملفات PDF باستخدام Python ومعالجتها حسب الحاجة.

مكتبة Python لاستخراج الجداول من PDF

لاستخراج البيانات من الجداول في ملفات PDF ، سنستخدم Aspose.PDF for Python. إنها مكتبة Python قوية مع مجموعة من الميزات لمعالجة ومعالجة ملفات PDF. يمكنك تثبيت Aspose.PDF لبايثون باستخدام الأمر pip التالي.

pip install aspose-pdf

استخراج جدول من ملف PDF في بايثون

فيما يلي خطوات استخراج البيانات من جداول في ملف PDF باستخدام Python.

  • قم بتحميل ملف PDF باستخدام فئة المستند.
  • احصل على مرجع للصفحة في ملف PDF حيث يوجد الجدول.
  • قم بتهيئة كائن TableAbsorber وقم بزيارة الصفحة المحددة باستخدام طريقة TableAbsorber.visit (الصفحة).
  • في حلقة ، كرر خلال قائمة الجداول في مجموعة TableAbsorber.tablelist.
  • لكل جدول ، كرر خلال مجموعة الصفوف في AbsorbedTable.rowlist.
  • لكل صف ممتص ، كرر خلال مجموعة الخلايا في AbsorbedRow.celllist.
  • أخيرًا ، قم بإجراء تكرار عبر مجموعة أجزاء النص لكل خلية ممتصة وطباعة النص.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص من جدول PDF في Python.

import aspose.pdf as pdf

# قم بتحميل ملف PDF
pdfDocument = pdf.Document("input.pdf")

# تهيئة كائن TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# تحليل كل الجداول في الصفحة الأولى
tableAbsorber.visit(pdfDocument.pages[1])

# احصل على مرجع للجدول الأول
absorbedTable = tableAbsorber.table_list[0]

# كرر خلال جميع الصفوف في الجدول
for pdfTableRow in absorbedTable.row_list:
    
    # كرر عبر جميع الأعمدة في الصف
   for pdfTableCell in pdfTableRow.cell_list:
        
        # إحضار أجزاء النص
        textFragmentCollection = pdfTableCell.text_fragments
        
        # كرر خلال أجزاء النص
       for textFragment in textFragmentCollection:
            
            # اطبع النص
            print(textFragment.text)
            

أداة عبر الإنترنت لاستخراج جداول PDF

يمكنك أيضًا تجربة أداتنا المجانية عبر الإنترنت ، مستخرج جدول PDF ، لاستخراج الجداول من ملفات PDF ، والتي تستند إلى Aspose.PDF لبايثون.

استخدم مكتبة Python PDF مجانًا

يمكنك الحصول على ترخيص مؤقت مجاني واستخراج البيانات من جداول في ملفات PDF دون أي قيود.

استكشف مكتبة Python PDF

يمكنك استكشاف المزيد حول مكتبة Python PDF باستخدام التوثيق. أيضًا ، يمكنك نشر استفساراتك على المنتدى.

خاتمة

في هذه المقالة ، تعلمت كيفية استخراج البيانات من جداول في ملف PDF باستخدام Python. يمكنك استخدام نفس الكود مع تعديلات صغيرة لاستخراج الجداول من جميع الصفحات في ملف PDF. وبالمثل ، يمكنك استخراج البيانات من كل الجداول أو من جدول معين على الصفحة. ما عليك سوى تثبيت Aspose.PDF for Python في تطبيقك وتجربة طريقة سريعة وسهلة لاستخراج البيانات المجدولة من ملفات PDF.

أنظر أيضا