חלץ טבלאות PDF ב- Python

במאמר זה תלמדו כיצד לחלץ טבלאות מקובצי PDF באמצעות Python. PDF הוא פורמט פופולרי לשיתוף נתונים, עם זאת, חילוץ טבלאות מ-PDF יכול להיות משימה מאתגרת. ישנן מספר ספריות Python זמינות שיכולות לעזור לנו במשימה זו. ובכל זאת, מיצוי מדויק של נתונים עשוי להיות חסר.

אז בואו נגלה כיצד לחלץ נתונים טבלאיים מ-PDF עם דיוק גבוה בתוך כמה שורות קוד. בסוף מדריך זה, תוכל לחלץ טבלאות מקובצי PDF באמצעות Python ולתפעל אותן לפי הצורך.

ספריית Python לחילוץ טבלאות מ-PDF

כדי לחלץ נתונים מהטבלאות בקבצי PDF, נשתמש ב-Aspose.PDF for Python. זוהי ספריית Python רבת עוצמה עם שלל תכונות לעיבוד ומניפולציה של PDF. אתה יכול להתקין את Aspose.PDF עבור Python באמצעות הפקודה pip הבאה.

pip install aspose-pdf

חלץ טבלה מ-PDF ב-Python

להלן השלבים לחילוץ נתונים מטבלאות ב-PDF באמצעות Python.

  • טען את קובץ ה-PDF באמצעות המחלקה Document.
  • קבל הפניה לדף ב-PDF שבו נמצאת הטבלה.
  • אתחול האובייקט TableAbsorber ובקר בדף הנבחר באמצעות שיטת TableAbsorber.visit(Page).
  • בלולאה, חזור על רשימת הטבלאות באוסף TableAbsorber.tablelist.
  • עבור כל טבלה, חזור על אוסף השורות ב- AbsorbedTable.rowlist.
  • עבור כל שורה שנקלטה, חזור על אוסף התאים ב- AbsorbedRow.celllist.
  • לבסוף, עברו דרך אוסף קטעי הטקסט של כל תא שנקלט והדפיסו את הטקסט.

דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מטבלת PDF ב- Python.

import aspose.pdf as pdf

# טען קובץ PDF
pdfDocument = pdf.Document("input.pdf")

# אתחול אובייקט TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# נתח את כל הטבלאות בעמוד הראשון
tableAbsorber.visit(pdfDocument.pages[1])

# קבל הפניה לטבלה הראשונה
absorbedTable = tableAbsorber.table_list[0]

# חזור על כל השורות בטבלה
for pdfTableRow in absorbedTable.row_list:
    
    # חזור על כל העמודות בשורה
   for pdfTableCell in pdfTableRow.cell_list:
        
        # אחזר את קטעי הטקסט
        textFragmentCollection = pdfTableCell.text_fragments
        
        # חזור על קטעי הטקסט
       for textFragment in textFragmentCollection:
            
            # הדפס את הטקסט
            print(textFragment.text)
            

כלי מקוון לחילוץ טבלאות PDF

אתה יכול גם לנסות את הכלי המקוון החינמי שלנו, מחלץ טבלאות PDF, כדי לחלץ טבלאות מקובצי PDF, המבוסס על Aspose.PDF עבור Python.

השתמש בספריית PDF של Python בחינם

אתה יכול לקבל [רישיון זמני] בחינם3 ולחלץ נתונים מטבלאות בקבצי PDF ללא כל הגבלה.

חקור את ספריית ה-PDF של Python

אתה יכול לחקור עוד על ספריית ה-PDF של Python באמצעות תיעוד. כמו כן, אתה יכול לפרסם את השאילתות שלך בפורום שלנו.

סיכום

במאמר זה, למדת כיצד לחלץ נתונים מטבלאות ב-PDF באמצעות Python. אתה יכול להשתמש באותו קוד עם שינויים קטנים כדי לחלץ טבלאות מכל הדפים ב-PDF. באופן דומה, ניתן לחלץ נתונים מכל הטבלאות או מטבלה מסוימת בדף. כל שעליך לעשות הוא להתקין את Aspose.PDF עבור Python ביישום שלך ולחוות דרך מהירה וקלה לחילוץ נתונים טבלאיים מקובצי PDF.

ראה גם