แยกตาราง PDF ใน Python

ในบทความนี้ คุณจะได้เรียนรู้วิธีแยกตารางออกจากไฟล์ PDF โดยใช้ Python PDF เป็นรูปแบบยอดนิยมสำหรับการแบ่งปันข้อมูล อย่างไรก็ตาม การแยกตารางออกจาก PDF อาจเป็นงานที่ท้าทาย มีห้องสมุด Python หลายแห่งที่สามารถช่วยเราทำงานนี้ได้ ยังคงขาดการสกัดข้อมูลที่แม่นยำ

มาดูวิธีแยกข้อมูลแบบตารางจาก PDF ด้วยความแม่นยำสูงภายในโค้ดไม่กี่บรรทัด ในตอนท้ายของบทช่วยสอนนี้ คุณจะสามารถแยกตารางออกจากไฟล์ PDF โดยใช้ Python และจัดการได้ตามต้องการ

Python Library เพื่อแยกตารางออกจาก PDF

ในการดึงข้อมูลจากตารางในไฟล์ PDF เราจะใช้ Aspose.PDF for Python เป็นห้องสมุด Python ที่ทรงพลังพร้อมคุณสมบัติมากมายสำหรับการประมวลผลและการจัดการ PDF คุณสามารถติดตั้ง Aspose.PDF for Python โดยใช้คำสั่ง pip ต่อไปนี้

pip install aspose-pdf

แยกตารางจาก PDF ใน Python

ต่อไปนี้เป็นขั้นตอนในการดึงข้อมูลจากตารางใน PDF โดยใช้ Python

  • โหลดไฟล์ PDF โดยใช้คลาส Document
  • รับการอ้างอิงของหน้าใน PDF ซึ่งเป็นที่ตั้งของตาราง
  • เริ่มต้นวัตถุ TableAbsorber และเยี่ยมชมหน้าที่เลือกโดยใช้เมธอด TableAbsorber.visit(Page)
  • วนซ้ำผ่านรายการของตารางในคอลเลกชัน TableAbsorber.tablelist
  • สำหรับแต่ละตาราง ให้วนซ้ำผ่านคอลเลกชันของแถวใน AbsorbedTable.rowlist
  • สำหรับแต่ละแถวที่ดูดซับ ให้วนซ้ำผ่านคอลเลกชันของเซลล์ใน AbsorbedRow.celllist
  • สุดท้าย วนซ้ำคอลเลกชัน textfragments ของแต่ละเซลล์ที่ดูดซับและพิมพ์ข้อความ

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากตาราง PDF ใน Python

import aspose.pdf as pdf

# โหลดไฟล์ PDF
pdfDocument = pdf.Document("input.pdf")

# เริ่มต้นวัตถุ TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# แยกตารางทั้งหมดในหน้าแรก
tableAbsorber.visit(pdfDocument.pages[1])

# รับข้อมูลอ้างอิงของตารางแรก
absorbedTable = tableAbsorber.table_list[0]

# วนซ้ำทุกแถวในตาราง
for pdfTableRow in absorbedTable.row_list:
    
    # วนซ้ำทุกคอลัมน์ในแถว
   for pdfTableCell in pdfTableRow.cell_list:
        
        # ดึงชิ้นส่วนข้อความ
        textFragmentCollection = pdfTableCell.text_fragments
        
        # วนซ้ำผ่านส่วนย่อยของข้อความ
       for textFragment in textFragmentCollection:
            
            # พิมพ์ข้อความ
            print(textFragment.text)
            

เครื่องมือออนไลน์เพื่อแยกตาราง PDF

คุณยังสามารถลองใช้เครื่องมือออนไลน์ฟรีของเรา ตัวแยกตาราง PDF เพื่อแยกตารางออกจากไฟล์ PDF ซึ่งใช้ Aspose.PDF for Python

ใช้ Python PDF Library ฟรี

คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี และดึงข้อมูลจากตารางในไฟล์ PDF ได้โดยไม่มีข้อจำกัดใดๆ

สำรวจห้องสมุด Python PDF

คุณสามารถสำรวจเพิ่มเติมเกี่ยวกับไลบรารี Python PDF โดยใช้ เอกสารประกอบ นอกจากนี้ คุณสามารถโพสต์คำถามของคุณบน ฟอรัม ของเรา

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อมูลจากตารางใน PDF โดยใช้ Python คุณสามารถใช้รหัสเดียวกันกับการปรับเปลี่ยนเล็กน้อยเพื่อแยกตารางจากทุกหน้าใน PDF ในทำนองเดียวกัน คุณสามารถแยกข้อมูลจากตารางทั้งหมดหรือตารางใดตารางหนึ่งบนเพจ เพียงติดตั้ง Aspose.PDF for Python ในแอปพลิเคชันของคุณ แล้วสัมผัสวิธีที่ง่ายและรวดเร็วในการแยกข้อมูลแบบตารางออกจากไฟล์ PDF

ดูสิ่งนี้ด้วย