Ekstrak Tabel PDF dengan Python

Pada artikel ini, Anda akan belajar cara mengekstrak tabel dari file PDF menggunakan Python. PDF adalah format populer untuk berbagi data, namun mengekstrak tabel dari PDF bisa menjadi tugas yang menantang. Ada beberapa pustaka Python yang tersedia yang dapat membantu kita dalam tugas ini. Namun, ekstraksi data yang akurat mungkin masih kurang.

Jadi mari cari tahu cara mengekstrak data tabular dari PDF dengan akurasi tinggi dalam beberapa baris kode. Di akhir tutorial ini, Anda akan dapat mengekstrak tabel dari file PDF menggunakan Python dan memanipulasinya sesuai kebutuhan.

Perpustakaan Python untuk Mengekstrak Tabel dari PDF

Untuk mengekstrak data dari tabel dalam file PDF, kami akan menggunakan Aspose.PDF for Python. Ini adalah pustaka Python yang kuat dengan banyak fitur untuk pemrosesan dan manipulasi PDF. Anda dapat menginstal Aspose.PDF for Python menggunakan perintah pip berikut.

pip install aspose-pdf

Ekstrak Tabel dari PDF dengan Python

Berikut ini adalah langkah-langkah untuk mengekstrak data dari tabel dalam PDF menggunakan Python.

  • Muat file PDF menggunakan kelas Document.
  • Dapatkan referensi halaman dalam PDF tempat tabel berada.
  • Inisialisasi objek TableAbsorber dan kunjungi halaman yang dipilih menggunakan metode TableAbsorber.visit(Page).
  • Dalam satu lingkaran, ulangi daftar tabel di koleksi TableAbsorber.tablelist.
  • Untuk setiap tabel, ulangi kumpulan baris di AbsorbedTable.rowlist.
  • Untuk setiap baris yang diserap, lakukan iterasi melalui kumpulan sel di AbsorbedRow.celllist.
  • Terakhir, lewati koleksi fragmen teks dari setiap sel yang diserap dan cetak teksnya.

Contoh kode berikut menunjukkan cara mengekstrak teks dari tabel PDF dengan Python.

import aspose.pdf as pdf

# Muat file PDF
pdfDocument = pdf.Document("input.pdf")

# Inisialisasi objek TableAbsorber
tableAbsorber =  pdf.text.TableAbsorber()

# Parsing semua tabel di halaman pertama
tableAbsorber.visit(pdfDocument.pages[1])

# Dapatkan referensi dari tabel pertama
absorbedTable = tableAbsorber.table_list[0]

# Ulangi semua baris dalam tabel
for pdfTableRow in absorbedTable.row_list:
    
    # Ulangi semua kolom di baris
   for pdfTableCell in pdfTableRow.cell_list:
        
        # Ambil fragmen teks
        textFragmentCollection = pdfTableCell.text_fragments
        
        # Iterasi melalui fragmen teks
       for textFragment in textFragmentCollection:
            
            # Cetak teks
            print(textFragment.text)
            

Alat Online untuk Mengekstrak Tabel PDF

Anda juga dapat mencoba alat online gratis kami, ekstraktor tabel PDF, untuk mengekstrak tabel dari file PDF, yang didasarkan pada Aspose.PDF for Python.

Gunakan Pustaka Python PDF Gratis

Anda bisa mendapatkan lisensi sementara gratis dan mengekstrak data dari tabel dalam file PDF tanpa batasan apa pun.

Jelajahi Perpustakaan Python PDF

Anda dapat mempelajari lebih lanjut tentang pustaka Python PDF menggunakan dokumentasi. Selain itu, Anda dapat memposting pertanyaan Anda di forum kami.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak data dari tabel dalam PDF menggunakan Python. Anda dapat menggunakan kode yang sama dengan sedikit modifikasi untuk mengekstrak tabel dari semua halaman dalam PDF. Demikian pula, Anda dapat mengekstrak data dari semua tabel atau tabel tertentu di halaman. Cukup instal Aspose.PDF for Python di aplikasi Anda dan rasakan cara yang cepat dan mudah untuk mengekstraksi data tabular dari file PDF.

Lihat juga