Pada artikel ini, Anda akan belajar cara mengekstrak tabel dari file PDF menggunakan Python. PDF adalah format populer untuk berbagi data, namun mengekstrak tabel dari PDF bisa menjadi tugas yang menantang. Ada beberapa pustaka Python yang tersedia yang dapat membantu kita dalam tugas ini. Namun, ekstraksi data yang akurat mungkin masih kurang.
Jadi mari cari tahu cara mengekstrak data tabular dari PDF dengan akurasi tinggi dalam beberapa baris kode. Di akhir tutorial ini, Anda akan dapat mengekstrak tabel dari file PDF menggunakan Python dan memanipulasinya sesuai kebutuhan.
- Perpustakaan Python untuk Mengekstrak Tabel PDF
- Ekstrak Data dari Tabel PDF dengan Python
- Alat Online untuk Mengekstrak Tabel PDF
Perpustakaan Python untuk Mengekstrak Tabel dari PDF
Untuk mengekstrak data dari tabel dalam file PDF, kami akan menggunakan Aspose.PDF for Python. Ini adalah pustaka Python yang kuat dengan banyak fitur untuk pemrosesan dan manipulasi PDF. Anda dapat menginstal Aspose.PDF for Python menggunakan perintah pip berikut.
pip install aspose-pdf
Ekstrak Tabel dari PDF dengan Python
Berikut ini adalah langkah-langkah untuk mengekstrak data dari tabel dalam PDF menggunakan Python.
- Muat file PDF menggunakan kelas Document.
- Dapatkan referensi halaman dalam PDF tempat tabel berada.
- Inisialisasi objek TableAbsorber dan kunjungi halaman yang dipilih menggunakan metode TableAbsorber.visit(Page).
- Dalam satu lingkaran, ulangi daftar tabel di koleksi TableAbsorber.tablelist.
- Untuk setiap tabel, ulangi kumpulan baris di AbsorbedTable.rowlist.
- Untuk setiap baris yang diserap, lakukan iterasi melalui kumpulan sel di AbsorbedRow.celllist.
- Terakhir, lewati koleksi fragmen teks dari setiap sel yang diserap dan cetak teksnya.
Contoh kode berikut menunjukkan cara mengekstrak teks dari tabel PDF dengan Python.
import aspose.pdf as pdf
# Muat file PDF
pdfDocument = pdf.Document("input.pdf")
# Inisialisasi objek TableAbsorber
tableAbsorber = pdf.text.TableAbsorber()
# Parsing semua tabel di halaman pertama
tableAbsorber.visit(pdfDocument.pages[1])
# Dapatkan referensi dari tabel pertama
absorbedTable = tableAbsorber.table_list[0]
# Ulangi semua baris dalam tabel
for pdfTableRow in absorbedTable.row_list:
# Ulangi semua kolom di baris
for pdfTableCell in pdfTableRow.cell_list:
# Ambil fragmen teks
textFragmentCollection = pdfTableCell.text_fragments
# Iterasi melalui fragmen teks
for textFragment in textFragmentCollection:
# Cetak teks
print(textFragment.text)
Alat Online untuk Mengekstrak Tabel PDF
Anda juga dapat mencoba alat online gratis kami, ekstraktor tabel PDF, untuk mengekstrak tabel dari file PDF, yang didasarkan pada Aspose.PDF for Python.
Gunakan Pustaka Python PDF Gratis
Anda bisa mendapatkan lisensi sementara gratis dan mengekstrak data dari tabel dalam file PDF tanpa batasan apa pun.
Jelajahi Perpustakaan Python PDF
Anda dapat mempelajari lebih lanjut tentang pustaka Python PDF menggunakan dokumentasi. Selain itu, Anda dapat memposting pertanyaan Anda di forum kami.
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mengekstrak data dari tabel dalam PDF menggunakan Python. Anda dapat menggunakan kode yang sama dengan sedikit modifikasi untuk mengekstrak tabel dari semua halaman dalam PDF. Demikian pula, Anda dapat mengekstrak data dari semua tabel atau tabel tertentu di halaman. Cukup instal Aspose.PDF for Python di aplikasi Anda dan rasakan cara yang cepat dan mudah untuk mengekstraksi data tabular dari file PDF.