
Bu makalede, Python kullanarak PDF dosyalarından tabloları nasıl çıkaracağınızı öğreneceksiniz. PDF, veri paylaşımı için popüler bir formattır, ancak bir PDF’den tabloları çıkarmak zorlu bir görev olabilir. Bu görevde bize yardımcı olabilecek birkaç Python kütüphanesi var. Yine de, verilerin doğru bir şekilde çıkarılması eksik olabilir.
Öyleyse, birkaç satır kodla PDF’den tablo verilerini yüksek doğrulukla nasıl çıkaracağımızı öğrenelim. Bu eğitimin sonunda, Python kullanarak PDF dosyalarından tabloları çıkarabilecek ve bunları gerektiği gibi değiştirebileceksiniz.
- PDF Tablolarını Ayıklamak için Python Kitaplığı
- Python’da PDF Tablolarından Veri Çıkarma
- PDF Tablolarını Çıkarmak için Çevrimiçi Araç
Tabloları PDF’den Çıkarmak için Python Kitaplığı
PDF dosyalarındaki tablolardan veri çıkarmak için Aspose.PDF for Python kullanacağız. PDF işleme ve işleme için bir dizi özelliğe sahip güçlü bir Python kitaplığıdır. Aşağıdaki pip komutunu kullanarak Aspose.PDF for Python’u kurabilirsiniz.
pip install aspose-pdf
Python’da PDF’den Tablo Çıkarma
Python kullanarak bir PDF’deki tablolardan veri ayıklamak için izlenecek adımlar aşağıdadır.
- Document sınıfını kullanarak PDF dosyasını yükleyin.
- Tablonun bulunduğu sayfanın referansını PDF olarak alın.
- TableAbsorber nesnesini başlatın ve TableAbsorber.visit(Page) yöntemini kullanarak seçilen sayfayı ziyaret edin.
- Bir döngüde, TableAbsorber.tablelist koleksiyonundaki tabloların listesini yineleyin.
- Her tablo için, AbsorbedTable.rowlist içindeki satır koleksiyonunu yineleyin.
- Emilen her satır için, AbsorbedRow.celllist’teki hücre koleksiyonunu yineleyin.
- Son olarak, emilen her hücrenin metin parçaları koleksiyonunda dolaşın ve metni yazdırın.
Aşağıdaki kod örneği, Python’da PDF tablosundan nasıl metin çıkarılacağını gösterir.
import aspose.pdf as pdf
# PDF dosyasını yükle
pdfDocument = pdf.Document("input.pdf")
# TableAbsorber nesnesini başlat
tableAbsorber = pdf.text.TableAbsorber()
# İlk sayfadaki tüm tabloları ayrıştır
tableAbsorber.visit(pdfDocument.pages[1])
# İlk tablonun referansını alın
absorbedTable = tableAbsorber.table_list[0]
# Tablodaki tüm satırları yineleyin
for pdfTableRow in absorbedTable.row_list:
# Satırdaki tüm sütunları yineleyin
for pdfTableCell in pdfTableRow.cell_list:
# Metin parçalarını getir
textFragmentCollection = pdfTableCell.text_fragments
# Metin parçalarını yineleyin
for textFragment in textFragmentCollection:
# metni yazdır
print(textFragment.text)
PDF Tablolarını Çıkarmak için Çevrimiçi Araç
Aspose.PDF for Python tabanlı PDF dosyalarından tablolar çıkarmak için ücretsiz çevrimiçi aracımız PDF tablo çıkarıcı‘ı da deneyebilirsiniz.

Python PDF Kitaplığını Ücretsiz Kullanın
Ücretsiz geçici lisans alabilir ve herhangi bir sınırlama olmaksızın PDF dosyalarındaki tablolardan veri çıkarabilirsiniz.
Python PDF Kitaplığını Keşfedin
Belgeleri kullanarak Python PDF kitaplığı hakkında daha fazlasını keşfedebilirsiniz. Ayrıca, sorularınızı forumumuza gönderebilirsiniz.
Çözüm
Bu makalede, Python kullanarak bir PDF’deki tablolardan nasıl veri çıkarılacağını öğrendiniz. Bir PDF’deki tüm sayfalardan tabloları çıkarmak için aynı kodu küçük değişikliklerle kullanabilirsiniz. Benzer şekilde, bir sayfadaki tüm tablolardan veya belirli bir tablodan veri çıkarabilirsiniz. Aspose.PDF for Python’u uygulamanıza kurun ve PDF dosyalarından tablo verilerini çıkarmanın hızlı ve kolay yolunu deneyimleyin.