Python'da PDF Tablolarını Çıkarın

Bu makalede, Python kullanarak PDF dosyalarından tabloları nasıl çıkaracağınızı öğreneceksiniz. PDF, veri paylaşımı için popüler bir formattır, ancak bir PDF’den tabloları çıkarmak zorlu bir görev olabilir. Bu görevde bize yardımcı olabilecek birkaç Python kütüphanesi var. Yine de, verilerin doğru bir şekilde çıkarılması eksik olabilir.

Öyleyse, birkaç satır kodla PDF’den tablo verilerini yüksek doğrulukla nasıl çıkaracağımızı öğrenelim. Bu eğitimin sonunda, Python kullanarak PDF dosyalarından tabloları çıkarabilecek ve bunları gerektiği gibi değiştirebileceksiniz.

Tabloları PDF’den Çıkarmak için Python Kitaplığı

PDF dosyalarındaki tablolardan veri çıkarmak için Aspose.PDF for Python kullanacağız. PDF işleme ve işleme için bir dizi özelliğe sahip güçlü bir Python kitaplığıdır. Aşağıdaki pip komutunu kullanarak Aspose.PDF for Python’u kurabilirsiniz.

pip install aspose-pdf

Python’da PDF’den Tablo Çıkarma

Python kullanarak bir PDF’deki tablolardan veri ayıklamak için izlenecek adımlar aşağıdadır.

  • Document sınıfını kullanarak PDF dosyasını yükleyin.
  • Tablonun bulunduğu sayfanın referansını PDF olarak alın.
  • TableAbsorber nesnesini başlatın ve TableAbsorber.visit(Page) yöntemini kullanarak seçilen sayfayı ziyaret edin.
  • Bir döngüde, TableAbsorber.tablelist koleksiyonundaki tabloların listesini yineleyin.
  • Her tablo için, AbsorbedTable.rowlist içindeki satır koleksiyonunu yineleyin.
  • Emilen her satır için, AbsorbedRow.celllist’teki hücre koleksiyonunu yineleyin.
  • Son olarak, emilen her hücrenin metin parçaları koleksiyonunda dolaşın ve metni yazdırın.

Aşağıdaki kod örneği, Python’da PDF tablosundan nasıl metin çıkarılacağını gösterir.

import aspose.pdf as pdf

# PDF dosyasını yükle
pdfDocument = pdf.Document("input.pdf")

# TableAbsorber nesnesini başlat
tableAbsorber =  pdf.text.TableAbsorber()

# İlk sayfadaki tüm tabloları ayrıştır
tableAbsorber.visit(pdfDocument.pages[1])

# İlk tablonun referansını alın
absorbedTable = tableAbsorber.table_list[0]

# Tablodaki tüm satırları yineleyin
for pdfTableRow in absorbedTable.row_list:
    
    # Satırdaki tüm sütunları yineleyin
   for pdfTableCell in pdfTableRow.cell_list:
        
        # Metin parçalarını getir
        textFragmentCollection = pdfTableCell.text_fragments
        
        # Metin parçalarını yineleyin
       for textFragment in textFragmentCollection:
            
            # metni yazdır
            print(textFragment.text)
            

PDF Tablolarını Çıkarmak için Çevrimiçi Araç

Aspose.PDF for Python tabanlı PDF dosyalarından tablolar çıkarmak için ücretsiz çevrimiçi aracımız PDF tablo çıkarıcı‘ı da deneyebilirsiniz.

Python PDF Kitaplığını Ücretsiz Kullanın

Ücretsiz geçici lisans alabilir ve herhangi bir sınırlama olmaksızın PDF dosyalarındaki tablolardan veri çıkarabilirsiniz.

Python PDF Kitaplığını Keşfedin

Belgeleri kullanarak Python PDF kitaplığı hakkında daha fazlasını keşfedebilirsiniz. Ayrıca, sorularınızı forumumuza gönderebilirsiniz.

Çözüm

Bu makalede, Python kullanarak bir PDF’deki tablolardan nasıl veri çıkarılacağını öğrendiniz. Bir PDF’deki tüm sayfalardan tabloları çıkarmak için aynı kodu küçük değişikliklerle kullanabilirsiniz. Benzer şekilde, bir sayfadaki tüm tablolardan veya belirli bir tablodan veri çıkarabilirsiniz. Aspose.PDF for Python’u uygulamanıza kurun ve PDF dosyalarından tablo verilerini çıkarmanın hızlı ve kolay yolunu deneyimleyin.

Ayrıca bakınız