python'da pdf'den görüntüleri ayıklayın

Görüntüler, içeriği daha çekici ve ayrıntılı hale getiren metinle birlikte PDF belgelerinde yaygın olarak kullanılır. PDF belgelerini işlerken ve analiz ederken görüntüleri de çıkarmanız gerekebilir. Bu nedenle, bu makalede, Python’da PDF dosyalarının nasıl işleneceğini ve programlı olarak görüntülerin nasıl çıkarılacağını göstereceğiz. Adım adım kılavuz ve kod örneği, tüm görüntü çıkarma sürecini gösterecektir.

PDF’den Görüntüleri Çıkarmak için Python Kitaplığı

Bir PDF dosyasından görüntüleri ayıklamak için Aspose.Words for Python kullanacağız. PDF ve DOCX dahil olmak üzere metin belgeleri oluşturmak ve değiştirmek için güçlü ve zengin özelliklere sahip bir kitaplıktır. Aşağıdaki pip komutunu kullanarak PyPI kütüphanesini kurabilirsiniz.

> pip install aspose-words

PDF’den Görüntüleri Çıkarma Adımları

Aspose.Words for Python, görüntüleri bir PDF dosyasından birkaç basit adımda çıkarmanıza olanak tanır. Aspose.Words for Python kullanarak bir PDF’den görüntülerin nasıl çıkarılacağına ilişkin iş akışı aşağıdadır.

  • PDF dosyasını istenen konumdan yükleyin.
  • PDF’yi DOCX biçimine dönüştürün.
  • PDF’nin DOCX sürümünü işleyin ve görüntüleri ayıklayın
  • Her görüntüyü bir dosya olarak istenen konuma kaydedin.

Aşağıdaki bölümde, yukarıda belirtilen adımların Python koduna nasıl dönüştürüleceği ve bir PDF’den görüntülerin nasıl çıkarılacağı gösterilmektedir.

Python’da PDF’den Görüntüleri Çıkarın

Görüntü çıkarma sürecinde, öncelikle PDF dosyasını DOCX formatına dönüştüreceğiz. Bir DOCX dosyasında, görüntüler şekil düğümleri tarafından temsil edilir. Bu nedenle, her şekli işleyeceğiz ve görüntüyü ondan çıkaracağız.

Python’da bir PDF’den görüntüleri ayıklamak için gereken adımlar aşağıdadır.

  • İlk olarak, Document sınıfını kullanarak PDF dosyasını yükleyin.
  • Ardından, PDF’yi DOCX biçiminde kaydedin ve PDF dosyasının DOCX sürümünü yükleyin.
  • Document.getchildnodes(NodeType.SHAPE, True) yöntemini kullanarak tüm şekilleri bir nesneye alın.
  • Şekiller arasında dolaşın ve her şekil düğümü için aşağıdaki işlemleri gerçekleştirin:
    • asshape() yöntemini kullanarak şekli Shape türüne dönüştürün.
    • Şeklin görüntü içerip içermediğini kontrol etmek için Shape.hasimage() yöntemini kullanın.
    • Görüntüyü şekilden çıkarın ve Shape.imagedata.save(string) yöntemini kullanarak kaydedin.

Aşağıdaki kod örneği, Python’da bir PDF belgesinden görüntü çıkarmayı gösterir.

# Aspose.Words for Python modülünü içe aktar
import aspose.words as aw

# PDF dosyasını yükleyin ve Word DOCX biçimine dönüştürün
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# PDF'nin DOCX sürümünü yükleyin
doc = aw.Document("pdf.docx")

# tüm şekilleri al
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# şekiller arasında döngü
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # resim dosyasının adını ayarla
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # resmi Kaydet
        shape.image_data.save(imageFileName)
        imageIndex += 1

Python PDF Image Extraction Library - Ücretsiz Lisans Alın

Değerlendirme sınırlamaları olmaksızın PDF’den görüntüleri ayıklamak için ücretsiz geçici lisans alabilirsiniz.

Çözüm

PDF belgelerini analiz ederken, metinle birlikte resimlerin de çıkarılması gerekir. Bu makalede, Python’da bir PDF’den görüntülerin nasıl çıkarılacağını öğrendiniz. Aspose.Words for Python’u kolayca yükleyebilir ve görüntü ayıklamayı uygulamalarınıza entegre edebilirsiniz.

Aspose’un PDF Görüntü Çıkarma Kitaplığını Keşfedin

Aspose.Words for Python, metin belgelerini işlemek için bir dizi başka özellik sunar. Kitaplık hakkında daha fazlasını keşfetmek için belgeleri ziyaret edebilirsiniz. Herhangi bir sorunuz olması durumunda forumumuz aracılığıyla bize bildirmekten çekinmeyin.

Ayrıca bakınız