Python'da PDF'den metin ayıklayın

PDF dosyalarını işlerken, genellikle sayfalardan düz metin olarak içerik çıkarmanız gerekir. Bu düz metin ayrıca metin analizi, metin işleme vb. gibi çeşitli amaçlar için kullanılabilir. Bu makalede, Python’da bir PDF’den nasıl metin çıkarılacağını öğreneceksiniz. Makale, kod örneklerinin yardımıyla, tüm bir PDF’de veya tek bir sayfada metin çıkarma işleminin nasıl gerçekleştirileceğini gösterecektir.

PDF’den Metin Çıkarmak için Python Kitaplığı

PDF dosyalarından metin ayıklamak için Aspose.PDF for Python kullanacağız. PDF dosyaları oluşturmanıza ve işlemenize izin veren güçlü bir PDF işleme kitaplığıdır. Ayrıca, PDF dosyalarını başka biçimlere dönüştürmenize olanak tanır.

Aşağıdaki pip komutunu kullanarak Aspose.PDF for Python’u kurabilirsiniz.

pip install aspose-pdf

Python’da PDF’den Metin Çıkarma

Python’da bir PDF’den metin ayıklamak için gereken adımlar aşağıdadır.

  • PDF dosyasını yüklemek için Document sınıfını kullanın.
  • TextDevice sınıfının bir örneğini oluşturun.
  • Sayfa sayısı kadar bir döngü başlatın.
  • Her yinelemede, TextDevice.process() yöntemini kullanarak bir sayfadan metin çıkarın ve çıkarılan metni .txt dosyasına kaydedin.

Aşağıdaki kod örneği, Python’da PDF’den nasıl metin çıkarılacağını gösterir.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# PDF belgesini aç
document = ap.Document("input.pdf")

# Metin cihazı oluştur
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Sayfayı TXT'ye aktar
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

PDF’deki Belirli Bir Sayfadan Metin Çıkarın

Document.pages dizisindeki sayfa numarasını kullanarak PDF’nin belirli bir sayfasından da metin çıkarabilirsiniz. Aşağıdaki kod örneği, PDF’deki belirli bir sayfadan nasıl metin çıkarılacağını gösterir.

import aspose.pdf as ap

# PDF belgesini aç
document = ap.Document("input.pdf")

# Metin cihazı oluştur
textDevice = ap.devices.TextDevice()

# Metni ilk sayfadan çıkar
textDevice.process(document.pages[1], "extracted_text.txt")

Çevrimiçi PDF’den Metin Çıkarın

PDF dosyalarından metin çıkarmak için çevrimiçi PDF metin çıkarma aracımızı de kullanabilirsiniz. Herhangi bir abonelik veya kayıt olmadan kullanabileceğiniz ücretsiz bir araçtır.

Ücretsiz PDF Metin Çıkarma Kitaplığı

Ücretsiz geçici lisansınızı alın ve herhangi bir sınırlama olmaksızın PDF dosyalarından metin ayıklayın.

Python PDF Kitaplığını Keşfedin

Belgeleri kullanarak Python PDF kitaplığı hakkında daha fazlasını keşfedebilirsiniz. Ayrıca, sorularınızı forumumuza gönderebilirsiniz.

Çözüm

Bu makalede, Python’da PDF’den nasıl metin çıkarılacağını öğrendiniz. Adımlar ve kod örnekleri, tüm bir PDF’den veya belirli bir sayfadan nasıl metin çıkarılacağını göstermiştir. Kütüphaneyi kolayca yükleyebilir ve Python uygulamalarınızdan metin çıkarımı yapabilirsiniz.

Ayrıca bakınız