Python'da PDF'den Metin Çıkarma

Bir programcı olarak, bir grup PDF dosyasını işlemeniz ve bunlardan metin çıkarmanız gerekebilir. PDF’den metin çıkarma, metin analizi gibi çeşitli amaçlar için gerekli olabilir. Bu yazıda, Python’da bir PDF dosyasından metin çıkarmanın ne kadar kolay olduğunu göstereceğiz. Ayrıca, metnin nasıl çıkarılacağını ve bir TXT dosyasına nasıl kaydedileceğini öğreneceksiniz.

PDF’den Metin Çıkarmak için Python Kitaplığı - Ücretsiz İndirme

Aspose.Words for Python, metin belgelerini sorunsuz bir şekilde oluşturmanıza ve işlemenize olanak tanıyan harika bir kitaplıktır. DOC, DOCX ve PDF gibi popüler formatlardaki belgeleri işleyebilirsiniz. Bu kütüphaneyi PDF dosyalarımızda metin çıkartmak için kullanacağız. Aşağıdaki pip komutunu kullanarak PyPI kütüphanesini kurabilirsiniz.

> pip install aspose-words

Python’da PDF’den Metin Çıkarma

Aspose.Words for Python, karmaşık işlemleri kullanıcıdan gizleyerek PDF metin çıkarmayı son derece kolaylaştırdı. Yalnızca PDF dosyasını yüklemeniz ve ayıklanan metni kaydetmeniz gerekir. Aşağıdaki adımlar, Aspose.Words for Python kullanarak bir PDF’den nasıl metin çıkarılacağını gösterir.

  • PDF dosyasını istenen konumdan yükleyin.
  • Metni ayıklayın ve bir .txt dosyasına kaydedin.

Ve işte bu. Daha sonra .txt dosyasını işleyebilir ve PDF’den çıkarılan düz metni değiştirebilirsiniz.

Şimdi Python’da bir PDF’den programlı olarak nasıl metin çıkarılacağına bir göz atalım.

Python’da PDF’den Metin Çıkarma

Aşağıda, Python’da PDF metin ayıklamaya yönelik sınıflar ve yöntemler ile birlikte adımlar yer almaktadır.

  • Document sınıfını kullanarak PDF dosyasını yükleyin.
  • Document.save(fileName) yöntemini kullanarak metni PDF’den bir .txt dosyasına çıkarın.

Aşağıdaki kod örneği, Python’da bir PDF dosyasından metin ayıklamayı gösterir.

# Aspose.Words for Python modülünü içe aktar
import aspose.words as aw

# PDF dosyasını yükle
pdf = aw.Document("file.pdf")

# Metni ayıklayın ve bir TXT dosyasına kaydedin
pdf.save("extracted-text.txt")

Aşağıdaki ekran görüntüsü, metin ayıklamak için kullandığımız giriş PDF dosyasını göstermektedir.

Python'da Metin Çıkarmak için PDF

Aşağıdaki ekran görüntüsü, ayıklanan metni bir TXT dosyasında gösterir.

PDF'den TXT'ye Çıkarılan Metin

Python için PDF Metin Çıkarıcı - Ücretsiz Lisans Alın

Değerlendirme sınırlamaları olmadan PDF’den metin çıkarmak için ücretsiz geçici lisans alabilirsiniz.

Çözüm

Bu makalede, Python’da PDF dosyalarından nasıl metin çıkarılacağını öğrendiniz. Bir PDF’den metni ne kadar kolay ve hızlı bir şekilde çıkarabileceğinizi ve programlı olarak bir TXT dosyasına kaydedebileceğinizi gördünüz. Artık Python uygulamalarınızda bir grup PDF dosyası için metin ayıklamayı uygulayabilirsiniz.

Aspose’un Python için PDF Metin Çıkarıcısını Keşfedin

Aspose.Words for Python’un diğer özelliklerini belgeleri kullanarak keşfedebilirsiniz. Herhangi bir sorunuz olması durumunda forumumuz aracılığıyla bize bildirmekten çekinmeyin.

Ayrıca bakınız