Bir programcı olarak, bir grup PDF dosyasını işlemeniz ve bunlardan metin çıkarmanız gerekebilir. PDF’den metin çıkarma, metin analizi gibi çeşitli amaçlar için gerekli olabilir. Bu yazıda, Python’da bir PDF dosyasından metin çıkarmanın ne kadar kolay olduğunu göstereceğiz. Ayrıca, metnin nasıl çıkarılacağını ve bir TXT dosyasına nasıl kaydedileceğini öğreneceksiniz.
- PDF Dosyalarından Metin Çıkarmak için Python Kitaplığı
- Bir PDF’den Metin Nasıl Çıkarılır
- Python’da bir PDF’den Metin Çıkarma
PDF’den Metin Çıkarmak için Python Kitaplığı - Ücretsiz İndirme
Aspose.Words for Python, metin belgelerini sorunsuz bir şekilde oluşturmanıza ve işlemenize olanak tanıyan harika bir kitaplıktır. DOC, DOCX ve PDF gibi popüler formatlardaki belgeleri işleyebilirsiniz. Bu kütüphaneyi PDF dosyalarımızda metin çıkartmak için kullanacağız. Aşağıdaki pip komutunu kullanarak PyPI kütüphanesini kurabilirsiniz.
> pip install aspose-words
Python’da PDF’den Metin Çıkarma
Aspose.Words for Python, karmaşık işlemleri kullanıcıdan gizleyerek PDF metin çıkarmayı son derece kolaylaştırdı. Yalnızca PDF dosyasını yüklemeniz ve ayıklanan metni kaydetmeniz gerekir. Aşağıdaki adımlar, Aspose.Words for Python kullanarak bir PDF’den nasıl metin çıkarılacağını gösterir.
- PDF dosyasını istenen konumdan yükleyin.
- Metni ayıklayın ve bir .txt dosyasına kaydedin.
Ve işte bu. Daha sonra .txt dosyasını işleyebilir ve PDF’den çıkarılan düz metni değiştirebilirsiniz.
Şimdi Python’da bir PDF’den programlı olarak nasıl metin çıkarılacağına bir göz atalım.
Python’da PDF’den Metin Çıkarma
Aşağıda, Python’da PDF metin ayıklamaya yönelik sınıflar ve yöntemler ile birlikte adımlar yer almaktadır.
- Document sınıfını kullanarak PDF dosyasını yükleyin.
- Document.save(fileName) yöntemini kullanarak metni PDF’den bir .txt dosyasına çıkarın.
Aşağıdaki kod örneği, Python’da bir PDF dosyasından metin ayıklamayı gösterir.
# Aspose.Words for Python modülünü içe aktar
import aspose.words as aw
# PDF dosyasını yükle
pdf = aw.Document("file.pdf")
# Metni ayıklayın ve bir TXT dosyasına kaydedin
pdf.save("extracted-text.txt")
Aşağıdaki ekran görüntüsü, metin ayıklamak için kullandığımız giriş PDF dosyasını göstermektedir.
Aşağıdaki ekran görüntüsü, ayıklanan metni bir TXT dosyasında gösterir.
Python için PDF Metin Çıkarıcı - Ücretsiz Lisans Alın
Değerlendirme sınırlamaları olmadan PDF’den metin çıkarmak için ücretsiz geçici lisans alabilirsiniz.
Çözüm
Bu makalede, Python’da PDF dosyalarından nasıl metin çıkarılacağını öğrendiniz. Bir PDF’den metni ne kadar kolay ve hızlı bir şekilde çıkarabileceğinizi ve programlı olarak bir TXT dosyasına kaydedebileceğinizi gördünüz. Artık Python uygulamalarınızda bir grup PDF dosyası için metin ayıklamayı uygulayabilirsiniz.
Aspose’un Python için PDF Metin Çıkarıcısını Keşfedin
Aspose.Words for Python’un diğer özelliklerini belgeleri kullanarak keşfedebilirsiniz. Herhangi bir sorunuz olması durumunda forumumuz aracılığıyla bize bildirmekten çekinmeyin.