PDF'den Word OCR Python'a

Taranmış PDF’leri Word belgelerine dönüştürmek, belgedeki metni düzenlemek, değişiklik veya güncelleme yapmayı kolaylaştırmak gibi çeşitli avantajlar sunar. Ayrıca, büyük belgeler için veya araştırma yaparken paha biçilmez olan metin aranabilirliğini de sağlar. Ayrıca, Python’da OCR gerçekleştirirken yazım hatalarını veya yanlış yazılmış sözcükleri düzeltmek için yazım denetimi de yapabilirsiniz. Buna göre bu makale, Aspose.OCR for Python via .NET kitaplığı kullanılarak Python’da OCR ile taranan PDF’nin Word belgesine nasıl dönüştürüleceğini açıklamaktadır.

OCR ile PDF’den Word’e – Python API Kurulumu

Metin tanıma konusuna geçmeden önce, Python’da OCR’yi çalıştırmak için gerekli ortamın kurulu olduğundan emin olalım. Sisteminizde Python’un, tercihen sürüm 3.x veya üzerinin ve ayrıca güvenilir bir kod düzenleyicinin veya Visual Studio Code veya IDLE vb. entegre geliştirme ortamının (IDE) kurulu olduğundan emin olun. Python’a Yeni Çıkanlar bölümünden veya PyPi’ten aşağıdaki kurulum komutuyla erişirken .NET aracılığıyla:

pip install aspose-ocr-python-net

Python’da OCR ile Taranan PDF’yi Word’e Dönüştürün

Aşağıdaki adımları izleyerek taranmış bir PDF’yi OCR ile Word’e dönüştürebilirsiniz:

  1. AsposeOcr sınıfını kullanarak API’yi başlatın.
  2. Tanıma için farklı ayarlar belirleyin.
  3. Metni OCR ile tanıyın ve çıktı DOCX Word dosyasını kaydedin.

Aşağıdaki kod parçacığı, taranan PDF’nin Python’da OCR ile Word’e nasıl dönüştürüleceğini gösterir:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

Python’da OCR ve Yazım Denetimi ile PDF’den Word’e

OCR motorları, özellikle karmaşık düzenler, el yazısı veya düşük kaliteli taramalarla uğraşırken bazen yanlışlıklar üretebilir. Bu gibi durumlarda, yazım düzeltme, dönüştürülen metnin doğruluğunu artırmada çok önemli bir rol oynar. Bu bölümde özellikle OCR ile PDF’den Word’e dönüştürme ve Python’daki yazım denetimi özelliği ele alınmaktadır. Bu gereksinimleri karşılamak için aşağıdaki adımları izlemeniz gerekir:

  1. AsposeOcr sınıfının bir örneğini başlatın.
  2. RecognitionSettings sınıfını kullanarak farklı özellikler ayarlayın.
  3. PDF’yi OCR ile tanıyın ve çıkarılan dizede yazım denetimi yapın.
  4. Çıktı Word belgesini DOCX biçiminde dışa aktarın.

Aşağıdaki örnek kod, Python’da OCR ile bir PDF’nin Word belgesine nasıl dönüştürüleceğini açıklar:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Ücretsiz Değerlendirme Lisansı Alın

Herhangi bir değerlendirme sınırlaması ve filigrandan kaçınmak için ücretsiz geçici lisans alabilirsiniz.

Özetliyor

Bu blog yazısında, Python’da OCR kullanarak taranan PDF’leri Word belgelerine nasıl dönüştüreceğimizi araştırdık. OCR’nin önemini ve faydalarını tartıştık, ortamı ayarlamak, PDF belgesinden farklı yaklaşımlarla metin çıkarmak ve çeşitli ayarlar belirtmek ve onu bir Word belgesine kaydetmek için adım adım bir kılavuz sağladık. Bu kılavuz, Python ve OCR kullanarak taranan PDF’lerin düzenlenebilir Word belgelerine dönüştürülmesini otomatikleştirmenizi sağlayarak veri çıkarma ve işleme için bir olasılıklar dünyasının kapılarını açar. Endişelerinizden herhangi birini tartışmanız gerekirse, lütfen ücretsiz destek forumundan bize yazmaktan çekinmeyin.

Ayrıca bakınız