C# dilinde OCR PDF ve PDF'den Metin Çıkarma

Bir PDF dosyası, en yaygın iş belgelerinden biridir. Belirli durumlarda, taranmış PDF belgelerini programlı olarak okumamız gerekebilir. Taranmış PDF dosyalarından metin çıkarmanın zorluğu, bu tür PDF belgelerinden metin okumayı ve almayı kolaylaştıran araçların geliştirilmesine yol açmıştır. Belgenizin içeriğine bağlı olarak, PDF dosyalarından metin ayıklamak birçok nedenden dolayı yararlı olabilir. Bu yazıda, C# dilinde PDF belgelerini OCR’lamayı ve PDF’den metin ayıklamayı öğreneceğiz.

Bu yazıda aşağıdaki konular ele alınacaktır:

  1. OCR PDF’den Metne C# API’si
  2. OCR PDF ve PDF’den Metin Çıkarma
  3. PDF’de OCR Gerçekleştirin ve Metni Kaydedin
  4. [OCR PDF’den Word Dosyasına]]5
  5. OCR PDF’den JSON’a

OCR PDF’den Metne C# API

PDF belgesinde OCR gerçekleştirmek için Aspose.OCR for .NET API’sini kullanacağız. Taranmış görüntüleri, akıllı telefon fotoğraflarını, ekran görüntülerini ve görüntü alanlarını tanıyabilir. API, en popüler belge ve veri alışverişi biçimlerinde tanınan metin sonuçlarını döndürür. Görüntüleri metne dönüştürmenin yanı sıra API, taramalara dayalı aranabilir PDF’ler de oluşturabilir. Ayrıca, tanınan metinlerdeki yazım hatalarını otomatik olarak düzeltebilir.

API, OCR işlemlerini gerçekleştirmek için çeşitli yöntemler sağlayan AsposeOcr sınıfını sağlar. Sağlanan PDF belgesindeki metni tanımak için RecognizePdf(string, DocumentRecognitionSettings) yöntemini sağlar. API’nin DocumentRecognitionSettings sınıfı, PDF tanıma işlemi için ayarlar sağlar. RecognitionResult sınıfı, görüntü tanımanın sonuçlarını temsil eder.

Lütfen API’nin DLL’sini indirin veya NuGet kullanarak kurun.

PM> Install-Package Aspose.OCR

C# dilinde OCR PDF ve PDF’den Metin Çıkarma

Aşağıda verilen adımları izleyerek PDF belgelerinde OCR gerçekleştirebilir ve tanınan metni çıkartabiliriz:

  1. Öncelikle, AsposeOcr sınıfının bir örneğini oluşturun.
  2. Ardından, DocumentRecognitionSettings sınıfının bir nesnesini başlatın.
  3. Ardından, OCR için kullanılacak dili belirtin.
  4. Bundan sonra, RecognizePdf() yöntemini çağırarak RecognitionResult’u alın. Görüntü yolunu ve DocumentRecognitionSettings nesnesini bağımsız değişken olarak alır.
  5. Son olarak, RecognitionResult listesinde dolaşın ve tanımlanan metni gösterin.

Aşağıdaki örnek kod, OCR PDF belgelerinin nasıl yapılacağını ve tanınan metnin C# dilinde nasıl ayıklanacağını gösterir.

// Bu kod örneği, OCR PDF belgelerinin nasıl yapılacağını ve tanınan metnin nasıl çıkarılacağını gösterir.
// PCR motorunu başlat
AsposeOcr recognitionEngine = new AsposeOcr();

// Tanıma ayarlarını başlat
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR için dil belirleyin. Varsayılan olarak çoklu dil
recognitionSettings.Language = Language.Eng;

// PDF'den metin tanıma
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Tanınan metni göster
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
C# dilinde OCR PDF ve PDF'den Metin Çıkarma

C# dilinde OCR PDF ve PDF’den Metin Çıkarma

PDF’de OCR gerçekleştirin ve C#’ta Metni Kaydedin

Aşağıda verilen adımları izleyerek PDF belgelerinde OCR yapabilir ve tanınan metni kaydedebiliriz:

  1. Öncelikle, AsposeOcr sınıfının bir örneğini oluşturun.
  2. Ardından, DocumentRecognitionSettings sınıfının bir nesnesini başlatın.
  3. Ardından, OCR için kullanılacak dili belirtin.
  4. Bundan sonra, RecognitionResult’u almak için RecognizePdf() yöntemini çağırın. Görüntü yolunu ve DocumentRecognitionSettings nesnesini bağımsız değişken olarak alır.
  5. Son olarak, SaveMultipageDocument() yöntemini kullanarak metni kaydedin. Çıktı dosyası yolunu, SaveFormat ve RecognitionResult nesnesini bağımsız değişken olarak alır.

Aşağıdaki örnek kod, OCR PDF belgelerinin nasıl yapılacağını ve tanınan metnin C# dilinde nasıl kaydedileceğini gösterir.

// Bu kod örneği, OCR PDF belgelerinin nasıl yapılacağını ve tanınan metnin nasıl çıkarılacağını gösterir.
// PCR motorunu başlat
AsposeOcr recognitionEngine = new AsposeOcr();

// Tanıma ayarlarını başlat
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR için dil belirleyin. Varsayılan olarak çoklu dil
recognitionSettings.Language = Language.Eng;

// PDF'den metin tanıma
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Tanınan metni kaydet
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
PDF'de OCR gerçekleştirin ve C#'ta Metni Kaydedin

PDF’de OCR gerçekleştirin ve C#’ta Metni Kaydedin

OCR PDF ve Taranan PDF’yi C# dilinde Word’e Dönüştürme

Daha önce belirtilen adımları izleyerek taranan PDF belgelerinde OCR yapabilir ve tanınan metni Word belgesine kaydedebiliriz. Ancak son adımda SaveFormat.Docx’i belirtmemiz yeterli.

Aşağıdaki örnek kod, OCR PDF’nin nasıl yapılacağını ve tanınan metnin C# dilinde bir Word belgesi olarak nasıl kaydedileceğini gösterir.

// Bu kod örneği, PDF belgelerinin nasıl OCR yapılacağını ve tanınan metnin DOCX olarak nasıl kaydedileceğini gösterir.
// PCR motorunu başlat
AsposeOcr recognitionEngine = new AsposeOcr();

// Tanıma ayarlarını başlat
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR için dil belirleyin. Varsayılan olarak çoklu dil
recognitionSettings.Language = Language.Eng;

// PDF'den metin tanıma
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Tanınan metni DOCX olarak kaydedin
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF ve Taranan PDF'yi C# dilinde Word'e Dönüştürme

OCR PDF ve Taranan PDF’yi C# dilinde Word’e Dönüştürme

C# dilinde OCR PDF ve PDF’yi JSON’a Dönüştürme

Daha önce belirtilen adımları izleyerek PDF belgelerinde OCR yapabilir ve tanınan metni bir JSON dosyasına kaydedebiliriz. Ancak son adımda SaveFormat.Json’u belirtmemiz yeterli.

Aşağıdaki örnek kod, OCR PDF’nin nasıl yapıldığını ve tanınan metnin C# dilinde bir JSON dosyası olarak nasıl kaydedileceğini gösterir.

// Bu kod örneği, PDF belgelerinin nasıl OCR ile kaydedileceğini ve tanınan metnin JSON olarak nasıl kaydedileceğini gösterir.
// PCR motorunu başlat
AsposeOcr recognitionEngine = new AsposeOcr();

// Tanıma ayarlarını başlat
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR için dil belirleyin. Varsayılan olarak çoklu dil
recognitionSettings.Language = Language.Eng;

// PDF'den metin tanıma
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Tanınan metni JSON olarak kaydedin
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Ücretsiz Değerlendirme Lisansı Alın

Kitaplığı değerlendirme sınırlamaları olmadan denemek için ücretsiz bir geçici lisans alabilirsiniz.

Çözüm

Bu makalede, C# ile PDF belgelerinde OCR yapmayı ve PDF’den metin çıkarmayı öğrendik. Tanınan metnin TXT, DOCX ve JSON dosyası olarak nasıl kaydedileceğini de gördük. Ayrıca, dokümantasyon kullanarak Aspose.OCR for .NET API hakkında daha fazla bilgi edinebilirsiniz. Herhangi bir belirsizlik durumunda, lütfen forumumuzdan bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız