pdf'i metin csharp'a tarandı

Taranmış bir PDF dosyası, temel olarak bir tarayıcı veya kamera tarafından yakalanan bir veya daha fazla düz görüntüdür. Bu tür dosyalardan bilgileri kopyalayamaz, yapıştıramaz veya işleyemezsiniz. Bu makale, taranan bir PDF’nin C# dilinde metne nasıl dönüştürüleceğini kapsar.

Taranan PDF’den Metne Dönüştürme – C# API Kurulumu

Aspose.OCR for .NET API, OCR işlemlerini gerçekleştirmek için kullanılır. Görüntülerden veya taranan PDF belgelerinden karakterleri optik olarak tanıyabilir. Lütfen Yeni Sürümler bölümünden DLL dosyasını indirerek veya aşağıdaki NuGet kurulum komutuyla API’yi yapılandırın.

PM> Install-Package Aspose.OCR

Taranmış PDF’yi C# dilinde Metin Dizisine Dönüştür

Taranmış bir PDF dosyasını, üzerinde OCR işlemleri gerçekleştirerek bir metin dizisine dönüştürebilirsiniz. Metni taranmış bir PDF belgesinden yazdırmak için aşağıdaki adımları izlemeniz gerekir:

  1. Taranan PDF dosyasını tanıma ayarını belirtin.
  2. AsposeOcr sınıf örneğini başlatın.
  3. RecognitionResult sınıf nesnesini başlatın.
  4. Taranmış bir PDF’den tanıdıktan sonra metni yazdırın.

Aşağıdaki kod parçacığı, taranan PDF’deki metnin C# ile nasıl tanınacağını gösterir:

// AsposeOcr sınıf örneğini başlat
AsposeOcr api = new AsposeOcr();

// Taranan PDF dosyasını tanıma ayarını belirtin
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// RecognitionResult sınıf nesnesini başlat
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Metni taranan PDF'den tanıdıktan sonra yazdırın
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Taranmış PDF’yi Programlı Olarak C# ile TXT Dosyasına Dönüştürün

Taranmış bir PDF dosyasını aşağıdaki adımlarla TXT dosyasına dönüştürebilirsiniz:

  1. AsposeOcr sınıf nesnesinin örneğini oluşturun.
  2. DocumentRecognitionSettings sınıf nesnesi oluşturun.
  3. Tanıma sonuçlarını kaydedin ve StringBuilder sınıf örneğini başlatın.
  4. Sonucu bir TXT dosyasına kaydedin.

Aşağıdaki kod parçacığı, taranan bir PDF dosyasının programlı olarak C# dilinde bir TXT dosyasına nasıl dönüştürüleceğini açıklar:

// AsposeOcr sınıf örneğini başlat
AsposeOcr api = new AsposeOcr();

// PDF'den görüntüleri tanıma           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Tanıma sonuçlarını kaydet
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// StringBuilder sınıf nesnesini başlat
StringBuilder builder = new StringBuilder();

// Sonucu bir TXT dosyasına kaydedin
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Ücretsiz Değerlendirme Lisansı Alın

API’yi tam kapasitesiyle test etmek için bir ücretsiz değerlendirme lisansı talep edebilirsiniz.

Çözüm

Bu makalede, taranmış bir PDF’yi C# kullanarak programlı olarak bir metin dizisine veya bir metin dosyasına dönüştürmeyi öğrendiniz. Ayrıca, dokümantasyon adresini ziyaret ederek API’nin diğer bazı özelliklerini kontrol edebilirsiniz. Lütfen herhangi bir endişeniz olması durumunda forum adresinden bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız