PDF'yi Word OCR csharp'a tarandı

Taranan PDF dosyaları, metnin seçilemediği veya düzenlenemediği resimler içerir. Belirli durumlarda, taranmış PDF’yi Word belgesine dönüştürmeniz gerekebilir. Bu makalede, taranmış PDF’yi C# kullanarak DOCX veya DOC biçimindeki Word belgesine programlı olarak nasıl dönüştüreceğinizi öğreneceksiniz:

Taranan PDF’den Word’e DOCX Dönüştürücü – C# API Kurulumu

Aspose.OCR for .NET API ile OCR işlemleri gerçekleştirerek taranan PDF dosyalarıyla çalışabilir ve ardından C# kullanarak programlı olarak Aspose.Words for .NET API kullanarak bir Word belgesi oluşturabilirsiniz. API’leri, DLL dosyalarını Yeni Sürümler‘den indirerek veya aşağıdaki NuGet yükleme komutlarıyla yapılandırabilirsiniz:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Taranmış PDF’yi C# kullanarak Programlı Olarak Word Belgesine Dönüştürün

Metni optik olarak tanıyarak taranan PDF dosyalarını Word belgelerine dönüştürebilirsiniz. OCR işlemleri, taranan PDF’yi metne dönüştürür ve ardından Word belgesi DOC veya DOCX biçiminde oluşturulur. Taranan PDF’yi bir Word belgesine dönüştürmek için lütfen aşağıdaki adımları izleyin:

  1. AsposeOcr sınıf örneğini başlatın.
  2. DocumentRecognitionSettings sınıfıyla PDF’deki görüntüleri tanıyın.
  3. StringBuilder sınıf nesnesini başlatın ve metni kaydedin.
  4. Word belgesini Document sınıfıyla başlatın.
  5. Yazı tipi ve paragraf biçimlendirmesini belirtin.
  6. Çıktı Word belgesini DOCX veya DOC dosyası olarak kaydedin.

Aşağıdaki kod parçacığı, taranan bir PDF dosyasının C# kullanarak programlı olarak bir Word belgesine nasıl dönüştürüleceğini gösterir:

// AsposeOcr sınıf örneğini başlat
AsposeOcr api = new AsposeOcr();

// DocumentRecognitionSettings sınıfıyla PDF'deki görüntüleri tanıyın    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Tanıma sonuçlarını kaydet
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// StringBuilder sınıf nesnesini başlat
StringBuilder text = new StringBuilder();

// Sonucu metin olarak kaydet
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Word belgesini Document sınıfıyla başlatın.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Yazı tipi biçimlendirmesini belirtin
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Paragraf biçimlendirmesini belirtin
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Çıktı Word belgesini kaydedin. 
doc.Save("Scanned_PDF_to_Word.docx");

Ücretsiz Değerlendirme Lisansı Alın

Ücretsiz geçici lisans talep ederek API’leri tam kapasiteyle test edebilirsiniz.

Çözüm

Bu makalede, taranmış bir PDF dosyasını C# kullanarak programlı olarak DOCX veya DOC formatında bir Word belgesine dönüştürmeyi öğrendiniz. Ayrıca, belgeleri ziyaret ederek OCR ile ilgili diğer bazı özellikleri keşfedebilirsiniz. Lütfen herhangi bir sorunuz olması durumunda forumda bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız

İpucu: Bir PowerPoint sunumundan bir Word belgesi almanız gerekirse, Aspose Sunumdan Word Belgesine dönüştürücü kullanabilirsiniz.