pdf yang dipindai ke teks csharp

File PDF yang dipindai pada dasarnya adalah satu atau lebih gambar datar yang diambil oleh pemindai atau kamera. Anda tidak dapat menyalin, menempel, atau memproses informasi dari file tersebut. Artikel ini membahas cara mengonversi PDF yang dipindai menjadi teks dalam C#.

Konversi PDF ke Teks yang dipindai – Instalasi C# API

Aspose.OCR for .NET API digunakan untuk melakukan operasi OCR. Itu dapat mengenali karakter secara optik dari gambar atau dokumen PDF yang dipindai. Harap konfigurasikan API dengan mengunduh file DLL dari bagian Rilis Baru, atau dengan perintah penginstalan NuGet berikut.

PM> Install-Package Aspose.OCR

Konversi PDF yang Dipindai menjadi String Teks di C#

Anda dapat mengonversi file PDF yang dipindai menjadi string teks dengan melakukan operasi OCR di dalamnya. Anda harus mengikuti langkah-langkah di bawah ini untuk mencetak teks dari dokumen PDF yang dipindai:

  1. Tentukan pengaturan untuk mengenali file PDF yang dipindai.
  2. Inisialisasi instance kelas AsposeOcr.
  3. Inisialisasi objek kelas RecognitionResult.
  4. Cetak teks setelah mengenalinya dari PDF yang dipindai.

Cuplikan kode berikut menunjukkan cara mengenali teks dari PDF yang dipindai di C#:

// Inisialisasi instance kelas AsposeOcr
AsposeOcr api = new AsposeOcr();

// Tentukan pengaturan untuk mengenali file PDF yang dipindai
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Menginisialisasi objek kelas RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Cetak teks setelah mengenalinya dari PDF yang dipindai
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Konversi PDF yang Dipindai ke File TXT Secara Terprogram dalam C#

Anda dapat mengonversi file PDF yang dipindai ke file TXT dengan langkah-langkah berikut:

  1. Membuat instance objek kelas AsposeOcr.
  2. Buat objek kelas DocumentRecognitionSettings.
  3. Simpan hasil pengenalan dan inisialisasi instance kelas StringBuilder.
  4. Simpan hasilnya dalam file TXT.

Cuplikan kode di bawah ini menjelaskan cara mengonversi file PDF yang dipindai ke file TXT secara terprogram dalam C#:

// Inisialisasi instance kelas AsposeOcr
AsposeOcr api = new AsposeOcr();

// Kenali gambar dari PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Simpan hasil pengenalan
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inisialisasi objek kelas StringBuilder
StringBuilder builder = new StringBuilder();

// Simpan hasil dalam file TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Dapatkan Lisensi Evaluasi Gratis

Anda dapat meminta lisensi evaluasi gratis untuk menguji API dalam kapasitas penuhnya.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengonversi PDF yang dipindai menjadi string teks atau file teks secara terprogram menggunakan C#. Selain itu, Anda dapat memeriksa beberapa fitur API lainnya dengan mengunjungi dokumentasi. Jangan ragu untuk menghubungi kami di forum jika ada masalah.

Lihat juga