File PDF yang dipindai pada dasarnya adalah satu atau lebih gambar datar yang diambil oleh pemindai atau kamera. Anda tidak dapat menyalin, menempel, atau memproses informasi dari file tersebut. Artikel ini membahas cara mengonversi PDF yang dipindai menjadi teks dalam C#.
- Konversi PDF ke Teks yang dipindai – Instalasi C# API
- Konversi PDF yang Dipindai menjadi String Teks di C#
- Konversi PDF yang Dipindai ke File TXT Secara Terprogram dalam C#
Konversi PDF ke Teks yang dipindai – Instalasi C# API
Aspose.OCR for .NET API digunakan untuk melakukan operasi OCR. Itu dapat mengenali karakter secara optik dari gambar atau dokumen PDF yang dipindai. Harap konfigurasikan API dengan mengunduh file DLL dari bagian Rilis Baru, atau dengan perintah penginstalan NuGet berikut.
PM> Install-Package Aspose.OCR
Konversi PDF yang Dipindai menjadi String Teks di C#
Anda dapat mengonversi file PDF yang dipindai menjadi string teks dengan melakukan operasi OCR di dalamnya. Anda harus mengikuti langkah-langkah di bawah ini untuk mencetak teks dari dokumen PDF yang dipindai:
- Tentukan pengaturan untuk mengenali file PDF yang dipindai.
- Inisialisasi instance kelas AsposeOcr.
- Inisialisasi objek kelas RecognitionResult.
- Cetak teks setelah mengenalinya dari PDF yang dipindai.
Cuplikan kode berikut menunjukkan cara mengenali teks dari PDF yang dipindai di C#:
// Inisialisasi instance kelas AsposeOcr
AsposeOcr api = new AsposeOcr();
// Tentukan pengaturan untuk mengenali file PDF yang dipindai
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Menginisialisasi objek kelas RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Cetak teks setelah mengenalinya dari PDF yang dipindai
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Konversi PDF yang Dipindai ke File TXT Secara Terprogram dalam C#
Anda dapat mengonversi file PDF yang dipindai ke file TXT dengan langkah-langkah berikut:
- Membuat instance objek kelas AsposeOcr.
- Buat objek kelas DocumentRecognitionSettings.
- Simpan hasil pengenalan dan inisialisasi instance kelas StringBuilder.
- Simpan hasilnya dalam file TXT.
Cuplikan kode di bawah ini menjelaskan cara mengonversi file PDF yang dipindai ke file TXT secara terprogram dalam C#:
// Inisialisasi instance kelas AsposeOcr
AsposeOcr api = new AsposeOcr();
// Kenali gambar dari PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Simpan hasil pengenalan
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Inisialisasi objek kelas StringBuilder
StringBuilder builder = new StringBuilder();
// Simpan hasil dalam file TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Dapatkan Lisensi Evaluasi Gratis
Anda dapat meminta lisensi evaluasi gratis untuk menguji API dalam kapasitas penuhnya.
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mengonversi PDF yang dipindai menjadi string teks atau file teks secara terprogram menggunakan C#. Selain itu, Anda dapat memeriksa beberapa fitur API lainnya dengan mengunjungi dokumentasi. Jangan ragu untuk menghubungi kami di forum jika ada masalah.