OCR PDF dan Ekstrak Teks dari PDF dalam C#

File PDF adalah salah satu dokumen bisnis yang paling umum. Dalam kasus tertentu, kami mungkin perlu membaca dokumen PDF yang dipindai secara terprogram. Kesulitan mengekstraksi teks dari file PDF yang dipindai telah menyebabkan pengembangan alat yang mempermudah membaca dan mengambil teks dari dokumen PDF tersebut. Bergantung pada konten dokumen Anda, mengekstraksi teks dari file PDF dapat bermanfaat karena beberapa alasan. Pada artikel ini, kita akan mempelajari cara OCR dokumen PDF dan Mengekstrak teks dari PDF dalam C#.

Topik-topik berikut akan dibahas dalam artikel ini:

  1. OCR PDF ke Teks C# API
  2. OCR PDF dan Ekstrak Teks dari PDF
  3. Lakukan OCR pada PDF dan Simpan Teks
  4. OCR PDF ke File Word
  5. OCR PDF ke JSON

OCR PDF ke Teks C# API

Kami akan menggunakan API Aspose.OCR for .NET untuk melakukan OCR pada dokumen PDF. Itu dapat mengenali gambar yang dipindai, foto ponsel cerdas, tangkapan layar, dan area gambar. API mengembalikan hasil teks yang dikenali dalam format dokumen dan pertukaran data yang paling populer. Selain mengonversi gambar menjadi teks, API juga dapat membuat PDF yang dapat dicari berdasarkan pindaian. Selain itu, mampu mengoreksi kesalahan ejaan secara otomatis dalam teks yang dikenali.

API menyediakan kelas AsposeOcr yang menyediakan berbagai metode untuk melakukan operasi OCR. Ini menyediakan metode RecognizePdf(string, DocumentRecognitionSettings) untuk mengenali teks dari dokumen PDF yang disediakan. Kelas DocumentRecognitionSettings API menyediakan pengaturan untuk proses pengenalan PDF. Kelas RecognitionResult mewakili hasil pengenalan gambar.

Harap unduh DLL API atau instal menggunakan NuGet.

PM> Install-Package Aspose.OCR

OCR PDF dan Ekstrak Teks dari PDF dalam C#

Kami dapat melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali dengan mengikuti langkah-langkah berikut:

  1. Pertama, buat instance dari kelas AsposeOcr.
  2. Selanjutnya, inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Kemudian, tentukan bahasa yang akan digunakan untuk OCR.
  4. Setelah itu, dapatkan RecognitionResult dengan memanggil metode RecognizePdf(). Dibutuhkan jalur gambar dan objek DocumentRecognitionSettings sebagai argumen.
  5. Terakhir, lewati daftar RecognitionResult dan tampilkan teks yang teridentifikasi.

Kode contoh berikut menunjukkan cara meng-OCR dokumen PDF dan mengekstrak teks yang dikenali dalam C#.

// Contoh kode ini menunjukkan bagaimana dokumen OCR PDF dan mengekstrak teks yang dikenali.
// Inisialisasi mesin PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inisialisasi pengaturan pengenalan
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Tentukan bahasa untuk OCR. Multi-bahasa secara default
recognitionSettings.Language = Language.Eng;

// Kenali teks dari PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Tampilkan teks yang dikenali
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF dan Ekstrak Teks dari PDF dalam C#

OCR PDF dan Ekstrak Teks dari PDF dalam C#

Lakukan OCR di PDF dan Simpan Teks di C#

Kami dapat melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali dengan mengikuti langkah-langkah berikut:

  1. Pertama, buat instance dari kelas AsposeOcr.
  2. Selanjutnya, inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Kemudian, tentukan bahasa yang akan digunakan untuk OCR.
  4. Setelah itu, panggil metode RecognizePdf() untuk mendapatkan RecognitionResult. Dibutuhkan jalur gambar dan objek DocumentRecognitionSettings sebagai argumen.
  5. Terakhir, simpan teks menggunakan metode SaveMultipageDocument(). Dibutuhkan jalur file keluaran, objek SaveFormat dan RecognitionResult sebagai argumen.

Kode contoh berikut menunjukkan cara meng-OCR dokumen PDF dan menyimpan teks yang dikenali di C#.

// Contoh kode ini menunjukkan bagaimana dokumen OCR PDF dan mengekstrak teks yang dikenali.
// Inisialisasi mesin PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inisialisasi pengaturan pengenalan
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Tentukan bahasa untuk OCR. Multi-bahasa secara default
recognitionSettings.Language = Language.Eng;

// Kenali teks dari PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Simpan teks yang dikenali
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Lakukan OCR di PDF dan Simpan Teks di C#

Lakukan OCR di PDF dan Simpan Teks di C#

OCR PDF dan Konversikan PDF yang Dipindai ke Word dalam C#

Kami dapat melakukan OCR pada dokumen PDF yang dipindai dan menyimpan teks yang dikenali dalam dokumen Word dengan mengikuti langkah-langkah yang disebutkan sebelumnya. Namun, kita hanya perlu menentukan SaveFormat.Docx di langkah terakhir.

Kode contoh berikut menunjukkan cara OCR PDF dan menyimpan teks yang dikenali sebagai dokumen Word di C#.

// Contoh kode ini menunjukkan cara OCR dokumen PDF dan menyimpan teks yang dikenali sebagai DOCX.
// Inisialisasi mesin PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inisialisasi pengaturan pengenalan
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Tentukan bahasa untuk OCR. Multi-bahasa secara default
recognitionSettings.Language = Language.Eng;

// Kenali teks dari PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Simpan teks yang dikenali sebagai DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF dan Konversi PDF yang Dipindai ke Word dalam C#

OCR PDF dan Konversikan PDF yang Dipindai ke Word dalam C#

OCR PDF dan Konversi PDF ke JSON di C#

Kami dapat melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali dalam file JSON dengan mengikuti langkah-langkah yang disebutkan sebelumnya. Namun, kita hanya perlu menentukan SaveFormat.Json di langkah terakhir.

Kode contoh berikut menunjukkan cara OCR PDF dan menyimpan teks yang dikenali sebagai file JSON di C#.

// Contoh kode ini menunjukkan cara OCR dokumen PDF dan menyimpan teks yang dikenali sebagai JSON.
// Inisialisasi mesin PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inisialisasi pengaturan pengenalan
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Tentukan bahasa untuk OCR. Multi-bahasa secara default
recognitionSettings.Language = Language.Eng;

// Kenali teks dari PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Simpan teks yang dikenali sebagai JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Dapatkan Lisensi Evaluasi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mencoba perpustakaan tanpa batasan evaluasi.

Kesimpulan

Pada artikel ini, kami telah mempelajari cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF dalam C#. Kami juga telah melihat cara menyimpan teks yang dikenali sebagai file TXT, DOCX, dan JSON. Selain itu, Anda dapat mempelajari lebih lanjut tentang Aspose.OCR untuk .NET API menggunakan dokumentasi. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum kami.

Lihat juga