PDF yang dipindai ke Word OCR csharp

File PDF yang dipindai berisi gambar di mana teks tidak dapat dipilih atau diedit. Dalam situasi tertentu, Anda mungkin perlu mengonversi pindaian dokumen PDF ke Word. Pada artikel ini, Anda akan mempelajari cara mengonversi dokumen PDF ke Word yang dipindai dalam format DOCX atau DOC secara terprogram menggunakan C#:

PDF yang dipindai ke Word DOCX Converter – Instalasi C# API

Anda dapat bekerja dengan file PDF yang dipindai dengan melakukan operasi OCR dengan Aspose.OCR for .NET API lalu membuat dokumen Word menggunakan Aspose.Words for .NET API secara terprogram menggunakan C#. Anda dapat mengonfigurasi API dengan mengunduh file DLL dari Rilis Baru, atau dengan perintah penginstalan NuGet berikut:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Konversi PDF yang Dipindai ke Dokumen Word Secara terprogram menggunakan C#

Anda dapat mengonversi file PDF yang dipindai ke dokumen Word dengan mengenali teks secara optik. Operasi OCR mengubah PDF yang dipindai menjadi teks dan kemudian dokumen Word dihasilkan dalam format DOC atau DOCX. Silakan ikuti langkah-langkah di bawah ini untuk mengonversi PDF yang dipindai ke dokumen Word:

  1. Inisialisasi instance kelas AsposeOcr.
  2. Kenali gambar dari PDF dengan kelas DocumentRecognitionSettings.
  3. Inisialisasi objek kelas StringBuilder dan simpan teksnya.
  4. Inisialisasi dokumen kata dengan kelas Document.
  5. Tentukan pemformatan font dan paragraf.
  6. Simpan dokumen Word keluaran sebagai file DOCX atau DOC.

Cuplikan kode berikut menunjukkan cara mengonversi file PDF yang dipindai ke dokumen Word secara terprogram menggunakan C#:

// Inisialisasi instance kelas AsposeOcr
AsposeOcr api = new AsposeOcr();

// Kenali gambar dari PDF dengan kelas DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Simpan hasil pengenalan
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Inisialisasi objek kelas StringBuilder
StringBuilder text = new StringBuilder();

// Simpan hasil sebagai teks
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Inisialisasi dokumen kata dengan kelas Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Tentukan pemformatan font
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Tentukan pemformatan paragraf
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Simpan dokumen Word keluaran. 
doc.Save("Scanned_PDF_to_Word.docx");

Dapatkan Lisensi Evaluasi Gratis

Anda dapat menguji API dalam kapasitas penuh dengan meminta lisensi sementara gratis.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengonversi file PDF yang dipindai ke dokumen Word dalam format DOCX atau DOC secara terprogram menggunakan C#. Selain itu, Anda dapat menjelajahi beberapa fitur terkait OCR lainnya dengan mengunjungi dokumentasi. Jangan ragu untuk menghubungi kami di forum jika ada pertanyaan.

Lihat juga

Tips: Jika Anda perlu mendapatkan dokumen Word dari presentasi PowerPoint, Anda dapat menggunakan pengonversi Aspose Presentation to Word Document.