สแกน PDF เป็น Word OCR csharp

ไฟล์ PDF ที่สแกนมีรูปภาพที่ไม่สามารถเลือกหรือแก้ไขข้อความได้ ในบางสถานการณ์ คุณอาจต้องแปลงเอกสาร PDF ที่สแกนเป็น Word ในบทความนี้ คุณจะได้เรียนรู้วิธีแปลงเอกสาร PDF ที่สแกนเป็น Word ในรูปแบบ DOCX หรือ DOC โดยใช้ภาษา C#:

สแกน PDF เป็น Word DOCX Converter - การติดตั้ง C # API

คุณสามารถทำงานกับไฟล์ PDF ที่สแกนโดยดำเนินการ OCR ด้วย Aspose.OCR for .NET API จากนั้นสร้างเอกสาร Word โดยใช้ Aspose.Words for .NET API โดยทางโปรแกรมโดยใช้ C# คุณสามารถกำหนดค่า API ได้โดยการดาวน์โหลดไฟล์ DLL จาก New Releases หรือด้วยคำสั่งติดตั้ง NuGet ต่อไปนี้:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

แปลง PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ C#

คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ได้โดยการจดจำข้อความด้วยสายตา การดำเนินการ OCR จะแปลง PDF ที่สแกนเป็นข้อความ จากนั้นเอกสาร Word จะถูกสร้างขึ้นในรูปแบบ DOC หรือ DOCX โปรดทำตามขั้นตอนด้านล่างเพื่อแปลง PDF ที่สแกนเป็นเอกสาร Word:

  1. เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
  2. จดจำรูปภาพจาก PDF ด้วยคลาส DocumentRecognitionSettings
  3. เริ่มต้นวัตถุคลาส StringBuilder และบันทึกข้อความ
  4. เริ่มต้นเอกสารคำด้วยคลาส Document
  5. ระบุแบบอักษรและการจัดรูปแบบย่อหน้า
  6. บันทึกเอกสาร Word เอาต์พุตเป็นไฟล์ DOCX หรือ DOC

ข้อมูลโค้ดต่อไปนี้แสดงวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ C#:

// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();

// จดจำรูปภาพจาก PDF ด้วยคลาส DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// บันทึกผลการรับรู้
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// เริ่มต้นวัตถุคลาส StringBuilder
StringBuilder text = new StringBuilder();

// บันทึกผลลัพธ์เป็นข้อความ
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// เริ่มต้นเอกสารคำด้วยคลาสเอกสาร
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// ระบุการจัดรูปแบบตัวอักษร
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// ระบุการจัดรูปแบบย่อหน้า
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// บันทึกเอกสาร Word ที่ส่งออก 
doc.Save("Scanned_PDF_to_Word.docx");

รับใบอนุญาตการประเมินฟรี

คุณสามารถทดสอบ API ได้อย่างเต็มประสิทธิภาพโดยขอ ใบอนุญาตชั่วคราวฟรี

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ในรูปแบบ DOCX หรือ DOC โดยทางโปรแกรมโดยใช้ C# นอกจากนี้ คุณยังสามารถสำรวจคุณสมบัติอื่นๆ ที่เกี่ยวข้องกับ OCR ได้โดยไปที่ เอกสารประกอบ โปรดติดต่อเราได้ที่ ฟอรัม ในกรณีที่มีข้อสงสัยใดๆ

ดูสิ่งนี้ด้วย

เคล็ดลับ: หากคุณต้องการรับเอกสาร Word จากงานนำเสนอ PowerPoint คุณสามารถใช้ตัวแปลง Aspose Presentation to Word Document ได้