สแกนไฟล์ PDF เป็นข้อความ csharp

ไฟล์ PDF ที่สแกนโดยพื้นฐานแล้วเป็นภาพแบนหนึ่งภาพหรือมากกว่าที่ถ่ายโดยเครื่องสแกนหรือกล้อง คุณไม่สามารถคัดลอก วาง หรือประมวลผลข้อมูลจากไฟล์ดังกล่าว บทความนี้ครอบคลุมถึงวิธีการแปลง PDF ที่สแกนเป็นข้อความใน C#

สแกน PDF เป็นการแปลงข้อความ – การติดตั้ง C# API

Aspose.OCR สำหรับ .NET API ใช้เพื่อดำเนินการ OCR สามารถจดจำอักขระด้วยสายตาจากรูปภาพหรือเอกสาร PDF ที่สแกน โปรดกำหนดค่า API โดยดาวน์โหลดไฟล์ DLL จากส่วน New Releases หรือด้วยคำสั่งการติดตั้ง NuGet ต่อไปนี้

PM> Install-Package Aspose.OCR

แปลง PDF ที่สแกนเป็นสตริงข้อความใน C#

คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นสตริงข้อความได้โดยดำเนินการ OCR กับไฟล์นั้น คุณต้องทำตามขั้นตอนด้านล่างเพื่อพิมพ์ข้อความจากเอกสาร PDF ที่สแกน:

  1. ระบุการตั้งค่าสำหรับการจดจำไฟล์ PDF ที่สแกน
  2. เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
  3. เริ่มต้น RecognitionResult class object
  4. พิมพ์ข้อความหลังจากจดจำจาก PDF ที่สแกน

ข้อมูลโค้ดต่อไปนี้แสดงวิธีจดจำข้อความจาก PDF ที่สแกนใน C#:

// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();

// ระบุการตั้งค่าสำหรับการจดจำไฟล์ PDF ที่สแกน
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// เริ่มต้นวัตถุคลาส RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// พิมพ์ข้อความหลังจากรับรู้จาก PDF ที่สแกน
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

แปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทางโปรแกรมใน C#

คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทำตามขั้นตอนต่อไปนี้:

  1. สร้างอินสแตนซ์ AsposeOcr คลาสออบเจกต์
  2. สร้างวัตถุคลาส DocumentRecognitionSettings
  3. บันทึกผลการจดจำและเริ่มต้นอินสแตนซ์ของคลาส StringBuilder
  4. บันทึกผลลัพธ์เป็นไฟล์ TXT

ข้อมูลโค้ดด้านล่างอธิบายวิธีแปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทางโปรแกรมใน C#:

// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();

// จดจำรูปภาพจาก PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// บันทึกผลการรับรู้
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// เริ่มต้นวัตถุคลาส StringBuilder
StringBuilder builder = new StringBuilder();

// บันทึกผลลัพธ์เป็นไฟล์ TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

รับใบอนุญาตการประเมินฟรี

คุณสามารถขอ ใบอนุญาตการประเมินฟรี เพื่อทดสอบ API ได้อย่างเต็มประสิทธิภาพ

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแปลง PDF ที่สแกนเป็นสตริงข้อความหรือไฟล์ข้อความโดยใช้โปรแกรมโดยใช้ C# นอกจากนี้ คุณสามารถตรวจสอบคุณสมบัติอื่นๆ ของ API ได้โดยไปที่ เอกสารประกอบ โปรดติดต่อเราได้ที่ ฟอรัม ในกรณีที่มีข้อกังวลใดๆ

ดูสิ่งนี้ด้วย