ไฟล์ PDF ที่สแกนโดยพื้นฐานแล้วเป็นภาพแบนหนึ่งภาพหรือมากกว่าที่ถ่ายโดยเครื่องสแกนหรือกล้อง คุณไม่สามารถคัดลอก วาง หรือประมวลผลข้อมูลจากไฟล์ดังกล่าว บทความนี้ครอบคลุมถึงวิธีการแปลง PDF ที่สแกนเป็นข้อความใน C#
- สแกน PDF เป็นการแปลงข้อความ – การติดตั้ง C# API
- แปลง PDF ที่สแกนเป็นสตริงข้อความใน C#
- แปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทางโปรแกรมใน C#
สแกน PDF เป็นการแปลงข้อความ – การติดตั้ง C# API
Aspose.OCR สำหรับ .NET API ใช้เพื่อดำเนินการ OCR สามารถจดจำอักขระด้วยสายตาจากรูปภาพหรือเอกสาร PDF ที่สแกน โปรดกำหนดค่า API โดยดาวน์โหลดไฟล์ DLL จากส่วน New Releases หรือด้วยคำสั่งการติดตั้ง NuGet ต่อไปนี้
PM> Install-Package Aspose.OCR
แปลง PDF ที่สแกนเป็นสตริงข้อความใน C#
คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นสตริงข้อความได้โดยดำเนินการ OCR กับไฟล์นั้น คุณต้องทำตามขั้นตอนด้านล่างเพื่อพิมพ์ข้อความจากเอกสาร PDF ที่สแกน:
- ระบุการตั้งค่าสำหรับการจดจำไฟล์ PDF ที่สแกน
- เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
- เริ่มต้น RecognitionResult class object
- พิมพ์ข้อความหลังจากจดจำจาก PDF ที่สแกน
ข้อมูลโค้ดต่อไปนี้แสดงวิธีจดจำข้อความจาก PDF ที่สแกนใน C#:
// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();
// ระบุการตั้งค่าสำหรับการจดจำไฟล์ PDF ที่สแกน
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// เริ่มต้นวัตถุคลาส RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// พิมพ์ข้อความหลังจากรับรู้จาก PDF ที่สแกน
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
แปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทางโปรแกรมใน C#
คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทำตามขั้นตอนต่อไปนี้:
- สร้างอินสแตนซ์ AsposeOcr คลาสออบเจกต์
- สร้างวัตถุคลาส DocumentRecognitionSettings
- บันทึกผลการจดจำและเริ่มต้นอินสแตนซ์ของคลาส StringBuilder
- บันทึกผลลัพธ์เป็นไฟล์ TXT
ข้อมูลโค้ดด้านล่างอธิบายวิธีแปลงไฟล์ PDF ที่สแกนเป็นไฟล์ TXT โดยทางโปรแกรมใน C#:
// เริ่มต้นอินสแตนซ์คลาส AsposeOcr
AsposeOcr api = new AsposeOcr();
// จดจำรูปภาพจาก PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// บันทึกผลการรับรู้
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// เริ่มต้นวัตถุคลาส StringBuilder
StringBuilder builder = new StringBuilder();
// บันทึกผลลัพธ์เป็นไฟล์ TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
รับใบอนุญาตการประเมินฟรี
คุณสามารถขอ ใบอนุญาตการประเมินฟรี เพื่อทดสอบ API ได้อย่างเต็มประสิทธิภาพ
บทสรุป
ในบทความนี้ คุณได้เรียนรู้วิธีแปลง PDF ที่สแกนเป็นสตริงข้อความหรือไฟล์ข้อความโดยใช้โปรแกรมโดยใช้ C# นอกจากนี้ คุณสามารถตรวจสอบคุณสมบัติอื่นๆ ของ API ได้โดยไปที่ เอกสารประกอบ โปรดติดต่อเราได้ที่ ฟอรัม ในกรณีที่มีข้อกังวลใดๆ