OCR PDF และแยกข้อความจาก PDF ใน C#

ไฟล์ PDF เป็นหนึ่งในเอกสารทางธุรกิจที่พบมากที่สุด ในบางกรณี เราอาจต้องอ่านเอกสาร PDF ที่สแกนโดยเขียนโปรแกรม ความยากในการแยกข้อความจากไฟล์ PDF ที่สแกนได้นำไปสู่การพัฒนาเครื่องมือที่ช่วยให้อ่านและดึงข้อความจากเอกสาร PDF ดังกล่าวได้ง่ายขึ้น ขึ้นอยู่กับเนื้อหาของเอกสารของคุณ การแยกข้อความจากไฟล์ PDF อาจมีประโยชน์ด้วยเหตุผลหลายประการ ในบทความนี้ เราจะเรียนรู้วิธีการ OCR เอกสาร PDF และแยกข้อความจาก PDF ใน C#

หัวข้อต่อไปนี้จะกล่าวถึงในบทความนี้:

  1. OCR PDF เป็นข้อความ C# API
  2. OCR PDF และแยกข้อความจาก PDF
  3. ดำเนินการ OCR ใน PDF และบันทึกข้อความ
  4. OCR PDF เป็นไฟล์ Word
  5. OCR PDF เป็น JSON

OCR PDF เป็นข้อความ C# API

เราจะใช้ API Aspose.OCR for .NET เพื่อดำเนินการ OCR ในเอกสาร PDF สามารถจดจำรูปภาพที่สแกน ภาพถ่ายจากสมาร์ทโฟน ภาพหน้าจอ และพื้นที่ของรูปภาพ API ส่งคืนผลลัพธ์ข้อความที่รู้จักในรูปแบบเอกสารและการแลกเปลี่ยนข้อมูลยอดนิยม นอกเหนือจากการแปลงรูปภาพเป็นข้อความแล้ว API ยังสามารถสร้าง PDF ที่ค้นหาได้ตามการสแกนอีกด้วย นอกจากนี้ยังสามารถแก้ไขการสะกดผิดโดยอัตโนมัติในข้อความที่รู้จัก

API มีคลาส AsposeOcr ที่ให้เมธอดต่างๆ เพื่อดำเนินการ OCR มีเมธอด RecognizePdf(string, DocumentRecognitionSettings) สำหรับการจดจำข้อความจากเอกสาร PDF ที่ให้มา คลาส DocumentRecognitionSettings ของ API ให้การตั้งค่าสำหรับกระบวนการจดจำ PDF คลาส RecognitionResult แสดงผลของการจดจำรูปภาพ

โปรด ดาวน์โหลด DLL ของ API หรือติดตั้งโดยใช้ NuGet

PM> Install-Package Aspose.OCR

OCR PDF และแยกข้อความจาก PDF ใน C#

เราสามารถทำ OCR ในเอกสาร PDF และแยกข้อความที่รู้จักได้โดยทำตามขั้นตอนด้านล่าง:

  1. ขั้นแรก สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. ถัดไป เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
  3. จากนั้นระบุภาษาที่จะใช้สำหรับ OCR
  4. หลังจากนั้น รับ RecognitionResult โดยเรียกใช้เมธอด RecognizePdf() ใช้เส้นทางรูปภาพและวัตถุ DocumentRecognitionSettings เป็นอาร์กิวเมนต์
  5. สุดท้าย วนซ้ำรายการ RecognitionResult และแสดงข้อความที่ระบุ

โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จักใน C#

// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จัก
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;

// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// แสดงข้อความที่รู้จัก
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF และแยกข้อความจาก PDF ใน C#

OCR PDF และแยกข้อความจาก PDF ใน C#

ทำ OCR บน PDF และบันทึกข้อความใน C#

เราสามารถทำ OCR ในเอกสาร PDF และบันทึกข้อความที่รู้จักได้โดยทำตามขั้นตอนด้านล่าง:

  1. ขั้นแรก สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. ถัดไป เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
  3. จากนั้นระบุภาษาที่จะใช้สำหรับ OCR
  4. หลังจากนั้น ให้เรียกใช้เมธอด RecognizePdf() เพื่อรับ RecognitionResult ใช้เส้นทางรูปภาพและวัตถุ DocumentRecognitionSettings เป็นอาร์กิวเมนต์
  5. สุดท้าย บันทึกข้อความโดยใช้เมธอด SaveMultipageDocument() ใช้เส้นทางไฟล์เอาต์พุต วัตถุ SaveFormat และ RecognitionResult เป็นอาร์กิวเมนต์

โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักใน C#

// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จัก
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;

// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// บันทึกข้อความที่รู้จัก
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
ทำ OCR บน PDF และบันทึกข้อความใน C#

ทำ OCR บน PDF และบันทึกข้อความใน C#

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

เราสามารถทำ OCR กับเอกสาร PDF ที่สแกนและบันทึกข้อความที่รู้จักในเอกสาร Word โดยทำตามขั้นตอนที่กล่าวถึงก่อนหน้านี้ อย่างไรก็ตาม เราต้องระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย

โค้ดตัวอย่างต่อไปนี้แสดงวิธี OCR PDF และบันทึกข้อความที่รู้จักเป็นเอกสาร Word ใน C#

// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักเป็น DOCX
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;

// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// บันทึกข้อความที่รู้จักเป็น DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

OCR PDF และแปลง PDF เป็น JSON ใน C#

เราสามารถทำ OCR ในเอกสาร PDF และบันทึกข้อความที่รู้จักในไฟล์ JSON โดยทำตามขั้นตอนที่กล่าวถึงก่อนหน้านี้ อย่างไรก็ตาม เราต้องระบุ SaveFormat.Json ในขั้นตอนสุดท้าย

โค้ดตัวอย่างต่อไปนี้แสดงวิธี OCR PDF และบันทึกข้อความที่รู้จักเป็นไฟล์ JSON ใน C#

// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักเป็น JSON
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;

// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// บันทึกข้อความที่รู้จักเป็น JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

รับใบอนุญาตการประเมินฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อทดลองใช้ห้องสมุดโดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

ในบทความนี้ เราได้เรียนรู้วิธีดำเนินการ OCR ในเอกสาร PDF และแยกข้อความจาก PDF ใน C# เราได้เห็นวิธีบันทึกข้อความที่รู้จักเป็นไฟล์ TXT, DOCX และ JSON นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Aspose.OCR for .NET API โดยใช้ เอกสารประกอบ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย