ไฟล์ PDF เป็นหนึ่งในเอกสารทางธุรกิจที่พบมากที่สุด ในบางกรณี เราอาจต้องอ่านเอกสาร PDF ที่สแกนโดยเขียนโปรแกรม ความยากในการแยกข้อความจากไฟล์ PDF ที่สแกนได้นำไปสู่การพัฒนาเครื่องมือที่ช่วยให้อ่านและดึงข้อความจากเอกสาร PDF ดังกล่าวได้ง่ายขึ้น ขึ้นอยู่กับเนื้อหาของเอกสารของคุณ การแยกข้อความจากไฟล์ PDF อาจมีประโยชน์ด้วยเหตุผลหลายประการ ในบทความนี้ เราจะเรียนรู้วิธีการ OCR เอกสาร PDF และแยกข้อความจาก PDF ใน C#
หัวข้อต่อไปนี้จะกล่าวถึงในบทความนี้:
- OCR PDF เป็นข้อความ C# API
- OCR PDF และแยกข้อความจาก PDF
- ดำเนินการ OCR ใน PDF และบันทึกข้อความ
- OCR PDF เป็นไฟล์ Word
- OCR PDF เป็น JSON
OCR PDF เป็นข้อความ C# API
เราจะใช้ API Aspose.OCR for .NET เพื่อดำเนินการ OCR ในเอกสาร PDF สามารถจดจำรูปภาพที่สแกน ภาพถ่ายจากสมาร์ทโฟน ภาพหน้าจอ และพื้นที่ของรูปภาพ API ส่งคืนผลลัพธ์ข้อความที่รู้จักในรูปแบบเอกสารและการแลกเปลี่ยนข้อมูลยอดนิยม นอกเหนือจากการแปลงรูปภาพเป็นข้อความแล้ว API ยังสามารถสร้าง PDF ที่ค้นหาได้ตามการสแกนอีกด้วย นอกจากนี้ยังสามารถแก้ไขการสะกดผิดโดยอัตโนมัติในข้อความที่รู้จัก
API มีคลาส AsposeOcr ที่ให้เมธอดต่างๆ เพื่อดำเนินการ OCR มีเมธอด RecognizePdf(string, DocumentRecognitionSettings) สำหรับการจดจำข้อความจากเอกสาร PDF ที่ให้มา คลาส DocumentRecognitionSettings ของ API ให้การตั้งค่าสำหรับกระบวนการจดจำ PDF คลาส RecognitionResult แสดงผลของการจดจำรูปภาพ
โปรด ดาวน์โหลด DLL ของ API หรือติดตั้งโดยใช้ NuGet
PM> Install-Package Aspose.OCR
OCR PDF และแยกข้อความจาก PDF ใน C#
เราสามารถทำ OCR ในเอกสาร PDF และแยกข้อความที่รู้จักได้โดยทำตามขั้นตอนด้านล่าง:
- ขั้นแรก สร้างอินสแตนซ์ของคลาส AsposeOcr
- ถัดไป เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
- จากนั้นระบุภาษาที่จะใช้สำหรับ OCR
- หลังจากนั้น รับ RecognitionResult โดยเรียกใช้เมธอด RecognizePdf() ใช้เส้นทางรูปภาพและวัตถุ DocumentRecognitionSettings เป็นอาร์กิวเมนต์
- สุดท้าย วนซ้ำรายการ RecognitionResult และแสดงข้อความที่ระบุ
โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จักใน C#
// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จัก
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;
// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// แสดงข้อความที่รู้จัก
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
ทำ OCR บน PDF และบันทึกข้อความใน C#
เราสามารถทำ OCR ในเอกสาร PDF และบันทึกข้อความที่รู้จักได้โดยทำตามขั้นตอนด้านล่าง:
- ขั้นแรก สร้างอินสแตนซ์ของคลาส AsposeOcr
- ถัดไป เริ่มต้นวัตถุของคลาส DocumentRecognitionSettings
- จากนั้นระบุภาษาที่จะใช้สำหรับ OCR
- หลังจากนั้น ให้เรียกใช้เมธอด RecognizePdf() เพื่อรับ RecognitionResult ใช้เส้นทางรูปภาพและวัตถุ DocumentRecognitionSettings เป็นอาร์กิวเมนต์
- สุดท้าย บันทึกข้อความโดยใช้เมธอด SaveMultipageDocument() ใช้เส้นทางไฟล์เอาต์พุต วัตถุ SaveFormat และ RecognitionResult เป็นอาร์กิวเมนต์
โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักใน C#
// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และแยกข้อความที่รู้จัก
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;
// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// บันทึกข้อความที่รู้จัก
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#
เราสามารถทำ OCR กับเอกสาร PDF ที่สแกนและบันทึกข้อความที่รู้จักในเอกสาร Word โดยทำตามขั้นตอนที่กล่าวถึงก่อนหน้านี้ อย่างไรก็ตาม เราต้องระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย
โค้ดตัวอย่างต่อไปนี้แสดงวิธี OCR PDF และบันทึกข้อความที่รู้จักเป็นเอกสาร Word ใน C#
// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักเป็น DOCX
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;
// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// บันทึกข้อความที่รู้จักเป็น DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF และแปลง PDF เป็น JSON ใน C#
เราสามารถทำ OCR ในเอกสาร PDF และบันทึกข้อความที่รู้จักในไฟล์ JSON โดยทำตามขั้นตอนที่กล่าวถึงก่อนหน้านี้ อย่างไรก็ตาม เราต้องระบุ SaveFormat.Json ในขั้นตอนสุดท้าย
โค้ดตัวอย่างต่อไปนี้แสดงวิธี OCR PDF และบันทึกข้อความที่รู้จักเป็นไฟล์ JSON ใน C#
// ตัวอย่างรหัสนี้สาธิตวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักเป็น JSON
// เริ่มต้นเครื่องยนต์ PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// เริ่มต้นการตั้งค่าการจดจำ
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ระบุภาษาสำหรับ OCR หลายภาษาโดยค่าเริ่มต้น
recognitionSettings.Language = Language.Eng;
// จดจำข้อความจาก PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// บันทึกข้อความที่รู้จักเป็น JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
รับใบอนุญาตการประเมินฟรี
คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อทดลองใช้ห้องสมุดโดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
ในบทความนี้ เราได้เรียนรู้วิธีดำเนินการ OCR ในเอกสาร PDF และแยกข้อความจาก PDF ใน C# เราได้เห็นวิธีบันทึกข้อความที่รู้จักเป็นไฟล์ TXT, DOCX และ JSON นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Aspose.OCR for .NET API โดยใช้ เอกสารประกอบ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราได้ที่ ฟอรัม