OCR PDF และแยกข้อความจาก PDF ใน Python

เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) มีบทบาทสำคัญในการแปลงข้อความที่พิมพ์ สแกน หรือเขียนด้วยลายมือจากแหล่งต่างๆ รวมถึงเอกสาร PDF ในบล็อกโพสต์นี้ เราจะได้เรียนรู้วิธีเอกสาร OCR PDF และแยกข้อความจาก PDF ใน Python

บทความนี้ครอบคลุมหัวข้อต่อไปนี้:

  1. PDF เป็น TXT Python OCR API
  2. OCR PDF และแยกข้อความจาก PDF
  3. บันทึก PDF ที่สแกนเป็นข้อความ
  4. แหล่งเรียนรู้ฟรี

PDF เป็น TXT - Python OCR API

เราจะใช้ Aspose.OCR for Python เพื่อทำ OCR บนเอกสาร PDF และแยกข้อความจาก PDF Aspose.OCR for Python คือ API การรู้จำอักขระด้วยแสง (OCR) ที่ทรงพลัง ซึ่งสามารถจดจำข้อความจากรูปภาพที่สแกน ภาพถ่ายในสมาร์ทโฟน ภาพหน้าจอ และพื้นที่ของรูปภาพ API ส่งคืนผลลัพธ์ข้อความที่ได้รับการยอมรับในรูปแบบการแลกเปลี่ยนเอกสารและข้อมูลยอดนิยม รวมถึง PDF, XML, JSON และข้อความธรรมดา

นอกเหนือจากการแปลงรูปภาพเป็นข้อความแล้ว Aspose.OCR for Python ยังสามารถสร้าง PDF ที่ค้นหาได้จากการสแกนอีกด้วย API ยังสามารถแก้ไขการสะกดผิดในข้อความที่รู้จักได้โดยอัตโนมัติ ทำให้เหมาะสำหรับการใช้งานที่หลากหลาย

โปรด ดาวน์โหลดแพ็คเกจ หรือติดตั้ง API จาก PyPI โดยใช้คำสั่ง pip ต่อไปนี้ในคอนโซล:

pip install aspose-ocr-python-net

Python OCR PDF - แยกข้อความจาก PDF ใน Python

เราสามารถดำเนินการ OCR บนเอกสาร PDF และแยกข้อความที่เป็นที่รู้จักโดยทำตามขั้นตอนด้านล่าง:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เตรียมใช้งานวัตถุของคลาสDocumentRecognitionSettings
  3. เพิ่มไฟล์ PDF ลงในชุดการจดจำ
  4. หลังจากนั้นให้เรียกเมธอด Known()
  5. สุดท้าย แสดงข้อความที่ระบุโดยใช้คลาส RecognitionResult

โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และแยกข้อความจาก PDF ใน Python

# ตัวอย่างโค้ดนี้สาธิตวิธีการจดจำและแยกข้อความจากเอกสาร PDF ที่สแกนใน Python
import aspose.ocr as ocr

# เริ่มต้นเอ็นจิ้น OCR
api = ocr.AsposeOcr()

# เริ่มต้นการตั้งค่าการรับรู้
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# เพิ่มไฟล์ลงในชุดการจดจำ
files = ocr.OcrInput(ocr.InputType.PDF)

# เข้าถึง PDF ที่สแกนแล้วตั้งค่าหมายเลขหน้าและจำนวนหน้าทั้งหมด
files.add("C:\\Files\\sample.pdf", 0, 1)

# รับรู้ข้อความ
result = api.recognize(files , settings)

# ผลการรู้จำการพิมพ์
print(result[0].recognition_text)

Python OCR PDF - บันทึก PDF ที่สแกนเป็นข้อความใน Python

เราสามารถดำเนินการ OCR บนเอกสาร PDF และบันทึกข้อความที่เป็นที่รู้จักโดยทำตามขั้นตอนด้านล่าง:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เตรียมใช้งานวัตถุของคลาสDocumentRecognitionSettings
  3. เพิ่มไฟล์ PDF ลงในชุดการจดจำ
  4. หลังจากนั้นให้เรียกเมธอด Known()
  5. สุดท้าย ให้บันทึกข้อความโดยใช้เมธอด savemultipagedocument() ใช้เส้นทางของไฟล์เอาต์พุต วัตถุ SaveFormat และ RecognitionResult เป็นอาร์กิวเมนต์

โค้ดตัวอย่างต่อไปนี้แสดงวิธีการ OCR เอกสาร PDF และบันทึกข้อความที่รู้จักใน Python

# ตัวอย่างโค้ดนี้สาธิตวิธีการบันทึกการจดจำและแยกข้อความโดยใช้ Python
import aspose.ocr as ocr

# เริ่มต้นเอ็นจิ้น OCR
api = ocr.AsposeOcr()

# เริ่มต้นการตั้งค่าการรับรู้
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# เพิ่มไฟล์ลงในชุดการจดจำ
files = ocr.OcrInput(ocr.InputType.PDF)

# เข้าถึง PDF ที่สแกนแล้วตั้งค่าหมายเลขหน้าและจำนวนหน้าทั้งหมด
files.add("C:\\Files\\sample.pdf", 0, 1)

# รับรู้ข้อความ
result = api.recognize(files , settings)

# ผลการรู้จำการพิมพ์
print(result[0].recognition_text)

# บันทึกข้อความที่แยกออกมา
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

รับใบอนุญาตการประเมินผลฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวฟรี เพื่อลองใช้ห้องสมุดโดยไม่มีข้อจำกัดในการประเมิน

Python OCR PDF - แหล่งข้อมูลฟรี

คุณสามารถสำรวจแหล่งข้อมูลต่อไปนี้เพิ่มเติมเพื่อเรียนรู้ Python OCR API:

บทสรุป

ในบทความนี้ เราได้เรียนรู้วิธีดำเนินการ OCR บนเอกสาร PDF และแยกข้อความจาก PDF ใน Python ความสามารถในการแยกข้อความจาก PDF โดยใช้ OCR เป็นตัวเปลี่ยนเกมในอุตสาหกรรมต่างๆ มากมาย ตั้งแต่การเก็บถาวรและเอกสารทางกฎหมายไปจนถึงการวิเคราะห์ข้อมูลและการแปลงเนื้อหาเป็นดิจิทัล ด้วยการใช้ประโยชน์จาก Aspose.OCR for Python นักพัฒนาและผู้ที่สนใจสามารถบูรณาการความสามารถ OCR เข้ากับโปรเจ็กต์ Python ของตนได้อย่างราบรื่น ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราที่ ฟอรัมการสนับสนุนฟรี

ดูสิ่งนี้ด้วย