OCR PDF Python

เอกสาร PDF ที่สแกนมักจะทำงานได้ยากเนื่องจากไม่มีข้อความที่ค้นหาหรือแก้ไขได้ อย่างไรก็ตาม ด้วยพลังของเทคโนโลยี Optical Character Recognition (OCR) การแยกข้อความจากไฟล์ PDF ที่สแกนแล้วแปลงเป็นรูปแบบที่ค้นหาได้หรือแก้ไขได้จะกลายเป็นเรื่องจริง ในบล็อกโพสต์นี้ คุณจะได้เรียนรู้วิธีการจดจำข้อความ PDF ด้วย OCR ใน Python นอกจากนี้ เราจะสำรวจวิธีแยกข้อความจากไฟล์ PDF ที่สแกน แปลงเป็น PDF ที่ค้นหาได้หรือแก้ไขได้ และปลดปล่อยศักยภาพของความสามารถ OCR ของ Python โดยใช้ไลบรารี Aspose.OCR for Python ผ่าน .NET

จดจำข้อความจาก PDF ที่สแกนด้วย OCR – การติดตั้ง Python API

Optical Character Recognition (OCR) เป็นเทคโนโลยีที่ช่วยให้สามารถแปลงรูปภาพหรือเอกสารที่สแกนเป็นข้อความที่เครื่องอ่านได้ ด้วยการวิเคราะห์รูปร่างและรูปแบบของตัวอักษรในรูปภาพ อัลกอริธึม OCR จะระบุและจดจำข้อความ ทำให้สามารถแยกและประมวลผลข้อมูลที่อยู่ในนั้นได้ ก่อนเริ่มต้น คุณต้องติดตั้ง Aspose.OCR for Python ผ่าน .NET โดยดาวน์โหลดจากหน้า New Releases หรือกำหนดค่าจาก PyPi โดยเรียกใช้คำสั่งการติดตั้งด้านล่าง:

pip install aspose-ocr-python-net

จดจำข้อความจาก PDF ด้วย OCR ใน Python

คุณสามารถจดจำหรือแยกข้อความจาก PDF ด้วย OCR ใน Python มันจะดึงข้อความจากเอกสาร PDF ที่สแกนอย่างมีประสิทธิภาพ เนื่องจากขั้นตอนด้านล่างสรุปกระบวนการง่ายๆ ในการจดจำข้อความจาก PDF ด้วย OCR ใน Python:

  1. สร้างอินสแตนซ์วัตถุของคลาส AsposeOcr
  2. โหลดไฟล์ PDF ที่สแกน
  3. จดจำข้อความด้วย OCR และพิมพ์ผลลัพธ์ไปยังคอนโซล

โค้ดตัวอย่างด้านล่างแสดงวิธีการจดจำข้อความจาก PDF ด้วย OCR ใน Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

แปลง PDF ที่สแกนเป็น PDF ที่ค้นหาได้หรือแก้ไขได้ด้วย OCR ใน Python

ไฟล์ PDF ที่สแกนมีภาพที่คุณไม่สามารถค้นหาข้อความได้ ดังนั้นคุณต้องแปลงเป็นเอกสาร PDF ที่ค้นหาได้ เพื่อให้เครื่องสามารถอ่านเอกสารได้และประมวลผลต่อไปตามลำดับ โปรดทำตามขั้นตอนด้านล่างเพื่อแปลงเป็นเอกสาร PDF ที่ค้นหาหรือแก้ไขได้ใน Python:

  1. สร้างวัตถุของคลาส AsposeOcr
  2. เริ่มต้นอินสแตนซ์ของคลาส [RecognitionSettings][5] และตั้งค่าคุณสมบัติที่จำเป็น
  3. โหลดไฟล์ PDF และตั้งค่าช่วงหน้าสำหรับการจดจำด้วย OCR
  4. บันทึกเอาต์พุตไฟล์ PDF ที่ค้นหาได้

โค้ดตัวอย่างต่อไปนี้แสดงวิธีแปลง PDF ที่สแกนเป็นเอกสาร PDF ที่ค้นหาได้ด้วย OCR ใน Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

เป็นที่น่าสังเกตว่าคุณสามารถ OCR ได้ทุกหน้าในเอกสาร PDF ตัวอย่างเช่น การจดจำข้อความจากบางหน้าเฉพาะที่ดัชนีหน้าเป็นเลขศูนย์ และพารามิเตอร์สุดท้ายคือจำนวนหน้าที่ต้องประมวลผลด้วย API นอกจากนี้ คุณสามารถตั้งค่าการจดจำที่แตกต่างกันสำหรับการประมวลผลล่วงหน้าของไฟล์ต้นฉบับ เช่น การลบสัญญาณรบกวน การตั้งค่าคอนทราสต์ การตรวจสอบการเอียงของหน้าอินพุต ฯลฯ เพื่อการจดจำข้อความด้วย OCR ที่ได้รับการปรับปรุงและแม่นยำ

รับใบอนุญาตการประเมินฟรี

คุณสามารถขอ ใบอนุญาตชั่วคราวฟรี เพื่อประเมิน API ได้โดยไม่มีข้อจำกัดในการประเมิน

สรุป

ด้วยพลังของเทคโนโลยี OCR และ Python ทำให้การดึงข้อความจาก PDF ที่สแกนแล้วแปลงเป็นรูปแบบที่ค้นหาได้หรือแก้ไขได้จึงกลายเป็นสิ่งที่เข้าถึงได้ง่าย ที่นี่เราได้สำรวจกระบวนการจดจำข้อความ PDF ด้วย OCR ใน Python เราได้กล่าวถึงขั้นตอนการติดตั้งและการดึงข้อความจาก PDF ที่สแกน การใช้ OCR และการแปลง PDF ที่สแกนเป็นรูปแบบที่ค้นหาได้หรือแก้ไขได้ ด้วยการใช้ประโยชน์จากความสามารถ OCR และใช้เทคนิคขั้นสูง คุณจะสามารถปลดล็อกศักยภาพของ PDF ที่สแกนได้อย่างเต็มที่ และทำให้เข้าถึงได้มากขึ้นและใช้งานได้หลากหลายในโครงการของคุณ ในกรณีที่มีความคลุมเครือหรือข้อสงสัยใดๆ โปรดติดต่อเราผ่านทาง ฟอรัมสนับสนุนฟรี

ดูสิ่งนี้ด้วย