PDF เป็น Word OCR Python

การแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word มีข้อดีหลายประการ เช่น การแก้ไขข้อความภายในเอกสาร ทำให้ง่ายต่อการเปลี่ยนแปลงหรืออัปเดต นอกจากนี้ยังช่วยให้สามารถค้นหาข้อความได้ ซึ่งมีประโยชน์มากสำหรับเอกสารขนาดใหญ่หรือเมื่อทำการวิจัย นอกจากนี้ คุณยังสามารถตรวจสอบการสะกดคำเพื่อแก้ไขคำที่พิมพ์ผิดหรือคำที่สะกดผิดในขณะที่ใช้ OCR ใน Python ดังนั้น บทความนี้จะอธิบายวิธีแปลงเอกสาร PDF ที่สแกนเป็น Word ด้วย OCR ใน Python โดยใช้ไลบรารี Aspose.OCR for Python ผ่าน .NET

PDF เป็น Word ด้วย OCR - การติดตั้ง Python API

ก่อนที่เราจะดำดิ่งสู่การจดจำข้อความ ตรวจสอบให้แน่ใจว่าเราได้ตั้งค่าสภาพแวดล้อมที่จำเป็นเพื่อเรียกใช้ OCR ใน Python ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Python บนระบบของคุณ โดยควรเป็นเวอร์ชัน 3.x หรือใหม่กว่า พร้อมด้วยตัวแก้ไขโค้ดที่เชื่อถือได้หรือสภาพแวดล้อมการพัฒนาแบบรวม (IDE) เช่น Visual Studio Code หรือ IDLE เป็นต้น จากนั้นคุณต้องกำหนดค่า Aspose.OCR for Python ผ่าน .NET ขณะที่เข้าถึงจากส่วน New Releases หรือจาก PyPi ด้วยคำสั่งการติดตั้งต่อไปนี้:

pip install aspose-ocr-python-net

แปลง PDF ที่สแกนเป็น Word ด้วย OCR ใน Python

คุณสามารถแปลง PDF ที่สแกนเป็น Word ด้วย OCR โดยทำตามขั้นตอนด้านล่าง:

  1. เริ่มต้น API โดยใช้คลาส AsposeOcr
  2. ตั้งค่าต่าง ๆ สำหรับการจดจำ
  3. จดจำข้อความด้วย OCR และบันทึกไฟล์ DOCX Word เอาต์พุต

ข้อมูลโค้ดต่อไปนี้สาธิตวิธีแปลง PDF ที่สแกนเป็น Word ด้วย OCR ใน Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF เป็น Word พร้อม OCR และการตรวจสอบการสะกดใน Python

บางครั้งกลไก OCR อาจทำให้เกิดความไม่ถูกต้อง โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับเค้าโครงที่ซับซ้อน การเขียนด้วยลายมือ หรือการสแกนคุณภาพต่ำ ในกรณีเช่นนี้ การแก้ไขตัวสะกดมีบทบาทสำคัญในการปรับปรุงความแม่นยำของข้อความที่แปลง ส่วนนี้กล่าวถึงการแปลง PDF เป็น Word ด้วย OCR และคุณลักษณะการตรวจสอบตัวสะกดใน Python โดยเฉพาะ คุณต้องทำตามขั้นตอนด้านล่างเพื่อให้เป็นไปตามข้อกำหนดเหล่านี้:

  1. เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
  2. ตั้งค่าคุณสมบัติต่างๆ โดยใช้คลาส RecognitionSettings
  3. จดจำ PDF ด้วย OCR และตรวจการสะกดของสตริงที่แยกออกมา
  4. ส่งออกเอกสาร Word ออกในรูปแบบ DOCX

โค้ดตัวอย่างด้านล่างอธิบายวิธีแปลง PDF เป็นเอกสาร Word ด้วย OCR ใน Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

รับใบอนุญาตการประเมินฟรี

คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี เพื่อหลีกเลี่ยงข้อจำกัดการประเมินและลายน้ำ

สรุป

ในบล็อกโพสต์นี้ เราได้สำรวจวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word โดยใช้ OCR ใน Python เราได้พูดคุยเกี่ยวกับความสำคัญของ OCR และประโยชน์ของมัน ให้คำแนะนำทีละขั้นตอนสำหรับการตั้งค่าสภาพแวดล้อม การแยกข้อความจากเอกสาร PDF ด้วยวิธีการต่างๆ ในขณะที่ระบุการตั้งค่าต่างๆ และบันทึกลงในเอกสาร Word คู่มือนี้ช่วยให้คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้โดยอัตโนมัติโดยใช้ Python และ OCR ซึ่งเป็นการเปิดโลกแห่งความเป็นไปได้ในการดึงและจัดการข้อมูล ในกรณีที่คุณต้องการหารือเกี่ยวกับข้อกังวลของคุณ โปรดอย่าลังเลที่จะเขียนถึงเราที่ ฟอรัมสนับสนุนฟรี

ดูสิ่งนี้ด้วย