การแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word มีข้อดีหลายประการ เช่น การแก้ไขข้อความภายในเอกสาร ทำให้ง่ายต่อการเปลี่ยนแปลงหรืออัปเดต นอกจากนี้ยังช่วยให้สามารถค้นหาข้อความได้ ซึ่งมีประโยชน์มากสำหรับเอกสารขนาดใหญ่หรือเมื่อทำการวิจัย นอกจากนี้ คุณยังสามารถตรวจสอบการสะกดคำเพื่อแก้ไขคำที่พิมพ์ผิดหรือคำที่สะกดผิดในขณะที่ใช้ OCR ใน Python ดังนั้น บทความนี้จะอธิบายวิธีแปลงเอกสาร PDF ที่สแกนเป็น Word ด้วย OCR ใน Python โดยใช้ไลบรารี Aspose.OCR for Python ผ่าน .NET
- PDF เป็น Word ด้วย OCR - การติดตั้ง Python API
- แปลง PDF ที่สแกนเป็น Word ด้วย OCR ใน Python
- PDF เป็น Word พร้อม OCR และการตรวจสอบการสะกดใน Python
PDF เป็น Word ด้วย OCR - การติดตั้ง Python API
ก่อนที่เราจะดำดิ่งสู่การจดจำข้อความ ตรวจสอบให้แน่ใจว่าเราได้ตั้งค่าสภาพแวดล้อมที่จำเป็นเพื่อเรียกใช้ OCR ใน Python ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Python บนระบบของคุณ โดยควรเป็นเวอร์ชัน 3.x หรือใหม่กว่า พร้อมด้วยตัวแก้ไขโค้ดที่เชื่อถือได้หรือสภาพแวดล้อมการพัฒนาแบบรวม (IDE) เช่น Visual Studio Code หรือ IDLE เป็นต้น จากนั้นคุณต้องกำหนดค่า Aspose.OCR for Python ผ่าน .NET ขณะที่เข้าถึงจากส่วน New Releases หรือจาก PyPi ด้วยคำสั่งการติดตั้งต่อไปนี้:
pip install aspose-ocr-python-net
แปลง PDF ที่สแกนเป็น Word ด้วย OCR ใน Python
คุณสามารถแปลง PDF ที่สแกนเป็น Word ด้วย OCR โดยทำตามขั้นตอนด้านล่าง:
- เริ่มต้น API โดยใช้คลาส AsposeOcr
- ตั้งค่าต่าง ๆ สำหรับการจดจำ
- จดจำข้อความด้วย OCR และบันทึกไฟล์ DOCX Word เอาต์พุต
ข้อมูลโค้ดต่อไปนี้สาธิตวิธีแปลง PDF ที่สแกนเป็น Word ด้วย OCR ใน Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)
result = api.recognize(input , settings)
api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)
print(result[0].recognition_text)
PDF เป็น Word พร้อม OCR และการตรวจสอบการสะกดใน Python
บางครั้งกลไก OCR อาจทำให้เกิดความไม่ถูกต้อง โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับเค้าโครงที่ซับซ้อน การเขียนด้วยลายมือ หรือการสแกนคุณภาพต่ำ ในกรณีเช่นนี้ การแก้ไขตัวสะกดมีบทบาทสำคัญในการปรับปรุงความแม่นยำของข้อความที่แปลง ส่วนนี้กล่าวถึงการแปลง PDF เป็น Word ด้วย OCR และคุณลักษณะการตรวจสอบตัวสะกดใน Python โดยเฉพาะ คุณต้องทำตามขั้นตอนด้านล่างเพื่อให้เป็นไปตามข้อกำหนดเหล่านี้:
- เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
- ตั้งค่าคุณสมบัติต่างๆ โดยใช้คลาส RecognitionSettings
- จดจำ PDF ด้วย OCR และตรวจการสะกดของสตริงที่แยกออกมา
- ส่งออกเอกสาร Word ออกในรูปแบบ DOCX
โค้ดตัวอย่างด้านล่างอธิบายวิธีแปลง PDF เป็นเอกสาร Word ด้วย OCR ใน Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)
result = api.recognize(input , settings)
corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)
# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)
รับใบอนุญาตการประเมินฟรี
คุณสามารถรับ ใบอนุญาตชั่วคราวฟรี เพื่อหลีกเลี่ยงข้อจำกัดการประเมินและลายน้ำ
สรุป
ในบล็อกโพสต์นี้ เราได้สำรวจวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word โดยใช้ OCR ใน Python เราได้พูดคุยเกี่ยวกับความสำคัญของ OCR และประโยชน์ของมัน ให้คำแนะนำทีละขั้นตอนสำหรับการตั้งค่าสภาพแวดล้อม การแยกข้อความจากเอกสาร PDF ด้วยวิธีการต่างๆ ในขณะที่ระบุการตั้งค่าต่างๆ และบันทึกลงในเอกสาร Word คู่มือนี้ช่วยให้คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้โดยอัตโนมัติโดยใช้ Python และ OCR ซึ่งเป็นการเปิดโลกแห่งความเป็นไปได้ในการดึงและจัดการข้อมูล ในกรณีที่คุณต้องการหารือเกี่ยวกับข้อกังวลของคุณ โปรดอย่าลังเลที่จะเขียนถึงเราที่ ฟอรัมสนับสนุนฟรี