مسح المستندات في بايثون

في العصر الرقمي اليوم ، أصبحت إدارة المستندات الفعالة أمرًا بالغ الأهمية. تم إحداث ثورة في مسح المستندات ، والتي كانت تستغرق وقتًا طويلاً وتتطلب جهدًا كثيفًا ، بواسطة Aspose.OCR for Python. إنه الحل الأمثل لمسح المستندات ضوئيًا واستخراج المعلومات القيمة ، ويقدم مجموعة من المزايا للشركات والأفراد على حدٍ سواء. في منشور المدونة هذا ، سوف نستكشف الجوانب المختلفة لمسح المستندات ضوئيًا في Python ، من المعالجة المسبقة للصور إلى التعرف الضوئي على الأحرف (OCR) وما بعده.

تتناول هذه المقالة الموضوعات التالية:

Document Scanner Python API
مسح مستندات الصور في Python
مسح مستند PDF بلغة بايثون
مسح المستندات - موارد مجانية

وثيقة الماسح الضوئي Python API

Aspose.OCR for Python هي مكتبة قوية للتعرف الضوئي على الحروف (OCR) تسمح لك باستخراج النص من الصور والمستندات الممسوحة ضوئيًا. يمكن دمجها بسلاسة في تطبيقات Python الخاصة بك. يستخدم مسح المستندات أو الصور أو الصور الأخرى التعلم الآلي المتقدم والشبكات العصبية للتعرف على النص.

فيما يلي قائمة ببعض الميزات الرئيسية لـ Aspose.OCR المتعلقة بمسح المستندات:

اكتشاف النص: يكتشف ويتعرف على المحارف الشائعة وأنماط الخطوط وحتى النصوص المكتوبة بخط اليد.
استخراج النص: التعرف على النصوص واستخراجها من الصور أو الملفات الممسوحة ضوئيًا أو مستندات PDF.
دعم اللغة: يدعم 28 لغة ، بما في ذلك النصوص اللاتينية والسيريلية والآسيوية.
خوارزميات OCR المتقدمة: تستخدم خوارزميات OCR المتقدمة لتوفير استخراج نص دقيق وموثوق.
خيارات المعالجة المسبقة: تقوم بمعالجة الصور المدورة والمنحرفة والصاخبة بكفاءة باستخدام مرشحات مدمجة للمعالجة التلقائية للصور.
التصحيح الإملائي: يقوم تلقائيًا بتصحيح الكلمات التي بها أخطاء إملائية في نتائج التعرف.
نتائج التعرف على التصدير: يتم إرجاع نتائج التعرف في تنسيقات تبادل البيانات والبيانات الشائعة مثل نص عادي ، HTML ، PDF ، Word ، RTF ، EPUB و Excel و JSON و XML.
سهولة الدمج: تم تصميمه ليتم دمجه بسهولة في تطبيقات Python.
مسح الروابط: يتعرف على الصور المقدمة كروابط ويب.
المسح الضوئي والتعرف على الدُفعات: يقوم بمعالجة صور متعددة في مجلد أو أرشيف في وقت واحد.
دعم تنسيقات الإدخال المتعددة: يقبل تنسيقات الصور المختلفة من الماسحات الضوئية والكاميرات وروابط الويب.
و اكثر…

مسح المستندات في Python - مسح الصور ضوئيًا

يرجى اتباع الخطوات أدناه لإنشاء تطبيق ماسح ضوئي للمستندات لمسح الصور باستخدام ميزات التعرف الضوئي على الحروف:

تثبيت Aspose.OCR for Python في تطبيقك.
انسخ الكود أدناه لمسح صورة ضوئيًا واستخراج النص:

# يوضح مثال الرمز هذا كيفية مسح الصور ضوئيًا واستخراج النص
import aspose.ocr as ocr

# تهيئة محرك OCR
api = ocr.AsposeOcr()

# أضف الصورة إلى دفعة التعرف
input = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
input.add("C:\Files\sample.png")

# تعرف على الصورة
result = api.recognize(input)

# نتيجة التعرف على الطباعة
print(result[0].recognition_text)

مسح مستند PDF في Python

وبالمثل ، يمكننا مسح مستند PDF ضوئيًا واستخراج النص باتباع الخطوات المذكورة سابقًا. ومع ذلك ، يُرجى استخدام نموذج الرمز الوارد أدناه:

# يوضح مثال الرمز هذا كيفية مسح مستند PDF ضوئيًا واستخراج النص
import aspose.ocr as ocr

# تهيئة محرك OCR
api = ocr.AsposeOcr()

# تهيئة RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# أضف مستند PDF إلى دفعة التعرف
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("C:\Files\sample.pdf", 0, 1)

# يتعرف على
result = api.recognize(input , settings)

# نتيجة التعرف على الطباعة
print(result[0].recognition_text)