التعرف الضوئي على الحروف PDF واستخراج النص من PDF في بايثون

تلعب تقنية التعرف الضوئي على الحروف (OCR) دورًا محوريًا في رقمنة النصوص المطبوعة أو الممسوحة ضوئيًا أو المكتوبة بخط اليد من مصادر مختلفة، بما في ذلك المستندات PDF. في هذه التدوينة، سوف نتعلم كيفية التعرف الضوئي على الحروف لمستندات PDF واستخراج النص من PDF في بايثون.

تتناول هذه المقالة المواضيع التالية:

  1. PDF إلى TXT Python OCR API
  2. التعرف الضوئي على الحروف لملف PDF واستخراج النص من ملف PDF
  3. حفظ ملف PDF الممسوح ضوئيًا إلى نص
  4. مصادر التعلم المجانية

PDF إلى TXT - Python OCR API

سوف نستخدم Aspose.OCR for Python لإجراء التعرف الضوئي على الحروف على مستندات PDF واستخراج النص من ملفات PDF. Aspose.OCR for Python عبارة عن واجهة برمجة تطبيقات قوية للتعرف البصري على الأحرف (OCR) يمكنها التعرف على النص من الصور الممسوحة ضوئيًا وصور الهواتف الذكية ولقطات الشاشة ومناطق الصور. تقوم واجهة برمجة التطبيقات (API) بإرجاع نتائج نصية تم التعرف عليها بتنسيقات تبادل المستندات والبيانات الأكثر شيوعًا، بما في ذلك PDF وXML وJSON والنص العادي.

بالإضافة إلى تحويل الصور إلى نص، يمكن لـ Aspose.OCR for Python أيضًا إنشاء ملفات PDF قابلة للبحث بناءً على عمليات المسح. يمكن لواجهة برمجة التطبيقات (API) أيضًا تصحيح الأخطاء الإملائية تلقائيًا في النصوص المعترف بها، مما يجعلها مثالية لمجموعة متنوعة من التطبيقات.

يرجى تنزيل الحزمة أو تثبيت واجهة برمجة التطبيقات من PyPI باستخدام أمر النقطة التالي في وحدة التحكم:

pip install aspose-ocr-python-net

Python OCR PDF - استخراج النص من PDF في بايثون

يمكننا إجراء التعرف الضوئي على الحروف على مستندات PDF واستخراج النص الذي تم التعرف عليه باتباع الخطوات الواردة أدناه:

  1. قم بإنشاء مثيل لفئة AsposeOcr.
  2. تهيئة كائن من فئة DocumentRecognitionSettings.
  3. أضف ملف PDF إلى دفعة التعرف.
  4. بعد ذلك، قم باستدعاء طريقة التعرف().
  5. وأخيرًا، قم بإظهار النص المحدد باستخدام فئة RecognitionResult.

يوضح نموذج التعليمات البرمجية التالي كيفية التعرف الضوئي على الحروف لمستندات PDF واستخراج النص من PDF في بايثون.

# يوضح مثال التعليمات البرمجية هذا كيفية التعرف على النص واستخراجه من مستند PDF ممسوح ضوئيًا في Python.
import aspose.ocr as ocr

# تهيئة محرك التعرف الضوئي على الحروف
api = ocr.AsposeOcr()

# تهيئة إعدادات التعرف
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# إضافة ملف إلى دفعة التعرف
files = ocr.OcrInput(ocr.InputType.PDF)

# قم بالوصول إلى ملف PDF الممسوح ضوئيًا وقم بتعيين رقم الصفحة والعدد الإجمالي للصفحات
files.add("C:\\Files\\sample.pdf", 0, 1)

# التعرف على النص
result = api.recognize(files , settings)

# نتيجة التعرف على الطباعة
print(result[0].recognition_text)

Python OCR PDF - حفظ ملف PDF الممسوح ضوئيًا إلى نص في Python

يمكننا إجراء التعرف الضوئي على الحروف على مستندات PDF وحفظ النص الذي تم التعرف عليه باتباع الخطوات الواردة أدناه:

  1. قم بإنشاء مثيل لفئة AsposeOcr.
  2. تهيئة كائن من فئة DocumentRecognitionSettings.
  3. أضف ملف PDF إلى دفعة التعرف.
  4. بعد ذلك، قم باستدعاء طريقة التعرف().
  5. وأخيرًا، احفظ النص باستخدام طريقة savemultipagedocument().فهو يأخذ مسار ملف الإخراج وكائن SaveFormat وRecognitionResult كوسيطات.

يوضح نموذج التعليمة البرمجية التالي كيفية التعرف الضوئي على الحروف لمستندات PDF وحفظ النص الذي تم التعرف عليه في Python.

# يوضح مثال التعليمات البرمجية هذا كيفية حفظ نص التعرف واستخراجه باستخدام Python.
import aspose.ocr as ocr

# تهيئة محرك التعرف الضوئي على الحروف
api = ocr.AsposeOcr()

# تهيئة إعدادات التعرف
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# إضافة ملف إلى دفعة التعرف
files = ocr.OcrInput(ocr.InputType.PDF)

# قم بالوصول إلى ملف PDF الممسوح ضوئيًا وقم بتعيين رقم الصفحة والعدد الإجمالي للصفحات
files.add("C:\\Files\\sample.pdf", 0, 1)

# التعرف على النص
result = api.recognize(files , settings)

# نتيجة التعرف على الطباعة
print(result[0].recognition_text)

# احفظ النص المستخرج
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

احصل على رخصة تقييم مجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجربة المكتبة دون قيود التقييم.

بايثون التعرف الضوئي على الحروف PDF - موارد مجانية

يمكنك أيضًا استكشاف الموارد التالية للتعرف على Python OCR API:

خاتمة

في هذه المقالة، تعلمنا كيفية إجراء التعرف الضوئي على الحروف على مستندات PDF واستخراج النص من PDF في بايثون. تعد القدرة على استخراج النص من ملفات PDF باستخدام التعرف الضوئي على الحروف بمثابة تغيير جذري في العديد من الصناعات، بدءًا من الأرشفة والتوثيق القانوني وحتى تحليل البيانات ورقمنة المحتوى. من خلال الاستفادة من Aspose.OCR for Python، يمكن للمطورين والمتحمسين دمج إمكانات التعرف الضوئي على الحروف بسلاسة في مشاريع Python الخاصة بهم. في حالة وجود أي غموض، فلا تتردد في الاتصال بنا على منتدى الدعم المجاني الخاص بنا.

أنظر أيضا