PDF إلى Word OCR Python

يوفر تحويل ملفات PDF الممسوحة ضوئيًا إلى مستندات Word العديد من المزايا مثل تحرير النص داخل المستند ، مما يسهل إجراء التغييرات أو التحديثات. كما أنه يتيح إمكانية البحث عن النص ، وهو أمر لا يقدر بثمن بالنسبة للمستندات الكبيرة أو عند إجراء البحث. علاوة على ذلك ، يمكنك أيضًا إجراء التدقيق الإملائي لتصحيح أي أخطاء إملائية أو كلمات بها أخطاء إملائية أثناء إجراء OCR في Python. وفقًا لذلك ، تشرح هذه المقالة كيفية تحويل ملف PDF الممسوح ضوئيًا إلى مستند Word باستخدام OCR في Python باستخدام مكتبة Aspose.OCR for Python via .NET.

تحويل PDF إلى Word باستخدام OCR - تثبيت Python API

قبل الغوص في التعرف على النص ، دعنا نتأكد من أن لدينا البيئة اللازمة التي تم إعدادها لتشغيل OCR في Python. تأكد من تثبيت Python على نظامك ، ويفضل أن يكون الإصدار 3.x أو أحدث ، جنبًا إلى جنب مع محرر كود موثوق أو بيئة تطوير متكاملة (IDE) مثل Visual Studio Code أو IDLE ، وما إلى ذلك ، ثم تحتاج إلى تكوين Aspose.OCR من أجل Python عبر .NET أثناء الوصول إليها من قسم الإصدارات الجديدة أو من PyPi باستخدام أمر التثبيت التالي:

pip install aspose-ocr-python-net

تحويل ملفات PDF الممسوحة ضوئيًا إلى Word باستخدام OCR في Python

يمكنك تحويل ملف PDF ممسوح ضوئيًا إلى Word باستخدام OCR باتباع الخطوات التالية:

  1. تهيئة API باستخدام فئة AsposeOcr.
  2. اضبط إعدادات مختلفة للتعرف.
  3. التعرف على النص باستخدام OCR وحفظ ملف DOCX Word الناتج.

يوضح مقتطف الشفرة التالي كيفية تحويل ملف PDF الممسوح ضوئيًا إلى Word باستخدام OCR في Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

تحويل PDF إلى Word باستخدام OCR والتدقيق الإملائي في Python

قد ينتج عن محركات OCR أحيانًا عدم دقة ، خاصة عند التعامل مع التخطيطات المعقدة أو الكتابة اليدوية أو عمليات المسح منخفضة الجودة. في مثل هذه الحالات ، يلعب التصحيح الإملائي دورًا مهمًا في تحسين دقة النص المحول. يتناول هذا القسم بشكل خاص تحويل PDF إلى Word باستخدام OCR وميزة التدقيق الإملائي في Python. تحتاج إلى اتباع الخطوات أدناه لتلبية هذه المتطلبات:

  1. تهيئة مثيل لفئة AsposeOcr.
  2. قم بتعيين خصائص مختلفة باستخدام فئة RecognitionSettings.
  3. تعرف على ملف PDF باستخدام OCR وقم بالتدقيق الإملائي للسلسلة المستخرجة.
  4. قم بتصدير مستند Word الناتج بتنسيق DOCX.

يوضح نموذج التعليمة البرمجية أدناه كيفية تحويل ملف PDF إلى مستند Word باستخدام OCR في Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

احصل على رخصة تقييم مجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجنب أي قيود تقييم وعلامات مائية.

تلخيص لما سبق

في منشور المدونة هذا ، اكتشفنا كيفية تحويل ملفات PDF الممسوحة ضوئيًا إلى مستندات Word باستخدام OCR في Python. ناقشنا أهمية التعرف الضوئي على الحروف وفوائدها ، وقدمنا دليلاً تفصيليًا لإعداد البيئة ، واستخراج النص من مستند PDF بطرق مختلفة أثناء تحديد العديد من الإعدادات ، وحفظه في مستند Word. يمكّنك هذا الدليل من أتمتة تحويل ملفات PDF الممسوحة ضوئيًا إلى مستندات Word قابلة للتحرير باستخدام Python و OCR ، مما يفتح عالمًا من الاحتمالات لاستخراج البيانات ومعالجتها. إذا كنت تريد مناقشة أي من مخاوفك ، فلا تتردد في الكتابة إلينا على منتدى الدعم المجاني.

أنظر أيضا