OCR PDF واستخراج النص من PDF في C#

يعد ملف PDF أحد أكثر مستندات الأعمال شيوعًا. في بعض الحالات ، قد نحتاج إلى قراءة مستندات PDF الممسوحة ضوئيًا برمجيًا. أدت صعوبة استخراج النص من ملفات PDF الممسوحة ضوئيًا إلى تطوير أدوات تسهل قراءة النص واسترجاعه من مستندات PDF هذه. اعتمادًا على محتوى المستند الخاص بك ، يمكن أن يكون استخراج النص من ملفات PDF مفيدًا لعدد من الأسباب. في هذه المقالة ، سوف نتعلم كيفية التعرف الضوئي على الحروف في مستندات PDF واستخراج النص من PDF في C#.

سيتم تناول الموضوعات التالية في هذه المقالة:

  1. OCR PDF to Text C# API
  2. OCR PDF واستخراج النص من PDF
  3. تنفيذ OCR على PDF وحفظ النص
  4. OCR PDF to Word File
  5. OCR PDF إلى JSON

OCR PDF إلى نص C# API

سنستخدم Aspose.OCR for .NET API لتنفيذ OCR على مستند PDF. يمكنه التعرف على الصور الممسوحة ضوئيًا وصور الهاتف الذكي ولقطات الشاشة ومناطق الصور. تقوم واجهة برمجة التطبيقات بإرجاع نتائج النصوص التي تم التعرف عليها في أكثر تنسيقات تبادل البيانات والبيانات شيوعًا. بالإضافة إلى تحويل الصور إلى نص ، يمكن لواجهة برمجة التطبيقات أيضًا إنشاء ملفات PDF قابلة للبحث بناءً على عمليات المسح. علاوة على ذلك ، فهو قادر على التصحيح التلقائي للأخطاء الإملائية في النصوص المعترف بها.

توفر واجهة برمجة التطبيقات فئة AsposeOcr التي توفر طرقًا مختلفة لإجراء عمليات التعرف الضوئي على الحروف. يوفر طريقة RecognizePdf (string، DocumentRecognitionSettings) للتعرف على النص من مستند PDF المقدم. توفر فئة DocumentRecognitionSettings الخاصة بواجهة برمجة التطبيقات إعدادات لعملية التعرف على PDF. تمثل فئة RecognitionResult نتائج التعرف على الصور.

يرجى إما تنزيل DLL الخاص بواجهة برمجة التطبيقات أو تثبيته باستخدام NuGet.

PM> Install-Package Aspose.OCR

OCR PDF واستخراج النص من PDF في C#

يمكننا إجراء OCR على مستندات PDF واستخراج النص الذي تم التعرف عليه باتباع الخطوات الواردة أدناه:

  1. أولاً ، قم بإنشاء مثيل لفئة AsposeOcr.
  2. بعد ذلك ، قم بتهيئة كائن من فئة DocumentRecognitionSettings.
  3. ثم حدد اللغة التي سيتم استخدامها في التعرف الضوئي على الحروف.
  4. بعد ذلك ، احصل على RecognitionResult باستدعاء طريقة RecognizePdf().يأخذ مسار الصورة وكائن DocumentRecognitionSettings كوسائط.
  5. أخيرًا ، قم بالتمرير خلال قائمة RecognitionResult وإظهار النص المحدد.

يوضح نموذج التعليمات البرمجية التالي كيفية التعرف الضوئي على الحروف في مستندات PDF واستخراج النص الذي تم التعرف عليه في C#.

// يوضح مثال الرمز هذا كيفية التعرف الضوئي على الحروف في مستندات PDF واستخراج النص الذي تم التعرف عليه.
// قم بتهيئة محرك PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// قم بتهيئة إعدادات التعرف
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// حدد لغة OCR. متعدد اللغات بشكل افتراضي
recognitionSettings.Language = Language.Eng;

// التعرف على النص من ملف PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// اعرض النص الذي تم التعرف عليه
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF واستخراج النص من PDF في C#

OCR PDF واستخراج النص من PDF في C#

قم بإجراء OCR على PDF وحفظ النص في C#

يمكننا إجراء OCR على مستندات PDF وحفظ النص الذي تم التعرف عليه باتباع الخطوات الواردة أدناه:

  1. أولاً ، قم بإنشاء مثيل لفئة AsposeOcr.
  2. بعد ذلك ، قم بتهيئة كائن من فئة DocumentRecognitionSettings.
  3. ثم حدد اللغة التي سيتم استخدامها في التعرف الضوئي على الحروف.
  4. بعد ذلك ، قم باستدعاء طريقة ()RecognizePdf للحصول على RecognitionResult. يأخذ مسار الصورة وكائن DocumentRecognitionSettings كوسائط.
  5. أخيرًا ، احفظ النص باستخدام طريقة ()SaveMultipageDocument.يأخذ مسار ملف الإخراج ، الكائن SaveFormat و RecognitionResult كوسائط.

يوضح نموذج التعليمات البرمجية التالي كيفية التعرف الضوئي على الحروف في مستندات PDF وحفظ النص الذي تم التعرف عليه في C#.

// يوضح مثال الرمز هذا كيفية التعرف الضوئي على الحروف في مستندات PDF واستخراج النص الذي تم التعرف عليه.
// قم بتهيئة محرك PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// قم بتهيئة إعدادات التعرف
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// حدد لغة OCR. متعدد اللغات بشكل افتراضي
recognitionSettings.Language = Language.Eng;

// التعرف على النص من ملف PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// احفظ النص الذي تم التعرف عليه
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
قم بإجراء OCR على PDF وحفظ النص في C#

قم بإجراء OCR على PDF وحفظ النص في C#

OCR PDF وتحويل PDF الممسوح ضوئيًا إلى Word في C#

يمكننا إجراء OCR على مستندات PDF الممسوحة ضوئيًا وحفظ النص الذي تم التعرف عليه في مستند Word باتباع الخطوات المذكورة سابقًا. ومع ذلك ، نحتاج فقط إلى تحديد SaveFormat.Docx في الخطوة الأخيرة.

يوضح نموذج التعليمات البرمجية التالي كيفية OCR PDF وحفظ النص الذي تم التعرف عليه كمستند Word في C#.

// يوضح مثال الرمز هذا كيفية التعرف الضوئي على الحروف في مستندات PDF وحفظ النص الذي تم التعرف عليه بتنسيق DOCX.
// قم بتهيئة محرك PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// قم بتهيئة إعدادات التعرف
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// حدد لغة OCR. متعدد اللغات بشكل افتراضي
recognitionSettings.Language = Language.Eng;

// التعرف على النص من ملف PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// احفظ النص الذي تم التعرف عليه كملف DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF وتحويل PDF الممسوح ضوئيًا إلى Word في C#

OCR PDF وتحويل PDF الممسوح ضوئيًا إلى Word في C#

OCR PDF وتحويل PDF إلى JSON في C#

يمكننا إجراء OCR على مستندات PDF وحفظ النص الذي تم التعرف عليه في ملف JSON باتباع الخطوات المذكورة سابقًا. ومع ذلك ، نحتاج فقط إلى تحديد SaveFormat.Json في الخطوة الأخيرة.

يوضح نموذج التعليمات البرمجية التالي كيفية OCR PDF وحفظ النص الذي تم التعرف عليه كملف JSON في C#.

// يوضح مثال الرمز هذا كيفية التعرف الضوئي على الحروف في مستندات PDF وحفظ النص الذي تم التعرف عليه بتنسيق JSON.
// قم بتهيئة محرك PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// قم بتهيئة إعدادات التعرف
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// حدد لغة OCR. متعدد اللغات بشكل افتراضي
recognitionSettings.Language = Language.Eng;

// التعرف على النص من ملف PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// احفظ النص الذي تم التعرف عليه بتنسيق JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

احصل على رخصة تقييم مجانية

يمكنك الحصول على ترخيص مؤقت مجاني لتجربة المكتبة دون قيود التقييم.

استنتاج

في هذه المقالة ، تعلمنا كيفية إجراء OCR على مستندات PDF واستخراج النص من PDF في C#. لقد رأينا أيضًا كيفية حفظ النص الذي تم التعرف عليه كملف TXT و DOCX و JSON. علاوة على ذلك ، يمكنك معرفة المزيد حول Aspose.OCR for .NET API باستخدام التوثيق. في حالة وجود أي غموض ، لا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا