مسح pdf إلى نص csharp

ملف PDF الممسوح ضوئيًا هو في الأساس صورة مسطحة واحدة أو أكثر تم التقاطها بواسطة ماسح ضوئي أو كاميرا. لا يمكنك نسخ أو لصق أو معالجة المعلومات من هذه الملفات. تتناول هذه المقالة كيفية تحويل ملف PDF ممسوح ضوئيًا إلى نص في C#.

ممسوحة ضوئيًا من PDF لتحويل النص - تثبيت C# API

Aspose.OCR for .NET API يستخدم لأداء عمليات التعرف الضوئي على الحروف. يمكنه التعرف على الأحرف بصريًا من الصور أو مستندات PDF الممسوحة ضوئيًا. يرجى تكوين API عن طريق تنزيل ملف DLL من قسم الإصدارات الجديدة ، أو باستخدام أمر التثبيت NuGet التالي.

PM> Install-Package Aspose.OCR

تحويل ملفات PDF الممسوحة ضوئيًا إلى سلسلة نصية في C#

يمكنك تحويل ملف PDF ممسوح ضوئيًا إلى سلسلة نصية عن طريق إجراء عمليات التعرف الضوئي على الحروف عليه. تحتاج إلى اتباع الخطوات أدناه لطباعة النص من مستند PDF ممسوح ضوئيًا:

  1. حدد الإعداد للتعرف على ملف PDF الممسوح ضوئيًا.
  2. تهيئة AsposeOcr مثيل فئة.
  3. تهيئة RecognitionResult كائن فئة.
  4. اطبع النص بعد التعرف عليه من ملف PDF ممسوح ضوئيًا.

يوضح مقتطف الشفرة التالي كيفية التعرف على النص من ملف PDF الممسوح ضوئيًا في C#:

// تهيئة مثيل فئة AsposeOcr
AsposeOcr api = new AsposeOcr();

// حدد الإعداد للتعرف على ملف PDF الممسوح ضوئيًا
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// تهيئة كائن فئة RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// اطبع النص بعد التعرف عليه من ملف PDF الممسوح ضوئيًا
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

تحويل ملف PDF الممسوح ضوئيًا إلى ملف TXT برمجيًا في C#

يمكنك تحويل ملف PDF ممسوح ضوئيًا إلى ملف TXT باتباع الخطوات التالية:

  1. إنشاء كائن فئة AsposeOcr.
  2. قم بإنشاء DocumentRecognitionSettings كائن فئة.
  3. حفظ نتائج التعرف وتهيئة مثيل فئة StringBuilder.
  4. احفظ النتيجة في ملف TXT.

يوضح مقتطف الشفرة أدناه كيفية تحويل ملف PDF ممسوح ضوئيًا إلى ملف TXT برمجيًا في C#:

// تهيئة مثيل فئة AsposeOcr
AsposeOcr api = new AsposeOcr();

// التعرف على الصور من ملف PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// حفظ نتائج التعرف
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// تهيئة كائن فئة StringBuilder
StringBuilder builder = new StringBuilder();

// حفظ النتيجة في ملف TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

احصل على رخصة تقييم مجانية

يمكنك طلب رخصة تقييم مجانية لاختبار API بكامل طاقتها.

استنتاج

في هذه المقالة ، تعلمت كيفية تحويل ملف PDF ممسوح ضوئيًا إلى سلسلة نصية أو ملف نصي برمجيًا باستخدام C#. علاوة على ذلك ، يمكنك التحقق من العديد من الميزات الأخرى لواجهة برمجة التطبيقات من خلال زيارة التوثيق. لا تتردد في الاتصال بنا على المنتدى في حالة وجود أي مخاوف.

أنظر أيضا