استخراج النص من صفحة الويب في C# - واجهة برمجة تطبيقات استخراج النص

يوضح منشور المدونة هذا ميزة بارزة أخرى يقدمها Aspose.HTML for .NET. تمكنك مكتبة .NET الغنية بالمميزات من استخراج النص من صفحة الويب في لغة C# برمجيًا. علاوة على ذلك، كشفت واجهة برمجة تطبيقات استخراج النص هذه عن فئات وطرق متعددة لاستخراج النص من صفحات HTML. لذلك، يمكنك بسهولة تطوير أداة استخراج نص موقع الويب لبرنامجك مما يمنح عملك ميزة تنافسية. لذلك، قم بقراءة هذه المقالة بدقة ولا تفوت أي قسم. بالإضافة إلى ذلك، يرجى التأكد من تثبيت .NET على جهازك المحلي لتنفيذ الوظيفة.

سيتم مناقشة النقاط التالية في منشور المدونة هذا:

  1. تثبيت API لاستخراج النص
  2. استخراج النص من صفحة ويب في C# - نموذج التعليمات البرمجية
  3. مستخرج النص عبر الإنترنت

تثبيت API لاستخراج النص

يقدم Aspose.HTML for .NET حلاً سلسًا لاستخراج النص من صفحة الويب. كونك مبرمجًا بلغة C#، يمكنك اختيار واجهة برمجة تطبيقات استخراج النص هذه لتطوير مستخرج نص صفحة الويب لتعزيز الإنتاجية. بالإضافة إلى ذلك، هناك العديد من السيناريوهات التي تحتاج فيها إلى واجهة برمجة تطبيقات لاستخراج النص من موقع الويب، لذلك قد يكون Aspose.HTML for .NET هو الخيار الأساسي. ومع ذلك، يمكنك تثبيته عن طريق تنزيل ملف DLL أو تشغيل الأمر التالي في NuGet مدير الحزم:

PM> Install-Package Aspose.Html
واجهة برمجة تطبيقات استخراج النص

يمكنك الاطلاع على تعليمات التثبيت الكاملة هنا.

استخراج النص من صفحة الويب في C# - نموذج التعليمات البرمجية

إن العمل مع مكتبة Aspose.HTML for .NET ليس معقدًا ولا صعبًا. لذلك، تم تصميم واجهة برمجة تطبيقات استخراج النص هذه بشكل جيد من قبل مهندسينا المتميزين. لذلك، دعونا نبدأ في كتابة مقتطف التعليمات البرمجية.

يمكنك اتباع الخطوات المذكورة أدناه:

  • تحديد عنوان الدليل.
  • قم بتهيئة مُنشئ فئة HTMLDocument لتحميل صفحة ويب.
  • اجمع كافة عناوين h2 عن طريق استدعاء الأسلوب GetElementsByTagName.
  • قم بالمراجعة عبر كافة عناوين h2 المستردة.
  • احصل على النص الغامق باستخدام طريقة GetElementsByTagName.
  • قم بالمراجعة عبر كل النص الغامق الذي تم استرداده من صفحة الويب.
  • قم باستدعاء الأسلوب WriteAllText لحفظ النص في ملف Txt.

يوضح مقتطف الكود التالي كيفية استخراج النص من صفحة الويب في C# برمجياً:

namespace Aspose.Html
{
    class HTML
    {
        // استخراج النص من صفحة الويب في C# - واجهة برمجة تطبيقات استخراج النص
        static void Main(string[] args)
        {
            // تحديد عنوان الدليل
            String dir = "/sample-files/";
            // قم بتهيئة مُنشئ فئة HTMLDocument لتحميل صفحة ويب.  
            using (var document = new HTMLDocument("https://blog.aspose.com/ar/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // قم بتجميع كافة عناوين h2 عن طريق استدعاء الأسلوب GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // قم بالتكرار عبر كافة عناوين h2 المستردة.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // احصل على النص الغامق باستخدام طريقة GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // قم بالمراجعة عبر كل النص الغامق الذي تم استرداده من صفحة الويب.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // استدعاء الأسلوب WriteAllText لحفظ النص في ملف txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

يمكن رؤية مخرجات نموذج التعليمات البرمجية أعلاه في الصورة أدناه:

استخراج النص من صفحة الويب

مستخرج النص عبر الإنترنت

يعد مستخرج نص صفحة الويب عبر الإنترنت أداة يمكنك من خلالها تنفيذ مهام استخراج البيانات بطريقة غير برمجية. إنه تطبيق قائم على الويب ويعمل بشكل جيد في متصفح الويب للهواتف المحمولة أيضًا. قبل كل شيء، فهو مجاني وسريع جدًا في استخراج النص من صفحات HTML. في المستقبل، سيتم تجهيز مستخرج النص عبر الإنترنت هذا بوظائف إضافية.

 مستخرج النص على الانترنت

مستخرج نص موقع الويب - احصل على ترخيص مجاني

يمكنك الاستفادة من ترخيص مؤقت مجاني لتجربة استخراج النص API دون قيود التقييم.

خاتمة

تنتهي مشاركة المدونة هذه هنا. نأمل أن تكون قد تعلمت كيفية استخراج النص برمجيًا من صفحة الويب في لغة C#. علاوة على ذلك، فقد رأيت التنفيذ الفعلي لاستخراج النص من صفحات HTML. في الواقع، يميل المبرمجون دائمًا إلى البحث عن واجهة برمجة تطبيقات موثوقة وقوية عندما يتعلق الأمر بالتطوير السريع للتطبيقات ولحسن الحظ، فإن Aspose.HTML for .NET يقوم بالمهمة نيابة عنك إلى حد كبير. لذلك، يمكنك معرفة المزيد حول واجهة برمجة التطبيقات لاستخراج النص من خلال زيارة الوثائق وواجهة برمجة التطبيقات المراجع.

أخيرًا، يقوم aspose.com بكتابة مقالات جديدة. لذا، يرجى البقاء على اتصال للحصول على آخر التحديثات.

المساعدة متاحة

يمكنك إخبارنا بأسئلتك أو استفساراتك على المنتدى.

الأسئلة المتداولة – الأسئلة الشائعة

كيفية قراءة البيانات من صفحة ويب في C#؟

يمكنك قراءة البيانات برمجيًا من صفحة ويب باستخدام Aspose.HTML for .NET. علاوة على ذلك، يرجى زيارة هذا الرابط لمعرفة كيفية تنفيذه.

كيفية استخراج البيانات من عنوان URL في C#؟

قم بتهيئة مُنشئ فئة HTMLDocument لتحميل صفحة ويب واسترداد البيانات عن طريق تمرير أي اسم علامة في الأسلوب GetElementsByTagName. بالإضافة إلى ذلك، يمكنك الاستفادة من أداة عبر الإنترنت لاستخراج البيانات عبر الإنترنت.

أنظر أيضا