استخراج متن از صفحه وب در C# - API استخراج متن

این پست وبلاگ یکی دیگر از ویژگی های برجسته ارائه شده توسط Aspose.HTML for .NET را نشان می دهد. این کتابخانه .NET با ویژگی های غنی به شما امکان می دهد متن را از صفحه وب در C# به صورت برنامه نویسی استخراج کنید. علاوه بر این، این API استخراج متن چندین کلاس و روش را برای استخراج متن از صفحات HTML نشان داده است. بنابراین، شما به راحتی می توانید یک استخراج کننده متن وب سایت برای نرم افزار خود ایجاد کنید که به کسب و کار شما مزیت رقابتی می بخشد. بنابراین، این مقاله را به طور کامل مرور کنید و هیچ بخشی را از دست ندهید. علاوه بر این، لطفاً مطمئن شوید که .NET را روی دستگاه محلی خود نصب کرده اید تا عملکرد را پیاده سازی کنید.

نکات زیر در این پست وبلاگ مورد بحث قرار خواهد گرفت:

  1. نصب API استخراج متن
  2. [متن را از صفحه وب در C# استخراج کنید - نمونه کد 3
  3. استخراج کننده متن آنلاین

نصب API استخراج متن

Aspose.HTML for .NET راه حلی بی نقص برای استخراج متن از صفحه وب ارائه می دهد. به عنوان یک برنامه نویس C#، می توانید این API استخراج متن را برای توسعه یک استخراج کننده متن صفحه وب برای افزایش بهره وری انتخاب کنید. علاوه بر این، چندین سناریو وجود دارد که در آنها به یک API استخراج متن وب سایت نیاز دارید، بنابراین Aspose.HTML برای .NET ممکن است انتخاب اصلی باشد. با این وجود، می توانید آن را با دانلود فایل DLL یا اجرای دستور زیر در NuGet Package Manager نصب کنید:

PM> Install-Package Aspose.Html
api استخراج متن

می‌توانید دستورالعمل‌های نصب کامل را اینجا طی کنید.

متن را از صفحه وب در C# استخراج کنید - نمونه کد

کار با کتابخانه Aspose.HTML for .NET نه پیچیده و نه دشوار است. بنابراین، این API استخراج متن به خوبی توسط مهندسین درجه یک ما طراحی شده است. بنابراین، بیایید شروع به نوشتن یک قطعه کد کنیم.

می توانید مراحل ذکر شده در زیر را دنبال کنید:

  • آدرس دایرکتوری را تعریف کنید.
  • یک سازنده از کلاس HTMLDocument برای بارگذاری یک صفحه وب راه اندازی کنید.
  • با فراخوانی متد GetElementsByTagName، تمام عناوین h2 را جمع آوری کنید.
  • تمام عناوین h2 بازیابی شده را حلقه بزنید.
  • متن پررنگ را با استفاده از روش GetElementsByTagName دریافت کنید.
  • تمام متن پررنگ بازیابی شده از یک صفحه وب را حلقه بزنید.
  • برای ذخیره متن در فایل Txt، روش WriteAllText را فراخوانی کنید.

قطعه کد زیر نحوه استخراج متن از صفحه وب در C# را به صورت برنامه‌نویسی نشان می‌دهد:

namespace Aspose.Html
{
    class HTML
    {
        // استخراج متن از صفحه وب در C# - API استخراج متن
        static void Main(string[] args)
        {
            // آدرس دایرکتوری را تعریف کنید
            String dir = "/sample-files/";
            // یک سازنده کلاس HTMLDocument را برای بارگذاری یک صفحه وب راه اندازی کنید.  
            using (var document = new HTMLDocument("https://blog.aspose.com/fa/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // تمام عناوین h2 را با فراخوانی متد GetElementsByTagName جمع آوری کنید. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // تمام عناوین h2 بازیابی شده را حلقه بزنید.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // متن پررنگ را با استفاده از روش GetElementsByTagName دریافت کنید.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // تمام متن پررنگ بازیابی شده از یک صفحه وب را حلقه بزنید.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // برای ذخیره متن در یک فایل txt، متد WriteAllText را فراخوانی کنید.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

خروجی نمونه کد بالا در تصویر زیر قابل مشاهده است:

استخراج متن از صفحه وب

استخراج متن آنلاین

این استخراج‌کننده متن صفحه وب آنلاین ابزاری است که می‌توانید وظایف استخراج داده‌ها را بدون برنامه انجام دهید. این یک برنامه مبتنی بر وب است که در مرورگر وب تلفن های همراه نیز به خوبی کار می کند. مهمتر از همه، رایگان و در استخراج متن از صفحات HTML بسیار سریع است. در آینده، این استخراج کننده متن آنلاین به قابلیت های بیشتری مجهز خواهد شد.

 استخراج متن آنلاین

استخراج کننده متن وب سایت - مجوز رایگان دریافت کنید

می‌توانید از مجوز موقت رایگان استفاده کنید تا این استخراج متن API را بدون محدودیت ارزیابی امتحان کنید.

نتیجه

این پست وبلاگ در اینجا به پایان می رسد. امیدواریم نحوه استخراج متن از صفحه وب در C# را یاد گرفته باشید. علاوه بر این، اجرای واقعی استخراج متن از صفحات HTML را مشاهده کرده اید. در واقع، برنامه نویسان همیشه در هنگام توسعه سریع برنامه به دنبال یک API قابل اعتماد و قوی هستند و خوشبختانه، Aspose.HTML for .NET تقریباً این کار را برای شما انجام می دهد. بنابراین، می‌توانید با مراجعه به مستندات و API مرجع درباره این API استخراج متن اطلاعات بیشتری کسب کنید.

در نهایت، aspose.com در حال نوشتن مقالات جدید است. بنابراین، لطفا برای آخرین به روز رسانی در تماس باشید.

راهنما در دسترس است

می‌توانید در مورد سؤالات یا سؤالات خود در [فروم 16 ما با ما در میان بگذارید.

سوالات متداول - سوالات متداول

چگونه داده ها را از یک صفحه وب در C# بخوانیم؟

با استفاده از Aspose.HTML for .NET می‌توانید داده‌ها را از طریق برنامه‌نویسی از یک صفحه وب بخوانید. علاوه بر این، لطفاً از این لینک دیدن کنید تا نحوه اجرای آن را ببینید.

چگونه داده ها را از یک URL در C# استخراج کنیم؟

سازنده ای از کلاس HTMLDocument را برای بارگذاری یک صفحه وب و بازیابی داده ها با ارسال هر نام برچسب در متد GetElementsByTagName راه اندازی کنید. علاوه بر این، می توانید از یک ابزار آنلاین برای استخراج داده ها به صورت آنلاین استفاده کنید.

همچنین ببینید