חלץ טקסט מדף אינטרנט ב-C# - ממשק API לחילוץ טקסט

פוסט זה בבלוג מדגים תכונה בולטת נוספת שמציע Aspose.HTML for .NET. ספריית NET עשירה זו מאפשרת לך לחלץ טקסט מדף אינטרנט ב-C# באופן תכנותי. יתר על כן, ממשק API זה לחילוץ טקסט חשף מחלקות ושיטות מרובות לחילוץ טקסט מדפי HTML. אז אתה יכול בקלות לפתח מחלץ טקסט לאתר עבור התוכנה שלך אשר ייתן לעסק שלך יתרון תחרותי. לכן, עברו על מאמר זה ביסודיות ואל תפספסו אף סעיף. בנוסף, אנא ודא שהתקנת את .NET במחשב המקומי שלך כדי ליישם את הפונקציונליות.

הנקודות הבאות יידונו בפוסט זה בבלוג:

  1. התקנת ממשק API של חילוץ טקסט
  2. חלץ טקסט מדף אינטרנט ב-C# - דוגמה לקוד
  3. מחלץ טקסט מקוון

התקנת API לחילוץ טקסט

Aspose.HTML for .NET מציע פתרון חלק לחילוץ טקסט מדף אינטרנט. בהיותך מתכנת C#, אתה יכול לבחור ב-API זה לחילוץ טקסט כדי לפתח מחלץ טקסט של דפי אינטרנט כדי להגביר את הפרודוקטיביות. בנוסף, ישנם מספר תרחישים שבהם אתה צריך ממשק API לחילוץ טקסט לאתר, כך ש-Aspose.HTML for .NET עשויה להיות הבחירה העיקרית. עם זאת, אתה יכול להתקין אותו על ידי הורדה של קובץ ה-DLL או הפעלת הפקודה הבאה לתוך NuGet מנהל החבילות:

PM> Install-Package Aspose.Html
API לחילוץ טקסט

אתה יכול לעבור על הוראות ההתקנה המלאות כאן.

חלץ טקסט מדף אינטרנט ב-C# - דגימת קוד

העבודה עם ספריית Aspose.HTML for .NET אינה מורכבת ואינה קשה. אז, ממשק API לחילוץ טקסט זה תוכנן היטב על ידי המהנדסים המובילים שלנו. אז בואו נתחיל לכתוב קטע קוד.

אתה יכול לבצע את השלבים המוזכרים להלן:

  • הגדר את כתובת הספרייה.
  • אתחול בנאי של מחלקה HTMLDocument כדי לטעון דף אינטרנט.
  • אסוף את כל כותרות h2 על ידי קריאה לשיטת GetElementsByTagName.
  • עברו בלולאה בכל כותרות H2 שאוחזרו.
  • קבל את הטקסט המודגש באמצעות שיטת GetElementsByTagName.
  • עברו בלולאה בכל הטקסט המודגש שאוחזר מדף אינטרנט.
  • קרא לשיטה WriteAllText כדי לשמור את הטקסט בקובץ Txt.

קטע הקוד הבא מראה כיצד לחלץ טקסט מדף אינטרנט ב-C# באופן פרוגרמטי:

namespace Aspose.Html
{
    class HTML
    {
        // חלץ טקסט מדף אינטרנט ב-C# - ממשק API לחילוץ טקסט
        static void Main(string[] args)
        {
            // הגדר את כתובת הספרייה
            String dir = "/sample-files/";
            // אתחול בנאי של מחלקת HTMLDocument כדי לטעון דף אינטרנט.  
            using (var document = new HTMLDocument("https://blog.aspose.com/he/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // אסוף את כל כותרות h2 על ידי קריאה לשיטת GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // לולאה דרך כל כותרות h2 שאוחזרו.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // קבל את הטקסט המודגש באמצעות שיטת GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // עברו בלולאה בכל הטקסט המודגש שאוחזר מדף אינטרנט.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // התקשר לשיטת WriteAllText כדי לשמור את הטקסט בקובץ txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

ניתן לראות את הפלט של דגימת הקוד לעיל בתמונה למטה:

לחלץ טקסט מדף אינטרנט

מחלץ טקסט מקוון

מחלץ טקסט מקוון זה של דפי אינטרנט הוא כלי שבו אתה יכול לבצע משימות חילוץ נתונים באופן לא פרוגרמטי. זהו יישום מבוסס אינטרנט שעובד היטב גם בדפדפן האינטרנט של טלפונים ניידים. מעל הכל, הוא חינמי ומהיר מאוד בחילוץ טקסט מדפי HTML. בעתיד, מחלץ טקסט מקוון זה יהיה מצויד בפונקציות נוספות.

 מחלץ טקסט מקוון

מחלץ טקסט לאתר - קבל רישיון חינם

אתה יכול להיעזר ב[רישיון זמני] בחינם12 כדי לנסות את חילוץ הטקסט הזה API ללא מגבלות הערכה.

סיכום

פוסט זה בבלוג מסתיים כאן. אנו מקווים שלמדת כיצד לחלץ טקסט מדף אינטרנט ב-C# באופן פרוגרמטי. יתר על כן, ראית את היישום בפועל של חילוץ טקסט מדפי HTML. למעשה, מתכנתים תמיד נוטים ללכת על API אמין וחזק בכל הנוגע לפיתוח מהיר של יישומים ולמרבה המזל, Aspose.HTML for .NET עושה פחות או יותר את העבודה בשבילך. אז אתה יכול ללמוד עוד על ממשק API זה לחילוץ טקסט על ידי ביקור בתיעוד וב-API הפניות.

לבסוף, aspose.com כותב מאמרים חדשים. אז, אנא הישאר בקשר לקבלת העדכונים האחרונים.

העזרה זמינה

תוכל להודיע לנו על השאלות או השאילתות שלך בפורום שלנו.

שאלות נפוצות - שאלות נפוצות

כיצד לקרוא נתונים מדף אינטרנט ב-C#?

אתה יכול לקרוא נתונים באופן פרוגרמטי מדף אינטרנט באמצעות Aspose.HTML for .NET. בנוסף, בקר בקישור הזה כדי לראות כיצד ליישם זאת.

כיצד לחלץ נתונים מכתובת אתר ב-C#?

אתחול בנאי של מחלקה HTMLDocument כדי לטעון דף אינטרנט ולאחזר נתונים על ידי העברת כל שם תג בשיטת GetElementsByTagName. בנוסף, אתה יכול למנף כלי מקוון כדי לחלץ נתונים באינטרנט.

ראה גם