แยกข้อความจากเว็บเพจใน C# - Text Extraction API

โพสต์ในบล็อกนี้สาธิตคุณลักษณะเด่นอีกประการหนึ่งที่นำเสนอโดย Aspose.HTML for .NET ไลบรารี .NET ที่มีคุณลักษณะครบครันนี้ช่วยให้คุณสามารถแยกข้อความจากหน้าเว็บในภาษา C# โดยทางโปรแกรมได้ นอกจากนี้ API การแยกข้อความนี้ยังได้เปิดเผยคลาสและวิธีการแยกข้อความจากหน้า HTML มากมาย ดังนั้น คุณสามารถพัฒนาโปรแกรมแยกข้อความเว็บไซต์สำหรับซอฟต์แวร์ของคุณได้อย่างง่ายดาย ซึ่งจะทำให้ธุรกิจของคุณได้เปรียบในการแข่งขัน ดังนั้นอ่านบทความนี้ให้ละเอียดและไม่พลาดทุกส่วน นอกจากนี้ โปรดตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง .NET บนเครื่องของคุณเพื่อใช้ฟังก์ชันนี้

ประเด็นต่อไปนี้จะกล่าวถึงในโพสต์บล็อกนี้:

  1. การติดตั้ง API การแยกข้อความ
  2. แยกข้อความจากเว็บเพจใน C# - ตัวอย่างโค้ด
  3. ตัวแยกข้อความออนไลน์

การติดตั้ง API การแยกข้อความ

Aspose.HTML for .NET นำเสนอโซลูชันที่ราบรื่นในการแยกข้อความจากหน้าเว็บ ในฐานะโปรแกรมเมอร์ C# คุณสามารถเลือกใช้ API การแยกข้อความนี้เพื่อพัฒนาตัวแยกข้อความหน้าเว็บเพื่อเพิ่มประสิทธิภาพการทำงาน นอกจากนี้ มีหลายสถานการณ์ที่คุณต้องการ API การแยกข้อความของเว็บไซต์ ดังนั้น Aspose.HTML for .NET อาจเป็นตัวเลือกหลัก อย่างไรก็ตาม คุณสามารถติดตั้งได้โดย ดาวน์โหลด ไฟล์ DLL หรือรันคำสั่งต่อไปนี้ลงใน NuGet Package Manager:

PM> Install-Package Aspose.Html
API การแยกข้อความ

คุณสามารถอ่านคำแนะนำในการติดตั้งทั้งหมดได้ ที่นี่

แยกข้อความจากเว็บเพจใน C# - ตัวอย่างโค้ด

การทำงานกับไลบรารี Aspose.HTML for .NET นั้นไม่ซับซ้อนหรือยากเลย ดังนั้น API การแยกข้อความนี้จึงได้รับการออกแบบอย่างดีโดยวิศวกรชั้นนำของเรา เรามาเริ่มเขียนโค้ดกันดีกว่า

คุณสามารถทำตามขั้นตอนที่ระบุไว้ด้านล่าง:

  • กำหนดที่อยู่ไดเรกทอรี
  • เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดหน้าเว็บ
  • รวบรวมส่วนหัว h2 ทั้งหมดโดยการเรียกเมธอด GetElementsByTagName
  • วนซ้ำส่วนหัว h2 ที่ดึงข้อมูลทั้งหมด
  • รับข้อความตัวหนาโดยใช้เมธอด GetElementsByTagName
  • วนซ้ำข้อความตัวหนาทั้งหมดที่ดึงมาจากหน้าเว็บ
  • เรียกใช้เมธอด WriteAllText เพื่อบันทึกข้อความในไฟล์ Txt

ข้อมูลโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากหน้าเว็บใน C# โดยทางโปรแกรม:

namespace Aspose.Html
{
    class HTML
    {
        // แยกข้อความจากเว็บเพจใน C# - Text Extraction API
        static void Main(string[] args)
        {
            // กำหนดที่อยู่ไดเรกทอรี
            String dir = "/sample-files/";
            // เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดเว็บเพจ  
            using (var document = new HTMLDocument("https://blog.aspose.com/th/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // รวบรวมส่วนหัว h2 ทั้งหมดโดยการเรียกเมธอด GetElementsByTagName 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // วนซ้ำส่วนหัว h2 ที่ดึงข้อมูลทั้งหมด
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // รับข้อความตัวหนาโดยใช้วิธี GetElementsByTagName
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // วนซ้ำข้อความตัวหนาทั้งหมดที่ดึงมาจากหน้าเว็บ
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // เรียกเมธอด WriteAllText เพื่อบันทึกข้อความในไฟล์ txt
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

ผลลัพธ์ของตัวอย่างโค้ดข้างต้นสามารถดูได้ในภาพด้านล่าง:

แยกข้อความจากหน้าเว็บ

เครื่องมือแยกข้อความออนไลน์

เครื่องมือแยกข้อความหน้าเว็บ ออนไลน์ นี้เป็นเครื่องมือที่คุณสามารถทำงานแยกข้อมูลโดยไม่ต้องเขียนโปรแกรมได้ เป็นแอปพลิเคชันบนเว็บที่ทำงานได้ดีบนเว็บเบราว์เซอร์ของโทรศัพท์มือถือด้วย เหนือสิ่งอื่นใด การแยกข้อความจากหน้า HTML เป็นบริการฟรีและรวดเร็วมาก ในอนาคต เครื่องมือแยกข้อความออนไลน์นี้จะมีฟังก์ชันการทำงานเพิ่มเติม

 เครื่องมือแยกข้อความออนไลน์

เครื่องมือแยกข้อความเว็บไซต์ - รับสิทธิ์ใช้งานฟรี

คุณสามารถใช้ ใบอนุญาตชั่วคราวฟรี เพื่อลองแยกข้อความ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โพสต์บล็อกนี้สิ้นสุดที่นี่ เราหวังว่าคุณจะได้เรียนรู้วิธีแยกข้อความจากหน้าเว็บใน C# โดยทางโปรแกรม นอกจากนี้ คุณได้เห็นการใช้งานจริงในการแยกข้อความจากหน้า HTML ในความเป็นจริง โปรแกรมเมอร์มักจะเลือกใช้ API ที่เชื่อถือได้และมีประสิทธิภาพเมื่อพูดถึงการพัฒนาแอปพลิเคชันที่รวดเร็ว และโชคดีที่ Aspose.HTML for .NET ทำงานได้ดีสำหรับคุณ ดังนั้น คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ API การแยกข้อความนี้ได้โดยไปที่ เอกสารประกอบ และ API ข้อมูลอ้างอิง

ในที่สุด aspose.com ก็กำลังเขียนบทความใหม่ ดังนั้นโปรดติดต่อเพื่อรับข้อมูลอัปเดตล่าสุด

ความช่วยเหลือมีอยู่

คุณสามารถแจ้งให้เราทราบเกี่ยวกับคำถามหรือข้อสงสัยของคุณได้ใน ฟอรั่ม ของเรา

คำถามที่พบบ่อย – คำถามที่พบบ่อย

จะอ่านข้อมูลจากเว็บเพจใน C# ได้อย่างไร

คุณสามารถอ่านข้อมูลจากหน้าเว็บโดยทางโปรแกรมโดยใช้ Aspose.HTML for .NET นอกจากนี้ โปรดไปที่ link นี้เพื่อดูวิธีนำไปใช้

จะดึงข้อมูลจาก URL ใน C# ได้อย่างไร

เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดหน้าเว็บและดึงข้อมูลโดยส่งชื่อแท็กใดๆ ในเมธอด GetElementsByTagName นอกจากนี้ คุณยังสามารถใช้ประโยชน์จากเครื่องมือ ออนไลน์ เพื่อดึงข้อมูลออนไลน์ได้

ดูสิ่งนี้ด้วย