โพสต์ในบล็อกนี้สาธิตคุณลักษณะเด่นอีกประการหนึ่งที่นำเสนอโดย Aspose.HTML for .NET ไลบรารี .NET ที่มีคุณลักษณะครบครันนี้ช่วยให้คุณสามารถแยกข้อความจากหน้าเว็บในภาษา C# โดยทางโปรแกรมได้ นอกจากนี้ API การแยกข้อความนี้ยังได้เปิดเผยคลาสและวิธีการแยกข้อความจากหน้า HTML มากมาย ดังนั้น คุณสามารถพัฒนาโปรแกรมแยกข้อความเว็บไซต์สำหรับซอฟต์แวร์ของคุณได้อย่างง่ายดาย ซึ่งจะทำให้ธุรกิจของคุณได้เปรียบในการแข่งขัน ดังนั้นอ่านบทความนี้ให้ละเอียดและไม่พลาดทุกส่วน นอกจากนี้ โปรดตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง .NET บนเครื่องของคุณเพื่อใช้ฟังก์ชันนี้
ประเด็นต่อไปนี้จะกล่าวถึงในโพสต์บล็อกนี้:
การติดตั้ง API การแยกข้อความ
Aspose.HTML for .NET นำเสนอโซลูชันที่ราบรื่นในการแยกข้อความจากหน้าเว็บ ในฐานะโปรแกรมเมอร์ C# คุณสามารถเลือกใช้ API การแยกข้อความนี้เพื่อพัฒนาตัวแยกข้อความหน้าเว็บเพื่อเพิ่มประสิทธิภาพการทำงาน นอกจากนี้ มีหลายสถานการณ์ที่คุณต้องการ API การแยกข้อความของเว็บไซต์ ดังนั้น Aspose.HTML for .NET อาจเป็นตัวเลือกหลัก อย่างไรก็ตาม คุณสามารถติดตั้งได้โดย ดาวน์โหลด ไฟล์ DLL หรือรันคำสั่งต่อไปนี้ลงใน NuGet Package Manager:
PM> Install-Package Aspose.Html
คุณสามารถอ่านคำแนะนำในการติดตั้งทั้งหมดได้ ที่นี่
แยกข้อความจากเว็บเพจใน C# - ตัวอย่างโค้ด
การทำงานกับไลบรารี Aspose.HTML for .NET นั้นไม่ซับซ้อนหรือยากเลย ดังนั้น API การแยกข้อความนี้จึงได้รับการออกแบบอย่างดีโดยวิศวกรชั้นนำของเรา เรามาเริ่มเขียนโค้ดกันดีกว่า
คุณสามารถทำตามขั้นตอนที่ระบุไว้ด้านล่าง:
- กำหนดที่อยู่ไดเรกทอรี
- เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดหน้าเว็บ
- รวบรวมส่วนหัว h2 ทั้งหมดโดยการเรียกเมธอด GetElementsByTagName
- วนซ้ำส่วนหัว h2 ที่ดึงข้อมูลทั้งหมด
- รับข้อความตัวหนาโดยใช้เมธอด GetElementsByTagName
- วนซ้ำข้อความตัวหนาทั้งหมดที่ดึงมาจากหน้าเว็บ
- เรียกใช้เมธอด WriteAllText เพื่อบันทึกข้อความในไฟล์ Txt
ข้อมูลโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากหน้าเว็บใน C# โดยทางโปรแกรม:
namespace Aspose.Html
{
class HTML
{
// แยกข้อความจากเว็บเพจใน C# - Text Extraction API
static void Main(string[] args)
{
// กำหนดที่อยู่ไดเรกทอรี
String dir = "/sample-files/";
// เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดเว็บเพจ
using (var document = new HTMLDocument("https://blog.aspose.com/th/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
{
// รวบรวมส่วนหัว h2 ทั้งหมดโดยการเรียกเมธอด GetElementsByTagName
var headings = document.GetElementsByTagName("h2");
String data = "********h2 headings********" + System.Environment.NewLine;
// วนซ้ำส่วนหัว h2 ที่ดึงข้อมูลทั้งหมด
for (var i = 0; i < headings.Length; i++)
{
data += headings[i].TextContent+System.Environment.NewLine;
}
// รับข้อความตัวหนาโดยใช้วิธี GetElementsByTagName
var boldTags = document.GetElementsByTagName("strong");
data += "********Bold Text********" + System.Environment.NewLine;
// วนซ้ำข้อความตัวหนาทั้งหมดที่ดึงมาจากหน้าเว็บ
for (var i = 0; i < boldTags.Length; i++)
{
data += boldTags[i].TextContent + System.Environment.NewLine;
}
// เรียกเมธอด WriteAllText เพื่อบันทึกข้อความในไฟล์ txt
File.WriteAllText(Path.Combine(dir, "data.txt"), data);
}
}
}
}
ผลลัพธ์ของตัวอย่างโค้ดข้างต้นสามารถดูได้ในภาพด้านล่าง:
เครื่องมือแยกข้อความออนไลน์
เครื่องมือแยกข้อความหน้าเว็บ ออนไลน์ นี้เป็นเครื่องมือที่คุณสามารถทำงานแยกข้อมูลโดยไม่ต้องเขียนโปรแกรมได้ เป็นแอปพลิเคชันบนเว็บที่ทำงานได้ดีบนเว็บเบราว์เซอร์ของโทรศัพท์มือถือด้วย เหนือสิ่งอื่นใด การแยกข้อความจากหน้า HTML เป็นบริการฟรีและรวดเร็วมาก ในอนาคต เครื่องมือแยกข้อความออนไลน์นี้จะมีฟังก์ชันการทำงานเพิ่มเติม
เครื่องมือแยกข้อความเว็บไซต์ - รับสิทธิ์ใช้งานฟรี
คุณสามารถใช้ ใบอนุญาตชั่วคราวฟรี เพื่อลองแยกข้อความ API โดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
โพสต์บล็อกนี้สิ้นสุดที่นี่ เราหวังว่าคุณจะได้เรียนรู้วิธีแยกข้อความจากหน้าเว็บใน C# โดยทางโปรแกรม นอกจากนี้ คุณได้เห็นการใช้งานจริงในการแยกข้อความจากหน้า HTML ในความเป็นจริง โปรแกรมเมอร์มักจะเลือกใช้ API ที่เชื่อถือได้และมีประสิทธิภาพเมื่อพูดถึงการพัฒนาแอปพลิเคชันที่รวดเร็ว และโชคดีที่ Aspose.HTML for .NET ทำงานได้ดีสำหรับคุณ ดังนั้น คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ API การแยกข้อความนี้ได้โดยไปที่ เอกสารประกอบ และ API ข้อมูลอ้างอิง
ในที่สุด aspose.com ก็กำลังเขียนบทความใหม่ ดังนั้นโปรดติดต่อเพื่อรับข้อมูลอัปเดตล่าสุด
ความช่วยเหลือมีอยู่
คุณสามารถแจ้งให้เราทราบเกี่ยวกับคำถามหรือข้อสงสัยของคุณได้ใน ฟอรั่ม ของเรา
คำถามที่พบบ่อย – คำถามที่พบบ่อย
จะอ่านข้อมูลจากเว็บเพจใน C# ได้อย่างไร
คุณสามารถอ่านข้อมูลจากหน้าเว็บโดยทางโปรแกรมโดยใช้ Aspose.HTML for .NET นอกจากนี้ โปรดไปที่ link นี้เพื่อดูวิธีนำไปใช้
จะดึงข้อมูลจาก URL ใน C# ได้อย่างไร
เริ่มต้น Constructor ของคลาส HTMLDocument เพื่อโหลดหน้าเว็บและดึงข้อมูลโดยส่งชื่อแท็กใดๆ ในเมธอด GetElementsByTagName นอกจากนี้ คุณยังสามารถใช้ประโยชน์จากเครื่องมือ ออนไลน์ เพื่อดึงข้อมูลออนไลน์ได้