แยกเว็บเพจ HTML

ไฟล์ HTML มักจะใช้เพื่อแสดงข้อมูลบนเว็บไซต์หรือเว็บแอปพลิเคชัน เป็นข้อความมาร์กอัปที่ให้คุณจัดรูปแบบข้อความได้เช่นกัน บางครั้งไฟล์ HTML มีขนาดค่อนข้างใหญ่ เนื่องจากอาจมีข้อมูลจำนวนมาก รวมถึงข้อความ รูปภาพ แผนภูมิ ไดอะแกรม และเนื้อหาอื่นๆ อีกมากมาย คุณอาจต้องแยกไฟล์ HTML ภายใต้ข้อกำหนดหรือกรณีการใช้งานที่แตกต่างกัน ให้เราสำรวจวิธีแยกไฟล์ HTML เป็นหลายไฟล์โดยใช้ C#

ตัวแยก HTML ใน C # - การติดตั้ง API

Aspose.HTML for .NET API รองรับการสร้างหรือจัดการเว็บเพจ HTML ในแอปพลิเคชันที่ใช้ .NET Framework โดยใช้ภาษาการเขียนโปรแกรม C# คุณสามารถติดตั้ง API ได้ง่ายๆ โดยดาวน์โหลดไฟล์ DLL ล่าสุดจากส่วน ดาวน์โหลด หรือผ่านแกลเลอรี NuGet ด้วยคำสั่งการติดตั้งต่อไปนี้:

PM> Install-Package Aspose.Html

แยกเว็บเพจ HTML ออกเป็นหลายไฟล์ใน C#

Aspose.HTML for .NET API มีชุดคุณสมบัติมากมาย อนุญาตให้คัดลอกเนื้อหาของเอกสาร HTML ที่โหลดไปยังเอกสาร HTML อื่น อย่างไรก็ตาม เนื่องจาก HTML ไม่ใช่รูปแบบเลย์เอาต์ตายตัวและไม่มีหน้าจนกว่าเราจะพิมพ์ลงในอุปกรณ์เฉพาะ เช่น PDF, DOCX เป็นต้น เราจึงไม่สามารถหาวิธีหรือคุณสมบัติใด ๆ ที่สามารถแยกเนื้อหาออกเป็นหน้า ๆ ได้เหมือนแบบคงที่อื่น ๆ รูปแบบเค้าโครง ดังนั้น คุณต้องหาตำแหน่งที่เหมาะสมในการแยก HTML และออกแบบตรรกะการแยกตามนั้น

ในตัวอย่างนี้ เราจะพิจารณาตัวอย่างที่คุณต้องการแยกหน้าเว็บ HTML ตามองค์ประกอบของย่อหน้า ดังนั้น ขั้นตอนต่อไปนี้จะแสดงวิธีแบ่งหน้าเว็บ HTML ตามย่อหน้า:

  1. โหลดหน้าเว็บ HTML อินพุต
  2. ค้นหาองค์ประกอบย่อหน้าทั้งหมดภายในเอกสาร HTML โดยใช้ Query Selector
  3. สร้างเอกสารเปล่าเพื่อแยกไฟล์ HTML
  4. บันทึกไฟล์ HTML เอาต์พุต

ข้อมูลโค้ดด้านล่างอธิบายเพิ่มเติมเกี่ยวกับวิธีแยกหน้าเว็บ HTML ออกเป็นหลายไฟล์โดยใช้ C#:

String content = File.ReadAllText(dataDir1 + "Product.html");
// สร้างตัวอย่างของเอกสาร HTML
var document = new HTMLDocument(content, "");
            
// แยกหน้าเว็บ HTML เป็นหลายไฟล์
// ค้นหาองค์ประกอบย่อหน้าทั้งหมดภายในเอกสารโดยใช้ CSS Selector Query
var elements = document.QuerySelectorAll("p");
for (int i = 0; i < elements.Length; i++)
{
    // สร้างเอกสารเปล่าเพื่อส่งออกเนื้อหา
    using (var copyTo = new HTMLDocument())
    {
        // ผนวกเนื้อหาลงในเอกสารที่สร้างไว้ก่อนหน้านี้
        copyTo.DocumentElement.AppendChild(elements[i]);
        // บันทึกเอกสาร
        copyTo.Save(dataDir1 + "doc_" + i + ".html", HTMLSaveFormat.HTML);
    }
}

บทสรุป

ในบทความนี้ เราได้เรียนรู้เกี่ยวกับการแยกหน้าเว็บ HTML ออกเป็นหลายไฟล์โดยใช้ C# เราได้พิจารณาตัวอย่างการแยกไฟล์ตามองค์ประกอบย่อหน้าต่างๆ ในทำนองเดียวกัน คุณสามารถโพล่งตรรกะเพื่อแบ่ง 5 หรือ 10 ย่อหน้าในแต่ละไฟล์ที่ส่งออก อาจมีกรณีการใช้งานอื่นที่แตกต่างกันสำหรับการแยกหน้าเว็บ HTML ตามความต้องการของคุณ โปรดอย่าลังเลที่จะเขียนถึงเราที่ ฟอรัมการสนับสนุนฟรี หากคุณต้องการความช่วยเหลือเกี่ยวกับกรณีการใช้งานหรือสถานการณ์อื่น ๆ เรารู้สึกเป็นเกียรติที่ได้ช่วยเหลือคุณ!

ดูสิ่งนี้ด้วย