Tách trang web HTML

Các tệp HTML thường được sử dụng để hiển thị thông tin trên các trang web hoặc ứng dụng web. Nó thực sự là một văn bản đánh dấu cho phép bạn định dạng văn bản. Đôi khi các tệp HTML khá lớn vì chúng có thể chứa nhiều dữ liệu bao gồm văn bản, hình ảnh, biểu đồ, sơ đồ và nhiều nội dung khác. Bạn có thể cần chia nhỏ tệp HTML theo các yêu cầu hoặc trường hợp sử dụng khác nhau. Hãy để chúng tôi khám phá cách chia tệp HTML thành nhiều tệp bằng C#.

Bộ tách HTML trong C# – Cài đặt API

Aspose.HTML for .NET API hỗ trợ tạo hoặc thao tác các trang web HTML trong các ứng dụng dựa trên .NET Framework của bạn bằng ngôn ngữ lập trình C#. Bạn có thể dễ dàng cài đặt API bằng cách tải xuống các tệp DLL mới nhất từ phần Tải xuống hoặc qua thư viện NuGet bằng lệnh cài đặt sau:

PM> Install-Package Aspose.Html

Tách trang web HTML thành nhiều tệp trong C#

Aspose.HTML for .NET API có một bộ tính năng phong phú. Nó cho phép sao chép nội dung của tài liệu HTML đã tải vào một tài liệu HTML khác. Tuy nhiên, vì HTML không phải là định dạng bố cục cố định và không có các trang cho đến khi chúng tôi in nó vào một thiết bị cụ thể như PDF, DOCX, v.v. Vì vậy, chúng tôi không thể tìm thấy bất kỳ phương thức hoặc thuộc tính nào có thể chia nội dung thành các trang như các bố cục cố định khác. các định dạng bố cục. Do đó, bạn cần tìm vị trí thích hợp để phân tách HTML và thiết kế logic phân tách cho phù hợp.

Trong ví dụ này, chúng tôi sẽ xem xét một ví dụ mà bạn cần chia một trang web HTML dựa trên các thành phần đoạn văn. Do đó, các bước sau đây cho thấy cách chia trang web HTML theo đoạn:

  1. Tải trang web HTML đầu vào
  2. Tìm tất cả các thành phần đoạn bên trong tài liệu HTML bằng cách sử dụng Bộ chọn truy vấn
  3. Tạo một tài liệu trống để tách tệp HTML
  4. Lưu tệp HTML đầu ra

Đoạn mã dưới đây giải thích thêm cách chia trang web HTML thành nhiều tệp bằng C#:

String content = File.ReadAllText(dataDir1 + "Product.html");
// Tạo một thể hiện của tài liệu HTML
var document = new HTMLDocument(content, "");
            
// Tách trang web HTML thành nhiều tệp
// tìm tất cả các thành phần đoạn bên trong tài liệu bằng cách sử dụng CSS Selector Query
var elements = document.QuerySelectorAll("p");
for (int i = 0; i < elements.Length; i++)
{
    // tạo một tài liệu trống để xuất nội dung
    using (var copyTo = new HTMLDocument())
    {
        // nối nội dung vào tài liệu đã tạo trước đó
        copyTo.DocumentElement.AppendChild(elements[i]);
        // lưu tài liệu
        copyTo.Save(dataDir1 + "doc_" + i + ".html", HTMLSaveFormat.HTML);
    }
}

Sự kết luận

Trong bài viết này, chúng ta đã tìm hiểu về cách chia trang web HTML thành nhiều tệp bằng C#. Chúng tôi đã xem xét ví dụ về chia nhỏ tệp dựa trên các phần tử đoạn khác nhau. Tương tự như vậy, bạn có thể ứng biến logic để chia 5 hoặc 10 đoạn trong mỗi tệp đầu ra. Có thể có các trường hợp sử dụng khác nhau để tách trang web HTML theo yêu cầu của bạn. Vui lòng viết thư cho chúng tôi tại Diễn đàn hỗ trợ miễn phí nếu bạn cần bất kỳ sự trợ giúp nào về bất kỳ trường hợp hoặc tình huống sử dụng nào khác. Chúng tôi sẽ rất vinh dự được hỗ trợ bạn!

Xem thêm