Trích xuất văn bản từ trang web trong C# - API trích xuất văn bản

Bài đăng trên blog này trình bày một tính năng nổi bật khác được cung cấp bởi Aspose.HTML for .NET. Thư viện .NET giàu tính năng này cho phép bạn trích xuất văn bản từ trang web bằng C# theo chương trình. Hơn nữa, API trích xuất văn bản này đã cung cấp nhiều lớp và phương thức để trích xuất văn bản từ các trang HTML. Vì vậy, bạn có thể dễ dàng phát triển trình trích xuất văn bản trang web cho phần mềm của mình, điều này sẽ mang lại lợi thế cạnh tranh cho doanh nghiệp của bạn. Vì vậy, hãy xem kỹ bài viết này và đừng bỏ sót bất kỳ phần nào. Ngoài ra, vui lòng đảm bảo rằng bạn đã cài đặt .NET trên máy cục bộ của mình để triển khai chức năng.

Các điểm sau đây sẽ được thảo luận trong bài đăng trên blog này:

  1. Cài đặt API trích xuất văn bản
  2. Trích xuất văn bản từ trang web bằng C# - Mẫu mã
  3. Trình trích xuất văn bản trực tuyến

Cài đặt API trích xuất văn bản

Aspose.HTML for .NET cung cấp giải pháp liền mạch để trích xuất văn bản từ trang web. Là lập trình viên C#, bạn có thể chọn API trích xuất văn bản này để phát triển trình trích xuất văn bản trang web nhằm tăng năng suất. Ngoài ra, có nhiều trường hợp bạn cần API trích xuất văn bản trang web, vì vậy Aspose.HTML for .NET có thể là lựa chọn chính. Tuy nhiên, bạn có thể cài đặt nó bằng cách tải xuống tệp DLL hoặc chạy lệnh sau vào Trình quản lý gói NuGet:

PM> Install-Package Aspose.Html
api trích xuất văn bản

Bạn có thể xem hướng dẫn cài đặt đầy đủ tại đây.

Trích xuất văn bản từ trang web trong C# - Mẫu mã

Làm việc với thư viện Aspose.HTML for .NET không phức tạp cũng không khó khăn. Vì vậy, API trích xuất văn bản này được thiết kế tốt bởi các kỹ sư hàng đầu của chúng tôi. Vì vậy, hãy bắt đầu viết một đoạn mã.

Bạn có thể làm theo các bước được đề cập dưới đây:

  • Xác định địa chỉ thư mục.
  • Khởi tạo hàm tạo của lớp HTMLDocument để tải trang web.
  • Thu thập tất cả các tiêu đề h2 bằng cách gọi phương thức GetElementsByTagName.
  • Lặp lại tất cả các tiêu đề h2 được truy xuất.
  • Lấy văn bản in đậm bằng phương thức GetElementsByTagName.
  • Lặp lại tất cả văn bản in đậm được lấy từ một trang web.
  • Gọi phương thức WriteAllText để lưu văn bản vào tệp Txt.

Đoạn mã sau đây cho thấy cách trích xuất văn bản từ trang web trong C# theo chương trình:

namespace Aspose.Html
{
    class HTML
    {
        // Trích xuất văn bản từ trang web trong C# - API trích xuất văn bản
        static void Main(string[] args)
        {
            // Xác định địa chỉ thư mục
            String dir = "/sample-files/";
            // Khởi tạo hàm tạo của lớp HTMLDocument để tải trang web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/vi/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Thu thập tất cả các tiêu đề h2 bằng cách gọi phương thức GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // lặp qua tất cả các tiêu đề h2 được truy xuất.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Lấy văn bản in đậm bằng phương pháp GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Lặp lại tất cả văn bản in đậm được lấy từ một trang web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Gọi phương thức WriteAllText để lưu văn bản vào tệp txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Đầu ra của mẫu mã trên có thể được nhìn thấy trong hình ảnh bên dưới:

trích xuất văn bản từ trang web

Trình trích xuất văn bản trực tuyến

Trình trích xuất văn bản trang web trực tuyến này là một công cụ giúp bạn có thể thực hiện các tác vụ trích xuất dữ liệu không theo chương trình. Đây là một ứng dụng dựa trên web hoạt động tốt trong trình duyệt web của Điện thoại di động. Trên hết, nó hoàn toàn miễn phí và rất nhanh chóng trong việc trích xuất văn bản từ các trang HTML. Trong tương lai, trình trích xuất văn bản trực tuyến này sẽ được trang bị thêm các chức năng khác.

 trình trích xuất văn bản trực tuyến

Trình trích xuất văn bản trang web - Nhận giấy phép miễn phí

Bạn có thể sử dụng giấy phép tạm thời miễn phí để thử trích xuất văn bản API này mà không bị giới hạn về đánh giá.

Phần kết luận

Bài viết blog này kết thúc ở đây. Chúng tôi hy vọng bạn đã học được cách trích xuất văn bản từ trang web bằng C# theo chương trình. Hơn nữa, bạn đã thấy việc triển khai thực tế việc trích xuất văn bản từ các trang HTML. Trên thực tế, các lập trình viên luôn có xu hướng tìm kiếm một API mạnh mẽ và đáng tin cậy khi phát triển ứng dụng nhanh chóng và may mắn thay, Aspose.HTML for .NET thực hiện khá nhiều công việc cho bạn. Vì vậy, bạn có thể tìm hiểu thêm về API trích xuất văn bản này bằng cách truy cập tài liệu và [tài liệu tham khảo] API 14.

Cuối cùng, aspose.com đang viết bài mới. Vì vậy, vui lòng giữ liên lạc để cập nhật thông tin mới nhất.

Trợ giúp có sẵn

Bạn có thể cho chúng tôi biết về các câu hỏi hoặc thắc mắc của bạn trên diễn đàn của chúng tôi.

Câu hỏi thường gặp – Câu hỏi thường gặp

Làm cách nào để đọc dữ liệu từ một trang Web trong C#?

Bạn có thể đọc dữ liệu từ một trang web theo chương trình bằng cách sử dụng Aspose.HTML for .NET. Hơn nữa, vui lòng truy cập liên kết này để xem cách triển khai nó.

Làm cách nào để trích xuất dữ liệu từ một URL trong C#?

Khởi tạo hàm tạo của lớp HTMLDocument để tải trang web và truy xuất dữ liệu bằng cách chuyển bất kỳ tên thẻ nào trong phương thức GetElementsByTagName. Ngoài ra, bạn có thể tận dụng công cụ trực tuyến để trích xuất dữ liệu trực tuyến.

Xem thêm