Вилучення тексту з веб-сторінки в C# - API вилучення тексту

Ця публікація в блозі демонструє ще одну визначну функцію, яку пропонує Aspose.HTML for .NET. Ця багатофункціональна бібліотека .NET дає змогу програмно видобувати текст із веб-сторінки на C#. Крім того, цей API вилучення тексту розкрив кілька класів і методів для вилучення тексту зі сторінок HTML. Отже, ви можете легко розробити екстрактор тексту веб-сайту для свого програмного забезпечення, що дасть вашому бізнесу конкурентну перевагу. Тому уважно прочитайте цю статтю і не пропустіть жодного розділу. Крім того, переконайтеся, що ви встановили .NET на локальному комп’ютері, щоб реалізувати цю функцію.

У цій публікації блогу буде розглянуто наступні моменти:

  1. Інсталяція API вилучення тексту
  2. Вилучення тексту з веб-сторінки в C# - приклад коду
  3. Онлайн-екстрактор тексту

Встановлення API вилучення тексту

Aspose.HTML for .NET пропонує зручне рішення для вилучення тексту з веб-сторінки. Будучи програмістом C#, ви можете вибрати цей API вилучення тексту, щоб розробити екстрактор тексту веб-сторінки для підвищення продуктивності. Крім того, існує кілька сценаріїв, коли вам потрібен API вилучення тексту веб-сайту, тому Aspose.HTML for .NET може бути основним вибором. Тим не менш, ви можете встановити його, завантаживши файл DLL або виконавши таку команду в NuGet менеджері пакетів:

PM> Install-Package Aspose.Html
API вилучення тексту

Ви можете переглянути повні інструкції зі встановлення тут.

Вилучення тексту з веб-сторінки в C# – приклад коду

Робота з бібліотекою Aspose.HTML for .NET не є ні складною, ні важкою. Отже, цей API вилучення тексту добре розроблений нашими першокласними інженерами. Отже, почнемо писати фрагмент коду.

Ви можете виконати наведені нижче дії.

  • Визначте адресу довідника.
  • Ініціалізуйте конструктор класу HTMLDocument, щоб завантажити веб-сторінку.
  • Зберіть усі заголовки h2, викликавши метод GetElementsByTagName.
  • Перегляньте всі отримані заголовки h2.
  • Отримайте жирний текст за допомогою методу GetElementsByTagName.
  • Переглядайте весь жирний текст, отриманий із веб-сторінки.
  • Викличте метод WriteAllText, щоб зберегти текст у текстовому файлі.

У наведеному нижче фрагменті коду показано, як програмним шляхом отримати текст із веб-сторінки на C#:

namespace Aspose.Html
{
    class HTML
    {
        // Вилучення тексту з веб-сторінки в C# - API вилучення тексту
        static void Main(string[] args)
        {
            // Визначте адресу довідника
            String dir = "/sample-files/";
            // Ініціалізуйте конструктор класу HTMLDocument, щоб завантажити веб-сторінку.  
            using (var document = new HTMLDocument("https://blog.aspose.com/uk/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Зберіть усі заголовки h2, викликавши метод GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // прокрутити всі отримані заголовки h2.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Отримайте жирний текст за допомогою методу GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Переглядайте весь жирний текст, отриманий із веб-сторінки.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Викличте метод WriteAllText, щоб зберегти текст у файлі txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Вихід наведеного вище зразка коду можна побачити на зображенні нижче:

витягти текст із веб-сторінки

Онлайн-екстрактор тексту

Цей онлайн екстрактор тексту веб-сторінки — це інструмент, за допомогою якого можна виконувати завдання вилучення даних непрограмним способом. Це веб-програма, яка також добре працює у веб-браузері мобільних телефонів. Крім того, він безкоштовний і дуже швидко витягує текст зі сторінок HTML. У майбутньому цей онлайн-екстрактор тексту буде оснащено додатковими функціями.

 онлайн екстрактор тексту

Екстрактор тексту веб-сайту – отримайте безкоштовну ліцензію

Ви можете скористатися безкоштовною тимчасовою ліцензією, щоб спробувати цей API для вилучення тексту без обмежень оцінки.

Висновок

Ця публікація в блозі закінчується тут. Сподіваємося, ви навчилися програмно видобувати текст із веб-сторінки на C#. Крім того, ви бачили фактичну реалізацію вилучення тексту зі сторінок HTML. Насправді, програмісти завжди прагнуть вибирати надійний і надійний API, коли йдеться про швидку розробку додатків, і, на щастя, Aspose.HTML for .NET майже зробить цю роботу за вас. Отже, ви можете дізнатися більше про цей API вилучення тексту, відвідавши документацію та посилання на API.

Нарешті aspose.com пише нові статті. Тому, будь ласка, залишайтеся на зв’язку для отримання останніх оновлень.

Допомога доступна

Ви можете повідомити нам про свої запитання чи запити на нашому форумі.

Часті запитання – FAQ

Як читати дані з веб-сторінки в C#?

Ви можете програмно читати дані з веб-сторінки за допомогою Aspose.HTML for .NET. Крім того, відвідайте це посилання, щоб дізнатися, як це реалізувати.

Як отримати дані з URL-адреси в C#?

Ініціалізуйте конструктор класу HTMLDocument, щоб завантажити веб-сторінку та отримати дані, передавши ім’я будь-якого тегу в методі GetElementsByTagName. Крім того, ви можете використовувати онлайн інструмент для отримання даних онлайн.

Дивись також