Извлечение текста с веб-страницы на C# — API извлечения текста

В этом сообщении блога демонстрируется еще одна важная функция, предлагаемая Aspose.HTML for .NET. Эта многофункциональная библиотека .NET позволяет программно извлекать текст с веб-страницы на C#. Кроме того, этот API извлечения текста предоставляет несколько классов и методов для извлечения текста из страниц HTML. Таким образом, вы можете легко разработать экстрактор текста веб-сайта для своего программного обеспечения, который даст вашему бизнесу конкурентное преимущество. Поэтому прочитайте эту статью досконально и не пропустите ни одного раздела. Кроме того, убедитесь, что вы установили .NET на свой локальный компьютер для реализации этой функциональности.

В этом блоге будут обсуждаться следующие моменты:

  1. Установка API извлечения текста
  2. Извлечение текста с веб-страницы на C# — пример кода
  3. Онлайн-экстрактор текста

Установка API извлечения текста

Aspose.HTML for .NET предлагает простое решение для извлечения текста с веб-страницы. Будучи программистом C#, вы можете выбрать этот API для извлечения текста, чтобы разработать средство извлечения текста для веб-страниц и повысить производительность. Кроме того, существует множество сценариев, в которых вам понадобится API извлечения текста с веб-сайта, поэтому Aspose.HTML for .NET может быть основным выбором. Тем не менее, вы можете установить его, загрузив файл DLL или выполнив следующую команду в диспетчере пакетов NuGet:

PM> Install-Package Aspose.Html
API извлечения текста

Вы можете просмотреть полные инструкции по установке здесь.

Извлечение текста с веб-страницы на C# — пример кода

Работа с библиотекой Aspose.HTML for .NET не является ни сложной, ни трудной. Итак, этот API извлечения текста хорошо разработан нашими первоклассными инженерами. Итак, приступим к написанию фрагмента кода.

Вы можете выполнить шаги, указанные ниже:

  • Определите адрес каталога.
  • Инициализируйте конструктор класса HTMLDocument для загрузки веб-страницы.
  • Соберите все заголовки h2, вызвав метод GetElementsByTagName.
  • Прокрутите все полученные заголовки h2.
  • Получите жирный текст, используя метод GetElementsByTagName.
  • Прокрутите весь выделенный жирным шрифтом текст, полученный с веб-страницы.
  • Вызовите метод WriteAllText, чтобы сохранить текст в Txt-файл.

В следующем фрагменте кода показано, как программно извлечь текст с веб-страницы на C#:

namespace Aspose.Html
{
    class HTML
    {
        // Извлечение текста с веб-страницы на C# — API извлечения текста
        static void Main(string[] args)
        {
            // Определить адрес каталога
            String dir = "/sample-files/";
            // Инициализируйте конструктор класса HTMLDocument для загрузки веб-страницы.  
            using (var document = new HTMLDocument("https://blog.aspose.com/ru/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Соберите все заголовки h2, вызвав метод GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // перебрать все полученные заголовки h2.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Получите жирный текст, используя метод GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Прокрутите весь выделенный жирным шрифтом текст, полученный с веб-страницы.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Вызовите метод WriteAllText, чтобы сохранить текст в текстовом файле.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Результат выполнения приведенного выше примера кода можно увидеть на изображении ниже:

извлечь текст с веб-страницы

Онлайн-экстрактор текста

Этот онлайн экстрактор текста веб-страницы представляет собой инструмент, с помощью которого вы можете выполнять задачи извлечения данных непрограммным способом. Это веб-приложение, которое хорошо работает и в веб-браузере мобильных телефонов. Прежде всего, он бесплатен и очень быстро извлекает текст из HTML-страниц. В будущем этот онлайн-экстрактор текста будет оснащен дополнительными функциями.

 онлайн-экстрактор текста

Экстрактор текста веб-сайта — получите бесплатную лицензию

Вы можете воспользоваться бесплатной временной лицензией, чтобы попробовать этот метод извлечения текста API без ограничений оценки.

Заключение

Эта запись в блоге заканчивается здесь. Мы надеемся, что вы узнали, как программно извлекать текст с веб-страницы на C#. Более того, вы видели реальную реализацию извлечения текста из HTML-страниц. На самом деле, когда дело доходит до быстрой разработки приложений, программисты всегда стремятся использовать надежный и надежный API, и, к счастью, Aspose.HTML for .NET в значительной степени выполняет эту работу за вас. Итак, вы можете узнать больше об этом API извлечения текста, посетив документацию и [ссылки] API 14.

Наконец, aspose.com пишет новые статьи. Поэтому, пожалуйста, оставайтесь на связи для получения последних обновлений.

Помощь доступна

Вы можете сообщить нам о своих вопросах или пожеланиях на нашем форуме.

Часто задаваемые вопросы – Часто задаваемые вопросы

Как читать данные с веб-страницы на C#?

Вы можете программно читать данные с веб-страницы, используя Aspose.HTML for .NET. Кроме того, посетите эту ссылку, чтобы узнать, как это реализовать.

Как извлечь данные из URL-адреса на C#?

Инициализируйте конструктор класса HTMLDocument, чтобы загрузить веб-страницу и получить данные, передав любое имя тега в методе GetElementsByTagName. Кроме того, вы можете использовать онлайн инструмент для извлечения данных онлайн.

Смотрите также