В этом сообщении блога демонстрируется еще одна важная функция, предлагаемая Aspose.HTML for .NET. Эта многофункциональная библиотека .NET позволяет программно извлекать текст с веб-страницы на C#. Кроме того, этот API извлечения текста предоставляет несколько классов и методов для извлечения текста из страниц HTML. Таким образом, вы можете легко разработать экстрактор текста веб-сайта для своего программного обеспечения, который даст вашему бизнесу конкурентное преимущество. Поэтому прочитайте эту статью досконально и не пропустите ни одного раздела. Кроме того, убедитесь, что вы установили .NET на свой локальный компьютер для реализации этой функциональности.
В этом блоге будут обсуждаться следующие моменты:
- Установка API извлечения текста
- Извлечение текста с веб-страницы на C# — пример кода
- Онлайн-экстрактор текста
Установка API извлечения текста
Aspose.HTML for .NET предлагает простое решение для извлечения текста с веб-страницы. Будучи программистом C#, вы можете выбрать этот API для извлечения текста, чтобы разработать средство извлечения текста для веб-страниц и повысить производительность. Кроме того, существует множество сценариев, в которых вам понадобится API извлечения текста с веб-сайта, поэтому Aspose.HTML for .NET может быть основным выбором. Тем не менее, вы можете установить его, загрузив файл DLL или выполнив следующую команду в диспетчере пакетов NuGet:
PM> Install-Package Aspose.Html
Вы можете просмотреть полные инструкции по установке здесь.
Извлечение текста с веб-страницы на C# — пример кода
Работа с библиотекой Aspose.HTML for .NET не является ни сложной, ни трудной. Итак, этот API извлечения текста хорошо разработан нашими первоклассными инженерами. Итак, приступим к написанию фрагмента кода.
Вы можете выполнить шаги, указанные ниже:
- Определите адрес каталога.
- Инициализируйте конструктор класса HTMLDocument для загрузки веб-страницы.
- Соберите все заголовки h2, вызвав метод GetElementsByTagName.
- Прокрутите все полученные заголовки h2.
- Получите жирный текст, используя метод GetElementsByTagName.
- Прокрутите весь выделенный жирным шрифтом текст, полученный с веб-страницы.
- Вызовите метод WriteAllText, чтобы сохранить текст в Txt-файл.
В следующем фрагменте кода показано, как программно извлечь текст с веб-страницы на C#:
namespace Aspose.Html
{
class HTML
{
// Извлечение текста с веб-страницы на C# — API извлечения текста
static void Main(string[] args)
{
// Определить адрес каталога
String dir = "/sample-files/";
// Инициализируйте конструктор класса HTMLDocument для загрузки веб-страницы.
using (var document = new HTMLDocument("https://blog.aspose.com/ru/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
{
// Соберите все заголовки h2, вызвав метод GetElementsByTagName.
var headings = document.GetElementsByTagName("h2");
String data = "********h2 headings********" + System.Environment.NewLine;
// перебрать все полученные заголовки h2.
for (var i = 0; i < headings.Length; i++)
{
data += headings[i].TextContent+System.Environment.NewLine;
}
// Получите жирный текст, используя метод GetElementsByTagName.
var boldTags = document.GetElementsByTagName("strong");
data += "********Bold Text********" + System.Environment.NewLine;
// Прокрутите весь выделенный жирным шрифтом текст, полученный с веб-страницы.
for (var i = 0; i < boldTags.Length; i++)
{
data += boldTags[i].TextContent + System.Environment.NewLine;
}
// Вызовите метод WriteAllText, чтобы сохранить текст в текстовом файле.
File.WriteAllText(Path.Combine(dir, "data.txt"), data);
}
}
}
}
Результат выполнения приведенного выше примера кода можно увидеть на изображении ниже:
Онлайн-экстрактор текста
Этот онлайн экстрактор текста веб-страницы представляет собой инструмент, с помощью которого вы можете выполнять задачи извлечения данных непрограммным способом. Это веб-приложение, которое хорошо работает и в веб-браузере мобильных телефонов. Прежде всего, он бесплатен и очень быстро извлекает текст из HTML-страниц. В будущем этот онлайн-экстрактор текста будет оснащен дополнительными функциями.
Экстрактор текста веб-сайта — получите бесплатную лицензию
Вы можете воспользоваться бесплатной временной лицензией, чтобы попробовать этот метод извлечения текста API без ограничений оценки.
Заключение
Эта запись в блоге заканчивается здесь. Мы надеемся, что вы узнали, как программно извлекать текст с веб-страницы на C#. Более того, вы видели реальную реализацию извлечения текста из HTML-страниц. На самом деле, когда дело доходит до быстрой разработки приложений, программисты всегда стремятся использовать надежный и надежный API, и, к счастью, Aspose.HTML for .NET в значительной степени выполняет эту работу за вас. Итак, вы можете узнать больше об этом API извлечения текста, посетив документацию и [ссылки] API 14.
Наконец, aspose.com пишет новые статьи. Поэтому, пожалуйста, оставайтесь на связи для получения последних обновлений.
Помощь доступна
Вы можете сообщить нам о своих вопросах или пожеланиях на нашем форуме.
Часто задаваемые вопросы – Часто задаваемые вопросы
Как читать данные с веб-страницы на C#?
Вы можете программно читать данные с веб-страницы, используя Aspose.HTML for .NET. Кроме того, посетите эту ссылку, чтобы узнать, как это реализовать.
Как извлечь данные из URL-адреса на C#?
Инициализируйте конструктор класса HTMLDocument, чтобы загрузить веб-страницу и получить данные, передав любое имя тега в методе GetElementsByTagName. Кроме того, вы можете использовать онлайн инструмент для извлечения данных онлайн.