这篇博文展示了 Aspose.HTML for .NET 提供的另一个突出功能。这个功能丰富的 .NET 库使您能够以 C# 编程方式从网页中提取文本。此外,此文本提取 API 公开了多个用于从 HTML 页面中提取文本的类和方法。因此,您可以轻松地为您的软件开发网站文本提取器,这将为您的业务带来竞争优势。因此,请仔细阅读本文,不要错过任何部分。此外,请确保您已在本地计算机上安装了 .NET 以实现该功能。
本博文将讨论以下几点:
文本提取 API 安装
Aspose.HTML for .NET 提供了一种从网页中提取文本的无缝解决方案。作为 C# 程序员,您可以选择此文本提取 API 来开发网页文本提取器以提高工作效率。此外,在多种情况下您都需要网站文本提取 API,因此 Aspose.HTML for .NET 可能是首选。不过,您可以通过 下载 DLL 文件或在 NuGet 包管理器中运行以下命令来安装它:
PM> Install-Package Aspose.Html
您可以查看这里完整的安装说明。
使用 C# 从网页中提取文本 - 代码示例
使用 Aspose.HTML for .NET 库既不复杂也不困难。因此,此文本提取 API 是由我们顶尖的工程师精心设计的。那么,让我们开始编写代码片段吧。
您可以按照以下步骤操作:
- 定义目录地址。
- 初始化HTMLDocument类的构造函数来加载网页。
- 通过调用 GetElementsByTagName 方法收集所有 h2 标题。
- 循环遍历所有检索到的 h2 标题。
- 使用GetElementsByTagName方法获取粗体文本。
- 循环遍历从网页检索的所有粗体文本。
- 调用WriteAllText方法将文本保存到Txt文件中。
以下代码片段展示了如何以 C# 编程方式从网页中提取文本:
namespace Aspose.Html
{
class HTML
{
// 使用 C# 从网页中提取文本 - 文本提取 API
static void Main(string[] args)
{
// 定义目录地址
String dir = "/sample-files/";
// 初始化HTMLDocument类的构造函数来加载网页。
using (var document = new HTMLDocument("https://blog.aspose.com/zh/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
{
// 通过调用 GetElementsByTagName 方法收集所有 h2 标题。
var headings = document.GetElementsByTagName("h2");
String data = "********h2 headings********" + System.Environment.NewLine;
// 循环遍历所有检索到的 h2 标题。
for (var i = 0; i < headings.Length; i++)
{
data += headings[i].TextContent+System.Environment.NewLine;
}
// 使用 GetElementsByTagName 方法获取粗体文本。
var boldTags = document.GetElementsByTagName("strong");
data += "********Bold Text********" + System.Environment.NewLine;
// 循环遍历从网页检索的所有粗体文本。
for (var i = 0; i < boldTags.Length; i++)
{
data += boldTags[i].TextContent + System.Environment.NewLine;
}
// 调用WriteAllText方法将文本保存到txt文件中。
File.WriteAllText(Path.Combine(dir, "data.txt"), data);
}
}
}
}
上述代码示例的输出如下图所示:
在线文本提取器
此 在线 网页文本提取器是一款可以非编程方式执行数据提取任务的工具。它是一款基于 Web 的应用程序,在手机的 Web 浏览器中也能很好地运行。最重要的是,它是免费的,并且可以非常快速地从 HTML 页面中提取文本。将来,此在线文本提取器将配备更多功能。
网站文本提取器 - 获取免费许可证
您可以利用 免费临时许可证 来试用此文本提取 API,不受评估限制。
结论
这篇博文到此结束。我们希望您已经学会了如何使用 C# 以编程方式从网页中提取文本。此外,您还了解了从 HTML 页面中提取文本的实际实现。事实上,在快速应用程序开发方面,程序员总是倾向于使用可靠且强大的 API,幸运的是,Aspose.HTML for .NET 几乎可以为您完成这项工作。因此,您可以通过访问 文档 和 API 参考 了解有关此文本提取 API 的更多信息。
最后,aspose.com 正在撰写新文章。因此,请保持联系以获取最新更新。
可获得帮助
您可以在我们的论坛上告诉我们您的问题或疑问。
常见问题 – 常见问题解答
如何使用 C# 从网页读取数据?
您可以使用 Aspose.HTML for .NET 以编程方式从网页读取数据。此外,请访问此 链接 以了解如何实现它。
如何在 C# 中从 URL 提取数据?
初始化 HTMLDocument 类的构造函数以加载网页并通过在 GetElementsByTagName 方法中传递任何标签名称来检索数据。此外,您还可以利用 online 工具在线提取数据。