使用 C# 从网页中提取文本

这篇博文展示了 Aspose.HTML for .NET 提供的另一个突出功能。这个功能丰富的 .NET 库使您能够以 C# 编程方式从网页中提取文本。此外，此文本提取 API 公开了多个用于从 HTML 页面中提取文本的类和方法。因此，您可以轻松地为您的软件开发网站文本提取器，这将为您的业务带来竞争优势。因此，请仔细阅读本文，不要错过任何部分。此外，请确保您已在本地计算机上安装了 .NET 以实现该功能。

本博文将讨论以下几点：

文本提取 API 安装
使用 C# 从网页中提取文本 - 代码示例
在线文本提取器

文本提取 API 安装

Aspose.HTML for .NET 提供了一种从网页中提取文本的无缝解决方案。作为 C# 程序员，您可以选择此文本提取 API 来开发网页文本提取器以提高工作效率。此外，在多种情况下您都需要网站文本提取 API，因此 Aspose.HTML for .NET 可能是首选。不过，您可以通过下载 DLL 文件或在 NuGet 包管理器中运行以下命令来安装它：

PM> Install-Package Aspose.Html

您可以查看这里完整的安装说明。

使用 C# 从网页中提取文本 - 代码示例

使用 Aspose.HTML for .NET 库既不复杂也不困难。因此，此文本提取 API 是由我们顶尖的工程师精心设计的。那么，让我们开始编写代码片段吧。

您可以按照以下步骤操作：

定义目录地址。
初始化HTMLDocument类的构造函数来加载网页。
通过调用 GetElementsByTagName 方法收集所有 h2 标题。
循环遍历所有检索到的 h2 标题。
使用GetElementsByTagName方法获取粗体文本。
循环遍历从网页检索的所有粗体文本。
调用WriteAllText方法将文本保存到Txt文件中。

以下代码片段展示了如何以 C# 编程方式从网页中提取文本：

namespace Aspose.Html
{
    class HTML
    {
        // 使用 C# 从网页中提取文本 - 文本提取 API
        static void Main(string[] args)
        {
            // 定义目录地址
            String dir = "/sample-files/";
            // 初始化HTMLDocument类的构造函数来加载网页。  
            using (var document = new HTMLDocument("https://blog.aspose.com/zh/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // 通过调用 GetElementsByTagName 方法收集所有 h2 标题。 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // 循环遍历所有检索到的 h2 标题。
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // 使用 GetElementsByTagName 方法获取粗体文本。
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // 循环遍历从网页检索的所有粗体文本。
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // 调用WriteAllText方法将文本保存到txt文件中。
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

上述代码示例的输出如下图所示：

在线文本提取器

此在线网页文本提取器是一款可以非编程方式执行数据提取任务的工具。它是一款基于 Web 的应用程序，在手机的 Web 浏览器中也能很好地运行。最重要的是，它是免费的，并且可以非常快速地从 HTML 页面中提取文本。将来，此在线文本提取器将配备更多功能。

网站文本提取器 - 获取免费许可证

您可以利用免费临时许可证来试用此文本提取 API，不受评估限制。

结论

这篇博文到此结束。我们希望您已经学会了如何使用 C# 以编程方式从网页中提取文本。此外，您还了解了从 HTML 页面中提取文本的实际实现。事实上，在快速应用程序开发方面，程序员总是倾向于使用可靠且强大的 API，幸运的是，Aspose.HTML for .NET 几乎可以为您完成这项工作。因此，您可以通过访问文档和 API 参考了解有关此文本提取 API 的更多信息。

最后，aspose.com 正在撰写新文章。因此，请保持联系以获取最新更新。

可获得帮助

您可以在我们的论坛上告诉我们您的问题或疑问。

常见问题 – 常见问题解答

如何使用 C# 从网页读取数据？

您可以使用 Aspose.HTML for .NET 以编程方式从网页读取数据。此外，请访问此链接以了解如何实现它。

如何在 C# 中从 URL 提取数据？

初始化 HTMLDocument 类的构造函数以加载网页并通过在 GetElementsByTagName 方法中传递任何标签名称来检索数据。此外，您还可以利用 online 工具在线提取数据。

文本提取 API 安装#

使用 C# 从网页中提取文本 - 代码示例#

在线文本提取器#

网站文本提取器 - 获取免费许可证#

结论#

可获得帮助#

常见问题 – 常见问题解答#

也可以看看#