使用 C# 从网页中提取文本 - 文本提取 API

这篇博文展示了 Aspose.HTML for .NET 提供的另一个突出功能。这个功能丰富的 .NET 库使您能够以 C# 编程方式从网页中提取文本。此外,此文本提取 API 公开了多个用于从 HTML 页面中提取文本的类和方法。因此,您可以轻松地为您的软件开发网站文本提取器,这将为您的业务带来竞争优势。因此,请仔细阅读本文,不要错过任何部分。此外,请确保您已在本地计算机上安装了 .NET 以实现该功能。

本博文将讨论以下几点:

  1. 文本提取 API 安装
  2. 使用 C# 从网页中提取文本 - 代码示例
  3. 在线文本提取器

文本提取 API 安装

Aspose.HTML for .NET 提供了一种从网页中提取文本的无缝解决方案。作为 C# 程序员,您可以选择此文本提取 API 来开发网页文本提取器以提高工作效率。此外,在多种情况下您都需要网站文本提取 API,因此 Aspose.HTML for .NET 可能是首选。不过,您可以通过 下载 DLL 文件或在 NuGet 包管理器中运行以下命令来安装它:

PM> Install-Package Aspose.Html
文本提取 API

您可以查看这里完整的安装说明。

使用 C# 从网页中提取文本 - 代码示例

使用 Aspose.HTML for .NET 库既不复杂也不困难。因此,此文本提取 API 是由我们顶尖的工程师精心设计的。那么,让我们开始编写代码片段吧。

您可以按照以下步骤操作:

  • 定义目录地址。
  • 初始化HTMLDocument类的构造函数来加载网页。
  • 通过调用 GetElementsByTagName 方法收集所有 h2 标题。
  • 循环遍历所有检索到的 h2 标题。
  • 使用GetElementsByTagName方法获取粗体文本。
  • 循环遍历从网页检索的所有粗体文本。
  • 调用WriteAllText方法将文本保存到Txt文件中。

以下代码片段展示了如何以 C# 编程方式从网页中提取文本:

namespace Aspose.Html
{
    class HTML
    {
        // 使用 C# 从网页中提取文本 - 文本提取 API
        static void Main(string[] args)
        {
            // 定义目录地址
            String dir = "/sample-files/";
            // 初始化HTMLDocument类的构造函数来加载网页。  
            using (var document = new HTMLDocument("https://blog.aspose.com/zh/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // 通过调用 GetElementsByTagName 方法收集所有 h2 标题。 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // 循环遍历所有检索到的 h2 标题。
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // 使用 GetElementsByTagName 方法获取粗体文本。
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // 循环遍历从网页检索的所有粗体文本。
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // 调用WriteAllText方法将文本保存到txt文件中。
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

上述代码示例的输出如下图所示:

从网页中提取文本

在线文本提取器

在线 网页文本提取器是一款可以非编程方式执行数据提取任务的工具。它是一款基于 Web 的应用程序,在手机的 Web 浏览器中也能很好地运行。最重要的是,它是免费的,并且可以非常快速地从 HTML 页面中提取文本。将来,此在线文本提取器将配备更多功能。

 在线文本提取器

网站文本提取器 - 获取免费许可证

您可以利用 免费临时许可证 来试用此文本提取 API,不受评估限制。

结论

这篇博文到此结束。我们希望您已经学会了如何使用 C# 以编程方式从网页中提取文本。此外,您还了解了从 HTML 页面中提取文本的实际实现。事实上,在快速应用程序开发方面,程序员总是倾向于使用可靠且强大的 API,幸运的是,Aspose.HTML for .NET 几乎可以为您完成这项工作。因此,您可以通过访问 文档 和 API 参考 了解有关此文本提取 API 的更多信息。

最后,aspose.com 正在撰写新文章。因此,请保持联系以获取最新更新。

可获得帮助

您可以在我们的论坛上告诉我们您的问题或疑问。

常见问题 – 常见问题解答

如何使用 C# 从网页读取数据?

您可以使用 Aspose.HTML for .NET 以编程方式从网页读取数据。此外,请访问此 链接 以了解如何实现它。

如何在 C# 中从 URL 提取数据?

初始化 HTMLDocument 类的构造函数以加载网页并通过在 GetElementsByTagName 方法中传递任何标签名称来检索数据。此外,您还可以利用 online 工具在线提取数据。

也可以看看