在 C# 中從網頁中提取文字 - 文字提取 API

這篇部落格文章示範了 Aspose.HTML for .NET 提供的另一個突出功能。這個功能豐富的 .NET 程式庫使您能夠以程式設計方式從 C# 網頁中提取文字。此外,此文字擷取 API 公開了多個用於從 HTML 頁面擷取文字的類別和方法。因此,您可以輕鬆地為您的軟體開發網站文字擷取器,這將為您的企業帶來競爭優勢。因此,請仔細閱讀本文,不要錯過任何部分。此外,請確保您已在本機上安裝.NET以實現該功能。

本篇部落格文章將討論以下幾點:

  1. 文本提取API安裝
  2. C# 從網頁中提取文字 - 程式碼範例
  3. 線上文字擷取器

文字提取API安裝

Aspose.HTML for .NET 提供了從網頁中提取文字的無縫解決方案。身為 C# 程式設計師,您可以選擇此文字擷取 API 來開發網頁文字擷取器以提高工作效率。此外,在多種情況下您都需要網站文字擷取 API,因此 Aspose.HTML for .NET 可能是主要選擇。不過,您可以透過下載 DLL 檔案或在NuGet套件管理器中執行以下命令來安裝它:

PM> Install-Package Aspose.Html
文字提取API

您可以在此處中查看完整的安裝說明。

使用 C# 從網頁中提取文字 - 程式碼範例

使用 Aspose.HTML for .NET 函式庫既不複雜也不困難。所以,這個文本提取API是由我們頂尖的工程師精心設計的。那麼,讓我們開始編寫程式碼片段。

您可以按照以下步驟操作:

  • 定義目錄地址。
  • 初始化 HTMLDocument 類別的建構子以載入網頁。
  • 透過呼叫 GetElementsByTagName 方法收集所有 h2 標題。
  • 循環遍歷所有檢索到的 h2 標題。
  • 使用 GetElementsByTagName 方法取得粗體文字。
  • 循環瀏覽從網頁檢索到的所有粗體文字。
  • 呼叫 WriteAllText 方法將文字儲存到 Txt 檔案中。

以下程式碼片段展示如何以程式設計方式使用 C# 從網頁中擷取文字:

namespace Aspose.Html
{
    class HTML
    {
        // 在 C# 中從網頁中提取文字 - 文字提取 API
        static void Main(string[] args)
        {
            // 定義目錄地址
            String dir = "/sample-files/";
            // 初始化 HTMLDocument 類別的建構子以載入網頁。  
            using (var document = new HTMLDocument("https://blog.aspose.com/zh-hant/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // 透過呼叫 GetElementsByTagName 方法收集所有 h2 標題。 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // 循環遍歷所有檢索到的 h2 標題。
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // 使用 GetElementsByTagName 方法取得粗體文字。
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // 循環瀏覽從網頁檢索到的所有粗體文字。
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // 呼叫 WriteAllText 方法將文字儲存到 txt 檔案中。
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

上述程式碼範例的輸出如下圖所示:

從網頁中提取文本

線上文字擷取器

線上網頁文字擷取器是一個可以以非程式設計方式執行資料擷取任務的工具。它是一個基於網絡的應用程序,也可以在手機的網絡瀏覽器中正常運行。最重要的是,它是免費的,並且可以非常快速地從 HTML 頁面中提取文字。將來,這個線上文字擷取器將配備更多功能。

 線上文字擷取器

網站文字擷取器 - 取得免費許可證

您可以利用免費臨時許可證來嘗試此文字提取API,而沒有評估限制。

結論

本博文到此結束。我們希望您已經了解如何使用 C# 以程式設計方式從網頁中提取文字。此外,您已經了解了從 HTML 頁面中提取文字的實際實作。事實上,在快速應用程式開發方面,程式設計師總是傾向於尋求可靠且強大的 API,幸運的是,Aspose.HTML for .NET 幾乎可以為您完成這項工作。因此,您可以透過造訪文件和API參考來了解更多關於此文字提取API的資訊。

最後,aspose.com正在撰寫新文章。因此,請保持聯繫以獲取最新更新。

提供協助

您可以在我們的論壇上告訴我們您的問題或疑問。

常見問題 – 常見問題解答

如何用C#讀取網頁資料?

您可以使用 Aspose.HTML for .NET 以程式設計方式從網頁讀取資料。此外,請訪問此連結以了解如何實現它。

C# 如何從 URL 提取資料?

初始化 HTMLDocument 類別的建構子以載入網頁並透過在 GetElementsByTagName 方法中傳遞任何標記名稱來檢索資料。此外,您可以利用線上工具在線提取資料。

也可以看看