Extrahovat text z webové stránky v C# - Text Extraction API

Tento blogový příspěvek demonstruje další významnou funkci nabízenou Aspose.HTML for .NET. Tato bohatě vybavená knihovna .NET vám umožňuje programově extrahovat text z webové stránky v C#. Toto rozhraní API pro extrakci textu dále odhalilo několik tříd a metod pro extrahování textu ze stránek HTML. Můžete tedy snadno vyvinout extraktor textu webových stránek pro svůj software, který poskytne vaší firmě konkurenční výhodu. Projděte si proto důkladně tento článek a nevynechejte žádnou rubriku. Kromě toho se prosím ujistěte, že jste na svůj místní počítač nainstalovali .NET, abyste mohli funkci implementovat.

V tomto příspěvku na blogu budou diskutovány následující body:

  1. Instalace API pro extrakci textu
  2. Extrahovat text z webové stránky v C# – ukázka kódu
  3. Online Text Extractor

Instalace API pro extrakci textu

Aspose.HTML for .NET nabízí bezproblémové řešení pro extrakci textu z webové stránky. Jako programátor v C# se můžete rozhodnout pro toto rozhraní API pro extrakci textu k vývoji extraktoru textu webových stránek pro zvýšení produktivity. Kromě toho existuje několik scénářů, kdy potřebujete rozhraní API pro extrakci textu z webu, takže Aspose.HTML for .NET může být primární volbou. Přesto jej můžete nainstalovat stažením souboru DLL nebo spuštěním následujícího příkazu do NuGet Správce balíčků:

PM> Install-Package Aspose.Html
api pro extrakci textu

Kompletní pokyny k instalaci si můžete projít zde.

Extrahujte text z webové stránky v C# - ukázka kódu

Práce s knihovnou Aspose.HTML for .NET není složitá ani obtížná. Takže toto API pro extrakci textu je dobře navrženo našimi špičkovými inženýry. Začněme tedy psát úryvek kódu.

Můžete postupovat podle níže uvedených kroků:

  • Definujte adresu adresáře.
  • Inicializujte konstruktor třídy HTMLDocument pro načtení webové stránky.
  • Shromážděte všechny nadpisy h2 voláním metody GetElementsByTagName.
  • Projděte všechny načtené nadpisy h2.
  • Získejte tučný text pomocí metody GetElementsByTagName.
  • Projděte celý tučný text načtený z webové stránky.
  • Voláním metody WriteAllText uložte text do souboru Txt.

Následující fragment kódu ukazuje, jak programově extrahovat text z webové stránky v C#:

namespace Aspose.Html
{
    class HTML
    {
        // Extrahovat text z webové stránky v C# - Text Extraction API
        static void Main(string[] args)
        {
            // Definujte adresu adresáře
            String dir = "/sample-files/";
            // Inicializujte konstruktor třídy HTMLDocument pro načtení webové stránky.  
            using (var document = new HTMLDocument("https://blog.aspose.com/cs/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Shromážděte všechny nadpisy h2 voláním metody GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // procházejte všechny načtené nadpisy h2.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Získejte tučný text pomocí metody GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Projděte celý tučný text načtený z webové stránky.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Voláním metody WriteAllText uložte text do souboru txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Výstup výše uvedeného ukázkového kódu lze vidět na obrázku níže:

extrahovat text z webové stránky

Online Text Extractor

Tento online extraktor textu webových stránek je nástroj, ve kterém můžete provádět úlohy extrakce dat neprogramově. Je to webová aplikace, která dobře funguje i ve webovém prohlížeči mobilních telefonů. Především je zdarma a velmi rychle extrahuje text z HTML stránek. V budoucnu bude tento online extraktor textu vybaven dalšími funkcemi.

 online extraktor textu

Webový extraktor textu – získejte bezplatnou licenci

Můžete využít bezplatnou dočasnou licenci a vyzkoušet tuto extrakci textu API bez omezení hodnocení.

Závěr

Tento blogový příspěvek zde končí. Doufáme, že jste se naučili, jak programově extrahovat text z webové stránky v C#. Navíc jste viděli skutečnou implementaci extrahování textu z HTML stránek. Ve skutečnosti mají programátoři vždy tendenci sáhnout po spolehlivém a robustním API, pokud jde o rychlý vývoj aplikací, a Aspose.HTML for .NET naštěstí udělá práci za vás. Další informace o tomto rozhraní API pro extrakci textu se tedy můžete dozvědět v dokumentaci a odkazy na rozhraní API.

Konečně aspose.com píše nové články. Zůstaňte proto v kontaktu pro nejnovější aktualizace.

Nápověda je k dispozici

Můžete nám dát vědět o svých otázkách nebo dotazech na našem fóru.

Často kladené otázky – FAQ

Jak číst data z webové stránky v C#?

Data z webové stránky můžete programově číst pomocí Aspose.HTML for .NET. Dále prosím navštivte tento odkaz, kde se dozvíte, jak jej implementovat.

Jak extrahovat data z adresy URL v C#?

Inicializujte konstruktor třídy HTMLDocument pro načtení webové stránky a načtení dat předáním libovolného názvu značky v metodě GetElementsByTagName. Kromě toho můžete využít nástroj online k extrahování dat online.

Viz také