Wyodrębnij tekst ze strony internetowej w C# - API do ekstrakcji tekstu

W tym wpisie na blogu przedstawiono inną ważną funkcję oferowaną przez Aspose.HTML for .NET. Ta bogata w funkcje biblioteka .NET umożliwia programowe wyodrębnianie tekstu ze strony internetowej w języku C#. Co więcej, ten interfejs API do wyodrębniania tekstu udostępnia wiele klas i metod wyodrębniania tekstu ze stron HTML. Możesz więc łatwo opracować ekstraktor tekstu ze strony internetowej dla swojego oprogramowania, który zapewni Twojej firmie przewagę konkurencyjną. Dlatego przejrzyj dokładnie ten artykuł i nie pomiń żadnej sekcji. Ponadto upewnij się, że zainstalowałeś .NET na swoim komputerze lokalnym, aby wdrożyć tę funkcjonalność.

W tym poście na blogu zostaną omówione następujące kwestie:

  1. Instalacja interfejsu API do wyodrębniania tekstu
  2. Wyodrębnij tekst ze strony internetowej w języku C# – przykładowy kod
  3. Ekstraktor tekstu online

Instalacja interfejsu API do wyodrębniania tekstu

Aspose.HTML for .NET oferuje bezproblemowe rozwiązanie do wyodrębniania tekstu ze strony internetowej. Będąc programistą C#, możesz wybrać ten interfejs API do wyodrębniania tekstu, aby opracować ekstraktor tekstu ze strony internetowej w celu zwiększenia produktywności. Ponadto istnieje wiele scenariuszy, w których potrzebny jest interfejs API do wyodrębniania tekstu ze strony internetowej, więc Aspose.HTML for .NET może być głównym wyborem. Niemniej jednak możesz go zainstalować, pobierając plik DLL lub uruchamiając następującą komendę w NuGet Menedżerze pakietów:

PM> Install-Package Aspose.Html
API do ekstrakcji tekstu

Pełną instrukcję instalacji znajdziesz tutaj.

Wyodrębnij tekst ze strony internetowej w języku C# — przykładowy kod

Praca z biblioteką Aspose.HTML for .NET nie jest ani skomplikowana, ani trudna. Dlatego ten interfejs API do ekstrakcji tekstu został dobrze zaprojektowany przez naszych najlepszych inżynierów. Zacznijmy więc pisać fragment kodu.

Możesz wykonać kroki wymienione poniżej:

  • Zdefiniuj adres katalogu.
  • Zainicjuj konstruktor klasy HTMLDocument, aby załadować stronę internetową.
  • Zbierz wszystkie nagłówki h2, wywołując metodę GetElementsByTagName.
  • Przejdź przez wszystkie pobrane nagłówki h2.
  • Pobierz pogrubiony tekst za pomocą metody GetElementsByTagName.
  • Przejrzyj cały pogrubiony tekst pobrany ze strony internetowej.
  • Wywołaj metodę WriteAllText, aby zapisać tekst w pliku Txt.

Poniższy fragment kodu pokazuje, jak programowo wyodrębnić tekst ze strony internetowej w języku C#:

namespace Aspose.Html
{
    class HTML
    {
        // Wyodrębnij tekst ze strony internetowej w C# - API do ekstrakcji tekstu
        static void Main(string[] args)
        {
            // Zdefiniuj adres katalogu
            String dir = "/sample-files/";
            // Zainicjuj konstruktor klasy HTMLDocument, aby załadować stronę internetową.  
            using (var document = new HTMLDocument("https://blog.aspose.com/pl/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Zbierz wszystkie nagłówki h2, wywołując metodę GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // przejrzyj wszystkie pobrane nagłówki h2.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Pobierz pogrubiony tekst za pomocą metody GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Przejrzyj cały pogrubiony tekst pobrany ze strony internetowej.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Wywołaj metodę WriteAllText, aby zapisać tekst w pliku txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Wynik powyższego przykładowego kodu można zobaczyć na obrazku poniżej:

wyodrębnij tekst ze strony internetowej

Ekstraktor tekstu online

Ten online ekstraktor tekstu ze stron internetowych to narzędzie, za pomocą którego możesz wykonywać zadania wyodrębniania danych w sposób nieprogramowy. Jest to aplikacja internetowa, która dobrze działa także w przeglądarce internetowej telefonów komórkowych. Przede wszystkim jest darmowy i bardzo szybki w wyodrębnianiu tekstu ze stron HTML. W przyszłości ten internetowy ekstraktor tekstu będzie wyposażony w dalsze funkcje.

 ekstraktor tekstu online

Ekstraktor tekstu ze strony internetowej — uzyskaj bezpłatną licencję

Możesz skorzystać z bezpłatnej licencji tymczasowej, aby wypróbować tę ekstrakcję tekstu API bez ograniczeń ewaluacyjnych.

Wniosek

Ten wpis na blogu kończy się tutaj. Mamy nadzieję, że nauczyłeś się programowo wyodrębniać tekst ze strony internetowej w języku C#. Co więcej, widziałeś rzeczywistą implementację wyodrębniania tekstu ze stron HTML. Tak naprawdę programiści zawsze wybierają niezawodne i solidne API, jeśli chodzi o szybkie tworzenie aplikacji i na szczęście Aspose.HTML for .NET w dużej mierze wykonuje to zadanie za Ciebie. Możesz więc dowiedzieć się więcej o tym interfejsie API do wyodrębniania tekstu, odwiedzając dokumentację i API referencje.

Wreszcie aspose.com pisze nowe artykuły. Prosimy więc o kontakt w celu uzyskania najnowszych aktualizacji.

Pomoc jest dostępna

Możesz dać nam znać o swoich pytaniach lub wątpliwościach na naszym forum.

Często zadawane pytania – często zadawane pytania

Jak czytać dane ze strony internetowej w C#?

Możesz programowo odczytać dane ze strony internetowej za pomocą Aspose.HTML for .NET. Ponadto odwiedź ten link, aby zobaczyć, jak to wdrożyć.

Jak wyodrębnić dane z adresu URL w C#?

Zainicjuj konstruktor klasy HTMLDocument, aby załadować stronę internetową i pobrać dane, przekazując dowolną nazwę tagu w metodzie GetElementsByTagName. Ponadto możesz wykorzystać narzędzie online do wyodrębniania danych online.

Zobacz też