Text aus einer Webseite in C# extrahieren - Textextraktions-API

Dieser Blogbeitrag demonstriert eine weitere herausragende Funktion von Aspose.HTML for .NET. Diese funktionsreiche .NET-Bibliothek ermöglicht es Ihnen, Text programmgesteuert aus einer Webseite in C# zu extrahieren. Darüber hinaus bietet diese Textextraktions-API mehrere Klassen und Methoden zum Extrahieren von Text aus HTML-Seiten. So können Sie ganz einfach einen Website-Textextraktor für Ihre Software entwickeln, der Ihrem Unternehmen einen Wettbewerbsvorteil verschafft. Lesen Sie diesen Artikel daher gründlich durch und verpassen Sie keinen Abschnitt. Stellen Sie außerdem sicher, dass Sie .NET auf Ihrem lokalen Computer installiert haben, um die Funktionalität zu implementieren.

In diesem Blogbeitrag werden folgende Punkte besprochen:

  1. Installation der Textextraktions-API
  2. Text aus Webseite in C# extrahieren - Codebeispiel
  3. Online Textextraktor

Installation der Textextraktions-API

Aspose.HTML for .NET bietet eine nahtlose Lösung zum Extrahieren von Text aus Webseiten. Als C#-Programmierer können Sie sich für diese Textextraktions-API entscheiden, um einen Textextraktor für Webseiten zu entwickeln und so die Produktivität zu steigern. Darüber hinaus gibt es mehrere Szenarien, in denen Sie eine API zum Extrahieren von Webseitentexten benötigen, sodass Aspose.HTML for .NET die erste Wahl sein könnte. Sie können es jedoch installieren, indem Sie die DLL-Datei herunterladen oder den folgenden Befehl im NuGet-Paketmanager ausführen:

PM> Install-Package Aspose.Html
Textextraktions-API

Die komplette Installationsanleitung können Sie hier durchgehen.

Text aus Webseite in C# extrahieren – Codebeispiel

Die Arbeit mit der Bibliothek Aspose.HTML for .NET ist weder komplex noch schwierig. Diese Textextraktions-API wurde von unseren erstklassigen Ingenieuren gut entwickelt. Beginnen wir also mit dem Schreiben eines Codeausschnitts.

Sie können die unten aufgeführten Schritte befolgen:

  • Definieren Sie die Verzeichnisadresse.
  • Initialisieren Sie einen Konstruktor der Klasse HTMLDocument, um eine Webseite zu laden.
  • Erfasse alle h2-Überschriften durch den Aufruf der Methode GetElementsByTagName.
  • Durchläuft alle abgerufenen H2-Überschriften.
  • Holen Sie sich den fettgedruckten Text mit der Methode GetElementsByTagName.
  • Durchläuft den gesamten fettgedruckten Text, der von einer Webseite abgerufen wurde.
  • Rufen Sie die Methode WriteAllText auf, um den Text in einer Txt-Datei zu speichern.

Der folgende Codeausschnitt zeigt, wie man in C# programmgesteuert Text aus einer Webseite extrahiert:

namespace Aspose.Html
{
    class HTML
    {
        // Text aus einer Webseite in C# extrahieren - Textextraktions-API
        static void Main(string[] args)
        {
            // Definieren Sie die Verzeichnisadresse
            String dir = "/sample-files/";
            // Initialisieren Sie einen Konstruktor der HTMLDocument Klasse, um eine Webseite zu laden.  
            using (var document = new HTMLDocument("https://blog.aspose.com/de/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Sammeln Sie alle h2-Überschriften, indem Sie die Methode GetElementsByTagName aufrufen. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // Durchlaufen Sie alle abgerufenen H2-Überschriften.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Holen Sie sich den fettgedruckten Text mit der Methode GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Durchläuft den gesamten fettgedruckten Text, der von einer Webseite abgerufen wurde.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Rufen Sie die Methode WriteAllText auf, um den Text in einer TXT-Datei zu speichern.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Die Ausgabe des obigen Codebeispiels ist im Bild unten zu sehen:

Text aus Webseite extrahieren

Online-Textextraktor

Dieser Online-Webseiten-Textextraktor ist ein Tool, mit dem Sie Datenextraktionsaufgaben nicht programmgesteuert durchführen können. Es handelt sich um eine webbasierte Anwendung, die auch im Webbrowser von Mobiltelefonen gut funktioniert. Vor allem ist es kostenlos und extrahiert sehr schnell Text aus HTML-Seiten. In Zukunft wird dieser Online-Textextraktor mit weiteren Funktionen ausgestattet.

 Online-Textextraktor

Website-Textextraktor - Holen Sie sich eine kostenlose Lizenz

Sie können eine kostenlose temporäre Lizenz nutzen, um diese Textextraktions-API ohne Evaluierungsbeschränkungen auszuprobieren.

Abschluss

Dieser Blogbeitrag endet hier. Wir hoffen, Sie haben gelernt, wie Sie in C# programmgesteuert Text aus einer Webseite extrahieren. Darüber hinaus haben Sie die tatsächliche Implementierung der Textextraktion aus HTML-Seiten gesehen. Tatsächlich tendieren Programmierer immer dazu, sich für eine zuverlässige und robuste API zu entscheiden, wenn es um die schnelle Anwendungsentwicklung geht, und glücklicherweise erledigt Aspose.HTML for .NET diese Aufgabe für Sie. Sie können also mehr über diese Textextraktions-API erfahren, indem Sie die Dokumentation und die API-Referenzen besuchen.

Schließlich schreibt aspose.com neue Artikel. Bleiben Sie also auf dem Laufenden, um die neuesten Updates zu erhalten.

Hilfe ist verfügbar

Sie können uns Ihre Fragen oder Anfragen in unserem Forum mitteilen.

Häufig gestellte Fragen – FAQs

Wie lese ich Daten von einer Webseite in C#?

Mit Aspose.HTML for .NET können Sie Daten programmgesteuert von einer Webseite lesen. Weitere Informationen zur Implementierung finden Sie unter diesem Link.

Wie extrahiere ich Daten aus einer URL in C#?

Initialisieren Sie einen Konstruktor der Klasse HTMLDocument, um eine Webseite zu laden und Daten abzurufen, indem Sie einen beliebigen Tag-Namen in der Methode GetElementsByTagName übergeben. Darüber hinaus können Sie ein Online-Tool nutzen, um Daten online zu extrahieren.

Siehe auch