Extraire le texte d'une page Web en C# - API d'extraction de texte

Cet article de blog présente une autre fonctionnalité importante proposée par Aspose.HTML for .NET. Cette bibliothèque .NET riche en fonctionnalités vous permet d’extraire le texte d’une page Web en C# par programme. De plus, cette API d’extraction de texte a exposé plusieurs classes et méthodes pour extraire du texte à partir de pages HTML. Ainsi, vous pouvez facilement développer un extracteur de texte de site Web pour votre logiciel, ce qui donnera à votre entreprise un avantage concurrentiel. Par conséquent, parcourez cet article attentivement et ne manquez aucune section. De plus, assurez-vous d’avoir installé .NET sur votre ordinateur local pour implémenter la fonctionnalité.

Les points suivants seront abordés dans cet article de blog :

  1. Installation de l’API d’extraction de texte
  2. Extraire le texte d’une page Web en C# - Exemple de code
  3. Extracteur de texte en ligne

Installation de l’API d’extraction de texte

Aspose.HTML for .NET offre une solution transparente pour extraire le texte d’une page Web. En tant que programmeur C#, vous pouvez opter pour cette API d’extraction de texte pour développer un extracteur de texte de page Web afin d’augmenter la productivité. De plus, il existe plusieurs scénarios dans lesquels vous avez besoin d’une API d’extraction de texte de site Web, donc Aspose.HTML for .NET pourrait être le premier choix. Néanmoins, vous pouvez l’installer en téléchargeant le fichier DLL ou en exécutant la commande suivante dans NuGet Package Manager :

PM> Install-Package Aspose.Html
API d'extraction de texte

Vous pouvez parcourir les instructions d’installation complètes ici.

Extraire le texte d’une page Web en C# - Exemple de code

Travailler avec la bibliothèque Aspose.HTML for .NET n’est ni complexe ni difficile. Ainsi, cette API d’extraction de texte est bien conçue par nos ingénieurs de premier ordre. Alors, commençons à écrire un extrait de code.

Vous pouvez suivre les étapes mentionnées ci-dessous :

  • Définissez l’adresse du répertoire.
  • Initialisez un constructeur de la classe HTMLDocument pour charger une page Web.
  • Collectez tous les en-têtes h2 en appelant la méthode GetElementsByTagName.
  • Parcourez tous les en-têtes h2 récupérés.
  • Obtenez le texte en gras à l’aide de la méthode GetElementsByTagName.
  • Parcourez tout le texte en gras récupéré d’une page Web.
  • Appelez la méthode WriteAllText pour enregistrer le texte dans un fichier Txt.

L’extrait de code suivant montre comment extraire le texte d’une page Web en C# par programmation :

namespace Aspose.Html
{
    class HTML
    {
        // Extraire le texte d'une page Web en C# - API d'extraction de texte
        static void Main(string[] args)
        {
            // Définir l'adresse du répertoire
            String dir = "/sample-files/";
            // Initialisez un constructeur de classe HTMLDocument pour charger une page Web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/fr/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Collectez tous les en-têtes h2 en appelant la méthode GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // parcourir tous les en-têtes h2 récupérés.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Obtenez le texte en gras à l’aide de la méthode GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Parcourez tout le texte en gras récupéré d’une page Web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Appelez la méthode WriteAllText pour enregistrer le texte dans un fichier txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Le résultat de l’exemple de code ci-dessus est visible dans l’image ci-dessous :

extraire le texte d'une page Web

Extracteur de texte en ligne

Cet extracteur de texte de page Web en ligne est un outil qui vous permet d’effectuer des tâches d’extraction de données sans programmation. Il s’agit d’une application Web qui fonctionne également bien dans le navigateur Web des téléphones mobiles. Surtout, il est gratuit et très rapide pour extraire le texte des pages HTML. À l’avenir, cet extracteur de texte en ligne sera doté de fonctionnalités supplémentaires.

 extracteur de texte en ligne

Extracteur de texte de site Web - Obtenez une licence gratuite

Vous pouvez bénéficier d’une licence temporaire gratuite pour essayer cette extraction de texte API sans limitations d’évaluation.

Conclusion

Ce billet de blog se termine ici. Nous espérons que vous avez appris à extraire par programme du texte d’une page Web en C#. De plus, vous avez vu la mise en œuvre réelle de l’extraction de texte à partir de pages HTML. En fait, les programmeurs ont toujours tendance à opter pour une API fiable et robuste lorsqu’il s’agit de développer rapidement des applications et heureusement, Aspose.HTML for .NET fait à peu près le travail à votre place. Ainsi, vous pouvez en savoir plus sur cette API d’extraction de texte en visitant la documentation et l’API références.

Enfin, aspose.com écrit de nouveaux articles. Alors, restez en contact pour les dernières mises à jour.

L’aide est disponible

Vous pouvez nous faire part de vos questions ou requêtes sur notre forum.

Foire aux questions – FAQ

Comment lire les données d’une page Web en C# ?

Vous pouvez lire par programme les données d’une page Web à l’aide de Aspose.HTML for .NET. De plus, veuillez visiter ce lien pour voir comment le mettre en œuvre.

Comment extraire les données d’une URL en C# ?

Initialisez un constructeur de la classe HTMLDocument pour charger une page Web et récupérer des données en passant n’importe quel nom de balise dans la méthode GetElementsByTagName. De plus, vous pouvez exploiter un outil en ligne pour extraire des données en ligne.

Voir également