Estrai testo dalla pagina Web in C#: API di estrazione testo

Questo post del blog dimostra un’altra importante funzionalità offerta da Aspose.HTML for .NET. Questa libreria .NET ricca di funzionalità consente di estrarre testo da una pagina Web in C# a livello di codice. Inoltre, questa API di estrazione del testo ha esposto più classi e metodi per estrarre il testo dalle pagine HTML. Quindi, puoi facilmente sviluppare un estrattore di testo per siti Web per il tuo software che darà alla tua azienda un vantaggio competitivo. Pertanto, leggi attentamente questo articolo e non perdere nessuna sezione. Inoltre, assicurati di aver installato .NET sul tuo computer locale per implementare la funzionalità.

I seguenti punti saranno discussi in questo post del blog:

  1. Installazione dell’API di estrazione testo
  2. Estrai testo dalla pagina Web in C# - Esempio di codice
  3. Estrattore di testo online

Installazione dell’API di estrazione testo

Aspose.HTML for .NET offre una soluzione perfetta per estrarre testo dalla pagina web. Essendo un programmatore C#, puoi optare per questa API di estrazione del testo per sviluppare un estrattore di testo per pagine Web per aumentare la produttività. Inoltre, esistono più scenari in cui è necessaria un’API per l’estrazione del testo del sito Web, quindi Aspose.HTML for .NET potrebbe essere la scelta principale. Tuttavia, è possibile installarlo scaricando il file DLL o eseguendo il comando seguente in NuGet Gestione pacchetti:

PM> Install-Package Aspose.Html
API di estrazione del testo

È possibile seguire le istruzioni di installazione complete qui.

Estrai testo dalla pagina Web in C# - Esempio di codice

Lavorare con la libreria Aspose.HTML for .NET non è né complesso né difficile. Pertanto, questa API per l’estrazione del testo è ben progettata dai nostri ingegneri di prim’ordine. Quindi, iniziamo a scrivere uno snippet di codice.

Puoi seguire i passaggi indicati di seguito:

  • Definire l’indirizzo della directory.
  • Inizializza un costruttore della classe HTMLDocument per caricare una pagina web.
  • Raccogli tutte le intestazioni h2 chiamando il metodo GetElementsByTagName.
  • Passa in rassegna tutte le intestazioni h2 recuperate.
  • Ottieni il testo in grassetto utilizzando il metodo GetElementsByTagName.
  • Passa in rassegna tutto il testo in grassetto recuperato da una pagina web.
  • Chiama il metodo WriteAllText per salvare il testo in un file Txt.

Il seguente frammento di codice mostra come estrarre il testo dalla pagina Web in C# a livello di codice:

namespace Aspose.Html
{
    class HTML
    {
        // Estrai testo dalla pagina Web in C#: API di estrazione testo
        static void Main(string[] args)
        {
            // Definire l'indirizzo della directory
            String dir = "/sample-files/";
            // Inizializza un costruttore della classe HTMLDocument per caricare una pagina web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/it/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Raccogli tutte le intestazioni h2 chiamando il metodo GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // scorrere tutte le intestazioni h2 recuperate.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Ottieni il testo in grassetto utilizzando il metodo GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Passa in rassegna tutto il testo in grassetto recuperato da una pagina web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Chiama il metodo WriteAllText per salvare il testo in un file txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

L’output dell’esempio di codice sopra può essere visto nell’immagine seguente:

estrarre il testo dalla pagina web

Estrattore di testo online

Questo estrattore di testo di pagine Web online è uno strumento in cui è possibile eseguire attività di estrazione dei dati in modo non programmatico. È un’applicazione basata sul Web che funziona bene anche nel browser Web dei telefoni cellulari. Soprattutto è gratuito e molto veloce nell’estrarre testo dalle pagine HTML. In futuro questo estrattore di testo online sarà dotato di ulteriori funzionalità.

 estrattore di testo online

Estrattore di testo per siti Web: ottieni una licenza gratuita

Puoi usufruire di una licenza temporanea gratuita per provare questa estrazione di testo API senza limitazioni di valutazione.

Conclusione

Questo post del blog termina qui. Ci auguriamo che tu abbia imparato come estrarre a livello di codice il testo dalla pagina Web in C#. Inoltre, hai visto l’effettiva implementazione dell’estrazione del testo dalle pagine HTML. In effetti, i programmatori tendono sempre a optare per un’API affidabile e robusta quando si tratta di sviluppo rapido di applicazioni e fortunatamente Aspose.HTML for .NET fa praticamente il lavoro per te. Quindi, puoi saperne di più su questa API di estrazione del testo visitando la documentazione e i riferimenti API.

Infine, aspose.com sta scrivendo nuovi articoli. Quindi, rimanete in contatto per gli ultimi aggiornamenti.

L’aiuto è disponibile

Puoi farci sapere le tue domande o dubbi sul nostro forum.

Domande frequenti – FAQ

Come leggere i dati da una pagina Web in C#?

È possibile leggere a livello di codice i dati da una pagina Web utilizzando Aspose.HTML for .NET. Inoltre, visita questo link per vedere come implementarlo.

Come estrarre i dati da un URL in C#?

Inizializza un costruttore della classe HTMLDocument per caricare una pagina Web e recuperare i dati passando qualsiasi nome di tag nel metodo GetElementsByTagName. Inoltre, puoi sfruttare uno strumento online per estrarre dati online.

Guarda anche