Extrahera text från webbsida i C# - Text Extraction API

Det här blogginlägget visar en annan framträdande funktion som erbjuds av Aspose.HTML for .NET. Detta rika .NET-bibliotek låter dig extrahera text från webbsidan i C# programmatiskt. Vidare har detta textextraktions-API avslöjat flera klasser och metoder för att extrahera text från HTML-sidor. Så du kan enkelt utveckla en webbplatstextextraktor för din programvara som ger ditt företag en konkurrensfördel. Gå därför igenom den här artikeln noggrant och missa inte något avsnitt. Se dessutom till att du har installerat .NET på din lokala dator för att implementera funktionen.

Följande punkter kommer att diskuteras i detta blogginlägg:

  1. Text Extraction API Installation
  2. Extrahera text från webbsida i C# - Kodprov
  3. Online Text Extractor

Installation av API för textextraktion

Aspose.HTML for .NET erbjuder en sömlös lösning för att extrahera text från webbsidan. Som C#-programmerare kan du välja detta textextraktions-API för att utveckla en textextraktor för webbsidor för att öka produktiviteten. Dessutom finns det flera scenarier där du behöver ett API för webbtextextraktion, så Aspose.HTML for .NET kan vara det primära valet. Ändå kan du installera den genom att ladda ner DLL-filen eller köra följande kommando i NuGet Package Manager:

PM> Install-Package Aspose.Html
textextraktions-api

Du kan gå igenom de fullständiga installationsinstruktionerna här.

Extrahera text från webbsidan i C# - Kodprov

Att arbeta med biblioteket Aspose.HTML for .NET är varken komplicerat eller svårt. Så detta textextraktions-API är väldesignat av våra förstklassiga ingenjörer. Så låt oss börja skriva ett kodavsnitt.

Du kan följa stegen nedan:

  • Definiera katalogadressen.
  • Initiera en konstruktor av klassen HTMLDocument för att ladda en webbsida.
  • Samla alla h2-rubriker genom att anropa metoden GetElementsByTagName.
  • Gå igenom alla hämtade h2-rubriker.
  • Hämta den fetstilta texten med metoden GetElementsByTagName.
  • Gå igenom all fet text som hämtas från en webbsida.
  • Anropa metoden WriteAllText för att spara texten i en Txt-fil.

Följande kodavsnitt visar hur man extraherar text från webbsidan i C# programmatiskt:

namespace Aspose.Html
{
    class HTML
    {
        // Extrahera text från webbsida i C# - Text Extraction API
        static void Main(string[] args)
        {
            // Definiera katalogadressen
            String dir = "/sample-files/";
            // Initiera en konstruktor av HTMLDocument-klassen för att ladda en webbsida.  
            using (var document = new HTMLDocument("https://blog.aspose.com/sv/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Samla alla h2-rubriker genom att anropa metoden GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // gå igenom alla hämtade h2-rubriker.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Hämta den fetstilta texten med metoden GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Gå igenom all fet text som hämtas från en webbsida.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Anropa WriteAllText-metoden för att spara texten i en txt-fil.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Utdata från ovanstående kodexempel kan ses i bilden nedan:

extrahera text från webbsidan

Online Text Extractor

Denna online textextraktör för webbsidor är ett verktyg där du kan utföra dataextraktionsuppgifter icke-programmatiskt. Det är en webbaserad applikation som också fungerar bra i webbläsaren på mobiltelefoner. Framför allt är det gratis och mycket snabbt att extrahera text från HTML-sidor. I framtiden kommer denna textextraktor online att utrustas med ytterligare funktioner.

 textextraktion online

Website Text Extractor - Skaffa en gratis licens

Du kan använda en gratis temporär licens för att prova denna textextraktion API utan utvärderingsbegränsningar.

Slutsats

Detta blogginlägg slutar här. Vi hoppas att du har lärt dig hur man programmatiskt extraherar text från webbsidan i C#. Dessutom har du sett den faktiska implementeringen av att extrahera text från HTML-sidor. I själva verket tenderar programmerare alltid att satsa på ett pålitligt och robust API när det kommer till snabb applikationsutveckling och lyckligtvis gör Aspose.HTML för .NET i stort sett jobbet åt dig. Så du kan lära dig mer om detta textextraktions-API genom att besöka dokumentationen och API:et referenser.

Äntligen skriver aspose.com nya artiklar. Så håll kontakten för de senaste uppdateringarna.

Hjälp finns tillgänglig

Du kan meddela oss om dina frågor eller frågor på vårt forum.

Vanliga frågor – vanliga frågor

Hur läser man data från en webbsida i C#?

Du kan programmatiskt läsa data från en webbsida med Aspose.HTML for .NET. Vidare, besök denna länk för att se hur du implementerar det.

Hur extraherar man data från en URL i C#?

Initiera en konstruktor av klassen HTMLDocument för att ladda en webbsida och hämta data genom att skicka valfritt taggnamn i metoden GetElementsByTagName. Dessutom kan du använda ett online verktyg för att extrahera data online.

Se även