Det här blogginlägget visar en annan framträdande funktion som erbjuds av Aspose.HTML for .NET. Detta rika .NET-bibliotek låter dig extrahera text från webbsidan i C# programmatiskt. Vidare har detta textextraktions-API avslöjat flera klasser och metoder för att extrahera text från HTML-sidor. Så du kan enkelt utveckla en webbplatstextextraktor för din programvara som ger ditt företag en konkurrensfördel. Gå därför igenom den här artikeln noggrant och missa inte något avsnitt. Se dessutom till att du har installerat .NET på din lokala dator för att implementera funktionen.
Följande punkter kommer att diskuteras i detta blogginlägg:
Installation av API för textextraktion
Aspose.HTML for .NET erbjuder en sömlös lösning för att extrahera text från webbsidan. Som C#-programmerare kan du välja detta textextraktions-API för att utveckla en textextraktor för webbsidor för att öka produktiviteten. Dessutom finns det flera scenarier där du behöver ett API för webbtextextraktion, så Aspose.HTML for .NET kan vara det primära valet. Ändå kan du installera den genom att ladda ner DLL-filen eller köra följande kommando i NuGet Package Manager:
PM> Install-Package Aspose.Html
Du kan gå igenom de fullständiga installationsinstruktionerna här.
Extrahera text från webbsidan i C# - Kodprov
Att arbeta med biblioteket Aspose.HTML for .NET är varken komplicerat eller svårt. Så detta textextraktions-API är väldesignat av våra förstklassiga ingenjörer. Så låt oss börja skriva ett kodavsnitt.
Du kan följa stegen nedan:
- Definiera katalogadressen.
- Initiera en konstruktor av klassen HTMLDocument för att ladda en webbsida.
- Samla alla h2-rubriker genom att anropa metoden GetElementsByTagName.
- Gå igenom alla hämtade h2-rubriker.
- Hämta den fetstilta texten med metoden GetElementsByTagName.
- Gå igenom all fet text som hämtas från en webbsida.
- Anropa metoden WriteAllText för att spara texten i en Txt-fil.
Följande kodavsnitt visar hur man extraherar text från webbsidan i C# programmatiskt:
namespace Aspose.Html
{
class HTML
{
// Extrahera text från webbsida i C# - Text Extraction API
static void Main(string[] args)
{
// Definiera katalogadressen
String dir = "/sample-files/";
// Initiera en konstruktor av HTMLDocument-klassen för att ladda en webbsida.
using (var document = new HTMLDocument("https://blog.aspose.com/sv/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
{
// Samla alla h2-rubriker genom att anropa metoden GetElementsByTagName.
var headings = document.GetElementsByTagName("h2");
String data = "********h2 headings********" + System.Environment.NewLine;
// gå igenom alla hämtade h2-rubriker.
for (var i = 0; i < headings.Length; i++)
{
data += headings[i].TextContent+System.Environment.NewLine;
}
// Hämta den fetstilta texten med metoden GetElementsByTagName.
var boldTags = document.GetElementsByTagName("strong");
data += "********Bold Text********" + System.Environment.NewLine;
// Gå igenom all fet text som hämtas från en webbsida.
for (var i = 0; i < boldTags.Length; i++)
{
data += boldTags[i].TextContent + System.Environment.NewLine;
}
// Anropa WriteAllText-metoden för att spara texten i en txt-fil.
File.WriteAllText(Path.Combine(dir, "data.txt"), data);
}
}
}
}
Utdata från ovanstående kodexempel kan ses i bilden nedan:
Online Text Extractor
Denna online textextraktör för webbsidor är ett verktyg där du kan utföra dataextraktionsuppgifter icke-programmatiskt. Det är en webbaserad applikation som också fungerar bra i webbläsaren på mobiltelefoner. Framför allt är det gratis och mycket snabbt att extrahera text från HTML-sidor. I framtiden kommer denna textextraktor online att utrustas med ytterligare funktioner.
Website Text Extractor - Skaffa en gratis licens
Du kan använda en gratis temporär licens för att prova denna textextraktion API utan utvärderingsbegränsningar.
Slutsats
Detta blogginlägg slutar här. Vi hoppas att du har lärt dig hur man programmatiskt extraherar text från webbsidan i C#. Dessutom har du sett den faktiska implementeringen av att extrahera text från HTML-sidor. I själva verket tenderar programmerare alltid att satsa på ett pålitligt och robust API när det kommer till snabb applikationsutveckling och lyckligtvis gör Aspose.HTML för .NET i stort sett jobbet åt dig. Så du kan lära dig mer om detta textextraktions-API genom att besöka dokumentationen och API:et referenser.
Äntligen skriver aspose.com nya artiklar. Så håll kontakten för de senaste uppdateringarna.
Hjälp finns tillgänglig
Du kan meddela oss om dina frågor eller frågor på vårt forum.
Vanliga frågor – vanliga frågor
Hur läser man data från en webbsida i C#?
Du kan programmatiskt läsa data från en webbsida med Aspose.HTML for .NET. Vidare, besök denna länk för att se hur du implementerar det.
Hur extraherar man data från en URL i C#?
Initiera en konstruktor av klassen HTMLDocument för att ladda en webbsida och hämta data genom att skicka valfritt taggnamn i metoden GetElementsByTagName. Dessutom kan du använda ett online verktyg för att extrahera data online.