Extrahera HTML-text Java

HTML är ett märkningsspråk för att skapa eller designa dokument som ska visas i webbläsare. Det kan innehålla text eller visuell information på sidan. I vissa fall kanske du vill extrahera Text från HTML-dokument. I enlighet med sådana användningsfall täcker den här artikeln hur man extraherar text från HTML programmatiskt i Java.

HTML Text Extractor – Java API-installation

Aspose.HTML for Java API kan användas för att skapa, redigera eller manipulera HTML, MHTML och många andra filformat. Ladda helt enkelt ned API:s JAR från sidan Nedladdningar eller installera den från Aspose Repository genom att lägga till följande specifikationer i pom.xml.

Förvar:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Beroende:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Extrahera text från HTML Programmatiskt i Java

Följande steg visar hur man extraherar text från HTML programmatiskt i Java:

  1. Hämta HTML-källdokumentet med klassen HTMLDocument.
  2. Initiera en instans av klassen TextSaveOptions.
  3. Extrahera texten från HTML-dokumentet.

Kodavsnittet nedan visar hur man extraherar text från HTML programmatiskt i Java:

// Förbered en HTML-kod och spara den i filen
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Initiera ett HTML-dokument från filen
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Initiera TextSaveOptions-klassobjektet
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Konvertera HTML till text
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Utforska Aspose.HTML för Java

Du kan ta en titt på avsnittet dokumentation för att utforska flera andra funktioner som stöds av API:et.

Slutsats

Avslutningsvis har du lärt dig att extrahera text från HTML programmatiskt i Java. Detta kan hjälpa dig att hämta information från webbsidorna. Dessutom, om du behöver diskutera några av dina problem eller krav, skriv till oss på forumet.

Se även