Extrahujte HTML Text Java

HTML je značkovací jazyk pro vytváření nebo navrhování dokumentů, které se mají zobrazovat v prohlížečích. Může obsahovat textové nebo vizuální informace na stránce. V některých případech můžete chtít extrahovat Text z dokumentů HTML. V souladu s takovými případy použití tento článek popisuje, jak extrahovat text z HTML programově v Javě.

HTML Text Extractor – instalace Java API

Aspose.HTML for Java API lze použít k vytvoření, úpravě nebo manipulaci s HTML, MHTML a mnoha dalšími formáty souborů. Jednoduše si stáhněte JAR API ze stránky Stahování nebo jej nainstalujte z Aspose Repository přidáním následujících specifikací do pom.xml.

úložiště:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Závislost:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Extrahujte text z HTML programově v Javě

Následující kroky ukazují, jak extrahovat text z HTML programově v Javě:

  1. Získejte zdrojový dokument HTML pomocí třídy HTMLDocument.
  2. Inicializujte instanci třídy TextSaveOptions.
  3. Extrahujte text z dokumentu HTML.

Níže uvedený fragment kódu ukazuje, jak extrahovat text z HTML programově v Javě:

// Připravte si HTML kód a uložte jej do souboru
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Inicializujte dokument HTML ze souboru
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Inicializujte objekt třídy TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Převést HTML na text
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Prozkoumejte Aspose.HTML pro Java

Můžete se podívat do sekce dokumentace a prozkoumat několik dalších funkcí podporovaných rozhraním API.

Závěr

Na závěr jste se naučili, jak extrahovat text z HTML programově v Javě. To vám může pomoci získat informace z webových stránek. Kromě toho v případě, že potřebujete prodiskutovat jakékoli své obavy nebo požadavky, napište nám na fórum.

Viz také