Wyodrębnij tekst HTML Java

HTML to język znaczników do tworzenia lub projektowania dokumentów, które mają być wyświetlane w przeglądarkach. Może zawierać informacje tekstowe lub wizualne na stronie. W niektórych przypadkach możesz chcieć wyodrębnić Tekst z dokumentów HTML. Zgodnie z takimi przypadkami użycia, w tym artykule opisano, jak programowo wyodrębnić tekst z HTML w Javie.

Ekstraktor tekstu HTML – instalacja Java API

Aspose.HTML for Java API może służyć do tworzenia, edytowania lub manipulowania HTML, MHTML i wieloma innymi formatami plików. Wystarczy pobrać plik JAR API ze strony Downloads lub zainstalować go z Aspose Repository, dodając poniższe specyfikacje w pliku pom.xml.

Magazyn:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Zależność:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Wyodrębnij tekst z HTML programowo w Javie

Poniższe kroki pokazują, jak programowo wyodrębnić tekst z HTML w Javie:

  1. Pobierz źródłowy dokument HTML przy użyciu klasy HTMLDocument.
  2. Zainicjuj instancję klasy TextSaveOptions.
  3. Wyodrębnij tekst z dokumentu HTML.

Poniższy fragment kodu pokazuje, jak programowo wyodrębnić tekst z HTML w Javie:

// Przygotuj kod HTML i zapisz go w pliku
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Zainicjuj dokument HTML z pliku
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Zainicjuj obiekt klasy TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Konwertuj HTML na tekst
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Przeglądaj Aspose.HTML dla Javy

Możesz zajrzeć do sekcji dokumentacja, aby zapoznać się z kilkoma innymi funkcjami obsługiwanymi przez interfejs API.

Wniosek

Podsumowując, nauczyłeś się programowo wyodrębniać tekst z HTML w Javie. Może to pomóc w pobieraniu informacji ze stron internetowych. Ponadto, jeśli chcesz omówić swoje obawy lub wymagania, napisz do nas na forum.

Zobacz też