HTML to język znaczników do tworzenia lub projektowania dokumentów, które mają być wyświetlane w przeglądarkach. Może zawierać informacje tekstowe lub wizualne na stronie. W niektórych przypadkach możesz chcieć wyodrębnić Tekst z dokumentów HTML. Zgodnie z takimi przypadkami użycia, w tym artykule opisano, jak programowo wyodrębnić tekst z HTML w Javie.
Ekstraktor tekstu HTML – instalacja Java API
Aspose.HTML for Java API może służyć do tworzenia, edytowania lub manipulowania HTML, MHTML i wieloma innymi formatami plików. Wystarczy pobrać plik JAR API ze strony Downloads lub zainstalować go z Aspose Repository, dodając poniższe specyfikacje w pliku pom.xml.
Magazyn:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
Zależność:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Wyodrębnij tekst z HTML programowo w Javie
Poniższe kroki pokazują, jak programowo wyodrębnić tekst z HTML w Javie:
- Pobierz źródłowy dokument HTML przy użyciu klasy HTMLDocument.
- Zainicjuj instancję klasy TextSaveOptions.
- Wyodrębnij tekst z dokumentu HTML.
Poniższy fragment kodu pokazuje, jak programowo wyodrębnić tekst z HTML w Javie:
// Przygotuj kod HTML i zapisz go w pliku
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// Zainicjuj dokument HTML z pliku
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// Zainicjuj obiekt klasy TextSaveOptions
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// Konwertuj HTML na tekst
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Przeglądaj Aspose.HTML dla Javy
Możesz zajrzeć do sekcji dokumentacja, aby zapoznać się z kilkoma innymi funkcjami obsługiwanymi przez interfejs API.
Wniosek
Podsumowując, nauczyłeś się programowo wyodrębniać tekst z HTML w Javie. Może to pomóc w pobieraniu informacji ze stron internetowych. Ponadto, jeśli chcesz omówić swoje obawy lub wymagania, napisz do nas na forum.