HTML — это язык разметки для создания или оформления документов, которые будут отображаться в браузерах. Он может включать текстовую или визуальную информацию на странице. В некоторых случаях вам может понадобиться извлечь текст из HTML-документов. В соответствии с такими вариантами использования в этой статье рассказывается, как программно извлечь текст из HTML в Java.
HTML Text Extractor — установка Java API
Aspose.HTML для Java API можно использовать для создания, редактирования и управления HTML, MHTML и многими другими форматами файлов. Просто настройте API, загрузив его файл JAR со страницы Загрузки или со следующими спецификациями в файле pom.xml, чтобы активировать API из репозитория Aspose:
Репозиторий:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
Зависимость:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Извлечь текст из HTML программно в Java
Следующие шаги показывают, как программно извлечь текст из HTML в Java:
- Получите исходный HTML-документ с помощью класса HTMLDocument.
- Инициализировать экземпляр класса TextSaveOptions.
- Извлеките текст из документа HTML.
Фрагмент кода ниже демонстрирует, как программно извлекать текст из HTML в Java:
// Подготовьте HTML-код и сохраните его в файл
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// Инициализировать документ HTML из файла
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// Инициализировать объект класса TextSaveOptions
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// Преобразование HTML в текст
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Изучите Aspose.HTML для Java
Вы можете заглянуть в раздел документация, чтобы изучить несколько других функций, поддерживаемых API.
Вывод
В заключение вы узнали, как программно извлекать текст из HTML на Java. Это может помочь вам получить информацию с веб-страниц. Кроме того, если вам нужно обсудить какие-либо ваши проблемы или требования, напишите нам на форум.