Извлечь HTML-текст Java

HTML — это язык разметки для создания или оформления документов, которые будут отображаться в браузерах. Он может включать текстовую или визуальную информацию на странице. В некоторых случаях вам может понадобиться извлечь текст из HTML-документов. В соответствии с такими вариантами использования в этой статье рассказывается, как программно извлечь текст из HTML в Java.

HTML Text Extractor — установка Java API

Aspose.HTML для Java API можно использовать для создания, редактирования и управления HTML, MHTML и многими другими форматами файлов. Просто настройте API, загрузив его файл JAR со страницы Загрузки или со следующими спецификациями в файле pom.xml, чтобы активировать API из репозитория Aspose:

Репозиторий:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Зависимость:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Извлечь текст из HTML программно в Java

Следующие шаги показывают, как программно извлечь текст из HTML в Java:

  1. Получите исходный HTML-документ с помощью класса HTMLDocument.
  2. Инициализировать экземпляр класса TextSaveOptions.
  3. Извлеките текст из документа HTML.

Фрагмент кода ниже демонстрирует, как программно извлекать текст из HTML в Java:

// Подготовьте HTML-код и сохраните его в файл
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Инициализировать документ HTML из файла
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Инициализировать объект класса TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Преобразование HTML в текст
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Изучите Aspose.HTML для Java

Вы можете заглянуть в раздел документация, чтобы изучить несколько других функций, поддерживаемых API.

Вывод

В заключение вы узнали, как программно извлекать текст из HTML на Java. Это может помочь вам получить информацию с веб-страниц. Кроме того, если вам нужно обсудить какие-либо ваши проблемы или требования, напишите нам на форум.

Смотрите также