Видобуток HTML-тексту Java

HTML – це мова розмітки для створення або розробки документів, які відображатимуться у браузерах. Він може містити текстову або візуальну інформацію на сторінці. У деяких випадках ви можете витягнути Текст із документів HTML. Відповідно до таких випадків використання, у цій статті розповідається про те, як програмно витягти текст із HTML у Java.

HTML Text Extractor – встановлення Java API

Aspose.HTML for Java API можна використовувати для створення, редагування або керування HTML, MHTML та багатьма іншими форматами файлів. Просто завантажте JAR API зі сторінки Завантаження або встановіть його з Aspose Repository, додавши такі специфікації в pom.xml.

Репозиторій:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Залежність:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Витягніть текст із HTML програмно в Java

У наведених нижче кроках показано, як отримати текст із HTML програмним шляхом у Java:

  1. Отримайте вихідний документ HTML за допомогою класу HTMLDocument.
  2. Ініціалізуйте екземпляр класу TextSaveOptions.
  3. Витягніть текст із документа HTML.

Наведений нижче фрагмент коду демонструє, як отримати текст із HTML програмним шляхом у Java:

// Підготуйте HTML-код і збережіть його у файлі
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Ініціалізація HTML-документа з файлу
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Ініціалізувати об’єкт класу TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Перетворення HTML на текст
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Дослідіть Aspose.HTML for Java

Ви можете переглянути розділ документація, щоб ознайомитися з кількома іншими функціями, які підтримує API.

Висновок

Підсумовуючи, ви дізналися, як видобувати текст із HTML програмним шляхом у Java. Це може допомогти вам отримати інформацію з веб-сторінок. Крім того, якщо вам потрібно обговорити будь-які ваші проблеми чи вимоги, напишіть нам на форумі.

Дивись також