Extrair texto HTML Java

HTML é uma linguagem de marcação para criar ou projetar documentos a serem exibidos em navegadores. Pode incluir texto ou informações visuais na página. Em alguns casos, você pode querer extrair Texto de documentos HTML. De acordo com esses casos de uso, este artigo aborda como extrair texto de HTML programaticamente em Java.

Extrator de texto HTML – Instalação da API Java

Aspose.HTML for Java API pode ser usada para criar, editar ou manipular HTML, MHTML e muitos outros formatos de arquivo. Basta configurar a API baixando seu arquivo JAR da página Downloads, ou com as seguintes especificações no arquivo pom.xml para habilitar a API do Aspose Repository:

Repositório:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Dependência:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Extrair texto de HTML programaticamente em Java

As etapas a seguir mostram como extrair texto de HTML programaticamente em Java:

  1. Obtenha o documento HTML de origem usando a classe HTMLDocument.
  2. Inicialize uma instância da classe TextSaveOptions.
  3. Extraia o texto do documento HTML.

O trecho de código abaixo demonstra como extrair texto de HTML programaticamente em Java:

// Prepare um código HTML e salve-o no arquivo
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Inicializar um documento HTML do arquivo
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Inicialize o objeto da classe TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Converter HTML em texto
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Explore o Aspose.HTML para Java

Você pode dar uma olhada na seção documentação para explorar vários outros recursos suportados pela API.

Conclusão

Concluindo, você aprendeu como extrair texto de HTML programaticamente em Java. Isso pode ajudá-lo a recuperar informações das páginas da web. Além disso, caso você precise discutir qualquer uma de suas preocupações ou requisitos, escreva para nós no fórum.

Veja também