Extraer texto HTML Java

HTML es un lenguaje de marcado para crear o diseñar documentos que se mostrarán en los navegadores. Puede incluir texto o información visual en la página. En algunos casos, es posible que desee extraer Texto de documentos HTML. De acuerdo con tales casos de uso, este artículo cubre cómo extraer texto de HTML mediante programación en Java.

Extractor de texto HTML: instalación de la API de Java

Aspose.HTML para Java La API se puede utilizar para crear, editar o manipular HTML, MHTML y muchos otros formatos de archivo. Simplemente configure la API descargando su archivo JAR desde la página Descargas, o con las siguientes especificaciones en el archivo pom.xml para habilitar la API desde el Repositorio de Aspose:

Repositorio:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Dependencia:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Extraiga texto de HTML mediante programación en Java

Los siguientes pasos muestran cómo extraer texto de HTML mediante programación en Java:

  1. Obtenga el documento HTML de origen utilizando la clase HTMLDocument.
  2. Inicialice una instancia de la clase TextSaveOptions.
  3. Extraiga el texto del documento HTML.

El fragmento de código siguiente muestra cómo extraer texto de HTML mediante programación en Java:

// Prepare un código HTML y guárdelo en el archivo
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Inicializar un documento HTML desde el archivo
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Inicializar objeto de clase TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Convertir HTML a texto
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Explore Aspose.HTML para Java

Puede consultar la sección documentación para explorar otras funciones compatibles con la API.

Conclusión

En conclusión, ha aprendido cómo extraer texto de HTML mediante programación en Java. Esto puede ayudarlo a recuperar información de las páginas web. Además, en caso de que necesite discutir alguna de sus inquietudes o requisitos, escríbanos al foro.

Ver también