HTML es un lenguaje de marcado para crear o diseñar documentos que se mostrarán en los navegadores. Puede incluir texto o información visual en la página. En algunos casos, es posible que desee extraer Texto de documentos HTML. De acuerdo con tales casos de uso, este artículo cubre cómo extraer texto de HTML mediante programación en Java.
- Extractor de texto HTML: instalación de la API de Java
- Extraiga texto de HTML mediante programación en Java
Extractor de texto HTML: instalación de la API de Java
Aspose.HTML para Java La API se puede utilizar para crear, editar o manipular HTML, MHTML y muchos otros formatos de archivo. Simplemente configure la API descargando su archivo JAR desde la página Descargas, o con las siguientes especificaciones en el archivo pom.xml para habilitar la API desde el Repositorio de Aspose:
Repositorio:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
Dependencia:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Extraiga texto de HTML mediante programación en Java
Los siguientes pasos muestran cómo extraer texto de HTML mediante programación en Java:
- Obtenga el documento HTML de origen utilizando la clase HTMLDocument.
- Inicialice una instancia de la clase TextSaveOptions.
- Extraiga el texto del documento HTML.
El fragmento de código siguiente muestra cómo extraer texto de HTML mediante programación en Java:
// Prepare un código HTML y guárdelo en el archivo
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// Inicializar un documento HTML desde el archivo
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// Inicializar objeto de clase TextSaveOptions
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// Convertir HTML a texto
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Explore Aspose.HTML para Java
Puede consultar la sección documentación para explorar otras funciones compatibles con la API.
Conclusión
En conclusión, ha aprendido cómo extraer texto de HTML mediante programación en Java. Esto puede ayudarlo a recuperar información de las páginas web. Además, en caso de que necesite discutir alguna de sus inquietudes o requisitos, escríbanos al foro.