HTML è un linguaggio di markup per creare o progettare documenti da visualizzare nei browser. Può includere testo o informazioni visive nella pagina. In alcuni casi, potresti voler estrarre Text da documenti HTML. In conformità con tali casi d’uso, questo articolo illustra come estrarre testo da HTML a livello di codice in Java.
- Estrattore di testo HTML – Installazione dell’API Java
- Estrai testo da HTML in modo programmatico in Java
Estrattore di testo HTML – Installazione dell’API Java
L’API Aspose.HTML per Java può essere utilizzata per creare, modificare o manipolare HTML, MHTML e molti altri formati di file. Basta configurare l’API scaricando il suo file JAR dalla pagina Download o con le seguenti specifiche nel file pom.xml per abilitare l’API da Aspose Repository:
Archivio:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
Dipendenza:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Estrai testo da HTML in modo programmatico in Java
I seguenti passaggi mostrano come estrarre testo da HTML a livello di codice in Java:
- Ottieni il documento HTML di origine utilizzando la classe HTMLDocument.
- Inizializza un’istanza della classe TextSaveOptions.
- Estrarre il testo dal documento HTML.
Il frammento di codice seguente mostra come estrarre il testo da HTML a livello di codice in Java:
// Prepara un codice HTML e salvalo nel file
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// Inizializza un documento HTML dal file
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// Inizializza l'oggetto classe TextSaveOptions
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// Converti HTML in testo
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Esplora Aspose.HTML per Java
Puoi dare un’occhiata alla sezione documentazione per esplorare molte altre funzionalità supportate dall’API.
Conclusione
In conclusione, hai imparato come estrarre il testo da HTML in modo programmatico in Java. Questo può aiutarti a recuperare informazioni dalle pagine web. Inoltre, se hai bisogno di discutere di qualsiasi tua preoccupazione o esigenza, scrivici al forum.