Estrai testo HTML Java

HTML è un linguaggio di markup per creare o progettare documenti da visualizzare nei browser. Può includere testo o informazioni visive nella pagina. In alcuni casi, potresti voler estrarre Text da documenti HTML. In conformità con tali casi d’uso, questo articolo illustra come estrarre testo da HTML a livello di codice in Java.

Estrattore di testo HTML – Installazione dell’API Java

L’API Aspose.HTML per Java può essere utilizzata per creare, modificare o manipolare HTML, MHTML e molti altri formati di file. Basta configurare l’API scaricando il suo file JAR dalla pagina Download o con le seguenti specifiche nel file pom.xml per abilitare l’API da Aspose Repository:

Archivio:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Dipendenza:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Estrai testo da HTML in modo programmatico in Java

I seguenti passaggi mostrano come estrarre testo da HTML a livello di codice in Java:

  1. Ottieni il documento HTML di origine utilizzando la classe HTMLDocument.
  2. Inizializza un’istanza della classe TextSaveOptions.
  3. Estrarre il testo dal documento HTML.

Il frammento di codice seguente mostra come estrarre il testo da HTML a livello di codice in Java:

// Prepara un codice HTML e salvalo nel file
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Inizializza un documento HTML dal file
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Inizializza l'oggetto classe TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Converti HTML in testo
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Esplora Aspose.HTML per Java

Puoi dare un’occhiata alla sezione documentazione per esplorare molte altre funzionalità supportate dall’API.

Conclusione

In conclusione, hai imparato come estrarre il testo da HTML in modo programmatico in Java. Questo può aiutarti a recuperare informazioni dalle pagine web. Inoltre, se hai bisogno di discutere di qualsiasi tua preoccupazione o esigenza, scrivici al forum.

Guarda anche