Extraire le texte HTML Java

HTML est un langage de balisage pour créer ou concevoir des documents à afficher dans les navigateurs. Il peut inclure du texte ou des informations visuelles dans la page. Dans certains cas, vous souhaiterez peut-être extraire Text à partir de documents HTML. Conformément à ces cas d’utilisation, cet article explique comment extraire du texte à partir de HTML par programmation en Java.

Extracteur de texte HTML - Installation de l’API Java

L’API Aspose.HTML pour Java peut être utilisée pour créer, modifier ou manipuler du HTML, du MHTML et de nombreux autres formats de fichiers. Configurez simplement l’API en téléchargeant son fichier JAR depuis la page Téléchargements, ou avec les spécifications suivantes dans le fichier pom.xml pour activer l’API depuis le Aspose Repository :

Dépôt:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Dépendance:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Extraire le texte du HTML par programmation en Java

Les étapes suivantes montrent comment extraire du texte à partir de HTML par programmation en Java :

  1. Obtenez le document HTML source à l’aide de la classe HTMLDocument.
  2. Initialisez une instance de la classe TextSaveOptions.
  3. Extrayez le texte du document HTML.

L’extrait de code ci-dessous montre comment extraire du texte HTML par programmation en Java :

// Préparez un code HTML et enregistrez-le dans le fichier
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Initialiser un document HTML à partir du fichier
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Initialiser l'objet de classe TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Convertir HTML en texte
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Explorer Aspose.HTML pour Java

Vous pouvez consulter la section documentation pour explorer plusieurs autres fonctionnalités prises en charge par l’API.

Conclusion

En conclusion, vous avez appris à extraire du texte HTML par programmation en Java. Cela peut vous aider à récupérer des informations à partir des pages Web. De plus, au cas où vous auriez besoin de discuter de l’une de vos préoccupations ou exigences, écrivez-nous sur le forum.

Voir également