HTML-Text Java extrahieren

HTML ist eine Auszeichnungssprache zum Erstellen oder Entwerfen von Dokumenten, die in Browsern angezeigt werden sollen. Es kann Text oder visuelle Informationen auf der Seite enthalten. In einigen Fällen möchten Sie möglicherweise Text aus HTML-Dokumenten extrahieren. In Übereinstimmung mit solchen Anwendungsfällen behandelt dieser Artikel das programmgesteuerte Extrahieren von Text aus HTML in Java.

HTML Text Extractor – Installation der Java-API

Aspose.HTML for Java API kann zum Erstellen, Bearbeiten oder Manipulieren von HTML, MHTML und vielen anderen Dateiformaten verwendet werden. Richten Sie die API einfach ein, indem Sie ihre JAR-Datei von der Seite Downloads herunterladen, oder mit den folgenden Spezifikationen in der pom.xml-Datei, um die API aus dem Aspose-Repository zu aktivieren:

Repository:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Abhängigkeit:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Text aus HTML programmgesteuert in Java extrahieren

Die folgenden Schritte zeigen, wie Sie Text aus HTML programmgesteuert in Java extrahieren:

  1. Rufen Sie das Quell-HTML-Dokument mit der Klasse HTMLDocument ab.
  2. Initialisieren Sie eine Instanz der Klasse TextSaveOptions.
  3. Extrahieren Sie den Text aus dem HTML-Dokument.

Das folgende Code-Snippet zeigt, wie Text aus HTML programmgesteuert in Java extrahiert wird:

// Bereiten Sie einen HTML-Code vor und speichern Sie ihn in der Datei
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Initialisieren Sie ein HTML-Dokument aus der Datei
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Objekt der TextSaveOptions-Klasse initialisieren
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Konvertieren Sie HTML in Text
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Entdecken Sie Aspose.HTML für Java

Sie können sich den Abschnitt Dokumentation ansehen, um mehrere andere Funktionen zu erkunden, die von der API unterstützt werden.

Fazit

Abschließend haben Sie gelernt, wie Sie Text aus HTML programmgesteuert in Java extrahieren. Dies kann Ihnen helfen, Informationen von den Webseiten abzurufen. Falls Sie eines Ihrer Bedenken oder Anforderungen besprechen müssen, schreiben Sie uns außerdem im Forum.

Siehe auch