HTML ist eine Auszeichnungssprache zum Erstellen oder Entwerfen von Dokumenten, die in Browsern angezeigt werden sollen. Es kann Text oder visuelle Informationen auf der Seite enthalten. In einigen Fällen möchten Sie möglicherweise Text aus HTML-Dokumenten extrahieren. In Übereinstimmung mit solchen Anwendungsfällen behandelt dieser Artikel das programmgesteuerte Extrahieren von Text aus HTML in Java.