HTML là một ngôn ngữ đánh dấu để tạo hoặc thiết kế các tài liệu để hiển thị trong các trình duyệt. Nó có thể bao gồm văn bản hoặc thông tin trực quan trong trang. Trong một số trường hợp, bạn có thể muốn trích xuất văn bản từ các tài liệu HTML. Phù hợp với các trường hợp sử dụng như vậy, bài viết này trình bày cách trích xuất Văn bản từ HTML theo chương trình trong Java.