Trích xuất văn bản HTML Java

HTML là ngôn ngữ đánh dấu để tạo hoặc thiết kế tài liệu để hiển thị trong trình duyệt. Nó có thể bao gồm văn bản hoặc thông tin trực quan trong trang. Trong một số trường hợp, bạn có thể muốn trích xuất Văn bản từ tài liệu HTML. Phù hợp với các trường hợp sử dụng như vậy, bài viết này trình bày cách trích xuất Văn bản từ HTML theo chương trình trong Java.

HTML Text Extractor - Cài đặt Java API

Aspose.HTML for Java API có thể được sử dụng để tạo, chỉnh sửa hoặc thao tác HTML, MHTML và nhiều [định dạng tệp] khác 4. Chỉ cần tải xuống JAR của API từ trang Tải xuống hoặc cài đặt nó từ Kho lưu trữ Aspose bằng cách thêm các thông số kỹ thuật sau vào pom.xml.

Kho:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Sự phụ thuộc:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Trích xuất văn bản từ HTML theo chương trình trong Java

Các bước sau đây chỉ ra cách trích xuất Văn bản từ HTML theo chương trình trong Java:

  1. Nhận tài liệu HTML nguồn bằng cách sử dụng lớp HTMLDocument.
  2. Khởi tạo một thể hiện của lớp TextSaveOptions.
  3. Trích xuất văn bản từ tài liệu HTML.

Đoạn mã dưới đây trình bày cách trích xuất văn bản từ HTML theo chương trình trong Java:

// Chuẩn bị mã HTML và lưu vào tệp
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Khởi tạo tài liệu HTML từ tệp
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Khởi tạo đối tượng lớp TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Chuyển đổi HTML sang văn bản
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Khám phá Aspose.HTML dành cho Java

Bạn có thể xem phần tài liệu để khám phá một số tính năng khác được API hỗ trợ.

Sự kết luận

Tóm lại, bạn đã học cách trích xuất văn bản từ HTML theo lập trình trong Java. Điều này có thể giúp bạn truy xuất thông tin từ các trang web. Hơn nữa, trong trường hợp bạn cần thảo luận về bất kỳ mối quan tâm hoặc yêu cầu nào của mình, hãy viết thư cho chúng tôi tại diễn đàn.

Xem thêm