Ekstrak Teks HTML Java

HTML adalah bahasa markup untuk membuat atau mendesain dokumen untuk ditampilkan di browser. Itu dapat menyertakan teks atau informasi visual di halaman. Dalam beberapa kasus, Anda mungkin ingin mengekstrak Teks dari dokumen HTML. Sesuai dengan kasus penggunaan tersebut, artikel ini membahas cara mengekstrak Teks dari HTML secara terprogram di Java.

HTML Text Extractor – Instalasi Java API

Aspose.HTML for Java API dapat digunakan untuk membuat, mengedit, atau memanipulasi HTML, MHTML, dan banyak format file lainnya. Cukup download JAR API dari halaman Downloads atau instal dari Aspose Repository dengan menambahkan spesifikasi berikut di pom.xml.

Gudang:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

Ketergantungan:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Ekstrak Teks dari HTML Secara terprogram di Java

Langkah-langkah berikut menunjukkan cara mengekstrak Teks dari HTML secara terprogram di Java:

  1. Dapatkan dokumen HTML sumber menggunakan kelas HTMLDocument.
  2. Inisialisasi instance dari kelas TextSaveOptions.
  3. Ekstrak teks dari dokumen HTML.

Cuplikan kode di bawah ini menunjukkan cara mengekstrak teks dari HTML secara terprogram di Java:

// Siapkan kode HTML dan simpan ke file
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// Inisialisasi dokumen HTML dari file
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // Inisialisasi objek kelas TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // Mengkonversi HTML ke Teks
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Jelajahi Aspose.HTML for Java

Anda dapat melihat bagian dokumentasi untuk menjelajahi beberapa fitur lain yang didukung oleh API.

Kesimpulan

Kesimpulannya, Anda telah mempelajari cara mengekstrak teks dari HTML secara terprogram di Java. Ini dapat membantu Anda mengambil informasi dari halaman web. Selain itu, jika Anda perlu mendiskusikan masalah atau kebutuhan Anda, kirimkan surat kepada kami di forum.

Lihat juga