HTML adalah bahasa markup untuk membuat atau mendesain dokumen untuk ditampilkan di browser. Itu dapat menyertakan teks atau informasi visual di halaman. Dalam beberapa kasus, Anda mungkin ingin mengekstrak Teks dari dokumen HTML. Sesuai dengan kasus penggunaan tersebut, artikel ini membahas cara mengekstrak Teks dari HTML secara terprogram di Java.
HTML Text Extractor – Instalasi Java API
Aspose.HTML for Java API dapat digunakan untuk membuat, mengedit, atau memanipulasi HTML, MHTML, dan banyak format file lainnya. Cukup download JAR API dari halaman Downloads atau instal dari Aspose Repository dengan menambahkan spesifikasi berikut di pom.xml.
Gudang:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
Ketergantungan:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Ekstrak Teks dari HTML Secara terprogram di Java
Langkah-langkah berikut menunjukkan cara mengekstrak Teks dari HTML secara terprogram di Java:
- Dapatkan dokumen HTML sumber menggunakan kelas HTMLDocument.
- Inisialisasi instance dari kelas TextSaveOptions.
- Ekstrak teks dari dokumen HTML.
Cuplikan kode di bawah ini menunjukkan cara mengekstrak teks dari HTML secara terprogram di Java:
// Siapkan kode HTML dan simpan ke file
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// Inisialisasi dokumen HTML dari file
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// Inisialisasi objek kelas TextSaveOptions
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// Mengkonversi HTML ke Teks
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Jelajahi Aspose.HTML for Java
Anda dapat melihat bagian dokumentasi untuk menjelajahi beberapa fitur lain yang didukung oleh API.
Kesimpulan
Kesimpulannya, Anda telah mempelajari cara mengekstrak teks dari HTML secara terprogram di Java. Ini dapat membantu Anda mengambil informasi dari halaman web. Selain itu, jika Anda perlu mendiskusikan masalah atau kebutuhan Anda, kirimkan surat kepada kami di forum.