
HTML 是一種標記語言,用於創建或設計要在瀏覽器中顯示的文檔。它可以在頁面中包含文本或視覺信息。在某些情況下,您可能希望從 HTML 文檔中提取 Text。根據此類用例,本文介紹瞭如何在 Java 中以編程方式從 HTML 中提取文本。
HTML 文本提取器 – Java API 安裝
Aspose.HTML for Java API 可用於創建、編輯或操作 HTML、MHTML 和許多其他文件格式。只需從 Downloads 頁面下載 API 的 JAR 或通過在 pom.xml 中添加以下規範從 Aspose Repository 安裝它。
存儲庫:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
依賴:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
在 Java 中以編程方式從 HTML 中提取文本
以下步驟顯示瞭如何在 Java 中以編程方式從 HTML 中提取文本:
- 使用 HTMLDocument 類獲取源 HTML 文檔。
- 初始化 TextSaveOptions 類的實例。
- 從 HTML 文檔中提取文本。
下面的代碼片段演示瞭如何在 Java 中以編程方式從 HTML 中提取文本:
// 準備一段HTML代碼並保存到文件中
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// 從文件初始化 HTML 文檔
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// 初始化 TextSaveOptions 類對象
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// 將 HTML 轉換為文本
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
探索 Aspose.HTML for Java
您可以查看 文檔 部分來探索 API 支持的其他幾個功能。
結論
總之,您已經了解瞭如何在 Java 中以編程方式從 HTML 中提取文本。這可以幫助您從網頁中檢索信息。此外,如果您需要討論您的任何疑慮或要求,請在 論壇 上寫信給我們。