提取 HTML 文本 Java

HTML 是一種標記語言,用於創建或設計要在瀏覽器中顯示的文檔。它可以在頁面中包含文本或視覺信息。在某些情況下,您可能希望從 HTML 文檔中提取 Text。根據此類用例,本文介紹瞭如何在 Java 中以編程方式從 HTML 中提取文本。

HTML 文本提取器 – Java API 安裝

Aspose.HTML for Java API 可用於創建、編輯或操作 HTML、MHTML 和許多其他文件格式。只需從 Downloads 頁面下載 API 的 JAR 或通過在 pom.xml 中添加以下規範從 Aspose Repository 安裝它。

存儲庫:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

依賴:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

在 Java 中以編程方式從 HTML 中提取文本

以下步驟顯示瞭如何在 Java 中以編程方式從 HTML 中提取文本:

  1. 使用 HTMLDocument 類獲取源 HTML 文檔。
  2. 初始化 TextSaveOptions 類的實例。
  3. 從 HTML 文檔中提取文本。

下面的代碼片段演示瞭如何在 Java 中以編程方式從 HTML 中提取文本:

// 準備一段HTML代碼並保存到文件中
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// 從文件初始化 HTML 文檔
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // 初始化 TextSaveOptions 類對象
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // 將 HTML 轉換為文本
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

探索 Aspose.HTML for Java

您可以查看 文檔 部分來探索 API 支持的其他幾個功能。

結論

總之,您已經了解瞭如何在 Java 中以編程方式從 HTML 中提取文本。這可以幫助您從網頁中檢索信息。此外,如果您需要討論您的任何疑慮或要求,請在 論壇 上寫信給我們。

也可以看看