提取 HTML 文本 Java

HTML 是一种标记语言,用于创建或设计要在浏览器中显示的文档。它可以在页面中包含文本或视觉信息。在某些情况下,您可能希望从 HTML 文档中提取 Text。根据这些用例,本文介绍了如何在 Java 中以编程方式从 HTML 中提取文本。

HTML 文本提取器 – Java API 安装

Aspose.HTML for Java API 可用于创建、编辑或操作 HTML、MHTML 和许多其他 文件格式。只需从 Downloads 页面下载其 JAR 文件来设置 API,或者在 pom.xml 文件中使用以下规范来启用来自 Aspose Repository 的 API:

存储库:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

依赖:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

在 Java 中以编程方式从 HTML 中提取文本

以下步骤展示了如何在 Java 中以编程方式从 HTML 中提取文本:

  1. 使用 HTMLDocument 类获取源 HTML 文档。
  2. 初始化 TextSaveOptions 类的一个实例。
  3. 从 HTML 文档中提取文本。

下面的代码片段演示了如何在 Java 中以编程方式从 HTML 中提取文本:

// 准备 HTML 代码并将其保存到文件中
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// 从文件初始化 HTML 文档
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // 初始化 TextSaveOptions 类对象
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // 将 HTML 转换为文本
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

探索 Aspose.HTML for Java

您可以查看 documentation 部分以探索 API 支持的其他几个功能。

结论

总之,您已经学习了如何在 Java 中以编程方式从 HTML 中提取文本。这可以帮助您从网页中检索信息。此外,如果您需要讨论您的任何疑虑或要求,请在 论坛 上写信给我们。

也可以看看