HTML テキスト Java の抽出

HTML は、ブラウザに表示されるドキュメントを作成または設計するためのマークアップ言語です。ページにテキストまたは視覚情報を含めることができます。場合によっては、HTML ドキュメントから Text を抽出したいことがあります。このようなユース ケースに従って、この記事では Java でプログラムによって HTML からテキストを抽出する方法について説明します。

HTML テキスト エクストラクタ – Java API のインストール

Aspose.HTML for Java API を使用して、HTML、MHTML、およびその他の多くの ファイル フォーマット を作成、編集、または操作できます。 ダウンロード ページから JAR ファイルをダウンロードするか、Aspose リポジトリ から API を有効にするために pom.xml ファイルで次の仕様を使用して、API をセットアップするだけです。

リポジトリ:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

依存:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Java でプログラムによって HTML からテキストを抽出する

次の手順は、Java でプログラムによって HTML からテキストを抽出する方法を示しています。

  1. HTMLDocument クラスを使用してソース HTML ドキュメントを取得します。
  2. TextSaveOptions クラスのインスタンスを初期化します。
  3. HTML ドキュメントからテキストを抽出します。

以下のコード スニペットは、Java でプログラムによって HTML からテキストを抽出する方法を示しています。

// HTML コードを準備してファイルに保存する
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// ファイルから HTML ドキュメントを初期化する
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // TextSaveOptions クラス オブジェクトの初期化
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // HTML をテキストに変換する
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Aspose.HTML for Java を調べる

ドキュメント セクションを参照して、API でサポートされている他のいくつかの機能を調べることができます。

結論

結論として、Java でプログラムによって HTML からテキストを抽出する方法を学びました。これは、Web ページから情報を取得するのに役立ちます。さらに、懸念事項や要件について話し合う必要がある場合は、フォーラム までご連絡ください。

関連項目