HTMLからテキストへのJava

HTML ページはインターネット上で広く使用されています。それらには、情報を提示するための画像、図、およびテキストが含まれる場合があります。 HTML ファイルをテキスト形式に変換する必要がある場合があります。したがって、この記事では、HTML を Java でプログラムによって テキスト に変換する方法について説明します。

HTML からテキストへのコンバーター – Java API のインストール

Aspose.HTML for Java API は、HTML、MHTML、テキスト、およびその他の多くの ファイル フォーマット をサポートします。 New Releases セクションから JAR ファイルをダウンロードするか、Aspose Repository からアクセスする次の構成を介して、API をすばやく構成できます。

リポジトリ:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

依存:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Java でプログラムによって HTML をテキストに変換する

次の手順は、Java でプログラムによって HTML をテキストに変換する方法を示しています。

  1. HTMLDocumentクラスで入力HTMLファイルを読み込みます。
  2. TextSaveOptions クラスのオブジェクトを作成します。
  3. HTML をテキスト ファイルに変換します。

次のサンプル コードは、Java でプログラムによって HTML をテキストに変換する方法を示しています。

// HTML コードを準備してファイルに保存する
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// ファイルから HTML ドキュメントを初期化する
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // TextSaveOptions クラス オブジェクトの初期化
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // HTML をテキストに変換する
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Aspose.HTML for Java を調べる

ドキュメント スペースにアクセスすると、API の他の多くの機能を調べることができます。 API のさまざまなクラスによって公開されるメソッドとプロパティを説明するさまざまなセクションと章が含まれています。

結論

結論として、Java でプログラムによって HTML をテキストに変換する方法を調べました。テキスト文字列を HTML ページからプレーン テキスト形式にエクスポートすると便利な場合があります。また、ご不明な点がございましたら、フォーラム からお気軽にお問い合わせください。

関連項目