C# で Web ページからテキストを抽出する - テキスト抽出 API

このブログ投稿では、Aspose.HTML for .NET が提供するもう 1 つの優れた機能を紹介します。この豊富な機能を備えた .NET ライブラリを使用すると、C# でプログラム的に Web ページからテキストを抽出できます。さらに、このテキスト抽出 API は、HTML ページからテキストを抽出するための複数のクラスとメソッドを公開しています。そのため、ソフトウェア用の Web サイト テキスト抽出機能を簡単に開発して、ビジネスに競争力を与えることができます。したがって、この記事を徹底的に読み、どのセクションも見逃さないようにしてください。また、機能を実装するには、ローカル マシンに .NET がインストールされていることを確認してください。

このブログ投稿では、以下の点について説明します。

  1. テキスト抽出APIのインストール
  2. C# で Web ページからテキストを抽出する - コード サンプル
  3. オンラインテキスト抽出ツール

テキスト抽出APIのインストール

Aspose.HTML for .NET は、Web ページからテキストを抽出するためのシームレスなソリューションを提供します。C# プログラマーであれば、このテキスト抽出 API を使用して Web ページのテキスト抽出ツールを開発し、生産性を向上させることができます。また、Web サイトのテキスト抽出 API が必要なシナリオは複数あるため、Aspose.HTML for .NET が第一の選択肢になるかもしれません。ただし、DLL ファイルを ダウンロード するか、次のコマンドを NuGet パッケージ マネージャーで実行することでインストールできます。

PM> Install-Package Aspose.Html
テキスト抽出 API

完全なインストール手順についてはこちらをご覧ください。

C# で Web ページからテキストを抽出する - コード サンプル

Aspose.HTML for .NET ライブラリの操作は複雑でも難しくもありません。このテキスト抽出 API は、当社の一流エンジニアによって適切に設計されています。それでは、コード スニペットの作成を始めましょう。

以下の手順に従ってください。

  • ディレクトリ アドレスを定義します。
  • Webページを読み込むために、HTMLDocument クラスのコンストラクターを初期化します。
  • GetElementsByTagName メソッドを呼び出して、すべての h2 見出しを収集します。
  • 取得したすべての h2 見出しをループします。
  • GetElementsByTagName メソッドを使用して太字のテキストを取得します。
  • Web ページから取得した太字のテキストをすべてループします。
  • WriteAllText メソッドを呼び出して、テキストを Txt ファイルに保存します。

次のコード スニペットは、C# でプログラム的に Web ページからテキストを抽出する方法を示しています。

namespace Aspose.Html
{
    class HTML
    {
        // C# で Web ページからテキストを抽出する - テキスト抽出 API
        static void Main(string[] args)
        {
            // ディレクトリアドレスを定義する
            String dir = "/sample-files/";
            // Web ページを読み込むために、HTMLDocument クラスのコンストラクターを初期化します。  
            using (var document = new HTMLDocument("https://blog.aspose.com/ja/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // GetElementsByTagName メソッドを呼び出して、すべての h2 見出しを収集します。 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // 取得したすべての h2 見出しをループします。
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // GetElementsByTagName メソッドを使用して太字のテキストを取得します。
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Web ページから取得した太字のテキストをすべてループします。
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // WriteAllText メソッドを呼び出して、テキストを txt ファイルに保存します。
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

上記のコードサンプルの出力は、以下の画像に示されています。

ウェブページからテキストを抽出する

オンラインテキスト抽出ツール

このオンラインウェブページテキスト抽出ツールは、プログラムなしでデータ抽出タスクを実行できるツールです。これはウェブベースのアプリケーションで、携帯電話のウェブブラウザでも問題なく動作します。何よりも、無料で、HTMLページからテキストを非常に速く抽出できます。将来的には、このオンラインテキスト抽出ツールにさらに多くの機能が搭載される予定です。

 オンラインテキスト抽出ツール

ウェブサイトテキスト抽出ツール - 無料ライセンスを取得

無料の一時ライセンスを利用して、評価制限なしでこのテキスト抽出APIを試すことができます。

結論

このブログ投稿はこれで終わりです。C# で Web ページからテキストをプログラム的に抽出する方法を学んでいただけたと思います。また、HTML ページからテキストを抽出する実際の実装もご覧いただけました。実際、迅速なアプリケーション開発に関しては、プログラマーは常に信頼性が高く堅牢な API を選択する傾向があり、幸いなことに、Aspose.HTML for .NET がほぼその役割を果たします。したがって、ドキュメント および API リファレンス にアクセスして、このテキスト抽出 API についてさらに詳しく知ることができます。

最後に、aspose.com では新しい記事を書いています。最新情報については、引き続きご確認ください。

ヘルプが利用可能です

ご質問やご不明な点がございましたら、フォーラムまでお寄せください。

よくある質問 – FAQ

C# で Web ページからデータを読み取るにはどうすればよいでしょうか?

Aspose.HTML for .NET を使用すると、Web ページからプログラム的にデータを読み取ることができます。実装方法については、この リンク を参照してください。

C# で URL からデータを抽出するにはどうすればいいですか?

HTMLDocument クラスのコンストラクターを初期化して Web ページを読み込み、GetElementsByTagName メソッドで任意のタグ名を渡すことでデータを取得します。さらに、online ツールを利用してオンラインでデータを抽出することもできます。

参照