Ekstrak Teks dari Halaman Web di C# - API Ekstraksi Teks

Entri blog ini menunjukkan fitur menonjol lainnya yang ditawarkan oleh Aspose.HTML for .NET. Pustaka .NET yang kaya fitur ini memungkinkan Anda mengekstrak teks dari halaman web dalam C# secara terprogram. Lebih jauh lagi, API ekstraksi teks ini telah mengekspos beberapa kelas dan metode untuk mengekstraksi teks dari halaman HTML. Jadi, Anda dapat dengan mudah mengembangkan ekstraktor teks situs web untuk perangkat lunak Anda yang akan memberikan keunggulan kompetitif pada bisnis Anda. Oleh karena itu, bacalah artikel ini secara menyeluruh dan jangan lewatkan satu bagian pun. Selain itu, pastikan Anda telah menginstal .NET di mesin lokal Anda untuk mengimplementasikan fungsionalitas tersebut.

Poin-poin berikut akan dibahas dalam posting blog ini:

  1. Instalasi API Ekstraksi Teks
  2. Ekstrak Teks dari Halaman Web di C# - Contoh Kode
  3. Ekstraksi Teks Online

Instalasi API Ekstraksi Teks

Aspose.HTML for .NET menawarkan solusi yang mulus untuk mengekstrak teks dari halaman web. Sebagai programmer C#, Anda dapat memilih API ekstraksi teks ini untuk mengembangkan ekstraktor teks halaman web guna meningkatkan produktivitas. Selain itu, ada beberapa skenario di mana Anda memerlukan API ekstraksi teks situs web, jadi Aspose.HTML for .NET mungkin menjadi pilihan utama. Namun demikian, Anda dapat menginstalnya dengan mengunduh file DLL atau menjalankan perintah berikut ke NuGet Manajer Paket:

PM> Install-Package Aspose.Html
api ekstraksi teks

Anda dapat melihat petunjuk instalasi lengkap di sini.

Ekstrak Teks dari Halaman Web di C# - Contoh Kode

Bekerja dengan perpustakaan Aspose.HTML for .NET tidaklah rumit dan tidak sulit. Jadi, API ekstraksi teks ini dirancang dengan baik oleh para insinyur terkemuka kami. Jadi, mari mulai menulis cuplikan kode.

Anda dapat mengikuti langkah-langkah yang disebutkan di bawah ini:

  • Tentukan alamat direktori.
  • Inisialisasi konstruktor kelas HTMLDocument untuk memuat halaman web.
  • Kumpulkan semua judul h2 dengan memanggil metode GetElementsByTagName.
  • Ulangi semua judul h2 yang diambil.
  • Dapatkan teks tebal menggunakan metode GetElementsByTagName.
  • Ulangi semua teks tebal yang diambil dari halaman web.
  • Panggil metode WriteAllText untuk menyimpan teks dalam file Txt.

Cuplikan kode berikut menunjukkan cara mengekstrak teks dari halaman web di C# secara terprogram:

namespace Aspose.Html
{
    class HTML
    {
        // Ekstrak Teks dari Halaman Web di C# - API Ekstraksi Teks
        static void Main(string[] args)
        {
            // Tentukan alamat direktori
            String dir = "/sample-files/";
            // Inisialisasi konstruktor kelas HTMLDocument untuk memuat halaman web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/id/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Kumpulkan semua judul h2 dengan memanggil metode GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // ulangi semua judul h2 yang diambil.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Dapatkan teks tebal menggunakan metode GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Ulangi semua teks tebal yang diambil dari halaman web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Panggil metode WriteAllText untuk menyimpan teks dalam file txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

Output dari contoh kode di atas dapat dilihat pada gambar di bawah ini:

mengekstrak teks dari halaman web

Ekstraktor Teks Online

Ekstraktor teks halaman web online ini adalah alat di mana Anda dapat melakukan tugas ekstraksi data secara non-program. Ini adalah aplikasi berbasis web yang juga berfungsi dengan baik di browser web Ponsel. Yang terpenting, ini gratis dan sangat cepat dalam mengekstraksi teks dari halaman HTML. Kedepannya, ekstraktor teks online ini akan dilengkapi dengan fungsi lebih lanjut.

 ekstraktor teks online

Ekstraktor Teks Situs Web - Dapatkan Lisensi Gratis

Anda dapat memanfaatkan lisensi sementara gratis untuk mencoba ekstraksi teks ini API tanpa batasan evaluasi.

Kesimpulan

Posting blog ini berakhir di sini. Kami harap Anda telah mempelajari cara mengekstrak teks dari halaman web secara terprogram dalam C#. Selain itu, Anda telah melihat implementasi sebenarnya dari mengekstraksi teks dari halaman HTML. Faktanya, pemrogram selalu cenderung menggunakan API yang andal dan tangguh dalam hal pengembangan aplikasi yang cepat dan untungnya, Aspose.HTML for .NET melakukan cukup banyak pekerjaan untuk Anda. Jadi, Anda dapat mempelajari lebih lanjut tentang API ekstraksi teks ini dengan mengunjungi dokumentasi, dan API referensi.

Terakhir, aspose.com sedang menulis artikel baru. Jadi, harap tetap berhubungan untuk pembaruan terkini.

Bantuan Tersedia

Anda dapat memberi tahu kami tentang pertanyaan atau permintaan Anda di forum kami.

Pertanyaan yang Sering Diajukan – FAQ

Bagaimana cara membaca data dari halaman Web di C#?

Anda dapat membaca data dari halaman web secara terprogram menggunakan Aspose.HTML for .NET. Selanjutnya, silakan kunjungi link ini untuk melihat cara menerapkannya.

Bagaimana cara mengekstrak data dari URL di C#?

Inisialisasi konstruktor kelas HTMLDocument untuk memuat halaman web dan mengambil data dengan meneruskan nama tag apa pun dalam metode GetElementsByTagName. Selain itu, Anda dapat memanfaatkan alat online untuk mengekstrak data secara online.

Lihat juga