Extraer texto de una página web en C#: API de extracción de texto

Esta publicación de blog demuestra otra característica destacada que ofrece Aspose.HTML for .NET. Esta biblioteca .NET con muchas funciones le permite extraer texto de una página web en C# mediante programación. Además, esta API de extracción de texto ha expuesto múltiples clases y métodos para extraer texto de páginas HTML. Por lo tanto, puede desarrollar fácilmente un extractor de texto de sitio web para su software que le dará a su empresa una ventaja competitiva. Por eso, lee este artículo a fondo y no te pierdas ningún apartado. Además, asegúrese de haber instalado .NET en su máquina local para implementar la funcionalidad.

Los siguientes puntos se discutirán en esta publicación de blog:

  1. Instalación de API de extracción de texto
  2. Extraer texto de una página web en C#: ejemplo de código
  3. Extractor de texto en línea

Instalación de API de extracción de texto

Aspose.HTML for .NET ofrece una solución perfecta para extraer texto de una página web. Como programador de C#, puede optar por esta API de extracción de texto para desarrollar un extractor de texto de página web para aumentar la productividad. Además, existen múltiples escenarios en los que necesita una API de extracción de texto de sitio web, por lo que Aspose.HTML for .NET podría ser la opción principal. Sin embargo, puede instalarlo descargando el archivo DLL o ejecutando el siguiente comando en NuGet Administrador de paquetes:

PM> Install-Package Aspose.Html
API de extracción de texto

Puede consultar las instrucciones de instalación completas aquí.

Extraer texto de una página web en C#: ejemplo de código

Trabajar con la biblioteca Aspose.HTML for .NET no es complejo ni difícil. Por lo tanto, esta API de extracción de texto está bien diseñada por nuestros ingenieros de primer nivel. Entonces, comencemos a escribir un fragmento de código.

Puede seguir los pasos que se mencionan a continuación:

  • Defina la dirección del directorio.
  • Inicialice un constructor de la clase HTMLDocument para cargar una página web.
  • Recopile todos los encabezados h2 llamando al método GetElementsByTagName.
  • Recorra todos los encabezados h2 recuperados.
  • Obtenga el texto en negrita usando el método GetElementsByTagName.
  • Recorra todo el texto en negrita recuperado de una página web.
  • Llame al método WriteAllText para guardar el texto en un archivo Txt.

El siguiente fragmento de código muestra cómo extraer texto de una página web en C# mediante programación:

namespace Aspose.Html
{
    class HTML
    {
        // Extraer texto de una página web en C#: API de extracción de texto
        static void Main(string[] args)
        {
            // Definir la dirección del directorio
            String dir = "/sample-files/";
            // Inicialice un constructor de la clase HTMLDocument para cargar una página web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/es/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Recopile todos los encabezados h2 llamando al método GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // recorra todos los encabezados h2 recuperados.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Obtenga el texto en negrita utilizando el método GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Recorra todo el texto en negrita recuperado de una página web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Llame al método WriteAllText para guardar el texto en un archivo txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

El resultado del ejemplo de código anterior se puede ver en la siguiente imagen:

extraer texto de la página web

Extractor de texto en línea

Este extractor de texto de páginas web en línea es una herramienta donde puede realizar tareas de extracción de datos sin programación. Es una aplicación basada en web que también funciona bien en el navegador web de teléfonos móviles. Sobre todo, es gratuito y muy rápido a la hora de extraer texto de páginas HTML. En el futuro, este extractor de textos en línea estará equipado con más funciones.

 extractor de texto en línea

Extractor de texto de sitios web: obtenga una licencia gratuita

Puede aprovechar una licencia temporal gratuita para probar esta extracción de texto API sin limitaciones de evaluación.

Conclusión

Esta publicación de blog termina aquí. Esperamos que haya aprendido cómo extraer texto de una página web mediante programación en C#. Además, ha visto la implementación real de la extracción de texto de páginas HTML. De hecho, los programadores siempre tienden a optar por una API confiable y robusta cuando se trata de desarrollo rápido de aplicaciones y, afortunadamente, Aspose.HTML for .NET hace prácticamente el trabajo por usted. Por lo tanto, puede obtener más información sobre esta API de extracción de texto visitando la documentación y las [referencias] API]14.

Finalmente, aspose.com está escribiendo nuevos artículos. Por lo tanto, manténgase en contacto para conocer las últimas actualizaciones.

Hay ayuda disponible

Puedes dejarnos saber tus dudas o consultas en nuestro foro.

Preguntas frecuentes – Preguntas frecuentes

¿Cómo leer datos de una página web en C#?

Puede leer datos mediante programación desde una página web usando Aspose.HTML for .NET. Además, visite este enlace para ver cómo implementarlo.

¿Cómo extraer datos de una URL en C#?

Inicialice un constructor de la clase HTMLDocument para cargar una página web y recuperar datos pasando cualquier nombre de etiqueta en el método GetElementsByTagName. Además, puede aprovechar una herramienta en línea para extraer datos en línea.

Ver también