Esta publicación de blog demuestra otra característica destacada que ofrece Aspose.HTML for .NET. Esta biblioteca .NET con muchas funciones le permite extraer texto de una página web en C# mediante programación. Además, esta API de extracción de texto ha expuesto múltiples clases y métodos para extraer texto de páginas HTML. Por lo tanto, puede desarrollar fácilmente un extractor de texto de sitio web para su software que le dará a su empresa una ventaja competitiva. Por eso, lee este artículo a fondo y no te pierdas ningún apartado. Además, asegúrese de haber instalado .NET en su máquina local para implementar la funcionalidad.
Los siguientes puntos se discutirán en esta publicación de blog:
- Instalación de API de extracción de texto
- Extraer texto de una página web en C#: ejemplo de código
- Extractor de texto en línea
Instalación de API de extracción de texto
Aspose.HTML for .NET ofrece una solución perfecta para extraer texto de una página web. Como programador de C#, puede optar por esta API de extracción de texto para desarrollar un extractor de texto de página web para aumentar la productividad. Además, existen múltiples escenarios en los que necesita una API de extracción de texto de sitio web, por lo que Aspose.HTML for .NET podría ser la opción principal. Sin embargo, puede instalarlo descargando el archivo DLL o ejecutando el siguiente comando en NuGet Administrador de paquetes:
PM> Install-Package Aspose.Html
Puede consultar las instrucciones de instalación completas aquí.
Extraer texto de una página web en C#: ejemplo de código
Trabajar con la biblioteca Aspose.HTML for .NET no es complejo ni difícil. Por lo tanto, esta API de extracción de texto está bien diseñada por nuestros ingenieros de primer nivel. Entonces, comencemos a escribir un fragmento de código.
Puede seguir los pasos que se mencionan a continuación:
- Defina la dirección del directorio.
- Inicialice un constructor de la clase HTMLDocument para cargar una página web.
- Recopile todos los encabezados h2 llamando al método GetElementsByTagName.
- Recorra todos los encabezados h2 recuperados.
- Obtenga el texto en negrita usando el método GetElementsByTagName.
- Recorra todo el texto en negrita recuperado de una página web.
- Llame al método WriteAllText para guardar el texto en un archivo Txt.
El siguiente fragmento de código muestra cómo extraer texto de una página web en C# mediante programación:
namespace Aspose.Html
{
class HTML
{
// Extraer texto de una página web en C#: API de extracción de texto
static void Main(string[] args)
{
// Definir la dirección del directorio
String dir = "/sample-files/";
// Inicialice un constructor de la clase HTMLDocument para cargar una página web.
using (var document = new HTMLDocument("https://blog.aspose.com/es/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
{
// Recopile todos los encabezados h2 llamando al método GetElementsByTagName.
var headings = document.GetElementsByTagName("h2");
String data = "********h2 headings********" + System.Environment.NewLine;
// recorra todos los encabezados h2 recuperados.
for (var i = 0; i < headings.Length; i++)
{
data += headings[i].TextContent+System.Environment.NewLine;
}
// Obtenga el texto en negrita utilizando el método GetElementsByTagName.
var boldTags = document.GetElementsByTagName("strong");
data += "********Bold Text********" + System.Environment.NewLine;
// Recorra todo el texto en negrita recuperado de una página web.
for (var i = 0; i < boldTags.Length; i++)
{
data += boldTags[i].TextContent + System.Environment.NewLine;
}
// Llame al método WriteAllText para guardar el texto en un archivo txt.
File.WriteAllText(Path.Combine(dir, "data.txt"), data);
}
}
}
}
El resultado del ejemplo de código anterior se puede ver en la siguiente imagen:
Extractor de texto en línea
Este extractor de texto de páginas web en línea es una herramienta donde puede realizar tareas de extracción de datos sin programación. Es una aplicación basada en web que también funciona bien en el navegador web de teléfonos móviles. Sobre todo, es gratuito y muy rápido a la hora de extraer texto de páginas HTML. En el futuro, este extractor de textos en línea estará equipado con más funciones.
Extractor de texto de sitios web: obtenga una licencia gratuita
Puede aprovechar una licencia temporal gratuita para probar esta extracción de texto API sin limitaciones de evaluación.
Conclusión
Esta publicación de blog termina aquí. Esperamos que haya aprendido cómo extraer texto de una página web mediante programación en C#. Además, ha visto la implementación real de la extracción de texto de páginas HTML. De hecho, los programadores siempre tienden a optar por una API confiable y robusta cuando se trata de desarrollo rápido de aplicaciones y, afortunadamente, Aspose.HTML for .NET hace prácticamente el trabajo por usted. Por lo tanto, puede obtener más información sobre esta API de extracción de texto visitando la documentación y las [referencias] API]14.
Finalmente, aspose.com está escribiendo nuevos artículos. Por lo tanto, manténgase en contacto para conocer las últimas actualizaciones.
Hay ayuda disponible
Puedes dejarnos saber tus dudas o consultas en nuestro foro.
Preguntas frecuentes – Preguntas frecuentes
¿Cómo leer datos de una página web en C#?
Puede leer datos mediante programación desde una página web usando Aspose.HTML for .NET. Además, visite este enlace para ver cómo implementarlo.
¿Cómo extraer datos de una URL en C#?
Inicialice un constructor de la clase HTMLDocument para cargar una página web y recuperar datos pasando cualquier nombre de etiqueta en el método GetElementsByTagName. Además, puede aprovechar una herramienta en línea para extraer datos en línea.