Extraia texto de uma página da Web em C# - API de extração de texto

Esta postagem do blog demonstra outro recurso importante oferecido pelo Aspose.HTML for .NET. Esta biblioteca .NET rica em recursos permite extrair texto de uma página da Web em C# programaticamente. Além disso, esta API de extração de texto expôs múltiplas classes e métodos para extrair texto de páginas HTML. Assim, você pode desenvolver facilmente um extrator de texto de site para o seu software, o que dará ao seu negócio uma vantagem competitiva. Portanto, leia este artigo detalhadamente e não perca nenhuma seção. Além disso, certifique-se de ter instalado o .NET em sua máquina local para implementar a funcionalidade.

Os seguintes pontos serão discutidos nesta postagem do blog:

  1. Instalação da API de extração de texto
  2. Extrair texto da página da Web em C# – exemplo de código
  3. Extrator de texto on-line

Instalação da API de extração de texto

Aspose.HTML for .NET oferece uma solução perfeita para extrair texto de uma página da web. Sendo um programador C#, você pode optar por esta API de extração de texto para desenvolver um extrator de texto de página da web para aumentar a produtividade. Além disso, existem vários cenários em que você precisa de uma API de extração de texto de site, então Aspose.HTML for .NET pode ser a escolha principal. No entanto, você pode instalá-lo baixando o arquivo DLL ou executando o seguinte comando no NuGet Gerenciador de Pacotes:

PM> Install-Package Aspose.Html
API de extração de texto

Você pode seguir as instruções completas de instalação aqui.

Extraia texto de uma página da Web em C# – exemplo de código

Trabalhar com a biblioteca Aspose.HTML for .NET não é complexo nem difícil. Portanto, esta API de extração de texto foi bem projetada por nossos engenheiros de primeira linha. Então, vamos começar a escrever um trecho de código.

Você pode seguir as etapas mencionadas abaixo:

  • Defina o endereço do diretório.
  • Inicialize um construtor da classe HTMLDocument para carregar uma página da web.
  • Colete todos os títulos h2 chamando o método GetElementsByTagName.
  • Percorra todos os títulos h2 recuperados.
  • Obtenha o texto em negrito usando o método GetElementsByTagName.
  • Percorra todo o texto em negrito recuperado de uma página da web.
  • Chame o método WriteAllText para salvar o texto em um arquivo Txt.

O trecho de código a seguir mostra como extrair texto de uma página da Web em C# programaticamente:

namespace Aspose.Html
{
    class HTML
    {
        // Extraia texto de uma página da Web em C# - API de extração de texto
        static void Main(string[] args)
        {
            // Defina o endereço do diretório
            String dir = "/sample-files/";
            // Inicialize um construtor da classe HTMLDocument para carregar uma página da web.  
            using (var document = new HTMLDocument("https://blog.aspose.com/pt/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // Colete todos os títulos h2 chamando o método GetElementsByTagName. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // percorrer todos os títulos h2 recuperados.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // Obtenha o texto em negrito usando o método GetElementsByTagName.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // Percorra todo o texto em negrito recuperado de uma página da web.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // Chame o método WriteAllText para salvar o texto em um arquivo txt.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

A saída do exemplo de código acima pode ser vista na imagem abaixo:

extrair texto da página da web

Extrator de texto on-line

Este extrator de texto de página da web online é uma ferramenta onde você pode realizar tarefas de extração de dados de forma não programática. É um aplicativo baseado na web que também funciona bem no navegador de telefones celulares. Acima de tudo, é gratuito e muito rápido na extração de texto de páginas HTML. No futuro, este extrator de texto online será equipado com outras funcionalidades.

 extrator de texto on-line

Extrator de texto de site - Obtenha uma licença gratuita

Você pode aproveitar uma licença temporária gratuita para testar esta API de extração de texto sem limitações de avaliação.

Conclusão

Esta postagem do blog termina aqui. Esperamos que você tenha aprendido como extrair texto de uma página da web programaticamente em C#. Além disso, você viu a implementação real da extração de texto de páginas HTML. Na verdade, os programadores sempre tendem a buscar uma API confiável e robusta quando se trata de desenvolvimento rápido de aplicativos e, felizmente, Aspose.HTML for .NET faz praticamente o trabalho para você. Portanto, você pode aprender mais sobre esta API de extração de texto visitando a documentação e as referências da API.

Finalmente, aspose.com está escrevendo novos artigos. Portanto, fique em contato para obter as atualizações mais recentes.

A ajuda está disponível

Você pode nos informar sobre suas dúvidas ou dúvidas em nosso fórum.

Perguntas frequentes – Perguntas frequentes

Como ler dados de uma página da Web em C#?

Você pode ler dados programaticamente de uma página da web usando Aspose.HTML for .NET. Além disso, visite este link para ver como implementá-lo.

Como extrair dados de uma URL em C#?

Inicialize um construtor da classe HTMLDocument para carregar uma página da web e recuperar dados passando qualquer nome de tag no método GetElementsByTagName. Além disso, você pode aproveitar uma ferramenta online para extrair dados online.

Veja também