Web Scraping, também conhecido como web crawling, web harvesting ou data scraping, é usado para extrair dados de sites. Um web scraper usa diferentes seletores de dados, como seletores CSS, XPath ou ambos, para extrair dados das páginas da web. Ambos os seletores são eficientes para coletar e analisar informações da web. Este artigo aborda como criar um web scraper em C#, especificamente as informações sobre navegação HTML, XPath Query e CSS Selector.
Converter XHTML para PDF em Java
XHTML é um formato de arquivo baseado em texto com marcação no formato XML. Esse formato é amplamente utilizado por ser genérico e envolver menos scripts. Considerando que os arquivos PDF são arquivos de formato de layout fixo que são usados popularmente por serem independentes de plataforma. Em certos casos, pode ser necessário converter arquivos XHTML para o formato PDF. De acordo com esses casos de uso, este artigo demonstra como converter o formato XHTML para PDF em Java.
Salvar página da Web como PDF em Java
As páginas da Web são usadas para mostrar todos os tipos de informações nos sites. Em determinados cenários, pode ser necessário salvar uma página da Web como PDF em Java. De acordo com esses cenários, este artigo aborda como salvar uma página da Web como PDF em Java.
Converter EPUB para uma imagem PNG ou JPG em C#
Os arquivos EPUB são comumente usados para fins de impressão em grande escala. Em determinados cenários, pode ser necessário visualizar o conteúdo de um arquivo EPUB na forma de uma imagem. De acordo com esses casos de uso, este artigo explica como converter um arquivo EPUB em PNG ou JPG programaticamente em C#.
Criar um Web Scraper em Java
O Web Scraping também é chamado de raspagem de dados, coleta da Web ou rastreamento da Web, que é usado para extrair dados das páginas da Web. Um web scraper pode usar diferentes abordagens para extrair informações. Por exemplo, XPath, seletores CSS, filtros personalizados, navegação HTML, etc. De acordo com esses cenários, este artigo aborda como criar um web scraper programaticamente em Java.
Converter HTML para arquivo MHT em C#
Em algumas situações, pode ser necessário converter um arquivo HTML para o formato MHT. De acordo com esses requisitos, este artigo discute como converter HTML para formato MHT programaticamente em C#.
Converter MHT ou MHTML para arquivo DOCX do Word em C#
Em certos casos, pode ser necessário converter um arquivo MHT ou MHTML em um documento do Word. Assim, este artigo aborda como converter um arquivo MHT ou MHTML em um documento do Word no formato DOCX programaticamente em C#.
Converter XHTML para PDF em C#
XHTML é uma versão mais restrita e baseada em XML dos arquivos HTML. Foi desenvolvido para melhorar a interoperabilidade com diferentes formatos de dados. Considerando que, os arquivos PDF são populares devido ao seu suporte em várias plataformas e sistemas operacionais. Em alguns casos, pode ser necessário converter um arquivo XHTML para o formato PDF. Da mesma forma, este artigo aborda como converter um arquivo XHTML em um documento PDF programaticamente em C#.
Converter MHT para uma imagem em Java
Em determinadas situações, pode ser necessário converter um arquivo MHT para um formato de imagem. Assim, este artigo aborda como converter um MHT ou MHTML em uma imagem no formato JPG ou PNG programaticamente em Java.
Converter MHT para arquivo PDF em C#
O arquivo MHT é um formato de arquivo de página da Web que inclui texto, gráficos, animações, CSS, JavaScript e todos os recursos vinculados em um único arquivo. Algumas páginas da web acessam imagens ou outros recursos de um servidor e salvar a página no formato MHT ou MHTML permitirá que você veja esse conteúdo mesmo quando estiver offline. Em certos casos, pode ser necessário converter um arquivo MHT para o formato PDF. Este artigo aborda como converter um arquivo MHT em um arquivo PDF em C#.