Pesquisar este blog

Breaking News
recent

O que significa Web Crawler?

Web Crawler, em português rastreador web, é um programa de computados que navega pela World Wide Web de uma forma metódica e automatizada. Os outros termos para Web Crawler são indexados automáticos, bots,web spiders, web robot, ou web scutter. 

Processo que um Web crawler executar

Processo que um Web crawler executar
O processo que um Web crawler executar é chamado de Web Crawling ou Spidering. Muitos sites, em particulares os motores de busca, usam crawlers para manter uma base de dados atualizadas. Os Web Crawlers são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas. Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web Site, como chegar os links ou validar o código HTML. Os Crawlers também podem ser usados para obter tipos específicos de informações das páginas da Web, como minerar endereços de email (mais comumente para spam).
Um Web Crawlers é um tipo de robô de Internet ou agente de Software. Em geral, ele começa com uma lista de URLs para visitqr (também chamado de seeds). À medida que crawlers visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.

Exemplos de Web Crawlers 

DataparkSearch 
Whet 
HTTrack 
JSpider 
Methabot 
Payuk 
WebSPHINX 
YaCy 
Crawljax
Yahoo! Sluro é o nome do Crawler do Yahoo!. 
Msnbot é o nome do Crawler do Bing – Microsoft. 
Googlebot é o nome do Crawler do Google. 
Methabot é um Crawler com suporte a scripting escrito em C. Arachnode.net é um Web Crawler open-source usando a plataforma .NET e escrito C#
Goutte é um Web Scraper para criar um Crawler desenvolvido em PHP por Fabien Potencier usando o Symfonv.
DuckDuckBot é o Web Crawler do DuckDuckGo.
Patent2net é um crawler especializado em encontrar,organizar e disponibilizar patentes depositadas na Espacenet.
Empresas de sucesso

Empresas de sucesso

Nenhum comentário:

Postar um comentário

Deixe seu Comentario

Fabiano . Tecnologia do Blogger.