quarta-feira, 22 de agosto de 2007

Vasculhando a web:

_________________________________________________
Varrendo e Cadastrando Páginas WEB:

O crawler (esteira rolante) ou spider (aranha) ou robot (robô) é uma aplicação que percorre as páginas existentes na web, recolhendo informações sobre as mesmas, informações essas que podem ser usadas, por exemplo, quando queremos procurar uma página através de um motor de busca. Quande se preenche no Google uma Expressão de Requisição esse programinha verifica se o termo, ou combinações deles, já foi indexado, conforme a requisição. Se existir o robot montará uma lista de resultados, que são os links que aparecem nas páginas de resultado do Google, caso contrário é automaticamente disparado um robot para buscar os termos na net.

Quando o crawler varre uma página ele contabiliza os termos da mesma com base na finalidade do site. Por exemplo: num site sobre datas comemorativas a palavra data tem peso significativo, o que tornará palavra um termo indexador da mesma. Assim acontecendo com todos os termos relacionados, tais como: comemoração, comemorativa, comemorar, dia, data, mês, ano, janeiro, fevereiro, março, etc... Concluindo, todos os termos que têm relação semântica (o que algo significa) entre si. Outras informações são capturadas no momento da varredura: os links que saem da página varrida, os links que chegam, o título da página, a url (localizador uniforme de recurso), etc... Após toda a varredura da página o crawler cria um resumo e incide sobre esse resumos regras de classificação, em seguida manda para os servidor do Google um índice da página varrida para ser disponibilizado para os searchers (usuários buscadores).
_________________________________________________

Google: o livro

"Era triste para Page pensar que muitos inventores morreram sem ver os resultados de seus trabalhos"; (do livro GOOGLE, de David A Vise e Mark Mlseed, tradução de Gabriela Fróes, pág 21).

_________________________________________________

REFERÊNCIAS:

O livro: GOOGLE. A história do negócio de mídia e tecnologia ....
Autor: David A.Wise e Mark Malseed - Tradução: Gabriela Fróes - ISBN: 978-85-325-2149-1
_________________________________________________