segunda-feira, 11 de fevereiro de 2008

Buscando num site específico

_________________________________________________
Depois de muitas buscas, depois de muitos testes, encantos e desencantos, amadurecemos e passamos a ser mais práticos, focados naquilo que nos faz ir em busca de algo e que esse algo deve ser interessante, real, verdadeiro, etc... E é aí então que entra em cena uma diretiva do Google que nos faz ser mais específicos nos destinos nos quais "varremos" para encontrar o que procuramos.

Algumas vezes, nós queremos procurar em uma página web específica ou um tipo de página. Chamamos a isso de domínio. As vezes também queremos excluir um determinado tipo de site ou domínio, enfim, queremos definir sobre as páginas web de um determinado site ou um tipo de domínio.

A coisa é mais ou menos assim:
Achei interessantíssimo o site www.historiadobrasil.net e gostaria de achar algo que fale sobre o período colonial neste site, então teríamos:

colônia site:www.historiadobrasil.net

Pronto, temos então os links de resultados da busca pelo assunto colônia no período colonial do Brasil no site específico.

Mas e se quiséssemos abranger um número maior de sites. Poderíamos então buscar por sites de ONGg´s, teríamos:

brasil colônia site:org.br

Poderíamos buscar nos sites do governo:

brasil colônia site:gov.br

E se quiséssemos mais ainda, quieséssemos saber em ambos os tipos de site. Podemos digitar então:

brasil colônia site:(org.br OR gov.br)

Ou ainda:

brasil colônia site:(org.br | gov.br)

O parâmetro SITE: pode servir para sabermos quantas páginas de um determinado site o Google tem indexadas, basta digitar:

site:www.ibict.br

A resposta? Bem a resposta é 189.000. É isso mesmo, o Google nos diz que ele tem indexadas cento e oitenta e nove mil páginas web do site web do IBICT.

Mas as surpresas não ficam só por aí não. Podemos também verificar as páginas que o Google indexou do portal, não só do site. É o seguinte, o portal do IBICT é www.ibict.br, mas a instituição é composta de projetos, sub-projetos, departamento, etc... Pois é, só que cada um desses elementos que compõem a Instituição precisa de um espaço no servidor que hospeda o portal da Instituição (www.ibict.br). É aí que podemos utilisar o parâmetro SITE: para termos todas as páginas web que o Google indexou dos sites do portal da instituição. Entendeu?

Ok, então é só digitar:

site:ibict.br

E teremos por exemplo, o site: prossiga.ibict.br, bddt.ibict.br, www.canalciencia.ibict.br, dspace.ibict.br, www.ibict.br/liinc/, biblioteca.ibict.br, etc... além do próprio www.ibict.br.

Gostaram? Pois é, só com esse parâmetro Google dá pra brincar bastante de descobrir sites. Mas como descobrir os sites? Temos que conhecer quais os domínios existentes não é mesmo? Pois é, você pode encontrar isso no link abaixo:

http://pt.wikipedia.org

No link abaixo encontramos a norma ISO que determina a codificação alfabética para cada país. Na página do link do código correspondente é o da coluna alfa-2:

http://pt.wikipedia.org/wiki/ISO_3166-1

O link abaixo corresponde aos domínios de topo pertinentes ao Brasil (.br) e que identificam os grupos de atividade de empresas mantenedoras dos domínios:

http://pt.wikipedia.org/wiki/.br

Ou ainda:

http://registro.br/info/dpn.html

_________________________________________________

REFERÊNCIAS:

Registro de Domínios para a Internet no Brasil:
http://registro.br/

Comitê Gestor da Internet no Brasil:
http://www.cgi.br/

Núcleo de Informação e Coordenação do PontoBr (.br):
http://www.nic.br/

Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil:
http://www.cert.br/

_________________________________________________

UM GRANDE ACHADO:

Acesse o site http://registro.br e acesse no menu a opção PESQUISA e depois clique em WHOIS. Agora você pode digitar, por exemplo, o site do www.google.com.br que o sistema lhe informará todos os dados públicos referentes ao site do Google no Brasil. Agora, nesta tela, você clica no link ao lado de documento(006.947.284/0001-04 ) e a tela seguinte será todos os domínios já reservados pelo Google. Será que acharíamos, por exemplo, um domínio de um site que deva estar pra ser lançado? É só pesquisar meu amigo, pesquisar.
_________________________________________________