|
Aprenda a investigar a selva de informações online
Renato Rodrigues
Editor-Assistente de Mundo Digital
Nunca na história da humanidade tanta informação foi produzida. A cada
dois anos, cada habitante do planeta produz 800 MB de informação digital -mais
do que cabe em um CD inteiro. De 2000 para 2003, o número de informações
novas cresceu 30%. Todos os habitantes do planeta geraram informação digital
nova suficiente para lotar 500 mil bibliotecas do congresso nacional dos EUA, a
maior do mundo. São impensáveis 5 bilhões de gigabytes de dados, ou 5
petabytes. Como achar qualquer informação nessa montanha de dados?
Os melhores guias para essa selva são os sites de busca (search engines,
em inglês)". Na verdade, eles nada mais são do que gigantescas listas de
endereços virtuais. Eles catalogam sites inteiros, com todas as páginas.
Quando o internauta digita um ou mais termos na caixa de busca, um programa de
computador caça essas palavras no banco de dados do buscador. Esse software
-chamado de engine (motor)- é o núcleo do site de busca.
Atualmente, o mais poderoso -e popular- buscador da Internet é o Google,
com mais de 3 bilhões de documentos em seu banco de dados (vide figura
abaixo). De acordo com uma pesquisa da One Star, empresa de estatísticas
sobre a Web, o Google é usado por 55,2% dos internautas -mais do que o dobro da
soma do segundo colocado (Yahoo!, 21,7% e MSN
Search, 9.6%). Mas memo o Google não é a solução universal para todas as
dúvidas online. Conforme a pesquisa, é melhor usar outros sites.
Na verdade, os buscadores mais comuns e famosos não vasculham a Internet toda.
Eles investigam a base de dados com todo o texto das páginas selecionadas entre
bilhões de outras. Quando o internauta usa um buscador, ele está na verdade
procurando em uma espécie de cópia estática da página que realmente está no
ar. Ao clicar em um link na lista de resultados, a versão mais recente da página
é baixada do servidor onde está alojada.
As bases de dados dos buscadores são selecionadas e construídas por programas
de computador chamados "spiders" (aranhas). Embora seja dito que elas
rastejam pela Web caçando páginas, na verdade as aranhas não saem do lugar.
Elas encontram páginas que podem ser cadastradas seguindo os links de páginas
que já estão no banco de dados do buscador. As aranhas não pensam em um
assunto e vão pesquisar o que há na Internet sobre ele.
Se uma página nunca foi "linkada" a qualquer outra, as aranhas não
podem encontrá-la. O único modo de uma página recém-criada passar a fazer
parte do banco de dados de um buscador é se uma pessoa enviar o endereço (URL)
para o serviço. Os principais buscadores oferecem modos simples de se fazer
isso.
Depois de encontradas pelas aranhas, as páginas são passadas para outro
programa de computador para a indexação. Este software identifica texto, links,
e outros conteúdos na página e arquiva esses dados no banco do buscador, de
modo que ela seja achada rapidamente pelo internauta que faz uma busca com
termos que existam nessa página. No entanto, às vezes esse tipo de busca
produz toneladas de resultados, o que exige o uso de alguns
truques para tornar a pesquisa mais precisa e mais rápida.
Alguns tipos de páginas e links são excluídos da maioria dos buscadores
devido à políticas de conteúdo. Outros sites ficam de fora porque as aranhas
não conseguem acesso a eles. Essas páginas "ocultas" para os grandes
buscadores fazem parte do que se chama de "Web
Invisível". Estima-se que essa Internet subterrânea seja três ou
mais vezes maior do que a Internet "visível".
|
|
|