NOTÍCIAS NOVEMBRO / 2003

Aprenda a investigar a selva de informações online

Renato Rodrigues
Editor-Assistente de Mundo Digital

Nunca na história da humanidade tanta informação foi produzida. A cada dois anos, cada habitante do planeta produz 800 MB de informação digital -mais do que cabe em um CD inteiro. De 2000 para 2003, o número de informações novas cresceu 30%. Todos os habitantes do planeta geraram informação digital nova suficiente para lotar 500 mil bibliotecas do congresso nacional dos EUA, a maior do mundo. São impensáveis 5 bilhões de gigabytes de dados, ou 5 petabytes. Como achar qualquer informação nessa montanha de dados?

Os melhores guias para essa selva são os sites de busca (search engines, em inglês)". Na verdade, eles nada mais são do que gigantescas listas de endereços virtuais. Eles catalogam sites inteiros, com todas as páginas. Quando o internauta digita um ou mais termos na caixa de busca, um programa de computador caça essas palavras no banco de dados do buscador. Esse software -chamado de engine (motor)- é o núcleo do site de busca.

Atualmente, o mais poderoso -e popular- buscador da Internet é o Google, com mais de 3 bilhões de documentos em seu banco de dados (vide figura abaixo). De acordo com uma pesquisa da One Star, empresa de estatísticas sobre a Web, o Google é usado por 55,2% dos internautas -mais do que o dobro da soma do segundo colocado (Yahoo!, 21,7% e MSN Search, 9.6%). Mas memo o Google não é a solução universal para todas as dúvidas online. Conforme a pesquisa, é melhor usar outros sites.

Na verdade, os buscadores mais comuns e famosos não vasculham a Internet toda. Eles investigam a base de dados com todo o texto das páginas selecionadas entre bilhões de outras. Quando o internauta usa um buscador, ele está na verdade procurando em uma espécie de cópia estática da página que realmente está no ar. Ao clicar em um link na lista de resultados, a versão mais recente da página é baixada do servidor onde está alojada.

As bases de dados dos buscadores são selecionadas e construídas por programas de computador chamados "spiders" (aranhas). Embora seja dito que elas rastejam pela Web caçando páginas, na verdade as aranhas não saem do lugar. Elas encontram páginas que podem ser cadastradas seguindo os links de páginas que já estão no banco de dados do buscador. As aranhas não pensam em um assunto e vão pesquisar o que há na Internet sobre ele.

Se uma página nunca foi "linkada" a qualquer outra, as aranhas não podem encontrá-la. O único modo de uma página recém-criada passar a fazer parte do banco de dados de um buscador é se uma pessoa enviar o endereço (URL) para o serviço. Os principais buscadores oferecem modos simples de se fazer isso.

Depois de encontradas pelas aranhas, as páginas são passadas para outro programa de computador para a indexação. Este software identifica texto, links, e outros conteúdos na página e arquiva esses dados no banco do buscador, de modo que ela seja achada rapidamente pelo internauta que faz uma busca com termos que existam nessa página. No entanto, às vezes esse tipo de busca produz toneladas de resultados, o que exige o uso de alguns truques para tornar a pesquisa mais precisa e mais rápida.

Alguns tipos de páginas e links são excluídos da maioria dos buscadores devido à políticas de conteúdo. Outros sites ficam de fora porque as aranhas não conseguem acesso a eles. Essas páginas "ocultas" para os grandes buscadores fazem parte do que se chama de "Web Invisível". Estima-se que essa Internet subterrânea seja três ou mais vezes maior do que a Internet "visível".

Arquivo de Notícias>> clic

mais noticias... clic

e-mail

Home