Indice de Artigos

O caminho das pedras

Renato M.E. Sabbatini


A Internet tem um problema muito sério: a enormidade das informações nela disponíveis. E que cresce a uma velocidade exponencial. Tem tanta coisa, que fica praticamente impossível procurar algo sem o auxílio de índices e de serviços de busca especializados. Sem eles, é mais ou menos como estar perdido em uma biblioteca gigantesca, na forma de um labirinto, sem nenhuma indicação da ordem ou da lógica em que os livros estão armazenados.

Reconhecendo a natureza do problema, as instituições que inventaram a Internet, desde o começo procuraram criar "listas de listas", "listas amarelas", "listas brancas", bases de dados de recursos, etc., que facilitam a vida de quem está procurando informações sobre algum assunto específico na Net. Por exemplo, existe na Internet um recurso chamado InterNIC (International Network Information Center), que centraliza uma grande quantidade dessas informações. Usando o comando TELNET INTERNIC.NET é possível acessar-se esses serviços, inclusive os utilissimos ARCHIE (para procurar arquivos pelo nome), NETFIND e WHOIS (para localizar os endereços de nodos e de usuários), etc.

A WWW (World Wide Web), especialmente, com seu crescimento alucinante (está na ordem de 8.000 % ao ano), criou novos problemas de indexação, ao mesmo tempo proporcionando mecanismos semiautomáticos e automáticos de busca e indexação, que são facilitados por sua própria natureza.

Explicando melhor: na Web, cada pedacinho de informação (uma homepage, um arquivo, um diretório, etc.) recebe um endereço identificador único, chamado de URL (Uniform Resource Locator, ou localizador uniforme de recursos). Documentos existentes na Web podem fazer referência a outros URLs, esses a outros, e assim por diante, criando efetivamente a enorme "teia" de informação que caracteriza a WWW. Além disso, é possível atribuir um título a cada página, de modo que programas automáticos, chamados robôs, ou aranhas, podem "navegar" pela WWW, explorando cada vínculo de URL existente nas páginas e catalogando os novos que forem encontrados.

Os robôs e aranhas têm um inconveniente, porém. Como eles caminham meio "às cegas", sendo dotados de pouca inteligência, o número de URLs que catalogam é astronômico. O maior deles, recém-lançado pela empresa Digital Equipment Corp. (endereço URL: http://www.altavista. digital.com), indexa cerca de 16 milhões de URLs, e seu índice central, que cataloga e referencia simplesmente todas as palavras existentes em cada página, tem 8 bilhões de ítens. A indexação é a tal ponto completa, que a própria Digital recomenda usar o Altavista para "localizar amigos perdidos". Outra coisa que chama a atenção no Altavista é a impressionante velocidade. Buscas que geram 40 a 50 mil referências são feitas em alguns segundos.

O software e o hardware que Altavista está utilizando são simplesmente fenomenais, com 100 vezes mais velocidade do que serviços similares, como o WebCrawler, WebNomad, WebWorm, Lycos, etc. Concluindo: os robôs e aranhas são úteis para localizar ítens raros de informação, mas não têm a inteligência classificadora do ser humano embutida. Uma alternativa mais racional, então, são os índices temáticos. São sistemas que não buscam automaticamente a informação, mas catalogam seletivamente, com base em registros on-line, feitos pelos próprios usuários. Existem vários como o GNN (Global Network Navigator), o EINet Galaxy, etc., mas o mais interessante e bem feito de todos (na minha opinião) é o YAHOO! (endereço: http://www.yahoo.com), que tem um índice hierárquico completíssimo. Este serviço, operado por uma empresa particular, que vive de vender espaço publicitário em suas páginas, é oferecido gratuitamente para todos os usuários da WWW, e tem alguns milhões de acessos por dia (está entre os cinco URLs mais usados da Internet).

Finalmente, existem os índices especializados em áreas específicas do conhecimento. Em minha área, por exemplo (Medicina), existem o Medical Matrix (http://www.medmatrix.org), o MedWeb (http://www.medweb.com), o Virtual Medical Center (http://www-lib.uci.edu), o índice médico e biológico de Harvard (http://www.golgi.harvard.edu), e vários outros. Já estão surgindo índices ultra-especializados, como um que conheço, chamado PLINK, dedicado exclusivamente à cirurgia plástica. A tendência é que eles aumentem muito na Net.


Publicado em: Jornal Correio Popular, Campinas,

Autor: Email: sabbatin@nib.unicamp.br
WWW: http://www.nib.unicamp.br/sabbatin.htm Jornal: cpopular@cpopular.com.br


Copyright © 1996 Correio Popular, Campinas, Brazil