Em outros artigos nesta coluna, tive a oportunidade de contar para o leitor sobre os vários catálogos e índices existentes na própria WWW, que podem nos ajudar a localizar a informação desejada. Existem centenas deles, e realmente eles se tornaram uma nova "praga", pois não bastasse a multiplicação da informação na Internet, agora são os índodes e catálogos que se multiplicam, dificultando a vida do usuário, ao invés de ajudar. O motivo para isso é que está acontecendo uma verdadeira "guerra de índices", por dois motivos: primeiro, briga por verbas publicitárias; em segundo, por questão de prestígio técnico.
A briga por verbas publicitárias tem suas razões de ser. Os índices do tipo Yahoo!, Altavista e Excite (os três mais visitados) recebem milhões de acessos por dia. O Altavista, montado pela empresa americana Digital Equipment, a segunda maior empresa de computadores do mundo, recebe mais de 17 milhões de acessos por dia ! É um número absolutamente estarrecedor, e deve deixar babando qualquer gerente de publicidade. Imaginem um anúncio de qualquer coisa ser visto por 17 milhões de pessoas por dia (e são pessoas de um bom nível aquisitivo, por definição).
Seguindo uma tradição da Internet que não deve se modificar, todos esses índices têm acesso gratuito, portanto eles têm que se manter através dessas verbas. Mas outro motivo interessante pela intensa competição entre os índices é a questão do prestígio técnico e científico. Isso se explica pelo fato de que alguns dos mecanismos de busca mais conhecidos, como o Lycos e o Excite, terem sido desenvolvidos por grupos acadêmicos (o Lycos, um dos melhores índices, foi desenvolvido por um grupo da Carnegie-Mellon University, de Pittsburgh, EUA, virou tese de doutoramento, e depois se transformou no principal produto de uma empresa associada à Universidade).
Realmente, o problema de busca de informação na Internet é muito complexo do ponto de vista técnico. Primeiro pelo enorme volume de informação. Segundo, pelo fato de que toda essa informação só pode ser indexada através de palavras existentes no próprio documento (texto livre). Essa situação gera pesadelos tecnológicos, pois não existe a possibilidade de utilizar o que os cientistas de informação chamam de "tesaurus", ou seja, um dicionário, ou vocabulário controlado e fechado, sem sinônimos, de indexação da informação (alías, nem daria para usar um, devido ao enorme crescimento diário da informação disponibilizada).
Assim, é necessário usar esquemas que se baseiem em linguagem natural, com todas suas complexidades. Só para dar um exemplo, digamos que o leitor esteja interessado em achar informação sobre o efeito do exercício sobre a saúde das pessoas. Não basta utilizar, na busca, palavras genéricas, como saúde, exercício, etc., pois não há nenhuma garantia prévia de que o autor de um determinado documento as tenha utilizado. Ele poderia ter usado palavras mais específicas, tais como "cooper", "doença cardíaca', etc. Nesse caso, documentos altamente relevantes, mas que não têm as palavras chave usadas pelos autores, não seriam achados...
Assim, surgiram índices semânticos, ou seja, que não utilizam apenas uma busca simples usando as palavras-chave especificadas pelo usuário, mas que também procuram especificar o assunto de maneira mais completa e precisa, através do uso de chaves classificatórias hierárquicas (por exemplo, "prevenção de infarto" automaticamente evoca uma busca das palavras "doenças cardíacas", "colesterol", etc. Diversos índices mais modernos, como o próprio Excite, o OpenText, o Inktomi (usado no serviço HotBot), etc., fazem uso dessa tecnologia, e fazem alarde dos seus melhores resultados, em comparação com índices do tipo "força bruta", como o Altavista.
O problema é sério, e a medida que a Internet expande, a guerra entre os índices vai continuar. São raros os casos de cooperação, como o Yahoo!, qu decidiu usar o mecanismo de busca do Altavista.