Os IGNORANTES, que acham saber tudo, privam -se de um dos maiores prazeres da vida: APRENDER.

OS MECANISMOS DE BUSCA INTERNACIONAIS

 

 Prof. Gilberto Teixeira

 
I – Apresentação
 
Neste texto apresentaremos os melhores mecanismos de busca internacionais. Selecionamos apenas seis, pois eles apresentam as principais funções e características encontradas em muitos outros.
Os mecanismos de busca selecionados foram: Alta Vista, Excite, HotBot, Infoseek, Lycos e Northern Light.
Primeiramente apresentamos uma tabela de comparação com as principais funções disponíveis em cada um. Veja a tabela e acompanhe, em seguida, o texto descritivo de cada um.
Comparações entre os mecanismos.                                                                                                         
                                                                                                                                                                    
 
Mecanismos
Northern Light
Alta Vista
HotBot
Infoseek
Lycos
Excite
 BANCO DADOS
 
 
 
 
 
 
# de páginasWeb
200 milhões
200 milhões
110 milhões
75 milhões
50 milhões
150 milhões
Full –text
Sim
Sim
Sim
Sim

Sim

Sim
Operadores
Para adição
+
+
+
+
+
+
Para exclusão
-
-
-
-
-
-
Pesquisar frases
Aspas “”
Aspas “”
Aspas “”
Aspas “”
Aspas “”
Aspas “”
Truncamento
Múltiplo, *,
Um %,
Hastes em
Plural
Asterisco *
Asterisco *
A partir do
formulário
Hastes
Hastes
Não
Booleano
AND, OR,
NOT, ( )
Somente
Em pesquisa
Avançada:
And, or, and
Not, near, ( )
AND, OR,
NOT, ( )
Somente
Em pesquisa
Avançada
(modelo de
usos)
AND,OR,
NOT, ADJ,
NEAR,
FAR,
BEFORE
AND, OR,
AND NOT,( )
Operador
Booleano padrão
AND
OR
AND
OR
AND
OR
Letras maiúscula
Não
Sim
Sim
Sim
Não
Não
Campos de pes-
quisa
Title:text:url:
Title:domain:
Link:image:
Text:url:host:
Anchor:applet:
Title:domain:
Several
Feature:
formato
Title:alt:
Link:url:
Site:
Não
Não
Característica
especiais
Limite pela
Data,
Posição(ões),
Classificação
Por data,
Personalização
De pastas.
Limite pela
Data,
Posição (ões),
Idioma,
Detecção
Automática
De frase,
Buscas
Relacionadas.
Limite pela
Data, posição,
Tipo de mídia,
Tipos de
Arquivo,
Resultados
Agrupados,
Buscas
Relacionadas.
 
Limite pela
Posição,
Refina os
Resultados
Agrupados,
Classificação
Por data,
Pesquisas
Relacionadas
Localiza similar.
Limite por
Título,
Imagens,
Sons, URL,
Idioma,
Localiza
Similar.
Concepção
De pesquisa
Com sugestão
De termos,
Localiza
Similar.
Ponto forte
Personalização
De pastas,
Modelo de
Pesquisa
Avançada.
Melhor sintaxe
De pesquisa,
Banco de dados
De imagem,
Tradução.
Pesquisa de
Tipos de
Arquivos,
Modelo de
Pesquisa
Avançada
Notícias atuais
E especiais.
Modelo de
Pesquisa
Avançada.
Pesquisa
De imagens
E sons,
Modelo de
Pesquisa
avançada
Buscas em
Canais de
Notícias ―
Mais de
300 fontes
 
II – Alta Vista: www.altavista.digital.com
 
2.1 Abrangências
 
O Alta Vista é um dos maiores e mais detalhados sistema de busca, sua indexação está acima de 250 milhões de páginas Web. Os robots fazem um trabalho de atualização constante. É um deslocamento predeterminado full-text que procura em arquivos HTML.
 
Interface
 
O AltaVista possui cinco guias para busca de conteúdo.
 
3Search   Busca simples. Apresenta quatro possíveis locais da Internet para busca:
        3The Web   Na Web
        3News   Nos grupos de notícias
        3Discussion Groups   Grupos de discussão
        3Products   Em categorias de produtos
3Advanced Search   Busca avançada
3Images   Busca imagens
3MP3/Áudio    Busca arquivos de áudio
3Vídeo   Busca arquivos de vídeo
 
Entre os registros conhecidos de um sistema, são procurados os termos que vão de encontro aos locais registrados na Web, dos tipos de nomes a banners publicitários. Uma ligação real do endereço é indicada acima de outras opções e fará a ligação a um único registro ou a uma lista curta de possíveis registros. (Não use os símbolos de adição (+), subtração (-) ou de campos que deixarão incapacitados os resultados.) A opção Ask Jeeves fornece a informação do serviço de resposta, as categorias relevantes de locais da Web, classificados como um diretório aberto, e as listas numeradas, que fornecem o volume dos resultados.
 
A pesquisa avançada pode limitar sua busca a data, operadores booleanos e por proximidade. As buscas simples e avançadas são limitadas ao título, URL ou mesmo ao domínio ou ao site Web especificado.
Você pode especificar um formato para o campo de entrada com um nome do campo [title,URL,host, anchor,links,applet,image ou text das ligações, por exemplo] seguido por dois pontos e pelos termos da busca.
 
2.2 Outros serviços
 
As pesquisas podem ser feitas em até 25 idiomas relacionados, até mesmo em japonês, chinês e coreano, que são as inclusões mais recentes. A tradução computadorizada está disponível em inglês, francês, italiano, português, alemão e espanhol. Mais três especialidades de  procura por opções abaixo da caixa de procura estão incluídas: News (Notícias), para históricos das notícias principais entre seis horas e os últimos 14 dias; Discussions (Discussões), para localizar grupos de discussão; e Shopping, para localizar produtos com grande relevância para comércios eletrônicos.
 
2.3 Operadores lógicos
 
Em uma pesquisa simples, a palavra padrão é OR entre as palavras.
Em pesquisa avançadas é permitido a utilização da força dos operadores booleanos OR, AND, NOT e NEAR.
Pesquisa frases que têm a inclusão de aspas.
O truncamento não é automático; ou seja, para obter plurais ou outras variações inclua no término das palavras o caractere asterisco (*) ― após uma raiz de pelo menos três letras.
Requer o caractere  +  para que um termo ou palavras esteja presente ― denota que um termo não deva estar presente. Usando letras em maiúscula (exemplo: CAPITAL) força as palavras para uma busca exata. Em letra minúscula procurará tanto uma como a outra.
 
2.4 Resultados
 
Nos resultados são exibidos os conteúdos do tag TITLE; URL; as primeiras duas linhas; data de atualização; tamanho da página em bytes e idioma. Uma única página Web é apresentada nos resultados por site. Abaixo de cada item numerado podem ser visualizadas até ligações: Translate, para traduzir para outro idioma; More Pages From This Site apresenta informações relacionadas ao tópico selecionado; e Company Factsheet apresenta informações sobre a empresa que possui um site. Se o seu assunto é amplo, selecione Related Searches, o qual pesquisará os aspectos e as característica do termo na parte superior da página de resultados. O Alta Vista faz a frase de procura automática para sua escolha.
III   EXCITE : http://www.excite.com
 
3.1 Abrangências
 
Possui cerca de 250 milhões de páginas Web indexadas com conteúdos generalizados e índices de notícias da Usenet. Além de oferecer variados assuntos, mantém cerca de 150 mil fontes de dados em detalhe.
 
3.2 Interface
 
A página de pesquisa Power Search é baseada em formulários, nos quais você faz buscas rápidas com a utilização de operadores booleanos. Você pode especificar quantos resultados de busca deseja e onde quer que seja localizado. São apresentados 11 idiomas ou pode-se fazer a busca em uma extensa lista de países.
 
O Excite é um excelente conceito de pesquisa: pode prover de sites para condições mais específicas do que os originalmente encontrados e de links de páginas com assuntos semelhantes para que o conteúdo possa ser verificado. Também, digitando certas palavras-chave, você pode Ter acesso a companhias públicas/comerciais, equipes esportivas e ligas, espetáculos de televisão, cidades e estados, faculdades e universidades, automóveis, bandas de música, artistas, álbuns e muitas outras categorias.
 
3.3 Operadores lógicos
 
3Os caracteres + e – antes das palavras indicam que uma condição pode ser incluída ou eliminada completamente.
3O caractere OR é o padrão, mas também podem ser usados AND e AND NOT. Este último, quando você necessitar de uma condição em que todas as letras devem ser em maiúsculas.
3O sistema de busca reconhece letras maiúsculas em palavras de nomes próprios.
3Em uma pesquisa booleana ponha os nomes entre aspas.
3Os termos são automaticamente procurados como prefixos de palavras ou raízes. Aninhando o termo 1 com o termo 2 ou o termo 3, e assim sucessivamente.
 
3.4 Resultados
 
Tem melhores resultados na localização de recursos amplos e tópicos populares. Para alternar entre locais semelhantes é usada a opção More Like This. As exibições dos registros incluem título, URL, resumo breve e relevância, com resultados em porcentagem exibidos em ordem decrescente. Você pode escolher entre exibir os resultados agrupados por sites Web ou somente os títulos.
 
Ao elaborar uma pesquisa e obter os resultados, você poderá facilitar a exibição dos registros por meio de duas opções: Titles Only e Web Results. Escolhendo a primeira, serão exibidos 40 registros por página, com a amostragem apenas dos títulos das páginas. A segunda opção exibe dez registros com os resumos da página.
 
IV-HOTBOT   http://www.hotbot.com
 
4.1 Abrangências
 
Sua ferramenta de pesquisa possui cerca de 110 milhões de sites indexados. Provê de uma coleção de características em uma única interface. Sua atualização e a reindexação dos sites provê de informações mais atualizadas do que outros mecanismos de busca.
 
4.2 Interface
 
Sua pesquisa com base nos formulários permite que você modifique um termo de procura nas caixas de lista suspensa. Escolhendo as opções avançadas de procura, mais escolhas de filtros são obtidas. A procura a domínios específicos (como .com ou .org) é limitada a locais geográficos, escolhas específicas de tipos de mídia e tecnologias, períodos de tempo e profundidade do assunto de uma determinada página. O HotBot oferece um limite de nove idiomas de pesquisa, outro para página pessoal e uma caixa de seleção para palavras nas quais um termo de procura poderá prover informações a serem localizadas.
 
4.3 Operadores lógicos
 
3Para truncar palavras use o asterisco (*).
3Permite especificar uma frase de procura ou pode-se usar aspas em uma frase.
3O botão Must Not elimina os termos não desejados.
3A caixa de seleção Should instrui o mecanismo de busca a dar mais ênfase a determinado termo.
3Os operadores booleanos de pesquisa compatíveis estão disponíveis no menu de opções ou poderão ser usados os termos AND, OR e NOT.
3Inicia a partir da utilização de qualquer caractere em maiúscula com condições de procura.
3As opções de data não elaboram pesquisas em documentos mais antigos ou mais recentes que a data especificada, ou no conteúdo adicionado nos últimos dias, meses ou anos.
3Podemos pesquisar tecnologias específicas em páginas que possuem Java, JavaScript, VRML (3D), Acrobat, Shockwave, ActiveX, MP3, áudio, vídeo. Os arquivos de imagem são encontradas em busca avançada. Você também pode procurar por tipo de arquivo através de um sufixo, como GIF.
3Você pode procurar por .edu para adquirir instituições educacionais.
3Há opções de procurar por siglas de países, como .br para  Brasil, ou por nome de domínio atual de um local específico na Web.
3O botão de localização permite que se selecione continentes ou países para servidores Web nesses locais.
 
Os resultados relevantes são baseados em diversos fatores: frequência de palavras, número de vezes que uma palavra aparece no título, palavras documentadas e tamanho do documento. Os sites duplicados são apresentados somente uma vez nos títulos, mas todos URL’s são determinados. Você pode fazer sua busca com resultados somente dos URL’s: com descrição breve, inclusive no título e sumário; descrição total, inclusive no título; resumo e relevância que enfileira os incrementos dos URLs de 10, 25, 50 ou 100 registros.
 
As descrições são obtidas por meio das tags <meta> ou títulos. Uma lista dos dez locais mais visitados em seu tópico é exibida. Esses dez melhores registros são incorporadas ao Direct Hit (itens diretos) das pesquisas regulares, se a produção é fixada a dez e está disponível em Direct Hit.
 
V – Infoseek:  - www.infoseek.com
 
5.1 Abrangência
 
Com 75 milhões de sites em full-text, ele é considerado uma das melhores ferramentas de procura possuindo velocidade em apresentação nos resultados, relevância e agilidade.
 
Você pode definir onde deseja pesquisar na caixa Search. As escolhas são:
 
3The Web   Um índice inclusive de locais da Web.
3Topics   Um diretório escolhido sobre qualidade e sites Web.
3News   Uma coleção das mais recentes notícias.
3Companies   Breves resumos das principais companhias.
3Newsgroups   Mensagens, conteúdo dos grupos de notícias e discussão da Usenet.
 
5.2 Interface
 
Sua pesquisa limita seus conteúdos na Web, grupos de discussão da Usenet, diretórios de companhias, notícias diárias ou tópicos. Na forma de pesquisa avançada, apresenta um menu de lista suspensa para buscas atarvés do título do documento, URL ou vínculos; provê termos que devem ou não conter certas palavras; designação de palavra, frase ou nome; pesquisa em toda a Web ou canais de assuntos, ou nos domínios. Em pesquisa por nomes próprios, passe para letra maiúscula as palavras; porém, isso faz com que os primeiros e últimos nomes fiquem ordenados. Vá até as opções suplementares e inclua um tipo de idioma; por intermédio do local geográfico, procura por notícias e diretório de tópicos populares.
 
 
 
5.3 Operadores lógicos
 
3O operador padrão de pesquisa booleano é o OR, mas oferece também variações como AND e NOT.
3Para pesquisa por frases basta incluí-las entre aspas.
3Use o caractere + para indicar uma palavra ou frase que deverá Ter ênfase ou estar inclusa; e o caractere – para excluir uma palavra ou frase.
3O truncamento de palavras é automático: a palavra original também é usada.
3As pesquisas são do tipo caso sensitível (localiza a informação como ela foi escrita); deixe em letra maiúscula ou minúscula os nomes e insira uma vírgula entre nomes diferentes.
 
5.4 Resultados
 
Até 50 itens podem ser exibidos por pesquisa na lista de resultados por relevância. Sua exibição inclui o título do documento, URL, tamanho em bytes, contagem de relevância e um resumo gerado pelo computador.Você também pode usar as opções Find Similar Pages, para localizar apenas páginas semelhantes; Translate this Page, para traduzir o conteúdo para outro idioma; Ungroup Results, obtém resultados por meio de sites com a mesma localização; Hide the Summaries, oculta os resumos; e Sort by Date, ordena os resultados por data.
 
São apresentados resultados registrados pelos sites, mas você tem a opção para visualizar as outras páginas do mesmo site. Go Now sugere a busca de frases mais específicas.
 
Ao elaborar e executar sua pesquisa, o sistema de busca apresenta uma exibição padrão para todos. Porém, você pode personalizar como deseja visualizar os registros.
 
VI – Lycos:   http://www.lycos.com
 
 
6.1 Abrangência
 
É um dos sistemas de busca mais abrangente nas pesquisas. O Lycos é mantido por uma relevância forte na capacidade de classificação, provendo uma mistura de características.
 
Como é a tendência de todos os sistemas de busca principais, o Lycos também é uma mistura heterogênea de bancos de dados, serviços on-line e outras propriedades da Internet. São promovidos os 5 por cento dos melhores sites com revisões e ligações imediatas para imagens e sons, inclusive arquivos MP3 para serem transferidos. Para completar a informação acessada pelos sistemas de busca, ele inclui em seu catálogo Web invisível mais de sete mil recursos de procura especiais. Os usuários podem seguir os vínculos providos de resultados de procura para um tópico. Com o clique em um vínculo, pode-se acessar as informações em bancos de dados que estão invisíveis para alguns search engines.
 
6.2 Interface 
 
A interface avançada inclui numerosas opções para que a lógica de pesquisa seja criada e modificada. Você pode especificar quais os resultados que devem estar inclusos nas condições de sua pesquisa, nos títulos das páginas Web, na URL ou na localização de informações completas ou parciais em um determinado site Web; e usar as estratégias de colocações de proximidade e frequência da palavra para refinar uma pesquisa.
 
Existem 15 idiomas que podem ser especificados para pesquisa.
6.3 Operadores lógicos
 
O operador booleano padrão é AND.
Na interface avançada você pode especificar os operadores booleanos AND, OR e NOT entre as palavras.
Usar o caractere – antes das palavras ou termos, faz com que eles sejam excluídos da pesquisa.
Usar o caractere + antes de uma palavra ou termo, fará com que eles sejam incluídos.
Para relações de termos entre palavras utilize ADJ, NEAR, FAR ou BEFORE.
 
6.4 Resultados
 
O sistema de busca provê resultados agrupados por sites, URL, título e um breve resumo, mas nenhuma opção para agrupar o total dos resultados. Após a procura inicial, você pode clicar em uma das várias opções: categoria inicial do diretório de assunto; multimídia ou vínculos para compras de livros.
 
Após a pesquisa, os resultados são divididos em três categorias: News Articles, Web Sites e Popular.
 
 
 
 
 
VII – Northern Light: www.northernlight.com
 
7.1 Abrangência
 
É um dos mais recentes sistemas de busca e possui uma grande habilidade para classificar documentos através de tópicos e organizá-los em pastas, a partir de uma procura feita. Possui um dos maiores bancos de dados com cerca de 189 milhões de artigos, e está crescendo rapidamente.
 
Possui um conjunto de documentos denominados Special Collection (coleções especiais), com aproximadamente 5500 fontes, entre elas, revistas e bancos de dados. Ao se fazer uma pesquisa utilizando a opção Search the Special Collection Only no menu principal, é apresentado uma bibliografia com os resumos para o assunto pesquisado. Se o resultado obtido for relevante, o internauta pode optar em ler o artigo em full-text, para isso terá de pagar uma taxa que pode variar entre 1 e 14 dólares, conforme o assunto.
 
7.2 Interface
 
O Northern Light organiza todos os resultados obtidos para uma procura em pastas denominadas Custom Search Folders, classificando-os por assunto, tipo, fonte e idioma. Essas pastas não são visíveis, porque sua exibição se dá como os outros diretórios da Web, mas são únicas a cada procura.
 
Toda vez que você executa uma procura no Northern Light, é criada uma série de pastas denominadas Custom Search Folders com base no termo de procura. Dentre elas destacamos o assunto, o qual é nomeado com base em ocorrências pelas palavras utilizadas.
 
As pastas ordenadas por fonte têm como base o tipo de domínio, o host, as páginas pessoais ou a publicação específica no banco de dados das Special Collection.
 
Tipo de documentos é a ocorrência menos encontrada. Geralmente é o último tipo de conteúdo que aparece na lista de pasta, através de idioma.
 
Dentro das pastas podem haver subpastas quando o assunto for muito extenso.
 
Os outros principais campos para pesquisa disponível são URL, Title, pub e textos seguidos por dois pontos.
 
7.3 Operadores lógicos
 
Na pesquisa o operador padrão entre as palavras é AND.
Os termos booleanos OR e NOT podem ser inseridos entre as palavras ou frases em citações.
Para procurar por frases insira aspas em torno de cada frase.
O truncamento das palavras é automático. Você deve usar o caractere asterisco (*), mas serão procurados plurais com entrada de palavras singulares. O caractere % pode representar um único caractere, uma palavra, ao meio da palavra ou ao término da mesma, após um mínimo de quatro caracteres digitados.
O caractere + antes das palavras ou frases entre aspas indica que elas devem estar incluídas; usar o caractere ― indica que elas devem ser excluídas.
 
 
 
 
 
7.4 Resultados
 
São apresentados dez registros de cada vez em uma pesquisa.
Esse sistema de busca apresenta o título do documento, o tipo de local da Web ou documento, resumo, fonte e URL. Os resultados são agrupados por local e publicação. Uma lista de pastas suplementares é incluída no lado esquerdo de Special Collection junto com o primeiro item que você procurou.
 
VIII – Diretórios
 
8.1 Yahoo!: < www.yahoo.com>
 
8.2 Galaxy: < http://galaxy.
 
8.3 Magellan: < www.mckinley.com/
 
Magellan fornece avaliações e revisões de mais de 60.000 sites da Web. Ao pesquisar uma palavra-chave, ele fornecerá uma breve descrição dos sites que surgirem. Você pode pesquisar o banco de dados inteiro, ou limitar sua pesquisa a sites revisados.
Se você escolher a opção “Green Light Sites”, poderá direcionar sua pesquisa para sites de alta qualidade. Isso pode economizar um tempo valioso, se você estiver procurando bons recursos de assunto para projetos educativos. Um sistema semelhante, o qual oferece avaliações e revisões, é o Britannica Internet Guide em http://www.ebig.com/.
 
 
IX – Bibliotecas virtuais ( virtual libraries)
 
9.1 Argus Clearinghouse: < www.clearinghouse.net >
9.2 Infomine: < http://libwww.ver >
9.3 Internet Public Library: < www.ipl.org
9.4 Librarian’s Index to Internet: < http:// sunsite.berkeley.edu/internetindex >
9.5 Web Virtual Library: < http://vlib.stanford.edu/overview.htm
 
 
 
X – Meta Search Engines
 
10.1 All-In-One: < www.albany.net/allinone
10.2 Isleuth: < www.isleuth.com >
10.3 DogPile: < www.dogpile.com >
10.4 Cyber 4II: < www.cyber4II.com >
10.5 Savvy Search: < www.savvy.com >
10.6 Meta – Crawler: < www.metacrawler.com>
10.7 Beaucoup: < www.beaucoup.com>