L'anatomie d'un moteur de recherche Web hypertexte à grande échelle
Le Web crée de nouveaux défis pour l'information
récupération. La quantité d'informations sur le Web est
croît rapidement, ainsi que le nombre de nouveaux utilisateurs
inexpérimenté dans l'art de la recherche sur le Web. Les gens sont
avec des indices humains de haute qualité tels que
comme Yahoo! 3 ou avec des moteurs de recherche. Humain maintenu
les listes couvrent efficacement les sujets populaires mais
subjectif, coûteux à construire et à entretenir, lent à
s'améliorer et ne peut pas couvrir tous les sujets ésotériques. automatique
moteurs de recherche qui s'appuient sur la correspondance des mots clés
retournent généralement trop de correspondances de faible qualité. Faire
pire, certains annonceurs tentent de gagner
attention en prenant des mesures visant à induire en erreur
moteurs de recherche automatisés. Nous avons construit une grande échelle
moteur de recherche qui résout de nombreux problèmes
des systèmes existants. Il fait particulièrement usage de
la structure supplémentaire présente en hypertexte pour fournir
des résultats de recherche de bien meilleure qualité. Nous avons choisi notre système
nom, Google, car c'est une orthographe courante
de googol, ou 10100 et correspond bien à notre objectif de
construire des moteurs de recherche à très grande échelle.
La technologie des moteurs de recherche a dû évoluer considérablement
pour suivre la croissance du Web. Dans
1994, l'un des premiers moteurs de recherche Web, le monde
Wide Web Worm (WWWW) [6] avait un indice de
110 000 pages Web et documents accessibles sur le Web.
En novembre. 1997, les meilleurs moteurs de recherche affirment
indexer de 2 millions (WebCrawler) à 100 millions
Documents Web (de Search Engine Watch4). Il
il est prévisible qu’en l'an 2000, un
index du Web contiendra plus d'un milliard
documents. Dans le même temps, le nombre de requêtes
le traitement des moteurs de recherche a également augmenté considérablement. Dans
Mars et avril 1994, le World Wide Web Worm
a reçu en moyenne environ 1 500 requêtes par jour.
En novembre 1997, Altavista a affirmé avoir traité
environ 20 millions de requêtes par jour. Avec l'augmentation
nombre d'utilisateurs sur le Web et automatisé
systèmes qui interrogent les moteurs de recherche, il est probable que
les meilleurs moteurs de recherche géreront des centaines de millions
de requêtes par jour d'ici l'an 2000. L'objectif de notre
système consiste à résoudre bon nombre des problèmes,
qualité et évolutivité, introduites par une recherche évolutive
la technologie du moteur à ces nombres extraordinaires.
Commentaires sur le sujet