Le pagerank de Google et au-delà: la science des classements des moteurs de recherche
première scène .. Californie, 1998. Jon
Kleinberg, un jeune scientifique
/ Travailler chez IBM Almaden Research
Center dans la Silicon Valley, présente
ses HITS (Hypertext Induced
Topic Search).
Presque simultanément,
Presque simultanément,
à proximité Stanford Univer
ville, deux doctorants en informatique,
Sergey Brin et Larry Page, sont
mettre la touche finale à leur
L'algorithme PageRank, un futur composant central
du moteur de recherche de Google. Tous les deux
les projets reposent sur un
idée: utiliser la structure d'hyperlien de
le Web pour améliorer un moteur de recherche
résultats.
Deuxième scène: Madrid-Mountain
View, Californie, 2006 (mêmes caractères).
Kleinberg, maintenant professeur à
Cornell University, reçoit le Rolf
Prix Nevanlinna à l'International
Congrès des mathématiciens de Madrid.
Brin et Page, assis dans leurs bureaux à
Le siège de Google, complotent
de nouveaux gadgets google pour ravir les
immense foule de googlemaniacs.
Pas beaucoup de temps sépare ces deux
scènes, mais il suffisait de con>
révolutionner complètement la façon dont nous utilisons
la toile. Google est devenu la norme
pour la recherche sur le Web. Son impact a
est allé bien au-delà du monde de la technologie;
il imprègne notre vie quotidienne.
Bien que le travail de Kleinberg n'ait pas été
si bien développé commercialement,
cela lui a valu la reconnaissance
de la communauté mathématique
avec la Nevanlinna susmentionnée
Prix, décerné "pour contributions exceptionnelles
dans les aspects mathématiques de l'information
Science."
Le livre à l'examen donne un aperçu complet
aperçu de l'état de l'art
technologie des moteurs de recherche web,
mettant un accent particulier, comme le titre
suggère, sur les procédures de classement.
Un moteur de recherche est conçu pour
effectuer plusieurs tâches. Tout d'abord, il recueille
les informations contenues dans la myriade
pages du Web ("exploration", dans le
jargon). Ensuite, toutes ces informations sont
stocké, compressé et traité pour
construire des index de contenu. Vient enfin
l'interaction avec l'utilisateur.
Lorsqu'un
Lorsqu'un
l'utilisateur tape une requête que le moteur doit trouver
dans les index les pages qui contiennent
informations pertinentes et doit montrer
ce résultat sous la forme d'une liste ordonnée. Maintenant
vient le point clé, peut-être le plus
ingrédient important de la recherche
processus: dans quel ordre les informations
être affichée? C'est désirable,
même essentiel, que la plupart du temps le
l'utilisateur peut trouver le plus pertinent
informations dans, disons, les 10 ou 20 premiers
pages affichées.
L'ampleur du problème est énorme.
Il y a des milliards de pages sur
le web, avec une moyenne estimée
taille de la page de 500 Ko, et tous ces
les chiffres augmentent de jour en jour. le
le web est également dynamique: la plupart des pages
modifier régulièrement leur contenu
et des millions de pages sont ajoutées (ou
disparaître) chaque année. Le moteur, de
bien sûr, doit répondre aux questions en temps réel
temps!
Commentaires sur le sujet