Difficultés liées au rythme de parcours du robot
Paramétrage des robots collecteurs
Tout moteur de recherche fonctionne avec un module de collecte automatique des ressources (spider, crawler, worm), qui procède à une exploration à fréquence régulière des serveurs web ou autres.
- A partir d'un ensemble donné de pages initiales, le robot explore les réseaux de liens du web et parcourt les différentes ressources de l'Internet (sites web, forums, etc.), constituant le "web visible" (accessible par ces robots de collecte).
- Il existe assez peu de logiciels robots : ils sont souvent exploités par plusieurs moteurs de recherche : par exemple, le robot d'Inktomi.
En général, un robot commence ses visites des sites web à partir d'un noyau initial : une liste d'URL extraits de pages ayant beaucoup de liens; l'exploration initale se poursuit ensuite selon différents critères :
⇒ en largeur d'abord (= tous les liens de même niveau hiérarchique)
⇒ ou en profondeur d'abord (=exploration systématique d'une branche particulière jusqu'au bout)
⇒ ou systèmes mixtes qui opèrent en largeur jusqu'à un certain niveau, puis en profondeur après.
Le rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité
Le paramétrage de ces robots, dont dépend la qualité de la collecte, permet de déterminer :
· les formats de fichiers pris en compte
Au début, seuls les fichiers HTML du WWW étaient collectés ; aujourd'hui, collecte, par plusieurs moteurs, de plusieurs formats de fichiers (fichiers PDF, de la suite Microsoft Office : Power Point, Word, Excel... - Fast indexe aujourd'hui les fichiers Macromedia Flash, .swf)
· le traitement du fichier robot.txt : par ce fichier, les sites indiquent que le document ne doit pas être pris en compte pour être indexé; dans ce cas, il ne sera pas retenu dans la collecte
· la taille des pages web :
Les moteurs de recherche définissent au préalable la profondeur de collecte et d'indexation des pages web, c.a.d. la taille des fichiers (mesurée en octets). D'après certaines études, la taille moyenne d’une page web serait de 10 Ko à 19 Ko (ce qui représente assez peu d’informations) et l'indexation des pages web par les moteurs va en général jusqu’à 130 Ko. Mais on trouve une grande diversité des paramétrages des moteurs (voir Marc Duval, Une question de taille, in Chronique de la recherche sur le web, vol. 3, n° 3, 5 mars 2003) :
o Exalead : 23 Ko
o Google, Gigablast : 101 Ko
o Teoma : 115 Ko
o WiseNut : 120 Ko
o Alta Vista, AntiSearch : 130 Ko
o Inktomi, HotBot, MNS : 524 Ko
o OpenFind : 610 Ko
o AlltheWeb : 976 Ko
o Northern Light : 1418 Ko
o Voilà (Web Francophone) : 1582 Ko
Quelles conséquences de la troncation des fichiers ?
- la multiplication des pages, c.a.d. la tendance chez les concepteurs de sites à diviser les pages, pour être sûr d'être référencé sur les moteurs
- le silence documentaire : pour un mot-clé situé au-delà de la taille indexée (exemple des documents longs : rapports, textes juridiques, thèses…)
⇒ A noter : la taille des fichiers est un critère de recherche et de filtrage sur un seul moteur : AlltheWeb (commande filesize: avec un opérateur numérique.)
· la nature des traitements effectués sur les liens de la page + sur ceux des pages liées
il faut en théorie à l'heure actuelle en moyenne de 10 à 20 jours aux robots pour parcourir le réseau (10 millions de pages par jour dans certains cas). Les fréquences de mises à jour varient selon les robots. Pour améliorer les performances des moteurs, le rythme de passage d'un robot peut être programmé en fonction par exemple d'un type de site (les plus évolutifs sont contrôlés plus fréquemment). On peut mesure les différences entre les moteurs en matière de "rafraîchissement" de la base en comparant le délai de mise à jour de la page la plus récente et celle de la page la plus ancienne.
ex : Sondage du site SearchengineShowdown (04/04/2002) donne notamment pour Google un rapport de 1 / 68 jours, pour Altavista 12 / 51 jours et pour Hotbot 1 / 136 jours.
Selon la configuration adoptée pour le robot, tout ou partie de l'information trouvée va être rapatriée : rapatriement uniquement des titres de fichiers html ou des premiers paragraphes et mots les plus fréquents ou du contenu complet des fichiers html.
⇒ Les robots étendent de plus en plus leurs capacités dans la collecte des données du web :
⇒ Mais difficultés liées au rythme de pacours du robot :
Le rythme d'actualisation de la base de données par le robot (souvent au mieux chaque mois) ne permet pas de prendre en compte toute l'information diffusée sous forme d'actualité (quotidiens, agences de presse...) qui leur échappe en grande partie.
Pour contrer ce problème, la société Moreover (http://www.moreover.com) alimente une base de données comportant plus de 2400 sources réactualisables tous les quarts d'heure.
⇒ Reste l'obstacle constitué par :