Comment définir un moteur de recherche
Instrument de recherche basé sur un recensement de ressources internet, dont tout ou partie est mémorisé sous forme d'index interrogeables par des formulaires de requête.
Un moteur ou robot de recherche peut être considéré comme une gigantesque base de données, constituée automatiquement grâce à des outils logiciels qui vont explorer régulièrement les serveurs déclarés sur internet, indexent le texte intégral des pages et des sites et proposent à l'utilisateur un accès aux documents en lançant une requête par mots clés.
= Classement, organisation et structuration de pages de l'internet
Un moteur de recherche fonctionne généralement avec 3 modules :
Il existe des différences entre les moteurs de recherche : les robots sont programmés en fonction de choix effectués par leurs concepteurs et n'opèrent pas tous de la même manière.
Plusieurs typologies sont possibles, par exemple :
⇒ Typologie selon le référentiel Internet et le type de ressources recensées :
⇒ Typologie selon les méthodes de classement des résutats (cf plus loin) :
⇒ Typologie selon le type de présentation des résutats :
⇒ Typologie selon le type de traitement :
L'un des premiers problèmes posés aux moteurs de recherche, surtout à partir de 1998-99, a été la lutte contre le "spamdexing".
origine du terme : le mot anglais spam vient d’un épisode de la série télévisée Monty Python’s Flying Circus, où le mot Spam, une marque de jambonneau, était répété pour couvrir les dialogues … !
Il s'agit d'une véritable " guerre " des fournisseurs d’information grand public, menée contre les moteurs de recherche, pour pouvoir être systématiquement présents dans les résultats.
Le spamming est un véritable fléau pour les moteurs de recherche : il y a quelques années, on estimait que sur 10 pages proposées à Alta Vista, 9 étaient du spam... On a estimé aussi que sur l’index d’Alta Vista, évalué alors à 1 milliard de pages, l’index ne comprenait en fait que 350 millions de pages : 650 millions étaient du spam, ou des doublons, enlevées par le moteur....
o multiplication de mots-clés dans les métadonnées : cette première technique de spamdexing est maintenant assez bien contrée par les moteurs (qui n'indexent pas ou pas toutes les métadonnées)
o multiplication de "sites-miroirs", de pages web d'une même organisation pointant vers l'une vers l'autre (pour détourner l'indice de popularité)
o multiplication et détournement des liens commerciaux (cf la partie du support "Acteurs, marché..."
o faux portails, contenant en fait des liens commerciaux
Sur ces questions, voir Marc Duval, Google-Filter contre le spam, Chronique de la recherche, vol. 3, n° 9, 21 novembre 2003, disponible sur <http://www.dsi-info.ca/chroniques/chroniques-recherche-web.html>