Moteur de recherche
Un article de Freepedia.
Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.
Sommaire |
Définition
Outil de recherche sur le Web constitué de "robots", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données.
Fonctionnement
Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.
- Le Web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire Web.
- L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse. La partie requêtes du moteur de recherche peut ainsi rapidement retrouver les correspondances. Un algorithme gardé secret est généralement appliqué pour donner un poids variable aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposé. L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe, hyperlien...) et de la ressource (ressources liées, popularité du site...)
- La ressource indexée peut ensuite être retournée dans les résultats d'une recherche d'un visiteur contenant un mot clé correspondant.
- Outil de recherche sur le Web constitué de "robots", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine ce qui est le cas des annuaires) pour découvrir de nouvelles adresse (URL). Ils testent tous les liens hypertextes (mots qui relient les textes entre eux) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de donnée..
Financement
Les sites dont la recherche constitue le principal service peuvent se financer avec deux sources : la publicité et la vente de technologie.
Publicité
Les moteurs de recherche se financent principalement avec la publicité ciblée. Il s'agit de présenter des publicités correspondant aux mots recherchés par le visiteur. Pour l'annonceur, cela revient à acheter des mots clé : par exemple une agence de voyage peut acheter des mots clé comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région.
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.
Vente de technologie
Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du Web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.
Il arrive également que des sites Web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. Ainsi Yahoo!, spécialiste de l'annuaire Web, a utilisé pendant quelques années la technologie de Google pour la recherche.
Voir aussi
Liens internes
Articles sur des moteurs de recherche
- le moteur de recherche à recherche par racine AltaVista
- le moteur de recherche à mot dans le contexte Google
- le moteur de recherche à graphe sémantique Kartoo
- le moteur de recherche à base statistique exalead
- le moteur de recherche sémantique Sinequa
- le moteur de recherche de blogs Recherche de Blogs
- l'annuaire et moteur de recherche Yahoo!
- Mozdex le moteur de recherche open source
- Nutch
- Gigablast
Liens externes sur les moteurs de recherche
- (en) news:alt.internet.search-engines
- (fr) motrech, blog et liste de discussion consacrée aux moteurs de recherche
- (en) SearchEngineWatch, forum sur les moteurs de recherche
- (fr) Abondance.net, site payant traitant des moteurs et annuaires
- (fr) Cours sur la recherche d'information, Université de Montréal, 2004
- (fr) Liste d'outils de recherche pour intranet, article JDNet, nov. 2004
- (fr) Comparaison d'outils de recherche pour intranet, blog de Régis AUZURET
- (en) Liste de moteurs open source Ex: htDig (en français), mnoGoSearch, Namazu, Nutch, DataparkSearch
- (fr) Frutch.org Communauté francophone de Nutch
- (fr) Avis de Recherche Annuaire de moteurs de recherche
- (en) Les relations entre les principaux moteurs de recherche
| Image:Symbole-ordinateur.png | Portail Informatique - Accédez aux articles de Wikipédia concernant l'informatique. |



