Thesaurus
Un article de Freepedia.
Un thesaurus est une sorte de dictionnaire hiérarchisé ; un vocabulaire normalisé sur la base de termes génériques et de termes spécifiques à un domaine. Il ne fournit qu'accessoirement des définitions, les relations des termes et leur choix l'emportant sur les significations.
Sommaire |
Outil d'indexation et outil de recherche
Un thesaurus est un ensemble structuré de termes choisis pour leur capacité à faciliter la description d'un domaine et à harmoniser la communication et le traitement de l'information à son sujet. Chaque terme appelé descripteur est aussi peu ambigü que possible et est préféré à des termes voisins (quasi-synonymie) ou synonymes, les non-descripteurs, pour tous les échanges significatifs.
En pratique, le thesaurus est un outil documentaire d'indexation. Guidé par un thésaurus pertinent, il est possible de représenter tout document par une sélection rigoureuse de mots précis, appelés mots-clés. Il sera ensuite aisé d'en assurer une forme quelconque de gestion documentaire.
En mode consultation et exploitation des données, le thésaurus devient un instrument de recherche : disposant des vocabulaire et règles de l'indexation, l'utilisateur peut optimiser ses requêtes.
Constitution d'un thesaurus
Un thesaurus s'élabore comme un sous-ensemble du vocabulaire usuel et d'au moins un vocabulaire spécialisé. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés de manière informelle dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Un nouveau thesaurus ou une nouvelle version doit généralement subir une phase de validation par la communauté concernée.
Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques.
En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout-à-fait être différente d'un thesaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thésaurus.
Finalement en partant du niveau le plus haut et correspondant au domaine du thesaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthesaurus, puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Un thesaurus peut aussi concerner plusieurs domaines.
Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thesaurus, soit dans le choix des termes, soit dans leur position hiérarchique.
Il existe des normes pour l'élaboration des thesaurus :
- Norme ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues.
- Norme ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.
Les relations hiérarchiques
Les termes d'un thesaurus sont organisés hiérarchiquement (à l'intérieur de microthesaurus souvent classés alphabétiquement). Cette hiérarchie permet de régler la précision de l'indexation ou de l'interrogation. L'indexation s'appuiera autant que possible sur l'identification des termes spécifiques (donc du niveau le plus bas possible), alors que la recherche selon les cas pourra faire appel aux termes génériques pour augmenter le nombre de réponses.
Les relations des termes sont de trois types :
- relation hiérarchique stricto sensu (entre descripteurs), base de la hiérarchie du thesaurus ;
- relation d'équivalence (entre descripteurs et non-descripteurs), base de l'univocité ;
- relation d'association (entre descripteurs), enrichissement sémantique ; sujets connexes.
Tout thesaurus comporte au moins trois catégories de termes : les termes génériques et les termes spécifiques qui doivent être utilisés comme descripteurs ; les termes équivalents qui sont considérés comme non-descripteurs selon les conventions du thesaurus.
- Les termes génériques sont repérés généralement par le sigle TG ; ils désignent les entités ou concepts principaux en référence aux autres termes et au domaine considéré ;
- Les termes spécifiques sont repérés généralement par le sigle TS ; ils précisent et identifient les entités ou concepts particuliers à l'intérieur du champ sémantique d'un terme générique donné ;
- Les termes équivalents sont repérés généralement par le sigle EP comme abréviation de Employé Pour ; ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie). Ils sont donc équivalents dans le langage courant, mais donnés pour subsidiaires dans l'emploi du thesaurus. Le terme à préférer au terme Employé Pour est indiqué par le symbole EM ou EMP comme abréviation de Employer.
On trouve aussi très généralement les termes associés identifiés par TA (relation d'association : causalité, localisation, relations de nature temporelle, composition, etc). Étant eux-mêmes des descripteurs, ces termes connexes permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sans faire appel aux termes génériques.
Divers types de relations et rubriques complémentaires peuvent être adjoints à cette structure de base pour enrichir le thesaurus ou améliorer son usage. On peut notamment prévoir des équivalents linguistiques pour des thesaurus multilingues ainsi que des passerelles avec d'autres thesaurus du même domaine ou de domaines différents.
Exemple de thesaurus élémentaire
Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :
- Individus >
- Logiciel >
- Réseau >
- Ressources >
La rubrique Individus se composerait par exemple de :
- Lecteur (TG) ;
- Participant (TG) ; Auteur (EP) ; Contributeur (EP) ;
- Éditeur non-inscrit (TS) ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ;
- Éditeur inscrit (TS) ;
- Participant mandaté (TG) ;
- Administrateur (TS) ; Sysop (terme usuel dans la communauté)
- Gestionnaire (TS) ;
- Représentant (TS) (chargé des relations extérieures) ;
- Utilisateur (terme imprécis : à proscrire) ; Internaute (imprécis : à proscrire).
Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques ou parmi les trois termes génériques, selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.
Les modes de présentation
Quel que soit son support, un thesaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi, l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thesaurus lui révèlera que ce terme est bien pris en compte mais par relation à un des termes privilégiés. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.
L'utilisation ou exploration d'un thesaurus peut se faire habituellement à l'aide de plusieurs modes de présentation :
- Liste(s) alphabétique(s) des termes ; pour une approche globale ou la recherche d'un terme particulier ;
- Liste(s) hiérarchique(s) des termes ; pour l'approfondissement d'une notion ;
- Liste(s) d'occurrences (liste permutée) ; pour la vérification de la pertinence d'un élément d'une expression utilisée comme descripteur ;
On peut trouver dans ces listes le symbole 'MT indiquant le microthesaurus dont relève le terme.
Éléments optionnels d'un thesaurus
On trouve associés aux descripteurs, des définitions (cas d'homonymie), des notes assistant l'utilisateur (notices), des liens de toute nature, etc.
Liens externes
- Thesaurus de la Santé publique]
- Thesaurus du gouvernement du Québec
- Thesaurus de l'Union européenne en allemand, anglais, danois, espagnol, finnois, français, grec, italien, néerlandais, portugais, suédois.
- Thesaurus de l'Architecture
Catégories de la page: Sciences de l'information et des bibliothèques | Dictionnaire | Sciences cognitives



