Métadonnées : théorie de l’indexation

Haute École Bruxelles-Brabant (HE2B)

2025-12-04

Planning de la séance

Vos questions

Langue naturelle & langages documentaires

Langage documentaire combinatoire

Les répertoires de vedettes-matière

Illustration : RAMEAU

Illustration : Répertoire de vedettes-matière de l’Université Laval (RVM)

Illustration : Gemeinsame Normdatei (GND)

Les thésaurus

Thésaurus
Le thésaurus est une liste de mots ou d’expressions ayant valeur de termes dans un domaine de la connaissance ou une discipline, dans un champ d’activité ou dans un environnement institutionnel ou organisationnel particulier. Le terme est la représentation verbale d’un concept (Hudon, 2013)
Thésaurus
Liste organisée de termes contrôlés et normalisés (descripteurs et non descripteurs) servant à l’indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d’équivalence), exprimées par des signes ou symboles conventionnels. Les synonymes (non-descripteurs ou termes interdits) sont reliés aux descripteurs par la seule relation d’équivalence. (Dégez, 2001)

Fonctions d’un thésaurus

  • atténuer l’impact des difficultés causées, au moment de la recherche d’information, par la synonymie (redondance) et la polysémie (ambiguïté) caractéristiques de la langue naturelle ; le thésaurus appauvrit la langue naturelle pour améliorer l’efficacité de la communication d’information ;
  • faciliter la recherche d’information et la rendre plus efficace ;
  • permettre l’exhaustivité du repérage en liant les concepts et les termes au sens proche.

Répertoire de vedettes-matières vs. Thésaurus

Typologie des thésaurus

  • le thésaurus spécialisé ou sectoriel décrit les concepts et utilise la terminologie normalisée d’une seule discipline ou d’un seul champ d’activité ;
  • le macrothésaurus décrit plusieurs disciplines ou champs d’activité ;
  • le thésaurus disciplinaire se développe indépendamment d’une base de données ou d’une collection particulière ;
  • le thésaurus institutionnel ou le thésaurus d’entreprise est conçu à seule fin d’assurer l’accès à une collection documentaire locale ; dans le thésaurus monolingue, les termes et les relations sont présentés en une seule et même langue naturelle ;
  • le thésaurus multilingue propose un inventaire de concepts, de termes et de relations utilisés dans diverses cultures et représentés dans plusieurs langues naturelles ;
  • le thésaurus est dit thématique lorsque la structuration de son contenu est faite à partir de grands thèmes ou de sujets généraux ;
  • le thésaurus est dit à facettes lorsque la structuration de son contenu est faite à partir de la nature des concepts représentés (par exemple, Activité, Agent, Propriété, etc .) .

Composantes d’un thésaurus

Le lexique
aussi appelé vocabulaire d’entrée, est constitué de deux catégories de termes : les descripteurs, ou termes préférentiels, et les non-descripteurs
Le descripteur
un terme (mot ou groupe de mots formant une expression) choisi parmi un ensemble de synonymes pour représenter un concept de manière univoque. À l’origine, le descripteur était plutôt de type uniterme. Cette caractéristique est moins évidente aujourd’hui alors que des règles assouplies permettent un certain degré de précoordination des concepts et des termes dans des circonstances particulières

Composantes d’un thésaurus (suite)

Définitions
précise la signification d’un descripteur dans la discipline ou le champ d’activité décrits par le thésaurus. Mais le thésaurus n’est pas un dictionnaire et on n’y trouvera pas la définition de chacun des termes du lexique
Notes d’application
précisent les modalités et les circonstances d’utilisation d’un terme

Composantes d’un thésaurus (suite)

La structure relationnelle
La structure relationnelle du thésaurus s’extériorise dans une variété de relations sémantiques qui lient les concepts d’un domaine et par conséquent les termes qui les représentent dans le lexique

Ces relations sont * l’équivalence intralinguistique entre termes représentant le même concept dans une même langue naturelle (donc entre synonymes) * l’équivalence interlinguistique entre termes représentant un même concept dans deux ou plusieurs langues naturelles * la hiérarchie * l’association

Relation d’équivalence intralinguistique

  • La relation d’équivalence intralinguistique lie les mots ou expressions d’une même langue naturelle qui expriment la même idée ou désignent le même objet
  • Deux types d’équivalences intralinguistiques
    1. la monoéquivalence lie un non-descripteur à un seul descripteur
    2. la pluriéquivalence lie un non-descripteur à plusieurs descripteurs à utiliser individuellement (pluriéquivalence facultative) ou en combinaison (pluriéquivalence obligatoire)
  • Abréviations
    • En français : EM (Employer), EP (Employer pour)
    • En anglais : USE, UF (Used For)

Relation d’équivalence intralinguistique (suite)

Relation d’équivalence interlinguistique

  • La relation d’équivalence interlinguistique, que l’on rencontre le plus souvent dans les thésaurus multilingues, est établie entre descripteurs qui représentent le même concept dans des langues naturelles distinctes
  • Il existe plusieurs degrés d’équivalence interlinguistique
    • de l’équivalence complète
    • à la non-équivalence
    • en passant par divers types d’équivalence partielle

Relation d’équivalence interlinguistique (suite)

Relation hiérarchique

  • Le thésaurus s’appuie sur une structure hiérarchique plus stricte que celle que l’on trouve dans un répertoire de vedettes-matière ou dans un schéma de classification documentaire
  • Dans le thésaurus, la relation hiérarchique, dite aussi relation d’inclusion, exprime un rapport de supériorité/subordination entre concepts, et par conséquent entre les descripteurs qui représentent ces concepts
  • La relation hiérarchique doit être logique puisque c’est elle qui, à l’indexation et au repérage, permet d’atteindre le degré de précision requis
  • L’exploitation de la structure hiérarchique permet notamment d’élargir ou de restreindre la portée de la recherche pour faire varier le taux de rappel, évitant à la fois le silence total (aucun document repéré) ou le bruit inacceptable (trop de documents repérés)
  • Abréviations
    • En français : TG (Terme générique), TS (Terme spécifique)
    • En anglais : BT (Broad term), NT (Narrow term)

Relation hiérarchique

  • Trois types de relations hiérarchiques
    1. la relation générique, dite aussi relation d’hyperonymie, lie deux concepts, et donc les deux descripteurs qui les représentent, dans un rapport strict de genre à espèce. Le concept spécifique (subordonné) y représente un genre ou un type particulier du concept générique (supérieur). On doit pouvoir dire, par exemple, que A (concept spécifique) EST UN B (concept générique), comme dans le PAMPLEMOUSSE (spécifique) est un AGRUME (générique) ; la relation générique est transitive : toutes les caractéristiques servant à définir le concept générique sont automatiquement transmises à chacun de ses spécifiques
    2. la relation partitive, dite aussi relation de méronymie, lie deux concepts, et donc les descripteurs qui les représentent, dans un rapport de tout à partie. Le concept représenté par le descripteur spécifique est une partie, un élément ou une composante essentielle du tout représenté par son générique : ainsi l’ESTOMAC (spécifique) est une composante essentielle du SYSTÈME DIGESTIF (générique). Cette relation n’est concrètement utilisée que pour représenter quatre classes de concepts : les systèmes et organes du corps, les lieux géographiques, les disciplines ou domaines de la connaissance et les structures sociales hiérarchisées
    3. la relation d’instancee est une variante de la relation générique, lie une classe d’objets ou d’événements représentée par un nom commun à un spécimen de cette classe, représenté par un nom propre : l’EVEREST (spécifique) est une MONTAGNE (générique)

Relation associative

Relation associative
dite aussi relation de voisinage, lie des concepts associés mentalement par les spécialistes d’un domaine mais qui ne sont ni équivalents ni dans une relation d’inclusion l’un par rapport à l’autre

Relation associative (suite)

  • Dans un thésaurus, la relation associative est la moins bien définie, la plus ambiguë et la plus subjective
  • On dit que deux concepts A et B sont associés s’il y a lieu de croire que l’usager intéressé par le concept A pourrait également trouver utile le concept B
  • Les divers types d’association entre concepts sont présentés sous forme d’énumération de cas où le lien se justifie
    • la relation de cause à effet
    • du tout à ses composantes non essentielles
    • de l’agent à l’action
    • de l’action à son résultat
    • de l’action à l’objet sur lequel elle s’exerce
    • de l’objet à sa propriété
    • de l’objet à son application

Relation associative (suite)

  • Il est également justifié et utile d’associer les descripteurs qui représentent
    • des concepts aux sens proches mais non équivalents (par exemple, BATEAU et NAVIRE)
    • les antonymes (par exemple, TOLÉRANCE et PRÉJUGÉ)
    • les concepts complémentaires (par exemple, ENSEIGNEMENT et APPRENTISSAGE)
  • La relation associative est symétrique
  • Abréviations
    • En français : TA (Terme associé)
    • En anglais : RT (Related term)

Normes en matière de thésaurus

  • ISO 25 964 : 2011-2013 Thesauri and Interoperability with Other Vocabularies
  • BS 8723-2 : 2005 Structured vocabularies for information retrieval. Part 2 Thesauri
  • ANSI/NISO Z39.19-2005 Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies
  • AFNOR Z 47-10 0 : 1981 Règles d’établissement des thésaurus monolingues

Mise en pratique : Découvrir et comparer

Choisissez un langage documentaire dans BARTOC, et consultez-en le contenu. Comparez-le avec ce qui vient d’être dit et avec les langages documentaires que vous connaissez déjà.

Rédigez un court rapport d’étonnement faisant la synthèse de vos remarques.

Durée estimée : 40 minutes