Métadonnées : théorie de l’indexation

Haute École Bruxelles-Brabant (HE2B)

2025-12-18

Planning de la séance

Vos questions

Place des langages documentaires dans le monde actuel

SKOS

Qu’est-ce que l’alignement de thésaurus ?

L’alignement de thésaurus
(ou mapping de vocabulaires) est le processus d’établissement de correspondances sémantiques entre les concepts de deux ou plusieurs systèmes d’organisation des connaissances (thésaurus, taxonomies, ontologies, schémas de classification, etc.).

Objectifs de l’alignement

Objectif Description Bénéfice
Interopérabilité Permettre l’échange de données Recherche fédérée
Réutilisation Éviter recréation de vocabulaires Économies
Enrichissement Compléter un vocabulaire par un autre Qualité accrue
Multilinguisme Relier concepts multilingues Accès global
Migration Faciliter passage d’un système à l’autre Évolution

Types et niveaux d’alignement

Types d’alignement selon la relation sémantique

🎯 Correspondance exacte (Exact Match)

  • Définition : Les deux concepts ont exactement le même sens et la même extension.
  • Propriété SKOS : skos:exactMatch
  • Exemples
    • RVM “Indexation” = LCSH “Indexing”
    @prefix rvm: <http://rvm.exemple.org/> .
    @prefix lcsh: <http://id.loc.gov/authorities/subjects/> .
    
    rvm:indexation skos:exactMatch lcsh:sh85064862 .
    • Même concept, langues différentes
    @prefix thesA: <http://institution-a.org/thesaurus/> .
    @prefix thesB: <http://institution-b.org/thesaurus/> .
    
    thesA:bibliotheques-universitaires 
        skos:exactMatch thesB:academic-libraries .

Critères d’exact match

  • ✅ Même intension (définition identique)
  • ✅ Même extension (ensemble d’instances couvert)
  • ✅ Même niveau de spécificité

Utilisation

Recherche : "Indexation" dans Thésaurus A
     ↓ [exactMatch]
Cherche aussi : "Indexing" dans Thésaurus B
     ↓
Résultats fusionnés (rappel maximal)

🎯 Correspondance proche (Close Match)

  • Définition : Les concepts sont très similaires mais pas identiques (nuances, différences culturelles/contextuelles).
  • Propriété SKOS : skos:closeMatch
  • Exemples
    • RVM “Changements climatiques” ≈ LCSH “Climatic changes” (Nuance : usage linguistique légèrement différent)
    rvm:changements-climatiques 
      skos:closeMatch lcsh:sh85027037 .
    • RAMEAU “Logiciels libres” ≈ LCSH “Open source software” (Nuance : concepts proches mais philosophies différentes)
    rameau:logiciels-libres 
        skos:closeMatch lcsh:sh96008570 .

Cas typiques de close match

Situation Exemple
Traduction imparfaite “Bibliothèque” ≈ “Library” (mais “library” aussi = “bibliothèque logicielle”)
Extension légèrement différente “Jeunes” ≈ “Youth” (tranches d’âge variables selon cultures)
Contexte culturel “Enseignement supérieur” (France) ≈ “Higher education” (USA)
Granularité différente Un concept regroupe légèrement plus/moins

Utilisation

Recherche avec closeMatch :
    └─> Résultats pertinents MAIS 
        possibilité de bruit (faux positifs)
    └─> Nécessite validation humaine finale

🎯 Correspondances hiérarchiques

  • Propriétés SKOS
    • skos:broadMatch : concept source plus spécifique que concept cible
    • skos:narrowMatch : concept source plus général que concept cible

Exemples

Thésaurus A a un concept plus spécifique, Thésaurus B a seulement le concept général

@prefix thesA: <http://thesaurus-a.org/> .
@prefix thesB: <http://thesaurus-b.org/> .

thesA:bibliotheques-publiques-municipales 
    skos:broadMatch thesB:public-libraries .

Visualisation

THÉSAURUS A                    THÉSAURUS B
                              
Bibliothèques publiques       Bibliothèques publiques
├─ B. pub. municipales ──────────┐
├─ B. pub. départementales       │ broadMatch
└─ B. pub. nationales            │
                                 ↓
                            Public libraries
                            (concept plus général)

RAMEAU a un concept général, RVM a un concept plus spécifique

rameau:enseignement 
    skos:narrowMatch rvm:enseignement-primaire .

Utilisation

Recherche : "Bibliothèques publiques municipales" (ThesA)
     ↓ [broadMatch vers ThesB:public-libraries]
Cherche aussi : "Public libraries" (ThesB)
     ↓
Résultats : plus larges (+ rappel, - précision)

🎯 Correspondance associative

  • Définition : Les concepts sont liés thématiquement mais pas équivalents ni hiérarchiquement reliés.
  • Propriété SKOS : skos:relatedMatch
  • Exemples
    • “Indexation” et “Recherche d’information” sont liés mais pas équivalents
    thesA:indexation 
        skos:relatedMatch thesB:information-retrieval .
    • RAMEAU “Bibliothécaires” relatedMatch LCSH “Library science” (Concepts connexes, pas identiques)
    rameau:bibliothecaires 
      skos:relatedMatch lcsh:sh85076491 .

Utilisation

  • Système de recommandation : “Si le concept A vous intéresse, voyez aussi le concept B lié”

Cardinalité et symétrie

  • Propriétés symétriques : Certaines propriétés SKOS de mapping sont automatiquement symétriques
Propriété. Symétrique ? Signification
skos:exactMatch ✅ OUI Si A = B, alors B = A
skos:closeMatch ✅ OUI Si A ≈ B, alors B ≈ A
skos:relatedMatch ✅ OUI Si A lié B, alors B lié A
skos:broadMatch ❌ NON Inversé par narrowMatch
skos:narrowMatch ❌ NON Inversé par broadMatch

Approche et méthodes d’alignement

Alignement manuel

  • Avantages
    • ✅ Précision maximale (expertise humaine)
    • ✅ Compréhension contextuelle (nuances culturelles)
    • ✅ Justification des choix (traçabilité)
    • ✅ Résolution d’ambiguïtés complexes
  • Inconvénients
    • ❌ Très chronophage (1 expert ≈ 20-50 mappings/jour)
    • ❌ Coûteux (ressources humaines qualifiées)
    • ❌ Non scalable (impossible pour milliers de concepts)
    • ❌ Subjectivité (variabilité inter-experts)

Alignement automatique

  • Avantages
    • ✅ Rapidité (milliers de concepts en minutes/heures)
    • ✅ Scalabilité (applicable à grands vocabulaires)
    • ✅ Coût réduit (après investissement initial)
    • ✅ Reproductibilité (pas de variabilité humaine)
    • ✅ Exhaustivité (explore toutes combinaisons)
  • Inconvénients
    • ❌ Erreurs (faux positifs et négatifs)
    • ❌ Manque de contexte (nuances culturelles)
    • ❌ Seuils à définir (paramétrage délicat)
    • ❌ Validation humaine nécessaire (ne remplace pas l’expert)

Alignement hybride

  • Le meilleur des deux mondes

Attentes par rapport à l’évaluation

Votre indexation Type d’alignement Le terme dans thésaurus choisi
terme a exactMatch terme 1
terme b closeMatch terme 2

Quelques illustrations en matière de langages documentaires

Travail d’Olivier Thirion en matière d’alignement de l’indexation entre Caracol et RAMEAU (FWB)

Contexte

  • Migration de SIGB
  • Intégration de collections

Données disponibles

  • Indexation utilisée dans le fonds à traiter
  • Indexation utilisée dans Caracol (catalogue collectif du Brabant wallon)
  • RAMEAU

Solution mise en place

  • Utilisation de FastText pour permettre une comparaison sémantique entre les termes utilisés et les référentiels (Caracol et RAMEAU)
  • Solution hybride
    • On automatise ce que l’on peut
    • L’humain valide le résultat final avant intégration

Résultats

Terme Equivalent parfait Caracol
16ème siècle Seizième siècle
17ème siècle 17ème siècle
18ème siècle Dix-huitième siècle
19ème siècle Dix-neuvième siècle
Abandon d’enfant Enfants abandonnés
Abeilles Abeille
Absentéisme scolaire Absentéisme scolaire
Abécédaires Abécédaires
Acceptation de soi Acceptation de soi

Illustration : Annif

Illustration : LLMs4Subjects