Métadonnées : théorie de l’indexation

Haute École Bruxelles-Brabant (HE2B)

2025-12-11

Planning de la séance

Vos questions

Explications complémentaires concernant l’évaluation

Exporter les notices de PMB

Première étape : création du panier et de la procédure de sélection

  • Dans la partie « Catalogue ➡ Panier ➡ Gestion »
    • Créer un panier de notices
    • Créer une procédure de collecte/pointage, avec le contenu suivant
    SELECT notice_id as object_id, 'NOTI' AS object_type FROM notices
    • Cliquer sur « Enregistrer »
    • Tester la procédure

Deuxième étape : collecte des notices

  • Aller dans « Catalogue ➡ Panier ➡ Gestion »
    • Cliquer sur « Par procédure de sélection »
    • Choisir le panier créé précédemment
    • Choisir la procédure créée précédemment
    • Votre panier devrait maintenant contenir toutes les notices de votre catalogue

Troisième étape : exporter les notices

  • Cliquer sur les « Actions » du panier
  • Cliquer sur « Export »
  • Cocher les cases
    • « Eléments non pointés »
  • Choisisser le « Type d’export » : UNIMARC ISO2709
  • Cliquer sur « Exporter »
  • Cliquer sur « Terminer l’étape de conversion »
  • Le fichier devrait avoir été téléchargé sur votre ordinateur (fichier avec l’extension .marc)

Place des langages documentaires dans le monde actuel

Interopérabilité

SKOS : Simple Knowledge Organization System

Pourquoi SKOS ?

Problèmes courants

  • Thésaurus, classifications et listes d’autorité hétérogènes
  • Difficulté à échanger des données entre systèmes (ex : KBR, bibliothèques universitaires, archives)
  • Besoin de structurer les métadonnées pour le web sémantique

Solutions avec SKOS

  • Standard W3C (comme Dublin Core)
  • Interopérabilité entre outils (ex : Koha, Omeka, Linked Data)
  • Flexible : adapté aux thésaurus, taxonomies, listes d’autorité
  • ✅ Utilisé en Belgique (ex : thésaurus PUB, Europeana)

SKOS en 3 concepts clés

  1. Concepts (skos:Concept)
    • Une idée, un terme (ex : “Littérature belge francophone”)
  2. Relations entre concepts
    • Hiérarchiques (skos:broader, skos:narrower)
    • Associatives (skos:related)
  3. Étiquettes (skos:prefLabel, skos:altLabel)
    • Ex : prefLabel = “BD” ; altLabel = “Bande dessinée”

Exemple concret : Un thésaurus en SKOS

@prefix skos: <http://www.w3.org/2004/02/skos/core#> .

:BD a skos:Concept ;
   skos:prefLabel "Bande dessinée"@fr ;
   skos:altLabel "BD"@fr ;
   skos:broader :Litterature ;
   skos:related :Illustration .

Qu’est-ce que l’alignement de thésaurus ?

L’alignement de thésaurus
(ou mapping de vocabulaires) est le processus d’établissement de correspondances sémantiques entre les concepts de deux ou plusieurs systèmes d’organisation des connaissances (thésaurus, taxonomies, ontologies, schémas de classification, etc.).

Objectifs de l’alignement

Objectif Description Bénéfice
Interopérabilité Permettre l’échange de données Recherche fédérée
Réutilisation Éviter recréation de vocabulaires Économies
Enrichissement Compléter un vocabulaire par un autre Qualité accrue
Multilinguisme Relier concepts multilingues Accès global
Migration Faciliter passage d’un système à l’autre Évolution

Types et niveaux d’alignement

Types d’alignement selon la relation sémantique

🎯 Correspondance exacte (Exact Match)

  • Définition : Les deux concepts ont exactement le même sens et la même extension.
  • Propriété SKOS : skos:exactMatch
  • Exemples
    • RVM “Indexation” = LCSH “Indexing”
    @prefix rvm: <http://rvm.exemple.org/> .
    @prefix lcsh: <http://id.loc.gov/authorities/subjects/> .
    
    rvm:indexation skos:exactMatch lcsh:sh85064862 .
    • Même concept, langues différentes
    @prefix thesA: <http://institution-a.org/thesaurus/> .
    @prefix thesB: <http://institution-b.org/thesaurus/> .
    
    thesA:bibliotheques-universitaires 
        skos:exactMatch thesB:academic-libraries .

Critères d’exact match

  • ✅ Même intension (définition identique)
  • ✅ Même extension (ensemble d’instances couvert)
  • ✅ Même niveau de spécificité

Utilisation

Recherche : "Indexation" dans Thésaurus A
     ↓ [exactMatch]
Cherche aussi : "Indexing" dans Thésaurus B
     ↓
Résultats fusionnés (rappel maximal)

🎯 Correspondance proche (Close Match)

  • Définition : Les concepts sont très similaires mais pas identiques (nuances, différences culturelles/contextuelles).
  • Propriété SKOS : skos:closeMatch
  • Exemples
    • RVM “Changements climatiques” ≈ LCSH “Climatic changes” (Nuance : usage linguistique légèrement différent)
    rvm:changements-climatiques 
      skos:closeMatch lcsh:sh85027037 .
    • RAMEAU “Logiciels libres” ≈ LCSH “Open source software” (Nuance : concepts proches mais philosophies différentes)
    rameau:logiciels-libres 
        skos:closeMatch lcsh:sh96008570 .

Cas typiques de close match

Situation Exemple
Traduction imparfaite “Bibliothèque” ≈ “Library” (mais “library” aussi = “bibliothèque logicielle”)
Extension légèrement différente “Jeunes” ≈ “Youth” (tranches d’âge variables selon cultures)
Contexte culturel “Enseignement supérieur” (France) ≈ “Higher education” (USA)
Granularité différente Un concept regroupe légèrement plus/moins

Utilisation

Recherche avec closeMatch :
    └─> Résultats pertinents MAIS 
        possibilité de bruit (faux positifs)
    └─> Nécessite validation humaine finale

🎯 Correspondances hiérarchiques

  • Propriétés SKOS
    • skos:broadMatch : concept source plus spécifique que concept cible
    • skos:narrowMatch : concept source plus général que concept cible

Exemples

Thésaurus A a un concept plus spécifique, Thésaurus B a seulement le concept général

@prefix thesA: <http://thesaurus-a.org/> .
@prefix thesB: <http://thesaurus-b.org/> .

thesA:bibliotheques-publiques-municipales 
    skos:broadMatch thesB:public-libraries .

Visualisation

THÉSAURUS A                    THÉSAURUS B
                              
Bibliothèques publiques       Bibliothèques publiques
├─ B. pub. municipales ──────────┐
├─ B. pub. départementales       │ broadMatch
└─ B. pub. nationales            │
                                 ↓
                            Public libraries
                            (concept plus général)

RAMEAU a un concept général, RVM a un concept plus spécifique

rameau:enseignement 
    skos:narrowMatch rvm:enseignement-primaire .

Utilisation

Recherche : "Bibliothèques publiques municipales" (ThesA)
     ↓ [broadMatch vers ThesB:public-libraries]
Cherche aussi : "Public libraries" (ThesB)
     ↓
Résultats : plus larges (+ rappel, - précision)

🎯 Correspondance associative

  • Définition : Les concepts sont liés thématiquement mais pas équivalents ni hiérarchiquement reliés.
  • Propriété SKOS : skos:relatedMatch
  • Exemples
    • “Indexation” et “Recherche d’information” sont liés mais pas équivalents
    thesA:indexation 
        skos:relatedMatch thesB:information-retrieval .
    • RAMEAU “Bibliothécaires” relatedMatch LCSH “Library science” (Concepts connexes, pas identiques)
    rameau:bibliothecaires 
      skos:relatedMatch lcsh:sh85076491 .

Utilisation

  • Système de recommandation : “Si le concept A vous intéresse, voyez aussi le concept B lié”

Cardinalité et symétrie

  • Propriétés symétriques : Certaines propriétés SKOS de mapping sont automatiquement symétriques
Propriété. Symétrique ? Signification
skos:exactMatch ✅ OUI Si A = B, alors B = A
skos:closeMatch ✅ OUI Si A ≈ B, alors B ≈ A
skos:relatedMatch ✅ OUI Si A lié B, alors B lié A
skos:broadMatch ❌ NON Inversé par narrowMatch
skos:narrowMatch ❌ NON Inversé par broadMatch

Approche et méthodes d’alignement

Alignement manuel

  • Avantages
    • ✅ Précision maximale (expertise humaine)
    • ✅ Compréhension contextuelle (nuances culturelles)
    • ✅ Justification des choix (traçabilité)
    • ✅ Résolution d’ambiguïtés complexes
  • Inconvénients
    • ❌ Très chronophage (1 expert ≈ 20-50 mappings/jour)
    • ❌ Coûteux (ressources humaines qualifiées)
    • ❌ Non scalable (impossible pour milliers de concepts)
    • ❌ Subjectivité (variabilité inter-experts)

Alignement automatique

  • Avantages
    • ✅ Rapidité (milliers de concepts en minutes/heures)
    • ✅ Scalabilité (applicable à grands vocabulaires)
    • ✅ Coût réduit (après investissement initial)
    • ✅ Reproductibilité (pas de variabilité humaine)
    • ✅ Exhaustivité (explore toutes combinaisons)
  • Inconvénients
    • ❌ Erreurs (faux positifs et négatifs)
    • ❌ Manque de contexte (nuances culturelles)
    • ❌ Seuils à définir (paramétrage délicat)
    • ❌ Validation humaine nécessaire (ne remplace pas l’expert)

Alignement hybride

  • Le meilleur des deux mondes

Attentes par rapport à l’évaluation

Votre indexation Type d’alignement Le terme dans thésaurus choisi
terme a exactMatch terme 1
terme b closeMatch terme 2