26
Laboratoire ligérien de linguistique Cocoon, une plateforme pour la Cocoon, une plateforme pour la conservation et la diffusion de ressources conservation et la diffusion de ressources orales en sciences humaines et sociales orales en sciences humaines et sociales Michel Jacobson (LLL), Flora Badin (LLL) et Séverine Guillaume (LACITO) « 8es Journées Internationales de Linguistique de Corpus » Du 2 au 4 septembre 2015 à Orléans

Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

  • Upload
    ledieu

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Cocoon, une plateforme pour la Cocoon, une plateforme pour la conservation et la diffusion de ressources conservation et la diffusion de ressources orales en sciences humaines et socialesorales en sciences humaines et sociales

Michel Jacobson (LLL), Flora Badin (LLL) et Séverine Guillaume (LACITO)« 8es Journées Internationales de Linguistique de Corpus »Du 2 au 4 septembre 2015 à Orléans

Page 2: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

PLANPLAN

Le périmètre des ressources prises en charge Critères

Quelques chiffres

Diversité des données déposées/collectées

Un exemple

La plateforme de gestion Cocoon Historique

Les choix de codage

Les fonctionnalités

Page 3: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Le périmètre des donnéesLe périmètre des données

Les ressources orales prises en charge Des enregistrements de parole

Collectés par des chercheurs en sciences humaines dans l'objectif d'étudier les langues et la parole, ou comme moyen d'enquête, ou comme technique de prise de notes, etc.

Principalement audio, mais aussi vidéo, mesures physiologiques... Enregistrements parfois accompagnés d'annotations (transcriptions, traductions…) Enregistrements documentés (métadonnées décrivant le contexte, le contenu, la

forme, les droits…)

Page 4: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Quelques chiffres sur les donnéesQuelques chiffres sur les données

Ressources orales dans Cocoon Plus de 10 000 enregistrements

principalement audio, vidéo (par ex : langues des signes ; interactions avec des enfants ; interactions au

travail) mesures physiologiques : électroglotogramme pour des études phonétiques

Plus de 3 000 transcriptions

Environ 5 000 heures

128 langues représentées (136 avec les ressources en préparation)

Page 5: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Quelques chiffresQuelques chiffres

Une grande diversité Des lieux d'enquête

Des langues

Des genres

Des disciplines

...

Page 6: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Diversité géographiqueDiversité géographique

Répartition géographique des lieux d'enquête

Page 7: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Diversité géographiqueDiversité géographique

Zoom

Page 8: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Diversité linguistiqueDiversité linguistique

Langues Environ 128 langues distinctes

Exemple des langues enregistrées en Nouvelle-Calédonie

Genres Récits, conversations, discours,

lecture, interviews, chansons…

Disciplines Phonétique/phonologie,

description des langues, syntaxe, histoire...

Page 9: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Situations d'enquêteSituations d'enquête

laboratoire, terrain, famille, milieu professionnel...

Page 10: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Un exemple de ressourceUn exemple de ressource

Un enregistrement de ESLO

Page 11: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La plateforme CocoonLa plateforme Cocoon

Page 12: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

HistoriqueHistorique

De 2006 à aujourd'hui création par le CNRS de « Centres de ressources numériques »

CRN sur les données orales, les informations géographiques, l'écrit et les lexiques, les sources visuelles…

mise en place et alimentation d'un entrepôt pour les données orales en SHS (CRDO)

mise en place d'un circuit d'archivage pérenne avec le TGE-Adonis Groupe de travail du TGE-Adonis regroupant : les centres de calcul du CINES et de

l'IN2P3, le CRDO, la DAF

2012 CRDO-Paris = Cocoon (Collections de corpus oraux numériques)

Page 13: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La plateforme CocoonLa plateforme Cocoon

Utilisation de la grille de services d'Huma-Num L'infrastructure (celle du Centre de calcul de l'IN2P3) pour le stockage sécurisé et

l'hébergement des services La plateforme du CINES (PAC) pour la pérennisation des informations pendant une

période intermédiaire puis à terme celle des Archives nationales

Une offre de services pour les SHS Se veut compatible/complémentaire de l'Equipex Ortolang (échanges en cours) Stockage de données : mutualisation pour des volumes importants (en To) Sécurisation des données : Redondance, contrôle de l'intégrité, horodatage, contrôle

des accès, analyses qualité Identification des ressources : identifiant pérennes (OAI, ARK) et de permaliens

(HANDLE, PURL) Accès / diffusion : Entrepôt OAI, serveur Web, référencement Pérennisation à long-terme : PAC → Archives nationales

Page 14: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Les choix de codageLes choix de codage

Page 15: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Les enregistrementsLes enregistrements

Identification des formats et codages acceptables (liste établie dans le cadre d'une étude avec le CINES). Formats cibles : Audio : WAV/PCM ou FLAC

Vidéo : MPEG-4/H-264/AAC ou MKV/H-264/FLAC

Transcriptions : XML/UTF-8 validé par un schéma ou une DTD ou TEXT/UTF-8 ou PDF

Définition de qualité plancher : Par exemple pour l'audio : Fréquence d'échantillonnage ≥

44100Hz ; Taille de l'échantillon ≥ 16 bits

Page 16: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Les transcriptionsLes transcriptions

Utilisation de logiciels métier : Transcriber, CLAN, ELAN, Praat...

Point commun à ces formats : permettre de coder des annotations bornées par des jalons temporels

Les transcriptions utilisent des conventions diverses, guidées par des traditions, des écoles, des manuels établis dans le cadre de projets

Page 17: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Les métadonnéesLes métadonnées

Choix du format OLAC OLAC (Open Language Archives Community). Schéma XML basé

sur le Dublin-Core qualifié avec des ajouts de vocabulaires contrôlés (types de discours, types linguistiques, rôles, domaines linguistiques)

Dans la mesure du possible, nous avons encouragé l'utilisation de vocabulaires contrôlés (ceux de OLAC, les vocabulaires ISO pour les langues et les régions, le TGN).

Page 18: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Fonction de conservationFonction de conservation

Page 19: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La conservationLa conservation

Conservation des documents numériques Dans la plateforme Cocoon

Ne sont pris en charge que les documents numériques (enregistrements, annotations, documentation). Les données sont

➔ dans un premier temps stockées et sécurisées sur la plateforme➔ puis confiées à l'opérateur d'archivage de la TGIR Huma-Num (CINES) qui prend

la responsabilité de la conservation des informations pendant une période dite intermédiaire

➔ avant de la confier aux Archives nationales pour une conservation définitive

Page 20: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La conservationLa conservation

Conservation des supports d'origine Dans le cadre d'une collaboration avec la BnF

Les anciens supports analogiques ainsi que les autres documents papier constituant un fond d'archives peuvent être confiés à la BnF qui en fait un inventaire, une description et un signalement à travers son catalogue BAM « Bnf Archives et Manuscrits ». Les documents audio sont numérisés afin d'assurer la conservation des informations. La communication est assurée en salle chercheur et par Cocoon pour la communauté scientifique.

Page 21: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

Fonction de diffusionFonction de diffusion

Page 22: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Diffusion par l'interface OAI Moissonné par des fournisseurs de service qui offrent ensuite un moteur de

recherche (OLAC, Isidore…), par des producteur pour récupérer les métadonnées dans leurs portails (IHTP/Koha, CRBC/Omeka…), par des portails thématiques (DGLFLF/langues de France; Région-Bretagne/Bretania.bzh…)

Page 23: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Diffusion par le portail web de Cocoon Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage des métadonnées Consultation multimédia

Page 24: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Mashups par rapprochement avec des référentiels externes (VIAF, Rameau, Dbpedia, Geonames)

➔ VIAF + BnF + HAL + Abes➔ Dbpedia + Geonames

Page 25: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Re-exposition des métadonnées en RDF (en cours...)

Page 26: Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ... Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage

Laboratoire ligérien de linguistique

LiensLiens

Cocoon http://cocoon.huma-num.fr