Cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ......

Preview:

Citation preview

Laboratoire ligérien de linguistique

Cocoon, une plateforme pour la Cocoon, une plateforme pour la conservation et la diffusion de ressources conservation et la diffusion de ressources orales en sciences humaines et socialesorales en sciences humaines et sociales

Michel Jacobson (LLL), Flora Badin (LLL) et Séverine Guillaume (LACITO)« 8es Journées Internationales de Linguistique de Corpus »Du 2 au 4 septembre 2015 à Orléans

Laboratoire ligérien de linguistique

PLANPLAN

Le périmètre des ressources prises en charge Critères

Quelques chiffres

Diversité des données déposées/collectées

Un exemple

La plateforme de gestion Cocoon Historique

Les choix de codage

Les fonctionnalités

Laboratoire ligérien de linguistique

Le périmètre des donnéesLe périmètre des données

Les ressources orales prises en charge Des enregistrements de parole

Collectés par des chercheurs en sciences humaines dans l'objectif d'étudier les langues et la parole, ou comme moyen d'enquête, ou comme technique de prise de notes, etc.

Principalement audio, mais aussi vidéo, mesures physiologiques... Enregistrements parfois accompagnés d'annotations (transcriptions, traductions…) Enregistrements documentés (métadonnées décrivant le contexte, le contenu, la

forme, les droits…)

Laboratoire ligérien de linguistique

Quelques chiffres sur les donnéesQuelques chiffres sur les données

Ressources orales dans Cocoon Plus de 10 000 enregistrements

principalement audio, vidéo (par ex : langues des signes ; interactions avec des enfants ; interactions au

travail) mesures physiologiques : électroglotogramme pour des études phonétiques

Plus de 3 000 transcriptions

Environ 5 000 heures

128 langues représentées (136 avec les ressources en préparation)

Laboratoire ligérien de linguistique

Quelques chiffresQuelques chiffres

Une grande diversité Des lieux d'enquête

Des langues

Des genres

Des disciplines

...

Laboratoire ligérien de linguistique

Diversité géographiqueDiversité géographique

Répartition géographique des lieux d'enquête

Laboratoire ligérien de linguistique

Diversité géographiqueDiversité géographique

Zoom

Laboratoire ligérien de linguistique

Diversité linguistiqueDiversité linguistique

Langues Environ 128 langues distinctes

Exemple des langues enregistrées en Nouvelle-Calédonie

Genres Récits, conversations, discours,

lecture, interviews, chansons…

Disciplines Phonétique/phonologie,

description des langues, syntaxe, histoire...

Laboratoire ligérien de linguistique

Situations d'enquêteSituations d'enquête

laboratoire, terrain, famille, milieu professionnel...

Laboratoire ligérien de linguistique

Un exemple de ressourceUn exemple de ressource

Un enregistrement de ESLO

Laboratoire ligérien de linguistique

La plateforme CocoonLa plateforme Cocoon

Laboratoire ligérien de linguistique

HistoriqueHistorique

De 2006 à aujourd'hui création par le CNRS de « Centres de ressources numériques »

CRN sur les données orales, les informations géographiques, l'écrit et les lexiques, les sources visuelles…

mise en place et alimentation d'un entrepôt pour les données orales en SHS (CRDO)

mise en place d'un circuit d'archivage pérenne avec le TGE-Adonis Groupe de travail du TGE-Adonis regroupant : les centres de calcul du CINES et de

l'IN2P3, le CRDO, la DAF

2012 CRDO-Paris = Cocoon (Collections de corpus oraux numériques)

Laboratoire ligérien de linguistique

La plateforme CocoonLa plateforme Cocoon

Utilisation de la grille de services d'Huma-Num L'infrastructure (celle du Centre de calcul de l'IN2P3) pour le stockage sécurisé et

l'hébergement des services La plateforme du CINES (PAC) pour la pérennisation des informations pendant une

période intermédiaire puis à terme celle des Archives nationales

Une offre de services pour les SHS Se veut compatible/complémentaire de l'Equipex Ortolang (échanges en cours) Stockage de données : mutualisation pour des volumes importants (en To) Sécurisation des données : Redondance, contrôle de l'intégrité, horodatage, contrôle

des accès, analyses qualité Identification des ressources : identifiant pérennes (OAI, ARK) et de permaliens

(HANDLE, PURL) Accès / diffusion : Entrepôt OAI, serveur Web, référencement Pérennisation à long-terme : PAC → Archives nationales

Laboratoire ligérien de linguistique

Les choix de codageLes choix de codage

Laboratoire ligérien de linguistique

Les enregistrementsLes enregistrements

Identification des formats et codages acceptables (liste établie dans le cadre d'une étude avec le CINES). Formats cibles : Audio : WAV/PCM ou FLAC

Vidéo : MPEG-4/H-264/AAC ou MKV/H-264/FLAC

Transcriptions : XML/UTF-8 validé par un schéma ou une DTD ou TEXT/UTF-8 ou PDF

Définition de qualité plancher : Par exemple pour l'audio : Fréquence d'échantillonnage ≥

44100Hz ; Taille de l'échantillon ≥ 16 bits

Laboratoire ligérien de linguistique

Les transcriptionsLes transcriptions

Utilisation de logiciels métier : Transcriber, CLAN, ELAN, Praat...

Point commun à ces formats : permettre de coder des annotations bornées par des jalons temporels

Les transcriptions utilisent des conventions diverses, guidées par des traditions, des écoles, des manuels établis dans le cadre de projets

Laboratoire ligérien de linguistique

Les métadonnéesLes métadonnées

Choix du format OLAC OLAC (Open Language Archives Community). Schéma XML basé

sur le Dublin-Core qualifié avec des ajouts de vocabulaires contrôlés (types de discours, types linguistiques, rôles, domaines linguistiques)

Dans la mesure du possible, nous avons encouragé l'utilisation de vocabulaires contrôlés (ceux de OLAC, les vocabulaires ISO pour les langues et les régions, le TGN).

Laboratoire ligérien de linguistique

Fonction de conservationFonction de conservation

Laboratoire ligérien de linguistique

La conservationLa conservation

Conservation des documents numériques Dans la plateforme Cocoon

Ne sont pris en charge que les documents numériques (enregistrements, annotations, documentation). Les données sont

➔ dans un premier temps stockées et sécurisées sur la plateforme➔ puis confiées à l'opérateur d'archivage de la TGIR Huma-Num (CINES) qui prend

la responsabilité de la conservation des informations pendant une période dite intermédiaire

➔ avant de la confier aux Archives nationales pour une conservation définitive

Laboratoire ligérien de linguistique

La conservationLa conservation

Conservation des supports d'origine Dans le cadre d'une collaboration avec la BnF

Les anciens supports analogiques ainsi que les autres documents papier constituant un fond d'archives peuvent être confiés à la BnF qui en fait un inventaire, une description et un signalement à travers son catalogue BAM « Bnf Archives et Manuscrits ». Les documents audio sont numérisés afin d'assurer la conservation des informations. La communication est assurée en salle chercheur et par Cocoon pour la communauté scientifique.

Laboratoire ligérien de linguistique

Fonction de diffusionFonction de diffusion

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Diffusion par l'interface OAI Moissonné par des fournisseurs de service qui offrent ensuite un moteur de

recherche (OLAC, Isidore…), par des producteur pour récupérer les métadonnées dans leurs portails (IHTP/Koha, CRBC/Omeka…), par des portails thématiques (DGLFLF/langues de France; Région-Bretagne/Bretania.bzh…)

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Diffusion par le portail web de Cocoon Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage des métadonnées Consultation multimédia

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Mashups par rapprochement avec des référentiels externes (VIAF, Rameau, Dbpedia, Geonames)

➔ VIAF + BnF + HAL + Abes➔ Dbpedia + Geonames

Laboratoire ligérien de linguistique

La diffusionLa diffusion

Re-exposition des métadonnées en RDF (en cours...)

Laboratoire ligérien de linguistique

LiensLiens

Cocoon http://cocoon.huma-num.fr

Recommended