Corpus numériques et SHS : infrastructures, outils, ISIDORE

Preview:

DESCRIPTION

 

Citation preview

Signalement, accès, et mise à disposition des données numériques de la recherche en SHS

rechercheisidore.fr

Stéphane POUYLLAU, Ingénieur de recherche au CNRSDirecteur de Corpus-IR (UMS 3534)

Responsable du projet ISIDORE - TGE AdonisTwitter @spouyllau – Email stephane.pouyllau@corpus-ir.fr

Adonis

- Adonis est un très grand équipement pour les sciences humaines et sociales

- Acteur de la feuille de route ESFRI (DARIAH)

- Missions 2012-2015 :

- Accès aux données et documents numérique des SHS (ISIDORE)

- Grille de services : hébergement web ; stokage de données ; Archivage à long terme (OAIS / CINES-SIAF)

- Site : www.tge-adonis.fr

- Contact : contact@tge-adonis.fr

Corpus-IR

- Corpus-IR (très grande Infrastructure de Recherche) est un réseau d'équipes produisant des corpus numériques de sources :

- Équipes (UMR, EA, etc.)

- consortiums « disciplinaires » (mais pas que)

- 12 consortiums à 15 consortiums

- Financement de la production de corpus (numérisation ; documentation ; diffusion des données)

- Points clés : qualité des métadonnées ; diffusion obligatoire des métadonnées ; diffusion selon des formats ouverts et normalisés (ISIDORE ; Gallica ; Europeana)

Corpus-IR

- Acteur de la feuille de route ESFRI (CLARIN)

- UMS 3534 (Aix Marseille Université et CNRS)

● Paris / Marseille

- Contact : www.corpus-ir.fr

Des corpus... Isidore de Séville ? Mais de quoi parle-t-il ?

Photos : SP. 2006.

Photos : SP. 1999-2009.

Photos : SP. 2006.

Production de données « sources »

- Sources ? Données et matériaux numériques – souvent non édités/éditables (coûts, place, droits)

- Monde numérique (capteurs ; photos ; enregistrements ; GPS ; enquêtes en ligne ; numérisation de sauvegarde...)

- Utilisation et ré-utilisation ? Reconnaissance du travail de collecte et de création de « corpus »

- Valorisation des fonds documentaires

   

ISIDORE et les fonds d'archives

Mettre en place l'environnement pour relier données de la recherche et publications

- Faciliter l'administration de la preuve scientifique

ISIDORE est un outil pour les communautés scientifiques

ISIDORE est un outil de signalement et d'accès

- Exposition générique des données

- Importance de la qualité des métadonnées

ISIDORE est un moteur de recherche ; un site web ; un point d'accès à des métadonnnées enrichies et reliées aux publications scientifiques

   

ISIDORE est un site web... avec « une »

+ de 1000 sources de données moissonnées

+ de 1.300.000 ressources indexés

   

Quelques chiffres

Début du projet : mai 2009

Ouverture : déc. 2010

Version 1 : mars 2011

Version 1.2 : déc. 2011

Version 2 : sept. 2012

+ 1.700.000 de ressources numériques : archives et corpus, actualités scientifiques publications, etc.

+ 1600 sources de données

+ 60000 visiteurs uniques / mois

   

Participer à ISIDORE ?

   

Données

Données Données

Données

RéférentielsRéférentiels

Référentiels

Fonctionnement général (1)

Données

Collecte(crawl)

Traitements Accès(API et facettes)

Gestion, Monitoring, Statistiques

Utilisateurs

RéférentielsNormalisés (RDF/SKOS)

SPARQL endpoint pour les producteurs de données

Fonctionnement général (2) rech

erc

heis

idore

.fr

Extension de recherche sur les catalogues de bibliothèques (SRU/SRW - Z3950)

Données

Données

Données

OAI-PMH

RDFa

RSS

Enrichissement des des métadonnées

et données(format pivot RDF)

Référentiels Référentiels

ISIDORE

Pactols

Rameau Geonames(lieux)

Thésaurus W (SIAF)

Lexvo(langues)

RéférentielsHALSHS

(personnes,disciplines)

OpenEditionCalenda.org(catégories)

Isidore dans le nuage du web sémantique

   

Principes du projet

- Implication des opérateurs SHS produisant des données (non-éditées, sources éditées, publications)

- Utilisation de standards internationaux

- Formats ouverts (indépendance vis à vis de fournisseurs de données)

- Mise en valeur des données, métadonnées, référentiels structurés produits par les équipes.

- Développement et mode de fonctionnement itératif

   

Aspects documentaires

- ISIDORE collecte des métadonnées et indexe le texte intégral ou les données « embarquées » (IPTC ; XMP ; MS Word ; MS Excel ; ODT ; MPEG 7)

- métadonnées (OAI-PMH + Dces / DC Terms)

- actulités (RSS ; Atom)

- données (RDFa = RDF dans une page web)

   

Aspects éditoriaux (1)

- ISIDORE collecte tous les types de données (publications ; corpus ; actualités scientifiques)

- L'important dans ISIDORE : l'information

- la question du « bibliographique »

- Annuaire des sources : http://www.rechercheisidore.fr/annuaire

- Ils participent : Open Edition ; Erudit ; Cairn ; Persee ; CCSD (HAL-SHS, MédiHAL) ; plate-forme de MSH ; UQAM ; UOH ; Cerimes ; Gallica/BNF ; ABES...

   

Aspects éditoriaux (2)

-ISIDORE affecte aux métadonnées moissonnées des identifiants pérennes (handle) ce qui permet de citer les « notices » d'ISIDORE et donc les ressources

- Si le producteur à déjà donné un id. pérenne (DOI, ark, handle, OAI)

=> ISIDORE peut ré-exposer celui du producteur

- Dans tous les cas, les handle ISIDORE sont à votre disposition (producteurs, utilisateurs)

=> C'est un service gratuit

   

Alors ? Et vous ?

   

En tous cas, nous vous attendons dans ISIDORE...

… et merci pour votre attention !