Transcript

Signalement, accs, et mise disposition des donnes numriques de la recherche en SHS

rechercheisidore.fr

Stphane POUYLLAU, Ingnieur de recherche au CNRS

Directeur de Corpus-IR (UMS 3534)

Responsable du projet ISIDORE - TGE Adonis

Twitter @spouyllau Email [email protected]

Adonis

- Adonis est un trs grand quipement pour les sciences humaines et sociales- Acteur de la feuille de route ESFRI (DARIAH)- Missions 2012-2015:

- Accs aux donnes et documents numrique des SHS (ISIDORE)- Grille de services: hbergement web; stokage de donnes; Archivage long terme (OAIS / CINES-SIAF)

- Site: www.tge-adonis.fr- Contact: [email protected]

Corpus-IR

- Corpus-IR (trs grande Infrastructure de Recherche) est un rseau d'quipes produisant des corpus numriques de sources:- quipes (UMR, EA, etc.) - consortiums disciplinaires (mais pas que)- 12 consortiums 15 consortiums

- Financement de la production de corpus (numrisation; documentation; diffusion des donnes)- Points cls: qualit des mtadonnes; diffusion obligatoire des mtadonnes; diffusion selon des formats ouverts et normaliss (ISIDORE; Gallica; Europeana)

Corpus-IR

- Acteur de la feuille de route ESFRI (CLARIN)- UMS 3534 (Aix Marseille Universit et CNRS)Paris / Marseille

- Contact: www.corpus-ir.fr

Des corpus... Isidore de Sville? Mais de quoi parle-t-il ?

Photos: SP. 2006.

Photos: SP. 1999-2009.

Photos: SP. 2006.

Production de donnes sources

- Sources? Donnes et matriaux numriques souvent non dits/ditables (cots, place, droits)- Monde numrique (capteurs; photos; enregistrements; GPS; enqutes en ligne; numrisation de sauvegarde...)- Utilisation et r-utilisation? Reconnaissance du travail de collecte et de cration de corpus- Valorisation des fonds documentaires

ISIDORE et les fonds d'archives

Mettre en place l'environnement pour relier donnes de la recherche et publications

- Faciliter l'administration de la preuve scientifique

ISIDORE est un outil pour les communauts scientifiques

ISIDORE est un outil de signalement et d'accs

- Exposition gnrique des donnes

- Importance de la qualit des mtadonnes

ISIDORE est un moteur de recherche; un site web; un point d'accs des mtadonnnes enrichies et relies aux publications scientifiques

ISIDORE est un site web... avec une

+ de 1000 sources de donnes moissonnes

+ de 1.300.000 ressources indexs

Hypothses sur les modes accs

- volumes des donnes- l'organisation des donnes- catgorisation des donnes

Quelques chiffres

Dbut du projet: mai 2009

Ouverture: dc. 2010

Version 1: mars 2011Version 1.2: dc. 2011

Version 2: sept. 2012

+ 1.700.000 de ressources numriques: archives et corpus, actualits scientifiques publications, etc.

+ 1600 sources de donnes

+ 60000 visiteurs uniques / mois

Participer ISIDORE?

DonnesDonnesDonnesDonnes

RfrentielsRfrentiels

Rfrentiels

Fonctionnement gnral (1)

Donnes

Collecte(crawl)Traitements

Accs(API et facettes)

Gestion, Monitoring, StatistiquesUtilisateurs

RfrentielsNormaliss (RDF/SKOS)

SPARQL endpoint pour les producteurs de donnesFonctionnement gnral (2)

rechercheisidore.frExtension de recherche sur les catalogues de bibliothques (SRU/SRW - Z3950)DonnesDonnesDonnesOAI-PMHRDFaRSSEnrichissement des des mtadonnes et donnes(format pivot RDF) RfrentielsRfrentiels

ISIDOREPactolsRameauGeonames(lieux)Thsaurus W (SIAF)Lexvo(langues)RfrentielsHALSHS(personnes,disciplines)OpenEditionCalenda.org(catgories)

Isidore dans le nuage du web smantique

Principes du projet

- Implication des oprateurs SHS produisant des donnes (non-dites, sources dites, publications)

- Utilisation de standards internationaux

- Formats ouverts (indpendance vis vis de fournisseurs de donnes)

- Mise en valeur des donnes, mtadonnes, rfrentiels structurs produits par les quipes.

- Dveloppement et mode de fonctionnement itratif

Aspects documentaires

- ISIDORE collecte des mtadonnes et indexe le texte intgral ou les donnes embarques (IPTC; XMP; MS Word; MS Excel; ODT; MPEG 7)- mtadonnes (OAI-PMH + Dces / DC Terms)- actulits (RSS; Atom)- donnes (RDFa = RDF dans une page web)

Aspects ditoriaux (1)

- ISIDORE collecte tous les types de donnes (publications; corpus; actualits scientifiques)- L'important dans ISIDORE: l'information- la question du bibliographique

- Annuaire des sources: http://www.rechercheisidore.fr/annuaire

- Ils participent: Open Edition; Erudit; Cairn; Persee; CCSD (HAL-SHS, MdiHAL); plate-forme de MSH ; UQAM; UOH; Cerimes; Gallica/BNF; ABES...

Aspects ditoriaux (2)

-ISIDORE affecte aux mtadonnes moissonnes des identifiants prennes (handle) ce qui permet de citer les notices d'ISIDORE et donc les ressources- Si le producteur dj donn un id. prenne (DOI, ark, handle, OAI)=> ISIDORE peut r-exposer celui du producteur

- Dans tous les cas, les handle ISIDORE sont votre disposition (producteurs, utilisateurs)=> C'est un service gratuit

Alors? Et vous?

En tous cas, nous vous attendons dans ISIDORE...

et merci pour votre attention!