67

Qu’est - helios.mi.parisdescartes.frhelios.mi.parisdescartes.fr/~lomn/Data/idv/IDVIDEO/IDV_support_e... · Affaire Diederik Stapel –Psychologie sociale –2011 Affaire YoshikiSasai

  • Upload
    vumien

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

� Qu’est-ce qu’une donnée ?

� Qu’est-ce qu’un jeu de données ?

� Que sont les métadonnées ? (voir sur le site du DRS)

� Qu’entend-t-on par gestion des données ?

« Les données, ou unités d’information, qui sont créées

au cours d’une recherche, subventionnée ou non, et qui

sont organisées ou formatées de telle sorte qu’ellessoient communicables, interprétables et adaptées à un

traitement souvent informatisé ».

Université de Bristol

« Les données de la recherche sont des enregistrements

factuels (chiffres, textes, images et sons) utilisés comme

sources principales pour la recherche scientifique et

généralement reconnus par la communauté scientifique

comme nécessaires à la validation des résultats de

recherche »

Organisation de Coopération et de Développement Économiques (OCDE)

« Les données de la recherche sont l’ensemble des

informations et matériaux produits et reçus par des

équipes de recherche et des chercheurs. Elles sont

collectées et documentées à des fins de recherche

scientifique. A ce titre, elles constituent une partie des

archives de la recherche. »

Association des archivistes français. Section « Aurore »

« 1) the data, including associated metadata (i.e. the

metadata describing the research data deposited), needed to

validate the results presented in scientific publications ;

2) other data (i.e. curated data not directly attributable to a

publication, or raw data), including associated metadata.»

Commission européenne pour Horizon 2020

« Les données de la recherche sont un ensemble

d’informations factuelles enregistrées sur des supports,

produites ou collectées, selon divers procédés au cours

d’un processus de recherche »

Définition du groupe de travail P5/P7

Le jeu de données

Selon le projet, un jeu de données peut recouvrir des réalités

différentes. Un ou plusieurs jeu(x) de données peuvent être

lié(s) au projet de recherche, et désigner :

i) un lot techniquement homogène,

ii) un lot intellectuellement cohérent même si celui-ci est

composé de lots techniquement hétérogènes.

Définition du groupe de travail P5/P7

BIG DATA Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.

Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.

Exemples de projets concernés : 9 séquençage haut débit9 observatoire virtuel en astronomie9 simulation en physique et énergie9 imagerie médicale9 données environnementales biotiques /abiotiques9 données économiques (e-commerce, systèmes

décisionnels)9 données sociales (réseaux sociaux, bibliothèques

numériques, patrimoines culturels)

2012 : lancement des appels à projets « Grandes masses de

données scientifiques » - MASTODONS

OPEN DATAMouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables.Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques. En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.• Directive 2003/98/CE• Ordonnance n°2005-650 du 6 juin 2005 • Directive 2013/37/UE

RESEARCH DATAEnregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Définition de l’OCDE

BIG DATA

RESEARCH DATA

OPEN DATA

OPEN RESEARCH DATA

Data management Open dataVS.

Diffusion de manière structurée selon une méthode et une licence ouvertedes données pour leur libre accès et

leur réutilisation par tous, sans restriction technique, juridique ou financière.

Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement

les besoins de la recherche sur tout au long du cycle de vie des données

Début du projet Fin du projet

Enjeux juridiques, économiques, scientifiques …

Brevets, CNIL, secret défense, concurrences, droit d’auteurs …

Dépôt en archives ou entrepôts ouverts

Archivage auprès d’un organisme agréé

Données en appui des publications ou OK pour diffusion.

Autres données produites au cours du projet. Pas de diffusion.

Données publiées

Données retenues

Données traitées

Données produites

Données exploitées pour l’élaboration des résultats

Données analysées, agrégées, compilées, transformées

Données primaires produites ou collectées au cours de la recherche

Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne.

Perte d’information importante au cours du processus de publication

Publications fréquentes de résultats erronés dans degrandes revues à comité de lecture et fort facteurd’impact

� Affaire Hendrick Schön – Chimie de la matière condensée - 2001

� Affaire Diederik Stapel – Psychologie sociale – 2011� Affaire Yoshiki Sasai (cellule STAP) – 2014� Les corrélation abusives etc.

Le libre accès aux publications et aux données associées facilite :

9 Une vérification des résultats obtenus grâce à la possibilité de rejouer les données

9 Un meilleur recensement par les logiciels de détection anti-plagiat type Compilatio (utilisé pour les thèses à Paris Descartes)

9 Une meilleure diffusion auprès des pairs par une visibilité accrue auprès des moteurs de recherche

Lancement d’un Open research data pilot : 1) Produire un plan de gestion des données, 2) Déposer les données et métadonnées dans un entrepôt de données. Pour les ERC : recommandations

“Open research data represents a revolution in the way research is conducted and LERU both notes and endorses this development. […] Universities need to note the move to data- driven research and take appropriate actions”

Motion adoptée par la CP2U du 1er Octobre 2015 : La CPU tient à réaffirmer que […] les données de la science doivent être érigées en données d’intérêt général. […] science ouverte se fonde sur l’accès ouvert aux publications (open access), l’accès ouvert aux données de la recherche (open data) et à la libre réutilisation des publications et des données à des fins de recherche.

Plan d’action 2016 de l’ANR et appels à projet génériqueLes chercheurs sont encouragés à tirer parti, lorsque cela est possible, des infrastructures et des grandes bases de données existantes, et de promouvoir leurs résultats en « open access »

SHERPA / JULIET : Research funders' open access policies

SHERPA/FACT : Funders and authors compliance tool

« linked open data »

Financement public de la

recherche (locaux, crédits,

bourses, matériels etc.)

Jeux de données

Université

ROI négatif ROI positif

Chercheur(se)

Editeurs commerciaux

Archives ouvertes

1x

2x

2x

Développement et revente de produits et services commerciaux à partir de données évaluées et mises à disposition gratuitement ou à leur frais par les chercheurs et leurs institutions.

• Concevoir de nouvelles infrastructures et de nouvelles méthodes de traitement

• Obtenir les financements

• Disposer des espaces de stockage à moyen terme

• Garantir l’archivage à long terme (sélection)

• Développer des outils de visualisation

• Identifier les besoins de formations et les nouvelles compétences

• Gérer les données personnelles et les questions juridiques associées

• décrire le cycle de gestion et de vie des données produites,collectées ou générées tout au long du projet de recherche.

• anticiper les questions de gestion qui surviennent au cours d’unerecherche et les conditions d’une conservation et diffusion futuredes données.

Un plan de gestion de données est un document formelprécisant la manière dont seront produites, traitées, décrites,diffuser et conserver les données au cours et à l’issue du projet.

Il permet de :

Section 1 : Informations relatives au projet

Section 2 : Responsabilité des données : répartition des rôles

Section 3 : Ressources nécessaires à la mise en œuvre du PGD

Section 4 : Jeux de données

4.1 Description du jeu de données4.2 Stockage, accès et sécurité des données – au cours du projet4.3 Métadonnées : documentation et organisation des données4.4 Dissémination des jeux de données – à l’issue du projet

Section 5 : Sélection et archivage – obligatoire que les données soient diffusées ou non

Valable pour

l’ensemble du projet

Valable

pour

l’ensemble du projet

Propre à

chaque jeu

de données

Un jeu de données est un ensemble de données techniquement homogènes ou intellectuellement cohérentes.

Le DMP est un document

prospectif et évolutif destiné à

être enrichi à mesure de

l'avancement du projet.

17

Fo

rma

tio

n a

ux

corr

esp

on

da

nts

Eu

rop

e -

SP

C

Téléchargerle guide

S’inscrireS’inscrire

Télécharger

le template

Le DMP, un livrable pour les projets pilote H2020 :

• attendu dans les 6 premiers mois de la vie du projet (des améliorations du DMP peuvent également faire l’objet de livrables subséquents) ;

• obligatoire dans les projets inscrit au pilote Open ResearchData

• pas contenu dans la proposition de projet soumise et ne fait pas partie de l’évaluation.

En revanche, dans les actions de recherche et d’innovation (RIA) et et les actions d’innovation (IA) le "template proposal" inclut une section management des données de recherches, évaluée sous le critère "impact".

• Coordination (projet collaboratif)

• Analyse et gestion des risques (informatique, juridique, économique, scientifique, humain etc.)

• Prise en compte du cycle de vie de la donnée

• Anticipation et optimisation des coûts (éligibilité)

• Monitoring des besoins et activités

Plannifier

Produire/ Collecter

Stocker

Décrire Préserver / Archiver

Intégrer

Analyser

Rédaction d’un DMP

Mise en place d’espaces serveur sécurisés pour accéder au document. Ajout des métadonnées de gestion

Documenter les données pour permettre leur réutilisation. Ajout des métadonnées descriptives (diffusion) normées et structurées

Recherche de données , procédés semblables ou complémentaires. Métadonnées d’observation

Archiver pour garantir la pérennité de l’accès et de la compréhension des données. Ajout de métadonnées de préservation

Réutilisation

Diffusion

Idée de la recherche

Demande de financement

Projet financé

Données de la recherche

Publications scientifiques

Rapport final

� Identifiant pérenne (DOI, Handle) � Indexées

� En ligne sur le web� Gratuites

� Validées� Décrites , documentées� Normalisées (ontologie)

� Entrepôts ouverts� Protocoles moissonnables

� Licence libres� Formats non propriétaires� Archivage pérenne

Métadonnées

Jérémy Lasbleiz. Utilisation des ontologies dans le contexte de l'Imagerie par Résonance Magnétique. Ingénierie biomédicale. Université Rennes 1, 2013. Français. <NNT : 2013REN1B017>. <tel-00950357>

(appariable à SNOMED-CT et DICOM)

Un ontologie est un ensemble structuré des termes et concepts représentant le sens d'un champd'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domainede connaissances. Les ontologies sont employées dans Web sémantique, le génie logiciel,l'informatique biomédicale ou encore l'architecture de l'information comme une forme dereprésentation normalisée de la connaissance au sujet d'un monde ou d'une certaine partie de cemonde.

Types de données Définitions Valeur et spécificité Exemples

Données d’observation (Observational datas)

Données obtenues en

temps réel

Souvent uniques et

irremplaçables

Données

atmosphériques,

d’enquêtes, échantillons,

neuro-image

Données expérimentales(Experimental datas)

Données obtenues en

laboratoire à partir

d’équipements spécifiques

Reproductibles mais à des

coûts dissuasifs

Séquence de génome,

chromatographie,

spectres RMN

Données de simulation(Simulation datas)

Données générées à

partir de modèles test

Métadonnées et modèles

ont une valeur supérieure

aux résultats

Modèles climatiques,

modèles économiques

Données dérivées ou compilées(Derived or compiled data)

Données obtenues par

compilations ou

traitement des données

brutes

Reproductibles mais à des

coûts dissuasifs

Texte et data mining,

bases de données

compilées, modèles 3D

Données de référence ou données canoniques(Reference or canonical

datas)

Collections statiques ou

organiques de jeux de

données validées

Données publiées ou qui

ont fait l’objet d’une curation

Banque de données sur

le génome, structures

chimiques, portail de

données spatiales

Pratiques disciplinaires

Organismes de financement

Établissements de recherche

Éditeurs

Partage des données inscrit dans les

pratiques de recherche dans certaines

disciplines (ex. : astronomie, génétique,

environnement)

Financements conditionnés par le

respect de certaines règles relatives à la gestion et au partage des données

Politiques institutionnelles définissant

les conditions dans lesquelles doivent

être conservées et rendues accessibles

les données

Obligation de dépôt dans une archive

ouverte des données sur lesquelles reposent les conclusions d’un article +

data journals

ChercheursInitiatives personnelles de mise à

disposition de la communauté

scientifique de ses données (site web,

page perso, réseaux socio.)

Motivations Exemples d’entrepôts

Entrepôts disciplinaires

Entrepôts communautaires / réseaux sociaux

Entrepôts institutionnels

Entrepôts d’éditeurs, partenaires ou recommandés

Au

stralia

nN

atio

na

l Da

ta S

erv

ice

Scientific Data

(Nature)• to expose datasets

• fulfil funder requirements to make research data outputs publically

available

• provide accessible, resolvable and permanent access to research data

• provide citable references to data outputs that can be added to your

professional profile including CVs

• enable the generation of citation metrics for research data by services

such as the recently established Thomson Reuters Data Citation Index

Titre journal Éditeur Référencement

Bealllist

OA Coût APC

Date début

Journal of Physical and Chemical Research Data

AIP WoS non - - 1972-

Genomics Data Elsevier WoS non OA €448.6

2013-

Journal of Open Psychology Data

Ubiquity Press

- non OA € 130 2013-

Scientific Data Nature PubMed non OA € 1 050

2014-

Geoscience Data Journal

Wiley WoS non OA € 1 200

2014-

Research Data Journal for the Humanities and Social Sciences

Brill - non OA - 2016-

Instructions aux auteurs

� thèmes / langage(s) / longueur / style de références

� liste d’entrepôts recommandés

Titre, résumé, mots-clé, références

Texte :

�Contexte de la recherche

�Méthode : échantillon, materiel, procédures, contrôle qualité,

questions éthiques

�Description du/des jeu(x) de données

�Bibliographie

Article : texte + un lien vers le jeu de données décrit + matériaux

supplémentaires (illustrations, tableaux , vidéos, sons , etc.)

Un identifiant unique et pérenne est mécanisme d'identification de ressourcesayant vocation à faciliter la gestion numérique sur le long terme de toute chose enassociant des métadonnées. Les métadonnées peuvent évoluer au cours dutemps, mais l'identifiant reste invariant.

Depuis 2012, le système d'identifiant numérique d'objet a été normalisé sous laforme de la norme ISO 26324.Ex. : URI, Handle, ARK etc.

Point de contact France

INIST-CNRS

Irino, T; Tada, R (2009): Chemical and mineral compositions of sedimentsfrom ODP Site 127‐797. Geological Institute, University of Tokyo.http://dx.doi.org/10.1594/PANGAEA.726855

Geofon operator (2009): GEFON event gfz2009kciu (NW Balkan Region). GeoForschungsZentrum Potsdam (GFZ).http://dx.doi.org/10.1594/GFZ.GEOFON.gfz2009kciu

Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF‐Ensemble runby DWD for the MAP D‐PHASE project. World Data Center for Climate.http://dx.doi.org/10.1594/WDCC/dphase_mpeps

Consortium international opérant comme

agence d’enregistrement de DOI. Objectifs� Promouvoir des normes et bonnes

pratiques relatives à la citation des

données

� Soutenir l’archivage de données pour rendre possible le contrôle des résultats de

la recherche et leur réutilisation.

L’Inist-CNRS est l’institution membre de DataCite pour la France.

Garantir la récupération, l’intégrité et la compréhension des données préservées.

Documenter autant que possible la démarche de recherche, le contexte de production des données et leur mode de traitement. Cela implique de préserver également les :

- Outils de mesure, paramétrage - Algorithmes de traitement, modélisation etc. - Formats des données- Programme et outils de visualisation- Ontologie et éléments de vocabulaire ou d’indexation

http://esante.gouv.fr/services/referentiels/securite/hebergeurs-agrees

Code de la santé publique : articles L1111-8, R1111-9 à R1111-15-1 et R1111-16 (relatifs àl’hébergement des données de santé à caractère personnel par des personnes physiques oumorales agréées à cet effet). Arrêté ministériel du 4 décembre 2009 précisant les normes relativesaux prestations en archivage et gestion externalisée.

Données papier

En application de l’article R.1111-16 du Code de la santé publique, lesprestataires agréés par le ministère de la culture pour la conservationd'archives publiques courantes et intermédiaires sur support papier le sontégalement, ipso facto, pour l'hébergement de données de santé à caractèrepersonnel sur support papier (et ce quel que soit le statut des archives sursupport papier, publiques ou privées, qui contiennent ces données de santé àcaractère personnel).

Données numériques

En revanche, l’hébergement de données de santé à caractère personnel sursupport informatique nécessite un autre agrément, accordé par le ministre dela santé (articles L.1111-8 et R.1111-9 à R.1111-15-1 du Code de la santépublique) – pour tout renseignement à ce sujet, on consultera le site del’Agence des systèmes d’information partagés de santé (ASIP Santé).

Libérer ses données ne signifie pas renoncer à toute forme de droit, de contrôle ou de protection sur les données.

Les licences

- Creative Commons : publications.- Licence ouverte Etalab (Open Licence) : données et publications.- Open Database Licence (ODbl) : base de données. - Open Data Commons Attribution License (ODC –By) : données et bases

de données.- GNU General Public License : logiciels et programmes informatiques

L’embargo

L’embargo est une protection temporaire permettant de remettre à un délai ultérieur lalibre diffusion et/ou réutilisation des données ou des publications. Sous réserved’obligation extérieure, le choix et les durée de l’embargo reviennent à l’auteur. Ex:les subventions H2020 impose un délai maximum de 6 mois d’embargo pour lespublications en sciences et 12 mois pour les SHS.

12/09/2014 Formation aux correspondants Europe SPC45

� Penser un projet structurant sur le long terme

� Susciter une dynamique de coopération en s’appuyant sur les compétences existantes

� Intégrer la gestion des données de la production à la mise à disposition

� Renforcer l’identité numérique de la ComUE à travers la valorisation des données de recherche

Planifier

Gérer & analyser

Disséminer

Découvrir & mesurer

Préserver & réutiliser

DMP

PLATEFORMENUMERIQUE

DATA REPOSRITORY

DISCOVERYALTMETRICS

PORTAIL

CINESPRESTATAIRE

Calculs intensifs traitement de

données chaudes

Signalement indexation et mesures

Données administrativesDonnées descriptives

Données juridiquesDonnées de gestion etc.

Dépôt des jeux de donnéesEnrichissement des métadonnées

Plateforme d’accès

Exposition des métadonnées Répertoire de données Exposition des données

Enrichissement

Dépôt des articlesGestion des accès

donnéesmétadonnées

Préservation des donnéesAccès ponctuel

Comment initier une réflexion institutionnelle en l’absence d’infrastructures et de volonté politique soutenue ?

Propositions

� Privilégier une approche pragmatique par projets

� Concevoir une approche collaborative

� Consolider, documenter et communiquer sur les initiatives de réflexion

Aurore CARTIERUniversité Paris Descartes Service commun de la [email protected]

51

Mentions légales :

http://fr.creativecommons.org/contrats.htm

Un exemple de plan de gestion de données

Présentation du projet : depuis mars 2011, le Centre de données socio-

politiques (CDSP) est fortement impliqué dans la mise en place de

l'équipement d'excellence DIME‐SHS, lauréat de l'appel à projets 2010 des

"investissements d'avenir". Cet équipement vise à doter la France d'une

nouvelle structure en matière de collecte, d’enrichissement et de diffusion

des données quantitatives, qualitatives et web. En particulier, il s’agit de

mettre en place le panel internet ELIPSS (Étude longitudinale par internet

pour les sciences sociales) constitué à partir d’un échantillon aléatoire de la

population résidant en France. Les propositions d'enquête se font lors

d’appels à projets. Ce sont les membres du Comité scientifique et

technique (CST) qui sont chargés de sélectionner les enquêtes administrées

aux panélistes.

projet « ELIPSS »

� Définition : Open Data / Data

management / Big Data

� Le DMP : qu’est ce que c’est / à quoi ça sert. Les questions à se

poser.

� Documenter / Préserver /

Disséminer

� Qu’est ce que peuvent vous apportez le BU et les archives :

� Signaler l’existence de votre projet � Préparer la préservation de ces données

(versement CINES)

� Disséminer les données : penser à la

licence