Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Ouverture des données : spécificités dans le domaine des Sciences Humaines et Sociales
Arnaud DA COSTA - Cyrinus ELEGBEDE
Plan de la présentation
Présentation de la MSH
AMI Grand débat organisé par l'ANRQuelques enjeux autour des données (contexte national)
Expérience en matière d'ouverture des données de la PUDD
Conclusion
La MSH de Dijon est une Unité de Services et de Recherche USR CNRS/uB 3516o inscrite dans le Réseau National des MSH (RNMSH)o fédère 16 laboratoires en SHS, soutien a visée de large diffusiono Comporte 3 plateformes :
• ADN• GeoBFC• PUDD
o Interactions très fortes avec les TGIR HumaNum et Progedo, le CCuBo (toutes) données chaudes de la MSH : CCuB, souplesse, fiabilitéo données froides de la Recherche : Huma-Num Box
Maison des Sciences de l'Homme de Dijon
Grand Débat : Appel à Manifestation d'Intérêt de l'ANRParticipation à cette journée pour présenter la proposition de Laurent Gautier (Directeur de TIL, directeur adjoint de la MSH et responsable scientifique de la Plateforme ADN)
Le Grand débat en chiffres :
• 10 134 Réunions d’initiatives locales organisées• retranscription nécessaire
• 1 932 884 Contributions en ligne
• 27 374 Courriers et courriels reçus
• 16 337 Communes ayant ouvert des cahiers citoyens• OCR ou retranscription manuelle nécessaire
Méthodologie des résultats présentés en avril 2019 par OpinionWay et al. (entreprises privés sollicitées pour raison de temps)
• utilise le logiciel Qwam "Spécialiste des données textuelles et de l'Intelligence Artificielle"
• nuages de mots, quelques co-occurences (associations de mots)
• provenance des contributions (localisation, zone urbaine/rurale)
• ...
Grand Débat : Appel à Manifestation d'Intérêt de l'ANR
Traitement par OpinionWay :
• "résultats" disponibles rapidement pour les politiques
• constitution partielle du corpus (métadonnées, paramétrage OCR, coût des transcriptions)
• la volumétrie semble avoir impacté le traitement
• traçabilité (algorithme non open source) et explicabilité du logiciel Qwam et des aspects Deep Learning
source : granddebat.fr
Proposition de Laurent Gautier : développer un outil de fouille textuelle à même de détecter, décrire, et catégoriser dans l’ensemble des contributions les phénomènes de • circulation de discours (reprise des paroles d'autrui)
• de fossilisation d’argument (topoï)• figements discursifs (stéréotypes langagiers, prêt-à-parler)susceptibles de donner lieu à des éclairages disciplinaires multiples : sociologie, histoire, science politique, aménagement, info-com, etc.
Parallèle avec le rôle qu’a joué le traitement textométrique des Cahiers de doléances de la Révolution Française dans une connaissance fine de cette période
(travaux des linguistes J. Guilhaumou, D. Maldidier, B. Schlieben-Lange, D. Slatka ou encore de l’historien P. Grateau)
Grand Débat : Appel à Manifestation d'Intérêt de l'ANR
Grand Débat : Appel à Manifestation d'Intérêt de l'ANR
28 mars, siège du CNRS, 52 présents répartis en 3 sous-groupes. L’ANR ne souhaitait pas que du bottom-up mais être une caisse de résonance sur les besoins des chercheurs (par ex : l’anonymisation)
Quelques remarques des chercheurs :
• age manquant dans une partie du corpus => pas de concertation avant établissement des questionnaires
• Anonymisation / Pseudonymisation : « je suis boulanger de tel village de 50 habitants » , « mon enfant a telle maladie orpheline » + région
Se sont dégagées deux phases :
1. agrégation des documents numériques et non numériques pour constitution de corpus "brut" pré-requis indispensable
2. analyse / interprétation des résultats => intervenants avec forte visibilité
Grand Débat : Appel à Manifestation d'Intérêt de l'ANR
Recherche de logique de collaboration (vs compétition) : ceux qui ont un mode opératoire efficace en 1ère phase sont tentés de ne pas partager pour conserver leur avance
Pistes envisagées par l'assemblée :
• nouveau type d’appel à projet avec des temporalités différentes :• aspects méthodologiques TAL en premier• ensuite les aspects plus spécifiques bénéficiant des données « raffinées »
• Data Challenge : la mise à disposition des « concurrents » en 1ère phase est imposée sur une plateforme, avec une plus-value pour celui dont les données auront été le plus réutilisées
• quel stockage avec quelle pérennité ?• quel niveau de description des données ?
Grand Débat : récapitulatif des problématiques et apports
La nécessité du temps long en SHS• Se donner le temps de bien faire les choses
• dans le cas du GD : notamment les transcriptions, classification• traiter (épurer) le corpus en fonction d'un projet scientifique (les données de Bretagne sont elles pertinentes pour une recherche sur la
qualité de vie en Bourgogne ?)
• Remises en question plus fréquentes que dans les sciences dures (vision de "la" resistance / "les" resistances)
• se permettre une interrogation sur le temps long ou une re-visite ultérieure/étude longitudinale
• Dépassionner les débats (personnes, pensée dominante, ...)
Partager "SES" données : problématiquesA quel moment ouvrir ses données ? Et a quelle population ?o Protection de l'Anonymisation, évolution la législation (enquêtes 70s VS RGPD )
o De la concurrence à la coopération
A qui appartiennent les données produites avec de l'argent public ? Dont les données dérivées ?
Comment documenter ses données ?
Ou stocker ses données pour quelle pérennité ? Quelles possibilités de traitement ?
Comment accéder (au catalogue des) aux données des autres
Enjeux du partage : validation scientifique par des pairs, constitution de corpus "référence", etc.
LA PLATEFORME UNIVERSITAIRE DE DONNEES DE DIJON
OUVERTURE DES DONNEES : EXPERIENCE DE
La PUDD : labellisation nationale de la TGIR PROGEDO
Un appui aux équipes dans leurs projets et collaborations de recherche reposant sur la collecte, le traitement et l'analyse de données ou la production de nouvelles bases de données
Des formations et de l'animation sur ce thème
Des outils mutualisés dédiés à la collecte, à l'analyse et à l'archivage des données
Objectifs
Hébergement et responsabilités
Plateforme portée et hébergée par la MSH de Dijon, USR UB CNRS 3516
Responsable scientifique : Jimmy Lopez , MCF en sciences économiques au LEDi
La Très grande infrastructure de recherche PROGEDO
source : ADISP
Graphique 1 : Structure de PROGEDO
Précision sur les données
Graphique 2 : les données disponibles
Source : Progedo-diffusion
Les structures partenaires : ADISP
NESSTAR = outil de diffusion de données etmétadonnées sur le web (export de fiches XML), selonle standard DDI
DDI= Data Documentation Initiative : standard dedocumentation technique pour décrire et conserver lesinformations et données d'enquêtes en sciences humaineset sociales
le Site de l'ADISP est : http://www.progedo-adisp.fr/
le Nesstar de l'ADISP est : http://nesstar.progedo-adisp.fr/webview/
Source : Progedo-Quetelet diffusion
Les structures partenaires : services de l'INED
le Site de l'INED est : https://www.ined.fr/fr/
le Nesstar de l'INED est : http://nesstar.ined.fr/webview/
Source : Progedo-Quetelet diffusion
Les structures partenaires : le CDSP
Source : Progedo-Quetelet diffusion
Le site du CDSP : https://cdsp.sciences-po.fr/fr/
Le NESSTAR du CDSPhttp://nesstar.sciences-po.fr/webview/
Les structures partenaires : le CASD
Source : Progedo-Quetelet diffusion
Procédure d'accès aux données : hors CASD
Source : PROGEDO - Quetelet Diffusion
Procédure d'accès aux données : via le CASD
Source : PROGEDO - Quetelet Diffusion
Données internationales
PROGEDO participe financièrement à l'accès à deux grandes archives internationales .
ICPSR : Inter-university Consortium for Political and Social Research
Très grande archive de données en SHS :
Plus de 10 000 études
Internationales et sur une longue période
LIS Cross National Data Center (Luxembourg Income Study)
Deux sources internationales, issues d'enquêtes nationales :
Luxembourg Income Study (revenus et consommation, 40 pays, 5 continents, dès 1970)
Lux. Wealth Study (patrimoine, 12 pays occidentaux)
Quelques statistiques sur l'utilisation des données : ADISP
Source : PROGEDO - Quetelet Diffusion
http://www.progedo.fr//app/uploads/2019/07/EnqueteQueteletProgedoDiffusion2019.pdf
Le stockage des données
Source : PROGEDO - Quetelet Diffusion
ConclusionAMI Grand Débat et problématique de partage des données de la phase 1
Solution de stockage existantes à divers niveaux de maturité des données
Mécanismes de partage de données ouverts à des populations ciblées (si besoin)
Téléchargement et/ou Infrastructure d'exploitation des données ?
Statistiques de consultation (utile dans secteur concurrentiel) reconnaissance des différents acteurs au cours du cycle de vie d'un corpus
Quelques verrous juridiques si diffusion à tout le mondeprotection de la vie privéelicence (contaminante?) de repartage (à finalité limitée ?)