JIES 2014 A. Giordan - Introduction

Preview:

DESCRIPTION

Présentation d'André Giordan en introduction aux JIES Paris 2014 sur les données dans l'éducation et la médiation scientifiques et techniques.

Citation preview

Les données dans la médiation, la communication et l’éducation scientifiques et techniques

JIES 2014

André Giordan université de Genève

et GCI

Data journalism

Wikileaks lanceur d’alerte

Agréger des données issues de différentes sources avec des outils comme Yahoo! Pipes

et les visualiser à travers des applications comme ManyEyes…

Origine des données Séquençage d’ADN et d’ARN

Stockage des données

Fragments de génomes Un ou plusieurs gènes, un bout de gène, séquence intergénique…

Génomes complets ARNm, ARNt, ARNr… (fragments ou entiers)

Chaque biologiste souhaiterait connaître : - le jeu complet et précis des gènes et leur emplacement sur le génome - l’ensemble des transcrits d’un génome - le lieu et le moment d’expression - la protéine produite par chaque transcrit - le lieu et le moment de l’expression de chaque protéine - la fonction de chaque protéine - les mécanismes cellulaires auxquels participent les protéines.

Métabases de données - comparaison de cartes génétiques - alignement des génomes détermination de l’arbre phylogénétique pour comprendre l’évolution de la vie et les mécanismes moléculaires associés

tables stellaires le sarcophage de Mesheh

Données de médecine Empire des Han 200 AJC

quipu Incas

yupana

Ce sont les installations scientifiques qui produisent le plus de données. De nombreux projets, de dimension pharaonique, sont en cours. Le radiotelescope Square Kilometre Array par exemple, produira 50 teraoctets de données analysées par jour, à un rythme de 7 000 teraoctets de données brutes par seconde !

Les expériences du Large Hadron Collider représentent environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde. 6000 millions de collisions par seconde, et après filtrage, il reste 100 collisions d’intérêt par seconde.

En conséquence, 25 Po de données à stocker chaque année, et 200 Po après réplication.

Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a amassé plus de données en quelques semaines que toutes les données collectées dans l’histoire de l’astronomie. Il continue à un rythme de 200 Go par nuit, et a aujourd’hui stocké plus de 140 teraoctets d’information. Des prévisions annoncent que le Large Synoptic Survey Telescope, dont la mise en route est prévue en 2015, amassera ce même montant tous les cinq jours.

Une masse de données considérable transite chaque jour sur internet. L’analyse de ces données et leur croisement produisent à leur tour un volume exponentiel de nouvelles données le big data

Le volume des données stockées est en pleine expansion. de 1,2 zettaoctets/an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 environ 40 zettaoctets en 2017. exemples Twitter génére 7 teraoctets de données/ jour et Facebook 10 teraoctets (janvier 2013)

3 ensembles de questions - questions épistémologiques liés à des - questions pratiques et éthiques - questions culturelles

- sur les plans éducation et médiation

Donnée / Information / Connaissance Une donnée est un élément –une notion, un fait, une instruction, un indice, une norme,..- issu d’une investigation… Elle est élaborée par un humain mais de plus en plus souvent par des systèmes automatiques pour créer de l’information ou servir un raisonnement, une recherche

questions épistémologiques

Une donnée n’est pas neutre, elle est déterminée par : - les intérêts de la personne et du groupe qui la récoltent et la traitent, - les moyens techniques, institutionnels choisis pour la prélever, la révéler, - la destination qu’on envisage …

« L’être humain perçoit des Données, interprète des Informations, fait des liens avec d’autres Connaissances mémorisées et est ensuite capable d’agir avec ses Connaissances. »

Le terme général « donnée » peut avoir différentes significations : - une « donnée » au sens statistique est un élément destiné à être étudié dans le cadre d’une analyse. -une « donnée » au sens informatique est une description élémentaire, souvent codée, d'une réalité (chose, transaction, événement, etc.) destinée à faire l'objet d'un traitement.

modèle de données relationnel modèle de données entité-association modèle de données objet modèle de données hiérarchique modèle de données réseaux,…

données qualitatives données quantitatives

bases de données les bases de données sont des données organisées à l'aide de logiciels appelés SGBD (Système de Gestion de Bases de Données) comme PostgreSQL, MySQL ou Oracle,.. - base de données structurées - base de données semi-structurées ≱ les banques de données sont des collections de fichiers

les algorithmes ne sont en rien objectifs… produits d’un contexte ou d’une culture

La science des données (en anglais data science) est une discipline qui comprend des éléments de mathématiques, de statistiques, d'informatique et de visualisation des données. Le terme a été inventé par William Cleveland dans un article programmatique paru en 2001 intitulé Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics .

Questions pratiques 1. Les questions se sont complexifiées - approche systémique - intégrer différentes échelles - besoin de plusieurs niveaux d'information - données hétérogènes et incomplètes comprendre / prédire / argumenter /aider à la décision

2. Les données ne sont pas immédiates - multiples types d'acquisition - innovations dans les méthodes d'acquisition

- mesures quantitatives - séries spatio-temporelles - textes, images - fouille de texte - analyse d'image - recherche de descripteurs pertinents

- stockage et organisation - besoins de méthodes et outils d'extraction - choix des données

-…

Stockage 67% des cadres supérieurs ne sauraient pas exactement où sont stockées les données de leur entreprise (cloud ou support externe) et 74% des entreprises avouent ne pas avoir d’outil approprié leur permettant de savoir où leurs fichiers ont été stockés. (étude par Varonis Systems, 2014)

3. Productions automatiques A 6h25 du matin, le lundi 17 mars 2014, un tremblement de terre secouait Los Angeles. A 6h28, le site du Los Angeles Times publiait un article comprenant toutes les informations sur la puissance et la localisation du séisme. l’article avait été rédigé par Quakebot, un « robot-journaliste » « Un tremblement de terre peu profond de magnitude 4.7 a été signalé lundi matin à cinq miles (8 km) de Westwood, Californie, selon le bureau géologique des Etats-Unis. La secousse s’est produite à 6h25 heure du Pacifique à une profondeur de 5,0 miles, selon l’USGS, l’épicentre se trouvait à six miles (9,6 km) de Beverly Hills [...]. Cette information est fournie par le service d’annonce des tremblements de terre de l’USGS et ce billet a été créé par un algorithme. »

4. Enjeux sur le partage des données - identifier, trier et organiser les données - consortiums, plateformes, data centers, - travailler avec des partenaires variés - labos, instituts, coopératives - sciences participatives - faciliter l'accès libre et global - « Open Data » sensu stricto - outils de fouille - assurer la capacité à réutiliser les données - les renseigner (méta-données) - les harmoniser (ontologies)

Une « donnée à caractère personnel » peut bénéficier d'une certaine protection dans le cadre de la Protection de la vie privée ou du Droit à l'image. Une « donnée ouverte » caractérise une donnée censée pouvoir être plus ou moins largement être connue et faire l'objet en conséquence d'une publication organisée (globale ou sélective). La notion de « donnée publique » caractérise une donnée devant être transparente et connue du plus grand nombre. Sa diffusion est en général du ressort de la puissance publique, notamment dans le cadre de la liberté d'accès aux documents administratifs.

Questions éthiques

Questions culturelles 1. apprentissage de la lecture

- lecture rapide - lecture en hypertexte

- lecture des images

Statistiques d'accidents Selon le dernier bilan de la Sécurité routière, 3 268 personnes ont perdu la vie en 2013 sur les routes françaises, contre 3 653 en 2012 (- 10,5 %). Ainsi, 385 vies ont été épargnées en 2013.Il s’agit de la plus forte baisse de la mortalité constatée depuis 2006.

est considéré comme mort sur la route « toute personne qui décède sur le coup ou dans les trente jours qui suivent l’accident » ; avant 2004 les statistiques ne faisaient état que de tués dans les 6 jours. Pour comparer avec les voisins européens, on multipliait par le coefficient 1,057. Depuis 2005 ce coefficient a été revu à la hausse à 1,069.

2. apprentissage des données et des bases de données

problématiser

données

comprendreargumenter décider

rechercher

traiter

trier

valider

référencer

lire

lecture rapide lecture hypertexte images

situer/critiquer

Evolution de la natalité en Alsace

15 000 10 000

3. transformation des contenus éducatifs… et de l’organisation des cursus scolaires et universitaires

- bases de données, - plateformes numériques - MOOC - ateliers numériques - fablab numériques - conférences TED,

Réinterroger les habitudes - enseigner / apprendre - organisation de l’université

- organisation du temps - un prof = une amphi = une heure = une discipline -évaluation

- programme/disciplines

Le développement des données numériques vont bouleverser l’enseignement : le savoir, la pédagogie, la distance, la relation avec le professeur, l’évaluation,

disparition de l’école de l’université

Paradigmes à changer penser la pédagogie universitaire valoriser l’enseignement au même titre que a recherche faire un bilan de l’existant mettre en avant l’apprendre plutôt que l’enseignement former les enseignants développer une recherche sur la pédagogie universitaire

plutôt que d’apporter des contenus disponibles partout permettre aux étudiants de s’approprier les démarches.

priorité à l’apprendre à apprendre

revoir la trilogie de l’uni - cours ex-cathédra - TD - TP

Pour les enseignants, le challenge est de passer de la posture du maître à celle du « coach » aux côtés de l’étudiant

Transmetteur de connaissances

Accompagnateur

Metteur en savoir + soutien

> créer le désir d’apprendre > fournir l’environnement pour apprendre

Repères > faciliter les liens, les ancrages

> faciliter la « réflexion sur »

Je vous remercie

André Giordan Université de Genève

<andre.giordan@unige.ch>

Site personnel : http://www.andregiordan.com Site LDES : http://www.ldes.unige.ch

Recommended