(Brève) Introduction à la visualisation de données (en SHS)

Preview:

Citation preview

Antoine Courtin Responsable de la cellule d’ingénierie documentaire du départements des études et de la recherche, INHA

Introduction à la visualisation de données

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Par Sam Fentress, CC BY-SA 2.0, https://commons.wikimedia.org/w/index.php?curid=215276

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

2 temps

Introduction « théorique » Atelier pratique

Historique

Concepts-clés

Quelques exemples

Ressources

Visualisation d’un corpus à l’aide de Palladio, outils full-web de l’Université de Stanford

Manipulations avec d’autres outils

Introduction théorique

HistoriqueConcepts-clésQuelques exemplesRessources

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

C’est l’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitative et/ou statistiques permettant de traduire un ensemble de données brutes en information décisive

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

… outil d’aide à la décision / contrôle qualité … outil d’accès et d’exploration de ressources … outil d’aide à l’interprétation

Infovisualisation comme…

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Une/Des terminologies o Dataviz/datavision o Visualisation de données o Design d’information o Infographie o etc,

Méthode qualitative / Méthode quantitative

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

o Faire « parler » des données (brutes) ? o Traduire un important corpus de manière visuelle o Synthétiser les enjeux essentiels d’un corpus

Mettre en image/graphiques des informations/données chiffrées

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

A quoi sert la visualisation de données Ce qu’en dit Jacques Bertin.

1. A traiter des données pour comprendre et et en tirer de l’information

→ Idée de la fouille de données → Traiter des données implique l’exhaustivité.

2. A communiquer cette information → Il faut quelques heures pour construire un graphique ; quelques secondes pour le lire. → Communiquer implique (souvent) la simplification.

source Christophe Bontemps

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Diagramme des causes de mortalité au sein de l'armée en Orient par Florence Nightingale.

Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813 par Charles-Joseph Minard.

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

En fait de calculs et de proportions, le plus sûr moyen de frapper l’esprit, est de parler aux yeux

William Playfair, 1780

https://fr.pinterest.com/antoinecourtin/infoviz-vintage

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Mickaël Friendly, Milestones in the history of thematic cartography,statistical graphics, and data visualization, http://www.datavis.ca/

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Statistiques. Les corrélations de l’absurde, http://goo.gl/9mM7zI

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Boite noire ? / Algorithmes

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

http://www.sealthreinhold.com/school/tuftes-rules/

Dans la vision académique d’Edward Tufte, l’excellence graphique

peut être estimée au travers de 3 critères fondateurs :

o data-ink ratio o Le ratio entre informations restituées/encre utilisée ().

o lie-factor o distorsion de la restitution par rapport à la réalité des

données sources). o chartjunk

o L’absence de scories graphiques (élément décoratif n’apportant aucune plus-value informative)

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Visualisation de données temporelles Visualisation de données

géolocalisées

Visualisation de la relation entre plusieurs variables

Visualisation d’une arborescence

Visualisation des proportions

Visualisation de réseaux

Visualisation de flux

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Conception et source d’inspiration

http://www.datavizcatalogue.com

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

http://www.visualcomplexity.com/vc/

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Acquisition des données

• saisie des données

• collecte de données

• enrichissement des données tierces

Structurer les données • nettoyer les

données • optimiser

les formats • compléter

les données

Visualiser l’information

• choisir des informations à révéler

• tester les formes de visualisation

Editorialiser la visualisation de données

• apporter un discours

• légender

Où sont les données ?

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

https://media.licdn.com/mpr/mpr/AAEAAQAAAAAAAALAAAAAJGU3YjAwY2I5LTg1ODMtNDg5Ny04MTg2LTNhMWUwYTdkZDk2Zg.png

Dirty Data – SparkPlugs, http://www.slideshare.net/SSMM_JoshMartin/dirty-data-sparkplugsslides

✦ Le dictionnaire comme un cas d’école

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

https://antoinecourtin.cartodb.com/viz/fcd542aa-df01-11e5-9105-0e98b61680bf/public_map

o Croiser les dimensions o temporelle (date de naissance) o géospatiale (par ville de naissance des élèves) o catégorielle (par sexe (homme/femme))

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

o Croiser les dimensions o temporelle (date d’entrée à l’école) o géospatiale (par ville de naissance des élèves) o catégorielle (par âge d’entrée à l’école des beaux-arts)

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

o SNA (Social Network Analysis) o Relation entre élèves-architectes et atelier o Corpus: les élèves nés entre 1800 et 1900 o Ne sont affichés que les ateliers ayant au minimum 3 élèves

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

L’importance du dynamisme/interactivité

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

L’apport de la publication web

>

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Atelier pratique

Visualisation d’un corpus à l’aide de Palladio, outils full-web de l’Université de StanfordManipulations avec d’autres outils

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

https://goo.gl/rwoHNu

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

https://frama.link/AtelierInfoVizHDA

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web

Historique :

2007 mars  : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine ———— [ 2014 déc : Google annonce la fermeture de Freebase 2015:Fermeture progressive de Freebase et des services associés 2016 mai: Fermeture définitive de Freebase ]

Installation d’OpenRefine :

http://openrefine.org/download.html

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Des services à paramétrer• La reconciliation avec VIAF

• http://refine.codefork.com/ • Aller dans « Add Standard Service » puis

ajouter le code suivant: http://

refine.codefork.com/reconcile/viaf

Les plugins/extensions les + utiles• Exporter les données en RDF (à partir d’un squelette

issue d’une ontologie par ex.) • https://github.com/fadmaa/grefine-rdf-extension/

releases • (ATTENTION: renommer le dossier dezippé en

« rdf-extension » avant de le copier dans le

répertoire /webapp/extensions/) • Extraction d’entités nommées

• https://github.com/RubenVerborgh/Refine-NER-

Extension • VIB-BITS: 3 plugins (gestions des actions/historique;

comparaison entre 2 textes; gestions des facettes) • https://www.bits.vib.be/index.php/software-

overview/openrefine • Réaliser des statistiques

• https://github.com/sparkica/refine-stats

« Augmenter » le comportement d’OpenRefine

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

https://t.co/NxmadRocRu

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Introduction à la visualisation de données – Kit de survie de l’historien de l’art en milieu numérique 23 septembre 2016

Conclusion

o Visualisation très efficace mais à condition de suivre des règles strictes o Tout ne s’y prête pas forcément o Garder un esprit critique faces aux visualisations o Les visualisations efficaces nécessitent un apprentissage

“On ne lit pas un graphique, on lui pose des questions”

Jacques Bertin, 1981