118
La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Embed Size (px)

Citation preview

Page 1: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

La visualisation de données multidimensionnelles multivariées

(relations, fonctions, tableaux, données mdmv)

Page 2: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Rappel de mathématiques élémentaires• Étant donné deux ensembles, un domaine (exemple: R) et un

codomaine (exemple: R), on peut former le produit cartésien (RxR=R2) qui est l’ensemble de tous les pairs (x,y) possibles– D’autres exemples de produits cartésiens: AxB = {(a,b)|aϵA et bϵB};

AxBxCxD = {(a,b,c,d)|aϵA et bϵB et cϵC et dϵD}

• Une relation est un sous ensemble du produit cartésien– Exemple: l’équation x = y2 correspond à un sous-ensemble de R2;

l’inéquation x < y correspond à un autre sous-ensemble de R2

• Une relation s’appelle une fonction si chaque membre x du domaine a au plus un membre y correspondant dans le codomaine– x=y2 n’est pas une fonction car (4,2) et (4,-2) sont tous les deux des

membres de la relation définie par l’équation

• Une façon simple de représenter une relation (ou une fonction) est simplement d’énumérer les pairs de la relation dans un tableau

Page 3: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

La fonction y = x^0.5:

x y--- --- 0 0 1 1 4 2 9 3...

La relation dans un tableau d'une base de données relationnelles:

Nom_de_client Produit_acheté Prix Date ...------------- ----------------- ------- ------------ -----Robert G. Trombone 500.00 2008 mars 7 .Robert G. Partitions vol. 1 45.00 2008 mars 7 .Lucie M. Flute 180.00 2007 nov 11 .Cynthia S. Partitions vol. 2 40.00 2008 juin 16Jules T. Piano 6000.00 2008 jan 10Jules T. Partitions vol. 1 45.00 2008 jan 13...

Une vidéo (par exemple, fichier .avi):

x y temps rouge vert bleu--- --- ------- ------- ------ ------ 0 0 0 255 0 0 0 1 0 200 10 6 ... 0 0 0.1 255 50 100 0 1 0.1 255 200 190 ...

Exemples de relations mathématiques (c.-à-d. de données multidimensionnelles multivariées). Une relation est un sous-ensemble d’un produit cartésien de deux ou plusieurs ensembles (exemple: un sous-ensemble de R×R). Dans les exemples ici, chaque rangée est un N-uplet (membre de la relation; « tuple » en anglais), chaque colonne un ensemble faisant partie du produit cartésien.

Page 4: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Base de données relationnelles “foodmart”

Page 5: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Une vidéo:

x y temps rouge vert bleu--- --- ------- ------- ------ ------ 0 0 0 255 0 0 0 1 0 200 10 6 ... 0 0 0.1 255 50 100 0 1 0.1 255 200 190 ...

DomainesVariables indépendentes

DimensionsDimensions

Co-domainesVariables dépendentesVariables (d’où le terme “mdmv”)Mesures (terminologie en base de données)

N-uplet (“tuple”),point multidimensionnel,vecteur,rangée

Colonnes, dimensions, attributs, variables

Attention au synonymes !

J’utiliserai les termes en gras

Page 6: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Données mdmv• Ce que j’entends par « données multidimensionelles multivariées » ou

« données mdmv » est une relation quelconque• Quand les gens parle de « dimensions », il est bien de distinguer entre au moins

3 sens que ce mot peut avoir:– 1. La dimensionalité du domaine (nombre de variables indépendantes)– 2. La dimensionalité du codomaine (nombre de variables dépendantes)– 3. Les dimensions physiques de l’espace et/ou de temps utilisés pour visualiser les

données (il y a au plus 3 dimensions spatiales et 1 dimension temporelle)– Exemple: dans du piétage vidéo, il y a 3 dimensions (x,y, et temps) associées avec le

domaine, 3 dimensions associées avec le codomaine (rouge, vert, bleu), et habituellement pour visualiser la vidéo on va « mapper » x et y dans la vidéo aux dimensions spatiales physiques de notre écran, et « mapper » le temps dans la vidéo au temps physique.

– Mais, on pourrait aussi « mapper » les variables rouge, vert, bleu au x, y, z physique, pour donner une nuage de points (« scatter plot ») de la vidéo

• Donc, éviter d’utiliser des termes comme « visualisation 3D » ou « visualisation 2D » sans spécifier ce que 2D / 3D veut dire

Page 7: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Rouge

Bleu

Vert

Une vidéo

[Gareth Daniel and Min Chen, 2003]

Page 8: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Pour visualiser des données,il faut choisir un mappage

Données en entrée:un nombre quelconque devariables indépendentes(dimensions)et de variables dépendentes (mesures)

Représentation graphique en sortie:au maximum 3 dimensions spatiales (souvent juste 2),et au maximum 1 dimension temporelle(dans le cas d’une animation)

Page 9: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

1 dimension + 1 mesure:diagramme en rectangles (“barchart”)

Page 10: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

2 mesures: nuage de points (“scatterplot”)

Page 11: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

2 dimensions + 1 mesure: heatmap

Page 12: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Visualisation de fluideQuelles dimensions et mesures seraient impliquées dans de telles données?

Page 13: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Les visages de Chernoff (1973)(un exemple d’un « glyphe »)

Avantage: mieux que du texte pour avoir une impression globale des données et trouver des éléments intéressants

Désavantage: le mapping entre les variables et le visage a un effet sur la saillance de chaque variable.

Désavantage(?): redondance d’un visage symétrique

http

://kspa

rk.kaist.a

c.kr/Hu

ma

n%

20

En

gin

ee

ring

.files/C

he

rno

ff/life_

in_

LA

.jpg

htt

p:/

/ma

pm

ake

r.ru

tge

rs.e

du

/35

5/C

he

rno

ff_

face

.gif

Page 14: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

D’autres exemples de glyphes

M. Ward (2002), “A Taxonomy of Glyph Placement Strategies for Multidimensional Data Visualization”, Information Visualization.

Page 15: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

D’autres exemples de glyphes

Wittenbrink, Pang, Lodha (1996) “Glyphs for Visualizing Uncertainty in Vector Fields”, IEEE TVCG.

Page 16: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Boîte à moustaches (“Box plot” ou “Box-and-whisker plot”)

• Inventé par John Tukey (qui inventa aussi les mots “software” et “bit”, 1915-2000)

• Une sorte de glyphe qui sert à résumer une distribution– Moyenne ou médiane– Écart type ou quartiles (25% et 75% de la distribution) ou

percentiles (exemple: 10% et 90% de la distribution)– “Outliers” (données aberrantes), par exemple: les valuers

en dehors des 10ième et 90ième percentiles, ou en dehors de 3 écarts types

– Peut aussi montrer minimum, maximum

Page 17: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://en.wikipedia.org/wiki/Box_plot

Page 18: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Bullet graphs (Stephen Few, http://www.perceptualedge.com/blog/?p=217 )

Montrent• Valeur actuelle• Valeur ciblée• 3 zones: bon,

moyen, mauvais

Page 19: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Les chandeliers japonais(“candlestick charts”)

• Inventés par Homma Munehisa (1724-1803), qui “a amassé une immense fortune en jouant sur le prix du riz” (http://fr.wikipedia.org/wiki/Munehisa_Homma)

• Utilisés dan l’analyse technique de l’évolution des cours ou marchés financiers (actions, etc.)

• On peut le voir comme une sorte de glyphe qui montre une évolution à travers le temps

http://goodasgoeldi.com/wordpress/2009/06/26/reading-a-candlestick-graph/

Page 20: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://goodasgoeldi.com/wordpress/2009/06/26/reading-a-candlestick-graph/

Page 21: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://goodasgoeldi.com/wordpress/2009/06/26/reading-a-candlestick-graph/

1 White candlestick2 Black candlestick3 Long lower shadow4 Long upper shadow5 Hammer6 Inverted hammer7 Spinning top white8 Spinning top black9 Doji10 Long legged doji11 Dragonfly doji12 Gravestone doji13 Marubozu white14 Marubozu black

http://en.wikipedia.org/wiki/Candlestick_chart

Page 22: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Présentation interactive de l’ONU(United Nations Development Programme, Human Development Report)

Voir les présentations de Hans Rosling sur http://www.ted.com

Remarque:les points sont des glyphes, ayant chacun un rayon et une couleur.

Page 23: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tableau: logiciel pour visualiser des bases de données(Mackinlay et al. 2007, tableausoftware.com)

Page 24: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 25: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 26: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 27: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 28: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 29: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

x

y

b

a

x

y

x

y

x

y

Rangées: b, y

Colonnes: a, x

Page 30: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 31: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tableau

• Pour plus d’informations:http://www.tableausoftware.com/products/tour

http://www.tableausoftware.com/products/desktop/demo

Page 32: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Sortes de variables• Continue (ou quantitative ou métrique)

– Exemple: x, y, temps, température, argent

• Ordinale– On peut mettre les valeurs en ordre, mais on ne peut pas dire qu’une telle

valeur est N fois plus grande qu’une autre valeur– Exemple: D.E.S., D.E.C., Baccalauréat (en ordre d’années de scolarité)

• Catégorique (ou nominale)– Il n’y a pas d’ordre naturel (sauf peut-être alphabétique, mais cela est

arbitraire et dépend de la langue)– Exemple: groupe d’aliments (viandes, lait, légumes et fruits, produits

céréaliers)– Exemple: bacc en génie mécanique, bacc en génie de construction, etc.– Exemple: Honda, Toyota, GM, Chrysler, etc.

• Binaires– Une sorte de dimension nominale (ou ordinale) ayant deux valeurs possibles

Page 33: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Rappel: la visualisation est un mappage

Données en entrée:chaque variable peut être{indépendente, dépendente}et{continue, ordinale, catégorique}

Représentation graphique en sortie:au maximum 3 dimensions spatiales (souvent juste 2),et au maximum 1 dimension temporelle(dans le cas d’animations)

… et aussi plusieurs variables graphiques

Page 34: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Hiérarchie des variables graphiques

Page 35: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple tiré d’un cours de Marilyn Ostergren à l’U de Washington

( http://courses.washington.edu/info424/Week3Practice_ExcelGraphs.html )

Page 36: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Hiérarchie des variables graphiques (Mackinlay, 1986)

Page 37: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Des tests pour confirmer l’hiérarchie(Jeffrey Heer et Michael Bostock, "Crowdsourcing Graphical Perception: Using

Mechanical Turk to Assess Visualization Design", CHI 2010)

Positions

Longueurs

Angles

Aires circulaires

Airesrectangulaires

(alignés, ou dans un treemap)

Page 38: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tableau• Détermine de façon automatique quelles colonnes dans la base de

données sont des « dimensions » (variables indépendantes), quelles sont des « mesures » (variables dépendantes), et quelles sont « quantitatives » (continues) ou « catégoriques » (nominales)

• Choisit une sorte de graphique de façon automatique, selon la nature des données

Page 39: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tableau

Continuous variable as a function of a nominal variable

Bar chart(diagramme à barres)

Continuous variable as a function of a continuous variable

Line graph (diagramme à ligne brisée)Continuous variable as a function of

(nominal) time

Two dependent continuous variables

Scatter plot(nuage de points)

Nominal variable as a function of a continuous variable

Gantt chart

Nominal independent variable with continuous independent variable

Two independent nominal variables Cross tabulation (“cross tab”)

Des exemples résultants de l’application des règles sur le diapo précédent:

Page 40: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 41: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 42: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Diagramme à barres vs diagramme en ligne brisée(Bar chart vs line graph)

Lequel permet de voir des changements de pente plus facilement ?

Page 43: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tiré de Tufte (1983)

Longueur vs aire(Length vs area)

Page 44: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 45: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 46: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tiré de IEEE Canadian Review, 2009, No. 60, page 31

Page 47: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple tiré d’un cours de Marilyn Ostergren à l’U de Washington

( http://courses.washington.edu/info424/Week3Practice_ExcelGraphs.html )

Page 48: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 49: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://www.research.ibm.com/people/l/lloydt/color/color.HTMRogowitz and Treinish, “Why Should Engineers and Scientists Be Worried About Color?”

Page 50: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Borland and Taylor, “Rainbow Color Map (Still) Considered Harmful”, IEEE CG&A, 27(2):14-17, 2007

Page 51: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 52: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 53: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 54: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

ABC abc 123 000

Page 55: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

D’autres exemples …

Des notes sont montrées sur les lignes et aussi entre les lignes, reduisant d’un facteur de 2 le nombre de lignes nécessaires.

Des rangées sont montrées sur les bandes grises et entre les bandes grises. Le nombre de bandes grises nécessaires est la moitié du nombre de lignes séparatrices qui seraient nécessaires entre les rangées.

Page 56: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

octave

demi-ton(“semitone”)

octave

octave

Notation naïve:

Notation moderne:

Page 57: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuage de points (“scatterplot”)Comment faire en sorte qu’il soit plus facile de lire les positions (x,y) des points d’une nuage de points?

Possibilité 1: marquer les axes avec des lignes aux positions des points.

Image de Haimo Zhang

Page 58: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuage de points (“scatterplot”)Possibilité 2: montrer des lignes de projection horizontales et verticales qui s’étendent aux axes.

Image de Haimo Zhang

Page 59: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuage de points (“scatterplot”)Possibilité 3: une grille en arrière-plan. Remarquer que chaque 5ième ligne de la grille est légèrement plus foncée.

Image de Haimo Zhang

Page 60: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Code génétique (correspondence entre les triplets de nucléotides et les acides aminés)

Versions de Ben Fry (http://benfry.com/aasd/)Versions traditionnelles

Page 61: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Changements à un diagrammegénéré par MS Excel

http://dd.dynamicdiagrams.com/2007/11/

Page 62: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 63: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Tiré de Stephen Wolfram, “A New Kind of Science”, p. 812http://www.wolframscience.com/nksonline/page-812

Page 64: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exercise en classe:Concevoir un ou des graphiques pour visualiser

un jeu de données ayant les dimensions suivantes:

• Modèle d’auto: {Accord, AMC Pacer, Audi 5000, BMW 320i, Champ, Chev Nova, …}(19 modèles en tout, un modèle par tuple;c.-à-d. 19 tuples)

• Prix d’auto: [$0, $13500]• Consommation: [0,40]• Niveau d’entretien (fiabilité):

{Excellent, Bon, Okay, Mauvais, Affreux}• Poids: [0,5500]

Variables les plus importantes

Page 65: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

• Modèle d’auto: {Accord, AMC Pacer, Audi 5000, BMW 320i, Champ, Chev Nova, …} (19 modèles en tout, un modèle par tuple;c.-à-d. 19 tuples)

• Prix d’auto: [$0, $13500]• Consommation: [0,40]• Niveau d’entretien

(fiabilité):{Excellent, Bon, Okay, Mauvais, Affreux}

• Poids: [0,5500]

Variables lesplus importantes

Page 66: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Encore d’autres sortes de graphiques pour les données multidimensionnelles …

Page 67: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Graphique inventé par Florence Nightingale(1820-1910; statisticienne, et pionnière des soins infirmiers)

http://upload.wikimedia.org/wikipedia/commons/1/17/Nightingale-mortality.jpg

Page 68: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://www.economist.com/images/20071222/5107CR3B.jpg

Page 69: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Diagramme ternaire

http://en.wikipedia.org/wiki/Ternary_plot

70% methane,20% nitrogen,10% oxygen

Les coordonnées (x,y,z) de chaque point sont telles que x+y+z=1

Comment se fait-il que nous pouvons montrer 3 coordonnées dans un diagramme 2D ?

Page 70: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Mosaic plots

http://www.statmethods.net/advgraphs/mosaic.html

Page 71: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Les diagrammes à barres, diagrammes à lignes brisées, nuages de points, et d’autres diagrammes simples servent seulement à montrer 2 ou quelques dimensions à la fois. Pour montrer beaucoup de dimensions en même temps, la seule approche que nous avons vu à date est par glyphes.

Nous allons maintenant voir deux autres approches graphiques permettant de visualiser plusieurs dimensions (ou variables) en même temps: les matrices de nuages de points ("scatterplot matrices", ou SPLOMs) et les coordonnées parallèles.

Page 72: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Données mdmv

Voici les notes d’un étudiant dans 4 cours:• Physiques: 90%• Mathématiques: 95%• Litérature française: 65%• Histoire: 70%

Chaque étudiant est comme un N-uplet:• (90%, 95%, 65%, 70%)• Etc.

Page 73: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Parallel Coordinates

100%

0%

Physics MathFrenchLiterature History

(90%, 95%, 65%, 70%)

Page 74: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Parallel Coordinates

100%

0%

Physics MathFrenchLiterature History

(90%, 95%, 65%, 70%)

(30%, 20%, 90%, 90%)

Page 75: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Scatterplot Matrix (SPLOM)

Physics

Math

FrenchLiterature

History

(90%, 95%, 65%, 70%)

FrenchLiterature

Math

Page 76: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Scatterplot Matrix (SPLOM)

Physics

Math

FrenchLiterature

History

(90%, 95%, 65%, 70%)

(30%, 20%, 90%, 90%)

FrenchLiterature

Math

Page 77: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 78: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 79: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Matrice de nuages de points(“scatter plot matrix” ou “SPLOM”)

Nik

las

Elm

qvis

t, P

ierr

e D

ragi

cevi

c, J

ean-

Da

niel

Fek

ete

(200

8).

“Rol

ling

the

Dic

e: M

ulti

dim

ens

iona

l Vis

ual E

xplo

ratio

n u

sin

g S

catt

erpl

ot M

atrix

Na

vig

atio

n”.

Pro

cee

ding

s of

Inf

oVis

200

8.

Within each scatterplot, we could be interested in seeing outliers, correlations, etc.

Notice: the upper triangular half is the same as the lower triangular half, and the diagonal is not very interesting.

Page 80: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Matrice de nuages de points(“scatter plot matrix” ou “SPLOM”)

Wilkinson, Anand, Grossman,“Graph-Theoretic Scagnostics”, 2005

Remarque: le diagonal est utilisé pour montrer les noms des dimensions

Page 81: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Matrice de coéfficients de corrélation

Jinwook Seo and Ben Shneiderman, “A Rank-by-Feature Framework for …”, Proceedings of InfoVis 2004.Implemented in HCE ( http://www.cs.umd.edu/hcil/hce/ )

When we have many dimensions, we can summarize each scatterplot by computing its correlation coefficient and displaying only that, instead of

displaying all the individual data points. The below interface also allows the user to select one scatterplot and see a zoomed-in view for details.

Page 82: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Corrgrams (Michael Friendly, 2002)

http://www.math.yorku.ca/SCS/Gallery/images/corrgram2t.gif

Page 83: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

ScatterDice (Elmqvist et al. 2008)

Page 84: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

ScatterDice (Elmqvist et al. 2008)

(voir vidéo)

Page 85: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Coordonnées parallèles

Johansson et al. 2005

Page 86: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Coordonnées parallèles

Ellis, Bertini, Dix, “The Sampling Lens …”, 2005Ellis, Dix, “Enabling Automatic Clutter Reduction …”, 2006

Page 87: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

http://flowingdata.com/2009/11/10/do-we-need-more-teachers/

Page 88: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Une variante polaire descoordonnées parallèles

http://en.wikipedia.org/wiki/Radar_chart

Noms: star plots, star glyphs, star coordinates, spider chart, radar chart, polar chart, kiviat diagram.

Page 89: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Une variante polaire descoordonnées parallèles

Stephen Few; http://www.perceptualedge.com/example4.php

Page 90: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Une variante polaire descoordonnées parallèles

http://www.onscale.de/specbrowser/

Page 91: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple de Matlab “carbig.mat”

http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/mvplotdemo.html

SPLOM avec histogrammes sur le diagonal. Les couleurs indiquent le nombre de cylindres de chaque automobile.

Page 92: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple de Matlab “carbig.mat”

http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/mvplotdemo.html

Page 93: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple de Matlab “carbig.mat”

http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/mvplotdemo.html

Coordonnées parallèles. Les couleurs indiquent le nombre de cylindres. À droite: on montre juste la moyenne et les quartiles (25% et 75%) de chaque groupe.

Page 94: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Exemple de Matlab “carbig.mat”

http://www.mathworks.com/products/statistics/demos.html?file=/products/demos/shipping/stats/mvplotdemo.html

“Star glyphs”. On aurait pu aussi utiliser des visages de Chernoff.

Page 95: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Comparaison: SPLOMsvs Coordonnées parallèles

• Supposons qu’on a N dimensions, et que chaque axe a une longueur L• Matrice de nuages de points (SPLOM)

– Aire totale: (N-1)L×(N-1)L = Θ(N2L2)• Coordonnées parallèles

– Supposons que l’espace entre chaque pair d’axes consécutifs est kL, où k est une constante positive, pour borner l’angle des segments à ±arctan(1/k). Par exemple, k=1 borne les angles à ±45°.

– Aire totale: (N-1)kL×L = Θ(NL2)– Avantage par rapport aux SPLOMs: meilleur efficacité d’espace– Désavantage par rapport aux SPLOMs: ne permet pas de voir aussi facilement

la relation (corrélation etc.) entre n’importe quelle paire de dimensions– Question en passant: quelle est la meilleure valeur de k à utiliser ?

• Lemme: Sur un segment de longueur 1, si on choisit deux points allétoires sur ce segment, avec distributions uniformes et indépendentes, on trouve que la distance moyenne entre les points est de 1/3

• Dans une visualisation en coordonnées parallèles, si on suppose que les coordonnées de chaque linge brisée sont alléatoires avec distributions uniformes et indépendentes dans [0,L], alors la distance verticale entre deux coordonnées consecutives sera L/3 en moyenne, ce qui correspond à un angle de arctan(1/(3k)). La valeur k=1/3 fait en sorte que cet angle moyen soit 45°, alors k=1/3 est peut-être optimal pour permettre de bien distinguer les segments des lignes brisées.

Page 96: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Combinaison de nuages de points et coordonnées parallèles

Huamin Qu et al. 2007

Page 97: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Combinaisons de nuages de points et coordonnées parallèles

Steed et al. 2009 Holten and van Wijk 2010

Yuan et al. 2009

Page 98: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Scatterplot Matrix (SPLOM)

Page 99: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Parallel Coordinates

Page 100: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 101: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Scatterplot Matrixvs Parallel Coordinates

Page 102: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 103: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 104: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)
Page 105: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Scatterplot Staircase (SPLOS)Inspired partly by quilts [Watson et al. 2008]

Sequence of scatterplots:treats one dimension differently.

Scatterplot Staircase (SPLOS): all dimensions treated uniformly; every adjacent pair of plots share an axis.

Parallel coordinates:more difficult to judge correlations than in scatterplots[Li et al., 2010]

Page 106: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Résumé de manières principalesde visualiser les données mdmv

• 1 dimension + 1 mesure :

• 0 dimensions + 2 mesures :

• 2 dimensions + 1 mesure :

• Plusieurs dimensions :

• Plusieurs mesures :

Page 107: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts” (Boulons et écrous)

• 3 dimensions:– Région {North, Central, South}– Mois {janvier, …, décembre}– Produit {Nut, Bolt}

• 3 mesures:– Ventes (“Sales”)– Coûts d’équipments (“Equipment costs”)– Coûts de main d’oeuvre (“Labor costs”)

Page 108: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuts and Bolts (Boulons et écrous)Fichier .csv complet (72 rangées):

Reg

ion,

Mon

th,P

rodu

ct,S

ales

,Equ

ipm

ent_

cost

s,La

bor_

cost

s0,

0,0,

2.76

,0.9

2,4.

30,

0,1,

4.91

9999

6,1.

64,4

.30,

1,0,

4.20

0000

3,1.

0,4.

30,

1,1,

8.40

0001

,2.0

,4.3

0,2,

0,5.

28,9

.6,4

.30,

2,1,

14.5

1999

95,2

6.4,

4.3

0,3,

0,5.

0160

003,

0.88

0000

05,4

.30,

3,1,

8.43

6,1.

48,4

.30,

4,0,

5.19

4000

2,0.

98,4

.30,

4,1,

9.54

,1.8

0000

01,4

.30,

5,0,

4.44

,1.4

8,4.

90,

5,1,

6.12

,2.0

4,4.

90,

6,0,

3.12

8,1.

36,4

.90,

6,1,

4.04

8,1.

7600

001,

4.9

0,7,

0,3.

8280

003,

1.32

,4.9

0,7,

1,4.

524,

1.56

0000

1,4.

90,

8,0,

8.58

0001

,15.

6,7.

3500

004

0,8,

1,11

.0,2

0.0,

7.35

0000

40,

9,0,

16.3

48,2

.68,

7.35

0000

40,

9,1,

11.9

56,1

.96,

7.35

0000

40,

10,0

,11.

7599

99,1

.68,

7.35

0000

40,

10,1

,12.

208,

1.74

4000

1,7.

3500

004

0,11

,0,7

.540

0004

,1.1

6000

01,5

.20,

11,1

,12.

662,

1.94

8,5.

21,

0,0,

2.07

,0.6

9,4.

31,

0,1,

3.68

9999

8,1.

23,4

.31,

1,0,

3.15

,0.7

5,4.

31,

1,1,

6.3,

1.5,

4.3

1,2,

0,3.

9600

003,

0.72

,4.3

1,2,

1,10

.89,

1.98

,4.3

1,3,

0,3.

762,

0.66

,4.3

1,3,

1,6.

327,

1.11

,4.3

1,4,

0,3.

8955

004,

0.73

5,4.

31,

4,1,

7.15

5,1.

35,4

.31,

5,0,

3.33

0000

2,1.

11,4

.91,

5,1,

4.59

,1.5

3000

01,4

.91,

6,0,

2.34

6000

2,1.

0200

001,

4.9

1,6,

1,3.

036,

1.32

,4.9

1,7,

0,2.

8710

003,

12.8

7,4.

91,

7,1,

3.39

3000

4,15

.210

001,

4.9

1,8,

0,6.

4350

004,

1.17

0000

1,4.

91,

8,1,

8.25

,1.5

,4.9

1,9,

0,12

.261

001,

2.01

,4.9

1,9,

1,8.

967,

1.47

,4.9

1,10

,0,8

.82,

1.26

,4.9

1,10

,1,9

.156

,1.3

0800

01,4

.91,

11,0

,5.6

55,0

.870

0000

6,5.

21,

11,1

,9.4

965,

1.46

1,5.

22,

0,0,

2.07

,1.1

5,4.

32,

0,1,

3.68

9999

8,2.

05,4

.32,

1,0,

3.15

,1.2

5,4.

32,

1,1,

6.3,

2.5,

4.3

2,2,

0,3.

9600

003,

1.2,

4.3

2,2,

1,10

.89,

3.3,

4.3

2,3,

0,0.

6270

0003

,1.1

,4.3

2,3,

1,1.

0545

,1.8

5,4.

32,

4,0,

0.64

9250

03,1

.225

,4.3

2,4,

1,1.

1925

,2.2

5,4.

32,

5,0,

3.33

0000

2,1.

85,4

.92,

5,1,

4.59

,2.5

5,4.

92,

6,0,

2.34

6000

2,15

.3,4

.92,

6,1,

3.03

6,19

.800

001,

4.9

2,7,

0,2.

8710

003,

1.65

,4.9

2,7,

1,3.

3930

004,

1.95

,4.9

2,8,

0,6.

4350

004,

1.95

,4.9

2,8,

1,8.

25,2

.5,4

.92,

9,0,

12.2

6100

1,3.

35,4

.92,

9,1,

8.96

7,2.

45,4

.92,

10,0

,8.8

2,2.

1,4.

92,

10,1

,9.1

56,2

.18,

4.9

2,11

,0,5

.655

,1.4

5,5.

22,

11,1

,9.4

965,

2.43

5,5.

2

Page 109: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuts and Bolts (Boulons et écrous)Fichier .csv complet (72 rangées):

Region,Month,Product,Sales,Equipment_costs,Labor_costs0,0,0,2.76,0.92,4.30,0,1,4.9199996,1.64,4.30,1,0,4.2000003,1.0,4.30,1,1,8.400001,2.0,4.30,2,0,5.28,9.6,4.30,2,1,14.5199995,26.4,4.30,3,0,5.0160003,0.88000005,4.30,3,1,8.436,1.48,4.3…2,10,0,8.82,2.1,4.92,10,1,9.156,2.18,4.92,11,0,5.655,1.45,5.22,11,1,9.4965,2.435,5.2

Page 110: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Nuts and Bolts (Boulons et écrous)(72 rangées):

Region Month Product Sales Equipment_costs Labor_costs

0 0 0 2.76 0.92 4.30 0 1 4.92 1.64 4.30 1 0 4.2 1 4.30 1 1 8.4 2 4.30 2 0 5.28 9.6 4.30 2 1 14.52 26.4 4.30 3 0 5.016 0.88 4.30 3 1 8.436 1.48 4.3… … … … … …2 10 0 8.82 2.1 4.92 10 1 9.156 2.18 4.92 11 0 5.655 1.45 5.22 11 1 9.4965 2.435 5.2

Dimensions Mesures

Page 111: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”

Page 112: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”

Pas très utile

Le SPLOM fonction bien avec les mesures,mais n’est pas adapté aux dimensions

Page 113: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”

Page 114: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”

Pas très utile

Les coordonnées parallèles fonctionnent bien avec les mesures,mais ne sont pas adaptées aux dimensions

Page 115: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”Des exemples de vues possibles avec Tableau:

Chacun des exemples ci-dessus montre seulement 4 des 6 variables. Montrer toutes les 6 variables(3 dimensions et 3 mesures) prendrait beaucoup d’espace.

Page 116: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Jeu de données “Nuts and Bolts”Exemple d’une vue possible avec Tableau:

L’exemple ci-dessus montre seulement 4 des 6 variables. Une des variables est “mois”, qui a 12 valeurs possibles, entraînant un grand besoin en espace.

Page 117: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Glyphes

dimension

dimension

mesure

dimension

mesure

mesure

Page 118: La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Résumé de manières principalesde visualiser les données mdmv

• 1 dimension + 1 mesure :

• 0 dimensions + 2 mesures :

• 2 dimensions + 1 mesure :

• Plusieurs dimensions :

• Plusieurs mesures :