113
ISV51: Programmation sous R Analyse de donn ´ ees ´ el ´ ementaire L3 GBI – Universit´ e d”Evry semestre d’automne 2015 http://julien.cremeriefamily.info/teachings_L3BI_ISV51.html 1

ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

ISV51: Programmation sous R

Analyse de donnees elementaire

L3 GBI – Universite d”Evry

semestre d’automne 2015

http://julien.cremeriefamily.info/teachings_L3BI_ISV51.html

1

Page 2: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptives

2

Page 3: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sortiesCharger des donneesBases des graphiques sous R

Statistiques descriptives

3

Page 4: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sortiesCharger des donneesBases des graphiques sous R

Statistiques descriptives

4

Page 5: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Saisir des donneesAlternative a la concatenation

commande scan

Une utilisation elementaire de scan permet une saisie plus agreable quela saisie directe des elements d’un vecteur.

> x<-scan()

1: 1

2: 2

3: 3

4: 4

5: 5

6:

Read 5 items

>

> x

[1] 1 2 3 4 5

valable pour les jeux de donnees d’au plus quelques dizainesd’elements. . .

5

Page 6: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Editer des donnees

commande edit

Permet d’editer des donnees existantes a l’aide d’un mini-tableur. Utilepour faire de petites modifications.

> new.data <- edit(old.data)

Figure: Editeur Mac OS 10.6 / R 2.10 (obsolete !

6

Page 7: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Fichiers binaires

commandes save et load

save sauvegarde un sous ensemble des variables de l’espace de travaildans un fichier binaire ; load permet de les recharger.

x <- rnorm(125)

y <- 1 + x + x^2

save(file="mes_simus",x,y)

rm(list=ls())

objects()

## character(0)

load(file="mes_simus")

objects()

## [1] "x" "y"

7

Page 8: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Jeux de donnees predefinies

commande data

R dispose d’une collection de donnees predefinies directement utilisables.La commande data() permet de les lister puis de les charger.

data(iris)

head(iris)

## Sepal.Length Sepal.Width Petal.Length Petal.Width Species

## 1 5.1 3.5 1.4 0.2 setosa

## 2 4.9 3.0 1.4 0.2 setosa

## 3 4.7 3.2 1.3 0.2 setosa

## 4 4.6 3.1 1.5 0.2 setosa

## 5 5.0 3.6 1.4 0.2 setosa

## 6 5.4 3.9 1.7 0.4 setosa

I La description d’un jeu de donnees est accessible dans l’aide.

I L’installation d’un nouveau package rend souvent disponibles denouveaux jeux de donnees accessibles par data.

8

Page 9: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Lecture de fichiersMethodologie

Un bon editeur permet de constater le formatage d’un fichier texte etcomment en « attaquer » l’importation.

Figure: Fichier au formatage ”csv”

9

Page 10: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Lecture de fichiers ILa fonction generique

commande read.table

Permet de lire un fichier formate sous forme de table et de le convertirsous la forme du objet data.frame. Parmi les nombreuses options, lesplus importantes sont

I header : presence ou pas d’une ligne nommant les colonnes dutableau

I sep : la chaıne de caractere definissant le separateur (par defaut, unou plusieurs espaces).

vignes <- read.table("data/baies_raisin.txt")

## Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :

la ligne 2 n’avait pas 20 elements

10

Page 11: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Lecture de fichiers IILa fonction generique

vignes <- read.table("data/baies_raisin.txt", sep='\t')head(vignes)

## V1 V2 V3 V4

## 1 Population variete nbre pepin/baie 2008 poids pulpe/baie (g) 2008

## 2 CE 1784 1.00 0.89

## 3 CE 124 1.00 1.14

## 4 CE 210 1.20 1.26

## 5 CE 1805 1.20 0.66

## 6 CE 1303 1.20 0.83

## V5 V6 V7

## 1 volume baie (cm3) 2008 nbre pepin/baie 2009 poids pulpe/baie (g) 2009

## 2 7.70

## 3 8.82

## 4 10.20

## 5

## 6

11

Page 12: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Lecture de fichiers IIILa fonction generique

vignes <- read.table("data/baies_raisin.txt", sep='\t', header=TRUE)

head(vignes)

## Population variete nbre.pepin.baie.2008 poids.pulpe.baie..g..2008

## 1 CE 1784 1.0 0.89

## 2 CE 124 1.0 1.14

## 3 CE 210 1.2 1.26

## 4 CE 1805 1.2 0.66

## 5 CE 1303 1.2 0.83

## 6 CE 284 1.3 0.54

## volume.baie..cm3..2008 nbre.pepin.baie.2009 poids.pulpe.baie..g..2009

## 1 7.70 NA NA

## 2 8.82 NA NA

## 3 10.20 NA NA

## 4 NA NA NA

## 5 NA NA NA

## 6 4.61 NA NA

12

Page 13: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Lecture de fichiersread.csv,read.delim

Commandes read.csv et read.delim

Raccourcis pour la fonction read.table, specialises dans l’importationdes donnees « .csv » (comma-separated value) ou tabulees (le separateurest la tabulation).

vignes <- read.delim(file="data/baies_raisin.txt", header=TRUE)

head(vignes)

## Population variete nbre.pepin.baie.2008 poids.pulpe.baie..g..2008

## 1 CE 1784 1.0 0.89

## 2 CE 124 1.0 1.14

## 3 CE 210 1.2 1.26

## 4 CE 1805 1.2 0.66

## 5 CE 1303 1.2 0.83

## 6 CE 284 1.3 0.54

## volume.baie..cm3..2008 nbre.pepin.baie.2009 poids.pulpe.baie..g..2009

## 1 7.70 NA NA

## 2 8.82 NA NA

## 3 10.20 NA NA

## 4 NA NA NA

## 5 NA NA NA

## 6 4.61 NA NA13

Page 14: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ecriture dans un fichiers Iwrite.table

commandes write.table, write.csv et write.delim

La fonction write.table permet d’imprimer les donnees issues d’undata.frame dans un fichier texte externe. write.csv et write.delimsont des raccourcis pour les donnees csv ou tabulee.

vignes2008 <- vignes[, 1:5]

write.table(vignes2008, file="data/baies_raisin2008.txt")

rm(vignes2008)

14

Page 15: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ecriture dans un fichiers IIwrite.table

head(read.table(file="data/baies_raisin2008.txt", header=TRUE))

## Population variete nbre.pepin.baie.2008 poids.pulpe.baie..g..2008

## 1 CE 1784 1.0 0.89

## 2 CE 124 1.0 1.14

## 3 CE 210 1.2 1.26

## 4 CE 1805 1.2 0.66

## 5 CE 1303 1.2 0.83

## 6 CE 284 1.3 0.54

## volume.baie..cm3..2008

## 1 7.70

## 2 8.82

## 3 10.20

## 4 NA

## 5 NA

## 6 4.61

15

Page 16: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Pour aller plus loin. . .

Beaucoup de choses sur l’importation des donnees dans

R Data Import /Export.http://cran.r-project.org/doc/manuals/R-data.pdf

I Exemples avances avec read.table,

I communication avec les bases de donnees (SQL),

I importation de donnees Excel,

I . . .

16

Page 17: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sortiesCharger des donneesBases des graphiques sous R

Statistiques descriptives

17

Page 18: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Parametres recurrents

Forme generique

La plupart des fonctions graphique s’utilisent par un appel du type

1. nom.function(object, options),

2. nom.function(x, y , options).

Parmi les options les plus courantes, on trouve :

I type=”p”; specifie le type de trace : ”p” pour points, ”l” pour lignes,”b” pour points lies par des lignes, ”o” pour lignes superposees auxpoints. . .

I xlim= ; ylim=, specifie les limites de axes x et y

I xlab= ; ylab=, annotation des axes x et y

I main= ; titre du graphe en cours

I sub= ; sous-titre du graphe en cours

I add=FALSE ; si TRUE superpose le graphe au precedent

I axes=TRUE ; si FALSE ne trace pas d’axes18

Page 19: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Parametres recurrents

Forme generique

La plupart des fonctions graphique s’utilisent par un appel du type

1. nom.function(object, options),

2. nom.function(x, y , options).

Parmi les options les plus courantes, on trouve :

I type=”p”; specifie le type de trace : ”p” pour points, ”l” pour lignes,”b” pour points lies par des lignes, ”o” pour lignes superposees auxpoints. . .

I xlim= ; ylim=, specifie les limites de axes x et y

I xlab= ; ylab=, annotation des axes x et y

I main= ; titre du graphe en cours

I sub= ; sous-titre du graphe en cours

I add=FALSE ; si TRUE superpose le graphe au precedent

I axes=TRUE ; si FALSE ne trace pas d’axes18

Page 20: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Representer un objet graphiquement I

commande plot

Fonction elementaire de representation graphique.

I plot(vect) represente le graphe des valeurs de vect sur l’axe des y .

I plot(vect1,vect1) represente le graphe des valeurs de vect2 enfonction de vect1. plot(object,...) appelle la methodeplot.class si elle est definie pour l’objet de class class.

Par exemple, avec deux vecteurs :

x <- runif(50,0,2)

y <- 3 * x + 2 * x^2 + 1 + rnorm(50,sd=1.5)

plot(x, y, xlab="x-label",ylab="y-label",main="mon premier graphe")

19

Page 21: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Representer un objet graphiquement II

0.0 0.5 1.0 1.5 2.0

05

1015

mon premier graphe

x−label

y−la

bel

20

Page 22: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Autres exemples d’utilisation de plot (I) I

Beaucoup d’objet R accepte la commande plot ! En particulier, leshistogrammes :

mon_histo <- hist(rchisq(1000,df=4),nclass=75, plot=FALSE)

plot(mon_histo,main="distribution empirique du Khi-2")

21

Page 23: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Autres exemples d’utilisation de plot (I) II

distribution empirique du Khi−2

rchisq(1000, df = 4)

Fre

quen

cy

0 5 10 15

010

2030

40

22

Page 24: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Autres exemples d’utilisation de plot (II)

Objet ”formule” entre variables numeriques : graphe de dispersion

plot(poids.pulpe.baie..g..2008~nbre.pepin.baie.2008, vignes)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

nbre.pepin.baie.2008

poid

s.pu

lpe.

baie

..g..2

008

23

Page 25: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Autres exemples d’utilisation de plot (III)

Objet ”formule” entre variables numerique et categorielle : boxplot

plot(poids.pulpe.baie..g..2008~Population, vignes)

CE CO TE

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Population

poid

s.pu

lpe.

baie

..g..2

008

24

Page 26: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Autres exemples d’utilisation de plot (IV)

Objet ”data.frame” : graphes pair a pair

plot(vignes)

Population

0 50 150 250 0.5 1.5 2.5 3.5 1.0 2.0 3.0

1.0

2.0

3.0

010

025

0

variete

nbre.pepin.baie.2008

0.0

1.5

3.0

0.5

2.5

poids.pulpe.baie..g..2008

volume.baie..cm3..2008

520

35

1.0

2.5

nbre.pepin.baie.2009

1.0 2.0 3.0 0.0 1.0 2.0 3.0 5 15 25 35 1 2 3 4

13

poids.pulpe.baie..g..2009

25

Page 27: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tracer une fonction symbolique I

commande curve

Elle permet de tracer une fonction definie par une expression de x.

plot(x, y, main="donnees + modele ajuste",

xlab="x-label", ylab="y-label")

a <- coefficients(lm(y~1+x+I(x^2)))

curve(a[1] + a[2]*x + a[3]*x^2,add=TRUE,col="red")

26

Page 28: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tracer une fonction symbolique II

0.0 0.5 1.0 1.5 2.0

05

1015

données + modèle ajusté

x−label

y−la

bel

27

Page 29: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ajouter une legende I

commande legend

Pour ajouter une legende. Attention aux options, assez nombreuses !

plot(x, y, main="donnees + modele ajuste",

xlab="x-label", ylab="y-label")

a <- coefficients(lm(y~1+x+I(x^2)))

curve(a[1] + a[2]*x + a[3]*x^2,add=TRUE,col="red")

legend("bottomright",c("donnees","modele"),lty=c(1,1),col=c("black","red"),bty="n")

28

Page 30: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ajouter une legende II

0.0 0.5 1.0 1.5 2.0

05

1015

données + modèle ajusté

x−label

y−la

bel

donnéesmodèle

29

Page 31: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Representation 3D (courbe de niveaux) I

commande contour

contour(x,y,z) permet de tracer des courbes de niveaux : x et y sontdes vecteurs et z une matrice telle que les dimensions de z soientlength(x),length(y).

x<-seq(-1,9,length=100)

y<-seq(-1,7,length=100)

z<-outer(x,y,function(x,y) 0.3*exp(-0.5*((x-3)^2 +(y -3)^2)) +

0.7*exp(-0.5*((x-6)^2 +(y -4)^2)))

contour(x,y,z,col="blue4")

30

Page 32: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Representation 3D (courbe de niveaux) II

0.1

0.2

0.3

0.3

0.4

0.5

0.6

0 2 4 6 8

02

46

31

Page 33: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ajout de droites I

commande abline

abline permet d’ajouter a un graphe courant

I des droites de decalage a et de coefficient directeur b avecabline(a,b),

I des droites verticales avec abline(v=),

I des droites horizontales avec abline(h=).

commandes lines et points

Pour ajouter une courbe ou des points : s’utilisent de maniere similaire aplot.

32

Page 34: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ajout de droites II

contour(x,y,z,col="blue4")

curve((0.3*dnorm(x,mean=3) + 0.7*dnorm(x,mean=6))*3,-1,9,col="red",ylim=c(-1,7),add=T)

x<-seq(-1,9,length=100)

lines((0.5*dnorm(x,mean=3) + 0.5*dnorm(x,mean=4))*3,x,col="red")

abline(h=0)

abline(v=0)

33

Page 35: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ajout de droites III

0.1

0.2

0.3

0.3

0.4

0.5

0.6

0 2 4 6 8

02

46

34

Page 36: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe en 3D I

commande persp

Fonctionne comme la fonction contour en proposant une representationen perpective.

persp(x,y,z, box=TRUE,theta = 10, phi = 45,xlab = "x", ylab = "y", zlab = "f(x,y)")

35

Page 37: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe en 3D II

x

yf(x,y)

36

Page 38: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Rediriger la sortie graphique

Par defaut, R envoie les graphiques sur la sortie ecran. De nombreuses

Exportation de graphes

Se realise en encadrant les fonctions graphiques par les commandesformat_export(file="nom_fichier") et dev.off()), ouformat_fichier peut prendre les valeurs pdf,postscrip,png, . . ..

pdf(file="ma_sortie.pdf")

plot(runif(20),runif(20))

dev.off()

37

Page 39: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphes multiples

Ouverture d’une nouvelle fenetre graphique

Se fait, selon les plateformes, avec les commandes

I x11()) pour Linux,

I quartz() ou x11()) pour Mac OS,

I windows().

Decoupage d’une fenetre

Plusieurs possibilites :

I layout(mat,width=,height=), qui s’utilise en decoupant l’ecranvia la matrice mat.

I par(mfrow=vect) ou par(mfcol=vect) qui decoupent en n ligneset m colonne specifiees par le vecteur vect. Le remplissage se faitpar ligne ou par colonne selon la fonction choisie.

38

Page 40: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Decoupage du support graphique I

m1 <- matrix(1:4,2,2)

layout(m1)

m2 <- matrix(c(1:3,3),2,2)

layout(m2)

m3 <- matrix(0:3,2,2)

layout(m3,c(1,3),c(1,3))

39

Page 41: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Decoupage du support graphique I

1

2

3

4

40

Page 42: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Decoupage du support graphique II

1

2

3

41

Page 43: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Decoupage du support graphique III

1

2

3

42

Page 44: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Pour aller plus loin

I La commande par gere les options graphiques,

I Le package lattice, pour des graphes multivaries,

I Le package ggplot2, dont nous verrons une introduction en fin demodule

Lattice : Multivariate Data Visualization with R Deepayan Sarkarhttp://lmdvr.r-forge.r-project.org/

ggplot2 : Grammar of graphics, Hadley Wickhamhttp://ggplot2.org/

Au dela des mecanismes de representation graphiques elementaires, lespossibilites graphiques de R sont liees a la nature des resumesstatistiques operes sur les donnees (cf. section suviante).

43

Page 45: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

44

Page 46: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

45

Page 47: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques definitions

I Statistique - activite qui consiste dans le recueil, le traitement etl’interpretation de donnees d’observation.

I Population - ensemble d’entites objet de l’investigation statistique.

I Individu - element de la population d’etude

I Variable/Attribut - descripteur ou caractere des individus de lapopulation d’etude.

46

Page 48: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques definitions

I Statistique - activite qui consiste dans le recueil, le traitement etl’interpretation de donnees d’observation.

I Population - ensemble d’entites objet de l’investigation statistique.

I Individu - element de la population d’etude

I Variable/Attribut - descripteur ou caractere des individus de lapopulation d’etude.

46

Page 49: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques definitions

I Statistique - activite qui consiste dans le recueil, le traitement etl’interpretation de donnees d’observation.

I Population - ensemble d’entites objet de l’investigation statistique.

I Individu - element de la population d’etude

I Variable/Attribut - descripteur ou caractere des individus de lapopulation d’etude.

46

Page 50: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques definitions

I Statistique - activite qui consiste dans le recueil, le traitement etl’interpretation de donnees d’observation.

I Population - ensemble d’entites objet de l’investigation statistique.

I Individu - element de la population d’etude

I Variable/Attribut - descripteur ou caractere des individus de lapopulation d’etude.

46

Page 51: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Nature des variables

On distingue deux grandes familles de variable :

I qualitative ou factorielle : les valeurs prises sont les modalitesI ordinale : modalites intrinsequement ordonnees (niveau de vie)I nominale : pas de structure d’ordre (sexe).

I quantitative : les valeurs prises sont des nombresI discrete : a valeurs dans un ensemble denombrable (age en annee)I continue : a valeurs dans un ensemble indenombrable (taille, poids)

47

Page 52: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Nature des variables

On distingue deux grandes familles de variable :

I qualitative ou factorielle : les valeurs prises sont les modalitesI ordinale : modalites intrinsequement ordonnees (niveau de vie)I nominale : pas de structure d’ordre (sexe).

I quantitative : les valeurs prises sont des nombresI discrete : a valeurs dans un ensemble denombrable (age en annee)I continue : a valeurs dans un ensemble indenombrable (taille, poids)

47

Page 53: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Nature des variables

On distingue deux grandes familles de variable :

I qualitative ou factorielle : les valeurs prises sont les modalitesI ordinale : modalites intrinsequement ordonnees (niveau de vie)I nominale : pas de structure d’ordre (sexe).

I quantitative : les valeurs prises sont des nombresI discrete : a valeurs dans un ensemble denombrable (age en annee)I continue : a valeurs dans un ensemble indenombrable (taille, poids)

47

Page 54: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Mode d’etude d’une population

Echantillonnage

Processus de selection d’individus dans la population d’etude. seule solution dans le cas d’une population infinie ou grande

Objectifs d’une etude statistique

A partir d’un echantillon,

1. synthetiser, resumer, structurer l’information :Statistique descriptive ou exploratoire

2. formuler ou valider des hypotheses relatives a la population totale :Statistique inferentielle

48

Page 55: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Donnees

Soient n individus mesures par p variables

Tableau de donnees

X = (xij ) =

x11 . . . x1j . . . x1p

......

...xi1 xij xip

......

...xn1 . . . xnj . . . xnp

I Chaque variable est representee par la colonne X·j = (x1j , . . . , xnj )

I Chaque individu est represente par la ligne Xi · = (xi1, . . . , xip)

49

Page 56: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

50

Page 57: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Contexte

On considere une seule colonne a la fois du tableau de donnees, soientn observations de la j e variable :

X·j = (x1j , . . . , xnj )ᵀ

Les resumes statistiques se regroupent selon la nature de la variable j ,soientt

I qualitative ordinale (ou quantitative discrete)

I qualitative nominale

I quantitative continue

51

Page 58: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

52

Page 59: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Variable quantitative discrete ou qualitative ordinale

La variable prend ses valeurs dans E = {ε1, ..., εK} avec ε1 < ... < εK .

Tableau de frequence

Les resumes statistiques naturels sont lies aux frequences :

I εk , la modalite

I nk , l’effectif des observations ayant la valeur εkI fk = nk

n , la frequence (relative)

I Fk =∑k

j=1 fj , la frequence relative cumulee

53

Page 60: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Frequences et compagnie en R I

data(mtcars)

print(counts <- table(mtcars$gear))

##

## 3 4 5

## 15 12 5

print(frequences <- counts/length(mtcars$gear))

##

## 3 4 5

## 0.46875 0.37500 0.15625

print(cumFreq <- cumsum(frequences))

## 3 4 5

## 0.46875 0.84375 1.00000

54

Page 61: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Frequences et compagnie en R II

par(mfrow=c(1,3))

barplot(counts, ylab="effectifs", xlab="")

barplot(frequences, ylab="frequences", xlab="Number of Gears")

barplot(cumFreq, ylab="frequences cumulees", xlab="")

title(outer=TRUE,main="\nCar Distribution")

55

Page 62: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Frequences et compagnie en R III

3 4 5

effe

ctifs

02

46

810

1214

3 4 5

Number of Gears

fréq

uenc

es

0.0

0.1

0.2

0.3

0.4

3 4 5

fréq

uenc

es c

umul

ées

0.0

0.2

0.4

0.6

0.8

1.0

Car Distribution

56

Page 63: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Frequences et compagnie en R IUne alternative avec plot

par(mfrow=c(1,3))

plot(counts, ylab="effectifs", xlab="", type="h")

plot(frequences, ylab="frequences", xlab="Number of Gears", type="h")

plot(cumFreq, ylab="frequences cumulees", xlab="", type="h")

title(outer=TRUE,main="\nCar Distribution")

57

Page 64: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Frequences et compagnie en R IIUne alternative avec plot

05

1015

effe

ctifs

3 4 5

0.0

0.1

0.2

0.3

0.4

Number of Gears

fréq

uenc

es

3 4 5 1.0 1.5 2.0 2.5 3.0

0.5

0.6

0.7

0.8

0.9

1.0

fréq

uenc

es c

umul

ées

Car Distribution

58

Page 65: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Variable qualitative nominale

La variable prend ses valeurs dans E = {ε1, ..., εK}.

I memes representations que pour les variables ordinales (i.e.construits sur les frequences), mais sans ordre.

I Les diagrammes en barre restent appropries mais sans ordre naturelen abscisse.

59

Page 66: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

CamembertFournit une representation non ordonne des effectifs.

A n’utiliser que pour un faible nombre de modalites (sinon illisible)

pie(table(vignes$Population))

CE

CO

TE

60

Page 67: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

61

Page 68: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Resumes numeriques

Indicateurs de tendance centrale

I moyenne empirique : mean

I moyenne ponderee : weighted.mean

I mediane : median

Indicateurs de dispersion

I variance empirique (corrigee) : var

I ecart-type : sd

I etendu : range

I fractiles empirique : quantile

summary/fivenum reprend ces indicateurs numeriques elementaires. . .

62

Page 69: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Resumes numeriques I

63

Page 70: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Resumes numeriques II

vol.cm3 <- vignes$volume.baie..cm3..2008; vol.cm3 <- vol.cm3[!is.na(vol.cm3)]

mean(vol.cm3)

## [1] 10.46512

median(vol.cm3)

## [1] 8.91

var(vol.cm3) ## version corrigee !

## [1] 28.39179

sum((vol.cm3 - mean(vol.cm3))^2)/length(vol.cm3)

## [1] 28.25053

sum((vol.cm3 - mean(vol.cm3))^2)/(length(vol.cm3)-1)

## [1] 28.39179

64

Page 71: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Resumes numeriques III

sd(vol.cm3) ## version corrigee

## [1] 5.328394

range(vol.cm3)

## [1] 3.44 33.80

library(stats)

quantile(vol.cm3)

## 0% 25% 50% 75% 100%

## 3.44 7.14 8.91 11.90 33.80

summary(vol.cm3)

## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 3.44 7.14 8.91 10.47 11.90 33.80

fivenum(vol.cm3) # correspond a summary pour un vecteur

## [1] 3.44 7.14 8.91 11.90 33.8065

Page 72: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tableau de frequences

Pour une variable continue, necessite un partitionnement prealable dudomaine de definition en K classes (de largeur constante ou variable).

eff <- table(cut(vol.cm3, seq(min(vol.cm3),max(vol.cm3),len=10)))

barplot(eff/sum(eff), las=3)

(3.4

4,6.

81]

(6.8

1,10

.2]

(10.

2,13

.6]

(13.

6,16

.9]

(16.

9,20

.3]

(20.

3,23

.7]

(23.

7,27

.1]

(27.

1,30

.4]

(30.

4,33

.8]

0.0

0.2

0.4

66

Page 73: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe en tiges et feuillesAlternative au diagramme en barres

Permet de visualiser le tableau des frequences

stem(vol.cm3)

##

## The decimal point is at the |

##

## 2 | 45

## 4 | 01335667722245579

## 6 | 00012233444455555678999990011111222233344455556677788889

## 8 | 0011222344444555556677888990000223335566667799

## 10 | 000001222345566779113455567899

## 12 | 123489911234469

## 14 | 01245685688

## 16 | 012685

## 18 | 2828

## 20 | 170

## 22 | 1

## 24 | 0066

## 26 | 906

## 28 | 35

## 30 |

## 32 | 8

67

Page 74: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Boıte a moustaches ou boxplot I

La boıte a moustache permet de visualiser les grands traitscaracteristiques d’une distribution.

Definition

Graphique constitue

1. d’une boıte delimitee par les quartiles et la mediane

2. d’une paire de moustaches : minimum et maximum del’echantillon auquel on a ote les outliers.

I Les regles utilisees pour les outliers varient

3. des outliers eux-meme.

boxplot(vol.cm3,col="yellow",notch=T)

68

Page 75: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Boıte a moustaches ou boxplot II

510

1520

2530

35

69

Page 76: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Fonction de repartition empirique I

Definition

La version empirique de la fonction de repartition F (x ) = P(X ≤ x )s’ecrit

F : R 7→ [0, 1], x 7→ 1

ncard{i : xi ≤ x}

le graphe de la fonction de repartition est une fonction en escalierappele diagramme cumulatif

par(mfrow=c(1,2))

plot(ecdf(vol.cm3[vignes$Population =="TE"]), main="Population TE", xlab="")

plot(ecdf(vol.cm3[vignes$Population !="TE"]), main="Autres Populations", xlab="")

title(outer=TRUE, main="\nF.d.r du volume des baies")

70

Page 77: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Fonction de repartition empirique II

5 10 15 20 25 30 35

0.0

0.2

0.4

0.6

0.8

1.0

Population TE

Fn(

x)

5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

Autres Populations

Fn(

x)

F.d.r du volume des baies

71

Page 78: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Histogramme et estimateur a noyau I

Definition

Ce sont des estimateurs de la fonction de densite de x . On pose∑i

hi1[ai ,ai+1[(x ) pour a1 < ... < ak+1.

On a∑

i hi(ai+1 − ai) = 1 et hi(ai+1 − ai) = P(X ∈ [ai , ai+1[).

Realisation

1. Decoupage en intervalles [ai , ai+1)

2. Calcul de la frequence fi et de la hauteur hi

3. Aire du rectangle proportionnel a la frequence

72

Page 79: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Histogramme et estimateur a noyau II

Remarques

I Attention : hauteur proportionnelle a la frequence si et seulement siles intervalles ont tous la meme largeur

I Nombre d’intervalles : Important, mais reglage difficile. . .

hist(vol.cm3,nclass=25,prob=TRUE)

lines(density(vol.cm3), col="red")

73

Page 80: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Histogramme et estimateur a noyau III

Histogram of vol.cm3

vol.cm3

Den

sity

5 10 15 20 25 30 35

0.00

0.05

0.10

0.15

74

Page 81: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

75

Page 82: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

76

Page 83: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Representation conditionnellement a un facteur

Les boıtes a moustaches se prettent bien a cet exercice

pop <- vignes$Population[!is.na(vignes$volume.baie..cm3..2008)]

boxplot(vol.cm3~pop,col="yellow",notch=T)

CE CO TE

510

1520

2530

35

77

Page 84: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe conditionne par une variable

pepin <- vignes$nbre.pepin.baie.2008[!is.na(vignes$volume.baie..cm3..2008)]

coplot(vol.cm3 ~ pepin | pop, show.given=FALSE)5

1015

2025

3035

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

510

1520

2530

35

pepin

vol.c

m3

Given : pop

78

Page 85: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

79

Page 86: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tableau croise ou table de contingence I

Tableau de contigence

Chaque case du tableau de contingence compte le nombre d’individuspossedant la modalite i de la variable X et j de la variable Y : nij

Marges

A ce tableau on peut rajouter une ligne et une colonne contenant lesmarges

I ni• =∑

j nij (marge en ligne)

I n•j =∑

i nij (marge en colonne)

Le nombre total d’individus de l’echantillon est

n =∑ij

nij =∑i

ni• =∑j

n•j

80

Page 87: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tableau croise ou table de contingence II

X<-sample(c("Brown","Blue","Hazel","Green"),prob=c(6,3,1,1),replace=T,size=200)

Y<-sample(c("Black","Brown","Red","Blond"),prob=c(2,5,2,3),replace=T,size=200)

print(ContingencyTable<-table(X,Y))

## Y

## X Black Blond Brown Red

## Blue 6 12 29 14

## Brown 20 24 44 18

## Green 1 2 14 2

## Hazel 2 4 7 1

81

Page 88: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Diagramme mosaıque I

Representer un tableau de contingence avec des informations sur sesmarges

I chaque colonne j possedeune largeur proportionnelle a sa marge n•j

I chaque case ij dans une colonne j possedeune hauteur proportionnelle a

nij

n•j

I la surface de chaque case ij est donc proportionnelle a son effectifnij

plot(ContingencyTable)

82

Page 89: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Diagramme mosaıque II

ContingencyTable

X

Y

Blue Brown Green Hazel

Bla

ckB

lond

Bro

wn

Red

83

Page 90: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

84

Page 91: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphes pair a pairRepresente toutes les paires de graphes naturels d’un tableau

data(iris); pairs(iris)

Sepal.Length

2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

4.5

6.0

7.5

2.0

3.0

4.0

Sepal.Width

Petal.Length

13

57

0.5

1.5

2.5

Petal.Width

4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 1.0 1.5 2.0 2.5 3.0

1.0

2.0

3.0

Species

85

Page 92: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe quantile/quantile

Pour comparer visuellement les distributions de variables continues.

with(iris, qqplot(Sepal.Length[Species=="setosa"],Sepal.Length[Species=="virginica"]))

4.5 5.0 5.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Sepal.Length[Species == "setosa"]

Sep

al.L

engt

h[S

peci

es =

= "

virg

inic

a"]

86

Page 93: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Ecart a la distribution normale

Une distribution est-elle normale ? qqnorm/qqline donne une indication.

with(iris, qqnorm(Sepal.Length))

with(iris, qqline(Sepal.Length))

−2 −1 0 1 2

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

87

Page 94: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Statistique du couple : covariance

Definition

Decrit l’ecart conjoint de 2 variables a leurs esperances respectives

cov(X ,Y ) = E [(X − EX )(Y − EY )] = E(XY )− EXEY

cov.mat <- cov(iris[,-5])

Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063

88

Page 95: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Statistique du couple : correlation

Definition

Il s’agit de la version normalise de la covariance

cor(X ,Y ) =cov(X ,Y )√V(X )V(Y )

data(iris)

cor.mat <- cor(iris[,-5])

Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000

89

Page 96: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Graphe pair a pair et correlation

La correlation dit a quel point deux variables s’expliquent lineairementl’une l’autre.

library(GGally); ggpairs(iris, columns = 1:4, color = "Species" )

Sep

al.L

engt

hS

epal

.Wid

thP

etal

.Len

gth

Pet

al.W

idth

Sepal.Length Sepal.Width Petal.Length Petal.Width

5

6

7

8Cor : −0.118

setosa: 0.743versicolor: 0.526

virginica: 0.457

Cor : 0.872setosa: 0.267

versicolor: 0.754virginica: 0.864

Cor : 0.818setosa: 0.278

versicolor: 0.546virginica: 0.281

2.02.53.03.54.04.5

Cor : −0.428setosa: 0.178

versicolor: 0.561virginica: 0.401

Cor : −0.366setosa: 0.233

versicolor: 0.664virginica: 0.538

2

4

6 Cor : 0.963setosa: 0.332

versicolor: 0.787virginica: 0.322

0.00.51.01.52.02.5

5 6 7 8 2.0 2.5 3.0 3.5 4.0 4.5 2 4 6 0.0 0.5 1.0 1.5 2.0 2.5

90

Page 97: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Histogramme bidimensionnelle

Regroupe les points d’un graphe de dispersion par pave bidimensionnels.

library(squash);

par(mfrow=c(1,2))

hist2(iris$Sepal.Length,iris$Sepal.Width)

hist2(iris$Sepal.Length,iris$Sepal.Width, nx=20)

iris$Sepal.Length

iris$

Sep

al.W

idth

4.5 5.0 5.5 6.0 6.5 7.0 7.5

2.0

2.5

3.0

3.5

4.0

Counts

1 3 5iris$Sepal.Length

iris$

Sep

al.W

idth

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.0

2.5

3.0

3.5

4.0

Counts

1 3 5 791

Page 98: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Histogramme bidimensionnelle lisse

Estime la densite associe a deux variables continues. Representation 3Dou image possible

library(MASS)

den3d <- kde2d(iris$Sepal.Length, iris$Sepal.Width)

par(mfrow=c(1,2))

persp(den3d, box=TRUE,theta = 10, phi = 45)

image(den3d)

den3d

Y

Z

4.5 5.0 5.5 6.0 6.5 7.0 7.5

2.0

2.5

3.0

3.5

4.0

92

Page 99: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Plan

Entrees/sorties

Statistiques descriptivesGeneralitesStatistique descriptive univariee

Variable qualitativeVariable quantitative

Statistique descriptive multivarieeCroisement qualitatives/quantitatifCouple de variables qualitativesCouple de variables quantitatives

Generateur aleatoire

93

Page 100: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques distributions disponibles

Distribution R Parametresbeta beta

binomiale binom size, probbinomiale negative nbinom

Cauchy cauchy

Chi-deux chiqsq dfExponentielle exp rateFisher f df1, df2Gamma gamma

geometrique geom

hypergeometrique hyper

log-normal lnorm

logistique logis

normale norm mean, sdnormale multivariee mvnorm mean, sigmaPoisson pois

Student t dfuniforme unif min, maxWeibull weibull

Wilcoxon wilcox

Table: Principales distributions

94

Page 101: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques distributions disponibles

Distribution R Parametresbeta beta

binomiale binom size, probbinomiale negative nbinom

Cauchy cauchy

Chi-deux chiqsq dfExponentielle exp rateFisher f df1, df2Gamma gamma

geometrique geom

hypergeometrique hyper

log-normal lnorm

logistique logis

normale norm mean, sdnormale multivariee mvnorm mean, sigmaPoisson pois

Student t dfuniforme unif min, maxWeibull weibull

Wilcoxon wilcox

Table: Principales distributions

94

Page 102: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Quelques distributions disponibles

Distribution R Parametresbeta beta

binomiale binom size, probbinomiale negative nbinom

Cauchy cauchy

Chi-deux chiqsq dfExponentielle exp rateFisher f df1, df2Gamma gamma

geometrique geom

hypergeometrique hyper

log-normal lnorm

logistique logis

normale norm mean, sdnormale multivariee mvnorm mean, sigmaPoisson pois

Student t dfuniforme unif min, maxWeibull weibull

Wilcoxon wilcox

Table: Principales distributions

94

Page 103: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tirage aleatoire

Forme generique : r+distrib(n,...)

r pour « random » : n donne la taille de l’echantillon et ... sont lesparametres requis selon la forme de distrib.

rexp(10,rate=1/5)

## [1] 2.6403409 0.9194465 3.8042244 3.9043327 1.1889369 12.2990216

## [7] 0.1930232 6.8175360 16.5653974 4.7909241

rchisq(10,df=5)

## [1] 3.150175 11.666952 4.613559 5.786057 7.668031 2.983181 12.913080

## [8] 1.855266 8.280931 1.390537

runif(10,min=-2,max=2)

## [1] -1.3300977 -1.9725736 1.9131699 0.7622626 -0.7475197 1.7300227

## [7] 0.2942702 0.9741818 1.6627920 -1.4103824

95

Page 104: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Exemple avec la loi normale : histogrammeAvec n = 10

taille de l'échantillon = 10

Fre

quen

cy

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

96

Page 105: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Exemple avec la loi normale : histogrammeAvec n = 200

taille de l'echantillon = 200

Fre

quen

cy

−3 −2 −1 0 1 2 3

010

2030

40

97

Page 106: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Exemple avec la loi normale : histogrammeAvec n = 10000

taille de l echantillon = 10000

Fre

quen

cy

−4 −2 0 2

010

020

030

040

0

98

Page 107: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Tirage aleatoire avec sample

Definir une distribution discrete

La fonction sample(x, size, replace=FALSE, prob=NULL) permetd’echantillonner les elements de x : le tirage est de taille size, avec ousans remise. Si prob est vide, chaque element est equiprobable.

sample(1:5)

## [1] 5 2 4 3 1

sample(1:5,10,replace=TRUE)

## [1] 3 3 1 3 2 5 2 1 5 4

sample(1:5,10,replace=TRUE,prob=c(.35,.1,.1,.1,0.35))

## [1] 4 3 1 1 5 1 5 3 1 2

99

Page 108: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Avec n = 10

1 2 3 5

taille de l'echantillon = 10

01

23

45

6

100

Page 109: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Avec n = 100

1 2 3 4 5

taille de l'echantillon = 100

05

1015

2025

3035

101

Page 110: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Avec n = 10000

1 2 3 4 5

taille de l'echantillon = 10000

050

010

0015

0020

0025

0030

0035

00

102

Page 111: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Fonction de repartition

Forme generique : p+distrib(x,...)

p pour « probability distribution function » : donne P(X ≤ x), ou X estune variable aleatoire de loi distrib.

pnorm(0.5)

## [1] 0.6914625

pnorm(0.5,mean=2,sd=3)

## [1] 0.3085375

pnorm((0.5-2)/3)

## [1] 0.3085375

pbinom(5,10,.25)

## [1] 0.9802723

103

Page 112: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Densite

Forme generique : d+distrib(x,...)

d pour « density » : donne la densite pour une variable aleatoire continueet P(X = x) pour X une variable aleatoire discrete.

dnorm(0.5)

## [1] 0.3520653

dexp(3,1/8)

## [1] 0.08591116

dbinom(5,10,.25)

## [1] 0.0583992

dpois(4,2)

## [1] 0.09022352

104

Page 113: ISV51: Programmation sous R - Analyse de données élémentairejulien.cremeriefamily.info/doc/teachings/isv51/slides2-stat_desc.pdfJeux de donn ees pr ed e nies commande data R dispose

Fractiles

Forme generique : q+distrib(alpha,...)

q pour « quantile » : donne la valeur de x definie par

P(X ≤ x ) = α,

ou X est une variable aleatoire de loi distrib.

qnorm(0.95)

## [1] 1.644854

qt(0.4,df=28)

## [1] -0.2557675

qchisq(0.05,df=6)

## [1] 1.635383

105