STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 1 / 90

STAPRE — Statistiques

M. Ribatet

BioSTIC — Ecole Centrale de Nantes

mailto:[email protected]


Pre-requis

� Probabilites de base� Calcul matriciel� Notions d’optimisation� Logiciel R (sinon mini-cours)

Organisation

� 3 grands themes : classification, ACP, regression logistique� Cours theoriques suivis de travaux pratiques� Chaque TP consiste en deux analyses (simple et plus complexe).� Pour chaque TP, redaction d’un rapport (R Markdown)

Objectifs

� Theorie : Connaıtre les elements clefs (sans preuve)� Pratique : savoir utiliser rigoureusement

Evaluation

� 1 examen (ou pas !!!) final : 25%� 3 TP notes en equipe (2 voire 3 max) : 75%


Deroulement des seances


� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!




� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . .




� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . . On participe, c’est deja assez la loose de faire cours ainsi !



Figure 1: Vous allez tenter de classer des vins italiens selon differentes caracteristiques chimiques.



Figure 1: Vous allez tenter de synthetiser les profils des joueurs de Ligue 1.



Figure 1: Vous allez tenter de modeliser la probabilite de survivre lors du naufrage du Titanic.


0. Statistiques descriptives (Rappels ou pas!)

⊲

0. Statistiquesdescriptives(Rappels ou pas!)

1. Classification

2. Analyse encomposantesprincipales

2.5 StochasticModelling

3. Regressionlogistique




� Avant toute analyse statistique (complexe ou non), il est primordial de sefamiliariser avec les donnees

� Cette etape consiste generalement a :

– connaıtre le type des donnees, i.e., unite de mesure, variablequalitative ou quantitative

– analyser le comportement de ces donnees pour eventuellementdetecter quelques problemes / valeurs aberrantes.


Importation et resume numerique


� Bien souvent on commence par importer les donnees� Avec R c’est la fonction read.table et ses variantes� Pour obtenir un resume numerique basique on fait alors

> ## chickwts est un jeu de donnees fourni par R

> summary(chickwts)

weight feed

Min. :108.0 casein :12

1st Qu.:204.5 horsebean:10

Median :258.0 linseed :12

Mean :261.3 meatmeal :11

3rd Qu.:323.5 soybean :14

Max. :423.0 sunflower:12


Histogramme


� L’histogramme resume graphiquement la distribution d’une variable.� Son principal interet consiste a fournir un graphique permettant

d’identifier si

– la distribution est symetrique– l’etendue de cette distribution– son ordre de grandeur

> hist(chickwts$weight, freq = FALSE,

xlab = "Weight at six weeks (g)",

main = "")

Weight at six weeks (g)

Density

100 150 200 250 300 350 400 450

0.0

00

0.0

01

0.0

02

0.0

03

0.0

04

Figure 2: Histogramme du poids (g) des pouletsa 6 semaines.


Boxplot


� Le boxplot resume egalement la distribution d’une variable mais plusgrossierement qu’un histogramme.

� Il est surtout utilise pour comparer plusieurs variables / echantillons. Unboxplot seul est donc une idiotie formidable ;-)

> boxplot(weight~feed, data = chickwts,

ylab = "Weight at six weeks (g)", main = "")

casein horsebean linseed meatmeal soybean sunflower

100

150

200

250

300

350

400

feed

Weig

ht at six

weeks (

g)

Figure 3: Boxplot du poids (g) des poulets a 6semaines selon leur regime alimentaire.


Dotchart


� Un peu moins connu mais pas totalement inutile

> dotchart(sort(precip)[1:20],

xlab = "Average annual precipitation (in.)")

Phoenix

Reno

Albuquerque

El Paso

Boise

Denver

Los Angeles

Cheyenne

Great Falls

Salt Lake City

Bismark

Sacramento

Spokane

San Francisco

Honolulu

Sioux Falls

Minneapolis/St Paul

Milwaukee

Duluth

Omaha

10 15 20 25 30

Average annual precipitation (in.)

Figure 4: Dotchart sur les precipitations moyennesaux USA.


Dotchart (2)


� On peut faire aussi (un peu) plus complique

> mtcars <- mtcars[order(mtcars$mpg),]##tri selon la consommation

> my_cols <- c("orange", "seagreen3", "khaki2")[as.factor(mtcars$cyl)]

> dotchart(mtcars$mpg, labels = rownames(mtcars), groups = mtcars$cyl,

color = my_cols, pch = 15)

Cadillac FleetwoodLincoln ContinentalCamaro Z28Duster 360Chrysler ImperialMaserati BoraMerc 450SLCAMC JavelinDodge ChallengerFord Pantera LMerc 450SEMerc 450SLHornet SportaboutPontiac Firebird

Merc 280CValiantMerc 280Ferrari DinoMazda RX4Mazda RX4 WagHornet 4 Drive

Volvo 142EToyota CoronaDatsun 710Merc 230Merc 240DPorsche 914−2Fiat X1−9Honda CivicLotus EuropaFiat 128Toyota Corolla

10 15 20 25 30

Figure 5: Dotchart sur la consommation des voitures groupe selon la cylindree.


1. Classification


⊲ 1. Classification






Seances en autonomie


� Recuperer le pdf du livre An introduction to Statistical Learning

with Applications in R via ce lien� Lire la section 10.3 et faire une fiche de lecture (pour me poser des

questions par la suite !)� Faire le TP de la section 10.5


http://faculty.marshall.usc.edu/gareth-james/ISL/


� 3 viticulteurs� 178 vins italiens� 13 variables quantitatives

> head(wine)

Alcohol Malic Ash Alcalinity Magnesium Phenols

48 13.90 1.68 2.12 16.0 101 3.10

66 12.37 1.21 2.56 18.1 98 2.42

101 12.08 2.08 1.70 17.5 97 2.23

159 14.34 1.68 2.70 25.0 98 2.80

36 13.48 1.81 2.41 20.5 100 2.70

156 13.17 5.19 2.32 22.0 93 1.74

Flavanoids Nonflavanoid Proanthocyanins Color Hue

48 3.39 0.21 2.14 6.1 0.91

66 2.65 0.37 2.08 4.6 1.19

101 2.17 0.26 1.40 3.3 1.27

159 1.31 0.53 2.70 13.0 0.57

36 2.98 0.26 1.86 5.1 1.04

156 0.63 0.61 1.55 7.9 0.60

OD280/OD315 of diluted wines Proline

48 3.33 985

66 2.30 678

101 2.96 710

159 1.96 660

36 3.47 920

156 1.48 725


Qu’est ce que la classification ?


Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.





xi

x1 x2

...xn−1

xn





xi

x1 x2

...xn−1

xn

. . . . . .





xi

x1 x2

...xn−1

xn

x1

x4 x7

Urne 1

x6

xi

Urne 2

x2

Urne 3

. . . . . .x3

xn

Urne K

Remarque. Je parlerais indiferemment d’urne, de cluster ou d’etiquette pourdesigner le groupe associe a une observation.


Constitution des urnes


Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).





� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.

� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite

conduiront a differentes technique de classification.





� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.

� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite

conduiront a differentes technique de classification.

� Pour ce cours nous allons nous concentrer sur la classification par K–means.


K-means


� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.


K-means


� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.

� Le calcul de ‖xi‖2 doit etre fonde :

– variables quantitatives → OK– variable qualitative → KO1

� Les variables doivent avoir le meme ordre de grandeur—sinon onstandardise les donnees.

Remarque. D’autres normes peuvent etre utilisees, e.g. norme ‖ · ‖1 →K-medians.

1Hmmm hmmm en fait on peut s’en sortir mais je n’en parlerai pas


Probleme d’optimisation


Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,





π∗ = argminπ∈P(n,K)

1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸︷︷︸

mesure l’homogeneite de l’urne k

,

ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.






1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸︷︷︸


,


� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !






1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸︷︷︸


,


� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !Bah en fait pas du tout car |P(n,K)| induit une explosioncombinatoire—e.g., S(11, 5) ≈ 2.5× 105. En pratique nous n’obtiendronsdonc jamais le minimum global mais un minimum local qui sera suffisammentpertinent !


Algorithme de LLoyd


Algorithme 1 : Algorithme de Lloyd.

input : Donnees x1, . . . , xn, nombre d’urnes K, nb. d’iteration max. Tmax,partitionnement initial π.

output : Un partitionnement “optimal” π

1 for t← 1 to Tmax do2 Pour chaque urne, calculez son centroıde, i.e.,;3

µk =1

Nk

∑

i : π(i)=k

xi, k = 1, . . . ,K, Nk =

n∑

i=1

1{π(i)=k}.

4 Pour chaque observation, affectez l’urne dont le centroıde est le plus proche,i.e.,

π(i) = argmin{k : ‖xi − µk‖2

}.

5 if Le partitionnement π n’a pas change then6 Sortir de la boucle;

7 return π;


Illustration sur les donnees d’Iris de Fisher


Donnees 150 mesures des largeurs et longueurs des petales et sepales d’iris.Objectif Retrouver l’espece de chaque iris, i.e., setosa, versicolor ouvirginica.

> head(iris)## <<- je vous mens ;-)

Sepal.Length Sepal.Width Petal.Length Petal.Width

1 5.1 3.5 1.4 0.2

2 4.9 3.0 1.4 0.2

3 4.7 3.2 1.3 0.2

4 4.6 3.1 1.5 0.2

5 5.0 3.6 1.4 0.2

6 5.4 3.9 1.7 0.4


Visualisation graphique


Sepal.Length2

.03

.04

.0

4.5 5.5 6.5 7.5

0.5

1.5

2.5

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Petal.Length

1 2 3 4 5 6 7

0.5 1.0 1.5 2.0 2.5

4.5

6.0

7.5

13

57

Petal.Width

Figure 6: Scatter plot des donnees Iris.


Visualisation graphique


Sepal.Length2

.03

.04

.0

4.5 5.5 6.5 7.5

0.5

1.5

2.5

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Petal.Length

1 2 3 4 5 6 7

0.5 1.0 1.5 2.0 2.5

4.5

6.0

7.5

13

57

Petal.Width

Figure 6: Scatter plot des donnees Iris.


Savoir juger de la qualite de la classification


� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de

la classification ?

– Notion d’inertie– Matrice de confusion


Savoir juger de la qualite de la classification


� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de

la classification ?

– Notion d’inertie– Matrice de confusion– . . . ou autres approches classiques en machine learning, e.g., training

(+ validation) + test


Inertie


Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2.

C’est en quelque sorte une mesure de la dispersion totale du nuage de points.


Inertie


Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2.

−6 −4 −2 0 2 4

−6

−4

−2

02

4

1ere variable

2em

e v

ari

able

Inertie = 0.86

−6 −4 −2 0 2 4

−6

−4

−2

02

4

1ere variable

2em

e v

ari

able

Inertie = 2.65

Figure 7: Inertie pour deux nuages de points.


Un petit calcul bien eclairant. . .


Soit un nuage de point x = (x1, . . . , xn) et une classification de ce dernier π.via K urnes. Alors

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2

=1

2n

K∑

k=1

n∑

i=1

n∑

j=1

‖xi − xj‖21{π(j)=k} +n∑

j=1

‖xi − xj‖21{π(j) 6=k}

1{π(i)=k}

= W (x, π) +B(x, π)

ou

W (x, π) =1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

B(x, π) =1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=k,π(j) 6=k}.


. . . bien eclairant ?


I(x) = W (x, π) +B(x, π)

� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).




I(x) = W (x, π) +B(x, π)


� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification

B(x, π)

I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !




I(x) = W (x, π) +B(x, π)


� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification

B(x, π)

I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !

Remarque. On a

W (x, π) =1

n

K∑

k=1

nk1

2nk

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸︷︷︸

Wk(x,π)=Inertie de la k-eme urne

, nk =n∑

i=1

1{π(i)=k}.


Matrice de confusion (si c’est possible)


� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . .




� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !





� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion

1 2 3

setosa 33 0 17versicolor 0 46 4virginica 0 50 0

Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.






1 2 3



1 2 3


Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.






1 2 3



1 2 3


Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.

� La classification par K–means est incapable de distinguer les especesversicolor et virginica.


Petit aparte: Supervise // Non supervise


Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.


Petit aparte: Supervise // Non supervise


Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.

Definition 3. On parlera de classification supervisee lorsque notre echantillond’apprentissage contient deja les etiquettes. Lorsque cela ne sera pas le casnous travaillerons donc en classification non supervisee.


Focus sur le cadre supervise


� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !





� L’interet portera ici sur la prediction, i.e.,

une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?





� L’interet portera ici sur la prediction, i.e.,

une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?

� Pour ce cours nous allons nous restreindre au cadre non supervise.


Choix du nombre de classes


� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).

� Dans de nombreuses situations, nous n’en savons rien !2

� Comment faire ?


Choix du nombre de classes


� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).

� Dans de nombreuses situations, nous n’en savons rien !2

� Comment faire ?L’idee est simple mais efficace3

1. Faire des classifications k-means pour un nombre croissant de classes,e.g., K = 2, . . . , 10.

2. Retenir la classification pour laquelle un nombre de classes plus grand“n’apporte pas grand chose”, i.e.,

B(x, π)

I(x)ne croit plus beaucoup

W (x, π)

I(x)= 1− B(x, π)

I(x)ne decroit plus beaucoup

2Parfois meme cela peut-etre contre productif, cf. MNIST.3Bon on peut aussi faire encore la meme rengaine training + validation + test


Choix du nombre de classes pour les donnees d’Iris


5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Nombre de classe K

W(x

, π)

I(x)

Figure 8: Choix du nombre de classe a l’aide du critere W (x, π)/I(x). Ici nous prendrions K = 2 ou3. (c’est un peu subjectif je vous l’accorde !)


Prediction


� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .


Prediction



� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !

� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,

argmin{k : ‖x∗ − µk‖2

}.


Prediction



� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !

� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,

argmin{k : ‖x∗ − µk‖2

}.

Remarque. Cela permet de predire continument dans l’espace des variables etles predictions sont basees sur les cellules de Voronoı de germe µ1, . . . , µK ,i.e.,

Voronoı(µk) = {x ∈ Rp : ‖x− µk‖ ≤ ‖x− µℓ‖, ℓ = 1, . . . ,K}.


Illustration des cellules de Voronoı et de la prediction


−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.




−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able





−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able



Resumons le K–means


Mise en oeuvre

� Centrer et reduire les donnees (si necessaire) car approche basee sur ‖ · ‖ ;� Faire varier le nombre de classe K et conserver le “meilleur” ;� Analyser les classes et/ou faire des predictions.

Avantages

� Supporte plutot bien la montee en dimension, i.e., n grand. Complexiteen O(nKTmax)

4;� Prediction facile et rapide.

Inconvenients

� Hypothese tacite d’isotropie et repartition equilibree des classes5

� Probleme d’optimisation (minimum local, initialisation)

4Comme souvent Tmax et K sont petits ont dira souvent que c’est un algo. lineaire (en n)5Le k–means est en fait un melange Gaussien bien specifique. . .


Illustration de l’impact de l’initialisation


−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.


Illustration de l’impact de l’initialisation


−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.

� Il est (fortement) recommande de lancer l’algorithme avec plusieurs initiali-sations differentes et de ne garder que la meilleure—en terme d’inertie expliquee.


2. Analyse en composantes principales


1. Classification

⊲









with Applications in R via ce lien� Lire les sections 10.1 et 10.2 et faire une fiche de lecture (pour me poser

des questions par la suite !)� Faire le TP de la section 10.4



Les joueurs de la Ligue 1 (selon Fifa 2019)


> dim(ligue1)

[1] 565 22

> names(ligue1)

[1] "Name" "Age" "Nationality" "Overall" "Potential" "Club" "Value" "Wage" "Preferred.Foot" "International.Reputation"

[11] "Weak.Foot" "Skill.Moves" "Height" "Weight" "HeadingAccuracy" "ShortPassing" "Dribbling" "LongPassing"

[19] "BallControl" "Acceleration" "SprintSpeed" "Interceptions"

> summary(ligue1[,1:6])

Name Age Nationality Overall Potential Club

A. Abdennour: 1 Min. :16.0 France :307 Min. :53.00 Min. :63.00 AS Monaco : 33

A. Adouyev : 1 1st Qu.:21.0 Brazil : 26 1st Qu.:66.00 1st Qu.:72.00 FC Nantes : 32

A. Aktas : 1 Median :24.0 Senegal : 24 Median :71.00 Median :76.00 FC Girondins de Bordeaux: 31

A. Areola : 1 Mean :24.3 Ivory Coast: 17 Mean :70.73 Mean :76.48 Toulouse Football Club : 31

A. Bamba : 1 3rd Qu.:27.0 Belgium : 12 3rd Qu.:75.00 3rd Qu.:80.00 Angers SCO : 30

A. Barreca : 1 Max. :40.0 Cameroon : 11 Max. :92.00 Max. :95.00 Paris Saint-Germain : 30

(Other) :559 (Other) :168 (Other) :378


Motivation (1)


� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de

faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.


Motivation (1)


� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de

faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.

� Il serait utile d’avoir une methodologie pour “compresser” ce type dedonnees.


Motivation (2)


� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc

nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a

(p2

)telles paires. Par exemple, pour p = 10 on devrait examiner 45

graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres

utiles car ces scatterplot ne contiendront qu’une information tres limitee.


Motivation (2)


� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc

nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a

(p2

)telles paires. Par exemple, pour p = 10 on devrait examiner 45

graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres

utiles car ces scatterplot ne contiendront qu’une information tres limitee.

� Il serait utile d’avoir une methodologie pour visualiser ce type de donnees.


Angle d’attaque


Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?

un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.


Angle d’attaque


Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?

un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.

� Attention dans tout ce qui suit le tableau X est suppose centre et reduit.Pour les applications, il faudra egalement s’assurer que ce sera fait !!!


Decomposition SVD


Theoreme 1 (Decomposition en valeurs singulieres).Soit une matrice de reels X ∈ Rn×p6. Alors il existe un triplet(U,D, V ) ∈ Rn×n × Rn×p × Rp×p tel que

X = UDV ⊤,

ou U et V sont des matrices orthogonales et D = (dij) une matrice dont leselements verifient

dij =

{

λi, i = j

0, i 6= j, λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0, k = min(n, p).

λi est appelee la i-eme valeur singuliere.

6Ca marche aussi dans C !


Un theoreme bien utile


Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par

‖A‖F =√∑

i,j a2ij =

√

Tr(A⊤A), A ∈ Rn×p.

Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte

argmin ‖M −X‖FM∈Rn×p

tel que rang(M) ≤ r

est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,

M∗ = UDV,

ou D est identique a D sauf que λr+1 = · · · = λk = 0.


Un theoreme bien utile


Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par

‖A‖F =√∑

i,j a2ij =

√

Tr(A⊤A), A ∈ Rn×p.

Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte

argmin ‖M −X‖FM∈Rn×p

tel que rang(M) ≤ r

est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,

M∗ = UDV,

ou D est identique a D sauf que λr+1 = · · · = λk = 0.

� Si l’on veut approcher au mieux X (selon Frobenius) alors on prendra cettedecomposition SVD tronquee (avec r faible pour aider la visualisation ;-) )


. . . bien utile ?


� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .


. . . bien utile ?


� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .� Bah si on l’a deja vu en fait puisque c’est tres proche de l’inertie

‖X‖2F = Tr(XX⊤)

= Tr

{(

aij : aij =

p∑

ℓ=1

xiℓxjℓ

)}

=n∑

i=1

p∑

ℓ=1

xiℓxiℓ

=n∑

i=1

‖xi·‖2

= nI(X).


. . . bien utile ???


� OK mais moi l’inertie ca ne me parle pas trop non plus. . .


. . . bien utile ???


� OK mais moi l’inertie ca ne me parle pas trop non plus. . .� Rappelons que X est centree reduite et donc

1

nX

⊤X est la matrice (empirique) de correlation

� De plus on a

‖X‖2F = Tr(XX⊤) = Tr(X⊤

X) = np.


Resumons


� D’une part si l’on s’interesse aux lignes de X on a

‖X‖2F = nI(X) = n

n∑

i=1

‖xi·‖2.

� D’autre part, si l’on s’interesse aux colonnes de X on a

‖X‖2F = np.

� Enfin si l’on s’interesse a la decomposition SVD de X on a

‖X‖2F = Tr{

(UDV ⊤)(UDV ⊤)⊤}

= Tr(UD2U⊤) = Tr(D2)

=

p∑

j=1

λ2j .


Choisir le degre d’approximation


� Comment choisir ce degre d’approximation ?


Choisir le degre d’approximation


� Comment choisir ce degre d’approximation ?� Soit X = UDV ⊤ une decomposition SVD tronquee au rang

r ∈ {1, . . . ,min(n, p)}.� Alors la perte d’information (au sens de Frobenius) vaut

p∑

j=r+1

λ2j .

� De maniere equivalente on dira que notre approximation explique

100×∑r

j=1 λ2j

∑pj=1 λ

2j

%

de l’inertie // de la variance.


Illustration de la compression


Image de base r = 1

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.




Image de base r = 10

1 2 5 10 20 50 200

020

40

60

80

100


Vari

ance e

xpliq

uee (

%)






1 2 5 10 20 50 200

020

40

60

80

100


Vari

ance e

xpliq

uee (

%)






1 2 5 10 20 50 200

020

40

60

80

100


Vari

ance e

xpliq

uee (

%)






1 2 5 10 20 50 200

020

40

60

80

100


Vari

ance e

xpliq

uee (

%)






1 2 5 10 20 50 200

020

40

60

80

100


Vari

ance e

xpliq

uee (

%)


Table 3: Taille de l’image compressee par SVD en fonction du degre d’approximation r.

r 1 10 50 100 Original (330)Taille (Ko) 10 17 28 31 41Compression (%) 75 58 31 24 0



� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.

� Si je vous raconte tout cela c’est essentiellement pour retenir que :

– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.

� Nous devrons garder cela en memoire pour toute la suite !



� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.

� Si je vous raconte tout cela c’est essentiellement pour retenir que :

– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.

� Nous devrons garder cela en memoire pour toute la suite !� En effet nous allons tenter de tirer des conclusions sur le nuage projete et

non sur le nuage initial, il ne faudra pas que nos commentaires soient uneconsequence de notre approximation. . .


ACP pour visualiser les donnees


� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :

� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.






� En terminologie ACP,

– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du

j-eme axe factoriel.






� En terminologie ACP,

– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du

j-eme axe factoriel.

� En pratique on visualisera donc les donnees projetees et non les donneesbrutes.


Illustration sur un example bidon


−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

−6 −4 −2 0 2 4 6−

4−

20

24

6

Axe factoriel 1 ( 91 %)

Axe

facto

riel 2 (

9 %

)

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.


Illustration sur un example bidon


−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

−6 −4 −2 0 2 4 6−

4−

20

24

6

Axe factoriel 1 ( 91 %)

Axe

facto

riel 2 (

9 %

)

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.

Axe 1 explique 91% de la variance et est defini parAxe 1 = 0.55× Variable 1+ 0.84× Variable 2Axe 2 explique 9% de la variance et est defini parAxe 2 = −0.84× Variable 1+ 0.55× Variable 2


Attention aux projections


� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2

� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,

p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.


Attention aux projections


� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2

� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,

p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.

Exemple 1. Considerons les points A = (1, 2, 0) et B = (1, 2, 500) de R3 quenous projetons sur le plan {(x, y, z) : z = 0}. Alors sur ce plan A et B seconfondent pour autant ils etaient tres eloignes initialement.


Mesure de qualite de la projection


O

A•

B•

Axe factoriel

A∗B∗

Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.

� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.


Mesure de qualite de la projection


O

A•

B•

Axe factoriel

A∗B∗

Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.

� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.

� On appreciera la qualite de la projection par

OA2∗

OA2= cos2 AOA∗.


Influence d’un individu sur un axe factoriel


� Rappelons nous que ‖X‖2F =∑p

j=1 λ2j .

� Le j-eme axe factoriel contribue alors a

100×λ2j

∑pℓ=1 λ

2ℓ

% de la variance.

� Au sein de cette contribution, le i-eme individu contribue a

‖xi·vj‖2λ2j


Dualite


� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice

orthogonale.


Dualite



orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les

colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.


Dualite



orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les

colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.� Cela dit puisque X est reduit, on a

1

n‖x·j‖2 = 1, j = 1, . . . , p,

et les projections des variables normalisees par 1/√n sur tout plan

factoriel (ui1 , ui2) sont necessairement a l’interieur du cercle unite.� C’est ce qu’on appelle le cercle des correlations.� De plus la qualite de projection se simplifie alors

OA2∗

OA2= OA2

∗.


Etude sur un jeu de donnees socio-economique


TAN Taux accroissement (%)TXN Taux de natalite (%)TMI Taux de mortalite infantile (‰)ESV Esperance de vie (annees)

M15 % des moins de 15 ansP65 % des plus de 65 ansPUR % population urbaine (%)PIB PIB annuel par habitant ($)

> data

TAN TXN TMI ESV M15 P65 PUR PIB

Norvege 0.1 12 8 76 20 16 80.3 19500

France 0.4 14 8 75 21 13 77.2 15450

Australie 0.8 16 10 76 24 10 87.0 12000

Japon 0.6 12 6 77 22 10 76.5 19100

USA 0.7 16 11 75 22 12 74.0 18200

Bresil 2.1 29 63 65 36 4 74.0 1980

Pologne 0.8 18 19 71 25 9 60.0 4358

Mexique 2.4 31 50 67 42 4 70.0 1480

Maroc 2.6 36 90 60 42 4 44.0 549

Egypte 2.6 37 93 59 40 4 46.5 770

Albanie 2.0 26 43 71 35 5 34.0 840

Niger 2.9 51 141 44 47 3 16.0 205

Inde 2.1 33 101 55 38 4 25.5 275

Chine 1.3 21 61 66 28 5 21.0 255

ArabieSaoudite 3.2 39 79 63 37 2 73.0 5680

Portugal 0.2 12 17 73 24 12 31.0 3400


Variance expliquee


comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8

Vari

ance e

xpliq

uee (

%)

020

40

60

80

100

Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.


Variance expliquee


comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8

Vari

ance e

xpliq

uee (

%)

020

40

60

80

100

Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.

� Ici on ne garderait que les 2 premiers axes factoriels qui expliqueront81 + 11 = 92% de la variance. Si l’on ajoutait le 3eme axe, alors on aurait81 + 11 + 5 = 97% de la variance.


Projection sur le 1er plan factoriel


−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 15: Composantes principales du 1er plan factoriel, i.e., Axe 1 et Axe 2, pour les individus(gauche) et les variables (droite).


C’est a vous de parler !



Pour aller plus loin


Individu supplementaire

� Soit x∗· un nouvelle observation.� A partir de notre ACP, calculee sur X seulement, nous pouvons projeter

x∗· dans n’importe quel plan factoriel (des individus), i.e., x∗·V .� Cela permet de situer x∗· par rapport aux conclusions que nous avons

etablies lors de l’analyse des sorties de l’ACP.� Par dualite on peut faire pareil sur les variables. . .

Variable qualitative

� Vous aurez compris que pour l’ACP X ne doit contenir que des variablesquantitatives.

� C’est partiellement vrai, on peut utiliser des variables qualitatives.� Ces dernieres ne serviront pas aux calculs de l’ACP mais seulement pour

la visualisation.


Individu // variable supplementaires


−4 −2 0 2 4 6

−4

−2

02

4


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 16: Utilisation d’individus et de variables supplementaires en ACP.




−4 −2 0 2 4 6

−4

−2

02

4


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB


� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.




−4 −2 0 2 4 6

−4

−2

02

4


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege France

Australie

Japon USABresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

Syldavie

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

TF


� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.




−4 −2 0 2 4 6

−4

−2

02

4


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB





−4 −2 0 2 4 6

−4

−2

02

4


Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB


� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.




−4 −2 0 2 4 6

−4

−2

02

4

Confidence ellipses around the categories of HEM

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

AustralieJapon

USA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

Syldavie

Nord

Sud

NordSud

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0


Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

TF


� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.


2.5 Stochastic Modelling


1. Classification


⊲2.5 StochasticModelling

A basic example

LikelihoodAsymptotics for theMLE




What is stochastic modelling?


� The phrasing stochastic modelling is (most often) about using probabilitydistributions that would mimic the data under study.

� Since probability distributions are parameterized w.r.t. some parameterθ ∈ Θ ⊂ Rp, it amounts to have a methodology to get the “bestparameter value” given the data, called it θ.

� In Proba/Stat, θ is called an estimator of the parameter θ.� Watch out an estimator is a random variable/vector as a function of some

“generic data”, e.g., imagine that these generic data are the data you aregoing to collect.

� An estimate is a realization of the above estimator where you plug-in thedata you have at hand.


A basic example


Exemple 2 (Freebox failure time).Suppose your internet provider is Free7. You experience many bandwidthissues with your Wifi network. You may want to model the duration betweentwo network shutdowns.You decided to use an exponential distribution (why?) to model this failuretimes. Since the exponential distribution is parameterized w.r.t. a singleparameter λ > 0, our problem consists in estimating λ.

7which is mine currently unfortunately


Likelihood


� There is a wide zoology of available estimators: method of moments,maximum likelihood estimator, probability weighted moments, . . .

� In this (too short) lecture, I will focus on the maximum likelihoodestimator only since it is by far most widely used and versatile approach.

Definition 5. Given a parametric statistical model {f(y; θ) : y ∈ Rd, θ ∈ Θ}(this is the p.d.f. or p.m.f. of some probability distribution) and a sampleY1, . . . , Yn, the likelihood is given by

L(θ;Y1, . . . , Yn) = f(Y1, . . . , Yn; θ),

which turns out to be if the Yi are independent and identically distributed

L(θ;Y1, . . . , Yn) =

n∏

i=1

f(Yi; θ).


Maximum likelihood estimator


Definition 6. The maximum likelihood estimator is given by

θ = argmaxθ∈Θ

L(θ;Y1, . . . , Yn).

� It is often more convenient (from a computational and theoretical point ofview) to work with the log-likelihood in place of the likelihood

ℓ(θ;Y1, . . . , Yn) = logL(θ;Y1, . . . , Yn).

� Clearly we haveθ = argmax

θ∈Θℓ(θ;Y1, . . . , Yn).


Freebox failure time (2)


Exemple 3.

Recall that our statistical model for those failure time is Exp(λ), λ > 0.

1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.

30.7 76.8 47.1 46.5 0.6 7.6 29.4


Asymptotics for the MLE


Theoreme 3. Under some regularity conditions8, the maximum likelihoodestimator θ satisfies

√n(θ − θ0)

d.−→ N(0,−H(θ0)−1), n→∞,

where θ0 is the “true parameter” and H(θ0) = E{∇2 log f(Y ; θ0)

}.

In practice, due to the law of large numbers, H(θ0) is estimated (consistently)by

H(θ0) =1

n

n∑

i=1

∇2 log f(Yi; θ),

and we loosely state that, provided the sample size n is large enough,

θ·∼ N(θ0,−H(θ0)

−1).

8essentially that which enable switching differential and integral signs


Standard errors and confidence intervals


Definition 7. Given any scalar estimator θ (not necessarily the MLE), the

standard error of this estimator is simply

√

Var(θ).The standard error is a measure of precision of the estimator, the smaller thebetter.

Proposition 1 ((Asymptotics) Confidence intervals based on the MLE).Using the asymptotic normality of the MLE, it is not difficult to show that the(random) interval

IC(θ) := [θ − 1.96

√

Var(θ), θ + 1.96

√

Var(θ)]

is a (asymptotic) 95% confidence interval for θ0, i.e.,

(

limn→∞

)

Pr[θ0 ∈ IC(θ)] = 0.95.


Freebox failure time (3)


Exemple 4.

Recall that our statistical model for those failure time is Exp(λ), λ > 0.

1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.

30.7 76.8 47.1 46.5 0.6 7.6 29.4

3. Give the standard error for λ.4. Give an approximate 95% confidence interval for λ.



� I have still so much things to tell you about stochastic modelling� Unfortunately, we do not have enough time and this is not the purpose of

this course.� Just keep in mind that you only were here


3. Regression logistique


1. Classification



⊲3. Regressionlogistique






with Applications in R via ce lien� Lire les sections 4.1, 4.2 et 4.3 et faire une fiche de lecture (pour me

poser des questions par la suite !)� Faire le TP de la section 4.6.2




> head(titanic)

Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 S

2 1 1 Cumings, Mrs. John Bradley female 38 1 0 PC 17599 71.2833 C85 C

3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 S

4 1 1 Futrelle, Mrs. Jacques Heath female 35 1 0 113803 53.1000 C123 S

5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.0500 S

6 0 3 Moran, Mr. James male NA 0 0 330877 8.4583 Q


Modele lineaire : Rappel


Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)

= X⊤β + ε

� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de

modele, prediction.


Modele lineaire : Rappel


Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)

= X⊤β + ε

� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de

modele, prediction.

� Dans notre application precedente, pourquoi ne pas utiliser un modelelineaire ?


Regression logistique: Contexte


� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.

� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.

� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.


Regression logistique: Contexte


� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.

� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.

� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.

� Dans la suite on appellera succes l’evenement qui nous interesse pourl’etude, e.g., mort d’un patient, email est un spam, un etudiant s’endort. . .

9ou autre Y ∈ {Homme, Femme}, Y ∈ {Chaud, Froid} bref vous avez compris. . .


Une fonction bien sympathique


Definition 8. On appelle fonctionsigmoıde la fonction suivante

f : R −→ (0, 1)

x 7−→ exp(x)

1 + exp(x)−10 −5 0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

Figure 18: Graphe de la fonction sigmoide


Une fonction bien sympathique


Definition 8. On appelle fonctionsigmoıde la fonction suivante

f : R −→ (0, 1)

x 7−→ exp(x)

1 + exp(x)−10 −5 0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

Figure 18: Graphe de la fonction sigmoide

� C’est une bijection a valeur dans (0, 1) ce qui est parfait pour representerune probabilite non !

� L’idee fondamentale de la regression logistique est donc de poser

Pr(Y = 1 | X1, . . . , Xp) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp).


Petit aparte


� Vous savez quePr(X ∈ A) = E

[1{X∈A}

].

� Donc l’expression precedente peut s’ecrire aussi sous la forme

E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).

� Cette expression est a comparer avec le modele lineaire que vousconnaissez

E [Y | X1, . . . , Xp] = X⊤β.


Petit aparte


� Vous savez quePr(X ∈ A) = E

[1{X∈A}

].

� Donc l’expression precedente peut s’ecrire aussi sous la forme

E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).

� Cette expression est a comparer avec le modele lineaire que vousconnaissez

E [Y | X1, . . . , Xp] = X⊤β.

� En fait la regression logistique est un cas particulier du modele lineairegeneralise avec pour fonction de lien la reciproque de notre sigmoıde (connuesous le nom de fonction logit).


Inference


� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?


Inference


� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y

et pas Pr(Y = 1 | X).


Inference



et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de

vraisemblance, i.e.,

β = argmaxβ∈Rp+1

n∏

i=1

Pr (Y = 1 | X = Xi)Yi

︸︷︷︸

contribution lorsque Yi = 1

×Pr (Y = 0 | X = Xi)1−Yi

︸︷︷︸



Inference



et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de

vraisemblance, i.e.,

β = argmaxβ∈Rp+1

n∏

i=1

Pr (Y = 1 | X = Xi)Yi

︸︷︷︸


×Pr (Y = 0 | X = Xi)1−Yi

︸︷︷︸


� Il n’y a pas de solutions explicites pour ce probleme. On aura donc recoursa de l’optimisation numerique.


Que faire avec β ?


� Supposons que nous ayons ajuste notre modele de regression logistique.� Nous pouvons alors :

– Faire de la prediction, e.g., quelle est la probabilite qu’un etudiantayant les caracteristiques x s’endorme dans mon cours ?

– Voir quelles variables influent le plus sur la probabilite de succes ;– Faire de la classification (supervisee)


Prediction : Sommeil en cours


Remarque. Afin de simplifier les notations, on utilisera la notation suivante

p(X) = Pr(Y = 1 | X).

� Considerons le modele statistique ajuste suivant

p(X) =exp(β0 + β11{X=Homme})

1 + exp(β0 + β11{X=Homme}), β0 = −1, β1 = 2.

� Ainsi sous ce modele la probabilite qu’un/qu’une etudiant/etudiantes’endorme dans mon cours est estimee a

p(H) =exp(−1 + 2)

1 + exp(−1 + 2)≈ 0.73, p(F ) =

exp(−1)1 + exp(−1) ≈ 0.27.


Classification


� L’interet peut ne pas porter sur les probabilites mais sur Y directement !


Classification


� L’interet peut ne pas porter sur les probabilites mais sur Y directement !� Un nouvel etudiant10 arrive en cours d’annee, notons le X∗. Va-t-il

s’endormir pendant mon cours ?� On utilisera le critere de classification suivant

Y∗ =

{

1, p(X∗) > 0.5

0, p(X∗) < 0.5,

i.e., critere choisissant l’etat le plus probable.

10Nico Leptique ?


Prediction : Sommeil en cours Errata




1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).

� Le test de Wald (que nous allons voir sous peu) nous donne alors

Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,

et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.






1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).


Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,


� La variable sexe n’est pas statistiquement significative !






1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).


Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,


� La variable sexe n’est pas statistiquement significative !

� On prendra bien garde de tirer des conclusions sur notre modele final etpas celui en cours d’ebauche !


Test d’hypothese : Objectif


� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.

� Retenez bien le fait qu’il y aura toujours deux hypotheses.


Test d’hypothese : Objectif


� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.

� Retenez bien le fait qu’il y aura toujours deux hypotheses.

Exemple 5 (Lancers de piece). On jette une piece 10 fois afin de savoir sicette derniere est equilibree ou non. Nous obtenons que des faces ! Qu’enpensez vous ?


Test d’hypothese : Formalisme mathematique


� Tout test d’hypothese repose sur :

– Un niveau d’erreur α defini par α = PrH0(rejeter H0).

– 2 hypotheses : l’hypothese nulle H0 et l’hypothese alternative H1, e.g.,

H0 : la piece est equilibree H1 : la piece ne l’est pas

– Une “mesure de decision” appelee statistique de test T dont lecomportement sous H0 est connu.

– Une realisation de T notee Tobs obtenue a partir de nos observations– Une p-valeur comme regle de decision permettant d’opter ou non en

faveur de H0 ou H1.

Remarque. La plupart du temps, mais cela est specifique a chaque testd’hypothese, on aura

p-valeur = PrH0

(|T | > |Tobs|).


Vulgarisons


� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter

a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%

ou 10%.


Vulgarisons




ou 10%.� D’autre part on a p-valeur = PrH0

(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0


Vulgarisons




ou 10%.� D’autre part on a p-valeur = PrH0

(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0

� En consequence si H0 n’est pas realiste alors la p–valeur sera tres faible.� Il faut donc un seuil a partir duquel on decide de rejeter H0, c’est α, i.e.,

On rejettera H0 au profit de H1 si p− valeur < α

On ne sera pas en mesure de rejeter H0 au profit de H1 si p− valeur > α.


Test de Wald


� La j-eme covariable est elle vraiment utile dans mon super modele

p(X) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)?

� On peut le savoir a l’aide du test de Wald.


Test de Wald


� La j-eme covariable est elle vraiment utile dans mon super modele

p(X) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)?

� On peut le savoir a l’aide du test de Wald.� C’est un test statistique testant H0 : βj = 0 contre H1 : βj 6= 0.� La statistique de test est

T =βj

Std. error(βj).

� Sous H0 cette statistique de test T suit une loi normale centree reduitenous permettant de calculer la p-valeur.


Critere d’information : Akaike Information Criterion


� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.

� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme

AIC = −2ℓ(β)︸︷︷︸

qualite d’ajustement

+ 2p︸︷︷︸

complexite

, p dimension de β.


Critere d’information : Akaike Information Criterion


� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.

� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme

AIC = −2ℓ(β)︸︷︷︸

qualite d’ajustement

+ 2p︸︷︷︸

complexite

, p dimension de β.

� En pratique parmi nos M modeles en competition, on choisira celui quiminimisera l’AIC. Des implementations automatiques existent pour cela !

11Il y en a beaucoup d’autres


Influence des covariables


Definition 9. On appelle rapport de cotes (odds ratio en anglais) pour lacovariable xj la quantite

OR(j) =

p(x1,...,xj+1,...,xp)1−p(x1,...,xj+1,...,xp)

p(x1,...,xj ,...,xp)1−p(x1,...,xj ,...,xp)

� En regression logistique ces odds ratio sont tres utilises puisque l’on a

OR(j) =exp(β0 + · · ·+ βj(xj + 1) + · · ·+ βpxp)

exp(β0 + · · ·+ βjxj + · · ·+ βpxp)= exp(βj)

� exp(βj) quantifie l’influence de la j-eme variable sur cet odds ratio toutesles autres covariables restant fixees.



FIN !


Documents

STAPRE — Statistiques