161
Statistiques (v2) Mathieu Ribatet—[email protected] – 1 / 90 STAPRE — Statistiques M. Ribatet BioSTIC — Ecole Centrale de Nantes

STAPRE — Statistiques

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 1 / 90

STAPRE — Statistiques

M. Ribatet

BioSTIC — Ecole Centrale de Nantes

Page 2: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 2 / 90

Pre-requis

� Probabilites de base� Calcul matriciel� Notions d’optimisation� Logiciel R (sinon mini-cours)

Organisation

� 3 grands themes : classification, ACP, regression logistique� Cours theoriques suivis de travaux pratiques� Chaque TP consiste en deux analyses (simple et plus complexe).� Pour chaque TP, redaction d’un rapport (R Markdown)

Objectifs

� Theorie : Connaıtre les elements clefs (sans preuve)� Pratique : savoir utiliser rigoureusement

Evaluation

� 1 examen (ou pas !!!) final : 25%� 3 TP notes en equipe (2 voire 3 max) : 75%

Page 3: STAPRE — Statistiques

Deroulement des seances

Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90

� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!

Page 4: STAPRE — Statistiques

Deroulement des seances

Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90

� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . .

Page 5: STAPRE — Statistiques

Deroulement des seances

Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90

� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . . On participe, c’est deja assez la loose de faire cours ainsi !

Page 6: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90

Figure 1: Vous allez tenter de classer des vins italiens selon differentes caracteristiques chimiques.

Page 7: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90

Figure 1: Vous allez tenter de synthetiser les profils des joueurs de Ligue 1.

Page 8: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90

Figure 1: Vous allez tenter de modeliser la probabilite de survivre lors du naufrage du Titanic.

Page 9: STAPRE — Statistiques

0. Statistiques descriptives (Rappels ou pas!)

0. Statistiquesdescriptives(Rappels ou pas!)

1. Classification

2. Analyse encomposantesprincipales

2.5 StochasticModelling

3. Regressionlogistique

Statistiques (v2) Mathieu Ribatet—[email protected] – 5 / 90

Page 10: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 6 / 90

� Avant toute analyse statistique (complexe ou non), il est primordial de sefamiliariser avec les donnees

� Cette etape consiste generalement a :

– connaıtre le type des donnees, i.e., unite de mesure, variablequalitative ou quantitative

– analyser le comportement de ces donnees pour eventuellementdetecter quelques problemes / valeurs aberrantes.

Page 11: STAPRE — Statistiques

Importation et resume numerique

Statistiques (v2) Mathieu Ribatet—[email protected] – 7 / 90

� Bien souvent on commence par importer les donnees� Avec R c’est la fonction read.table et ses variantes� Pour obtenir un resume numerique basique on fait alors

> ## chickwts est un jeu de donnees fourni par R

> summary(chickwts)

weight feed

Min. :108.0 casein :12

1st Qu.:204.5 horsebean:10

Median :258.0 linseed :12

Mean :261.3 meatmeal :11

3rd Qu.:323.5 soybean :14

Max. :423.0 sunflower:12

Page 12: STAPRE — Statistiques

Histogramme

Statistiques (v2) Mathieu Ribatet—[email protected] – 8 / 90

� L’histogramme resume graphiquement la distribution d’une variable.� Son principal interet consiste a fournir un graphique permettant

d’identifier si

– la distribution est symetrique– l’etendue de cette distribution– son ordre de grandeur

> hist(chickwts$weight, freq = FALSE,

xlab = "Weight at six weeks (g)",

main = "")

Weight at six weeks (g)

Density

100 150 200 250 300 350 400 450

0.0

00

0.0

01

0.0

02

0.0

03

0.0

04

Figure 2: Histogramme du poids (g) des pouletsa 6 semaines.

Page 13: STAPRE — Statistiques

Boxplot

Statistiques (v2) Mathieu Ribatet—[email protected] – 9 / 90

� Le boxplot resume egalement la distribution d’une variable mais plusgrossierement qu’un histogramme.

� Il est surtout utilise pour comparer plusieurs variables / echantillons. Unboxplot seul est donc une idiotie formidable ;-)

> boxplot(weight~feed, data = chickwts,

ylab = "Weight at six weeks (g)", main = "")

casein horsebean linseed meatmeal soybean sunflower

100

150

200

250

300

350

400

feed

Weig

ht at six

weeks (

g)

Figure 3: Boxplot du poids (g) des poulets a 6semaines selon leur regime alimentaire.

Page 14: STAPRE — Statistiques

Dotchart

Statistiques (v2) Mathieu Ribatet—[email protected] – 10 / 90

� Un peu moins connu mais pas totalement inutile

> dotchart(sort(precip)[1:20],

xlab = "Average annual precipitation (in.)")

Phoenix

Reno

Albuquerque

El Paso

Boise

Denver

Los Angeles

Cheyenne

Great Falls

Salt Lake City

Bismark

Sacramento

Spokane

San Francisco

Honolulu

Sioux Falls

Minneapolis/St Paul

Milwaukee

Duluth

Omaha

10 15 20 25 30

Average annual precipitation (in.)

Figure 4: Dotchart sur les precipitations moyennesaux USA.

Page 15: STAPRE — Statistiques

Dotchart (2)

Statistiques (v2) Mathieu Ribatet—[email protected] – 11 / 90

� On peut faire aussi (un peu) plus complique

> mtcars <- mtcars[order(mtcars$mpg),]##tri selon la consommation

> my_cols <- c("orange", "seagreen3", "khaki2")[as.factor(mtcars$cyl)]

> dotchart(mtcars$mpg, labels = rownames(mtcars), groups = mtcars$cyl,

color = my_cols, pch = 15)

Cadillac FleetwoodLincoln ContinentalCamaro Z28Duster 360Chrysler ImperialMaserati BoraMerc 450SLCAMC JavelinDodge ChallengerFord Pantera LMerc 450SEMerc 450SLHornet SportaboutPontiac Firebird

Merc 280CValiantMerc 280Ferrari DinoMazda RX4Mazda RX4 WagHornet 4 Drive

Volvo 142EToyota CoronaDatsun 710Merc 230Merc 240DPorsche 914−2Fiat X1−9Honda CivicLotus EuropaFiat 128Toyota Corolla

10 15 20 25 30

Figure 5: Dotchart sur la consommation des voitures groupe selon la cylindree.

Page 16: STAPRE — Statistiques

1. Classification

0. Statistiquesdescriptives(Rappels ou pas!)

⊲ 1. Classification

2. Analyse encomposantesprincipales

2.5 StochasticModelling

3. Regressionlogistique

Statistiques (v2) Mathieu Ribatet—[email protected] – 12 / 90

Page 17: STAPRE — Statistiques

Seances en autonomie

Statistiques (v2) Mathieu Ribatet—[email protected] – 13 / 90

� Recuperer le pdf du livre An introduction to Statistical Learning

with Applications in R via ce lien� Lire la section 10.3 et faire une fiche de lecture (pour me poser des

questions par la suite !)� Faire le TP de la section 10.5

Page 18: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 14 / 90

� 3 viticulteurs� 178 vins italiens� 13 variables quantitatives

> head(wine)

Alcohol Malic Ash Alcalinity Magnesium Phenols

48 13.90 1.68 2.12 16.0 101 3.10

66 12.37 1.21 2.56 18.1 98 2.42

101 12.08 2.08 1.70 17.5 97 2.23

159 14.34 1.68 2.70 25.0 98 2.80

36 13.48 1.81 2.41 20.5 100 2.70

156 13.17 5.19 2.32 22.0 93 1.74

Flavanoids Nonflavanoid Proanthocyanins Color Hue

48 3.39 0.21 2.14 6.1 0.91

66 2.65 0.37 2.08 4.6 1.19

101 2.17 0.26 1.40 3.3 1.27

159 1.31 0.53 2.70 13.0 0.57

36 2.98 0.26 1.86 5.1 1.04

156 0.63 0.61 1.55 7.9 0.60

OD280/OD315 of diluted wines Proline

48 3.33 985

66 2.30 678

101 2.96 710

159 1.96 660

36 3.47 920

156 1.48 725

Page 19: STAPRE — Statistiques

Qu’est ce que la classification ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90

Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.

Page 20: STAPRE — Statistiques

Qu’est ce que la classification ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90

Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.

xi

x1 x2

...xn−1

xn

Page 21: STAPRE — Statistiques

Qu’est ce que la classification ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90

Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.

xi

x1 x2

...xn−1

xn

. . . . . .

Page 22: STAPRE — Statistiques

Qu’est ce que la classification ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90

Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.

xi

x1 x2

...xn−1

xn

x1

x4 x7

Urne 1

x6

xi

Urne 2

x2

Urne 3

. . . . . .x3

xn

Urne K

Remarque. Je parlerais indiferemment d’urne, de cluster ou d’etiquette pourdesigner le groupe associe a une observation.

Page 23: STAPRE — Statistiques

Constitution des urnes

Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90

Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).

Page 24: STAPRE — Statistiques

Constitution des urnes

Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90

Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).

� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.

� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite

conduiront a differentes technique de classification.

Page 25: STAPRE — Statistiques

Constitution des urnes

Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90

Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).

� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.

� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite

conduiront a differentes technique de classification.

� Pour ce cours nous allons nous concentrer sur la classification par K–means.

Page 26: STAPRE — Statistiques

K-means

Statistiques (v2) Mathieu Ribatet—[email protected] – 17 / 90

� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.

Page 27: STAPRE — Statistiques

K-means

Statistiques (v2) Mathieu Ribatet—[email protected] – 17 / 90

� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.

� Le calcul de ‖xi‖2 doit etre fonde :

– variables quantitatives → OK– variable qualitative → KO1

� Les variables doivent avoir le meme ordre de grandeur—sinon onstandardise les donnees.

Remarque. D’autres normes peuvent etre utilisees, e.g. norme ‖ · ‖1 →K-medians.

1Hmmm hmmm en fait on peut s’en sortir mais je n’en parlerai pas

Page 28: STAPRE — Statistiques

Probleme d’optimisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90

Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,

Page 29: STAPRE — Statistiques

Probleme d’optimisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90

Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,

π∗ = argminπ∈P(n,K)

1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸ ︷︷ ︸

mesure l’homogeneite de l’urne k

,

ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.

Page 30: STAPRE — Statistiques

Probleme d’optimisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90

Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,

π∗ = argminπ∈P(n,K)

1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸ ︷︷ ︸

mesure l’homogeneite de l’urne k

,

ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.

� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !

Page 31: STAPRE — Statistiques

Probleme d’optimisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90

Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,

π∗ = argminπ∈P(n,K)

1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸ ︷︷ ︸

mesure l’homogeneite de l’urne k

,

ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.

� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !Bah en fait pas du tout car |P(n,K)| induit une explosioncombinatoire—e.g., S(11, 5) ≈ 2.5× 105. En pratique nous n’obtiendronsdonc jamais le minimum global mais un minimum local qui sera suffisammentpertinent !

Page 32: STAPRE — Statistiques

Algorithme de LLoyd

Statistiques (v2) Mathieu Ribatet—[email protected] – 19 / 90

Algorithme 1 : Algorithme de Lloyd.

input : Donnees x1, . . . , xn, nombre d’urnes K, nb. d’iteration max. Tmax,partitionnement initial π.

output : Un partitionnement “optimal” π

1 for t← 1 to Tmax do2 Pour chaque urne, calculez son centroıde, i.e.,;3

µk =1

Nk

i : π(i)=k

xi, k = 1, . . . ,K, Nk =

n∑

i=1

1{π(i)=k}.

4 Pour chaque observation, affectez l’urne dont le centroıde est le plus proche,i.e.,

π(i) = argmin{k : ‖xi − µk‖2

}.

5 if Le partitionnement π n’a pas change then6 Sortir de la boucle;

7 return π;

Page 33: STAPRE — Statistiques

Illustration sur les donnees d’Iris de Fisher

Statistiques (v2) Mathieu Ribatet—[email protected] – 20 / 90

Donnees 150 mesures des largeurs et longueurs des petales et sepales d’iris.Objectif Retrouver l’espece de chaque iris, i.e., setosa, versicolor ouvirginica.

> head(iris)## <<- je vous mens ;-)

Sepal.Length Sepal.Width Petal.Length Petal.Width

1 5.1 3.5 1.4 0.2

2 4.9 3.0 1.4 0.2

3 4.7 3.2 1.3 0.2

4 4.6 3.1 1.5 0.2

5 5.0 3.6 1.4 0.2

6 5.4 3.9 1.7 0.4

Page 34: STAPRE — Statistiques

Visualisation graphique

Statistiques (v2) Mathieu Ribatet—[email protected] – 21 / 90

Sepal.Length2

.03

.04

.0

4.5 5.5 6.5 7.5

0.5

1.5

2.5

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Petal.Length

1 2 3 4 5 6 7

0.5 1.0 1.5 2.0 2.5

4.5

6.0

7.5

13

57

Petal.Width

Figure 6: Scatter plot des donnees Iris.

Page 35: STAPRE — Statistiques

Visualisation graphique

Statistiques (v2) Mathieu Ribatet—[email protected] – 21 / 90

Sepal.Length2

.03

.04

.0

4.5 5.5 6.5 7.5

0.5

1.5

2.5

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Petal.Length

1 2 3 4 5 6 7

0.5 1.0 1.5 2.0 2.5

4.5

6.0

7.5

13

57

Petal.Width

Figure 6: Scatter plot des donnees Iris.

Page 36: STAPRE — Statistiques

Savoir juger de la qualite de la classification

Statistiques (v2) Mathieu Ribatet—[email protected] – 22 / 90

� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de

la classification ?

– Notion d’inertie– Matrice de confusion

Page 37: STAPRE — Statistiques

Savoir juger de la qualite de la classification

Statistiques (v2) Mathieu Ribatet—[email protected] – 22 / 90

� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de

la classification ?

– Notion d’inertie– Matrice de confusion– . . . ou autres approches classiques en machine learning, e.g., training

(+ validation) + test

Page 38: STAPRE — Statistiques

Inertie

Statistiques (v2) Mathieu Ribatet—[email protected] – 23 / 90

Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2.

C’est en quelque sorte une mesure de la dispersion totale du nuage de points.

Page 39: STAPRE — Statistiques

Inertie

Statistiques (v2) Mathieu Ribatet—[email protected] – 23 / 90

Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2.

−6 −4 −2 0 2 4

−6

−4

−2

02

4

1ere variable

2em

e v

ari

able

Inertie = 0.86

−6 −4 −2 0 2 4

−6

−4

−2

02

4

1ere variable

2em

e v

ari

able

Inertie = 2.65

Figure 7: Inertie pour deux nuages de points.

Page 40: STAPRE — Statistiques

Un petit calcul bien eclairant. . .

Statistiques (v2) Mathieu Ribatet—[email protected] – 24 / 90

Soit un nuage de point x = (x1, . . . , xn) et une classification de ce dernier π.via K urnes. Alors

I(x) =1

2n

n∑

i,j=1

‖xi − xj‖2

=1

2n

K∑

k=1

n∑

i=1

n∑

j=1

‖xi − xj‖21{π(j)=k} +n∑

j=1

‖xi − xj‖21{π(j) 6=k}

1{π(i)=k}

= W (x, π) +B(x, π)

ou

W (x, π) =1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

B(x, π) =1

2n

K∑

k=1

n∑

i,j=1

‖xi − xj‖21{π(i)=k,π(j) 6=k}.

Page 41: STAPRE — Statistiques

. . . bien eclairant ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90

I(x) = W (x, π) +B(x, π)

� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).

Page 42: STAPRE — Statistiques

. . . bien eclairant ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90

I(x) = W (x, π) +B(x, π)

� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).

� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification

B(x, π)

I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !

Page 43: STAPRE — Statistiques

. . . bien eclairant ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90

I(x) = W (x, π) +B(x, π)

� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).

� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification

B(x, π)

I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !

Remarque. On a

W (x, π) =1

n

K∑

k=1

nk1

2nk

n∑

i,j=1

‖xi − xj‖21{π(i)=π(j)=k}

︸ ︷︷ ︸

Wk(x,π)=Inertie de la k-eme urne

, nk =n∑

i=1

1{π(i)=k}.

Page 44: STAPRE — Statistiques

Matrice de confusion (si c’est possible)

Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90

� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . .

Page 45: STAPRE — Statistiques

Matrice de confusion (si c’est possible)

Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90

� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !

Page 46: STAPRE — Statistiques

Matrice de confusion (si c’est possible)

Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90

� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !

� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion

1 2 3

setosa 33 0 17versicolor 0 46 4virginica 0 50 0

Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.

Page 47: STAPRE — Statistiques

Matrice de confusion (si c’est possible)

Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90

� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !

� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion

1 2 3

setosa 33 0 17versicolor 0 46 4virginica 0 50 0

Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.

1 2 3

setosa 33 17 0versicolor 0 4 46virginica 0 0 50

Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.

Page 48: STAPRE — Statistiques

Matrice de confusion (si c’est possible)

Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90

� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !

� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion

1 2 3

setosa 33 0 17versicolor 0 46 4virginica 0 50 0

Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.

1 2 3

setosa 33 17 0versicolor 0 4 46virginica 0 0 50

Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.

� La classification par K–means est incapable de distinguer les especesversicolor et virginica.

Page 49: STAPRE — Statistiques

Petit aparte: Supervise // Non supervise

Statistiques (v2) Mathieu Ribatet—[email protected] – 27 / 90

Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.

Page 50: STAPRE — Statistiques

Petit aparte: Supervise // Non supervise

Statistiques (v2) Mathieu Ribatet—[email protected] – 27 / 90

Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.

Definition 3. On parlera de classification supervisee lorsque notre echantillond’apprentissage contient deja les etiquettes. Lorsque cela ne sera pas le casnous travaillerons donc en classification non supervisee.

Page 51: STAPRE — Statistiques

Focus sur le cadre supervise

Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90

� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !

Page 52: STAPRE — Statistiques

Focus sur le cadre supervise

Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90

� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !

� L’interet portera ici sur la prediction, i.e.,

une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?

Page 53: STAPRE — Statistiques

Focus sur le cadre supervise

Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90

� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !

� L’interet portera ici sur la prediction, i.e.,

une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?

� Pour ce cours nous allons nous restreindre au cadre non supervise.

Page 54: STAPRE — Statistiques

Choix du nombre de classes

Statistiques (v2) Mathieu Ribatet—[email protected] – 29 / 90

� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).

� Dans de nombreuses situations, nous n’en savons rien !2

� Comment faire ?

Page 55: STAPRE — Statistiques

Choix du nombre de classes

Statistiques (v2) Mathieu Ribatet—[email protected] – 29 / 90

� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).

� Dans de nombreuses situations, nous n’en savons rien !2

� Comment faire ?L’idee est simple mais efficace3

1. Faire des classifications k-means pour un nombre croissant de classes,e.g., K = 2, . . . , 10.

2. Retenir la classification pour laquelle un nombre de classes plus grand“n’apporte pas grand chose”, i.e.,

B(x, π)

I(x)ne croit plus beaucoup

W (x, π)

I(x)= 1− B(x, π)

I(x)ne decroit plus beaucoup

2Parfois meme cela peut-etre contre productif, cf. MNIST.3Bon on peut aussi faire encore la meme rengaine training + validation + test

Page 56: STAPRE — Statistiques

Choix du nombre de classes pour les donnees d’Iris

Statistiques (v2) Mathieu Ribatet—[email protected] – 30 / 90

5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Nombre de classe K

W(x

, π)

I(x)

Figure 8: Choix du nombre de classe a l’aide du critere W (x, π)/I(x). Ici nous prendrions K = 2 ou3. (c’est un peu subjectif je vous l’accorde !)

Page 57: STAPRE — Statistiques

Prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90

� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .

Page 58: STAPRE — Statistiques

Prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90

� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .

� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !

� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,

argmin{k : ‖x∗ − µk‖2

}.

Page 59: STAPRE — Statistiques

Prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90

� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .

� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !

� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,

argmin{k : ‖x∗ − µk‖2

}.

Remarque. Cela permet de predire continument dans l’espace des variables etles predictions sont basees sur les cellules de Voronoı de germe µ1, . . . , µK ,i.e.,

Voronoı(µk) = {x ∈ Rp : ‖x− µk‖ ≤ ‖x− µℓ‖, ℓ = 1, . . . ,K}.

Page 60: STAPRE — Statistiques

Illustration des cellules de Voronoı et de la prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90

−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.

Page 61: STAPRE — Statistiques

Illustration des cellules de Voronoı et de la prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90

−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.

Page 62: STAPRE — Statistiques

Illustration des cellules de Voronoı et de la prediction

Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90

−5 0 5

−6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.

Page 63: STAPRE — Statistiques

Resumons le K–means

Statistiques (v2) Mathieu Ribatet—[email protected] – 33 / 90

Mise en oeuvre

� Centrer et reduire les donnees (si necessaire) car approche basee sur ‖ · ‖ ;� Faire varier le nombre de classe K et conserver le “meilleur” ;� Analyser les classes et/ou faire des predictions.

Avantages

� Supporte plutot bien la montee en dimension, i.e., n grand. Complexiteen O(nKTmax)

4;� Prediction facile et rapide.

Inconvenients

� Hypothese tacite d’isotropie et repartition equilibree des classes5

� Probleme d’optimisation (minimum local, initialisation)

4Comme souvent Tmax et K sont petits ont dira souvent que c’est un algo. lineaire (en n)5Le k–means est en fait un melange Gaussien bien specifique. . .

Page 64: STAPRE — Statistiques

Illustration de l’impact de l’initialisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 34 / 90

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.

Page 65: STAPRE — Statistiques

Illustration de l’impact de l’initialisation

Statistiques (v2) Mathieu Ribatet—[email protected] – 34 / 90

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

−6 −4 −2 0 2 4 6

−4

−2

02

46

1ere variable

2em

e v

ari

able

Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.

� Il est (fortement) recommande de lancer l’algorithme avec plusieurs initiali-sations differentes et de ne garder que la meilleure—en terme d’inertie expliquee.

Page 66: STAPRE — Statistiques

2. Analyse en composantes principales

0. Statistiquesdescriptives(Rappels ou pas!)

1. Classification

2. Analyse encomposantesprincipales

2.5 StochasticModelling

3. Regressionlogistique

Statistiques (v2) Mathieu Ribatet—[email protected] – 35 / 90

Page 67: STAPRE — Statistiques

Seances en autonomie

Statistiques (v2) Mathieu Ribatet—[email protected] – 36 / 90

� Recuperer le pdf du livre An introduction to Statistical Learning

with Applications in R via ce lien� Lire les sections 10.1 et 10.2 et faire une fiche de lecture (pour me poser

des questions par la suite !)� Faire le TP de la section 10.4

Page 68: STAPRE — Statistiques

Les joueurs de la Ligue 1 (selon Fifa 2019)

Statistiques (v2) Mathieu Ribatet—[email protected] – 37 / 90

> dim(ligue1)

[1] 565 22

> names(ligue1)

[1] "Name" "Age" "Nationality" "Overall" "Potential" "Club" "Value" "Wage" "Preferred.Foot" "International.Reputation"

[11] "Weak.Foot" "Skill.Moves" "Height" "Weight" "HeadingAccuracy" "ShortPassing" "Dribbling" "LongPassing"

[19] "BallControl" "Acceleration" "SprintSpeed" "Interceptions"

> summary(ligue1[,1:6])

Name Age Nationality Overall Potential Club

A. Abdennour: 1 Min. :16.0 France :307 Min. :53.00 Min. :63.00 AS Monaco : 33

A. Adouyev : 1 1st Qu.:21.0 Brazil : 26 1st Qu.:66.00 1st Qu.:72.00 FC Nantes : 32

A. Aktas : 1 Median :24.0 Senegal : 24 Median :71.00 Median :76.00 FC Girondins de Bordeaux: 31

A. Areola : 1 Mean :24.3 Ivory Coast: 17 Mean :70.73 Mean :76.48 Toulouse Football Club : 31

A. Bamba : 1 3rd Qu.:27.0 Belgium : 12 3rd Qu.:75.00 3rd Qu.:80.00 Angers SCO : 30

A. Barreca : 1 Max. :40.0 Cameroon : 11 Max. :92.00 Max. :95.00 Paris Saint-Germain : 30

(Other) :559 (Other) :168 (Other) :378

Page 69: STAPRE — Statistiques

Motivation (1)

Statistiques (v2) Mathieu Ribatet—[email protected] – 38 / 90

� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de

faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.

Page 70: STAPRE — Statistiques

Motivation (1)

Statistiques (v2) Mathieu Ribatet—[email protected] – 38 / 90

� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de

faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.

� Il serait utile d’avoir une methodologie pour “compresser” ce type dedonnees.

Page 71: STAPRE — Statistiques

Motivation (2)

Statistiques (v2) Mathieu Ribatet—[email protected] – 39 / 90

� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc

nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a

(p2

)telles paires. Par exemple, pour p = 10 on devrait examiner 45

graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres

utiles car ces scatterplot ne contiendront qu’une information tres limitee.

Page 72: STAPRE — Statistiques

Motivation (2)

Statistiques (v2) Mathieu Ribatet—[email protected] – 39 / 90

� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc

nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a

(p2

)telles paires. Par exemple, pour p = 10 on devrait examiner 45

graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres

utiles car ces scatterplot ne contiendront qu’une information tres limitee.

� Il serait utile d’avoir une methodologie pour visualiser ce type de donnees.

Page 73: STAPRE — Statistiques

Angle d’attaque

Statistiques (v2) Mathieu Ribatet—[email protected] – 40 / 90

Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?

un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.

Page 74: STAPRE — Statistiques

Angle d’attaque

Statistiques (v2) Mathieu Ribatet—[email protected] – 40 / 90

Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?

un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.

� Attention dans tout ce qui suit le tableau X est suppose centre et reduit.Pour les applications, il faudra egalement s’assurer que ce sera fait !!!

Page 75: STAPRE — Statistiques

Decomposition SVD

Statistiques (v2) Mathieu Ribatet—[email protected] – 41 / 90

Theoreme 1 (Decomposition en valeurs singulieres).Soit une matrice de reels X ∈ Rn×p6. Alors il existe un triplet(U,D, V ) ∈ Rn×n × Rn×p × Rp×p tel que

X = UDV ⊤,

ou U et V sont des matrices orthogonales et D = (dij) une matrice dont leselements verifient

dij =

{

λi, i = j

0, i 6= j, λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0, k = min(n, p).

λi est appelee la i-eme valeur singuliere.

6Ca marche aussi dans C !

Page 76: STAPRE — Statistiques

Un theoreme bien utile

Statistiques (v2) Mathieu Ribatet—[email protected] – 42 / 90

Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par

‖A‖F =√∑

i,j a2ij =

Tr(A⊤A), A ∈ Rn×p.

Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte

argmin ‖M −X‖FM∈Rn×p

tel que rang(M) ≤ r

est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,

M∗ = UDV,

ou D est identique a D sauf que λr+1 = · · · = λk = 0.

Page 77: STAPRE — Statistiques

Un theoreme bien utile

Statistiques (v2) Mathieu Ribatet—[email protected] – 42 / 90

Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par

‖A‖F =√∑

i,j a2ij =

Tr(A⊤A), A ∈ Rn×p.

Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte

argmin ‖M −X‖FM∈Rn×p

tel que rang(M) ≤ r

est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,

M∗ = UDV,

ou D est identique a D sauf que λr+1 = · · · = λk = 0.

� Si l’on veut approcher au mieux X (selon Frobenius) alors on prendra cettedecomposition SVD tronquee (avec r faible pour aider la visualisation ;-) )

Page 78: STAPRE — Statistiques

. . . bien utile ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 43 / 90

� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .

Page 79: STAPRE — Statistiques

. . . bien utile ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 43 / 90

� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .� Bah si on l’a deja vu en fait puisque c’est tres proche de l’inertie

‖X‖2F = Tr(XX⊤)

= Tr

{(

aij : aij =

p∑

ℓ=1

xiℓxjℓ

)}

=n∑

i=1

p∑

ℓ=1

xiℓxiℓ

=n∑

i=1

‖xi·‖2

= nI(X).

Page 80: STAPRE — Statistiques

. . . bien utile ???

Statistiques (v2) Mathieu Ribatet—[email protected] – 44 / 90

� OK mais moi l’inertie ca ne me parle pas trop non plus. . .

Page 81: STAPRE — Statistiques

. . . bien utile ???

Statistiques (v2) Mathieu Ribatet—[email protected] – 44 / 90

� OK mais moi l’inertie ca ne me parle pas trop non plus. . .� Rappelons que X est centree reduite et donc

1

nX

⊤X est la matrice (empirique) de correlation

� De plus on a

‖X‖2F = Tr(XX⊤) = Tr(X⊤

X) = np.

Page 82: STAPRE — Statistiques

Resumons

Statistiques (v2) Mathieu Ribatet—[email protected] – 45 / 90

� D’une part si l’on s’interesse aux lignes de X on a

‖X‖2F = nI(X) = n

n∑

i=1

‖xi·‖2.

� D’autre part, si l’on s’interesse aux colonnes de X on a

‖X‖2F = np.

� Enfin si l’on s’interesse a la decomposition SVD de X on a

‖X‖2F = Tr{

(UDV ⊤)(UDV ⊤)⊤}

= Tr(UD2U⊤) = Tr(D2)

=

p∑

j=1

λ2j .

Page 83: STAPRE — Statistiques

Choisir le degre d’approximation

Statistiques (v2) Mathieu Ribatet—[email protected] – 46 / 90

� Comment choisir ce degre d’approximation ?

Page 84: STAPRE — Statistiques

Choisir le degre d’approximation

Statistiques (v2) Mathieu Ribatet—[email protected] – 46 / 90

� Comment choisir ce degre d’approximation ?� Soit X = UDV ⊤ une decomposition SVD tronquee au rang

r ∈ {1, . . . ,min(n, p)}.� Alors la perte d’information (au sens de Frobenius) vaut

p∑

j=r+1

λ2j .

� De maniere equivalente on dira que notre approximation explique

100×∑r

j=1 λ2j

∑pj=1 λ

2j

%

de l’inertie // de la variance.

Page 85: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 1

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Page 86: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 10

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Page 87: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 50

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Page 88: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 100

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Page 89: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 330

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Page 90: STAPRE — Statistiques

Illustration de la compression

Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90

Image de base r = 330

1 2 5 10 20 50 200

020

40

60

80

100

Niveau d’approximation r

Vari

ance e

xpliq

uee (

%)

Figure 11: Qualite de l’approximation de la SVD tronquee.

Table 3: Taille de l’image compressee par SVD en fonction du degre d’approximation r.

r 1 10 50 100 Original (330)Taille (Ko) 10 17 28 31 41Compression (%) 75 58 31 24 0

Page 91: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 48 / 90

� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.

� Si je vous raconte tout cela c’est essentiellement pour retenir que :

– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.

� Nous devrons garder cela en memoire pour toute la suite !

Page 92: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 48 / 90

� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.

� Si je vous raconte tout cela c’est essentiellement pour retenir que :

– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.

� Nous devrons garder cela en memoire pour toute la suite !� En effet nous allons tenter de tirer des conclusions sur le nuage projete et

non sur le nuage initial, il ne faudra pas que nos commentaires soient uneconsequence de notre approximation. . .

Page 93: STAPRE — Statistiques

ACP pour visualiser les donnees

Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90

� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :

� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.

Page 94: STAPRE — Statistiques

ACP pour visualiser les donnees

Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90

� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :

� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.

� En terminologie ACP,

– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du

j-eme axe factoriel.

Page 95: STAPRE — Statistiques

ACP pour visualiser les donnees

Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90

� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :

� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.

� En terminologie ACP,

– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du

j-eme axe factoriel.

� En pratique on visualisera donc les donnees projetees et non les donneesbrutes.

Page 96: STAPRE — Statistiques

Illustration sur un example bidon

Statistiques (v2) Mathieu Ribatet—[email protected] – 50 / 90

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

−6 −4 −2 0 2 4 6−

4−

20

24

6

Axe factoriel 1 ( 91 %)

Axe

facto

riel 2 (

9 %

)

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.

Page 97: STAPRE — Statistiques

Illustration sur un example bidon

Statistiques (v2) Mathieu Ribatet—[email protected] – 50 / 90

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

−6 −4 −2 0 2 4 6−

4−

20

24

6

Axe factoriel 1 ( 91 %)

Axe

facto

riel 2 (

9 %

)

−4 −2 0 2 4

−4

−2

02

4

Variable 1

Vari

able

2

Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.

Axe 1 explique 91% de la variance et est defini parAxe 1 = 0.55× Variable 1+ 0.84× Variable 2Axe 2 explique 9% de la variance et est defini parAxe 2 = −0.84× Variable 1+ 0.55× Variable 2

Page 98: STAPRE — Statistiques

Attention aux projections

Statistiques (v2) Mathieu Ribatet—[email protected] – 51 / 90

� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2

� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,

p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.

Page 99: STAPRE — Statistiques

Attention aux projections

Statistiques (v2) Mathieu Ribatet—[email protected] – 51 / 90

� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2

� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,

p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.

Exemple 1. Considerons les points A = (1, 2, 0) et B = (1, 2, 500) de R3 quenous projetons sur le plan {(x, y, z) : z = 0}. Alors sur ce plan A et B seconfondent pour autant ils etaient tres eloignes initialement.

Page 100: STAPRE — Statistiques

Mesure de qualite de la projection

Statistiques (v2) Mathieu Ribatet—[email protected] – 52 / 90

O

A•

B•

Axe factoriel

A∗B∗

Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.

� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.

Page 101: STAPRE — Statistiques

Mesure de qualite de la projection

Statistiques (v2) Mathieu Ribatet—[email protected] – 52 / 90

O

A•

B•

Axe factoriel

A∗B∗

Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.

� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.

� On appreciera la qualite de la projection par

OA2∗

OA2= cos2 AOA∗.

Page 102: STAPRE — Statistiques

Influence d’un individu sur un axe factoriel

Statistiques (v2) Mathieu Ribatet—[email protected] – 53 / 90

� Rappelons nous que ‖X‖2F =∑p

j=1 λ2j .

� Le j-eme axe factoriel contribue alors a

100×λ2j

∑pℓ=1 λ

2ℓ

% de la variance.

� Au sein de cette contribution, le i-eme individu contribue a

‖xi·vj‖2λ2j

Page 103: STAPRE — Statistiques

Dualite

Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90

� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice

orthogonale.

Page 104: STAPRE — Statistiques

Dualite

Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90

� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice

orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les

colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.

Page 105: STAPRE — Statistiques

Dualite

Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90

� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice

orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les

colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.� Cela dit puisque X est reduit, on a

1

n‖x·j‖2 = 1, j = 1, . . . , p,

et les projections des variables normalisees par 1/√n sur tout plan

factoriel (ui1 , ui2) sont necessairement a l’interieur du cercle unite.� C’est ce qu’on appelle le cercle des correlations.� De plus la qualite de projection se simplifie alors

OA2∗

OA2= OA2

∗.

Page 106: STAPRE — Statistiques

Etude sur un jeu de donnees socio-economique

Statistiques (v2) Mathieu Ribatet—[email protected] – 55 / 90

TAN Taux accroissement (%)TXN Taux de natalite (%)TMI Taux de mortalite infantile (‰)ESV Esperance de vie (annees)

M15 % des moins de 15 ansP65 % des plus de 65 ansPUR % population urbaine (%)PIB PIB annuel par habitant ($)

> data

TAN TXN TMI ESV M15 P65 PUR PIB

Norvege 0.1 12 8 76 20 16 80.3 19500

France 0.4 14 8 75 21 13 77.2 15450

Australie 0.8 16 10 76 24 10 87.0 12000

Japon 0.6 12 6 77 22 10 76.5 19100

USA 0.7 16 11 75 22 12 74.0 18200

Bresil 2.1 29 63 65 36 4 74.0 1980

Pologne 0.8 18 19 71 25 9 60.0 4358

Mexique 2.4 31 50 67 42 4 70.0 1480

Maroc 2.6 36 90 60 42 4 44.0 549

Egypte 2.6 37 93 59 40 4 46.5 770

Albanie 2.0 26 43 71 35 5 34.0 840

Niger 2.9 51 141 44 47 3 16.0 205

Inde 2.1 33 101 55 38 4 25.5 275

Chine 1.3 21 61 66 28 5 21.0 255

ArabieSaoudite 3.2 39 79 63 37 2 73.0 5680

Portugal 0.2 12 17 73 24 12 31.0 3400

Page 107: STAPRE — Statistiques

Variance expliquee

Statistiques (v2) Mathieu Ribatet—[email protected] – 56 / 90

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8

Vari

ance e

xpliq

uee (

%)

020

40

60

80

100

Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.

Page 108: STAPRE — Statistiques

Variance expliquee

Statistiques (v2) Mathieu Ribatet—[email protected] – 56 / 90

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8

Vari

ance e

xpliq

uee (

%)

020

40

60

80

100

Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.

� Ici on ne garderait que les 2 premiers axes factoriels qui expliqueront81 + 11 = 92% de la variance. Si l’on ajoutait le 3eme axe, alors on aurait81 + 11 + 5 = 97% de la variance.

Page 109: STAPRE — Statistiques

Projection sur le 1er plan factoriel

Statistiques (v2) Mathieu Ribatet—[email protected] – 57 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 15: Composantes principales du 1er plan factoriel, i.e., Axe 1 et Axe 2, pour les individus(gauche) et les variables (droite).

Page 110: STAPRE — Statistiques

C’est a vous de parler !

Statistiques (v2) Mathieu Ribatet—[email protected] – 58 / 90

Page 111: STAPRE — Statistiques

Pour aller plus loin

Statistiques (v2) Mathieu Ribatet—[email protected] – 59 / 90

Individu supplementaire

� Soit x∗· un nouvelle observation.� A partir de notre ACP, calculee sur X seulement, nous pouvons projeter

x∗· dans n’importe quel plan factoriel (des individus), i.e., x∗·V .� Cela permet de situer x∗· par rapport aux conclusions que nous avons

etablies lors de l’analyse des sorties de l’ACP.� Par dualite on peut faire pareil sur les variables. . .

Variable qualitative

� Vous aurez compris que pour l’ACP X ne doit contenir que des variablesquantitatives.

� C’est partiellement vrai, on peut utiliser des variables qualitatives.� Ces dernieres ne serviront pas aux calculs de l’ACP mais seulement pour

la visualisation.

Page 112: STAPRE — Statistiques

Individu // variable supplementaires

Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 16: Utilisation d’individus et de variables supplementaires en ACP.

Page 113: STAPRE — Statistiques

Individu // variable supplementaires

Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 16: Utilisation d’individus et de variables supplementaires en ACP.

� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.

Page 114: STAPRE — Statistiques

Individu // variable supplementaires

Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege France

Australie

Japon USABresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

Syldavie

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

TF

Figure 16: Utilisation d’individus et de variables supplementaires en ACP.

� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.

Page 115: STAPRE — Statistiques

Variable qualitative

Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 17: Utilisation d’individus et de variables supplementaires en ACP.

Page 116: STAPRE — Statistiques

Variable qualitative

Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

Australie

JaponUSA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

Figure 17: Utilisation d’individus et de variables supplementaires en ACP.

� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.

Page 117: STAPRE — Statistiques

Variable qualitative

Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90

−4 −2 0 2 4 6

−4

−2

02

4

Confidence ellipses around the categories of HEM

Dim 1 (81.18%)

Dim

2 (

10.9

7%

)

Norvege

France

AustralieJapon

USA

Bresil

Pologne

Mexique

Maroc

Egypte

Albanie Niger

Inde

Chine

ArabieSaoudite

Portugal

Syldavie

Nord

Sud

NordSud

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (81.18%)D

im 2

(10.9

7%

)

TAN

TXN

TMI

ESV

M15

P65

PUR

PIB

TF

Figure 17: Utilisation d’individus et de variables supplementaires en ACP.

� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.

Page 118: STAPRE — Statistiques

2.5 Stochastic Modelling

0. Statistiquesdescriptives(Rappels ou pas!)

1. Classification

2. Analyse encomposantesprincipales

⊲2.5 StochasticModelling

A basic example

LikelihoodAsymptotics for theMLE

3. Regressionlogistique

Statistiques (v2) Mathieu Ribatet—[email protected] – 62 / 90

Page 119: STAPRE — Statistiques

What is stochastic modelling?

Statistiques (v2) Mathieu Ribatet—[email protected] – 63 / 90

� The phrasing stochastic modelling is (most often) about using probabilitydistributions that would mimic the data under study.

� Since probability distributions are parameterized w.r.t. some parameterθ ∈ Θ ⊂ Rp, it amounts to have a methodology to get the “bestparameter value” given the data, called it θ.

� In Proba/Stat, θ is called an estimator of the parameter θ.� Watch out an estimator is a random variable/vector as a function of some

“generic data”, e.g., imagine that these generic data are the data you aregoing to collect.

� An estimate is a realization of the above estimator where you plug-in thedata you have at hand.

Page 120: STAPRE — Statistiques

A basic example

Statistiques (v2) Mathieu Ribatet—[email protected] – 64 / 90

Exemple 2 (Freebox failure time).Suppose your internet provider is Free7. You experience many bandwidthissues with your Wifi network. You may want to model the duration betweentwo network shutdowns.You decided to use an exponential distribution (why?) to model this failuretimes. Since the exponential distribution is parameterized w.r.t. a singleparameter λ > 0, our problem consists in estimating λ.

7which is mine currently unfortunately

Page 121: STAPRE — Statistiques

Likelihood

Statistiques (v2) Mathieu Ribatet—[email protected] – 65 / 90

� There is a wide zoology of available estimators: method of moments,maximum likelihood estimator, probability weighted moments, . . .

� In this (too short) lecture, I will focus on the maximum likelihoodestimator only since it is by far most widely used and versatile approach.

Definition 5. Given a parametric statistical model {f(y; θ) : y ∈ Rd, θ ∈ Θ}(this is the p.d.f. or p.m.f. of some probability distribution) and a sampleY1, . . . , Yn, the likelihood is given by

L(θ;Y1, . . . , Yn) = f(Y1, . . . , Yn; θ),

which turns out to be if the Yi are independent and identically distributed

L(θ;Y1, . . . , Yn) =

n∏

i=1

f(Yi; θ).

Page 122: STAPRE — Statistiques

Maximum likelihood estimator

Statistiques (v2) Mathieu Ribatet—[email protected] – 66 / 90

Definition 6. The maximum likelihood estimator is given by

θ = argmaxθ∈Θ

L(θ;Y1, . . . , Yn).

� It is often more convenient (from a computational and theoretical point ofview) to work with the log-likelihood in place of the likelihood

ℓ(θ;Y1, . . . , Yn) = logL(θ;Y1, . . . , Yn).

� Clearly we haveθ = argmax

θ∈Θℓ(θ;Y1, . . . , Yn).

Page 123: STAPRE — Statistiques

Freebox failure time (2)

Statistiques (v2) Mathieu Ribatet—[email protected] – 67 / 90

Exemple 3.

Recall that our statistical model for those failure time is Exp(λ), λ > 0.

1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.

30.7 76.8 47.1 46.5 0.6 7.6 29.4

Page 124: STAPRE — Statistiques

Asymptotics for the MLE

Statistiques (v2) Mathieu Ribatet—[email protected] – 68 / 90

Theoreme 3. Under some regularity conditions8, the maximum likelihoodestimator θ satisfies

√n(θ − θ0)

d.−→ N(0,−H(θ0)−1), n→∞,

where θ0 is the “true parameter” and H(θ0) = E{∇2 log f(Y ; θ0)

}.

In practice, due to the law of large numbers, H(θ0) is estimated (consistently)by

H(θ0) =1

n

n∑

i=1

∇2 log f(Yi; θ),

and we loosely state that, provided the sample size n is large enough,

θ·∼ N(θ0,−H(θ0)

−1).

8essentially that which enable switching differential and integral signs

Page 125: STAPRE — Statistiques

Standard errors and confidence intervals

Statistiques (v2) Mathieu Ribatet—[email protected] – 69 / 90

Definition 7. Given any scalar estimator θ (not necessarily the MLE), the

standard error of this estimator is simply

Var(θ).The standard error is a measure of precision of the estimator, the smaller thebetter.

Proposition 1 ((Asymptotics) Confidence intervals based on the MLE).Using the asymptotic normality of the MLE, it is not difficult to show that the(random) interval

IC(θ) := [θ − 1.96

Var(θ), θ + 1.96

Var(θ)]

is a (asymptotic) 95% confidence interval for θ0, i.e.,

(

limn→∞

)

Pr[θ0 ∈ IC(θ)] = 0.95.

Page 126: STAPRE — Statistiques

Freebox failure time (3)

Statistiques (v2) Mathieu Ribatet—[email protected] – 70 / 90

Exemple 4.

Recall that our statistical model for those failure time is Exp(λ), λ > 0.

1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.

30.7 76.8 47.1 46.5 0.6 7.6 29.4

3. Give the standard error for λ.4. Give an approximate 95% confidence interval for λ.

Page 127: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 71 / 90

� I have still so much things to tell you about stochastic modelling� Unfortunately, we do not have enough time and this is not the purpose of

this course.� Just keep in mind that you only were here

Page 128: STAPRE — Statistiques

3. Regression logistique

0. Statistiquesdescriptives(Rappels ou pas!)

1. Classification

2. Analyse encomposantesprincipales

2.5 StochasticModelling

⊲3. Regressionlogistique

Statistiques (v2) Mathieu Ribatet—[email protected] – 72 / 90

Page 129: STAPRE — Statistiques

Seances en autonomie

Statistiques (v2) Mathieu Ribatet—[email protected] – 73 / 90

� Recuperer le pdf du livre An introduction to Statistical Learning

with Applications in R via ce lien� Lire les sections 4.1, 4.2 et 4.3 et faire une fiche de lecture (pour me

poser des questions par la suite !)� Faire le TP de la section 4.6.2

Page 130: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 74 / 90

> head(titanic)

Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 S

2 1 1 Cumings, Mrs. John Bradley female 38 1 0 PC 17599 71.2833 C85 C

3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 S

4 1 1 Futrelle, Mrs. Jacques Heath female 35 1 0 113803 53.1000 C123 S

5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.0500 S

6 0 3 Moran, Mr. James male NA 0 0 330877 8.4583 Q

Page 131: STAPRE — Statistiques

Modele lineaire : Rappel

Statistiques (v2) Mathieu Ribatet—[email protected] – 75 / 90

Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)

= X⊤β + ε

� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de

modele, prediction.

Page 132: STAPRE — Statistiques

Modele lineaire : Rappel

Statistiques (v2) Mathieu Ribatet—[email protected] – 75 / 90

Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)

= X⊤β + ε

� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de

modele, prediction.

� Dans notre application precedente, pourquoi ne pas utiliser un modelelineaire ?

Page 133: STAPRE — Statistiques

Regression logistique: Contexte

Statistiques (v2) Mathieu Ribatet—[email protected] – 76 / 90

� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.

� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.

� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.

Page 134: STAPRE — Statistiques

Regression logistique: Contexte

Statistiques (v2) Mathieu Ribatet—[email protected] – 76 / 90

� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.

� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.

� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.

� Dans la suite on appellera succes l’evenement qui nous interesse pourl’etude, e.g., mort d’un patient, email est un spam, un etudiant s’endort. . .

9ou autre Y ∈ {Homme, Femme}, Y ∈ {Chaud, Froid} bref vous avez compris. . .

Page 135: STAPRE — Statistiques

Une fonction bien sympathique

Statistiques (v2) Mathieu Ribatet—[email protected] – 77 / 90

Definition 8. On appelle fonctionsigmoıde la fonction suivante

f : R −→ (0, 1)

x 7−→ exp(x)

1 + exp(x)−10 −5 0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

Figure 18: Graphe de la fonction sigmoide

Page 136: STAPRE — Statistiques

Une fonction bien sympathique

Statistiques (v2) Mathieu Ribatet—[email protected] – 77 / 90

Definition 8. On appelle fonctionsigmoıde la fonction suivante

f : R −→ (0, 1)

x 7−→ exp(x)

1 + exp(x)−10 −5 0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

Figure 18: Graphe de la fonction sigmoide

� C’est une bijection a valeur dans (0, 1) ce qui est parfait pour representerune probabilite non !

� L’idee fondamentale de la regression logistique est donc de poser

Pr(Y = 1 | X1, . . . , Xp) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp).

Page 137: STAPRE — Statistiques

Petit aparte

Statistiques (v2) Mathieu Ribatet—[email protected] – 78 / 90

� Vous savez quePr(X ∈ A) = E

[1{X∈A}

].

� Donc l’expression precedente peut s’ecrire aussi sous la forme

E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).

� Cette expression est a comparer avec le modele lineaire que vousconnaissez

E [Y | X1, . . . , Xp] = X⊤β.

Page 138: STAPRE — Statistiques

Petit aparte

Statistiques (v2) Mathieu Ribatet—[email protected] – 78 / 90

� Vous savez quePr(X ∈ A) = E

[1{X∈A}

].

� Donc l’expression precedente peut s’ecrire aussi sous la forme

E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).

� Cette expression est a comparer avec le modele lineaire que vousconnaissez

E [Y | X1, . . . , Xp] = X⊤β.

� En fait la regression logistique est un cas particulier du modele lineairegeneralise avec pour fonction de lien la reciproque de notre sigmoıde (connuesous le nom de fonction logit).

Page 139: STAPRE — Statistiques

Inference

Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90

� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?

Page 140: STAPRE — Statistiques

Inference

Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90

� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y

et pas Pr(Y = 1 | X).

Page 141: STAPRE — Statistiques

Inference

Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90

� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y

et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de

vraisemblance, i.e.,

β = argmaxβ∈Rp+1

n∏

i=1

Pr (Y = 1 | X = Xi)Yi

︸ ︷︷ ︸

contribution lorsque Yi = 1

×Pr (Y = 0 | X = Xi)1−Yi

︸ ︷︷ ︸

contribution lorsque Yi = 0

Page 142: STAPRE — Statistiques

Inference

Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90

� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y

et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de

vraisemblance, i.e.,

β = argmaxβ∈Rp+1

n∏

i=1

Pr (Y = 1 | X = Xi)Yi

︸ ︷︷ ︸

contribution lorsque Yi = 1

×Pr (Y = 0 | X = Xi)1−Yi

︸ ︷︷ ︸

contribution lorsque Yi = 0

� Il n’y a pas de solutions explicites pour ce probleme. On aura donc recoursa de l’optimisation numerique.

Page 143: STAPRE — Statistiques

Que faire avec β ?

Statistiques (v2) Mathieu Ribatet—[email protected] – 80 / 90

� Supposons que nous ayons ajuste notre modele de regression logistique.� Nous pouvons alors :

– Faire de la prediction, e.g., quelle est la probabilite qu’un etudiantayant les caracteristiques x s’endorme dans mon cours ?

– Voir quelles variables influent le plus sur la probabilite de succes ;– Faire de la classification (supervisee)

Page 144: STAPRE — Statistiques

Prediction : Sommeil en cours

Statistiques (v2) Mathieu Ribatet—[email protected] – 81 / 90

Remarque. Afin de simplifier les notations, on utilisera la notation suivante

p(X) = Pr(Y = 1 | X).

� Considerons le modele statistique ajuste suivant

p(X) =exp(β0 + β11{X=Homme})

1 + exp(β0 + β11{X=Homme}), β0 = −1, β1 = 2.

� Ainsi sous ce modele la probabilite qu’un/qu’une etudiant/etudiantes’endorme dans mon cours est estimee a

p(H) =exp(−1 + 2)

1 + exp(−1 + 2)≈ 0.73, p(F ) =

exp(−1)1 + exp(−1) ≈ 0.27.

Page 145: STAPRE — Statistiques

Classification

Statistiques (v2) Mathieu Ribatet—[email protected] – 82 / 90

� L’interet peut ne pas porter sur les probabilites mais sur Y directement !

Page 146: STAPRE — Statistiques

Classification

Statistiques (v2) Mathieu Ribatet—[email protected] – 82 / 90

� L’interet peut ne pas porter sur les probabilites mais sur Y directement !� Un nouvel etudiant10 arrive en cours d’annee, notons le X∗. Va-t-il

s’endormir pendant mon cours ?� On utilisera le critere de classification suivant

Y∗ =

{

1, p(X∗) > 0.5

0, p(X∗) < 0.5,

i.e., critere choisissant l’etat le plus probable.

10Nico Leptique ?

Page 147: STAPRE — Statistiques

Prediction : Sommeil en cours Errata

Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90

� Considerons le modele statistique ajuste suivant

p(X) =exp(β0 + β11{X=Homme})

1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).

� Le test de Wald (que nous allons voir sous peu) nous donne alors

Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,

et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.

Page 148: STAPRE — Statistiques

Prediction : Sommeil en cours Errata

Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90

� Considerons le modele statistique ajuste suivant

p(X) =exp(β0 + β11{X=Homme})

1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).

� Le test de Wald (que nous allons voir sous peu) nous donne alors

Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,

et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.

� La variable sexe n’est pas statistiquement significative !

Page 149: STAPRE — Statistiques

Prediction : Sommeil en cours Errata

Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90

� Considerons le modele statistique ajuste suivant

p(X) =exp(β0 + β11{X=Homme})

1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).

� Le test de Wald (que nous allons voir sous peu) nous donne alors

Tobs =2

1.5=

4

3, p-valeur ≈ 0.18,

et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.

� La variable sexe n’est pas statistiquement significative !

� On prendra bien garde de tirer des conclusions sur notre modele final etpas celui en cours d’ebauche !

Page 150: STAPRE — Statistiques

Test d’hypothese : Objectif

Statistiques (v2) Mathieu Ribatet—[email protected] – 84 / 90

� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.

� Retenez bien le fait qu’il y aura toujours deux hypotheses.

Page 151: STAPRE — Statistiques

Test d’hypothese : Objectif

Statistiques (v2) Mathieu Ribatet—[email protected] – 84 / 90

� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.

� Retenez bien le fait qu’il y aura toujours deux hypotheses.

Exemple 5 (Lancers de piece). On jette une piece 10 fois afin de savoir sicette derniere est equilibree ou non. Nous obtenons que des faces ! Qu’enpensez vous ?

Page 152: STAPRE — Statistiques

Test d’hypothese : Formalisme mathematique

Statistiques (v2) Mathieu Ribatet—[email protected] – 85 / 90

� Tout test d’hypothese repose sur :

– Un niveau d’erreur α defini par α = PrH0(rejeter H0).

– 2 hypotheses : l’hypothese nulle H0 et l’hypothese alternative H1, e.g.,

H0 : la piece est equilibree H1 : la piece ne l’est pas

– Une “mesure de decision” appelee statistique de test T dont lecomportement sous H0 est connu.

– Une realisation de T notee Tobs obtenue a partir de nos observations– Une p-valeur comme regle de decision permettant d’opter ou non en

faveur de H0 ou H1.

Remarque. La plupart du temps, mais cela est specifique a chaque testd’hypothese, on aura

p-valeur = PrH0

(|T | > |Tobs|).

Page 153: STAPRE — Statistiques

Vulgarisons

Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90

� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter

a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%

ou 10%.

Page 154: STAPRE — Statistiques

Vulgarisons

Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90

� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter

a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%

ou 10%.� D’autre part on a p-valeur = PrH0

(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0

Page 155: STAPRE — Statistiques

Vulgarisons

Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90

� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter

a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%

ou 10%.� D’autre part on a p-valeur = PrH0

(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0

� En consequence si H0 n’est pas realiste alors la p–valeur sera tres faible.� Il faut donc un seuil a partir duquel on decide de rejeter H0, c’est α, i.e.,

On rejettera H0 au profit de H1 si p− valeur < α

On ne sera pas en mesure de rejeter H0 au profit de H1 si p− valeur > α.

Page 156: STAPRE — Statistiques

Test de Wald

Statistiques (v2) Mathieu Ribatet—[email protected] – 87 / 90

� La j-eme covariable est elle vraiment utile dans mon super modele

p(X) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)?

� On peut le savoir a l’aide du test de Wald.

Page 157: STAPRE — Statistiques

Test de Wald

Statistiques (v2) Mathieu Ribatet—[email protected] – 87 / 90

� La j-eme covariable est elle vraiment utile dans mon super modele

p(X) =exp(β0 + β1X1 + · · ·+ βpXp)

1 + exp(β0 + β1X1 + · · ·+ βpXp)?

� On peut le savoir a l’aide du test de Wald.� C’est un test statistique testant H0 : βj = 0 contre H1 : βj 6= 0.� La statistique de test est

T =βj

Std. error(βj).

� Sous H0 cette statistique de test T suit une loi normale centree reduitenous permettant de calculer la p-valeur.

Page 158: STAPRE — Statistiques

Critere d’information : Akaike Information Criterion

Statistiques (v2) Mathieu Ribatet—[email protected] – 88 / 90

� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.

� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme

AIC = −2ℓ(β)︸ ︷︷ ︸

qualite d’ajustement

+ 2p︸︷︷︸

complexite

, p dimension de β.

Page 159: STAPRE — Statistiques

Critere d’information : Akaike Information Criterion

Statistiques (v2) Mathieu Ribatet—[email protected] – 88 / 90

� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.

� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme

AIC = −2ℓ(β)︸ ︷︷ ︸

qualite d’ajustement

+ 2p︸︷︷︸

complexite

, p dimension de β.

� En pratique parmi nos M modeles en competition, on choisira celui quiminimisera l’AIC. Des implementations automatiques existent pour cela !

11Il y en a beaucoup d’autres

Page 160: STAPRE — Statistiques

Influence des covariables

Statistiques (v2) Mathieu Ribatet—[email protected] – 89 / 90

Definition 9. On appelle rapport de cotes (odds ratio en anglais) pour lacovariable xj la quantite

OR(j) =

p(x1,...,xj+1,...,xp)1−p(x1,...,xj+1,...,xp)

p(x1,...,xj ,...,xp)1−p(x1,...,xj ,...,xp)

� En regression logistique ces odds ratio sont tres utilises puisque l’on a

OR(j) =exp(β0 + · · ·+ βj(xj + 1) + · · ·+ βpxp)

exp(β0 + · · ·+ βjxj + · · ·+ βpxp)= exp(βj)

� exp(βj) quantifie l’influence de la j-eme variable sur cet odds ratio toutesles autres covariables restant fixees.

Page 161: STAPRE — Statistiques

Statistiques (v2) Mathieu Ribatet—[email protected] – 90 / 90

FIN !