Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Statistiques (v2) Mathieu Ribatet—[email protected] – 1 / 90
STAPRE — Statistiques
M. Ribatet
BioSTIC — Ecole Centrale de Nantes
Statistiques (v2) Mathieu Ribatet—[email protected] – 2 / 90
Pre-requis
� Probabilites de base� Calcul matriciel� Notions d’optimisation� Logiciel R (sinon mini-cours)
Organisation
� 3 grands themes : classification, ACP, regression logistique� Cours theoriques suivis de travaux pratiques� Chaque TP consiste en deux analyses (simple et plus complexe).� Pour chaque TP, redaction d’un rapport (R Markdown)
Objectifs
� Theorie : Connaıtre les elements clefs (sans preuve)� Pratique : savoir utiliser rigoureusement
Evaluation
� 1 examen (ou pas !!!) final : 25%� 3 TP notes en equipe (2 voire 3 max) : 75%
Deroulement des seances
Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90
� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!
Deroulement des seances
Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90
� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . .
Deroulement des seances
Statistiques (v2) Mathieu Ribatet—[email protected] – 3 / 90
� Presentiel + zoom pour les absents (malheureusement)� On participe svp !!!!� j’insiste. . . On participe, c’est deja assez la loose de faire cours ainsi !
Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90
Figure 1: Vous allez tenter de classer des vins italiens selon differentes caracteristiques chimiques.
Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90
Figure 1: Vous allez tenter de synthetiser les profils des joueurs de Ligue 1.
Statistiques (v2) Mathieu Ribatet—[email protected] – 4 / 90
Figure 1: Vous allez tenter de modeliser la probabilite de survivre lors du naufrage du Titanic.
0. Statistiques descriptives (Rappels ou pas!)
⊲
0. Statistiquesdescriptives(Rappels ou pas!)
1. Classification
2. Analyse encomposantesprincipales
2.5 StochasticModelling
3. Regressionlogistique
Statistiques (v2) Mathieu Ribatet—[email protected] – 5 / 90
Statistiques (v2) Mathieu Ribatet—[email protected] – 6 / 90
� Avant toute analyse statistique (complexe ou non), il est primordial de sefamiliariser avec les donnees
� Cette etape consiste generalement a :
– connaıtre le type des donnees, i.e., unite de mesure, variablequalitative ou quantitative
– analyser le comportement de ces donnees pour eventuellementdetecter quelques problemes / valeurs aberrantes.
Importation et resume numerique
Statistiques (v2) Mathieu Ribatet—[email protected] – 7 / 90
� Bien souvent on commence par importer les donnees� Avec R c’est la fonction read.table et ses variantes� Pour obtenir un resume numerique basique on fait alors
> ## chickwts est un jeu de donnees fourni par R
> summary(chickwts)
weight feed
Min. :108.0 casein :12
1st Qu.:204.5 horsebean:10
Median :258.0 linseed :12
Mean :261.3 meatmeal :11
3rd Qu.:323.5 soybean :14
Max. :423.0 sunflower:12
Histogramme
Statistiques (v2) Mathieu Ribatet—[email protected] – 8 / 90
� L’histogramme resume graphiquement la distribution d’une variable.� Son principal interet consiste a fournir un graphique permettant
d’identifier si
– la distribution est symetrique– l’etendue de cette distribution– son ordre de grandeur
> hist(chickwts$weight, freq = FALSE,
xlab = "Weight at six weeks (g)",
main = "")
Weight at six weeks (g)
Density
100 150 200 250 300 350 400 450
0.0
00
0.0
01
0.0
02
0.0
03
0.0
04
Figure 2: Histogramme du poids (g) des pouletsa 6 semaines.
Boxplot
Statistiques (v2) Mathieu Ribatet—[email protected] – 9 / 90
� Le boxplot resume egalement la distribution d’une variable mais plusgrossierement qu’un histogramme.
� Il est surtout utilise pour comparer plusieurs variables / echantillons. Unboxplot seul est donc une idiotie formidable ;-)
> boxplot(weight~feed, data = chickwts,
ylab = "Weight at six weeks (g)", main = "")
casein horsebean linseed meatmeal soybean sunflower
100
150
200
250
300
350
400
feed
Weig
ht at six
weeks (
g)
Figure 3: Boxplot du poids (g) des poulets a 6semaines selon leur regime alimentaire.
Dotchart
Statistiques (v2) Mathieu Ribatet—[email protected] – 10 / 90
� Un peu moins connu mais pas totalement inutile
> dotchart(sort(precip)[1:20],
xlab = "Average annual precipitation (in.)")
Phoenix
Reno
Albuquerque
El Paso
Boise
Denver
Los Angeles
Cheyenne
Great Falls
Salt Lake City
Bismark
Sacramento
Spokane
San Francisco
Honolulu
Sioux Falls
Minneapolis/St Paul
Milwaukee
Duluth
Omaha
10 15 20 25 30
Average annual precipitation (in.)
Figure 4: Dotchart sur les precipitations moyennesaux USA.
Dotchart (2)
Statistiques (v2) Mathieu Ribatet—[email protected] – 11 / 90
� On peut faire aussi (un peu) plus complique
> mtcars <- mtcars[order(mtcars$mpg),]##tri selon la consommation
> my_cols <- c("orange", "seagreen3", "khaki2")[as.factor(mtcars$cyl)]
> dotchart(mtcars$mpg, labels = rownames(mtcars), groups = mtcars$cyl,
color = my_cols, pch = 15)
Cadillac FleetwoodLincoln ContinentalCamaro Z28Duster 360Chrysler ImperialMaserati BoraMerc 450SLCAMC JavelinDodge ChallengerFord Pantera LMerc 450SEMerc 450SLHornet SportaboutPontiac Firebird
Merc 280CValiantMerc 280Ferrari DinoMazda RX4Mazda RX4 WagHornet 4 Drive
Volvo 142EToyota CoronaDatsun 710Merc 230Merc 240DPorsche 914−2Fiat X1−9Honda CivicLotus EuropaFiat 128Toyota Corolla
10 15 20 25 30
Figure 5: Dotchart sur la consommation des voitures groupe selon la cylindree.
1. Classification
0. Statistiquesdescriptives(Rappels ou pas!)
⊲ 1. Classification
2. Analyse encomposantesprincipales
2.5 StochasticModelling
3. Regressionlogistique
Statistiques (v2) Mathieu Ribatet—[email protected] – 12 / 90
Seances en autonomie
Statistiques (v2) Mathieu Ribatet—[email protected] – 13 / 90
� Recuperer le pdf du livre An introduction to Statistical Learning
with Applications in R via ce lien� Lire la section 10.3 et faire une fiche de lecture (pour me poser des
questions par la suite !)� Faire le TP de la section 10.5
Statistiques (v2) Mathieu Ribatet—[email protected] – 14 / 90
� 3 viticulteurs� 178 vins italiens� 13 variables quantitatives
> head(wine)
Alcohol Malic Ash Alcalinity Magnesium Phenols
48 13.90 1.68 2.12 16.0 101 3.10
66 12.37 1.21 2.56 18.1 98 2.42
101 12.08 2.08 1.70 17.5 97 2.23
159 14.34 1.68 2.70 25.0 98 2.80
36 13.48 1.81 2.41 20.5 100 2.70
156 13.17 5.19 2.32 22.0 93 1.74
Flavanoids Nonflavanoid Proanthocyanins Color Hue
48 3.39 0.21 2.14 6.1 0.91
66 2.65 0.37 2.08 4.6 1.19
101 2.17 0.26 1.40 3.3 1.27
159 1.31 0.53 2.70 13.0 0.57
36 2.98 0.26 1.86 5.1 1.04
156 0.63 0.61 1.55 7.9 0.60
OD280/OD315 of diluted wines Proline
48 3.33 985
66 2.30 678
101 2.96 710
159 1.96 660
36 3.47 920
156 1.48 725
Qu’est ce que la classification ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90
Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.
Qu’est ce que la classification ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90
Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.
xi
x1 x2
...xn−1
xn
Qu’est ce que la classification ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90
Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.
xi
x1 x2
...xn−1
xn
. . . . . .
Qu’est ce que la classification ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 15 / 90
Definition 1. La terminologie classification ou clustering ou segmentationdesigne un processus mathematique permettant d’attribuer un groupe achaque (nouvelle) observation.
xi
x1 x2
...xn−1
xn
x1
x4 x7
Urne 1
x6
xi
Urne 2
x2
Urne 3
. . . . . .x3
xn
Urne K
Remarque. Je parlerais indiferemment d’urne, de cluster ou d’etiquette pourdesigner le groupe associe a une observation.
Constitution des urnes
Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90
Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).
Constitution des urnes
Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90
Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).
� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.
� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite
conduiront a differentes technique de classification.
Constitution des urnes
Statistiques (v2) Mathieu Ribatet—[email protected] – 16 / 90
Remarque. Considerons n boules et K urnes. Le nombre de partitionnementsa l’aide de K urnes (non vide) correspond au nombre de Stirling de la secondeespece S(n,K).
� Il nous faut donc un moyen de pouvoir “ordonner” toutes ces possibilitesselon un critere adequat.
� Il paraıt plutot raisonnable de tenter d’obtenir des “urnes homogenes”.� Differentes definitions mathematiques de cette notion d’homogeneite
conduiront a differentes technique de classification.
� Pour ce cours nous allons nous concentrer sur la classification par K–means.
K-means
Statistiques (v2) Mathieu Ribatet—[email protected] – 17 / 90
� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.
K-means
Statistiques (v2) Mathieu Ribatet—[email protected] – 17 / 90
� La methode des K–means mesure l’homogeneite ou similarite a l’aide de ladistance euclidienne—que l’on notera ‖ · ‖.
� Le calcul de ‖xi‖2 doit etre fonde :
– variables quantitatives → OK– variable qualitative → KO1
� Les variables doivent avoir le meme ordre de grandeur—sinon onstandardise les donnees.
Remarque. D’autres normes peuvent etre utilisees, e.g. norme ‖ · ‖1 →K-medians.
1Hmmm hmmm en fait on peut s’en sortir mais je n’en parlerai pas
Probleme d’optimisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90
Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,
Probleme d’optimisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90
Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,
π∗ = argminπ∈P(n,K)
1
2n
K∑
k=1
n∑
i,j=1
‖xi − xj‖21{π(i)=π(j)=k}
︸ ︷︷ ︸
mesure l’homogeneite de l’urne k
,
ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.
Probleme d’optimisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90
Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,
π∗ = argminπ∈P(n,K)
1
2n
K∑
k=1
n∑
i,j=1
‖xi − xj‖21{π(i)=π(j)=k}
︸ ︷︷ ︸
mesure l’homogeneite de l’urne k
,
ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.
� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !
Probleme d’optimisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 18 / 90
Il s’agit donc d’obtenir in fine K urnes les plus homogenes possibles au sensde la distance euclidienne, i.e.,
π∗ = argminπ∈P(n,K)
1
2n
K∑
k=1
n∑
i,j=1
‖xi − xj‖21{π(i)=π(j)=k}
︸ ︷︷ ︸
mesure l’homogeneite de l’urne k
,
ou P(n,K) est l’ensemble des partitions de n elements a l’aide de K urnes.
� He mais c’est un probleme d’optimisation discret (ou combinatoire)comme P(n,K) est fini ! Facile !Bah en fait pas du tout car |P(n,K)| induit une explosioncombinatoire—e.g., S(11, 5) ≈ 2.5× 105. En pratique nous n’obtiendronsdonc jamais le minimum global mais un minimum local qui sera suffisammentpertinent !
Algorithme de LLoyd
Statistiques (v2) Mathieu Ribatet—[email protected] – 19 / 90
Algorithme 1 : Algorithme de Lloyd.
input : Donnees x1, . . . , xn, nombre d’urnes K, nb. d’iteration max. Tmax,partitionnement initial π.
output : Un partitionnement “optimal” π
1 for t← 1 to Tmax do2 Pour chaque urne, calculez son centroıde, i.e.,;3
µk =1
Nk
∑
i : π(i)=k
xi, k = 1, . . . ,K, Nk =
n∑
i=1
1{π(i)=k}.
4 Pour chaque observation, affectez l’urne dont le centroıde est le plus proche,i.e.,
π(i) = argmin{k : ‖xi − µk‖2
}.
5 if Le partitionnement π n’a pas change then6 Sortir de la boucle;
7 return π;
Illustration sur les donnees d’Iris de Fisher
Statistiques (v2) Mathieu Ribatet—[email protected] – 20 / 90
Donnees 150 mesures des largeurs et longueurs des petales et sepales d’iris.Objectif Retrouver l’espece de chaque iris, i.e., setosa, versicolor ouvirginica.
> head(iris)## <<- je vous mens ;-)
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 5.1 3.5 1.4 0.2
2 4.9 3.0 1.4 0.2
3 4.7 3.2 1.3 0.2
4 4.6 3.1 1.5 0.2
5 5.0 3.6 1.4 0.2
6 5.4 3.9 1.7 0.4
Visualisation graphique
Statistiques (v2) Mathieu Ribatet—[email protected] – 21 / 90
Sepal.Length2
.03
.04
.0
4.5 5.5 6.5 7.5
0.5
1.5
2.5
2.0 2.5 3.0 3.5 4.0
Sepal.Width
Petal.Length
1 2 3 4 5 6 7
0.5 1.0 1.5 2.0 2.5
4.5
6.0
7.5
13
57
Petal.Width
Figure 6: Scatter plot des donnees Iris.
Visualisation graphique
Statistiques (v2) Mathieu Ribatet—[email protected] – 21 / 90
Sepal.Length2
.03
.04
.0
4.5 5.5 6.5 7.5
0.5
1.5
2.5
2.0 2.5 3.0 3.5 4.0
Sepal.Width
Petal.Length
1 2 3 4 5 6 7
0.5 1.0 1.5 2.0 2.5
4.5
6.0
7.5
13
57
Petal.Width
Figure 6: Scatter plot des donnees Iris.
Savoir juger de la qualite de la classification
Statistiques (v2) Mathieu Ribatet—[email protected] – 22 / 90
� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de
la classification ?
– Notion d’inertie– Matrice de confusion
Savoir juger de la qualite de la classification
Statistiques (v2) Mathieu Ribatet—[email protected] – 22 / 90
� Visuellement nous sommes plutot contents non ?� Pourrait-on avoir des criteres moins subjectifs pour juger de la qualite de
la classification ?
– Notion d’inertie– Matrice de confusion– . . . ou autres approches classiques en machine learning, e.g., training
(+ validation) + test
Inertie
Statistiques (v2) Mathieu Ribatet—[email protected] – 23 / 90
Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite
I(x) =1
2n
n∑
i,j=1
‖xi − xj‖2.
C’est en quelque sorte une mesure de la dispersion totale du nuage de points.
Inertie
Statistiques (v2) Mathieu Ribatet—[email protected] – 23 / 90
Definition 2. Soit un nuage de points x = (x1, . . . , xn)—nos observationsdonc. On appelle inertie (pour la distance euclidienne) de ce nuage de pointsla quantite
I(x) =1
2n
n∑
i,j=1
‖xi − xj‖2.
−6 −4 −2 0 2 4
−6
−4
−2
02
4
1ere variable
2em
e v
ari
able
Inertie = 0.86
−6 −4 −2 0 2 4
−6
−4
−2
02
4
1ere variable
2em
e v
ari
able
Inertie = 2.65
Figure 7: Inertie pour deux nuages de points.
Un petit calcul bien eclairant. . .
Statistiques (v2) Mathieu Ribatet—[email protected] – 24 / 90
Soit un nuage de point x = (x1, . . . , xn) et une classification de ce dernier π.via K urnes. Alors
I(x) =1
2n
n∑
i,j=1
‖xi − xj‖2
=1
2n
K∑
k=1
n∑
i=1
n∑
j=1
‖xi − xj‖21{π(j)=k} +n∑
j=1
‖xi − xj‖21{π(j) 6=k}
1{π(i)=k}
= W (x, π) +B(x, π)
ou
W (x, π) =1
2n
K∑
k=1
n∑
i,j=1
‖xi − xj‖21{π(i)=π(j)=k}
B(x, π) =1
2n
K∑
k=1
n∑
i,j=1
‖xi − xj‖21{π(i)=k,π(j) 6=k}.
. . . bien eclairant ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90
I(x) = W (x, π) +B(x, π)
� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).
. . . bien eclairant ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90
I(x) = W (x, π) +B(x, π)
� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).
� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification
B(x, π)
I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !
. . . bien eclairant ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 25 / 90
I(x) = W (x, π) +B(x, π)
� I(x) ne depend pas de π� Notre k–means cherche a trouver π∗ minimisant π 7→W (x, π).
� De maniere equivalente le k–means cherche a donc maximiser B(x, π).Cela suggere une mesure de la qualite de notre classification
B(x, π)
I(x)∈ [0, 1], plus le ratio est proche de 1, mieux c’est !
Remarque. On a
W (x, π) =1
n
K∑
k=1
nk1
2nk
n∑
i,j=1
‖xi − xj‖21{π(i)=π(j)=k}
︸ ︷︷ ︸
Wk(x,π)=Inertie de la k-eme urne
, nk =n∑
i=1
1{π(i)=k}.
Matrice de confusion (si c’est possible)
Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90
� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . .
Matrice de confusion (si c’est possible)
Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90
� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !
Matrice de confusion (si c’est possible)
Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90
� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !
� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion
1 2 3
setosa 33 0 17versicolor 0 46 4virginica 0 50 0
Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.
Matrice de confusion (si c’est possible)
Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90
� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !
� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion
1 2 3
setosa 33 0 17versicolor 0 46 4virginica 0 50 0
Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.
1 2 3
setosa 33 17 0versicolor 0 4 46virginica 0 0 50
Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.
Matrice de confusion (si c’est possible)
Statistiques (v2) Mathieu Ribatet—[email protected] – 26 / 90
� Je vous ai menti sur les donnees il y a en fait une 5eme colone. . . precisantl’espece de l’iris !
� Lorsque c’est le cas on peut donc s’en servir pour verifier la qualite denotre classification, par exemple via une matrice de confusion
1 2 3
setosa 33 0 17versicolor 0 46 4virginica 0 50 0
Table 1: Matrice de confusion pour la classifi-cation par kmeans des donnees d’iris de Fisher.
1 2 3
setosa 33 17 0versicolor 0 4 46virginica 0 0 50
Table 2: Matrice de confusion pour la clas-sification par kmeans des donnees d’iris deFisher—renumerotation des urnes.
� La classification par K–means est incapable de distinguer les especesversicolor et virginica.
Petit aparte: Supervise // Non supervise
Statistiques (v2) Mathieu Ribatet—[email protected] – 27 / 90
Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.
Petit aparte: Supervise // Non supervise
Statistiques (v2) Mathieu Ribatet—[email protected] – 27 / 90
Il existe deux grandes classes en classification, la classification supervisee et laclassification non supervisee.
Definition 3. On parlera de classification supervisee lorsque notre echantillond’apprentissage contient deja les etiquettes. Lorsque cela ne sera pas le casnous travaillerons donc en classification non supervisee.
Focus sur le cadre supervise
Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90
� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !
Focus sur le cadre supervise
Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90
� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !
� L’interet portera ici sur la prediction, i.e.,
une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?
Focus sur le cadre supervise
Statistiques (v2) Mathieu Ribatet—[email protected] – 28 / 90
� A premiere vue ce cadre de travail semble inutile puisque nousconnaissons deja les etiquettes pour nos observations !
� L’interet portera ici sur la prediction, i.e.,
une nouvelle observation arrive. . . dans quelle urne dois-je lamettre ?
� Pour ce cours nous allons nous restreindre au cadre non supervise.
Choix du nombre de classes
Statistiques (v2) Mathieu Ribatet—[email protected] – 29 / 90
� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).
� Dans de nombreuses situations, nous n’en savons rien !2
� Comment faire ?
Choix du nombre de classes
Statistiques (v2) Mathieu Ribatet—[email protected] – 29 / 90
� Jusqu’a present nous avons considere que le nombre d’urnes etant connu(K = 3 pour nos iris).
� Dans de nombreuses situations, nous n’en savons rien !2
� Comment faire ?L’idee est simple mais efficace3
1. Faire des classifications k-means pour un nombre croissant de classes,e.g., K = 2, . . . , 10.
2. Retenir la classification pour laquelle un nombre de classes plus grand“n’apporte pas grand chose”, i.e.,
B(x, π)
I(x)ne croit plus beaucoup
W (x, π)
I(x)= 1− B(x, π)
I(x)ne decroit plus beaucoup
2Parfois meme cela peut-etre contre productif, cf. MNIST.3Bon on peut aussi faire encore la meme rengaine training + validation + test
Choix du nombre de classes pour les donnees d’Iris
Statistiques (v2) Mathieu Ribatet—[email protected] – 30 / 90
5 10 15 20
0.0
0.2
0.4
0.6
0.8
1.0
Nombre de classe K
W(x
, π)
I(x)
Figure 8: Choix du nombre de classe a l’aide du critere W (x, π)/I(x). Ici nous prendrions K = 2 ou3. (c’est un peu subjectif je vous l’accorde !)
Prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90
� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .
Prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90
� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .
� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !
� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,
argmin{k : ‖x∗ − µk‖2
}.
Prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 31 / 90
� Une fois notre classification faite, on peut donc s’interesser a analyserchaque classe. . .
� . . . mais on peut aussi predire dans quelle classe une nouvelle observationdevrait etre !
� Soit x∗ une nouvelle observation. On placera x∗ dans l’urne dont lecentroıde est le plus proche, i.e.,
argmin{k : ‖x∗ − µk‖2
}.
Remarque. Cela permet de predire continument dans l’espace des variables etles predictions sont basees sur les cellules de Voronoı de germe µ1, . . . , µK ,i.e.,
Voronoı(µk) = {x ∈ Rp : ‖x− µk‖ ≤ ‖x− µℓ‖, ℓ = 1, . . . ,K}.
Illustration des cellules de Voronoı et de la prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90
−5 0 5
−6
−4
−2
02
46
1ere variable
2em
e v
ari
able
Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.
Illustration des cellules de Voronoı et de la prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90
−5 0 5
−6
−4
−2
02
46
1ere variable
2em
e v
ari
able
Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.
Illustration des cellules de Voronoı et de la prediction
Statistiques (v2) Mathieu Ribatet—[email protected] – 32 / 90
−5 0 5
−6
−4
−2
02
46
1ere variable
2em
e v
ari
able
Figure 9: Illustration des cellules de Voronoı et de la prediction issue d’un K–means.
Resumons le K–means
Statistiques (v2) Mathieu Ribatet—[email protected] – 33 / 90
Mise en oeuvre
� Centrer et reduire les donnees (si necessaire) car approche basee sur ‖ · ‖ ;� Faire varier le nombre de classe K et conserver le “meilleur” ;� Analyser les classes et/ou faire des predictions.
Avantages
� Supporte plutot bien la montee en dimension, i.e., n grand. Complexiteen O(nKTmax)
4;� Prediction facile et rapide.
Inconvenients
� Hypothese tacite d’isotropie et repartition equilibree des classes5
� Probleme d’optimisation (minimum local, initialisation)
4Comme souvent Tmax et K sont petits ont dira souvent que c’est un algo. lineaire (en n)5Le k–means est en fait un melange Gaussien bien specifique. . .
Illustration de l’impact de l’initialisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 34 / 90
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.
Illustration de l’impact de l’initialisation
Statistiques (v2) Mathieu Ribatet—[email protected] – 34 / 90
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
−6 −4 −2 0 2 4 6
−4
−2
02
46
1ere variable
2em
e v
ari
able
Figure 10: Illustration de la sensibilite du kmeans a l’initialisation des centroıdes. Ici 4 initialisationsdifferentes indiquees par les triangles.
� Il est (fortement) recommande de lancer l’algorithme avec plusieurs initiali-sations differentes et de ne garder que la meilleure—en terme d’inertie expliquee.
2. Analyse en composantes principales
0. Statistiquesdescriptives(Rappels ou pas!)
1. Classification
⊲
2. Analyse encomposantesprincipales
2.5 StochasticModelling
3. Regressionlogistique
Statistiques (v2) Mathieu Ribatet—[email protected] – 35 / 90
Seances en autonomie
Statistiques (v2) Mathieu Ribatet—[email protected] – 36 / 90
� Recuperer le pdf du livre An introduction to Statistical Learning
with Applications in R via ce lien� Lire les sections 10.1 et 10.2 et faire une fiche de lecture (pour me poser
des questions par la suite !)� Faire le TP de la section 10.4
Les joueurs de la Ligue 1 (selon Fifa 2019)
Statistiques (v2) Mathieu Ribatet—[email protected] – 37 / 90
> dim(ligue1)
[1] 565 22
> names(ligue1)
[1] "Name" "Age" "Nationality" "Overall" "Potential" "Club" "Value" "Wage" "Preferred.Foot" "International.Reputation"
[11] "Weak.Foot" "Skill.Moves" "Height" "Weight" "HeadingAccuracy" "ShortPassing" "Dribbling" "LongPassing"
[19] "BallControl" "Acceleration" "SprintSpeed" "Interceptions"
> summary(ligue1[,1:6])
Name Age Nationality Overall Potential Club
A. Abdennour: 1 Min. :16.0 France :307 Min. :53.00 Min. :63.00 AS Monaco : 33
A. Adouyev : 1 1st Qu.:21.0 Brazil : 26 1st Qu.:66.00 1st Qu.:72.00 FC Nantes : 32
A. Aktas : 1 Median :24.0 Senegal : 24 Median :71.00 Median :76.00 FC Girondins de Bordeaux: 31
A. Areola : 1 Mean :24.3 Ivory Coast: 17 Mean :70.73 Mean :76.48 Toulouse Football Club : 31
A. Bamba : 1 3rd Qu.:27.0 Belgium : 12 3rd Qu.:75.00 3rd Qu.:80.00 Angers SCO : 30
A. Barreca : 1 Max. :40.0 Cameroon : 11 Max. :92.00 Max. :95.00 Paris Saint-Germain : 30
(Other) :559 (Other) :168 (Other) :378
Motivation (1)
Statistiques (v2) Mathieu Ribatet—[email protected] – 38 / 90
� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de
faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.
Motivation (1)
Statistiques (v2) Mathieu Ribatet—[email protected] – 38 / 90
� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� Ce tableau de donnees est trop volumineux pour ce que nous prevoyons de
faire.� On aimerait donc reduire la taille de X sans trop perdre en informations.
� Il serait utile d’avoir une methodologie pour “compresser” ce type dedonnees.
Motivation (2)
Statistiques (v2) Mathieu Ribatet—[email protected] – 39 / 90
� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc
nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a
(p2
)telles paires. Par exemple, pour p = 10 on devrait examiner 45
graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres
utiles car ces scatterplot ne contiendront qu’une information tres limitee.
Motivation (2)
Statistiques (v2) Mathieu Ribatet—[email protected] – 39 / 90
� Soit X = (xij : i = 1, . . . , n, j = 1, . . . , p} un tableau de donnees.� C’est la premiere fois que nous voyons ces donnees et nous voulons donc
nous “familiariser” avec elles.� Nous pourrions faire un scatterplot pour toutes les paires des variables.� Il y a
(p2
)telles paires. Par exemple, pour p = 10 on devrait examiner 45
graphiques !� De plus il y a de fortes chances que ces graphiques ne soient pas tres
utiles car ces scatterplot ne contiendront qu’une information tres limitee.
� Il serait utile d’avoir une methodologie pour visualiser ce type de donnees.
Angle d’attaque
Statistiques (v2) Mathieu Ribatet—[email protected] – 40 / 90
Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?
un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.
Angle d’attaque
Statistiques (v2) Mathieu Ribatet—[email protected] – 40 / 90
Principe Projeter le tableau de donnees X dans un sous-espace dedimension faible.Pourqoi ?
un idealement un “bon” sous-espace dans un sens que l’on va voir plus tard;faible afin de pouvoir visualiser les donnees—et donc pouvoir tirer desconclusions // ou d’avoir un tableau de donnees plus “leger”—et doncpouvoir faire par la suite notre methodologie gourmande en CPU.
� Attention dans tout ce qui suit le tableau X est suppose centre et reduit.Pour les applications, il faudra egalement s’assurer que ce sera fait !!!
Decomposition SVD
Statistiques (v2) Mathieu Ribatet—[email protected] – 41 / 90
Theoreme 1 (Decomposition en valeurs singulieres).Soit une matrice de reels X ∈ Rn×p6. Alors il existe un triplet(U,D, V ) ∈ Rn×n × Rn×p × Rp×p tel que
X = UDV ⊤,
ou U et V sont des matrices orthogonales et D = (dij) une matrice dont leselements verifient
dij =
{
λi, i = j
0, i 6= j, λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0, k = min(n, p).
λi est appelee la i-eme valeur singuliere.
6Ca marche aussi dans C !
Un theoreme bien utile
Statistiques (v2) Mathieu Ribatet—[email protected] – 42 / 90
Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par
‖A‖F =√∑
i,j a2ij =
√
Tr(A⊤A), A ∈ Rn×p.
Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte
argmin ‖M −X‖FM∈Rn×p
tel que rang(M) ≤ r
est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,
M∗ = UDV,
ou D est identique a D sauf que λr+1 = · · · = λk = 0.
Un theoreme bien utile
Statistiques (v2) Mathieu Ribatet—[email protected] – 42 / 90
Definition 4. La norme (matricielle) de Frobenius notee ‖ · ‖F est donnee par
‖A‖F =√∑
i,j a2ij =
√
Tr(A⊤A), A ∈ Rn×p.
Theoreme 2 (Eckart–Young–Mirsky). Soit une matrice de reels X ∈ Rn×p etr ∈ {1, . . . ,min(n, p)}. La solution du probleme d’optimisation souscontrainte
argmin ‖M −X‖FM∈Rn×p
tel que rang(M) ≤ r
est donnee par la decomposition SVD de X notee (U,D, V ) que l’on tronquea l’ordre r, i.e.,
M∗ = UDV,
ou D est identique a D sauf que λr+1 = · · · = λk = 0.
� Si l’on veut approcher au mieux X (selon Frobenius) alors on prendra cettedecomposition SVD tronquee (avec r faible pour aider la visualisation ;-) )
. . . bien utile ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 43 / 90
� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .
. . . bien utile ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 43 / 90
� OK mais moi cette norme de Frobenius ca ne me parle pas trop en fait. . .� Bah si on l’a deja vu en fait puisque c’est tres proche de l’inertie
‖X‖2F = Tr(XX⊤)
= Tr
{(
aij : aij =
p∑
ℓ=1
xiℓxjℓ
)}
=n∑
i=1
p∑
ℓ=1
xiℓxiℓ
=n∑
i=1
‖xi·‖2
= nI(X).
. . . bien utile ???
Statistiques (v2) Mathieu Ribatet—[email protected] – 44 / 90
� OK mais moi l’inertie ca ne me parle pas trop non plus. . .
. . . bien utile ???
Statistiques (v2) Mathieu Ribatet—[email protected] – 44 / 90
� OK mais moi l’inertie ca ne me parle pas trop non plus. . .� Rappelons que X est centree reduite et donc
1
nX
⊤X est la matrice (empirique) de correlation
� De plus on a
‖X‖2F = Tr(XX⊤) = Tr(X⊤
X) = np.
Resumons
Statistiques (v2) Mathieu Ribatet—[email protected] – 45 / 90
� D’une part si l’on s’interesse aux lignes de X on a
‖X‖2F = nI(X) = n
n∑
i=1
‖xi·‖2.
� D’autre part, si l’on s’interesse aux colonnes de X on a
‖X‖2F = np.
� Enfin si l’on s’interesse a la decomposition SVD de X on a
‖X‖2F = Tr{
(UDV ⊤)(UDV ⊤)⊤}
= Tr(UD2U⊤) = Tr(D2)
=
p∑
j=1
λ2j .
Choisir le degre d’approximation
Statistiques (v2) Mathieu Ribatet—[email protected] – 46 / 90
� Comment choisir ce degre d’approximation ?
Choisir le degre d’approximation
Statistiques (v2) Mathieu Ribatet—[email protected] – 46 / 90
� Comment choisir ce degre d’approximation ?� Soit X = UDV ⊤ une decomposition SVD tronquee au rang
r ∈ {1, . . . ,min(n, p)}.� Alors la perte d’information (au sens de Frobenius) vaut
p∑
j=r+1
λ2j .
� De maniere equivalente on dira que notre approximation explique
100×∑r
j=1 λ2j
∑pj=1 λ
2j
%
de l’inertie // de la variance.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 1
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 10
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 50
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 100
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 330
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Illustration de la compression
Statistiques (v2) Mathieu Ribatet—[email protected] – 47 / 90
Image de base r = 330
1 2 5 10 20 50 200
020
40
60
80
100
Niveau d’approximation r
Vari
ance e
xpliq
uee (
%)
Figure 11: Qualite de l’approximation de la SVD tronquee.
Table 3: Taille de l’image compressee par SVD en fonction du degre d’approximation r.
r 1 10 50 100 Original (330)Taille (Ko) 10 17 28 31 41Compression (%) 75 58 31 24 0
Statistiques (v2) Mathieu Ribatet—[email protected] – 48 / 90
� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.
� Si je vous raconte tout cela c’est essentiellement pour retenir que :
– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.
� Nous devrons garder cela en memoire pour toute la suite !
Statistiques (v2) Mathieu Ribatet—[email protected] – 48 / 90
� La compression par SVD est sympa mais ce n’est pas vraiment l’utilitepremiere de l’ACP.
� Si je vous raconte tout cela c’est essentiellement pour retenir que :
– on va travailler sur une approximation des donnees initiales– que la finesse de l’approximation varie avec notre r.
� Nous devrons garder cela en memoire pour toute la suite !� En effet nous allons tenter de tirer des conclusions sur le nuage projete et
non sur le nuage initial, il ne faudra pas que nos commentaires soient uneconsequence de notre approximation. . .
ACP pour visualiser les donnees
Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90
� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :
� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.
ACP pour visualiser les donnees
Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90
� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :
� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.
� En terminologie ACP,
– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du
j-eme axe factoriel.
ACP pour visualiser les donnees
Statistiques (v2) Mathieu Ribatet—[email protected] – 49 / 90
� Partons de notre decomposition SVD (U,D, V ) de X.� On se rappelle que V est une matrice orthogonale.� Elle definit donc une base orthonormale :
� XV est donc la projection de X sur la base V , i.e., on a projete leslignes de X—les individus.
� En terminologie ACP,
– la j-eme colonne vj de V est appelee le j-eme axe factoriel ;– les coordonnees Xvj sont appelees les composantes principales du
j-eme axe factoriel.
� En pratique on visualisera donc les donnees projetees et non les donneesbrutes.
Illustration sur un example bidon
Statistiques (v2) Mathieu Ribatet—[email protected] – 50 / 90
−4 −2 0 2 4
−4
−2
02
4
Variable 1
Vari
able
2
−6 −4 −2 0 2 4 6−
4−
20
24
6
Axe factoriel 1 ( 91 %)
Axe
facto
riel 2 (
9 %
)
−4 −2 0 2 4
−4
−2
02
4
Variable 1
Vari
able
2
Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.
Illustration sur un example bidon
Statistiques (v2) Mathieu Ribatet—[email protected] – 50 / 90
−4 −2 0 2 4
−4
−2
02
4
Variable 1
Vari
able
2
−6 −4 −2 0 2 4 6−
4−
20
24
6
Axe factoriel 1 ( 91 %)
Axe
facto
riel 2 (
9 %
)
−4 −2 0 2 4
−4
−2
02
4
Variable 1
Vari
able
2
Figure 12: Illustration des axes factoriels (individus), composantes principales et variance expliquee.
Axe 1 explique 91% de la variance et est defini parAxe 1 = 0.55× Variable 1+ 0.84× Variable 2Axe 2 explique 9% de la variance et est defini parAxe 2 = −0.84× Variable 1+ 0.55× Variable 2
Attention aux projections
Statistiques (v2) Mathieu Ribatet—[email protected] – 51 / 90
� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2
� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,
p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.
Attention aux projections
Statistiques (v2) Mathieu Ribatet—[email protected] – 51 / 90
� L’exemple precedent etait bidon car nous partions de R2 pour arriver dansR2
� Il n’y avait donc aucune perte d’information� Or bien souvent on partira de Rp pour arriver dans Rp′ ,
p′ < p—typiquement p′ ∈ {2, 3}.� Il y aura donc perte d’information—potentiellement importante.
Exemple 1. Considerons les points A = (1, 2, 0) et B = (1, 2, 500) de R3 quenous projetons sur le plan {(x, y, z) : z = 0}. Alors sur ce plan A et B seconfondent pour autant ils etaient tres eloignes initialement.
Mesure de qualite de la projection
Statistiques (v2) Mathieu Ribatet—[email protected] – 52 / 90
O
A•
B•
Axe factoriel
A∗B∗
Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.
� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.
Mesure de qualite de la projection
Statistiques (v2) Mathieu Ribatet—[email protected] – 52 / 90
O
A•
B•
Axe factoriel
A∗B∗
Figure 13: Illustration de l’utilite du cos2 comme mesure de la qualite de la projection.
� OA∗ ≈ OA⇒ A est bien represente sur l’axe factoriel ;� OB∗ 6≈ OB ⇒ B est mal represente sur l’axe factoriel.
� On appreciera la qualite de la projection par
OA2∗
OA2= cos2 AOA∗.
Influence d’un individu sur un axe factoriel
Statistiques (v2) Mathieu Ribatet—[email protected] – 53 / 90
� Rappelons nous que ‖X‖2F =∑p
j=1 λ2j .
� Le j-eme axe factoriel contribue alors a
100×λ2j
∑pℓ=1 λ
2ℓ
% de la variance.
� Au sein de cette contribution, le i-eme individu contribue a
‖xi·vj‖2λ2j
Dualite
Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90
� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice
orthogonale.
Dualite
Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90
� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice
orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les
colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.
Dualite
Statistiques (v2) Mathieu Ribatet—[email protected] – 54 / 90
� Depuis le debut je vous parle de la projection des individus, i.e., les lignes.� Ceci etait justifie puisque dans X = UDV ⊤, V etait une matrice
orthogonale.� Mais U aussi ! On peut donc faire pareil mais sur les variables, i.e., les
colonnes de X.� Ceci est connu sous le nom (pompeux) de dualite.� Cela dit puisque X est reduit, on a
1
n‖x·j‖2 = 1, j = 1, . . . , p,
et les projections des variables normalisees par 1/√n sur tout plan
factoriel (ui1 , ui2) sont necessairement a l’interieur du cercle unite.� C’est ce qu’on appelle le cercle des correlations.� De plus la qualite de projection se simplifie alors
OA2∗
OA2= OA2
∗.
Etude sur un jeu de donnees socio-economique
Statistiques (v2) Mathieu Ribatet—[email protected] – 55 / 90
TAN Taux accroissement (%)TXN Taux de natalite (%)TMI Taux de mortalite infantile (‰)ESV Esperance de vie (annees)
M15 % des moins de 15 ansP65 % des plus de 65 ansPUR % population urbaine (%)PIB PIB annuel par habitant ($)
> data
TAN TXN TMI ESV M15 P65 PUR PIB
Norvege 0.1 12 8 76 20 16 80.3 19500
France 0.4 14 8 75 21 13 77.2 15450
Australie 0.8 16 10 76 24 10 87.0 12000
Japon 0.6 12 6 77 22 10 76.5 19100
USA 0.7 16 11 75 22 12 74.0 18200
Bresil 2.1 29 63 65 36 4 74.0 1980
Pologne 0.8 18 19 71 25 9 60.0 4358
Mexique 2.4 31 50 67 42 4 70.0 1480
Maroc 2.6 36 90 60 42 4 44.0 549
Egypte 2.6 37 93 59 40 4 46.5 770
Albanie 2.0 26 43 71 35 5 34.0 840
Niger 2.9 51 141 44 47 3 16.0 205
Inde 2.1 33 101 55 38 4 25.5 275
Chine 1.3 21 61 66 28 5 21.0 255
ArabieSaoudite 3.2 39 79 63 37 2 73.0 5680
Portugal 0.2 12 17 73 24 12 31.0 3400
Variance expliquee
Statistiques (v2) Mathieu Ribatet—[email protected] – 56 / 90
comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8
Vari
ance e
xpliq
uee (
%)
020
40
60
80
100
Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.
Variance expliquee
Statistiques (v2) Mathieu Ribatet—[email protected] – 56 / 90
comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7 comp 8
Vari
ance e
xpliq
uee (
%)
020
40
60
80
100
Figure 14: Pourcentage de variance expliquee par axe factoriel. La droite orange a pour equationy = 100/p, i.e., contribution homogene moyenne attendue.
� Ici on ne garderait que les 2 premiers axes factoriels qui expliqueront81 + 11 = 92% de la variance. Si l’on ajoutait le 3eme axe, alors on aurait81 + 11 + 5 = 97% de la variance.
Projection sur le 1er plan factoriel
Statistiques (v2) Mathieu Ribatet—[email protected] – 57 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
Australie
JaponUSA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
Figure 15: Composantes principales du 1er plan factoriel, i.e., Axe 1 et Axe 2, pour les individus(gauche) et les variables (droite).
C’est a vous de parler !
Statistiques (v2) Mathieu Ribatet—[email protected] – 58 / 90
Pour aller plus loin
Statistiques (v2) Mathieu Ribatet—[email protected] – 59 / 90
Individu supplementaire
� Soit x∗· un nouvelle observation.� A partir de notre ACP, calculee sur X seulement, nous pouvons projeter
x∗· dans n’importe quel plan factoriel (des individus), i.e., x∗·V .� Cela permet de situer x∗· par rapport aux conclusions que nous avons
etablies lors de l’analyse des sorties de l’ACP.� Par dualite on peut faire pareil sur les variables. . .
Variable qualitative
� Vous aurez compris que pour l’ACP X ne doit contenir que des variablesquantitatives.
� C’est partiellement vrai, on peut utiliser des variables qualitatives.� Ces dernieres ne serviront pas aux calculs de l’ACP mais seulement pour
la visualisation.
Individu // variable supplementaires
Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
Australie
JaponUSA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)D
im 2
(10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
Figure 16: Utilisation d’individus et de variables supplementaires en ACP.
Individu // variable supplementaires
Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
Australie
JaponUSA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)D
im 2
(10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
Figure 16: Utilisation d’individus et de variables supplementaires en ACP.
� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.
Individu // variable supplementaires
Statistiques (v2) Mathieu Ribatet—[email protected] – 60 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege France
Australie
Japon USABresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
Syldavie
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
TF
Figure 16: Utilisation d’individus et de variables supplementaires en ACP.
� Rajoutons la Syldavie: pays semblable a la France mais peu urbain.� Rajoutons une variable supplementaire : % de fumeurs.
Variable qualitative
Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
Australie
JaponUSA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)D
im 2
(10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
Figure 17: Utilisation d’individus et de variables supplementaires en ACP.
Variable qualitative
Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Individuals factor map (PCA)
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
Australie
JaponUSA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)D
im 2
(10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
Figure 17: Utilisation d’individus et de variables supplementaires en ACP.
� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.
Variable qualitative
Statistiques (v2) Mathieu Ribatet—[email protected] – 61 / 90
−4 −2 0 2 4 6
−4
−2
02
4
Confidence ellipses around the categories of HEM
Dim 1 (81.18%)
Dim
2 (
10.9
7%
)
Norvege
France
AustralieJapon
USA
Bresil
Pologne
Mexique
Maroc
Egypte
Albanie Niger
Inde
Chine
ArabieSaoudite
Portugal
Syldavie
Nord
Sud
NordSud
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (81.18%)D
im 2
(10.9
7%
)
TAN
TXN
TMI
ESV
M15
P65
PUR
PIB
TF
Figure 17: Utilisation d’individus et de variables supplementaires en ACP.
� Rajoutons une variable qualitative HEM ∈ {Nord, Sud}.
2.5 Stochastic Modelling
0. Statistiquesdescriptives(Rappels ou pas!)
1. Classification
2. Analyse encomposantesprincipales
⊲2.5 StochasticModelling
A basic example
LikelihoodAsymptotics for theMLE
3. Regressionlogistique
Statistiques (v2) Mathieu Ribatet—[email protected] – 62 / 90
What is stochastic modelling?
Statistiques (v2) Mathieu Ribatet—[email protected] – 63 / 90
� The phrasing stochastic modelling is (most often) about using probabilitydistributions that would mimic the data under study.
� Since probability distributions are parameterized w.r.t. some parameterθ ∈ Θ ⊂ Rp, it amounts to have a methodology to get the “bestparameter value” given the data, called it θ.
� In Proba/Stat, θ is called an estimator of the parameter θ.� Watch out an estimator is a random variable/vector as a function of some
“generic data”, e.g., imagine that these generic data are the data you aregoing to collect.
� An estimate is a realization of the above estimator where you plug-in thedata you have at hand.
A basic example
Statistiques (v2) Mathieu Ribatet—[email protected] – 64 / 90
Exemple 2 (Freebox failure time).Suppose your internet provider is Free7. You experience many bandwidthissues with your Wifi network. You may want to model the duration betweentwo network shutdowns.You decided to use an exponential distribution (why?) to model this failuretimes. Since the exponential distribution is parameterized w.r.t. a singleparameter λ > 0, our problem consists in estimating λ.
7which is mine currently unfortunately
Likelihood
Statistiques (v2) Mathieu Ribatet—[email protected] – 65 / 90
� There is a wide zoology of available estimators: method of moments,maximum likelihood estimator, probability weighted moments, . . .
� In this (too short) lecture, I will focus on the maximum likelihoodestimator only since it is by far most widely used and versatile approach.
Definition 5. Given a parametric statistical model {f(y; θ) : y ∈ Rd, θ ∈ Θ}(this is the p.d.f. or p.m.f. of some probability distribution) and a sampleY1, . . . , Yn, the likelihood is given by
L(θ;Y1, . . . , Yn) = f(Y1, . . . , Yn; θ),
which turns out to be if the Yi are independent and identically distributed
L(θ;Y1, . . . , Yn) =
n∏
i=1
f(Yi; θ).
Maximum likelihood estimator
Statistiques (v2) Mathieu Ribatet—[email protected] – 66 / 90
Definition 6. The maximum likelihood estimator is given by
θ = argmaxθ∈Θ
L(θ;Y1, . . . , Yn).
� It is often more convenient (from a computational and theoretical point ofview) to work with the log-likelihood in place of the likelihood
ℓ(θ;Y1, . . . , Yn) = logL(θ;Y1, . . . , Yn).
� Clearly we haveθ = argmax
θ∈Θℓ(θ;Y1, . . . , Yn).
Freebox failure time (2)
Statistiques (v2) Mathieu Ribatet—[email protected] – 67 / 90
Exemple 3.
Recall that our statistical model for those failure time is Exp(λ), λ > 0.
1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.
30.7 76.8 47.1 46.5 0.6 7.6 29.4
Asymptotics for the MLE
Statistiques (v2) Mathieu Ribatet—[email protected] – 68 / 90
Theoreme 3. Under some regularity conditions8, the maximum likelihoodestimator θ satisfies
√n(θ − θ0)
d.−→ N(0,−H(θ0)−1), n→∞,
where θ0 is the “true parameter” and H(θ0) = E{∇2 log f(Y ; θ0)
}.
In practice, due to the law of large numbers, H(θ0) is estimated (consistently)by
H(θ0) =1
n
n∑
i=1
∇2 log f(Yi; θ),
and we loosely state that, provided the sample size n is large enough,
θ·∼ N(θ0,−H(θ0)
−1).
8essentially that which enable switching differential and integral signs
Standard errors and confidence intervals
Statistiques (v2) Mathieu Ribatet—[email protected] – 69 / 90
Definition 7. Given any scalar estimator θ (not necessarily the MLE), the
standard error of this estimator is simply
√
Var(θ).The standard error is a measure of precision of the estimator, the smaller thebetter.
Proposition 1 ((Asymptotics) Confidence intervals based on the MLE).Using the asymptotic normality of the MLE, it is not difficult to show that the(random) interval
IC(θ) := [θ − 1.96
√
Var(θ), θ + 1.96
√
Var(θ)]
is a (asymptotic) 95% confidence interval for θ0, i.e.,
(
limn→∞
)
Pr[θ0 ∈ IC(θ)] = 0.95.
Freebox failure time (3)
Statistiques (v2) Mathieu Ribatet—[email protected] – 70 / 90
Exemple 4.
Recall that our statistical model for those failure time is Exp(λ), λ > 0.
1. Find the MLE for λ.2. Given the following failure times (in hours) give an estimation for λ.
30.7 76.8 47.1 46.5 0.6 7.6 29.4
3. Give the standard error for λ.4. Give an approximate 95% confidence interval for λ.
Statistiques (v2) Mathieu Ribatet—[email protected] – 71 / 90
� I have still so much things to tell you about stochastic modelling� Unfortunately, we do not have enough time and this is not the purpose of
this course.� Just keep in mind that you only were here
3. Regression logistique
0. Statistiquesdescriptives(Rappels ou pas!)
1. Classification
2. Analyse encomposantesprincipales
2.5 StochasticModelling
⊲3. Regressionlogistique
Statistiques (v2) Mathieu Ribatet—[email protected] – 72 / 90
Seances en autonomie
Statistiques (v2) Mathieu Ribatet—[email protected] – 73 / 90
� Recuperer le pdf du livre An introduction to Statistical Learning
with Applications in R via ce lien� Lire les sections 4.1, 4.2 et 4.3 et faire une fiche de lecture (pour me
poser des questions par la suite !)� Faire le TP de la section 4.6.2
Statistiques (v2) Mathieu Ribatet—[email protected] – 74 / 90
> head(titanic)
Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 S
2 1 1 Cumings, Mrs. John Bradley female 38 1 0 PC 17599 71.2833 C85 C
3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 S
4 1 1 Futrelle, Mrs. Jacques Heath female 35 1 0 113803 53.1000 C123 S
5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.0500 S
6 0 3 Moran, Mr. James male NA 0 0 330877 8.4583 Q
Modele lineaire : Rappel
Statistiques (v2) Mathieu Ribatet—[email protected] – 75 / 90
Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)
= X⊤β + ε
� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de
modele, prediction.
Modele lineaire : Rappel
Statistiques (v2) Mathieu Ribatet—[email protected] – 75 / 90
Y = β0 + β1X1 + · · ·+ βpXp + ε, ε ∼ N(0, σ2)
= X⊤β + ε
� Y est la reponse ou variable dependante� les Xi sont les variables explicatives� Notions a connaıtre : analyse des residus, test d’hypothese, selection de
modele, prediction.
� Dans notre application precedente, pourquoi ne pas utiliser un modelelineaire ?
Regression logistique: Contexte
Statistiques (v2) Mathieu Ribatet—[email protected] – 76 / 90
� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.
� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.
� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.
Regression logistique: Contexte
Statistiques (v2) Mathieu Ribatet—[email protected] – 76 / 90
� Si la reponse Y est binaire, i.e., Y ∈ {0, 1}9, alors la regression logistiqueest une option serieuse.
� Elle permet de (tenter de) modeliser Y mais aussi d’identifier les variablesexplicatives les plus influentes.
� Cela dit modeliser Y ∈ {0, 1} est difficile et il sera plus facile de modeliserla probabilite de succes.
� Dans la suite on appellera succes l’evenement qui nous interesse pourl’etude, e.g., mort d’un patient, email est un spam, un etudiant s’endort. . .
9ou autre Y ∈ {Homme, Femme}, Y ∈ {Chaud, Froid} bref vous avez compris. . .
Une fonction bien sympathique
Statistiques (v2) Mathieu Ribatet—[email protected] – 77 / 90
Definition 8. On appelle fonctionsigmoıde la fonction suivante
f : R −→ (0, 1)
x 7−→ exp(x)
1 + exp(x)−10 −5 0 5 10
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
Figure 18: Graphe de la fonction sigmoide
Une fonction bien sympathique
Statistiques (v2) Mathieu Ribatet—[email protected] – 77 / 90
Definition 8. On appelle fonctionsigmoıde la fonction suivante
f : R −→ (0, 1)
x 7−→ exp(x)
1 + exp(x)−10 −5 0 5 10
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
Figure 18: Graphe de la fonction sigmoide
� C’est une bijection a valeur dans (0, 1) ce qui est parfait pour representerune probabilite non !
� L’idee fondamentale de la regression logistique est donc de poser
Pr(Y = 1 | X1, . . . , Xp) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp).
Petit aparte
Statistiques (v2) Mathieu Ribatet—[email protected] – 78 / 90
� Vous savez quePr(X ∈ A) = E
[1{X∈A}
].
� Donc l’expression precedente peut s’ecrire aussi sous la forme
E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).
� Cette expression est a comparer avec le modele lineaire que vousconnaissez
E [Y | X1, . . . , Xp] = X⊤β.
Petit aparte
Statistiques (v2) Mathieu Ribatet—[email protected] – 78 / 90
� Vous savez quePr(X ∈ A) = E
[1{X∈A}
].
� Donc l’expression precedente peut s’ecrire aussi sous la forme
E [Y | X1, . . . , Xp] =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)= g−1(X⊤β).
� Cette expression est a comparer avec le modele lineaire que vousconnaissez
E [Y | X1, . . . , Xp] = X⊤β.
� En fait la regression logistique est un cas particulier du modele lineairegeneralise avec pour fonction de lien la reciproque de notre sigmoıde (connuesous le nom de fonction logit).
Inference
Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90
� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?
Inference
Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90
� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y
et pas Pr(Y = 1 | X).
Inference
Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90
� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y
et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de
vraisemblance, i.e.,
β = argmaxβ∈Rp+1
n∏
i=1
Pr (Y = 1 | X = Xi)Yi
︸ ︷︷ ︸
contribution lorsque Yi = 1
×Pr (Y = 0 | X = Xi)1−Yi
︸ ︷︷ ︸
contribution lorsque Yi = 0
Inference
Statistiques (v2) Mathieu Ribatet—[email protected] – 79 / 90
� Nous avons n realisations independantes (Y1,X1), . . . , (Yn,Xn).� Comment ajuster ce modele, i.e., obtenir β ?� He non on ne peux pas utiliser les moindres carres puisqu’on observe les Y
et pas Pr(Y = 1 | X).� Vous vous en doutez, on va utiliser l’estimateur du maximum de
vraisemblance, i.e.,
β = argmaxβ∈Rp+1
n∏
i=1
Pr (Y = 1 | X = Xi)Yi
︸ ︷︷ ︸
contribution lorsque Yi = 1
×Pr (Y = 0 | X = Xi)1−Yi
︸ ︷︷ ︸
contribution lorsque Yi = 0
� Il n’y a pas de solutions explicites pour ce probleme. On aura donc recoursa de l’optimisation numerique.
Que faire avec β ?
Statistiques (v2) Mathieu Ribatet—[email protected] – 80 / 90
� Supposons que nous ayons ajuste notre modele de regression logistique.� Nous pouvons alors :
– Faire de la prediction, e.g., quelle est la probabilite qu’un etudiantayant les caracteristiques x s’endorme dans mon cours ?
– Voir quelles variables influent le plus sur la probabilite de succes ;– Faire de la classification (supervisee)
Prediction : Sommeil en cours
Statistiques (v2) Mathieu Ribatet—[email protected] – 81 / 90
Remarque. Afin de simplifier les notations, on utilisera la notation suivante
p(X) = Pr(Y = 1 | X).
� Considerons le modele statistique ajuste suivant
p(X) =exp(β0 + β11{X=Homme})
1 + exp(β0 + β11{X=Homme}), β0 = −1, β1 = 2.
� Ainsi sous ce modele la probabilite qu’un/qu’une etudiant/etudiantes’endorme dans mon cours est estimee a
p(H) =exp(−1 + 2)
1 + exp(−1 + 2)≈ 0.73, p(F ) =
exp(−1)1 + exp(−1) ≈ 0.27.
Classification
Statistiques (v2) Mathieu Ribatet—[email protected] – 82 / 90
� L’interet peut ne pas porter sur les probabilites mais sur Y directement !
Classification
Statistiques (v2) Mathieu Ribatet—[email protected] – 82 / 90
� L’interet peut ne pas porter sur les probabilites mais sur Y directement !� Un nouvel etudiant10 arrive en cours d’annee, notons le X∗. Va-t-il
s’endormir pendant mon cours ?� On utilisera le critere de classification suivant
Y∗ =
{
1, p(X∗) > 0.5
0, p(X∗) < 0.5,
i.e., critere choisissant l’etat le plus probable.
10Nico Leptique ?
Prediction : Sommeil en cours Errata
Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90
� Considerons le modele statistique ajuste suivant
p(X) =exp(β0 + β11{X=Homme})
1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).
� Le test de Wald (que nous allons voir sous peu) nous donne alors
Tobs =2
1.5=
4
3, p-valeur ≈ 0.18,
et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.
Prediction : Sommeil en cours Errata
Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90
� Considerons le modele statistique ajuste suivant
p(X) =exp(β0 + β11{X=Homme})
1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).
� Le test de Wald (que nous allons voir sous peu) nous donne alors
Tobs =2
1.5=
4
3, p-valeur ≈ 0.18,
et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.
� La variable sexe n’est pas statistiquement significative !
Prediction : Sommeil en cours Errata
Statistiques (v2) Mathieu Ribatet—[email protected] – 83 / 90
� Considerons le modele statistique ajuste suivant
p(X) =exp(β0 + β11{X=Homme})
1 + exp(β0 + β11{X=Homme}), β0 = −1(0.02), β1 = 2(1.5).
� Le test de Wald (que nous allons voir sous peu) nous donne alors
Tobs =2
1.5=
4
3, p-valeur ≈ 0.18,
et l’on n’est pas en mesure de rejeter H0 au profit de H1, i.e., on peutdire que β1 = 0.
� La variable sexe n’est pas statistiquement significative !
� On prendra bien garde de tirer des conclusions sur notre modele final etpas celui en cours d’ebauche !
Test d’hypothese : Objectif
Statistiques (v2) Mathieu Ribatet—[email protected] – 84 / 90
� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.
� Retenez bien le fait qu’il y aura toujours deux hypotheses.
Test d’hypothese : Objectif
Statistiques (v2) Mathieu Ribatet—[email protected] – 84 / 90
� Un test d’hypothese est une regle de decision permettant sur la base desobservations de decider en faveur d’une hyptohese A par rapport a unehypohtese concurrente B.
� Retenez bien le fait qu’il y aura toujours deux hypotheses.
Exemple 5 (Lancers de piece). On jette une piece 10 fois afin de savoir sicette derniere est equilibree ou non. Nous obtenons que des faces ! Qu’enpensez vous ?
Test d’hypothese : Formalisme mathematique
Statistiques (v2) Mathieu Ribatet—[email protected] – 85 / 90
� Tout test d’hypothese repose sur :
– Un niveau d’erreur α defini par α = PrH0(rejeter H0).
– 2 hypotheses : l’hypothese nulle H0 et l’hypothese alternative H1, e.g.,
H0 : la piece est equilibree H1 : la piece ne l’est pas
– Une “mesure de decision” appelee statistique de test T dont lecomportement sous H0 est connu.
– Une realisation de T notee Tobs obtenue a partir de nos observations– Une p-valeur comme regle de decision permettant d’opter ou non en
faveur de H0 ou H1.
Remarque. La plupart du temps, mais cela est specifique a chaque testd’hypothese, on aura
p-valeur = PrH0
(|T | > |Tobs|).
Vulgarisons
Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90
� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter
a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%
ou 10%.
Vulgarisons
Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90
� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter
a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%
ou 10%.� D’autre part on a p-valeur = PrH0
(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0
Vulgarisons
Statistiques (v2) Mathieu Ribatet—[email protected] – 86 / 90
� On a d’une part α = PrH0(rejeter H0), c’est donc la probabilite de rejeter
a tort l’hypothese nulle.� Lorsque l’on fait un test on fixe donc ce type d’erreur generalement a 5%
ou 10%.� D’autre part on a p-valeur = PrH0
(|T | > |Tobs|), c’est en quelque sorteune “mesure de la plausibilite” que ce que nous avons observe, i.e., Tobs,se soit realise sous H0
� En consequence si H0 n’est pas realiste alors la p–valeur sera tres faible.� Il faut donc un seuil a partir duquel on decide de rejeter H0, c’est α, i.e.,
On rejettera H0 au profit de H1 si p− valeur < α
On ne sera pas en mesure de rejeter H0 au profit de H1 si p− valeur > α.
Test de Wald
Statistiques (v2) Mathieu Ribatet—[email protected] – 87 / 90
� La j-eme covariable est elle vraiment utile dans mon super modele
p(X) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)?
� On peut le savoir a l’aide du test de Wald.
Test de Wald
Statistiques (v2) Mathieu Ribatet—[email protected] – 87 / 90
� La j-eme covariable est elle vraiment utile dans mon super modele
p(X) =exp(β0 + β1X1 + · · ·+ βpXp)
1 + exp(β0 + β1X1 + · · ·+ βpXp)?
� On peut le savoir a l’aide du test de Wald.� C’est un test statistique testant H0 : βj = 0 contre H1 : βj 6= 0.� La statistique de test est
T =βj
Std. error(βj).
� Sous H0 cette statistique de test T suit une loi normale centree reduitenous permettant de calculer la p-valeur.
Critere d’information : Akaike Information Criterion
Statistiques (v2) Mathieu Ribatet—[email protected] – 88 / 90
� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.
� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme
AIC = −2ℓ(β)︸ ︷︷ ︸
qualite d’ajustement
+ 2p︸︷︷︸
complexite
, p dimension de β.
Critere d’information : Akaike Information Criterion
Statistiques (v2) Mathieu Ribatet—[email protected] – 88 / 90
� Nous venons de voir que l’on part d’un modele puisqu’on le modifielegerement, i.e., ajout // suppression de covariables, afin d’obtenir unmeilleur modele.
� Cette etape s’appelle la selection de modeles.� Une maniere11 consiste a minimiser un critere d’information comme
AIC = −2ℓ(β)︸ ︷︷ ︸
qualite d’ajustement
+ 2p︸︷︷︸
complexite
, p dimension de β.
� En pratique parmi nos M modeles en competition, on choisira celui quiminimisera l’AIC. Des implementations automatiques existent pour cela !
11Il y en a beaucoup d’autres
Influence des covariables
Statistiques (v2) Mathieu Ribatet—[email protected] – 89 / 90
Definition 9. On appelle rapport de cotes (odds ratio en anglais) pour lacovariable xj la quantite
OR(j) =
p(x1,...,xj+1,...,xp)1−p(x1,...,xj+1,...,xp)
p(x1,...,xj ,...,xp)1−p(x1,...,xj ,...,xp)
� En regression logistique ces odds ratio sont tres utilises puisque l’on a
OR(j) =exp(β0 + · · ·+ βj(xj + 1) + · · ·+ βpxp)
exp(β0 + · · ·+ βjxj + · · ·+ βpxp)= exp(βj)
� exp(βj) quantifie l’influence de la j-eme variable sur cet odds ratio toutesles autres covariables restant fixees.