Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Classification supervisée
Gilbert SaportaConservatoire National des Arts et Métiers, [email protected]://cedric.cnam.fr/~saporta
Diablerets, Mars 2007 2
Plan
1. Introduction2. Méthodes linéaires de discrimination3. Prédicteurs qualitatifs4. Support vector machines5. Théorie de l’apprentissage et choix de modèles6. Données fonctionnelles7. Conclusion
Diablerets, Mars 2007 3
1.Introduction
Problème:Prédire une réponse Y à 2 catégories (en général)X1,…,Xp prédicteurs
Terminologie variée: classification supervised learning discriminationpattern recognition
Diablerets, Mars 2007 4
« Statistics is the science of learning from data » (J.Kettenring, 1997, ancien président de l ’ASA).
« There are two problems in modern science:Too many people use different terminology to solve the same problemEven more people use the same terminology to address completely different issues »
(V.Cherkassky, F.Mulier, 1998)
Diablerets, Mars 2007 5
Quelques dates :
P.C. Mahalanobis 1927H. Hotelling 1931R. A. Fisher 1936J.Berkson 1944C.R.Rao 1950T.W.Anderson 1951D.Cox 1960D.Mc Fadden 1973V.Vapnik 1998
Diablerets, Mars 2007 6
2. Méthodes linéaires
2.1 Analyse discriminante et fonction de Fisher2.2 Régression logistique2.3 Comparaison2.4 L’hyperplan de marge maximale
Diablerets, Mars 2007 7
2.1 Analyse discriminante analysis2.1.1 Analyse factorielle discriminante
Dispersion intergroupe et dispersion intra groupe.
W = matrice variance intraW = 1/n Σni Vi
B = matrice variance interB = 1/n Σni (gi - g) (gi - g)’
V = W + B variance totale
V1
g1
V2
g2
Vk
gk
Diablerets, Mars 2007 8
Axes discriminants : deux objectifs
Dispersion intraclasse minimale : min u’Wu
Dispersion interclasse maximale : maxu’Bu
u
g2
gkg1
Diablerets, Mars 2007 9
Simultanéité impossible
Compromis :
-1 -1
min max max
V W Bu V u u W u u B u
u B u u B uouu V u u W u
V Bu u W Bu uλ μ
= +′ ′ ′= +
′ ′⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟′ ′⎝ ⎠ ⎝ ⎠
= =
min ' min imax ' max
u Wu Wu uu Bu Bu u i
α αβ β
⇒ =⇒ =
Diablerets, Mars 2007 10
ACP du nuage des gi avec :Métrique V-1
Métrique W-1 Mahalanobis
( )
1
-1
a) Bu u Bu u Bu (W B)u 1- Bu Wu
b) W Bu u u1-
VV
λλλ
λ λλ μλ
− === +
=
= =
Diablerets, Mars 2007 11
Nombre d’axes discriminants
ACP des groupes : dimension de l’espace contenant les groupes gi
Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher
K = 3 Setosa, Versicolor, VirginicaP=4 longueur pétale, longueur sépale, largeur pétale, largeur sépalen1=n2=n3 =50
Donc deux axes
Diablerets, Mars 2007 12
Iris setosa Iris versicolor Iris virginica
Diablerets, Mars 2007 13
Diablerets, Mars 2007 14
Cas de deux groupes
g1 et g2 sont sur une une droite : 1 seul axe discriminant
RAPPEL : en ACP axe a, facteur u = M a
Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)
e
ad e a
e Ma e uM= < >
= ′ = ′
,
a g g= − α ( )1 2
Diablerets, Mars 2007 15
Fonction de Fisher (1936)
Le « meilleur » prédicteur linéaire au sens de la maximisation du T de StudentScore de Fisher:
1 11 2
1 11 2
1 2
( )p p
x x
x x
− −
⎛ ⎞−⎜ ⎟
= − = ⎜ ⎟⎜ ⎟−⎝ ⎠
β W g g W
1 11 2 1 2 1 2
1 1 0
1( ) ( ) ' ( ) ' ( )2
... p p
S
β β β
− −= − − − +
= + + +
x g g W x g g W g g
x x
Diablerets, Mars 2007 16
2.1.3 Une régression « incorrecte »
y à 2 valeurs (-1;+1) ou (0;1) ou (a;b)a=n/n1 b=-n/n2
Dp distance de Mahalanobis entre groupesIncompréhensions et controverses!
11 2
22
21 2
( )
( 2)1p
n n RDn n R
−= −
−=
−
β V g g
Diablerets, Mars 2007 17
MAIS : Modèle linéaire usuel non valide :
en discriminante c’est l’inverse que l’on suppose :
( )/ ~ ; ix y N μ ∑
( )2/ ~ ; y x N x Iβ σ
Diablerets, Mars 2007 18
Conséquences
Pas de test,pas d’erreurs standard sur les coefficientsMAIS possibilité d’utiliser les méthodes de pas à pas en régression.
Diablerets, Mars 2007 19
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 9122 1 DECES 90 1.68 18.7 24 31.0 14.0 14763 1 DECES 120 1.40 11.7 23 29.0 8.0 16574 2 SURVIE 82 1.79 21.8 14 17.5 10.0 7825 1 DECES 80 1.58 19.7 21 28.0 18.5 14186 1 DECES 80 1.13 14.1 18 23.5 9.0 16647 2 SURVIE 94 2.04 21.7 23 27.0 10.0 10598 2 SURVIE 80 1.19 14.9 16 21.0 16.5 14129 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759
10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 80711 2 SURVIE 90 2.79 31.0 16 25.0 8.0 71712 2 SURVIE 86 2.70 31.4 15 23.0 9.5 68113 2 SURVIE 80 2.61 32.6 8 15.0 1.0 46014 2 SURVIE 61 2.84 47.3 11 17.0 12.0 47915 2 SURVIE 99 3.12 31.8 15 20.0 11.0 51316 2 SURVIE 92 2.47 26.8 12 19.0 11.0 61517 2 SURVIE 96 1.88 19.6 12 19.0 3.0 80918 2 SURVIE 86 1.70 19.8 10 14.0 10.5 65919 2 SURVIE 125 3.37 26.9 18 28.0 6.0 66520 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796
Diablerets, Mars 2007 20
FONCTION LINEAIRE DISCRIMINANTE
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROB........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20).............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.005 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.316 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.178 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.84
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.695.............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000.............................................................................................
SPAD
Diablerets, Mars 2007 21
2.1.3 Méthodes géométriques de classement
Échantillon d’apprentissage
e observation de groupe inconnu
e classé dans le groupe i tel que: d(e ; gi) minimal
e?
y x x p' . . .
.
.
.
112
1
g1
g2
g3
G1
G2
G3
e
Diablerets, Mars 2007 22
Pour deux groupes
On classe e en G1 si:
Fonction de Fisher >cScore de Fisher positif
2 21 2
2 1 1 ' 1 ' 1
' 1 ' 1 ' 1 ' 11 1 1 2 2 2
1 ' 1 ' 111 2 1 1 2 22
( ; ) ( ; )
( ; ) ( ) ' ( ) ' 2
2 2
( ) ' ( )
i i i i i i
d e g d e g
d e g e g W e g e W e gW e gW g
g W e g W g g W e g W g
g g W e g W g g W g
− − − −
− − − −
− − −
<
= − − = − +
− > −
− > −
Diablerets, Mars 2007 23
pour deux groupes
On classe dans G1 si:
Fonction de Fisher >cScore de Fisher:
' 1 ' 1 ' 1 ' 11 1 1 2 2 2
1 ' 1 ' 111 2 1 1 2 22
2 2
( ) ' ( )
g W e g W g g W e g W g
g g W e g W g g W g
− − − −
− − −
− > −
− > −
1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g− − −− − −
Diablerets, Mars 2007 24
Interprétation géométriqueProjection sur la droite des centres avec la métrique W-1
Dualité axe-frontière planefrontière
axe discriminant
Analyse discriminante probabiliste.
pj probabilité a priori d’appartenir au groupe j fj (x) loi des xi dans le groupe j
1
( )Formule de Bayes : ( / )
( )
j jj k
j jj
p fP G
p f=
=
∑
xx
x
Problème : estimer les fj (x)
Diablerets, Mars 2007 26
La règle bayésiennenaïve dans le cadre normal
( ) ( )( )
( )( ) ( )
( )
( ) ( )
j
11/2/2
j j
1j j
x densité d'une N ;
1 1 exp -22
max p f x attribuer x au groupe le plus probable a posteriori
1 1max Ln p 2 2
j j
j j j jpj
j j j
f
f x x x
x x Ln
μ
μ μπ
μ μ
−
−
⎛ ⎞′= − −⎜ ⎟⎝ ⎠
⇒
⎡ ′− − − −
∑
∑∑
∑ ∑ règle quadratique
⎤⎢ ⎥⎣ ⎦
Diablerets, Mars 2007 27
La règle bayésienne
1 2
1 1 1j
1j
simplificatrice : ... =On attribue x au groupe j tel que :
1 1max Ln p 2 2
1 : max Ln p2
j j j
j j
j
indépendantdu groupe
a
Hypothèse
x x x
donc
μ μ μ
μ μ
− −
−
∑ = ∑ ∑
⎡ ⎤⎢ ⎥⎢ ⎥′ ′ ′− ∑ − ∑ + ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
′− ∑ 1
j j
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation de par g et de par W.
jx μ
μ
−
⎡ ⎤⎢ ⎥
′+ ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
∑
Diablerets, Mars 2007 28
Analyse discriminante probabiliste:cas de deux groupes
( ) ( )
( )( )
( ) ( )
( ) ( ) ( ) ( )
1 1 2 2
-11/2 /2
-1 -1 -1 -11 21 1 2 2 2
1
-1 12 11 2 1 2 1 2
fonction de Fisher
1 exp 1/2 ' 2
1/2 p 1/2 p
' p / 1/2 '
i p i i
p f x p f x
f x x x
x Log x Log
x Log p
μ μπ
μ μ μ μ μμ
μ μ μ μ μ μ−
>
= − − ∑ −∑
′ ′ ′∑ − ∑ + > ∑ − ∑ +′
− ∑ > + − ∑ +
Affecter au groupe 1 si :
Diablerets, Mars 2007 29
Fonction de score et probabilité
Fonction de score S(x) :
Règle :affecter au groupe 1 si S(x)>0
Probabilité d’appartenance au groupe 1 :
( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )1
11
1 2
2 1
11 1
1 11 1 2 2
1 11 1 2 2
1/2
1/2 1/2
1/2 1/2
G /
/
P
1/ 1
x x
x x x x
x x x x
p exp e p e
p p ep
μ μ
μ μ μ μ
μ μ μ μ
′
′ ′
′
−
− −
− −
− − ∑ −
− − ∑ − − − ∑ −
− − ∑ − + − ∑ −
+
=
= +
1 121 2 1 2 1 2
1
1( ) ( ) ' ln( ) ( ) ' ( )2
pS x xp
μ μ μ μ μ μ− −= − Σ − − − Σ +
Diablerets, Mars 2007 30
Probabilité a posteriori
( ) ( ) ( )
( )
( )
( )
-S x 1/p-1 1/p=1+e
1 Fonction logistique du score1 1
S x
S x S x
Log S x
epe e−
= −
= =+ +
Diablerets, Mars 2007 31
S(x)
2
1
1( ( ) 0) ln2
p
p
pP S x P Up
⎛ ⎞Δ ⎛ ⎞> = > +⎜ ⎟⎜ ⎟⎜ ⎟Δ ⎝ ⎠⎝ ⎠
• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0
Diablerets, Mars 2007 32
Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876
Proc discrimSAS
Diablerets, Mars 2007 33
ADL optimale (règle de Bayes) pour des prédicteurs gaussiens de même matrices decovariance
Mais peut être appliqué même si ces hypothèses ne sont pas vérifiées.
Diablerets, Mars 2007 34
2.2 Régression logistique
Berkson (1944), Cox (1958): medical statistics, epidemiologyLater in econometrics with Nobel prize McFadden (1973)Risk factors, not individual prediction
0 1 1
0 1 1
...
...( ) ( 1 / )1
p p
p p
eP Ye
β β β
β β βπ+ + +
+ + += = = =+
x x
x xx X x
0 1 1 ... p pscore x xβ β β= + + +
Diablerets, Mars 2007 35
Exemple : Age and Coronary Heart Disease Status (CHD) (Hosmer &Lemeshow; M.Tenenhaus)
Data
ID AGRP AGE CHD12345
979899100
11111
8888
2023242525
64646569
00001
0111
Diablerets, Mars 2007 36
Avec mise en classes
Age Group nCHDabsent
CHDpresent
Mean(Proportion)
20 – 2930 – 3435 – 3940 – 4445 – 4950 –5455 - 5960 - 69
101512151381710
9139107342
123565138
0.100.130.250.330.460.630.760.80
Total 100 57 43 0.43
Relative frequencies
AGEGRP
87654321
Pro
porti
on (C
HD
)
1.0
.8
.6
.4
.2
0.0
Diablerets, Mars 2007 37
Le modèle logistique simple
x
x
10
10
e1e)x( β+β
β+β
+=π
x))x(1
)x((Log 10 β+β=π−
π
ou
Probabilité d'une maladie cardiaque
en fonction de l'age
AGE
70605040302010
Pro
b(Y
=1 /
X)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
Diablerets, Mars 2007 38
Il s’agit bien d’un probléme de régression:Modélisation de l’espérance conditionnelle
E(Y/X=x)=f(x)
Choix de la forme logistique en épidémiologie:
S’ajuste bienInterprétation de β1 en termes d’odds-ratio
Diablerets, Mars 2007 39
Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé X=0)
0 1 0
0 1 01 / 1 ( 1/ 0)( )
1 1Y X P Y XP
e ee e
β β β
β β β
+
+= = = == =+ +
1( 1/ 1) / ( 0/ 1)( 1/ 0) / ( 0/ 0)
P Y X P Y XOR eP Y X P Y X
β= = = == =
= = = =
Diablerets, Mars 2007 40
Odds-RatioMesure l’évolution du rapport des
chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.Formule générale:
1( 1) /(1 ( 1))
( ) /(1 ( ))x xOR e
x xβπ π
π π+ − +
= =−
Diablerets, Mars 2007 41
Interprétation économètrique
Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.Z est l’« intensité du désir » de posséder le bien Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0
Diablerets, Mars 2007 42
Modèle d’utilité
pour le ménage i de caractéristiques xi (âge, sexe, revenu, CSP...), la possession du bien procure un niveau d’utilité U(1,xi), la non possession U(0,xi).
Yi = 1 ⇔ U(1,xi) > U(0,xi)Yi = 0 ⇔ U(0,xi) > U(1,xi)
Variable latente Zi = U(1,xi) – U(0,xi).
Diablerets, Mars 2007 43
Modèle d’utilité (suite)
Zi = xi β + εi
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi β> -εi) = F(xiβ) F fonction de répartition de -εi
Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit
Diablerets, Mars 2007 44
Estimation des paramètres
Les données
X Y x1
xi
xn
y1
yi
yn
yi = 1 si caractère présent,0 sinon
i10
i10
x
xii
e1e
)xX/1Y(P)x(
β+β
β+β
+=
===π
Le modèle
Diablerets, Mars 2007 45
Vraisemblance (conditionnelle!)
Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]
∏=
===n
1iii )xX/yY(Prob ∏
=
−π−π=n
1i
y1i
yi
ii ))x(1()x(
),(L 10 ββ=∏=
−β+β
β+β
β+β
β+β
+−
+=
n
1i
y1x
xy
x
xi
i10
i10i
i10
i10
)e1
e1()e1
e(
Diablerets, Mars 2007 46
maximum de vraisemblancemaximisent
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procédures numériques: pas d’expression analytique
10ˆet ˆ ββ 0 1( , ) (β)L Lβ β =
[ ]1
( ) log ( ) log ( ) (1 )log(1 ( ))n
i i i ii
L y x y xβ π π=
= = + − −∑β
10
11
( ) ( ( )) 0
( ) ( ( )) 0
n
i ii
n
i i ii
y x
x y x
β πββ πβ
=
=
∂⎧= − =⎪ ∂⎪
⎨∂⎪ = − =⎪ ∂⎩
∑
∑
Diablerets, Mars 2007 47
Précision (asymptotique) des estimateurs
La matrice
est estimée par la matrice
⎥⎦
⎤⎢⎣
⎡
ββββββ
=β)ˆ(V)ˆ,ˆ(Cov
)ˆ,ˆ(Cov)ˆ(V)ˆ(V110
100
1
ˆ2
2 )(L Log−
β=β⎥⎦
⎤⎢⎣
⎡
β∂β∂
−
Diablerets, Mars 2007 48
12
2ˆ
1
1 1
2
1 1
1 1 1 1
( )ˆ( )
ˆ ˆ ˆ ˆ (1 ) (1 )
ˆ ˆ ˆ ˆ(1 ) (1 )
ˆ ˆ1 (1 ) 0 1
ˆ ˆ1 0 (1 ) 1
n n
i i i i ii in n
i i i i i ii i
n n n n
V
x
x x
x x
x x
β β
βββ
π π π π
π π π π
π π
π π
−
=
−
= =
= =
⎡ ⎤−∂= ⎢ ⎥∂⎣ ⎦
⎡ ⎤− −⎢ ⎥⎢ ⎥=⎢ ⎥
− −⎢ ⎥⎣ ⎦
′ −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦
∑ ∑
∑ ∑1
1 ( ) .
−
−
⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
′= X VX
Diablerets, Mars 2007 49
Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . . AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117
5,3095 0,1109
5,3095 0,1109( )1
x
x
exe
π− +
− +=+
Diablerets, Mars 2007 50
Régression logistique multiple
Généralisation à p variables explicatives X1,…, Xp.
0 1 1
0 1 1
...
...( ) ( 1/ )1
p p
p p
x x
x xex P Y X x
e
β β β
β β βπ+ + +
+ + += = = =+
Diablerets, Mars 2007 51
Tests sur les paramètres
Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :
1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score
H0 : βj = 0H1 : βj ≠ 0
Diablerets, Mars 2007 52
Test de Wald
analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :
représente l’estimation de l’écart-type de l’estimateur de β1.Sous l’hypothèse H0, w2 suit approximativement une loi du khi-deux à un degré de liberté .
Rejet de H0 si w2
1
1
ˆˆˆ( )
wsββ
=
1ˆ( )s β
)1(21 α−χ≥
Diablerets, Mars 2007 53
Test du rapport des vraisemblances
L’apport de la variable X est mesuré à l’aide de la statistique :
G = -2 log [ ]
sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.Vraisemblance sans la variable:
Vraisemblance sans la variableVraisemblance avec la variable
01
01nn nn
n n⎛ ⎞⎛ ⎞
⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
Diablerets, Mars 2007 54
Test du score
U vecteur des dérivées partielles de la log-vraisemblance estiméesLe score suit également asymptotiquementsous H0 une loi du khi-deux à un degré de libertéEn régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X
00 0
1
ˆ ˆˆ( ) ( ) ( )
H HHscore U J U
β ββ β β
−⎡ ⎤′= ⎣ ⎦
Diablerets, Mars 2007 55
Comparaison des 3 tests
Diablerets, Mars 2007 56
Tests
Tests d’absence d’effet de toutes les variables: H0 : β1 = …… = βp = 0
Rapport de vraisemblance GScore test USous H0, suivent tous deux asymptotiquement une loi du χ2 à p ddl
Diablerets, Mars 2007 57
2.3 Comparaison logistique-discriminante
Avantages proclamés de la logistique:Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)
Diablerets, Mars 2007 58
Mais:Erreurs standard asymptotiques , bootstrapen ADNon convergence en cas de séparation parfaite. Fisher existe toujours
Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standardL’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)
Diablerets, Mars 2007 59
Querelle largement idéologique (modélisation versus analyse des données)
L’AD est aussi un modèle, mais sur les lois des X/Y, la logistique sur les lois de Y/X
En pratique différences peu nettes: fonctions de score souvent très proches
« It is generally felt that logistic regression is a safer, more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)
Diablerets, Mars 2007 60
Variable N Mean Std Dev Sum Minimum Maximum
scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074
scorfish scorlog
scorfish 1.00000 0.99881
scorlog 0.99881 1.00000
Diablerets, Mars 2007 61
Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque)
Logistique aussi utilisée en scoringSi l’objectif est de classer:
On ne fait plus de la science mais de l’aide à la décisionMieux vaut essayer les deux méthodes. Mais comment les comparer?Le vrai critère de choix est la performance en généralisation
Diablerets, Mars 2007 62
Remarque: probabilités a posteriori et stratification
Estimer les probas a posteriori nécessite de connaître les vraies probas a prioriModifier les a priori change seulement la constante β0 en discriminante comme en logistique:
Important pour les probabilités, pas pour un score
Diablerets, Mars 2007 63
2.4 Autres méthodes issues de la régression linéaire
En cas de multicolinéarité.
2.4.1 Régression ridge
k optimisé par validation croisée (KXEN)
1ˆ ( ' ) 'k −= +β X X I X y2 2 2min with d− <y Xβ β
Diablerets, Mars 2007 64
2.4.2 Analyse discriminante PLS
Des composantes expliquant à la fois Y et les XCritère de Tucker:
Composantes suivantes sur les résidus. Arrêt par validation croisée.Suite de régressions simples (ni inversion, ni diagonalisation)
2max ( cov( ; ))y Xw2 2(cov( ; )) ( ; ). ( ). ( )r V V=y Xw y Xw Xw y
Diablerets, Mars 2007 65
2.5 L’hyperplan de marge maximale
Solution de Vapnik
Frontière avec « no man’s land » maximal
Diablerets, Mars 2007 66
Un peu de géometrieEquation d’un hyperplan:
Coefficients définis à un facteur près:b=1 ou
Distance à l’hyperplan:
( ) 0f b b= + = + =x w'x x'w
bd
+=
w'xw
1=w
Diablerets, Mars 2007 67
Hyperplan optimal
Maximise la « marge » ou rayon du corridor: distance du point le plus proche à l’hyperplan
Diablerets, Mars 2007 68
Cas séparableMarge C: tous les points sont à une distance > C
'
'
'
max sous ( ) et 1
contrainte équivalente: ( )1ou car et définis à l'échell
min
e
sous ( )
p ès
1
r
i i
i
i i
i
C y x w b C w
y x w b C w
w y x w b
w w bC
+ ≥ =
+
+ ≥
≥
=
Diablerets, Mars 2007 69
Programme quadratique
Lagrangien:
D’où:
Dual de Wolfe
2 '2 ( ) 1i i iw y x w bα ⎡ ⎤− + −⎣ ⎦∑
1 1 et 0
n n
i i i i ii i
w y x yα α= =
= =∑ ∑
'
1
1max 2
avec 0 et 0
i i k i k i k
n
i i ii
y y x x
y
α αα
α α=
⎡ ⎤−⎢ ⎥⎣ ⎦
> =
∑ ∑∑
∑
Diablerets, Mars 2007 70
Conditions de Kühn et Tucker:
w, donc l’hyperplan, ne dépend que des points supports où les αi sont non nuls.
'i
'i
'i
(x w ) 1 0
0 alors (x w ) 1
(x w ) 1 alors 0
i i
i i
i i
y b
Si y b
Si y b
α
α
α
⎡ ⎤+ − =⎣ ⎦> + =
+ > =
Diablerets, Mars 2007 71
Solution
0
'
0 0
( )
i
i i
n
i i i
n n
i i i i i i
y
f b y b y b
α
α α
α
α α
>
> >
=
= + = + = +
∑
∑ ∑i
w x
x w x x x x x
Diablerets, Mars 2007 72
L’hyperplan optimal ne dépend que des points proches (différe de Fisher)
Plus la marge est grande, meilleure est la robustesse en principe.Mais pas toujours :
Diablerets, Mars 2007 73
Le cas non séparable
Deux solutions:• modifier le critère• changer d’espace pour rendre le problème linéairement séparable: •Une combinaison des deux: SVM
Diablerets, Mars 2007 74
Variables d’écart
On borne la proportion de points tombant du mauvais côté.La solution ne dépend que des points supports où :
'imin w sous (x w ) 1
et i i
i
y b ξ
ξ γ
+ ≥ −
<∑
'i(x w ) 1i iy b ξ+ > −
Diablerets, Mars 2007 75
Formulation équivalente:
C contrôle le trade-off entre la marge et l’erreur.0<αi<γ
'i
2min w av (xc w ) 1e ii iC y b ξξ⎡ ⎤+⎣ ⎦ + ≥ −∑
Diablerets, Mars 2007 76
Classifieur ou fonction de score
f(x) ne dépend que des points supportsest une combinaison linéaire des variablesRègle de décision selon le signe de f(x)
'
0 ( ) '
i
i i if b y bα
α>
= + = +∑x w x x x
Diablerets, Mars 2007 77
3. Prédicteurs qualitatifs
Fréquent en crédit à la consommation, mais pas dans les publications..
ProfessionEmploiStatut matrimonial...
Diablerets, Mars 2007 78
3.1 ADL pour prédicteurs qualitatifs: un peu de (pré)histoire
Fisher (1940) Un seul prédicteurEquations de l’analyse des correspondancesIntroduction du vocable « Scores »
Diablerets, Mars 2007 79
Diablerets, Mars 2007 80
Diablerets, Mars 2007 81
3.2 Cas général : p prédicteursQuantification optimale:
Attribuer des notes partielles aux catégories des prédicteurs pour maximiser la distance de Mahalanobis dans Rp
Une analyse discriminante où les variables qualitatives sont remplacées par les indicatrices des modalités
0 1 0 1 01 0 0 0 10 0 1 1 0
⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
=X
Diablerets, Mars 2007 82
X de rang insuffisant: rank(X)=Σmi-pSolution classique: éliminer une indicatrice par prédicteur (note nulle)Disqual (Saporta, 1975):
ADL sur une sélection de composantes de l’Analyse des Correspondances Multiples de X. Semblable à la régression sur composantes principales Sélection experte selon deux critères: inertie et corrélation avec la réponse
Diablerets, Mars 2007 83
Exemple assurance (jeu d’essai SPAD)
1106 contrats automobile belges :2 groupes: « 1 bons », « 2 mauvais »
9 prédicteurs: 20 catégoriesUsage (2), sexe(3), langue (2), âge (3), région (2), bonus-malus (2), puissance (2), ancienneté (2), âge du véhicule (2)
Diablerets, Mars 2007 84
ACM
Diablerets, Mars 2007 85
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS ..............................................................................1 F 1 0.719 6.90642 F 2 0.055 0.7149 3 F 3 -0.078 -0.82114 F 4 -0.030 -0.46155 F 5 0.083 1.25816 F 6 0.064 1.02747 F 7 -0.001 0.21698 F 8 0.090 1.31339 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
Diablerets, Mars 2007 86
3.3 scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil
Diablerets, Mars 2007 87
+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+
Grille de score
Diablerets, Mars 2007 88
3.4 Discriminante PLS et discrimination barycentrique
Première composante PLS : p régressions simples séparées sur chaque prédicteur (variables indicatrices)Chaque régression PLS de Y sur les indicatrices de Xj est identique à la régression usuelle (Y standardisé, pas X, pas de terme
constant)
Diablerets, Mars 2007 89
Une composante PLS: équivalent à l’AFC du tableau de contingence concaténé
good bad 1 cusag1 29 96 2 cusag2 344 272 3 sexe1 288 253 4 sexe2 76 78 5 sexe3 9 37 6 clang1 250 295 7 clang2 123 73 8 age3m1 118 99 9 age3m2 40 163 10 age3m3 215 106 11 cpost2m1 75 172 12 cpost2m2 298 196 13 bm2m_11 298 59 14 bm2m_12 75 309 15 puis2m1 91 47 16 puis2m2 282 321 17 dpoli2m1 277 137 18 dpoli2m2 96 231
Diablerets, Mars 2007 90
Technique dite “discrimination barycentrique”:
• Score d’un individu: somme des p probabilités conditionnelles d’appartenance au groupe 2.
• Semblable au classifieur “naïf Bayes” : score multiplicatif.
• Equivalent à Disqual si les prédicteurs sont indépendants deux à deux
Diablerets, Mars 2007 91
Catégorisation de prédicteurs numériques
Ex: classes d’âge au lieu de l’âgeUne perte de précision?Traitement des non-linéarités
Utile pour les outliers: robustesseTraitement des valeurs manquantes
1
( )p
j jj
S Xϕ=
= ∑ ϕj fonctions en escalier
Diablerets, Mars 2007 92
Prétraitement
Sélection de variables, discrétisation, détection des interactions Xj*Xk: consommatrices de tempsDe nouveaux outils :
K2C, Khiops, Datalab..
Diablerets, Mars 2007 93
Credit scoring is the set of decision models and their underlying techniques that aid lenders in the granting of consumer credit.
Credit scoring is one the most successful applications of statistical modeling in finance and banking. Yet because credit scoring does not have the same glamour as the pricing of exotic financial derivatives or portfolio analysis, the literature on the subject is very limited.
Thomas & al. 2002
3.5 credit scoring
Diablerets, Mars 2007 94
Le comité de Bâle sur la supervision bancaire
Créé en 1974 par le G10 Banque des Règlements Internationaux (BIS)
Réduire la vulnérabilité par la mise en place d’un ratio prudentiel attestant d’un niveau minimal de fonds propres.
Accords Bâle II
Diablerets, Mars 2007 95
Bâle 2Une « révolution quantitative » (A.L.Rémy Crédit Agricole)
« banks are expected to provide an estimate of the PD and LGD »
PD (probability de défaut)LGD (perte en cas de défaut)EAD (exposition en cas de défaut)
Calcul du capital nécessaire au niveau de confiance 99.9% à un an
Diablerets, Mars 2007 96
Impact énorme sur les études statistiques. Exigence de justification statistique et de backtesting imposé par le régulateur (Commission Bancaire)Recrutements massifs
Le « New Basel Capital Accord » régulera les prêts bancaires à partir de 2007
Diablerets, Mars 2007 97
4. Les SVM non-linéaires
Passage dans un espace de données transformées (« feature space ») de grande dimensionUn séparateur linéaire dans Φ(E) donne un séparateur non-linéaire dans E.
Diablerets, Mars 2007 98
Diablerets, Mars 2007 99
Diablerets, Mars 2007 100
Solution
i k1max Φ(x ) Φ(x )2
0 et 0
i i k i k
i i i
y y
C y
α αα
α α
⎧ ⎡ ⎤−⎪ ⎢ ⎥⎣ ⎦⎨⎪ < < =⎩
∑ ∑∑∑
Ne dépend que des produits scalaires
0 ( )
i
n
i if y bα
α>
= +∑ ix Φ(x ) Φ(x)
Diablerets, Mars 2007 101
Espaces de Hilbert à noyaux reproduisants
Noyaux K(x,x’)=Φ(x) Φ(x’)Le « kernel trick »:choisir astucieusement K pour faire les calculs uniquement dans l’espace de départ.Exemple:Dans l’espace d’arrivée:
2 21 2 1 1 2 2x ( ; ) (x) ( ; 2 ; )x x x x x x= Φ =
2 '2 ' ' 2 '21 1 1 2 1 2 2 2
' ' 2 21 1 2 2
(x) (x ') 2
( ) (xx ')
x x x x x x x x
x x x x
Φ Φ = + +
= + =
Diablerets, Mars 2007 102
On peut donc calculer le produit scalaire dans Φ(E) sans utiliser Φ
Conditions de Mercer pour avoir un noyau:k(xi;xj) terme général d’une matrice sdp
supports
Solution (x) ( ; )i i ii
f y K x x bα∈
= +∑
Diablerets, Mars 2007 103
Exemples de noyaux
Linéaire K(x;x’)=<x;x’>Polynomial:
K(x;x’)=(<x;x’>)d ou (<x;x’> +1)d
Gaussien (radial basis) K(x;x’)=exp-(||x-x’||2)/σ2)
Diablerets, Mars 2007 104Joachims
Diablerets, Mars 2007 105
Diablerets, Mars 2007 106
Hastie, Tibshirani, Friedman : « The Elements of Statistical Learning », Springer-Verlag, 2001
Diablerets, Mars 2007 107
Approches voisines
LS-SVM, GDA (Baudat, Anouar) : fonction de Fisher dans le feature space
Diablerets, Mars 2007 108
5. La théorie de l’apprentissage statistique
Norbert Wiener 1948
Frank Rosenblatt 1962
Vladimir Vapnik 1982
Image courtesy of the Research Laboratory of Electronics at MIT.
Diablerets, Mars 2007 109
Le problème de la boîte noire et l’apprentissage supervisé
Etant donnée une entrée x, un système non déterministe renvoie une variable y = f(x)+e. On dispose de n paires (xi,yi) et on cherche une fonction qui approxime la fonction inconnue f.Deux conceptions:
Une bonne approximation est une fonction proche de fUne bonne approximation est une fonction qui donne un taux d’erreur voisin de celui de la boîte noire
Diablerets, Mars 2007 110
Le perceptron: la première « machine à apprendre »
Rosenblatt (1958)
Diablerets, Mars 2007 111
Equation de l’hyperplan séparateur
(x) w'x 0f b= + =
Diablerets, Mars 2007 112
Minimiser la somme des distances au plan des observations mal classéesSolution initiale, lecture séquentielle des donnéesOn modifie les coefficients dès qu’un mal-classése présente:
mal classés
mal classés mal classés
min ( ( ' ))
gradient w b
i i
i i i
y w x b
y x y
− +
∂ ∂= − = −
∂ ∂
∑
∑ ∑
1
i i
in n
y xw wyb b
ρ−
⎛ ⎞⎛ ⎞ ⎛ ⎞+ →⎜ ⎟⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠⎝ ⎠
Diablerets, Mars 2007 113
Gradient stochastique (obs. par obs.)ρ coefficient d’apprentissage
Solutions multiples dans le cas séparable selon l’initialisationNon convergence dans le cas non séparable
Diablerets, Mars 2007 114
5.1 Risque empirique et généralisation
Fonction de perte L(y;f(x,w))Régression L(y;f(x,w))=(y-f(x))2
Discrimination : taux (ou coût) d’erreur de classement
y et à valeurs dans {-1 ;+1}Risque (erreur de généralisation sur de nouvelles données z = (X, y) )
( ) ( , ) ( )R E L L z w dP z= = ∫
( )21 1ˆ ˆ ˆ( ; )2 2
L y y y y y y= − = −
y
Diablerets, Mars 2007 115
Objectif impossible: minimiser sur w le Risque
P(z) probabilité inconnue
On dispose seulement de n cas d’apprentissage (z1, .. , zn) tirés suivant la loi P(z), au lieu de minimiser R, on minimise le Risque Empirique :
1
1 ( ; ( ; ))n
emp i ii
R L y f x wn =
= ∑
Diablerets, Mars 2007 116
Problème central en théorie de l’apprentissage:Quelle est la relation entre le Risque R et le risque empirique Remp ?
Quelle est la capacité de généralisationde ce genre de modèle?
Diablerets, Mars 2007 117
Le dilemme biais-variance
Modèle y=f(x )+ε, f estimé sur données d’apprentissageErreur de prédiction
Doublement aléatoire
Erreur quadratique moyenne de prédiction (risque R)
0 0 0 0ˆˆ ( ) ( )y y f x f xε− = + −
( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0
ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +
biais
variance
Diablerets, Mars 2007 118
• premier terme: aléa irréductible• deuxième terme: carré du biais du modèle • troisième terme: variance de la prédiction
Plus un modèle sera complexe plus le biais sera faible, mais au détriment de la variance
( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0
ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +
Diablerets, Mars 2007 119
La robustesse: une exigence insuffisante:
Modèle robuste: erreurs en apprentissage et en généralisation du même ordre de grandeur
x
Y
surajustement
x
Y
Modèle robuste
Diablerets, Mars 2007 120
Compromisx
Y
Trop robuste…
Diablerets, Mars 2007 121
La consistence
Un processus d’apprentissage estconsistent si l’erreur sur l’ensemble d’apprentissage converge vers l’erreur en généralisation lorsque la taille de l’ensemble d’apprentissage augmente
Diablerets, Mars 2007 122
%erreur
Taille ens. d’apprentissage
Erreur en généralisation
Erreur d’apprentissage
Apprentissage consistent
Diablerets, Mars 2007 123
Taille ens. d’apprentissag
%erreurErreur en généralisation
Erreur d’apprentissage
Apprentissage non consistent
Diablerets, Mars 2007 124
Les quatre piliers de la théorie de l’apprentissage
1 Consistence (garantit la généralisation)Sous quelles conditions un modèle peut-ilgénéraliser?
2 Vitesse de convergence en fonction du nombre d’exemples (mesure de la généralisation)
Comment s’améliore la généralisation lorsque le nombre d’exemples augmente ?
Diablerets, Mars 2007 125
Quatre piliers de la théoriede l’apprentissage
3 Contrôle de la capacité de généralisationComment contrôler efficacement la généralisation à partir de l’information contenue dans un ensemble d’apprentissage de taille finie ?
4 Construire des algorithmes d’apprentissageExiste-t-il une stratégie pour construire des algorithmes qui garantissent, mesurent et contrôlent la capacité de généralisation de modèles d’apprentissage ?
Diablerets, Mars 2007 126
5.2 La VC dimension
Dimension de Vapnik-Cervonenkis: une mesure du pouvoir séparateur(complexité) d’une famille de fonctionsVC dimension : un nombre entier attaché à une famille F de fonctions (classifieurs) paramétrée par w
f (X,w) ≥ 0 : X classé en 1f (X,w) < 0 : X classé en -1
( , ) : pf X w →
Diablerets, Mars 2007 127
VC dimension suiteéchantillon de n points (x1, .. , xn) de Rp
Il existe 2n manières différentes de séparer cet échantillon en deux sous-échantillons (colorier les points) Un ensemble F de fonctions f(X,w)“hache” (shatters) l’échantillon si les 2n
séparations peuvent être faites par des f(X,w) différentes de la famille F
Diablerets, Mars 2007 128
Aucune ligne droite ne peut séparer les points noirs des points roses
Exemple
En 2-D, les fonctions linéaires (droites) peuvent “hacher” 3 points, mais pas 4
Diablerets, Mars 2007 129
Un ensemble de fonctions de Rp -> Ra la VC-dimension h si :
Il existe un jeu de h points de Rp qui peut être “haché”, quelle que soit l’étiquetage des pointsAucun ensemble de h+1 points ne peut être haché par cet ensemble de fonctions.
Diablerets, Mars 2007 130
Quelques exemples
La VC dimension de l’ensemble des hyperplans de R p est p+1
Hyper-rectangles de R p parallèles aux axes
h=2p
(V.Cherkassky, F.Mulier, 1998)
Sphères de R p
h=p+1
Diablerets, Mars 2007 131
Mais les VC dimensions ne sont PAS égales au nombre de paramètres libres
La VC dimension de l’ensemble de fonctionsf(x,w) = sign (sin (w.x) ),c < x < 1, c>0,
avec un paramètre libre w est infinie.
Hastie et al. 2001
Diablerets, Mars 2007 132
Deux cas importants:a) régression ridge
La VC dimension de l’ensemble des indicatrices linéaires
satisfaisant à la condition :
dépend de C et peut prendre toute valeur de 0 à p+1.
( )( )1( , ) 1p
i iif X w sign w x
X R=
= +
≤
∑
2 21
1pii
W wC=
= ≤∑
2
min ; 1Rh ent p2C⎡ ⎤⎛ ⎞
≤ +⎢ ⎥⎜ ⎟⎝ ⎠⎣ ⎦
Diablerets, Mars 2007 133
b) L’hyperplan de marge maximale
Même résultat:
2
2min ; 1Rh ent pC
⎡ ⎤⎛ ⎞≤ +⎢ ⎥⎜ ⎟
⎝ ⎠⎣ ⎦
Diablerets, Mars 2007 134
Théorème de Vapnik :
Q : Quelles sont les conditions nécessaires et suffisantes pour assurer la consistence ?R : Le processus d’apprentissage est consistent si et seulement si la famille de modèles a une VC dimension finie hLa VC dimension finie ne garantit pas seulementla généralisation, mais c’est LA SEULE MANIERE qui permet à la généralisation de se produire.
Diablerets, Mars 2007 135
Vitesse de convergence
Taille de l’ens. d’apprentissage: n
IntervalleErreur en généralisation
Erreur d’apprentissage
% erreur
Diablerets, Mars 2007 136
Vitesse de convergence (2)
Q : Quelle est la différence entre les erreurs d’apprentissage et de test pour une taille donnée de l’ensembled’apprentissage ? R : La différence entre les erreursd’apprentissage et de test dépend durapport entre la VC dimension, h, et la taille de l’ensemble d’apprentissage, n.
Diablerets, Mars 2007 137
Inégalité de Vapnik
Avec la probabilité 1- α:
ne fait pas intervenir p mais la VC dimension hNe fait pas intervenir la distribution de probabilité P
( )( )emp
ln 2 1 ln( 4)h n hR R
nα+ −
< +
Diablerets, Mars 2007 138
n fixé
Diablerets, Mars 2007 139
Contrôle de la Capacité de Généralisation
Risque = Risque d’Apprentissage + Intervalle de ConfianceMinimiser la seule erreur d’apprentissage ne donnera pas une espérance d’erreurfaible (une bonne généralisation)
minimiser la somme de l’erreur d’apprentissage et de l’intervalle de confiance.
Diablerets, Mars 2007 140
5.3 Choix de modèles et SRM
Diablerets, Mars 2007 141
De Guillaume d’Occam à Vapnik
wikipedia
Guillaume d’Occam (1285 - 3 avril 1349), dit le « docteur invincible » franciscain philosophe logicien et théologien scolastique.Etudes à Oxford, puis Paris. Enseigne quelques années à Oxford. Accusé d'hérésie, convoqué pour s’expliquer à Avignon, excommunié , se réfugie à Munich, à la cour de Louis de Bavière, lui-même excommunié. Meurt de l'épidémie de peste noire.A inspiré le personnage du moine franciscain Guillaume de Baskerville dans le « Nom de la rose » d'Umberto Eco. Premier jour, vêpres : « il ne faut pas multiplier les explications et les causes sans qu'on en ait une stricte nécessité. »
Diablerets, Mars 2007 142
Le rasoir d’Occam ou principe de parcimoniePrincipe de raisonnement attribué à Occam : « Les multiples ne doivent pas être utilisés sans nécessité » (pluralitas non est ponenda sine necessitate).
Rasoir d'Ockham et science moderne
Le rasoir d'Ockham n'est malheureusement pas un outil très incisif, car il ne donne pas de principe opératoire clair pour distinguer entre les hypothèses en fonction de leur complexité : ce n'est que dans le cas où deux hypothèses ont la même vraisemblance qu'on favorisera l'hypothèse la plus simple (ou parcimonieuse). Il s'agit en fait d'une application directe du théorème de Bayes où l'hypothèse la plus simple a reçu la probabilité a priori la plus forte. Des avatars modernes du rasoir sont les mesures d'information du type AIC, BIC où des mesures de pénalité de la complexité sont introduites dans la log-vraisemblance.
wikipedia
Diablerets, Mars 2007 143
Critères de vraisemblance pénalisée
Comparer des modèles ayant des nombres de paramètres différents: K nombre de paramètres à estimer.Critère d’Akaïke :
AIC = -2 ln(L) + 2K
Critère de Schwartz :BIC = -2 ln(L) + K ln(n)
On préférera le modèle pour lequel ces critères ont la valeur la plus faible.
Diablerets, Mars 2007 144
AIC et BIC ne sont semblables qu’en apparenceThéories différentes
AIC : approximation de la divergence de Kullback-Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée
Asymptotiquement:
( )( ; ) ( )ln (ln( ( )) (ln( ( ))( ) f f
f tI f g f t dt E f t E g tg t
= = −∫
ˆˆ ˆ(ln( ( ; )) ln( ( ))fE E g t L k
θθ θ −∼
Diablerets, Mars 2007 145
BIC : choix bayesien de modèlesm modèles Mi paramétrés par θi de probabilités a priori P(Mi) égales.
Distribution a priori de θi pour chaque modèle P(θi / Mi).Distribution a posteriori du modèle sachant les données P(x/Mi) ou
vraisemblance intégréeChoix du modèle le plus probable a posteriori revient à maximiser
ˆln( ( / ) ln( ( / , ) ln( )2i i ikP M P M nθ −x x∼
0.5
0.5
1
( / )i
j
BIC
i mBIC
j
eP Me
−
−
=
=
∑x
Diablerets, Mars 2007 146
Comparaison AIC BIC
Si n tend vers l’infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l’AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biais-varianceL’AIC est un critère prédictif tandis que le BIC est un critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation
Diablerets, Mars 2007 147
AIC BIC réalistes?
Vraisemblance pas toujours calculable.Nombre de paramétres non plus: ridge, PLS etc. « Vrai » modèle?
« tous les modèles sont faux ; certains sont utiles »G.Box
Vapnik: choisir selon la VC dimension
Diablerets, Mars 2007 148
Principe de minimisation structurée du risque (SRM)
lorsque n/h est faible (h trop grand), le deuxième terme est grandL’idée générale du SRM est de minimiser la somme des deux termes à la droite de l’inéquation. Pour ce faire, il est nécessaire de faire de la VC dimension (h) une variable contrôlée
( )( )L
qhLhwEwR ln12ln)()( −++<
( )( )emp
ln 2 1 ln( / 4)h n hR R
nα+ −
< +
Diablerets, Mars 2007 149
SRM (2)• Si deux familles de modèles expliquent les données avec une qualité égale, alors la famillequi a la plus faible VC dimension doit êtrepréférée.• Si deux modèles expliquent les données avec une qualité égale, alors celui qui provient d’une famille à plus faible VC dimension a une meilleure performance en généralisation.
Diablerets, Mars 2007 150
SRM (3)
Pour construire le meilleur modèle à partir de données, il faut tenter d’optimiser à la fois sa performance sur l’ensemble d’apprentissage,et sa performance de généralisation tirée de la VC dimension : pour ce faire, il faut parcourir une suite de familles d’applications pour y construire ce modèle.
Diablerets, Mars 2007 151
SRM (4)
Considérons une structure S1 ⊂ S2 ⊂ .. ⊂ SLsur l’ensemble des fonctions vérifiant la propriété
h1 < h2 < .. < hL
Pour chaque élément Si de la structure, l’inégalité
est valide
( )( )emp
ln 2 1 ln( / 4)i ih n hR R
nα+ −
< +
Diablerets, Mars 2007 152
Théorème (Devroye, Vapnik) :Pour toute distribution le SRM fournit la
meilleure solution possible avec probabilité 1
(universally strongly consistent)
Diablerets, Mars 2007 153
Application du principe SRM
La structure Si (familles de modèles) peut être contrôlée par :
Architecture de réseaux de neuronesDegré d’un polynômeContrôle des poids dans un réseau de neurones, ...Arbres avec élagage?
Diablerets, Mars 2007 154
Avec/sans l’approche SRM deVapnik
Sans le SRM:Hypothèses sur la distribution statistique (inconnue) des donnéesUn grand nombre de dimensions signifie un modèle à grand nombre de paramètres, ce qui pose des problèmes de généralisationModéliser revient à chercher le meilleur ajustement
Avec le SRM:On étudie la famille de modèles, contrôlant sa VC dimension hLe nombre de paramètres peut être très grand, car on contrôle par définition la généralisationModéliser c’est rechercher le meilleur compromis entre ajustement et robustesse
Diablerets, Mars 2007 155
Contrôle de h
h doit être fini h/n doit être petit: si n augmente, on peut augmenter la complexité du modèleh décroit avec:
Réduction de dimension (cf. RCP, Disqual,PLS)La marge (SVM)k en régression ridge
Mais h difficile à obtenir
Diablerets, Mars 2007 156
Les 3 échantillons:Apprentissage: pour estimer les paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance sur des données futures
Rééchantillonner: validation croisée, bootstrap
Modèle final: avec toutes les données disponibles
Diablerets, Mars 2007 157
Principes d’induction
Ne pas chercher à résoudre un problème plus général que nécessaire
Ne pas estimer une densité si on veut estimer une fonctionNe pas estimer une fonction si on veut seulement estimer une valeur en un point
Diablerets, Mars 2007 158
5.4 Indices de performance
Classification supervisée binaireTaux d’erreur trop réducteur (choix de seuil)Score ou probabilité d’appartenance
Diablerets, Mars 2007 159
Courbe ROC
Groupe à détecter G1: scores élevésSensibilité 1-β= P(S>s/G1):% de vrais positifsSpécificité 1-α=P(S<s/G2) :% de vrais négatifs
Diablerets, Mars 2007 160
Courbe ROCEvolution de 1-β puissance du test en fonction de α, risque de première espèce lorsque le seuil varie
Proportion de vrais positifs en fonction de la proportion de faux positifs
Diablerets, Mars 2007 161
Un site: http://www.anaesthetist.com/mnm/stats/roc/
Diablerets, Mars 2007 162
Surface sous la courbe ROC
Surface théorique sous la courbe ROC: P(X1>X2) si on tire au hasard et indépendemment une observation de G1et une observation de G2
Estimation non-paramétrique de la surface:
Proportion de paires concordantes
( ( )) ( )s
sAUC s d sβ α
=−∞
=+∞= −∫ 1
1 2
cncn n
=
Diablerets, Mars 2007 163
Courbe ROC: interprétation (3)
Courbe ROC et surface sont des mesures intrinsèques de séparabilité, invariantes pour toute transformation monotone croissante du scoreLa surface est liée aux statistiques U de Mann-Whitney et W de Wilcoxon nc= U U+W= n1n2+0.5n1(n1+1)
AUC=U/n1n2
Diablerets, Mars 2007 164
mesures de concordanceCoefficients d ’association entre les probabilités calculées et les réponses observées.Paires formées d’une obs où Y=1 et d’une où Y=0 .
Nombre de paires t=n1n2 n=n1+n2
Si l’observation « Y = 1 » a une probabilité estimée que Y = 1, plus grande que l’observation « Y = 0 » la paire est concordante. nc = nombre de paires concordantes; nd = nombre de paires discordantes; t - nc - nd = Nb d’ex-aequoD de Somers = (nc - nd) / tGamma = (nc - nd) / (nc + nd)Tau-a = 2 (nc - nd) / n(n-1)La capacité prédictive du modèle est d’autant meilleure que ces indices sont proches de 1.
Diablerets, Mars 2007 165
Indice de Gini
Double de la surface entre la courbe ROC et la diagonale
G=2AUC-1
En l’absence d’ex-aequo: G identique au D de Somers
Diablerets, Mars 2007 166
Courbe de lift
% de la cible
Diablerets, Mars 2007 167
Surface sous la courbe lift
Pourcentage d’individus ayant un score>s
Surface
( ) ( )p pβ α− + −1 11 1
{ }( ) ( ) ( )
( ) ( ) ( ) ( )
( )
L d p p
p d p d
p p AUC
β β α
β β β α
= − − + − =
⎡ ⎤ ⎡ ⎤− − + − −⎣ ⎦ ⎣ ⎦
= + −
∫∫ ∫
1 1
1 1
11
1 1 1
1 1 1 1
12
Diablerets, Mars 2007 168
Coefficient Ki (Kxen)
Ki=(surface entre lift estimé et aléatoire) / (surface entre lift idéal et aléatoire)Ki=2(surface ROC)-1
1 1
1 1
12(1 ) 12 2 11 1
2
L p p AUCKi AUCp p
− + − −= = = −
− −
Diablerets, Mars 2007 169
Application au choix de modèles
Selon l’AUC, Gini ou KI: équivalentRappel: ne pas comparer les performances des modèles sur l’ensemble d’apprentissage…
Diablerets, Mars 2007 170
Numerical experiments
Insurance data set split into learning (752) and test sample (356) ten times Five methods:
discrimination with selection of MCA factorsLogistic regression on raw dataLogistic regression on selected factorsPLS regression with CV choice of the number of componentsBarycentric discrimination
Diablerets, Mars 2007 171
Pearson Correlation Coefficients, N = 365 scdisc sclogb sclogf scpls fact scdisc 1.00000 0.96876 0.99885 0.98032 0.97464 sclogb 0.96876 1.00000 0.96821 0.99070 0.96218 sclogf 0.99885 0.96821 1.00000 0.97996 0.97597 scpls 0.98032 0.99070 0.97996 1.00000 0.97735 fact 0.97464 0.96218 0.97597 0.97735 1.00000
Diablerets, Mars 2007 172
Courbe ROC
Les segments diagonaux sont générés par des liaisons.
1 - Spécificité
1.00.75.50.250.00
Sen
sitiv
ité
1.00
.75
.50
.25
0.00
Source de la courbe
SCOBARY
SCPLS
SCLOGF
SCLOGIST
SCDISQUA
Area under ROC curve
score area SCDISQUA .934 SCLOGIST .933 SCLOGF .932 SCPLS .933 SCOBARY .935
6. Prédiction anticipée en analyse discriminante sur données fonctionnelles
G. Damiana Costanzo∗, Cristian Preda†, Gilbert Saporta‡
∗ Dipartimento di Economia e Statistica, Universita della Calabria, [email protected]
† Université Lille 2, France, [email protected]
‡ CNAM Paris, [email protected]
Diablerets, Mars 2007 174
Courbes de pétrissage (Danone-Vitapole)
Diablerets, Mars 2007 175
Après lissage par B-splines cubiques (Lévéder & al, 2004)
Diablerets, Mars 2007 176
Discrimination sur données fonctionnellesCas particulier de la régression sur données fonctionnelles pour deux classes
Anticipationdéterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]
Diablerets, Mars 2007 177
Régression sur données fonctionnelles
Y ; Xt (E(Y)=E(Xt) =0 )Les mco
Equations normales ou de Wiener-Hopf:
C(t,s)= cov(Xt, Xs)=E(Xt, Xs)
0ˆ ( )
T
tY t X dtβ= ∫
0cov( , ) ( , ) ( )
T
tX Y C t s s dsβ= ∫
Diablerets, Mars 2007 178
Expression Integral regression utilisée par R.A.Fisher en 1924 dans « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B: 213: 89-142 (1924)« L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972
Diablerets, Mars 2007 179
décomposition de Karhunen-Loeve
facteurs:
Composantes principales:
Covariance avec une composante principale:
1
( )t i ii
X f t ξ∞
=
=∑
0( , ) ( ) ( )
T
i i iC t s f s ds f tλ=∫
0( )
T
i i tf t X dtξ = ∫
0 0cov( , ) cov( , ( ) ) ( ) ( )
T T
i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫
Diablerets, Mars 2007 180
Théorème de Picard: β unique si et seulement si:
faux la plupart du temps et en particulier quand n est fini car p >n
Solution sous contraintes (cf Green & Silverman 1994, Ramsay & Silverman 1997).
2
21
i
i i
cλ
∞
=
< ∞∑
Diablerets, Mars 2007 181
Régression sur composantes principales
Approximation de rang q:
1
cov( ; )ˆ ii
i i
YY ξ ξλ
∞
=
=∑
22 2
1 1
ˆ( , ) ( , ) ii
i i i
cR Y Y r Y ξλ
∞ ∞
= =
= =∑ ∑
1
cov( ; )ˆq
iq i
i i
YY ξ ξλ=
=∑
Diablerets, Mars 2007 182
Quelle composantes?Les q premières?Les q plus corrélées?
Les composantes principales sont calculées sans tenir compte de la réponse Y
Diablerets, Mars 2007 183
Régression PLS
Utiliser les composantes PLS au lieu des composantes principalesPremière composante PLS :
Puis itération sur les résidus
2
0max cov ( , ( ) )
T
w tY w t X dt∫2 1w =
2
0
cov( , )( )cov ( , )
tT
t
X Yw tX Y dt
=
∫ 1 0( )
T
tt w t X dt= ∫
Diablerets, Mars 2007 184
Approximation de Y par Xt d’ordre q:
Convergence :
Mais q doit être fini pour avoir une formule!q déterminé par validation croisée(Preda & Saporta, 2005)
( ) 1 1 ( )0ˆˆ ... ( ) dt
T
PLS q q q PLS q tY c t c t t Xβ= + + = ∫
2
( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =
Diablerets, Mars 2007 185
Meilleur ajustement par PLS que par ACP:
(De Jong 1993)
2 2( ) ( )
ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥
Diablerets, Mars 2007 186
Discrimination linéaire
L’analyse discriminante linéaire recherche des combinaisons linéaires du type maximisant le rapport variance inter/variance totale Pour deux groupes la FLD de Fisher s’obtient en régressant Y bivalué sur Xt (Preda & Saporta, 2005) avec par exemple
0( )
T
tt X dtβ∫
01
0 1
et ppp p
−
Diablerets, Mars 2007 187
La régression PLS avec q composantes fournit une approximation de β(t) et du scorePour k>2 groupes on effectue une régression PLS2 entre le vecteur des k-1 indicatrices de Y et Xt
Les composantes PLS s’obtiennent à partir du premier vecteur propre du produit des opérateurs d’Escoufier WxWY (puis de ceux associés aux résidus) définis par (Preda & Saporta, 2002)
T 0d ( ) ( )
T
PLS PLS tX T X dtβ= Φ = ∫
Diablerets, Mars 2007 188
Mesures de qualité
Pour k=2 : courbe ROC et AUCPour un seuil s , x est classé en 1 si dT(x)>sSensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α
Diablerets, Mars 2007 189
Prédiction anticipée
Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]Solution:
En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)
Diablerets, Mars 2007 190
Test d’égalité via une procédure bootstrapRééchantillonnage des données, stratifié pour conserver les proportions des classesA chaque réplication b on calcule AUCb(s) et AUCb(T)Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)
Diablerets, Mars 2007 191
Données simuléesDeux classes équiprobablesW(t) brownien standard
Diablerets, Mars 2007 192
Diablerets, Mars 2007 193
Avec B=50
Diablerets, Mars 2007 194
Courbes de pétrissageAprès un temps T= 480 de pétrissage on fabrique des biscuits de qualité Y115 observations dont 50 « bonnes », 40 «mauvaises » et 25 « ajustables »241 points de mesure équidistantsLissage avec B-splines cubiques , 16 nœuds
Diablerets, Mars 2007 195
Performances pour Y={bon,mauvais}100 séparations apprentissage test (60, 30)
Taux d’erreur moyen0.142 avec composantes principales0.112 avec composantes PLS
AUC moyen 0.746
Fonction β(t)
Diablerets, Mars 2007 196
Prédiction anticipéeAvec B=50t*=186
Il est donc possible de réduire de plus de moitié la durée d’étude.
Diablerets, Mars 2007 197
Travaux en cours:recherche de prédiction « on-line »: adapter
t* pour chaque nouvelle courbeComparaison avec régression logistique PLS fonctionnelle et autres approches
Diablerets, Mars 2007 198
7. Conclusion et défisLa théorie de l’apprentissage fournit le cadre conceptuel pour l’inférence en Data Mining où la statistique usuelle n’est plus applicable
A propos des modèlesEn Data Mining et Apprentissage: un modèle n’est pas
une représentation parcimonieuse du monde réel provenant d’une théorie scientifique mais une simple technique de prédiction. Dans de nombreux domaines , il n’y a pas de théorie . La statistique est un outil d’aide à la décision Statistics et non un auxiliaire de la science.Prédire sans comprendre?
Diablerets, Mars 2007 199
RéférencesCherkassky, V., Mulier, F. Learning from data , Wiley, 1998D. Costanzo, C. Preda et G. Saporta (2006). Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-VerlagDevroye, L., Györfi, L., Lugosi, G. A Probabilistic Theory of Pattern Recognition, Springer, 1996Hastie, T., Tibshirani, F., Friedman J., Elements of StatisticalLearning, Springer, 2001Preda C. , Saporta G. (2005): PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48 (1), 149-158.Suykens , J. & al Least squares support vector machines , World Scientific, 2002Suykens, J. & al (editors) Advances in Learning Theory: Methods,Models and Applications, NATO Science Series, IOS Press, 2003Vapnik, V. Statistical Learning Theory, Wiley, 1998Vapnik, V. Estimation of Dependences Based on Empirical Data, 2nd edition, Springer, 2006
Diablerets, Mars 2007 200
Ressources
http://www.kernel-machines.org Th.Joachims « tutorial SVM »C.Burges « a tutorial on SVM for pattern recognition »
Software:http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.csie.ntu.edu.tw/~cjlin/