200
Classification supervisée Gilbert Saporta Conservatoire National des Arts et Métiers, Paris [email protected] http://cedric.cnam.fr/~saporta

Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Classification supervisée

Gilbert SaportaConservatoire National des Arts et Métiers, [email protected]://cedric.cnam.fr/~saporta

Page 2: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 2

Plan

1. Introduction2. Méthodes linéaires de discrimination3. Prédicteurs qualitatifs4. Support vector machines5. Théorie de l’apprentissage et choix de modèles6. Données fonctionnelles7. Conclusion

Page 3: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 3

1.Introduction

Problème:Prédire une réponse Y à 2 catégories (en général)X1,…,Xp prédicteurs

Terminologie variée: classification supervised learning discriminationpattern recognition

Page 4: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 4

« Statistics is the science of learning from data » (J.Kettenring, 1997, ancien président de l ’ASA).

« There are two problems in modern science:Too many people use different terminology to solve the same problemEven more people use the same terminology to address completely different issues »

(V.Cherkassky, F.Mulier, 1998)

Page 5: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 5

Quelques dates :

P.C. Mahalanobis 1927H. Hotelling 1931R. A. Fisher 1936J.Berkson 1944C.R.Rao 1950T.W.Anderson 1951D.Cox 1960D.Mc Fadden 1973V.Vapnik 1998

Page 6: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 6

2. Méthodes linéaires

2.1 Analyse discriminante et fonction de Fisher2.2 Régression logistique2.3 Comparaison2.4 L’hyperplan de marge maximale

Page 7: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 7

2.1 Analyse discriminante analysis2.1.1 Analyse factorielle discriminante

Dispersion intergroupe et dispersion intra groupe.

W = matrice variance intraW = 1/n Σni Vi

B = matrice variance interB = 1/n Σni (gi - g) (gi - g)’

V = W + B variance totale

V1

g1

V2

g2

Vk

gk

Page 8: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 8

Axes discriminants : deux objectifs

Dispersion intraclasse minimale : min u’Wu

Dispersion interclasse maximale : maxu’Bu

u

g2

gkg1

Page 9: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 9

Simultanéité impossible

Compromis :

-1 -1

min max max

V W Bu V u u W u u B u

u B u u B uouu V u u W u

V Bu u W Bu uλ μ

= +′ ′ ′= +

′ ′⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟′ ′⎝ ⎠ ⎝ ⎠

= =

min ' min imax ' max

u Wu Wu uu Bu Bu u i

α αβ β

⇒ =⇒ =

Page 10: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 10

ACP du nuage des gi avec :Métrique V-1

Métrique W-1 Mahalanobis

( )

1

-1

a) Bu u Bu u Bu (W B)u 1- Bu Wu

b) W Bu u u1-

VV

λλλ

λ λλ μλ

− === +

=

= =

Page 11: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 11

Nombre d’axes discriminants

ACP des groupes : dimension de l’espace contenant les groupes gi

Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher

K = 3 Setosa, Versicolor, VirginicaP=4 longueur pétale, longueur sépale, largeur pétale, largeur sépalen1=n2=n3 =50

Donc deux axes

Page 12: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 12

Iris setosa Iris versicolor Iris virginica

Page 13: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 13

Page 14: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 14

Cas de deux groupes

g1 et g2 sont sur une une droite : 1 seul axe discriminant

RAPPEL : en ACP axe a, facteur u = M a

Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)

e

ad e a

e Ma e uM= < >

= ′ = ′

,

a g g= − α ( )1 2

Page 15: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 15

Fonction de Fisher (1936)

Le « meilleur » prédicteur linéaire au sens de la maximisation du T de StudentScore de Fisher:

1 11 2

1 11 2

1 2

( )p p

x x

x x

− −

⎛ ⎞−⎜ ⎟

= − = ⎜ ⎟⎜ ⎟−⎝ ⎠

β W g g W

1 11 2 1 2 1 2

1 1 0

1( ) ( ) ' ( ) ' ( )2

... p p

S

β β β

− −= − − − +

= + + +

x g g W x g g W g g

x x

Page 16: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 16

2.1.3 Une régression « incorrecte »

y à 2 valeurs (-1;+1) ou (0;1) ou (a;b)a=n/n1 b=-n/n2

Dp distance de Mahalanobis entre groupesIncompréhensions et controverses!

11 2

22

21 2

( )

( 2)1p

n n RDn n R

−= −

−=

β V g g

Page 17: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 17

MAIS : Modèle linéaire usuel non valide :

en discriminante c’est l’inverse que l’on suppose :

( )/ ~ ; ix y N μ ∑

( )2/ ~ ; y x N x Iβ σ

Page 18: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 18

Conséquences

Pas de test,pas d’erreurs standard sur les coefficientsMAIS possibilité d’utiliser les méthodes de pas à pas en régression.

Page 19: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 19

Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL

1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 9122 1 DECES 90 1.68 18.7 24 31.0 14.0 14763 1 DECES 120 1.40 11.7 23 29.0 8.0 16574 2 SURVIE 82 1.79 21.8 14 17.5 10.0 7825 1 DECES 80 1.58 19.7 21 28.0 18.5 14186 1 DECES 80 1.13 14.1 18 23.5 9.0 16647 2 SURVIE 94 2.04 21.7 23 27.0 10.0 10598 2 SURVIE 80 1.19 14.9 16 21.0 16.5 14129 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759

10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 80711 2 SURVIE 90 2.79 31.0 16 25.0 8.0 71712 2 SURVIE 86 2.70 31.4 15 23.0 9.5 68113 2 SURVIE 80 2.61 32.6 8 15.0 1.0 46014 2 SURVIE 61 2.84 47.3 11 17.0 12.0 47915 2 SURVIE 99 3.12 31.8 15 20.0 11.0 51316 2 SURVIE 92 2.47 26.8 12 19.0 11.0 61517 2 SURVIE 96 1.88 19.6 12 19.0 3.0 80918 2 SURVIE 86 1.70 19.8 10 14.0 10.5 65919 2 SURVIE 125 3.37 26.9 18 28.0 6.0 66520 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796

Page 20: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 20

FONCTION LINEAIRE DISCRIMINANTE

VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROB........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)

(SEUIL= 0.20).............................................................................................

3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.005 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.316 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.178 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.84

CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.695.............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000.............................................................................................

SPAD

Page 21: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 21

2.1.3 Méthodes géométriques de classement

Échantillon d’apprentissage

e observation de groupe inconnu

e classé dans le groupe i tel que: d(e ; gi) minimal

e?

y x x p' . . .

.

.

.

112

1

g1

g2

g3

G1

G2

G3

e

Page 22: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 22

Pour deux groupes

On classe e en G1 si:

Fonction de Fisher >cScore de Fisher positif

2 21 2

2 1 1 ' 1 ' 1

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

( ; ) ( ; )

( ; ) ( ) ' ( ) ' 2

2 2

( ) ' ( )

i i i i i i

d e g d e g

d e g e g W e g e W e gW e gW g

g W e g W g g W e g W g

g g W e g W g g W g

− − − −

− − − −

− − −

<

= − − = − +

− > −

− > −

Page 23: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 23

pour deux groupes

On classe dans G1 si:

Fonction de Fisher >cScore de Fisher:

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

2 2

( ) ' ( )

g W e g W g g W e g W g

g g W e g W g g W g

− − − −

− − −

− > −

− > −

1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g− − −− − −

Page 24: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 24

Interprétation géométriqueProjection sur la droite des centres avec la métrique W-1

Dualité axe-frontière planefrontière

axe discriminant

Page 25: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Analyse discriminante probabiliste.

pj probabilité a priori d’appartenir au groupe j fj (x) loi des xi dans le groupe j

1

( )Formule de Bayes : ( / )

( )

j jj k

j jj

p fP G

p f=

=

xx

x

Problème : estimer les fj (x)

Page 26: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 26

La règle bayésiennenaïve dans le cadre normal

( ) ( )( )

( )( ) ( )

( )

( ) ( )

j

11/2/2

j j

1j j

x densité d'une N ;

1 1 exp -22

max p f x attribuer x au groupe le plus probable a posteriori

1 1max Ln p 2 2

j j

j j j jpj

j j j

f

f x x x

x x Ln

μ

μ μπ

μ μ

⎛ ⎞′= − −⎜ ⎟⎝ ⎠

⎡ ′− − − −

∑∑

∑ ∑ règle quadratique

⎤⎢ ⎥⎣ ⎦

Page 27: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 27

La règle bayésienne

1 2

1 1 1j

1j

simplificatrice : ... =On attribue x au groupe j tel que :

1 1max Ln p 2 2

1 : max Ln p2

j j j

j j

j

indépendantdu groupe

a

Hypothèse

x x x

donc

μ μ μ

μ μ

− −

∑ = ∑ ∑

⎡ ⎤⎢ ⎥⎢ ⎥′ ′ ′− ∑ − ∑ + ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

′− ∑ 1

j j

Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation de par g et de par W.

jx μ

μ

⎡ ⎤⎢ ⎥

′+ ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Page 28: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 28

Analyse discriminante probabiliste:cas de deux groupes

( ) ( )

( )( )

( ) ( )

( ) ( ) ( ) ( )

1 1 2 2

-11/2 /2

-1 -1 -1 -11 21 1 2 2 2

1

-1 12 11 2 1 2 1 2

fonction de Fisher

1 exp 1/2 ' 2

1/2 p 1/2 p

' p / 1/2 '

i p i i

p f x p f x

f x x x

x Log x Log

x Log p

μ μπ

μ μ μ μ μμ

μ μ μ μ μ μ−

>

= − − ∑ −∑

′ ′ ′∑ − ∑ + > ∑ − ∑ +′

− ∑ > + − ∑ +

Affecter au groupe 1 si :

Page 29: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 29

Fonction de score et probabilité

Fonction de score S(x) :

Règle :affecter au groupe 1 si S(x)>0

Probabilité d’appartenance au groupe 1 :

( )( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )1

11

1 2

2 1

11 1

1 11 1 2 2

1 11 1 2 2

1/2

1/2 1/2

1/2 1/2

G /

/

P

1/ 1

x x

x x x x

x x x x

p exp e p e

p p ep

μ μ

μ μ μ μ

μ μ μ μ

′ ′

− −

− −

− − ∑ −

− − ∑ − − − ∑ −

− − ∑ − + − ∑ −

+

=

= +

1 121 2 1 2 1 2

1

1( ) ( ) ' ln( ) ( ) ' ( )2

pS x xp

μ μ μ μ μ μ− −= − Σ − − − Σ +

Page 30: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 30

Probabilité a posteriori

( ) ( ) ( )

( )

( )

( )

-S x 1/p-1 1/p=1+e

1 Fonction logistique du score1 1

S x

S x S x

Log S x

epe e−

= −

= =+ +

Page 31: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 31

S(x)

2

1

1( ( ) 0) ln2

p

p

pP S x P Up

⎛ ⎞Δ ⎛ ⎞> = > +⎜ ⎟⎜ ⎟⎜ ⎟Δ ⎝ ⎠⎝ ⎠

• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0

Page 32: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 32

Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876

Proc discrimSAS

Page 33: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 33

ADL optimale (règle de Bayes) pour des prédicteurs gaussiens de même matrices decovariance

Mais peut être appliqué même si ces hypothèses ne sont pas vérifiées.

Page 34: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 34

2.2 Régression logistique

Berkson (1944), Cox (1958): medical statistics, epidemiologyLater in econometrics with Nobel prize McFadden (1973)Risk factors, not individual prediction

0 1 1

0 1 1

...

...( ) ( 1 / )1

p p

p p

eP Ye

β β β

β β βπ+ + +

+ + += = = =+

x x

x xx X x

0 1 1 ... p pscore x xβ β β= + + +

Page 35: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 35

Exemple : Age and Coronary Heart Disease Status (CHD) (Hosmer &Lemeshow; M.Tenenhaus)

Data

ID AGRP AGE CHD12345

979899100

11111

8888

2023242525

64646569

00001

0111

Page 36: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 36

Avec mise en classes

Age Group nCHDabsent

CHDpresent

Mean(Proportion)

20 – 2930 – 3435 – 3940 – 4445 – 4950 –5455 - 5960 - 69

101512151381710

9139107342

123565138

0.100.130.250.330.460.630.760.80

Total 100 57 43 0.43

Relative frequencies

AGEGRP

87654321

Pro

porti

on (C

HD

)

1.0

.8

.6

.4

.2

0.0

Page 37: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 37

Le modèle logistique simple

x

x

10

10

e1e)x( β+β

β+β

+=π

x))x(1

)x((Log 10 β+β=π−

π

ou

Probabilité d'une maladie cardiaque

en fonction de l'age

AGE

70605040302010

Pro

b(Y

=1 /

X)

1.0

.8

.6

.4

.2

0.0

Fonction de lien : Logit

Page 38: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 38

Il s’agit bien d’un probléme de régression:Modélisation de l’espérance conditionnelle

E(Y/X=x)=f(x)

Choix de la forme logistique en épidémiologie:

S’ajuste bienInterprétation de β1 en termes d’odds-ratio

Page 39: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 39

Odds-Ratio

Si X binaire (sujet exposé X=1, non exposé X=0)

0 1 0

0 1 01 / 1 ( 1/ 0)( )

1 1Y X P Y XP

e ee e

β β β

β β β

+

+= = = == =+ +

1( 1/ 1) / ( 0/ 1)( 1/ 0) / ( 0/ 0)

P Y X P Y XOR eP Y X P Y X

β= = = == =

= = = =

Page 40: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 40

Odds-RatioMesure l’évolution du rapport des

chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.Formule générale:

1( 1) /(1 ( 1))

( ) /(1 ( ))x xOR e

x xβπ π

π π+ − +

= =−

Page 41: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 41

Interprétation économètrique

Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.Z est l’« intensité du désir » de posséder le bien Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0

Page 42: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 42

Modèle d’utilité

pour le ménage i de caractéristiques xi (âge, sexe, revenu, CSP...), la possession du bien procure un niveau d’utilité U(1,xi), la non possession U(0,xi).

Yi = 1 ⇔ U(1,xi) > U(0,xi)Yi = 0 ⇔ U(0,xi) > U(1,xi)

Variable latente Zi = U(1,xi) – U(0,xi).

Page 43: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 43

Modèle d’utilité (suite)

Zi = xi β + εi

πi = P(Yi=1|xi)= P(Zi > 0)=P(xi β> -εi) = F(xiβ) F fonction de répartition de -εi

Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit

Page 44: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 44

Estimation des paramètres

Les données

X Y x1

xi

xn

y1

yi

yn

yi = 1 si caractère présent,0 sinon

i10

i10

x

xii

e1e

)xX/1Y(P)x(

β+β

β+β

+=

===π

Le modèle

Page 45: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 45

Vraisemblance (conditionnelle!)

Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]

∏=

===n

1iii )xX/yY(Prob ∏

=

−π−π=n

1i

y1i

yi

ii ))x(1()x(

),(L 10 ββ=∏=

−β+β

β+β

β+β

β+β

+−

+=

n

1i

y1x

xy

x

xi

i10

i10i

i10

i10

)e1

e1()e1

e(

Page 46: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 46

maximum de vraisemblancemaximisent

Maximisation de la log-vraisemblance

Estimateurs obtenus par des procédures numériques: pas d’expression analytique

10ˆet ˆ ββ 0 1( , ) (β)L Lβ β =

[ ]1

( ) log ( ) log ( ) (1 )log(1 ( ))n

i i i ii

L y x y xβ π π=

= = + − −∑β

10

11

( ) ( ( )) 0

( ) ( ( )) 0

n

i ii

n

i i ii

y x

x y x

β πββ πβ

=

=

∂⎧= − =⎪ ∂⎪

⎨∂⎪ = − =⎪ ∂⎩

Page 47: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 47

Précision (asymptotique) des estimateurs

La matrice

est estimée par la matrice

⎥⎦

⎤⎢⎣

ββββββ

=β)ˆ(V)ˆ,ˆ(Cov

)ˆ,ˆ(Cov)ˆ(V)ˆ(V110

100

1

ˆ2

2 )(L Log−

β=β⎥⎦

⎤⎢⎣

β∂β∂

Page 48: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 48

12

1

1 1

2

1 1

1 1 1 1

( )ˆ( )

ˆ ˆ ˆ ˆ (1 ) (1 )

ˆ ˆ ˆ ˆ(1 ) (1 )

ˆ ˆ1 (1 ) 0 1

ˆ ˆ1 0 (1 ) 1

n n

i i i i ii in n

i i i i i ii i

n n n n

V

x

x x

x x

x x

β β

βββ

π π π π

π π π π

π π

π π

=

= =

= =

⎡ ⎤−∂= ⎢ ⎥∂⎣ ⎦

⎡ ⎤− −⎢ ⎥⎢ ⎥=⎢ ⎥

− −⎢ ⎥⎣ ⎦

′ −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

∑ ∑

∑ ∑1

1 ( ) .

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

′= X VX

Page 49: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 49

Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . . AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117

5,3095 0,1109

5,3095 0,1109( )1

x

x

exe

π− +

− +=+

Page 50: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 50

Régression logistique multiple

Généralisation à p variables explicatives X1,…, Xp.

0 1 1

0 1 1

...

...( ) ( 1/ )1

p p

p p

x x

x xex P Y X x

e

β β β

β β βπ+ + +

+ + += = = =+

Page 51: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 51

Tests sur les paramètres

Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :

1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score

H0 : βj = 0H1 : βj ≠ 0

Page 52: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 52

Test de Wald

analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :

représente l’estimation de l’écart-type de l’estimateur de β1.Sous l’hypothèse H0, w2 suit approximativement une loi du khi-deux à un degré de liberté .

Rejet de H0 si w2

1

1

ˆˆˆ( )

wsββ

=

1ˆ( )s β

)1(21 α−χ≥

Page 53: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 53

Test du rapport des vraisemblances

L’apport de la variable X est mesuré à l’aide de la statistique :

G = -2 log [ ]

sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.Vraisemblance sans la variable:

Vraisemblance sans la variableVraisemblance avec la variable

01

01nn nn

n n⎛ ⎞⎛ ⎞

⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

Page 54: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 54

Test du score

U vecteur des dérivées partielles de la log-vraisemblance estiméesLe score suit également asymptotiquementsous H0 une loi du khi-deux à un degré de libertéEn régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X

00 0

1

ˆ ˆˆ( ) ( ) ( )

H HHscore U J U

β ββ β β

−⎡ ⎤′= ⎣ ⎦

Page 55: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 55

Comparaison des 3 tests

Page 56: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 56

Tests

Tests d’absence d’effet de toutes les variables: H0 : β1 = …… = βp = 0

Rapport de vraisemblance GScore test USous H0, suivent tous deux asymptotiquement une loi du χ2 à p ddl

Page 57: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 57

2.3 Comparaison logistique-discriminante

Avantages proclamés de la logistique:Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)

Page 58: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 58

Mais:Erreurs standard asymptotiques , bootstrapen ADNon convergence en cas de séparation parfaite. Fisher existe toujours

Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standardL’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)

Page 59: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 59

Querelle largement idéologique (modélisation versus analyse des données)

L’AD est aussi un modèle, mais sur les lois des X/Y, la logistique sur les lois de Y/X

En pratique différences peu nettes: fonctions de score souvent très proches

« It is generally felt that logistic regression is a safer, more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)

Page 60: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 60

Variable N Mean Std Dev Sum Minimum Maximum

scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074

scorfish scorlog

scorfish 1.00000 0.99881

scorlog 0.99881 1.00000

Page 61: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 61

Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque)

Logistique aussi utilisée en scoringSi l’objectif est de classer:

On ne fait plus de la science mais de l’aide à la décisionMieux vaut essayer les deux méthodes. Mais comment les comparer?Le vrai critère de choix est la performance en généralisation

Page 62: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 62

Remarque: probabilités a posteriori et stratification

Estimer les probas a posteriori nécessite de connaître les vraies probas a prioriModifier les a priori change seulement la constante β0 en discriminante comme en logistique:

Important pour les probabilités, pas pour un score

Page 63: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 63

2.4 Autres méthodes issues de la régression linéaire

En cas de multicolinéarité.

2.4.1 Régression ridge

k optimisé par validation croisée (KXEN)

1ˆ ( ' ) 'k −= +β X X I X y2 2 2min with d− <y Xβ β

Page 64: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 64

2.4.2 Analyse discriminante PLS

Des composantes expliquant à la fois Y et les XCritère de Tucker:

Composantes suivantes sur les résidus. Arrêt par validation croisée.Suite de régressions simples (ni inversion, ni diagonalisation)

2max ( cov( ; ))y Xw2 2(cov( ; )) ( ; ). ( ). ( )r V V=y Xw y Xw Xw y

Page 65: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 65

2.5 L’hyperplan de marge maximale

Solution de Vapnik

Frontière avec « no man’s land » maximal

Page 66: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 66

Un peu de géometrieEquation d’un hyperplan:

Coefficients définis à un facteur près:b=1 ou

Distance à l’hyperplan:

( ) 0f b b= + = + =x w'x x'w

bd

+=

w'xw

1=w

Page 67: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 67

Hyperplan optimal

Maximise la « marge » ou rayon du corridor: distance du point le plus proche à l’hyperplan

Page 68: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 68

Cas séparableMarge C: tous les points sont à une distance > C

'

'

'

max sous ( ) et 1

contrainte équivalente: ( )1ou car et définis à l'échell

min

e

sous ( )

p ès

1

r

i i

i

i i

i

C y x w b C w

y x w b C w

w y x w b

w w bC

+ ≥ =

+

+ ≥

=

Page 69: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 69

Programme quadratique

Lagrangien:

D’où:

Dual de Wolfe

2 '2 ( ) 1i i iw y x w bα ⎡ ⎤− + −⎣ ⎦∑

1 1 et 0

n n

i i i i ii i

w y x yα α= =

= =∑ ∑

'

1

1max 2

avec 0 et 0

i i k i k i k

n

i i ii

y y x x

y

α αα

α α=

⎡ ⎤−⎢ ⎥⎣ ⎦

> =

∑ ∑∑

Page 70: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 70

Conditions de Kühn et Tucker:

w, donc l’hyperplan, ne dépend que des points supports où les αi sont non nuls.

'i

'i

'i

(x w ) 1 0

0 alors (x w ) 1

(x w ) 1 alors 0

i i

i i

i i

y b

Si y b

Si y b

α

α

α

⎡ ⎤+ − =⎣ ⎦> + =

+ > =

Page 71: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 71

Solution

0

'

0 0

( )

i

i i

n

i i i

n n

i i i i i i

y

f b y b y b

α

α α

α

α α

>

> >

=

= + = + = +

∑ ∑i

w x

x w x x x x x

Page 72: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 72

L’hyperplan optimal ne dépend que des points proches (différe de Fisher)

Plus la marge est grande, meilleure est la robustesse en principe.Mais pas toujours :

Page 73: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 73

Le cas non séparable

Deux solutions:• modifier le critère• changer d’espace pour rendre le problème linéairement séparable: •Une combinaison des deux: SVM

Page 74: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 74

Variables d’écart

On borne la proportion de points tombant du mauvais côté.La solution ne dépend que des points supports où :

'imin w sous (x w ) 1

et i i

i

y b ξ

ξ γ

+ ≥ −

<∑

'i(x w ) 1i iy b ξ+ > −

Page 75: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 75

Formulation équivalente:

C contrôle le trade-off entre la marge et l’erreur.0<αi<γ

'i

2min w av (xc w ) 1e ii iC y b ξξ⎡ ⎤+⎣ ⎦ + ≥ −∑

Page 76: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 76

Classifieur ou fonction de score

f(x) ne dépend que des points supportsest une combinaison linéaire des variablesRègle de décision selon le signe de f(x)

'

0 ( ) '

i

i i if b y bα

α>

= + = +∑x w x x x

Page 77: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 77

3. Prédicteurs qualitatifs

Fréquent en crédit à la consommation, mais pas dans les publications..

ProfessionEmploiStatut matrimonial...

Page 78: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 78

3.1 ADL pour prédicteurs qualitatifs: un peu de (pré)histoire

Fisher (1940) Un seul prédicteurEquations de l’analyse des correspondancesIntroduction du vocable « Scores »

Page 79: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 79

Page 80: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 80

Page 81: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 81

3.2 Cas général : p prédicteursQuantification optimale:

Attribuer des notes partielles aux catégories des prédicteurs pour maximiser la distance de Mahalanobis dans Rp

Une analyse discriminante où les variables qualitatives sont remplacées par les indicatrices des modalités

0 1 0 1 01 0 0 0 10 0 1 1 0

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

=X

Page 82: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 82

X de rang insuffisant: rank(X)=Σmi-pSolution classique: éliminer une indicatrice par prédicteur (note nulle)Disqual (Saporta, 1975):

ADL sur une sélection de composantes de l’Analyse des Correspondances Multiples de X. Semblable à la régression sur composantes principales Sélection experte selon deux critères: inertie et corrélation avec la réponse

Page 83: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 83

Exemple assurance (jeu d’essai SPAD)

1106 contrats automobile belges :2 groupes: « 1 bons », « 2 mauvais »

9 prédicteurs: 20 catégoriesUsage (2), sexe(3), langue (2), âge (3), région (2), bonus-malus (2), puissance (2), ancienneté (2), âge du véhicule (2)

Page 84: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 84

ACM

Page 85: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 85

ADL de Fisher sur les composantes

FACTEURS CORRELATIONS COEFFICIENTS ..............................................................................1 F 1 0.719 6.90642 F 2 0.055 0.7149 3 F 3 -0.078 -0.82114 F 4 -0.030 -0.46155 F 5 0.083 1.25816 F 6 0.064 1.02747 F 7 -0.001 0.21698 F 8 0.090 1.31339 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

Page 86: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 86

3.3 scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil

Page 87: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 87

+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+

Grille de score

Page 88: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 88

3.4 Discriminante PLS et discrimination barycentrique

Première composante PLS : p régressions simples séparées sur chaque prédicteur (variables indicatrices)Chaque régression PLS de Y sur les indicatrices de Xj est identique à la régression usuelle (Y standardisé, pas X, pas de terme

constant)

Page 89: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 89

Une composante PLS: équivalent à l’AFC du tableau de contingence concaténé

good bad 1 cusag1 29 96 2 cusag2 344 272 3 sexe1 288 253 4 sexe2 76 78 5 sexe3 9 37 6 clang1 250 295 7 clang2 123 73 8 age3m1 118 99 9 age3m2 40 163 10 age3m3 215 106 11 cpost2m1 75 172 12 cpost2m2 298 196 13 bm2m_11 298 59 14 bm2m_12 75 309 15 puis2m1 91 47 16 puis2m2 282 321 17 dpoli2m1 277 137 18 dpoli2m2 96 231

Page 90: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 90

Technique dite “discrimination barycentrique”:

• Score d’un individu: somme des p probabilités conditionnelles d’appartenance au groupe 2.

• Semblable au classifieur “naïf Bayes” : score multiplicatif.

• Equivalent à Disqual si les prédicteurs sont indépendants deux à deux

Page 91: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 91

Catégorisation de prédicteurs numériques

Ex: classes d’âge au lieu de l’âgeUne perte de précision?Traitement des non-linéarités

Utile pour les outliers: robustesseTraitement des valeurs manquantes

1

( )p

j jj

S Xϕ=

= ∑ ϕj fonctions en escalier

Page 92: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 92

Prétraitement

Sélection de variables, discrétisation, détection des interactions Xj*Xk: consommatrices de tempsDe nouveaux outils :

K2C, Khiops, Datalab..

Page 93: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 93

Credit scoring is the set of decision models and their underlying techniques that aid lenders in the granting of consumer credit.

Credit scoring is one the most successful applications of statistical modeling in finance and banking. Yet because credit scoring does not have the same glamour as the pricing of exotic financial derivatives or portfolio analysis, the literature on the subject is very limited.

Thomas & al. 2002

3.5 credit scoring

Page 94: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 94

Le comité de Bâle sur la supervision bancaire

Créé en 1974 par le G10 Banque des Règlements Internationaux (BIS)

Réduire la vulnérabilité par la mise en place d’un ratio prudentiel attestant d’un niveau minimal de fonds propres.

Accords Bâle II

Page 95: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 95

Bâle 2Une « révolution quantitative » (A.L.Rémy Crédit Agricole)

« banks are expected to provide an estimate of the PD and LGD »

PD (probability de défaut)LGD (perte en cas de défaut)EAD (exposition en cas de défaut)

Calcul du capital nécessaire au niveau de confiance 99.9% à un an

Page 96: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 96

Impact énorme sur les études statistiques. Exigence de justification statistique et de backtesting imposé par le régulateur (Commission Bancaire)Recrutements massifs

Le « New Basel Capital Accord » régulera les prêts bancaires à partir de 2007

Page 97: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 97

4. Les SVM non-linéaires

Passage dans un espace de données transformées (« feature space ») de grande dimensionUn séparateur linéaire dans Φ(E) donne un séparateur non-linéaire dans E.

Page 98: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 98

Page 99: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 99

Page 100: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 100

Solution

i k1max Φ(x ) Φ(x )2

0 et 0

i i k i k

i i i

y y

C y

α αα

α α

⎧ ⎡ ⎤−⎪ ⎢ ⎥⎣ ⎦⎨⎪ < < =⎩

∑ ∑∑∑

Ne dépend que des produits scalaires

0 ( )

i

n

i if y bα

α>

= +∑ ix Φ(x ) Φ(x)

Page 101: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 101

Espaces de Hilbert à noyaux reproduisants

Noyaux K(x,x’)=Φ(x) Φ(x’)Le « kernel trick »:choisir astucieusement K pour faire les calculs uniquement dans l’espace de départ.Exemple:Dans l’espace d’arrivée:

2 21 2 1 1 2 2x ( ; ) (x) ( ; 2 ; )x x x x x x= Φ =

2 '2 ' ' 2 '21 1 1 2 1 2 2 2

' ' 2 21 1 2 2

(x) (x ') 2

( ) (xx ')

x x x x x x x x

x x x x

Φ Φ = + +

= + =

Page 102: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 102

On peut donc calculer le produit scalaire dans Φ(E) sans utiliser Φ

Conditions de Mercer pour avoir un noyau:k(xi;xj) terme général d’une matrice sdp

supports

Solution (x) ( ; )i i ii

f y K x x bα∈

= +∑

Page 103: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 103

Exemples de noyaux

Linéaire K(x;x’)=<x;x’>Polynomial:

K(x;x’)=(<x;x’>)d ou (<x;x’> +1)d

Gaussien (radial basis) K(x;x’)=exp-(||x-x’||2)/σ2)

Page 104: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 104Joachims

Page 105: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 105

Page 106: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 106

Hastie, Tibshirani, Friedman : « The Elements of Statistical Learning », Springer-Verlag, 2001

Page 107: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 107

Approches voisines

LS-SVM, GDA (Baudat, Anouar) : fonction de Fisher dans le feature space

Page 108: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 108

5. La théorie de l’apprentissage statistique

Norbert Wiener 1948

Frank Rosenblatt 1962

Vladimir Vapnik 1982

Image courtesy of the Research Laboratory of Electronics at MIT.

Page 109: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 109

Le problème de la boîte noire et l’apprentissage supervisé

Etant donnée une entrée x, un système non déterministe renvoie une variable y = f(x)+e. On dispose de n paires (xi,yi) et on cherche une fonction qui approxime la fonction inconnue f.Deux conceptions:

Une bonne approximation est une fonction proche de fUne bonne approximation est une fonction qui donne un taux d’erreur voisin de celui de la boîte noire

Page 110: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 110

Le perceptron: la première « machine à apprendre »

Rosenblatt (1958)

Page 111: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 111

Equation de l’hyperplan séparateur

(x) w'x 0f b= + =

Page 112: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 112

Minimiser la somme des distances au plan des observations mal classéesSolution initiale, lecture séquentielle des donnéesOn modifie les coefficients dès qu’un mal-classése présente:

mal classés

mal classés mal classés

min ( ( ' ))

gradient w b

i i

i i i

y w x b

y x y

− +

∂ ∂= − = −

∂ ∂

∑ ∑

1

i i

in n

y xw wyb b

ρ−

⎛ ⎞⎛ ⎞ ⎛ ⎞+ →⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠⎝ ⎠

Page 113: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 113

Gradient stochastique (obs. par obs.)ρ coefficient d’apprentissage

Solutions multiples dans le cas séparable selon l’initialisationNon convergence dans le cas non séparable

Page 114: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 114

5.1 Risque empirique et généralisation

Fonction de perte L(y;f(x,w))Régression L(y;f(x,w))=(y-f(x))2

Discrimination : taux (ou coût) d’erreur de classement

y et à valeurs dans {-1 ;+1}Risque (erreur de généralisation sur de nouvelles données z = (X, y) )

( ) ( , ) ( )R E L L z w dP z= = ∫

( )21 1ˆ ˆ ˆ( ; )2 2

L y y y y y y= − = −

y

Page 115: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 115

Objectif impossible: minimiser sur w le Risque

P(z) probabilité inconnue

On dispose seulement de n cas d’apprentissage (z1, .. , zn) tirés suivant la loi P(z), au lieu de minimiser R, on minimise le Risque Empirique :

1

1 ( ; ( ; ))n

emp i ii

R L y f x wn =

= ∑

Page 116: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 116

Problème central en théorie de l’apprentissage:Quelle est la relation entre le Risque R et le risque empirique Remp ?

Quelle est la capacité de généralisationde ce genre de modèle?

Page 117: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 117

Le dilemme biais-variance

Modèle y=f(x )+ε, f estimé sur données d’apprentissageErreur de prédiction

Doublement aléatoire

Erreur quadratique moyenne de prédiction (risque R)

0 0 0 0ˆˆ ( ) ( )y y f x f xε− = + −

( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0

ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +

biais

variance

Page 118: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 118

• premier terme: aléa irréductible• deuxième terme: carré du biais du modèle • troisième terme: variance de la prédiction

Plus un modèle sera complexe plus le biais sera faible, mais au détriment de la variance

( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0

ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +

Page 119: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 119

La robustesse: une exigence insuffisante:

Modèle robuste: erreurs en apprentissage et en généralisation du même ordre de grandeur

x

Y

surajustement

x

Y

Modèle robuste

Page 120: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 120

Compromisx

Y

Trop robuste…

Page 121: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 121

La consistence

Un processus d’apprentissage estconsistent si l’erreur sur l’ensemble d’apprentissage converge vers l’erreur en généralisation lorsque la taille de l’ensemble d’apprentissage augmente

Page 122: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 122

%erreur

Taille ens. d’apprentissage

Erreur en généralisation

Erreur d’apprentissage

Apprentissage consistent

Page 123: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 123

Taille ens. d’apprentissag

%erreurErreur en généralisation

Erreur d’apprentissage

Apprentissage non consistent

Page 124: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 124

Les quatre piliers de la théorie de l’apprentissage

1 Consistence (garantit la généralisation)Sous quelles conditions un modèle peut-ilgénéraliser?

2 Vitesse de convergence en fonction du nombre d’exemples (mesure de la généralisation)

Comment s’améliore la généralisation lorsque le nombre d’exemples augmente ?

Page 125: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 125

Quatre piliers de la théoriede l’apprentissage

3 Contrôle de la capacité de généralisationComment contrôler efficacement la généralisation à partir de l’information contenue dans un ensemble d’apprentissage de taille finie ?

4 Construire des algorithmes d’apprentissageExiste-t-il une stratégie pour construire des algorithmes qui garantissent, mesurent et contrôlent la capacité de généralisation de modèles d’apprentissage ?

Page 126: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 126

5.2 La VC dimension

Dimension de Vapnik-Cervonenkis: une mesure du pouvoir séparateur(complexité) d’une famille de fonctionsVC dimension : un nombre entier attaché à une famille F de fonctions (classifieurs) paramétrée par w

f (X,w) ≥ 0 : X classé en 1f (X,w) < 0 : X classé en -1

( , ) : pf X w →

Page 127: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 127

VC dimension suiteéchantillon de n points (x1, .. , xn) de Rp

Il existe 2n manières différentes de séparer cet échantillon en deux sous-échantillons (colorier les points) Un ensemble F de fonctions f(X,w)“hache” (shatters) l’échantillon si les 2n

séparations peuvent être faites par des f(X,w) différentes de la famille F

Page 128: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 128

Aucune ligne droite ne peut séparer les points noirs des points roses

Exemple

En 2-D, les fonctions linéaires (droites) peuvent “hacher” 3 points, mais pas 4

Page 129: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 129

Un ensemble de fonctions de Rp -> Ra la VC-dimension h si :

Il existe un jeu de h points de Rp qui peut être “haché”, quelle que soit l’étiquetage des pointsAucun ensemble de h+1 points ne peut être haché par cet ensemble de fonctions.

Page 130: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 130

Quelques exemples

La VC dimension de l’ensemble des hyperplans de R p est p+1

Hyper-rectangles de R p parallèles aux axes

h=2p

(V.Cherkassky, F.Mulier, 1998)

Sphères de R p

h=p+1

Page 131: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 131

Mais les VC dimensions ne sont PAS égales au nombre de paramètres libres

La VC dimension de l’ensemble de fonctionsf(x,w) = sign (sin (w.x) ),c < x < 1, c>0,

avec un paramètre libre w est infinie.

Hastie et al. 2001

Page 132: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 132

Deux cas importants:a) régression ridge

La VC dimension de l’ensemble des indicatrices linéaires

satisfaisant à la condition :

dépend de C et peut prendre toute valeur de 0 à p+1.

( )( )1( , ) 1p

i iif X w sign w x

X R=

= +

2 21

1pii

W wC=

= ≤∑

2

min ; 1Rh ent p2C⎡ ⎤⎛ ⎞

≤ +⎢ ⎥⎜ ⎟⎝ ⎠⎣ ⎦

Page 133: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 133

b) L’hyperplan de marge maximale

Même résultat:

2

2min ; 1Rh ent pC

⎡ ⎤⎛ ⎞≤ +⎢ ⎥⎜ ⎟

⎝ ⎠⎣ ⎦

Page 134: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 134

Théorème de Vapnik :

Q : Quelles sont les conditions nécessaires et suffisantes pour assurer la consistence ?R : Le processus d’apprentissage est consistent si et seulement si la famille de modèles a une VC dimension finie hLa VC dimension finie ne garantit pas seulementla généralisation, mais c’est LA SEULE MANIERE qui permet à la généralisation de se produire.

Page 135: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 135

Vitesse de convergence

Taille de l’ens. d’apprentissage: n

IntervalleErreur en généralisation

Erreur d’apprentissage

% erreur

Page 136: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 136

Vitesse de convergence (2)

Q : Quelle est la différence entre les erreurs d’apprentissage et de test pour une taille donnée de l’ensembled’apprentissage ? R : La différence entre les erreursd’apprentissage et de test dépend durapport entre la VC dimension, h, et la taille de l’ensemble d’apprentissage, n.

Page 137: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 137

Inégalité de Vapnik

Avec la probabilité 1- α:

ne fait pas intervenir p mais la VC dimension hNe fait pas intervenir la distribution de probabilité P

( )( )emp

ln 2 1 ln( 4)h n hR R

nα+ −

< +

Page 138: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 138

n fixé

Page 139: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 139

Contrôle de la Capacité de Généralisation

Risque = Risque d’Apprentissage + Intervalle de ConfianceMinimiser la seule erreur d’apprentissage ne donnera pas une espérance d’erreurfaible (une bonne généralisation)

minimiser la somme de l’erreur d’apprentissage et de l’intervalle de confiance.

Page 140: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 140

5.3 Choix de modèles et SRM

Page 141: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 141

De Guillaume d’Occam à Vapnik

wikipedia

Guillaume d’Occam (1285 - 3 avril 1349), dit le « docteur invincible » franciscain philosophe logicien et théologien scolastique.Etudes à Oxford, puis Paris. Enseigne quelques années à Oxford. Accusé d'hérésie, convoqué pour s’expliquer à Avignon, excommunié , se réfugie à Munich, à la cour de Louis de Bavière, lui-même excommunié. Meurt de l'épidémie de peste noire.A inspiré le personnage du moine franciscain Guillaume de Baskerville dans le « Nom de la rose » d'Umberto Eco. Premier jour, vêpres : « il ne faut pas multiplier les explications et les causes sans qu'on en ait une stricte nécessité. »

Page 142: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 142

Le rasoir d’Occam ou principe de parcimoniePrincipe de raisonnement attribué à Occam : « Les multiples ne doivent pas être utilisés sans nécessité » (pluralitas non est ponenda sine necessitate).

Rasoir d'Ockham et science moderne

Le rasoir d'Ockham n'est malheureusement pas un outil très incisif, car il ne donne pas de principe opératoire clair pour distinguer entre les hypothèses en fonction de leur complexité : ce n'est que dans le cas où deux hypothèses ont la même vraisemblance qu'on favorisera l'hypothèse la plus simple (ou parcimonieuse). Il s'agit en fait d'une application directe du théorème de Bayes où l'hypothèse la plus simple a reçu la probabilité a priori la plus forte. Des avatars modernes du rasoir sont les mesures d'information du type AIC, BIC où des mesures de pénalité de la complexité sont introduites dans la log-vraisemblance.

wikipedia

Page 143: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 143

Critères de vraisemblance pénalisée

Comparer des modèles ayant des nombres de paramètres différents: K nombre de paramètres à estimer.Critère d’Akaïke :

AIC = -2 ln(L) + 2K

Critère de Schwartz :BIC = -2 ln(L) + K ln(n)

On préférera le modèle pour lequel ces critères ont la valeur la plus faible.

Page 144: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 144

AIC et BIC ne sont semblables qu’en apparenceThéories différentes

AIC : approximation de la divergence de Kullback-Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée

Asymptotiquement:

( )( ; ) ( )ln (ln( ( )) (ln( ( ))( ) f f

f tI f g f t dt E f t E g tg t

= = −∫

ˆˆ ˆ(ln( ( ; )) ln( ( ))fE E g t L k

θθ θ −∼

Page 145: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 145

BIC : choix bayesien de modèlesm modèles Mi paramétrés par θi de probabilités a priori P(Mi) égales.

Distribution a priori de θi pour chaque modèle P(θi / Mi).Distribution a posteriori du modèle sachant les données P(x/Mi) ou

vraisemblance intégréeChoix du modèle le plus probable a posteriori revient à maximiser

ˆln( ( / ) ln( ( / , ) ln( )2i i ikP M P M nθ −x x∼

0.5

0.5

1

( / )i

j

BIC

i mBIC

j

eP Me

=

=

∑x

Page 146: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 146

Comparaison AIC BIC

Si n tend vers l’infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l’AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biais-varianceL’AIC est un critère prédictif tandis que le BIC est un critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation

Page 147: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 147

AIC BIC réalistes?

Vraisemblance pas toujours calculable.Nombre de paramétres non plus: ridge, PLS etc. « Vrai » modèle?

« tous les modèles sont faux ; certains sont utiles »G.Box

Vapnik: choisir selon la VC dimension

Page 148: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 148

Principe de minimisation structurée du risque (SRM)

lorsque n/h est faible (h trop grand), le deuxième terme est grandL’idée générale du SRM est de minimiser la somme des deux termes à la droite de l’inéquation. Pour ce faire, il est nécessaire de faire de la VC dimension (h) une variable contrôlée

( )( )L

qhLhwEwR ln12ln)()( −++<

( )( )emp

ln 2 1 ln( / 4)h n hR R

nα+ −

< +

Page 149: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 149

SRM (2)• Si deux familles de modèles expliquent les données avec une qualité égale, alors la famillequi a la plus faible VC dimension doit êtrepréférée.• Si deux modèles expliquent les données avec une qualité égale, alors celui qui provient d’une famille à plus faible VC dimension a une meilleure performance en généralisation.

Page 150: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 150

SRM (3)

Pour construire le meilleur modèle à partir de données, il faut tenter d’optimiser à la fois sa performance sur l’ensemble d’apprentissage,et sa performance de généralisation tirée de la VC dimension : pour ce faire, il faut parcourir une suite de familles d’applications pour y construire ce modèle.

Page 151: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 151

SRM (4)

Considérons une structure S1 ⊂ S2 ⊂ .. ⊂ SLsur l’ensemble des fonctions vérifiant la propriété

h1 < h2 < .. < hL

Pour chaque élément Si de la structure, l’inégalité

est valide

( )( )emp

ln 2 1 ln( / 4)i ih n hR R

nα+ −

< +

Page 152: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 152

Théorème (Devroye, Vapnik) :Pour toute distribution le SRM fournit la

meilleure solution possible avec probabilité 1

(universally strongly consistent)

Page 153: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 153

Application du principe SRM

La structure Si (familles de modèles) peut être contrôlée par :

Architecture de réseaux de neuronesDegré d’un polynômeContrôle des poids dans un réseau de neurones, ...Arbres avec élagage?

Page 154: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 154

Avec/sans l’approche SRM deVapnik

Sans le SRM:Hypothèses sur la distribution statistique (inconnue) des donnéesUn grand nombre de dimensions signifie un modèle à grand nombre de paramètres, ce qui pose des problèmes de généralisationModéliser revient à chercher le meilleur ajustement

Avec le SRM:On étudie la famille de modèles, contrôlant sa VC dimension hLe nombre de paramètres peut être très grand, car on contrôle par définition la généralisationModéliser c’est rechercher le meilleur compromis entre ajustement et robustesse

Page 155: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 155

Contrôle de h

h doit être fini h/n doit être petit: si n augmente, on peut augmenter la complexité du modèleh décroit avec:

Réduction de dimension (cf. RCP, Disqual,PLS)La marge (SVM)k en régression ridge

Mais h difficile à obtenir

Page 156: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 156

Les 3 échantillons:Apprentissage: pour estimer les paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance sur des données futures

Rééchantillonner: validation croisée, bootstrap

Modèle final: avec toutes les données disponibles

Page 157: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 157

Principes d’induction

Ne pas chercher à résoudre un problème plus général que nécessaire

Ne pas estimer une densité si on veut estimer une fonctionNe pas estimer une fonction si on veut seulement estimer une valeur en un point

Page 158: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 158

5.4 Indices de performance

Classification supervisée binaireTaux d’erreur trop réducteur (choix de seuil)Score ou probabilité d’appartenance

Page 159: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 159

Courbe ROC

Groupe à détecter G1: scores élevésSensibilité 1-β= P(S>s/G1):% de vrais positifsSpécificité 1-α=P(S<s/G2) :% de vrais négatifs

Page 160: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 160

Courbe ROCEvolution de 1-β puissance du test en fonction de α, risque de première espèce lorsque le seuil varie

Proportion de vrais positifs en fonction de la proportion de faux positifs

Page 161: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 161

Un site: http://www.anaesthetist.com/mnm/stats/roc/

Page 162: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 162

Surface sous la courbe ROC

Surface théorique sous la courbe ROC: P(X1>X2) si on tire au hasard et indépendemment une observation de G1et une observation de G2

Estimation non-paramétrique de la surface:

Proportion de paires concordantes

( ( )) ( )s

sAUC s d sβ α

=−∞

=+∞= −∫ 1

1 2

cncn n

=

Page 163: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 163

Courbe ROC: interprétation (3)

Courbe ROC et surface sont des mesures intrinsèques de séparabilité, invariantes pour toute transformation monotone croissante du scoreLa surface est liée aux statistiques U de Mann-Whitney et W de Wilcoxon nc= U U+W= n1n2+0.5n1(n1+1)

AUC=U/n1n2

Page 164: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 164

mesures de concordanceCoefficients d ’association entre les probabilités calculées et les réponses observées.Paires formées d’une obs où Y=1 et d’une où Y=0 .

Nombre de paires t=n1n2 n=n1+n2

Si l’observation « Y = 1 » a une probabilité estimée que Y = 1, plus grande que l’observation « Y = 0 » la paire est concordante. nc = nombre de paires concordantes; nd = nombre de paires discordantes; t - nc - nd = Nb d’ex-aequoD de Somers = (nc - nd) / tGamma = (nc - nd) / (nc + nd)Tau-a = 2 (nc - nd) / n(n-1)La capacité prédictive du modèle est d’autant meilleure que ces indices sont proches de 1.

Page 165: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 165

Indice de Gini

Double de la surface entre la courbe ROC et la diagonale

G=2AUC-1

En l’absence d’ex-aequo: G identique au D de Somers

Page 166: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 166

Courbe de lift

% de la cible

Page 167: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 167

Surface sous la courbe lift

Pourcentage d’individus ayant un score>s

Surface

( ) ( )p pβ α− + −1 11 1

{ }( ) ( ) ( )

( ) ( ) ( ) ( )

( )

L d p p

p d p d

p p AUC

β β α

β β β α

= − − + − =

⎡ ⎤ ⎡ ⎤− − + − −⎣ ⎦ ⎣ ⎦

= + −

∫∫ ∫

1 1

1 1

11

1 1 1

1 1 1 1

12

Page 168: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 168

Coefficient Ki (Kxen)

Ki=(surface entre lift estimé et aléatoire) / (surface entre lift idéal et aléatoire)Ki=2(surface ROC)-1

1 1

1 1

12(1 ) 12 2 11 1

2

L p p AUCKi AUCp p

− + − −= = = −

− −

Page 169: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 169

Application au choix de modèles

Selon l’AUC, Gini ou KI: équivalentRappel: ne pas comparer les performances des modèles sur l’ensemble d’apprentissage…

Page 170: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 170

Numerical experiments

Insurance data set split into learning (752) and test sample (356) ten times Five methods:

discrimination with selection of MCA factorsLogistic regression on raw dataLogistic regression on selected factorsPLS regression with CV choice of the number of componentsBarycentric discrimination

Page 171: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 171

Pearson Correlation Coefficients, N = 365 scdisc sclogb sclogf scpls fact scdisc 1.00000 0.96876 0.99885 0.98032 0.97464 sclogb 0.96876 1.00000 0.96821 0.99070 0.96218 sclogf 0.99885 0.96821 1.00000 0.97996 0.97597 scpls 0.98032 0.99070 0.97996 1.00000 0.97735 fact 0.97464 0.96218 0.97597 0.97735 1.00000

Page 172: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 172

Courbe ROC

Les segments diagonaux sont générés par des liaisons.

1 - Spécificité

1.00.75.50.250.00

Sen

sitiv

ité

1.00

.75

.50

.25

0.00

Source de la courbe

SCOBARY

SCPLS

SCLOGF

SCLOGIST

SCDISQUA

Area under ROC curve

score area SCDISQUA .934 SCLOGIST .933 SCLOGF .932 SCPLS .933 SCOBARY .935

Page 173: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

6. Prédiction anticipée en analyse discriminante sur données fonctionnelles

G. Damiana Costanzo∗, Cristian Preda†, Gilbert Saporta‡

∗ Dipartimento di Economia e Statistica, Universita della Calabria, [email protected]

† Université Lille 2, France, [email protected]

‡ CNAM Paris, [email protected]

Page 174: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 174

Courbes de pétrissage (Danone-Vitapole)

Page 175: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 175

Après lissage par B-splines cubiques (Lévéder & al, 2004)

Page 176: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 176

Discrimination sur données fonctionnellesCas particulier de la régression sur données fonctionnelles pour deux classes

Anticipationdéterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]

Page 177: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 177

Régression sur données fonctionnelles

Y ; Xt (E(Y)=E(Xt) =0 )Les mco

Equations normales ou de Wiener-Hopf:

C(t,s)= cov(Xt, Xs)=E(Xt, Xs)

0ˆ ( )

T

tY t X dtβ= ∫

0cov( , ) ( , ) ( )

T

tX Y C t s s dsβ= ∫

Page 178: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 178

Expression Integral regression utilisée par R.A.Fisher en 1924 dans « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B: 213: 89-142 (1924)« L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972

Page 179: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 179

décomposition de Karhunen-Loeve

facteurs:

Composantes principales:

Covariance avec une composante principale:

1

( )t i ii

X f t ξ∞

=

=∑

0( , ) ( ) ( )

T

i i iC t s f s ds f tλ=∫

0( )

T

i i tf t X dtξ = ∫

0 0cov( , ) cov( , ( ) ) ( ) ( )

T T

i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫

Page 180: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 180

Théorème de Picard: β unique si et seulement si:

faux la plupart du temps et en particulier quand n est fini car p >n

Solution sous contraintes (cf Green & Silverman 1994, Ramsay & Silverman 1997).

2

21

i

i i

=

< ∞∑

Page 181: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 181

Régression sur composantes principales

Approximation de rang q:

1

cov( ; )ˆ ii

i i

YY ξ ξλ

=

=∑

22 2

1 1

ˆ( , ) ( , ) ii

i i i

cR Y Y r Y ξλ

∞ ∞

= =

= =∑ ∑

1

cov( ; )ˆq

iq i

i i

YY ξ ξλ=

=∑

Page 182: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 182

Quelle composantes?Les q premières?Les q plus corrélées?

Les composantes principales sont calculées sans tenir compte de la réponse Y

Page 183: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 183

Régression PLS

Utiliser les composantes PLS au lieu des composantes principalesPremière composante PLS :

Puis itération sur les résidus

2

0max cov ( , ( ) )

T

w tY w t X dt∫2 1w =

2

0

cov( , )( )cov ( , )

tT

t

X Yw tX Y dt

=

∫ 1 0( )

T

tt w t X dt= ∫

Page 184: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 184

Approximation de Y par Xt d’ordre q:

Convergence :

Mais q doit être fini pour avoir une formule!q déterminé par validation croisée(Preda & Saporta, 2005)

( ) 1 1 ( )0ˆˆ ... ( ) dt

T

PLS q q q PLS q tY c t c t t Xβ= + + = ∫

2

( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =

Page 185: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 185

Meilleur ajustement par PLS que par ACP:

(De Jong 1993)

2 2( ) ( )

ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥

Page 186: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 186

Discrimination linéaire

L’analyse discriminante linéaire recherche des combinaisons linéaires du type maximisant le rapport variance inter/variance totale Pour deux groupes la FLD de Fisher s’obtient en régressant Y bivalué sur Xt (Preda & Saporta, 2005) avec par exemple

0( )

T

tt X dtβ∫

01

0 1

et ppp p

Page 187: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 187

La régression PLS avec q composantes fournit une approximation de β(t) et du scorePour k>2 groupes on effectue une régression PLS2 entre le vecteur des k-1 indicatrices de Y et Xt

Les composantes PLS s’obtiennent à partir du premier vecteur propre du produit des opérateurs d’Escoufier WxWY (puis de ceux associés aux résidus) définis par (Preda & Saporta, 2002)

T 0d ( ) ( )

T

PLS PLS tX T X dtβ= Φ = ∫

Page 188: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 188

Mesures de qualité

Pour k=2 : courbe ROC et AUCPour un seuil s , x est classé en 1 si dT(x)>sSensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α

Page 189: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 189

Prédiction anticipée

Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]Solution:

En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)

Page 190: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 190

Test d’égalité via une procédure bootstrapRééchantillonnage des données, stratifié pour conserver les proportions des classesA chaque réplication b on calcule AUCb(s) et AUCb(T)Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)

Page 191: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 191

Données simuléesDeux classes équiprobablesW(t) brownien standard

Page 192: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 192

Page 193: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 193

Avec B=50

Page 194: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 194

Courbes de pétrissageAprès un temps T= 480 de pétrissage on fabrique des biscuits de qualité Y115 observations dont 50 « bonnes », 40 «mauvaises » et 25 « ajustables »241 points de mesure équidistantsLissage avec B-splines cubiques , 16 nœuds

Page 195: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 195

Performances pour Y={bon,mauvais}100 séparations apprentissage test (60, 30)

Taux d’erreur moyen0.142 avec composantes principales0.112 avec composantes PLS

AUC moyen 0.746

Fonction β(t)

Page 196: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 196

Prédiction anticipéeAvec B=50t*=186

Il est donc possible de réduire de plus de moitié la durée d’étude.

Page 197: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 197

Travaux en cours:recherche de prédiction « on-line »: adapter

t* pour chaque nouvelle courbeComparaison avec régression logistique PLS fonctionnelle et autres approches

Page 198: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 198

7. Conclusion et défisLa théorie de l’apprentissage fournit le cadre conceptuel pour l’inférence en Data Mining où la statistique usuelle n’est plus applicable

A propos des modèlesEn Data Mining et Apprentissage: un modèle n’est pas

une représentation parcimonieuse du monde réel provenant d’une théorie scientifique mais une simple technique de prédiction. Dans de nombreux domaines , il n’y a pas de théorie . La statistique est un outil d’aide à la décision Statistics et non un auxiliaire de la science.Prédire sans comprendre?

Page 199: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 199

RéférencesCherkassky, V., Mulier, F. Learning from data , Wiley, 1998D. Costanzo, C. Preda et G. Saporta (2006). Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-VerlagDevroye, L., Györfi, L., Lugosi, G. A Probabilistic Theory of Pattern Recognition, Springer, 1996Hastie, T., Tibshirani, F., Friedman J., Elements of StatisticalLearning, Springer, 2001Preda C. , Saporta G. (2005): PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48 (1), 149-158.Suykens , J. & al Least squares support vector machines , World Scientific, 2002Suykens, J. & al (editors) Advances in Learning Theory: Methods,Models and Applications, NATO Science Series, IOS Press, 2003Vapnik, V. Statistical Learning Theory, Wiley, 1998Vapnik, V. Estimation of Dependences Based on Empirical Data, 2nd edition, Springer, 2006

Page 200: Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Diablerets, Mars 2007 200

Ressources

http://www.kernel-machines.org Th.Joachims « tutorial SVM »C.Burges « a tutorial on SVM for pattern recognition »

Software:http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.csie.ntu.edu.tw/~cjlin/