Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer

Classification supervisée

Gilbert SaportaConservatoire National des Arts et Métiers, [email protected]://cedric.cnam.fr/~saporta

mailto:[email protected]

http://cedric.cnam.fr/~saporta

Diablerets, Mars 2007 2

Plan

1. Introduction2. Méthodes linéaires de discrimination3. Prédicteurs qualitatifs4. Support vector machines5. Théorie de l’apprentissage et choix de modèles6. Données fonctionnelles7. Conclusion


1.Introduction

Problème:Prédire une réponse Y à 2 catégories (en général)X1,…,Xp prédicteurs

Terminologie variée: classification supervised learning discriminationpattern recognition


« Statistics is the science of learning from data » (J.Kettenring, 1997, ancien président de l ’ASA).

« There are two problems in modern science:Too many people use different terminology to solve the same problemEven more people use the same terminology to address completely different issues »

(V.Cherkassky, F.Mulier, 1998)


Quelques dates :

P.C. Mahalanobis 1927H. Hotelling 1931R. A. Fisher 1936J.Berkson 1944C.R.Rao 1950T.W.Anderson 1951D.Cox 1960D.Mc Fadden 1973V.Vapnik 1998


2. Méthodes linéaires

2.1 Analyse discriminante et fonction de Fisher2.2 Régression logistique2.3 Comparaison2.4 L’hyperplan de marge maximale


2.1 Analyse discriminante analysis2.1.1 Analyse factorielle discriminante

Dispersion intergroupe et dispersion intra groupe.

W = matrice variance intraW = 1/n Σni Vi

B = matrice variance interB = 1/n Σni (gi - g) (gi - g)’

V = W + B variance totale

V1

g1

V2

g2

Vk

gk


Axes discriminants : deux objectifs

Dispersion intraclasse minimale : min u’Wu

Dispersion interclasse maximale : maxu’Bu

u

g2

gkg1


Simultanéité impossible

Compromis :

-1 -1

min max max

V W Bu V u u W u u B u

u B u u B uouu V u u W u

V Bu u W Bu uλ μ

= +′ ′ ′= +

′ ′⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟′ ′⎝ ⎠ ⎝ ⎠

= =

min ' min imax ' max

u Wu Wu uu Bu Bu u i

α αβ β

⇒ =⇒ =


ACP du nuage des gi avec :Métrique V-1

Métrique W-1 Mahalanobis

( )

1

-1

a) Bu u Bu u Bu (W B)u 1- Bu Wu

b) W Bu u u1-

VV

λλλ

λ λλ μλ

− === +

=

= =


Nombre d’axes discriminants

ACP des groupes : dimension de l’espace contenant les groupes gi

Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher

K = 3 Setosa, Versicolor, VirginicaP=4 longueur pétale, longueur sépale, largeur pétale, largeur sépalen1=n2=n3 =50

Donc deux axes


Iris setosa Iris versicolor Iris virginica



Cas de deux groupes

g1 et g2 sont sur une une droite : 1 seul axe discriminant

RAPPEL : en ACP axe a, facteur u = M a

Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)

e

ad e a

e Ma e uM= < >

= ′ = ′

,

a g g= − α ( )1 2


Fonction de Fisher (1936)

Le « meilleur » prédicteur linéaire au sens de la maximisation du T de StudentScore de Fisher:

1 11 2

1 11 2

1 2

( )p p

x x

x x

− −

⎛ ⎞−⎜ ⎟

= − = ⎜ ⎟⎜ ⎟−⎝ ⎠

β W g g W

1 11 2 1 2 1 2

1 1 0

1( ) ( ) ' ( ) ' ( )2

... p p

S

β β β

− −= − − − +

= + + +

x g g W x g g W g g

x x


2.1.3 Une régression « incorrecte »

y à 2 valeurs (-1;+1) ou (0;1) ou (a;b)a=n/n1 b=-n/n2

Dp distance de Mahalanobis entre groupesIncompréhensions et controverses!

11 2

22

21 2

( )

( 2)1p

n n RDn n R

−= −

−=

−

β V g g


MAIS : Modèle linéaire usuel non valide :

en discriminante c’est l’inverse que l’on suppose :

( )/ ~ ; ix y N μ ∑

( )2/ ~ ; y x N x Iβ σ


Conséquences

Pas de test,pas d’erreurs standard sur les coefficientsMAIS possibilité d’utiliser les méthodes de pas à pas en régression.


Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL

1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 9122 1 DECES 90 1.68 18.7 24 31.0 14.0 14763 1 DECES 120 1.40 11.7 23 29.0 8.0 16574 2 SURVIE 82 1.79 21.8 14 17.5 10.0 7825 1 DECES 80 1.58 19.7 21 28.0 18.5 14186 1 DECES 80 1.13 14.1 18 23.5 9.0 16647 2 SURVIE 94 2.04 21.7 23 27.0 10.0 10598 2 SURVIE 80 1.19 14.9 16 21.0 16.5 14129 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759

10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 80711 2 SURVIE 90 2.79 31.0 16 25.0 8.0 71712 2 SURVIE 86 2.70 31.4 15 23.0 9.5 68113 2 SURVIE 80 2.61 32.6 8 15.0 1.0 46014 2 SURVIE 61 2.84 47.3 11 17.0 12.0 47915 2 SURVIE 99 3.12 31.8 15 20.0 11.0 51316 2 SURVIE 92 2.47 26.8 12 19.0 11.0 61517 2 SURVIE 96 1.88 19.6 12 19.0 3.0 80918 2 SURVIE 86 1.70 19.8 10 14.0 10.5 65919 2 SURVIE 125 3.37 26.9 18 28.0 6.0 66520 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796


FONCTION LINEAIRE DISCRIMINANTE

VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROB........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)

(SEUIL= 0.20).............................................................................................

3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.005 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.316 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.178 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.84

CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.695.............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000.............................................................................................

SPAD


2.1.3 Méthodes géométriques de classement

Échantillon d’apprentissage

e observation de groupe inconnu

e classé dans le groupe i tel que: d(e ; gi) minimal

e?

y x x p' . . .

.

.

.

112

1

g1

g2

g3

G1

G2

G3

e


Pour deux groupes

On classe e en G1 si:

Fonction de Fisher >cScore de Fisher positif

2 21 2

2 1 1 ' 1 ' 1

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

( ; ) ( ; )

( ; ) ( ) ' ( ) ' 2

2 2

( ) ' ( )

i i i i i i

d e g d e g

d e g e g W e g e W e gW e gW g

g W e g W g g W e g W g

g g W e g W g g W g

− − − −

− − − −

− − −

<

= − − = − +

− > −

− > −


pour deux groupes

On classe dans G1 si:

Fonction de Fisher >cScore de Fisher:

' 1 ' 1 ' 1 ' 11 1 1 2 2 2

1 ' 1 ' 111 2 1 1 2 22

2 2

( ) ' ( )

g W e g W g g W e g W g

g g W e g W g g W g

− − − −

− − −

− > −

− > −

1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g− − −− − −


Interprétation géométriqueProjection sur la droite des centres avec la métrique W-1

Dualité axe-frontière planefrontière

axe discriminant

Analyse discriminante probabiliste.

pj probabilité a priori d’appartenir au groupe j fj (x) loi des xi dans le groupe j

1

( )Formule de Bayes : ( / )

( )

j jj k

j jj

p fP G

p f=

=

∑

xx

x

Problème : estimer les fj (x)


La règle bayésiennenaïve dans le cadre normal

( ) ( )( )

( )( ) ( )

( )

( ) ( )

j

11/2/2

j j

1j j

x densité d'une N ;

1 1 exp -22

max p f x attribuer x au groupe le plus probable a posteriori

1 1max Ln p 2 2

j j

j j j jpj

j j j

f

f x x x

x x Ln

μ

μ μπ

μ μ

−

−

⎛ ⎞′= − −⎜ ⎟⎝ ⎠

⇒

⎡ ′− − − −

∑

∑∑

∑ ∑ règle quadratique

⎤⎢ ⎥⎣ ⎦


La règle bayésienne

1 2

1 1 1j

1j

simplificatrice : ... =On attribue x au groupe j tel que :

1 1max Ln p 2 2

1 : max Ln p2

j j j

j j

j

indépendantdu groupe

a

Hypothèse

x x x

donc

μ μ μ

μ μ

− −

−

∑ = ∑ ∑

⎡ ⎤⎢ ⎥⎢ ⎥′ ′ ′− ∑ − ∑ + ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

′− ∑ 1

j j

Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation de par g et de par W.

jx μ

μ

−

⎡ ⎤⎢ ⎥

′+ ∑⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

∑


Analyse discriminante probabiliste:cas de deux groupes

( ) ( )

( )( )

( ) ( )

( ) ( ) ( ) ( )

1 1 2 2

-11/2 /2

-1 -1 -1 -11 21 1 2 2 2

1

-1 12 11 2 1 2 1 2

fonction de Fisher

1 exp 1/2 ' 2

1/2 p 1/2 p

' p / 1/2 '

i p i i

p f x p f x

f x x x

x Log x Log

x Log p

μ μπ

μ μ μ μ μμ

μ μ μ μ μ μ−

>

= − − ∑ −∑

′ ′ ′∑ − ∑ + > ∑ − ∑ +′

− ∑ > + − ∑ +

Affecter au groupe 1 si :


Fonction de score et probabilité

Fonction de score S(x) :

Règle :affecter au groupe 1 si S(x)>0

Probabilité d’appartenance au groupe 1 :

( )( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )1

11

1 2

2 1

11 1

1 11 1 2 2

1 11 1 2 2

1/2

1/2 1/2

1/2 1/2

G /

/

P

1/ 1

x x

x x x x

x x x x

p exp e p e

p p ep

μ μ

μ μ μ μ

μ μ μ μ

′

′ ′

′

−

− −

− −

− − ∑ −

− − ∑ − − − ∑ −

− − ∑ − + − ∑ −

+

=

= +

1 121 2 1 2 1 2

1

1( ) ( ) ' ln( ) ( ) ' ( )2

pS x xp

μ μ μ μ μ μ− −= − Σ − − − Σ +


Probabilité a posteriori

( ) ( ) ( )

( )

( )

( )

-S x 1/p-1 1/p=1+e

1 Fonction logistique du score1 1

S x

S x S x

Log S x

epe e−

= −

= =+ +


S(x)

2

1

1( ( ) 0) ln2

p

p

pP S x P Up

⎛ ⎞Δ ⎛ ⎞> = > +⎜ ⎟⎜ ⎟⎜ ⎟Δ ⎝ ⎠⎝ ⎠

• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0


Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876

Proc discrimSAS


ADL optimale (règle de Bayes) pour des prédicteurs gaussiens de même matrices decovariance

Mais peut être appliqué même si ces hypothèses ne sont pas vérifiées.


2.2 Régression logistique

Berkson (1944), Cox (1958): medical statistics, epidemiologyLater in econometrics with Nobel prize McFadden (1973)Risk factors, not individual prediction

0 1 1

0 1 1

...

...( ) ( 1 / )1

p p

p p

eP Ye

β β β

β β βπ+ + +

+ + += = = =+

x x

x xx X x

0 1 1 ... p pscore x xβ β β= + + +


Exemple : Age and Coronary Heart Disease Status (CHD) (Hosmer &Lemeshow; M.Tenenhaus)

Data

ID AGRP AGE CHD12345

979899100

11111

8888

2023242525

64646569

00001

0111


Avec mise en classes

Age Group nCHDabsent

CHDpresent

Mean(Proportion)

20 – 2930 – 3435 – 3940 – 4445 – 4950 –5455 - 5960 - 69

101512151381710

9139107342

123565138

0.100.130.250.330.460.630.760.80

Total 100 57 43 0.43

Relative frequencies

AGEGRP

87654321

Pro

porti

on (C

HD

)

1.0

.8

.6

.4

.2

0.0


Le modèle logistique simple

x

x

10

10

e1e)x( β+β

β+β

+=π

x))x(1

)x((Log 10 β+β=π−

π

ou

Probabilité d'une maladie cardiaque

en fonction de l'age

AGE

70605040302010

Pro

b(Y

=1 /

X)

1.0

.8

.6

.4

.2

0.0

Fonction de lien : Logit


Il s’agit bien d’un probléme de régression:Modélisation de l’espérance conditionnelle

E(Y/X=x)=f(x)

Choix de la forme logistique en épidémiologie:

S’ajuste bienInterprétation de β1 en termes d’odds-ratio


Odds-Ratio

Si X binaire (sujet exposé X=1, non exposé X=0)

0 1 0

0 1 01 / 1 ( 1/ 0)( )

1 1Y X P Y XP

e ee e

β β β

β β β

+

+= = = == =+ +

1( 1/ 1) / ( 0/ 1)( 1/ 0) / ( 0/ 0)

P Y X P Y XOR eP Y X P Y X

β= = = == =

= = = =


Odds-RatioMesure l’évolution du rapport des

chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.Formule générale:

1( 1) /(1 ( 1))

( ) /(1 ( ))x xOR e

x xβπ π

π π+ − +

= =−


Interprétation économètrique

Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.Z est l’« intensité du désir » de posséder le bien Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0


Modèle d’utilité

pour le ménage i de caractéristiques xi (âge, sexe, revenu, CSP...), la possession du bien procure un niveau d’utilité U(1,xi), la non possession U(0,xi).

Yi = 1 ⇔ U(1,xi) > U(0,xi)Yi = 0 ⇔ U(0,xi) > U(1,xi)

Variable latente Zi = U(1,xi) – U(0,xi).


Modèle d’utilité (suite)

Zi = xi β + εi

πi = P(Yi=1|xi)= P(Zi > 0)=P(xi β> -εi) = F(xiβ) F fonction de répartition de -εi

Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit


Estimation des paramètres

Les données

X Y x1

xi

xn

y1

yi

yn

yi = 1 si caractère présent,0 sinon

i10

i10

x

xii

e1e

)xX/1Y(P)x(

β+β

β+β

+=

===π

Le modèle


Vraisemblance (conditionnelle!)

Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]

∏=

===n

1iii )xX/yY(Prob ∏

=

−π−π=n

1i

y1i

yi

ii ))x(1()x(

),(L 10 ββ=∏=

−β+β

β+β

β+β

β+β

+−

+=

n

1i

y1x

xy

x

xi

i10

i10i

i10

i10

)e1

e1()e1

e(


maximum de vraisemblancemaximisent

Maximisation de la log-vraisemblance

Estimateurs obtenus par des procédures numériques: pas d’expression analytique

10ˆet ˆ ββ 0 1( , ) (β)L Lβ β =

[ ]1

( ) log ( ) log ( ) (1 )log(1 ( ))n

i i i ii

L y x y xβ π π=

= = + − −∑β

10

11

( ) ( ( )) 0

( ) ( ( )) 0

n

i ii

n

i i ii

y x

x y x

β πββ πβ

=

=

∂⎧= − =⎪ ∂⎪

⎨∂⎪ = − =⎪ ∂⎩

∑

∑


Précision (asymptotique) des estimateurs

La matrice

est estimée par la matrice

⎥⎦

⎤⎢⎣

⎡

ββββββ

=β)ˆ(V)ˆ,ˆ(Cov

)ˆ,ˆ(Cov)ˆ(V)ˆ(V110

100

1

ˆ2

2 )(L Log−

β=β⎥⎦

⎤⎢⎣

⎡

β∂β∂

−


12

2ˆ

1

1 1

2

1 1

1 1 1 1

( )ˆ( )

ˆ ˆ ˆ ˆ (1 ) (1 )

ˆ ˆ ˆ ˆ(1 ) (1 )

ˆ ˆ1 (1 ) 0 1

ˆ ˆ1 0 (1 ) 1

n n

i i i i ii in n

i i i i i ii i

n n n n

V

x

x x

x x

x x

β β

βββ

π π π π

π π π π

π π

π π

−

=

−

= =

= =

⎡ ⎤−∂= ⎢ ⎥∂⎣ ⎦

⎡ ⎤− −⎢ ⎥⎢ ⎥=⎢ ⎥

− −⎢ ⎥⎣ ⎦

′ −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

∑ ∑

∑ ∑1

1 ( ) .

−

−

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

′= X VX


Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . . AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117

5,3095 0,1109

5,3095 0,1109( )1

x

x

exe

π− +

− +=+


Régression logistique multiple

Généralisation à p variables explicatives X1,…, Xp.

0 1 1

0 1 1

...

...( ) ( 1/ )1

p p

p p

x x

x xex P Y X x

e

β β β

β β βπ+ + +

+ + += = = =+


Tests sur les paramètres

Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :

1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score

H0 : βj = 0H1 : βj ≠ 0


Test de Wald

analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :

représente l’estimation de l’écart-type de l’estimateur de β1.Sous l’hypothèse H0, w2 suit approximativement une loi du khi-deux à un degré de liberté .

Rejet de H0 si w2

1

1

ˆˆˆ( )

wsββ

=

1ˆ( )s β

)1(21 α−χ≥


Test du rapport des vraisemblances

L’apport de la variable X est mesuré à l’aide de la statistique :

G = -2 log [ ]

sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.Vraisemblance sans la variable:

Vraisemblance sans la variableVraisemblance avec la variable

01

01nn nn

n n⎛ ⎞⎛ ⎞

⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠


Test du score

U vecteur des dérivées partielles de la log-vraisemblance estiméesLe score suit également asymptotiquementsous H0 une loi du khi-deux à un degré de libertéEn régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X

00 0

1

ˆ ˆˆ( ) ( ) ( )

H HHscore U J U

β ββ β β

−⎡ ⎤′= ⎣ ⎦


Comparaison des 3 tests


Tests

Tests d’absence d’effet de toutes les variables: H0 : β1 = …… = βp = 0

Rapport de vraisemblance GScore test USous H0, suivent tous deux asymptotiquement une loi du χ2 à p ddl


2.3 Comparaison logistique-discriminante

Avantages proclamés de la logistique:Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)


Mais:Erreurs standard asymptotiques , bootstrapen ADNon convergence en cas de séparation parfaite. Fisher existe toujours

Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standardL’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)


Querelle largement idéologique (modélisation versus analyse des données)

L’AD est aussi un modèle, mais sur les lois des X/Y, la logistique sur les lois de Y/X

En pratique différences peu nettes: fonctions de score souvent très proches

« It is generally felt that logistic regression is a safer, more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)


Variable N Mean Std Dev Sum Minimum Maximum

scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074

scorfish scorlog

scorfish 1.00000 0.99881

scorlog 0.99881 1.00000


Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque)

Logistique aussi utilisée en scoringSi l’objectif est de classer:

On ne fait plus de la science mais de l’aide à la décisionMieux vaut essayer les deux méthodes. Mais comment les comparer?Le vrai critère de choix est la performance en généralisation


Remarque: probabilités a posteriori et stratification

Estimer les probas a posteriori nécessite de connaître les vraies probas a prioriModifier les a priori change seulement la constante β0 en discriminante comme en logistique:

Important pour les probabilités, pas pour un score


2.4 Autres méthodes issues de la régression linéaire

En cas de multicolinéarité.

2.4.1 Régression ridge

k optimisé par validation croisée (KXEN)

1ˆ ( ' ) 'k −= +β X X I X y2 2 2min with d− <y Xβ β


2.4.2 Analyse discriminante PLS

Des composantes expliquant à la fois Y et les XCritère de Tucker:

Composantes suivantes sur les résidus. Arrêt par validation croisée.Suite de régressions simples (ni inversion, ni diagonalisation)

2max ( cov( ; ))y Xw2 2(cov( ; )) ( ; ). ( ). ( )r V V=y Xw y Xw Xw y


2.5 L’hyperplan de marge maximale

Solution de Vapnik

Frontière avec « no man’s land » maximal


Un peu de géometrieEquation d’un hyperplan:

Coefficients définis à un facteur près:b=1 ou

Distance à l’hyperplan:

( ) 0f b b= + = + =x w'x x'w

bd

+=

w'xw

1=w


Hyperplan optimal

Maximise la « marge » ou rayon du corridor: distance du point le plus proche à l’hyperplan


Cas séparableMarge C: tous les points sont à une distance > C

'

'

'

max sous ( ) et 1

contrainte équivalente: ( )1ou car et définis à l'échell

min

e

sous ( )

p ès

1

r

i i

i

i i

i

C y x w b C w

y x w b C w

w y x w b

w w bC

+ ≥ =

+

+ ≥

≥

=


Programme quadratique

Lagrangien:

D’où:

Dual de Wolfe

2 '2 ( ) 1i i iw y x w bα ⎡ ⎤− + −⎣ ⎦∑

1 1 et 0

n n

i i i i ii i

w y x yα α= =

= =∑ ∑

'

1

1max 2

avec 0 et 0

i i k i k i k

n

i i ii

y y x x

y

α αα

α α=

⎡ ⎤−⎢ ⎥⎣ ⎦

> =

∑ ∑∑

∑


Conditions de Kühn et Tucker:

w, donc l’hyperplan, ne dépend que des points supports où les αi sont non nuls.

'i

'i

'i

(x w ) 1 0

0 alors (x w ) 1

(x w ) 1 alors 0

i i

i i

i i

y b

Si y b

Si y b

α

α

α

⎡ ⎤+ − =⎣ ⎦> + =

+ > =


Solution

0

'

0 0

( )

i

i i

n

i i i

n n

i i i i i i

y

f b y b y b

α

α α

α

α α

>

> >

=

= + = + = +

∑

∑ ∑i

w x

x w x x x x x


L’hyperplan optimal ne dépend que des points proches (différe de Fisher)

Plus la marge est grande, meilleure est la robustesse en principe.Mais pas toujours :


Le cas non séparable

Deux solutions:• modifier le critère• changer d’espace pour rendre le problème linéairement séparable: •Une combinaison des deux: SVM


Variables d’écart

On borne la proportion de points tombant du mauvais côté.La solution ne dépend que des points supports où :

'imin w sous (x w ) 1

et i i

i

y b ξ

ξ γ

+ ≥ −

<∑

'i(x w ) 1i iy b ξ+ > −


Formulation équivalente:

C contrôle le trade-off entre la marge et l’erreur.0<αi<γ

'i

2min w av (xc w ) 1e ii iC y b ξξ⎡ ⎤+⎣ ⎦ + ≥ −∑


Classifieur ou fonction de score

f(x) ne dépend que des points supportsest une combinaison linéaire des variablesRègle de décision selon le signe de f(x)

'

0 ( ) '

i

i i if b y bα

α>

= + = +∑x w x x x


3. Prédicteurs qualitatifs

Fréquent en crédit à la consommation, mais pas dans les publications..

ProfessionEmploiStatut matrimonial...


3.1 ADL pour prédicteurs qualitatifs: un peu de (pré)histoire

Fisher (1940) Un seul prédicteurEquations de l’analyse des correspondancesIntroduction du vocable « Scores »




3.2 Cas général : p prédicteursQuantification optimale:

Attribuer des notes partielles aux catégories des prédicteurs pour maximiser la distance de Mahalanobis dans Rp

Une analyse discriminante où les variables qualitatives sont remplacées par les indicatrices des modalités

0 1 0 1 01 0 0 0 10 0 1 1 0

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

=X


X de rang insuffisant: rank(X)=Σmi-pSolution classique: éliminer une indicatrice par prédicteur (note nulle)Disqual (Saporta, 1975):

ADL sur une sélection de composantes de l’Analyse des Correspondances Multiples de X. Semblable à la régression sur composantes principales Sélection experte selon deux critères: inertie et corrélation avec la réponse


Exemple assurance (jeu d’essai SPAD)

1106 contrats automobile belges :2 groupes: « 1 bons », « 2 mauvais »

9 prédicteurs: 20 catégoriesUsage (2), sexe(3), langue (2), âge (3), région (2), bonus-malus (2), puissance (2), ancienneté (2), âge du véhicule (2)


ACM


ADL de Fisher sur les composantes

FACTEURS CORRELATIONS COEFFICIENTS ..............................................................................1 F 1 0.719 6.90642 F 2 0.055 0.7149 3 F 3 -0.078 -0.82114 F 4 -0.030 -0.46155 F 5 0.083 1.25816 F 6 0.064 1.02747 F 7 -0.001 0.21698 F 8 0.090 1.31339 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10


3.3 scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil


+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+

Grille de score


3.4 Discriminante PLS et discrimination barycentrique

Première composante PLS : p régressions simples séparées sur chaque prédicteur (variables indicatrices)Chaque régression PLS de Y sur les indicatrices de Xj est identique à la régression usuelle (Y standardisé, pas X, pas de terme

constant)


Une composante PLS: équivalent à l’AFC du tableau de contingence concaténé

good bad 1 cusag1 29 96 2 cusag2 344 272 3 sexe1 288 253 4 sexe2 76 78 5 sexe3 9 37 6 clang1 250 295 7 clang2 123 73 8 age3m1 118 99 9 age3m2 40 163 10 age3m3 215 106 11 cpost2m1 75 172 12 cpost2m2 298 196 13 bm2m_11 298 59 14 bm2m_12 75 309 15 puis2m1 91 47 16 puis2m2 282 321 17 dpoli2m1 277 137 18 dpoli2m2 96 231


Technique dite “discrimination barycentrique”:

• Score d’un individu: somme des p probabilités conditionnelles d’appartenance au groupe 2.

• Semblable au classifieur “naïf Bayes” : score multiplicatif.

• Equivalent à Disqual si les prédicteurs sont indépendants deux à deux


Catégorisation de prédicteurs numériques

Ex: classes d’âge au lieu de l’âgeUne perte de précision?Traitement des non-linéarités

Utile pour les outliers: robustesseTraitement des valeurs manquantes

1

( )p

j jj

S Xϕ=

= ∑ ϕj fonctions en escalier


Prétraitement

Sélection de variables, discrétisation, détection des interactions Xj*Xk: consommatrices de tempsDe nouveaux outils :

K2C, Khiops, Datalab..


Credit scoring is the set of decision models and their underlying techniques that aid lenders in the granting of consumer credit.

Credit scoring is one the most successful applications of statistical modeling in finance and banking. Yet because credit scoring does not have the same glamour as the pricing of exotic financial derivatives or portfolio analysis, the literature on the subject is very limited.

Thomas & al. 2002

3.5 credit scoring


Le comité de Bâle sur la supervision bancaire

Créé en 1974 par le G10 Banque des Règlements Internationaux (BIS)

Réduire la vulnérabilité par la mise en place d’un ratio prudentiel attestant d’un niveau minimal de fonds propres.

Accords Bâle II


Bâle 2Une « révolution quantitative » (A.L.Rémy Crédit Agricole)

« banks are expected to provide an estimate of the PD and LGD »

PD (probability de défaut)LGD (perte en cas de défaut)EAD (exposition en cas de défaut)

Calcul du capital nécessaire au niveau de confiance 99.9% à un an


Impact énorme sur les études statistiques. Exigence de justification statistique et de backtesting imposé par le régulateur (Commission Bancaire)Recrutements massifs

Le « New Basel Capital Accord » régulera les prêts bancaires à partir de 2007


4. Les SVM non-linéaires

Passage dans un espace de données transformées (« feature space ») de grande dimensionUn séparateur linéaire dans Φ(E) donne un séparateur non-linéaire dans E.




Solution

i k1max Φ(x ) Φ(x )2

0 et 0

i i k i k

i i i

y y

C y

α αα

α α

⎧ ⎡ ⎤−⎪ ⎢ ⎥⎣ ⎦⎨⎪ < < =⎩

∑ ∑∑∑

Ne dépend que des produits scalaires

0 ( )

i

n

i if y bα

α>

= +∑ ix Φ(x ) Φ(x)


Espaces de Hilbert à noyaux reproduisants

Noyaux K(x,x’)=Φ(x) Φ(x’)Le « kernel trick »:choisir astucieusement K pour faire les calculs uniquement dans l’espace de départ.Exemple:Dans l’espace d’arrivée:

2 21 2 1 1 2 2x ( ; ) (x) ( ; 2 ; )x x x x x x= Φ =

2 '2 ' ' 2 '21 1 1 2 1 2 2 2

' ' 2 21 1 2 2

(x) (x ') 2

( ) (xx ')

x x x x x x x x

x x x x

Φ Φ = + +

= + =


On peut donc calculer le produit scalaire dans Φ(E) sans utiliser Φ

Conditions de Mercer pour avoir un noyau:k(xi;xj) terme général d’une matrice sdp

supports

Solution (x) ( ; )i i ii

f y K x x bα∈

= +∑


Exemples de noyaux

Linéaire K(x;x’)=<x;x’>Polynomial:

K(x;x’)=(<x;x’>)d ou (<x;x’> +1)d

Gaussien (radial basis) K(x;x’)=exp-(||x-x’||2)/σ2)

Diablerets, Mars 2007 104Joachims



Hastie, Tibshirani, Friedman : « The Elements of Statistical Learning », Springer-Verlag, 2001


Approches voisines

LS-SVM, GDA (Baudat, Anouar) : fonction de Fisher dans le feature space


5. La théorie de l’apprentissage statistique

Norbert Wiener 1948

Frank Rosenblatt 1962

Vladimir Vapnik 1982

Image courtesy of the Research Laboratory of Electronics at MIT.

http://en.wikipedia.org/wiki/MIT


Le problème de la boîte noire et l’apprentissage supervisé

Etant donnée une entrée x, un système non déterministe renvoie une variable y = f(x)+e. On dispose de n paires (xi,yi) et on cherche une fonction qui approxime la fonction inconnue f.Deux conceptions:

Une bonne approximation est une fonction proche de fUne bonne approximation est une fonction qui donne un taux d’erreur voisin de celui de la boîte noire


Le perceptron: la première « machine à apprendre »

Rosenblatt (1958)


Equation de l’hyperplan séparateur

(x) w'x 0f b= + =


Minimiser la somme des distances au plan des observations mal classéesSolution initiale, lecture séquentielle des donnéesOn modifie les coefficients dès qu’un mal-classése présente:

mal classés

mal classés mal classés

min ( ( ' ))

gradient w b

i i

i i i

y w x b

y x y

− +

∂ ∂= − = −

∂ ∂

∑

∑ ∑

1

i i

in n

y xw wyb b

ρ−

⎛ ⎞⎛ ⎞ ⎛ ⎞+ →⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠⎝ ⎠


Gradient stochastique (obs. par obs.)ρ coefficient d’apprentissage

Solutions multiples dans le cas séparable selon l’initialisationNon convergence dans le cas non séparable


5.1 Risque empirique et généralisation

Fonction de perte L(y;f(x,w))Régression L(y;f(x,w))=(y-f(x))2

Discrimination : taux (ou coût) d’erreur de classement

y et à valeurs dans {-1 ;+1}Risque (erreur de généralisation sur de nouvelles données z = (X, y) )

( ) ( , ) ( )R E L L z w dP z= = ∫

( )21 1ˆ ˆ ˆ( ; )2 2

L y y y y y y= − = −

y


Objectif impossible: minimiser sur w le Risque

P(z) probabilité inconnue

On dispose seulement de n cas d’apprentissage (z1, .. , zn) tirés suivant la loi P(z), au lieu de minimiser R, on minimise le Risque Empirique :

1

1 ( ; ( ; ))n

emp i ii

R L y f x wn =

= ∑


Problème central en théorie de l’apprentissage:Quelle est la relation entre le Risque R et le risque empirique Remp ?

Quelle est la capacité de généralisationde ce genre de modèle?


Le dilemme biais-variance

Modèle y=f(x )+ε, f estimé sur données d’apprentissageErreur de prédiction

Doublement aléatoire

Erreur quadratique moyenne de prédiction (risque R)

0 0 0 0ˆˆ ( ) ( )y y f x f xε− = + −

( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0

ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +

biais

variance


• premier terme: aléa irréductible• deuxième terme: carré du biais du modèle • troisième terme: variance de la prédiction

Plus un modèle sera complexe plus le biais sera faible, mais au détriment de la variance

( ) ( ) ( )( ) ( )222 2 20 0 0 0 0 0 0

ˆ ˆ ˆˆ ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f xσ σ− = + − = + − +


La robustesse: une exigence insuffisante:

Modèle robuste: erreurs en apprentissage et en généralisation du même ordre de grandeur

x

Y

surajustement

x

Y

Modèle robuste


Compromisx

Y

Trop robuste…


La consistence

Un processus d’apprentissage estconsistent si l’erreur sur l’ensemble d’apprentissage converge vers l’erreur en généralisation lorsque la taille de l’ensemble d’apprentissage augmente


%erreur

Taille ens. d’apprentissage

Erreur en généralisation

Erreur d’apprentissage

Apprentissage consistent


Taille ens. d’apprentissag

%erreurErreur en généralisation


Apprentissage non consistent


Les quatre piliers de la théorie de l’apprentissage

1 Consistence (garantit la généralisation)Sous quelles conditions un modèle peut-ilgénéraliser?

2 Vitesse de convergence en fonction du nombre d’exemples (mesure de la généralisation)

Comment s’améliore la généralisation lorsque le nombre d’exemples augmente ?


Quatre piliers de la théoriede l’apprentissage

3 Contrôle de la capacité de généralisationComment contrôler efficacement la généralisation à partir de l’information contenue dans un ensemble d’apprentissage de taille finie ?

4 Construire des algorithmes d’apprentissageExiste-t-il une stratégie pour construire des algorithmes qui garantissent, mesurent et contrôlent la capacité de généralisation de modèles d’apprentissage ?


5.2 La VC dimension

Dimension de Vapnik-Cervonenkis: une mesure du pouvoir séparateur(complexité) d’une famille de fonctionsVC dimension : un nombre entier attaché à une famille F de fonctions (classifieurs) paramétrée par w

f (X,w) ≥ 0 : X classé en 1f (X,w) < 0 : X classé en -1

( , ) : pf X w →


VC dimension suiteéchantillon de n points (x1, .. , xn) de Rp

Il existe 2n manières différentes de séparer cet échantillon en deux sous-échantillons (colorier les points) Un ensemble F de fonctions f(X,w)“hache” (shatters) l’échantillon si les 2n

séparations peuvent être faites par des f(X,w) différentes de la famille F


Aucune ligne droite ne peut séparer les points noirs des points roses

Exemple

En 2-D, les fonctions linéaires (droites) peuvent “hacher” 3 points, mais pas 4


Un ensemble de fonctions de Rp -> Ra la VC-dimension h si :

Il existe un jeu de h points de Rp qui peut être “haché”, quelle que soit l’étiquetage des pointsAucun ensemble de h+1 points ne peut être haché par cet ensemble de fonctions.


Quelques exemples

La VC dimension de l’ensemble des hyperplans de R p est p+1

Hyper-rectangles de R p parallèles aux axes

h=2p

(V.Cherkassky, F.Mulier, 1998)

Sphères de R p

h=p+1


Mais les VC dimensions ne sont PAS égales au nombre de paramètres libres

La VC dimension de l’ensemble de fonctionsf(x,w) = sign (sin (w.x) ),c < x < 1, c>0,

avec un paramètre libre w est infinie.

Hastie et al. 2001


Deux cas importants:a) régression ridge

La VC dimension de l’ensemble des indicatrices linéaires

satisfaisant à la condition :

dépend de C et peut prendre toute valeur de 0 à p+1.

( )( )1( , ) 1p

i iif X w sign w x

X R=

= +

≤

∑

2 21

1pii

W wC=

= ≤∑

2

min ; 1Rh ent p2C⎡ ⎤⎛ ⎞

≤ +⎢ ⎥⎜ ⎟⎝ ⎠⎣ ⎦


b) L’hyperplan de marge maximale

Même résultat:

2

2min ; 1Rh ent pC

⎡ ⎤⎛ ⎞≤ +⎢ ⎥⎜ ⎟

⎝ ⎠⎣ ⎦


Théorème de Vapnik :

Q : Quelles sont les conditions nécessaires et suffisantes pour assurer la consistence ?R : Le processus d’apprentissage est consistent si et seulement si la famille de modèles a une VC dimension finie hLa VC dimension finie ne garantit pas seulementla généralisation, mais c’est LA SEULE MANIERE qui permet à la généralisation de se produire.


Vitesse de convergence

Taille de l’ens. d’apprentissage: n

IntervalleErreur en généralisation


% erreur


Vitesse de convergence (2)

Q : Quelle est la différence entre les erreurs d’apprentissage et de test pour une taille donnée de l’ensembled’apprentissage ? R : La différence entre les erreursd’apprentissage et de test dépend durapport entre la VC dimension, h, et la taille de l’ensemble d’apprentissage, n.


Inégalité de Vapnik

Avec la probabilité 1- α:

ne fait pas intervenir p mais la VC dimension hNe fait pas intervenir la distribution de probabilité P

( )( )emp

ln 2 1 ln( 4)h n hR R

nα+ −

< +


n fixé


Contrôle de la Capacité de Généralisation

Risque = Risque d’Apprentissage + Intervalle de ConfianceMinimiser la seule erreur d’apprentissage ne donnera pas une espérance d’erreurfaible (une bonne généralisation)

minimiser la somme de l’erreur d’apprentissage et de l’intervalle de confiance.


5.3 Choix de modèles et SRM


De Guillaume d’Occam à Vapnik

wikipedia

Guillaume d’Occam (1285 - 3 avril 1349), dit le « docteur invincible » franciscain philosophe logicien et théologien scolastique.Etudes à Oxford, puis Paris. Enseigne quelques années à Oxford. Accusé d'hérésie, convoqué pour s’expliquer à Avignon, excommunié , se réfugie à Munich, à la cour de Louis de Bavière, lui-même excommunié. Meurt de l'épidémie de peste noire.A inspiré le personnage du moine franciscain Guillaume de Baskerville dans le « Nom de la rose » d'Umberto Eco. Premier jour, vêpres : « il ne faut pas multiplier les explications et les causes sans qu'on en ait une stricte nécessité. »


Le rasoir d’Occam ou principe de parcimoniePrincipe de raisonnement attribué à Occam : « Les multiples ne doivent pas être utilisés sans nécessité » (pluralitas non est ponenda sine necessitate).

Rasoir d'Ockham et science moderne

Le rasoir d'Ockham n'est malheureusement pas un outil très incisif, car il ne donne pas de principe opératoire clair pour distinguer entre les hypothèses en fonction de leur complexité : ce n'est que dans le cas où deux hypothèses ont la même vraisemblance qu'on favorisera l'hypothèse la plus simple (ou parcimonieuse). Il s'agit en fait d'une application directe du théorème de Bayes où l'hypothèse la plus simple a reçu la probabilité a priori la plus forte. Des avatars modernes du rasoir sont les mesures d'information du type AIC, BIC où des mesures de pénalité de la complexité sont introduites dans la log-vraisemblance.

wikipedia


Critères de vraisemblance pénalisée

Comparer des modèles ayant des nombres de paramètres différents: K nombre de paramètres à estimer.Critère d’Akaïke :

AIC = -2 ln(L) + 2K

Critère de Schwartz :BIC = -2 ln(L) + K ln(n)

On préférera le modèle pour lequel ces critères ont la valeur la plus faible.


AIC et BIC ne sont semblables qu’en apparenceThéories différentes

AIC : approximation de la divergence de Kullback-Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée

Asymptotiquement:

( )( ; ) ( )ln (ln( ( )) (ln( ( ))( ) f f

f tI f g f t dt E f t E g tg t

= = −∫

ˆˆ ˆ(ln( ( ; )) ln( ( ))fE E g t L k

θθ θ −∼


BIC : choix bayesien de modèlesm modèles Mi paramétrés par θi de probabilités a priori P(Mi) égales.

Distribution a priori de θi pour chaque modèle P(θi / Mi).Distribution a posteriori du modèle sachant les données P(x/Mi) ou

vraisemblance intégréeChoix du modèle le plus probable a posteriori revient à maximiser

ˆln( ( / ) ln( ( / , ) ln( )2i i ikP M P M nθ −x x∼

0.5

0.5

1

( / )i

j

BIC

i mBIC

j

eP Me

−

−

=

=

∑x


Comparaison AIC BIC

Si n tend vers l’infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l’AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biais-varianceL’AIC est un critère prédictif tandis que le BIC est un critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation


AIC BIC réalistes?

Vraisemblance pas toujours calculable.Nombre de paramétres non plus: ridge, PLS etc. « Vrai » modèle?

« tous les modèles sont faux ; certains sont utiles »G.Box

Vapnik: choisir selon la VC dimension


Principe de minimisation structurée du risque (SRM)

lorsque n/h est faible (h trop grand), le deuxième terme est grandL’idée générale du SRM est de minimiser la somme des deux termes à la droite de l’inéquation. Pour ce faire, il est nécessaire de faire de la VC dimension (h) une variable contrôlée

( )( )L

qhLhwEwR ln12ln)()( −++<

( )( )emp

ln 2 1 ln( / 4)h n hR R

nα+ −

< +


SRM (2)• Si deux familles de modèles expliquent les données avec une qualité égale, alors la famillequi a la plus faible VC dimension doit êtrepréférée.• Si deux modèles expliquent les données avec une qualité égale, alors celui qui provient d’une famille à plus faible VC dimension a une meilleure performance en généralisation.


SRM (3)

Pour construire le meilleur modèle à partir de données, il faut tenter d’optimiser à la fois sa performance sur l’ensemble d’apprentissage,et sa performance de généralisation tirée de la VC dimension : pour ce faire, il faut parcourir une suite de familles d’applications pour y construire ce modèle.


SRM (4)

Considérons une structure S1 ⊂ S2 ⊂ .. ⊂ SLsur l’ensemble des fonctions vérifiant la propriété

h1 < h2 < .. < hL

Pour chaque élément Si de la structure, l’inégalité

est valide

( )( )emp

ln 2 1 ln( / 4)i ih n hR R

nα+ −

< +


Théorème (Devroye, Vapnik) :Pour toute distribution le SRM fournit la

meilleure solution possible avec probabilité 1

(universally strongly consistent)


Application du principe SRM

La structure Si (familles de modèles) peut être contrôlée par :

Architecture de réseaux de neuronesDegré d’un polynômeContrôle des poids dans un réseau de neurones, ...Arbres avec élagage?


Avec/sans l’approche SRM deVapnik

Sans le SRM:Hypothèses sur la distribution statistique (inconnue) des donnéesUn grand nombre de dimensions signifie un modèle à grand nombre de paramètres, ce qui pose des problèmes de généralisationModéliser revient à chercher le meilleur ajustement

Avec le SRM:On étudie la famille de modèles, contrôlant sa VC dimension hLe nombre de paramètres peut être très grand, car on contrôle par définition la généralisationModéliser c’est rechercher le meilleur compromis entre ajustement et robustesse


Contrôle de h

h doit être fini h/n doit être petit: si n augmente, on peut augmenter la complexité du modèleh décroit avec:

Réduction de dimension (cf. RCP, Disqual,PLS)La marge (SVM)k en régression ridge

Mais h difficile à obtenir


Les 3 échantillons:Apprentissage: pour estimer les paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance sur des données futures

Rééchantillonner: validation croisée, bootstrap

Modèle final: avec toutes les données disponibles


Principes d’induction

Ne pas chercher à résoudre un problème plus général que nécessaire

Ne pas estimer une densité si on veut estimer une fonctionNe pas estimer une fonction si on veut seulement estimer une valeur en un point


5.4 Indices de performance

Classification supervisée binaireTaux d’erreur trop réducteur (choix de seuil)Score ou probabilité d’appartenance


Courbe ROC

Groupe à détecter G1: scores élevésSensibilité 1-β= P(S>s/G1):% de vrais positifsSpécificité 1-α=P(S<s/G2) :% de vrais négatifs


Courbe ROCEvolution de 1-β puissance du test en fonction de α, risque de première espèce lorsque le seuil varie

Proportion de vrais positifs en fonction de la proportion de faux positifs


Un site: http://www.anaesthetist.com/mnm/stats/roc/

http://www.anaesthetist.com/mnm/stats/roc/


Surface sous la courbe ROC

Surface théorique sous la courbe ROC: P(X1>X2) si on tire au hasard et indépendemment une observation de G1et une observation de G2

Estimation non-paramétrique de la surface:

Proportion de paires concordantes

( ( )) ( )s

sAUC s d sβ α

=−∞

=+∞= −∫ 1

1 2

cncn n

=


Courbe ROC: interprétation (3)

Courbe ROC et surface sont des mesures intrinsèques de séparabilité, invariantes pour toute transformation monotone croissante du scoreLa surface est liée aux statistiques U de Mann-Whitney et W de Wilcoxon nc= U U+W= n1n2+0.5n1(n1+1)

AUC=U/n1n2


mesures de concordanceCoefficients d ’association entre les probabilités calculées et les réponses observées.Paires formées d’une obs où Y=1 et d’une où Y=0 .

Nombre de paires t=n1n2 n=n1+n2

Si l’observation « Y = 1 » a une probabilité estimée que Y = 1, plus grande que l’observation « Y = 0 » la paire est concordante. nc = nombre de paires concordantes; nd = nombre de paires discordantes; t - nc - nd = Nb d’ex-aequoD de Somers = (nc - nd) / tGamma = (nc - nd) / (nc + nd)Tau-a = 2 (nc - nd) / n(n-1)La capacité prédictive du modèle est d’autant meilleure que ces indices sont proches de 1.


Indice de Gini

Double de la surface entre la courbe ROC et la diagonale

G=2AUC-1

En l’absence d’ex-aequo: G identique au D de Somers


Courbe de lift

% de la cible


Surface sous la courbe lift

Pourcentage d’individus ayant un score>s

Surface

( ) ( )p pβ α− + −1 11 1

{ }( ) ( ) ( )

( ) ( ) ( ) ( )

( )

L d p p

p d p d

p p AUC

β β α

β β β α

= − − + − =

⎡ ⎤ ⎡ ⎤− − + − −⎣ ⎦ ⎣ ⎦

= + −

∫∫ ∫

1 1

1 1

11

1 1 1

1 1 1 1

12


Coefficient Ki (Kxen)

Ki=(surface entre lift estimé et aléatoire) / (surface entre lift idéal et aléatoire)Ki=2(surface ROC)-1

1 1

1 1

12(1 ) 12 2 11 1

2

L p p AUCKi AUCp p

− + − −= = = −

− −


Application au choix de modèles

Selon l’AUC, Gini ou KI: équivalentRappel: ne pas comparer les performances des modèles sur l’ensemble d’apprentissage…


Numerical experiments

Insurance data set split into learning (752) and test sample (356) ten times Five methods:

discrimination with selection of MCA factorsLogistic regression on raw dataLogistic regression on selected factorsPLS regression with CV choice of the number of componentsBarycentric discrimination


Pearson Correlation Coefficients, N = 365 scdisc sclogb sclogf scpls fact scdisc 1.00000 0.96876 0.99885 0.98032 0.97464 sclogb 0.96876 1.00000 0.96821 0.99070 0.96218 sclogf 0.99885 0.96821 1.00000 0.97996 0.97597 scpls 0.98032 0.99070 0.97996 1.00000 0.97735 fact 0.97464 0.96218 0.97597 0.97735 1.00000


Courbe ROC

Les segments diagonaux sont générés par des liaisons.

1 - Spécificité

1.00.75.50.250.00

Sen

sitiv

ité

1.00

.75

.50

.25

0.00

Source de la courbe

SCOBARY

SCPLS

SCLOGF

SCLOGIST

SCDISQUA

Area under ROC curve

score area SCDISQUA .934 SCLOGIST .933 SCLOGF .932 SCPLS .933 SCOBARY .935

6. Prédiction anticipée en analyse discriminante sur données fonctionnelles

G. Damiana Costanzo∗, Cristian Preda†, Gilbert Saporta‡

∗ Dipartimento di Economia e Statistica, Universita della Calabria, [email protected]

† Université Lille 2, France, [email protected]

‡ CNAM Paris, [email protected]




Courbes de pétrissage (Danone-Vitapole)


Après lissage par B-splines cubiques (Lévéder & al, 2004)


Discrimination sur données fonctionnellesCas particulier de la régression sur données fonctionnelles pour deux classes

Anticipationdéterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]


Régression sur données fonctionnelles

Y ; Xt (E(Y)=E(Xt) =0 )Les mco

Equations normales ou de Wiener-Hopf:

C(t,s)= cov(Xt, Xs)=E(Xt, Xs)

0ˆ ( )

T

tY t X dtβ= ∫

0cov( , ) ( , ) ( )

T

tX Y C t s s dsβ= ∫


Expression Integral regression utilisée par R.A.Fisher en 1924 dans « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B: 213: 89-142 (1924)« L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972


décomposition de Karhunen-Loeve

facteurs:

Composantes principales:

Covariance avec une composante principale:

1

( )t i ii

X f t ξ∞

=

=∑

0( , ) ( ) ( )

T

i i iC t s f s ds f tλ=∫

0( )

T

i i tf t X dtξ = ∫

0 0cov( , ) cov( , ( ) ) ( ) ( )

T T

i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫


Théorème de Picard: β unique si et seulement si:

faux la plupart du temps et en particulier quand n est fini car p >n

Solution sous contraintes (cf Green & Silverman 1994, Ramsay & Silverman 1997).

2

21

i

i i

cλ

∞

=

< ∞∑


Régression sur composantes principales

Approximation de rang q:

1

cov( ; )ˆ ii

i i

YY ξ ξλ

∞

=

=∑

22 2

1 1

ˆ( , ) ( , ) ii

i i i

cR Y Y r Y ξλ

∞ ∞

= =

= =∑ ∑

1

cov( ; )ˆq

iq i

i i

YY ξ ξλ=

=∑


Quelle composantes?Les q premières?Les q plus corrélées?

Les composantes principales sont calculées sans tenir compte de la réponse Y


Régression PLS

Utiliser les composantes PLS au lieu des composantes principalesPremière composante PLS :

Puis itération sur les résidus

2

0max cov ( , ( ) )

T

w tY w t X dt∫2 1w =

2

0

cov( , )( )cov ( , )

tT

t

X Yw tX Y dt

=

∫ 1 0( )

T

tt w t X dt= ∫


Approximation de Y par Xt d’ordre q:

Convergence :

Mais q doit être fini pour avoir une formule!q déterminé par validation croisée(Preda & Saporta, 2005)

( ) 1 1 ( )0ˆˆ ... ( ) dt

T

PLS q q q PLS q tY c t c t t Xβ= + + = ∫

2

( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =


Meilleur ajustement par PLS que par ACP:

(De Jong 1993)

2 2( ) ( )

ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥


Discrimination linéaire

L’analyse discriminante linéaire recherche des combinaisons linéaires du type maximisant le rapport variance inter/variance totale Pour deux groupes la FLD de Fisher s’obtient en régressant Y bivalué sur Xt (Preda & Saporta, 2005) avec par exemple

0( )

T

tt X dtβ∫

01

0 1

et ppp p

−


La régression PLS avec q composantes fournit une approximation de β(t) et du scorePour k>2 groupes on effectue une régression PLS2 entre le vecteur des k-1 indicatrices de Y et Xt

Les composantes PLS s’obtiennent à partir du premier vecteur propre du produit des opérateurs d’Escoufier WxWY (puis de ceux associés aux résidus) définis par (Preda & Saporta, 2002)

T 0d ( ) ( )

T

PLS PLS tX T X dtβ= Φ = ∫


Mesures de qualité

Pour k=2 : courbe ROC et AUCPour un seuil s , x est classé en 1 si dT(x)>sSensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α


Prédiction anticipée

Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]Solution:

En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)


Test d’égalité via une procédure bootstrapRééchantillonnage des données, stratifié pour conserver les proportions des classesA chaque réplication b on calcule AUCb(s) et AUCb(T)Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)


Données simuléesDeux classes équiprobablesW(t) brownien standard



Avec B=50


Courbes de pétrissageAprès un temps T= 480 de pétrissage on fabrique des biscuits de qualité Y115 observations dont 50 « bonnes », 40 «mauvaises » et 25 « ajustables »241 points de mesure équidistantsLissage avec B-splines cubiques , 16 nœuds


Performances pour Y={bon,mauvais}100 séparations apprentissage test (60, 30)

Taux d’erreur moyen0.142 avec composantes principales0.112 avec composantes PLS

AUC moyen 0.746

Fonction β(t)


Prédiction anticipéeAvec B=50t*=186

Il est donc possible de réduire de plus de moitié la durée d’étude.


Travaux en cours:recherche de prédiction « on-line »: adapter

t* pour chaque nouvelle courbeComparaison avec régression logistique PLS fonctionnelle et autres approches


7. Conclusion et défisLa théorie de l’apprentissage fournit le cadre conceptuel pour l’inférence en Data Mining où la statistique usuelle n’est plus applicable

A propos des modèlesEn Data Mining et Apprentissage: un modèle n’est pas

une représentation parcimonieuse du monde réel provenant d’une théorie scientifique mais une simple technique de prédiction. Dans de nombreux domaines , il n’y a pas de théorie . La statistique est un outil d’aide à la décision Statistics et non un auxiliaire de la science.Prédire sans comprendre?


RéférencesCherkassky, V., Mulier, F. Learning from data , Wiley, 1998D. Costanzo, C. Preda et G. Saporta (2006). Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-VerlagDevroye, L., Györfi, L., Lugosi, G. A Probabilistic Theory of Pattern Recognition, Springer, 1996Hastie, T., Tibshirani, F., Friedman J., Elements of StatisticalLearning, Springer, 2001Preda C. , Saporta G. (2005): PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48 (1), 149-158.Suykens , J. & al Least squares support vector machines , World Scientific, 2002Suykens, J. & al (editors) Advances in Learning Theory: Methods,Models and Applications, NATO Science Series, IOS Press, 2003Vapnik, V. Statistical Learning Theory, Wiley, 1998Vapnik, V. Estimation of Dependences Based on Empirical Data, 2nd edition, Springer, 2006


Ressources

http://www.kernel-machines.org Th.Joachims « tutorial SVM »C.Burges « a tutorial on SVM for pattern recognition »

Software:http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.csie.ntu.edu.tw/~cjlin/

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

http://www.csie.ntu.edu.tw/~cjlin/

Documents

Multicolinéarité et régression PLSstat 2007...La règle bayésienne naïve dans le cadre normal ( ) () ()() ()() j 1 /2 1/2 jj 1 jj x densité d'une N ; 11 exp - 2 2 max p f x attribuer