42
Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ? Estimation non paramétrique : Quelques (bonnes ?) pratiques dans l’ Christophe Bontemps Toulouse School of Economics (INRA) Séminaire joint : Séminaire Statistique TSE et Réseau des Ingénieurs Statisticiens Toulousains 13 mai 2014

Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Estimation non paramétrique :

Quelques (bonnes ?) pratiques dans l’

Christophe BontempsToulouse School of Economics (INRA)

Séminaire joint :Séminaire Statistique TSE et Réseau des Ingénieurs Statisticiens

Toulousains13 mai 2014

Page 2: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

PLAN

Pourquoi ce “non”Définition par le “ non”

Estimer une densitéDes boites et des bossesEn pratique avec R

La fenêtre !Critères

La régressionLa fenêtre !Cas pratiques avec RLes cas moins simplesCas pratiques avec R

A quoi ça sert tout ça ?Estimation d’uneprobabilité conditionnelleAjustement, prévisions etsimulationsVous avez demandé untest ?

Page 3: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Une définition par le “ non”

I Non-paramétrique ne s’oppose pas vraiment àparamétrique

I C’est l’objet d’intérêt qui n’est pas un paramètreI On parle aussi d’estimation fonctionnelle, de paramètre

fonctionnelI Une estimation non-paramétrique comporte des choix de

paramètresI ∃ de multiples façon d’estimer non-paramétriquement→ Focus sur les méthodes "à noyau"I Beaucoup de méthodes sont programmées dans R

Page 4: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Soit {(Xi), i = 1, . . . ,n}, Xi iid ∼ f (x)→ Tout le monde a déjà estimé une densité

non-paramétriquementI L’histogramme c’est un estimateur de la densité !

I On partage le support de x en segments de largeur h et onconstruit des “boites” de hauteur 1

h

fh(x) =1n

n∑i=1

1h· 1[

Xi dans le meme segment que x]

I L’histogramme c’est une “somme de boites” de largeur h Demo 1

Page 5: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Pour l’estimation non-paramétrique de la densité :I On choisit un “noyau” i.e. une fonction K(·), par exemple :

ou ou bien , ou ...K(.) est une sorte de “bosse” et vérifie :∫

K(u)du = 1,∫

u K(u)du = 0, et∫

u2 K(u)du = κ2 <∞I L’estimateur à noyau de Parzen-Rosenblatt est :

fh(x) =1

nh

n∑i=1

K(

Xi − xh

)I Ca ressemble à l’histogramme non ?

fh(x) =1

nh

n∑i=1

1[Xi dans le meme segment que x

]I Peut être vu comme une "somme de bosses"

Page 6: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une bosse

Page 7: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une bosse autour de chaque point

Page 8: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses

Page 9: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

L'estimateur = somme de bosses

BossesEstimateur

Page 10: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si j’agrandis “h”

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=1)

Page 11: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si j’agrandis “h” encore

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=1.5)

Page 12: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si je réduit “h”

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=0.25)

Page 13: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? En résumé

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 0.25

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 1

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 0.5

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 1.5

Page 14: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

En pratique avec RI La commande plot(density(x)) permet de représenter

graphiquement la densitéI Plusieurs packages permettent rapidement d’estimer une

densitéI KernSmooth, npI ggplot2 permet également de faire des representations (très

jolies)→ Focus sur np ici pour des raisons explicitées plus tard.

Page 15: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Exemple de graphique avec ggplot2 (fonction qplot)

0.00000

0.00005

0.00010

0.00015

0.00020

0 10000 20000 30000 40000Salaires

Den

sity

as.factor(Diplome)

1

2

3

4

Distribution des salaires par Diplome

Page 16: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre ?I Visuellement ...I Calculer un critère pour différentes valeurs de h et prendre

le minimum...I Directement avec l’erreur quadratique en un point

MSE(fh(x)) :

MSE(fh(x)) = E[(f (x)− f (x))2

]= Var(fh(x))+

{Biais(fh(x))

}2

I Mieux encore, l’IMSE(fh) =∫

MSE(fh(x))dx

' 1nh

∫K2(z)dz +

h4

2· κ2

2 ·∫ (

f ”(z))2dz

=1

nh· Φ0 +

h4

2· κ2

2 · Φ1

I Et ça c’est vachement utile !

Page 17: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre (suite)I l’IMSE(fh) = 1

nh · Φ0 + h4

2 · κ22 · Φ1

et donc : si nh↗∞ le premier terme disparaît et si h↘ 0 ; c’est le second !

I La fenêtre qui minimise l’IMSE(fh) est : hopt = c · n−1/5

avec c =[ ∫

K2(z)dz(∫

z2K(z)dz)2·(∫(f”(z))2dz

]1/5

I On a ensuite le choix :I “Faire comme si” on connaissait κ2, Φ0, et Φ1→ Règle du pouce : hRoT = 1.059 · σ(x) · n−1/5

I Estimer toutes ces choses là :∫ (

f ”(x))2dx, ... c

→Méthode de Plug-in : hPlug = c · n−1/5

Page 18: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre (validation croisée)I On peut aussi décomposer l’ISE(fh(x)) :

ISE(fh(x)) =

∫ (fh(x)− f (x)

)2dx

=

∫fh(x)2dx︸ ︷︷ ︸

calculable

−2∫

fh(x)f (x)dx︸ ︷︷ ︸E(fh(x))

+

∫f (x)2dx︸ ︷︷ ︸

pas de h !

I Quelques calculs plus tard... on minimise un critèreempirique basé sur l’estimation de ces valeurs

CV(h) =1

n2h

n∑i=1

n∑j=1

K(2)(

Xj − Xi

h

)− 2

n

n∑i=1

f−ih (Xi)

où f−ih (Xi) = leave-one-out et K(2)(u) =

∫K(u− t)K(t)dt.

I Et la fenêtre choisie hCV = arg minh CV(h)

Page 19: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre en pratiqueiI Plusieurs critères :

I Dans KernSmooth, on peut utiliser la commande dpik(x)pour calculer une fenêtre qui sera directement “pluggée‘’dans l’estimateur .

I Dans np, on privilégie une approche data-driven : lavalidation croisée.

I On procédera donc toujours en deux étapes dans R :1. On estime la (ou les) fenêtre(s)2. On estime la fonction (densité, regression ou autre) avec

cette (ces) fenêtre(s)2-bis On peut ensuite visualiser le résultat en estimant les

valeurs de fh(x)) sur un ensemble de points régulièrementespacés (séquence ou grille)

Demo 2

Page 20: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Pour la régression, on a fait le plus dur !I L’objet statistique à étudier est :

m(x) ≡ E(Y|X = x) =

∫y f (y|x)dy =

∫y

f (x, y)

f (x)dy

I On met des chapeaux partout !

m(x) =

∫y

f (x, y)

f (x)dy

I On montre que : (Estimateur de Nadaraya-Watson)

m(x) =

∑ni=1 Yi K

(Xi−x

h

)∑n

i=1 K(

Xi−xh

)I C’est une somme pondérée des Yi

m(x) =

n∑i=1

Yi W (Xi, x, h)

Page 21: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre pour la régression ?I Même logique, calculs différentsI Fenêtre optimale :

hopt =

[ ∫σ2(x)f−1(x)dx

∫K2(u)du∫

{2m′(x)f ′(x)f−1(x) + m”(x)}2 dx κ22

]1/5

n−1/5

I Plug-in : Ben “YAKA” estimer tout ces trucs et remplacer...

I Règle du pouce : hRoT ∝ σ(x) · n−15

I Validation croisée :

hCV = arg minh

1n

N∑i=1

(Yi − m−i(Xi)

)2

Page 22: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Démo dans un cas simple (avec Shiny)

Page 23: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Oui, mais dans la vraie vie :I Et si on a plusieurs variables ?↪→ Une fenêtre par variable, noyaux multiplicatifs :

m(x, z) =

∑ni=1 Yi K

(Xi−x

hx

)· K(

Zi−zhz

)∑n

i=1 K(

Xi−xhx

)· K(

Zi−zhz

)I Et si on a une variable discrète, xd, avec c catégories ?↪→ Il existe des noyaux généralisés (Aitchison and Aitken)

l(Xdi , x

d) =

{1− λ if Xd

i = xd

λc−1 otherwise.

ou λ ∈ [0, (c− 1)/c].I Oui : on peut mixer les deux !↪→ cf exemple dans une minute ! !

Page 24: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Oui, mais dans la vraie vie :I Et si on a beaucoup d’observations, la CV ça prend du

temps ?↪→ Oui !↪→ Package npRmpi permet de paralléliser les calculs↪→ On peut aussi “ruser”...

I Et comment on compare avec un modèle linéaire ?↪→ ∃ des tests :

I npcmstest pour tester la correcte spécification d’un modèlelinéaire (Hsiao, Li, and Racine (2007))

I npsigtest sour tester la significativité des régresseurs(Racine, Hart, and Li (2006) )

I On peut aussi invoquer une représentation graphiquepour comparer...↪→ cf exemple dans 30 secondes !

Page 25: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Démo complète sur un jeu de données (pas à pas !)

Page 26: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Autre exemple d’application : To drink or not to drink (tapwater) ?I 4.623 ménages en France déclarant tous leurs achats

alimentaires (y compris boissons)I Classifiés en "buveur d’eau du robinet" (irob = 1) ou non

(irob = 0)I Information individuelle composée de variables

continues :I Revenu déclaré Income et indice mesurant la qualité de

l’environnemental local : Poor Raw Water Quality (PRWQ)↪→ PRWQ↗ si l’environnement est dégradé

I et de variables discrètes (ordonnées ou pas)I diplome, region, habitant en milieu rural, retired.

I Modèle estimé (probit) (cf Bontemps & Nauges (2009) )

Page 27: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle probit estimé (cf Bontemps & Nauges (2009) )

Estimate Pr(| Z |> z)(Intercept) 2.3296 0.0000

PRWQ -1.8113∗∗∗ 0.0021Income -0.5492∗∗ 0.0155diploma - -

diplo.L -0.1328 0.0464diplo.Q 0.0435 0.4433diplo.C -0.0229 0.5703

Region - -Region2 -0.0284 0.7376Region3 -0.5879∗∗∗ 0.0000Region4 -0.0590 0.3836Region5 -0.0468 0.5887Region6 0.3706∗∗∗ 0.0000Region7 0.1486∗∗∗ 0.0576Region8 0.2974∗∗∗ 0.0005

deleg -0.0178 0.6966rural 0.2397 0.0095iret -1.3491∗∗∗ 0.0089PRWQ×Income 0.5789∗∗ 0.0166PRWQ× iret 0.9461∗ 0.0871

Page 28: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Estimation non-paramétrique d’une probabilité conditionnelleI L’objet statistique est la probabilité conditionnelle de Y

(0/1) conditionnelle à X = (Xc,Xd, Xd)

g(Y = y|X = x) =f (x, y)

f (x)(1)

I Pour un x = (xc, xd, xd) donné, l’estimateur de f (x) est :

f (x) = f (xc, xd, xd)

= n−1n∑

i=1

p∏j=1

W(Xcij, x

cj )

q∏j=1

l(Xdij, x

dj )

r∏j=1

l(Xdij, x

dj )

On a là 3 types de noyaux différents suivant la nature desvariables (Li & Racine, 2003).

Page 29: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Pour une variable continue xcj , on retrouve W(.) :

W(Xcij, x

cj ) =

1hj

K

(Xc

ij − xcj

hj

)avec K(·) notre noyau “classique" et hj la fenêtre associée.

I Pour une variable discrète xdj avec cj categories, on a :

l(Xdij, x

d) =

{1− λj if Xd

ij = xdj

λjcj−1 sinon.

avec la “fenêtre” λj ∈ [0, (cj − 1)/cj].I Pour une variable discrète ordonnée xd

j , on a :

l(Xdij, x

d) =

{1 if Xd

ij = xdj

γj|Xd

ij−xdj | sinon.

avec la “fenêtre” γj ∈ [0, 1].

Page 30: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Page 31: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Page 32: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Page 33: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Page 34: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

UNE AUTRE VISION DES RÉSULTATS

I On peut représenter en 2-D la probabilité de boire de l’eaudu robinet comme une fonction certaines variables dumodèle.

I Il faut fixer les autres variables à un niveau déterminé(médiane, moyenne, autre)

I Les interactions entre variables sont spécifiées dans lemodèle paramétrique, mais sont automatiques dans lemodèle non-paramétrique (fonction)

↪→ Les graphiques 3-D mettent en lumière cela ..

Page 35: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction de l’indice PRWQ pour différentes regions.

0.85 0.90 0.95 1.00

0.30

0.35

0.40

0.45

0.50

0.55

Probit model

Income= 20 % , Retired= 1 , Diploma= 1 , Rural= 0 .RWBQ

Pro

b[iro

b=1] Paris

NorthWestEast

Page 36: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction de l’indice PRWQ pour différentes regions.

0.85 0.90 0.95 1.00

0.30

0.35

0.40

0.45

0.50

0.55

Nonparametric model

Income= 20 % , Retired= 1 , Diploma= 1 , Rural= 0 .RWBQ

Pro

b[iro

b=1]

ParisNorthWestEast

Page 37: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu pour différent niveaux de l’indicePRWQ.

1.0 1.5 2.0 2.5 3.0 3.5

0.48

0.50

0.52

0.54

0.56

0.58

Parametric model

Retired= 0 , Diploma= 2 , Rural= 0 , Region= 3 .Income

Pro

b[iro

b=1]

20% RBWQ quantile Median RBWQ80% RBWQ quantile

20% RBWQ quantile Median RBWQ80% RBWQ quantile

Page 38: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu pour différent niveaux de l’indicePRWQ.

1.0 1.5 2.0 2.5 3.0 3.5

0.48

0.50

0.52

0.54

0.56

0.58

Nonparametric model

Retired= 0 , Diploma= 2 , Rural= 0 , Region= 3 .Income

Pro

b[iro

b=1]

20% RBWQ quantile Median RBWQ80% RBWQ quantile

Page 39: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu et de l’indice PRWQ .

RWBQ

0.85

0.90

0.95

1.00

Income

1.0

1.5

2.0

2.5

3.0

Prob[irob=

1]

0.48

0.50

0.52

0.54

0.56

0.58

Estimated conditional prob of drinking tap water using Probit estimator

Region= 3 , Retired= 0 , Diploma= 1 , Rural= 0 .

Page 40: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu et de l’indice PRWQ .

RWBQ

0.85

0.90

0.95

1.00

Income

1.0

1.5

2.0

2.5

3.0

Prob[irob=

1]

0.48

0.50

0.52

0.54

0.56

0.58

Estimated conditional prob of drinking tap water using NP estimator

Region= 3 , Retired= 0 , Diploma= 1 , Rural= 0 .

Page 41: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

POUR CONCLURE EN 10 SECONDES

I L’estimation non paramétrique, c’est pas si horrible que ça !I Les outils existent dans et sont bien documentésI L’estimation non paramétrique est utile (selon moi) si :

I On cherche des non-linéarités (sur une variable)I On cherche principalement à prédireI On cherche à estimer une fonction dans un calcul

intermédiaire (une densité par exemple)I On cherche à tester la pertinence de spécifications

I Les difficultés sont dans :I La compréhension des modèles estimés (pb de

représentation de fonctions)I La diffusion des résultats en grande dimensionI et (quand même aussi !) si on a beaucoup d’observations

et/ou de grandes dimensions

Page 42: Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce “non” Estimer une densité La fenêtre! La régression A quoi ça sert tout ça? Comment

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

VOUS AVEZ DEMANDÉ UN TEST ?

I Ne quittez pas...I Sébastien arrive