Estimation non paramétrique : Quelques (bonnes?) pratiques ... inge_stat... · Pourquoi ce...

Preview:

Citation preview

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Estimation non paramétrique :

Quelques (bonnes ?) pratiques dans l’

Christophe BontempsToulouse School of Economics (INRA)

Séminaire joint :Séminaire Statistique TSE et Réseau des Ingénieurs Statisticiens

Toulousains13 mai 2014

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

PLAN

Pourquoi ce “non”Définition par le “ non”

Estimer une densitéDes boites et des bossesEn pratique avec R

La fenêtre !Critères

La régressionLa fenêtre !Cas pratiques avec RLes cas moins simplesCas pratiques avec R

A quoi ça sert tout ça ?Estimation d’uneprobabilité conditionnelleAjustement, prévisions etsimulationsVous avez demandé untest ?

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Une définition par le “ non”

I Non-paramétrique ne s’oppose pas vraiment àparamétrique

I C’est l’objet d’intérêt qui n’est pas un paramètreI On parle aussi d’estimation fonctionnelle, de paramètre

fonctionnelI Une estimation non-paramétrique comporte des choix de

paramètresI ∃ de multiples façon d’estimer non-paramétriquement→ Focus sur les méthodes "à noyau"I Beaucoup de méthodes sont programmées dans R

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Soit {(Xi), i = 1, . . . ,n}, Xi iid ∼ f (x)→ Tout le monde a déjà estimé une densité

non-paramétriquementI L’histogramme c’est un estimateur de la densité !

I On partage le support de x en segments de largeur h et onconstruit des “boites” de hauteur 1

h

fh(x) =1n

n∑i=1

1h· 1[

Xi dans le meme segment que x]

I L’histogramme c’est une “somme de boites” de largeur h Demo 1

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Pour l’estimation non-paramétrique de la densité :I On choisit un “noyau” i.e. une fonction K(·), par exemple :

ou ou bien , ou ...K(.) est une sorte de “bosse” et vérifie :∫

K(u)du = 1,∫

u K(u)du = 0, et∫

u2 K(u)du = κ2 <∞I L’estimateur à noyau de Parzen-Rosenblatt est :

fh(x) =1

nh

n∑i=1

K(

Xi − xh

)I Ca ressemble à l’histogramme non ?

fh(x) =1

nh

n∑i=1

1[Xi dans le meme segment que x

]I Peut être vu comme une "somme de bosses"

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une bosse

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une bosse autour de chaque point

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Exemple sur 10 points

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

L'estimateur = somme de bosses

BossesEstimateur

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si j’agrandis “h”

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=1)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si j’agrandis “h” encore

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=1.5)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? Si je réduit “h”

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

t

Den

sité

Une somme de bosses (h=0.25)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment ça marche ? En résumé

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 0.25

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 1

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 0.5

−2 −1 0 1 2

0.0

0.4

0.8

t

Den

sité

h = 1.5

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

En pratique avec RI La commande plot(density(x)) permet de représenter

graphiquement la densitéI Plusieurs packages permettent rapidement d’estimer une

densitéI KernSmooth, npI ggplot2 permet également de faire des representations (très

jolies)→ Focus sur np ici pour des raisons explicitées plus tard.

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Exemple de graphique avec ggplot2 (fonction qplot)

0.00000

0.00005

0.00010

0.00015

0.00020

0 10000 20000 30000 40000Salaires

Den

sity

as.factor(Diplome)

1

2

3

4

Distribution des salaires par Diplome

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre ?I Visuellement ...I Calculer un critère pour différentes valeurs de h et prendre

le minimum...I Directement avec l’erreur quadratique en un point

MSE(fh(x)) :

MSE(fh(x)) = E[(f (x)− f (x))2

]= Var(fh(x))+

{Biais(fh(x))

}2

I Mieux encore, l’IMSE(fh) =∫

MSE(fh(x))dx

' 1nh

∫K2(z)dz +

h4

2· κ2

2 ·∫ (

f ”(z))2dz

=1

nh· Φ0 +

h4

2· κ2

2 · Φ1

I Et ça c’est vachement utile !

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre (suite)I l’IMSE(fh) = 1

nh · Φ0 + h4

2 · κ22 · Φ1

et donc : si nh↗∞ le premier terme disparaît et si h↘ 0 ; c’est le second !

I La fenêtre qui minimise l’IMSE(fh) est : hopt = c · n−1/5

avec c =[ ∫

K2(z)dz(∫

z2K(z)dz)2·(∫(f”(z))2dz

]1/5

I On a ensuite le choix :I “Faire comme si” on connaissait κ2, Φ0, et Φ1→ Règle du pouce : hRoT = 1.059 · σ(x) · n−1/5

I Estimer toutes ces choses là :∫ (

f ”(x))2dx, ... c

→Méthode de Plug-in : hPlug = c · n−1/5

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre (validation croisée)I On peut aussi décomposer l’ISE(fh(x)) :

ISE(fh(x)) =

∫ (fh(x)− f (x)

)2dx

=

∫fh(x)2dx︸ ︷︷ ︸

calculable

−2∫

fh(x)f (x)dx︸ ︷︷ ︸E(fh(x))

+

∫f (x)2dx︸ ︷︷ ︸

pas de h !

I Quelques calculs plus tard... on minimise un critèreempirique basé sur l’estimation de ces valeurs

CV(h) =1

n2h

n∑i=1

n∑j=1

K(2)(

Xj − Xi

h

)− 2

n

n∑i=1

f−ih (Xi)

où f−ih (Xi) = leave-one-out et K(2)(u) =

∫K(u− t)K(t)dt.

I Et la fenêtre choisie hCV = arg minh CV(h)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre en pratiqueiI Plusieurs critères :

I Dans KernSmooth, on peut utiliser la commande dpik(x)pour calculer une fenêtre qui sera directement “pluggée‘’dans l’estimateur .

I Dans np, on privilégie une approche data-driven : lavalidation croisée.

I On procédera donc toujours en deux étapes dans R :1. On estime la (ou les) fenêtre(s)2. On estime la fonction (densité, regression ou autre) avec

cette (ces) fenêtre(s)2-bis On peut ensuite visualiser le résultat en estimant les

valeurs de fh(x)) sur un ensemble de points régulièrementespacés (séquence ou grille)

Demo 2

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Pour la régression, on a fait le plus dur !I L’objet statistique à étudier est :

m(x) ≡ E(Y|X = x) =

∫y f (y|x)dy =

∫y

f (x, y)

f (x)dy

I On met des chapeaux partout !

m(x) =

∫y

f (x, y)

f (x)dy

I On montre que : (Estimateur de Nadaraya-Watson)

m(x) =

∑ni=1 Yi K

(Xi−x

h

)∑n

i=1 K(

Xi−xh

)I C’est une somme pondérée des Yi

m(x) =

n∑i=1

Yi W (Xi, x, h)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Comment choisir sa fenêtre pour la régression ?I Même logique, calculs différentsI Fenêtre optimale :

hopt =

[ ∫σ2(x)f−1(x)dx

∫K2(u)du∫

{2m′(x)f ′(x)f−1(x) + m”(x)}2 dx κ22

]1/5

n−1/5

I Plug-in : Ben “YAKA” estimer tout ces trucs et remplacer...

I Règle du pouce : hRoT ∝ σ(x) · n−15

I Validation croisée :

hCV = arg minh

1n

N∑i=1

(Yi − m−i(Xi)

)2

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Démo dans un cas simple (avec Shiny)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Oui, mais dans la vraie vie :I Et si on a plusieurs variables ?↪→ Une fenêtre par variable, noyaux multiplicatifs :

m(x, z) =

∑ni=1 Yi K

(Xi−x

hx

)· K(

Zi−zhz

)∑n

i=1 K(

Xi−xhx

)· K(

Zi−zhz

)I Et si on a une variable discrète, xd, avec c catégories ?↪→ Il existe des noyaux généralisés (Aitchison and Aitken)

l(Xdi , x

d) =

{1− λ if Xd

i = xd

λc−1 otherwise.

ou λ ∈ [0, (c− 1)/c].I Oui : on peut mixer les deux !↪→ cf exemple dans une minute ! !

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Oui, mais dans la vraie vie :I Et si on a beaucoup d’observations, la CV ça prend du

temps ?↪→ Oui !↪→ Package npRmpi permet de paralléliser les calculs↪→ On peut aussi “ruser”...

I Et comment on compare avec un modèle linéaire ?↪→ ∃ des tests :

I npcmstest pour tester la correcte spécification d’un modèlelinéaire (Hsiao, Li, and Racine (2007))

I npsigtest sour tester la significativité des régresseurs(Racine, Hart, and Li (2006) )

I On peut aussi invoquer une représentation graphiquepour comparer...↪→ cf exemple dans 30 secondes !

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Démo complète sur un jeu de données (pas à pas !)

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Autre exemple d’application : To drink or not to drink (tapwater) ?I 4.623 ménages en France déclarant tous leurs achats

alimentaires (y compris boissons)I Classifiés en "buveur d’eau du robinet" (irob = 1) ou non

(irob = 0)I Information individuelle composée de variables

continues :I Revenu déclaré Income et indice mesurant la qualité de

l’environnemental local : Poor Raw Water Quality (PRWQ)↪→ PRWQ↗ si l’environnement est dégradé

I et de variables discrètes (ordonnées ou pas)I diplome, region, habitant en milieu rural, retired.

I Modèle estimé (probit) (cf Bontemps & Nauges (2009) )

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle probit estimé (cf Bontemps & Nauges (2009) )

Estimate Pr(| Z |> z)(Intercept) 2.3296 0.0000

PRWQ -1.8113∗∗∗ 0.0021Income -0.5492∗∗ 0.0155diploma - -

diplo.L -0.1328 0.0464diplo.Q 0.0435 0.4433diplo.C -0.0229 0.5703

Region - -Region2 -0.0284 0.7376Region3 -0.5879∗∗∗ 0.0000Region4 -0.0590 0.3836Region5 -0.0468 0.5887Region6 0.3706∗∗∗ 0.0000Region7 0.1486∗∗∗ 0.0576Region8 0.2974∗∗∗ 0.0005

deleg -0.0178 0.6966rural 0.2397 0.0095iret -1.3491∗∗∗ 0.0089PRWQ×Income 0.5789∗∗ 0.0166PRWQ× iret 0.9461∗ 0.0871

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

Estimation non-paramétrique d’une probabilité conditionnelleI L’objet statistique est la probabilité conditionnelle de Y

(0/1) conditionnelle à X = (Xc,Xd, Xd)

g(Y = y|X = x) =f (x, y)

f (x)(1)

I Pour un x = (xc, xd, xd) donné, l’estimateur de f (x) est :

f (x) = f (xc, xd, xd)

= n−1n∑

i=1

p∏j=1

W(Xcij, x

cj )

q∏j=1

l(Xdij, x

dj )

r∏j=1

l(Xdij, x

dj )

On a là 3 types de noyaux différents suivant la nature desvariables (Li & Racine, 2003).

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Pour une variable continue xcj , on retrouve W(.) :

W(Xcij, x

cj ) =

1hj

K

(Xc

ij − xcj

hj

)avec K(·) notre noyau “classique" et hj la fenêtre associée.

I Pour une variable discrète xdj avec cj categories, on a :

l(Xdij, x

d) =

{1− λj if Xd

ij = xdj

λjcj−1 sinon.

avec la “fenêtre” λj ∈ [0, (cj − 1)/cj].I Pour une variable discrète ordonnée xd

j , on a :

l(Xdij, x

d) =

{1 if Xd

ij = xdj

γj|Xd

ij−xdj | sinon.

avec la “fenêtre” γj ∈ [0, 1].

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

TABLE: Modèle Probit et modèle non-paramétrique estimés sur cesdonnées - Coefficients (probit) et fenêtres optimales (CV)

Estimate Pr(| Z |> z) Bandwidth upper bound(Intercept) 2.3296 0.0000 - -

PRWQ -1.8113∗∗∗ 0.0021 0.1801905 ∞Income -0.5492∗∗ 0.0155 1.294752 ∞diploma - - 0.8634835 1

diplo.L -0.1328 0.0464 - -diplo.Q 0.0435 0.4433 - -diplo.C -0.0229 0.5703 - -

Region - - 0.1208747 0.875Region2 -0.0284 0.7376 - -Region3 -0.5879∗∗∗ 0.0000 - -Region4 -0.0590 0.3836 - -Region5 -0.0468 0.5887 - -Region6 0.3706∗∗∗ 0.0000 - -Region7 0.1486∗∗∗ 0.0576 - -Region8 0.2974∗∗∗ 0.0005 - -

deleg -0.0178 0.6966 0.5 0.5rural 0.2397 0.0095 0.0721212 0.5iret -1.3491∗∗∗ 0.0089 3.253532e-13 0.5PRWQ×Income 0.5789∗∗ 0.0166 - -PRWQ× iret 0.9461∗ 0.0871 - -irob - - 9.802058e-15 0.5The bandwidths are chosen by minimizing a least-square cross-validation criterion.The upper bound for a bandwidth, is equal to (cj − 1)/cj in the case of an unordereddiscrete variable with cj categories, and 1 in the case of an ordered one.

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

UNE AUTRE VISION DES RÉSULTATS

I On peut représenter en 2-D la probabilité de boire de l’eaudu robinet comme une fonction certaines variables dumodèle.

I Il faut fixer les autres variables à un niveau déterminé(médiane, moyenne, autre)

I Les interactions entre variables sont spécifiées dans lemodèle paramétrique, mais sont automatiques dans lemodèle non-paramétrique (fonction)

↪→ Les graphiques 3-D mettent en lumière cela ..

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction de l’indice PRWQ pour différentes regions.

0.85 0.90 0.95 1.00

0.30

0.35

0.40

0.45

0.50

0.55

Probit model

Income= 20 % , Retired= 1 , Diploma= 1 , Rural= 0 .RWBQ

Pro

b[iro

b=1] Paris

NorthWestEast

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction de l’indice PRWQ pour différentes regions.

0.85 0.90 0.95 1.00

0.30

0.35

0.40

0.45

0.50

0.55

Nonparametric model

Income= 20 % , Retired= 1 , Diploma= 1 , Rural= 0 .RWBQ

Pro

b[iro

b=1]

ParisNorthWestEast

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu pour différent niveaux de l’indicePRWQ.

1.0 1.5 2.0 2.5 3.0 3.5

0.48

0.50

0.52

0.54

0.56

0.58

Parametric model

Retired= 0 , Diploma= 2 , Rural= 0 , Region= 3 .Income

Pro

b[iro

b=1]

20% RBWQ quantile Median RBWQ80% RBWQ quantile

20% RBWQ quantile Median RBWQ80% RBWQ quantile

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu pour différent niveaux de l’indicePRWQ.

1.0 1.5 2.0 2.5 3.0 3.5

0.48

0.50

0.52

0.54

0.56

0.58

Nonparametric model

Retired= 0 , Diploma= 2 , Rural= 0 , Region= 3 .Income

Pro

b[iro

b=1]

20% RBWQ quantile Median RBWQ80% RBWQ quantile

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu et de l’indice PRWQ .

RWBQ

0.85

0.90

0.95

1.00

Income

1.0

1.5

2.0

2.5

3.0

Prob[irob=

1]

0.48

0.50

0.52

0.54

0.56

0.58

Estimated conditional prob of drinking tap water using Probit estimator

Region= 3 , Retired= 0 , Diploma= 1 , Rural= 0 .

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

I Probabilité de boire de l’eau du robinet comme unefonction du revenu et de l’indice PRWQ .

RWBQ

0.85

0.90

0.95

1.00

Income

1.0

1.5

2.0

2.5

3.0

Prob[irob=

1]

0.48

0.50

0.52

0.54

0.56

0.58

Estimated conditional prob of drinking tap water using NP estimator

Region= 3 , Retired= 0 , Diploma= 1 , Rural= 0 .

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

POUR CONCLURE EN 10 SECONDES

I L’estimation non paramétrique, c’est pas si horrible que ça !I Les outils existent dans et sont bien documentésI L’estimation non paramétrique est utile (selon moi) si :

I On cherche des non-linéarités (sur une variable)I On cherche principalement à prédireI On cherche à estimer une fonction dans un calcul

intermédiaire (une densité par exemple)I On cherche à tester la pertinence de spécifications

I Les difficultés sont dans :I La compréhension des modèles estimés (pb de

représentation de fonctions)I La diffusion des résultats en grande dimensionI et (quand même aussi !) si on a beaucoup d’observations

et/ou de grandes dimensions

Pourquoi ce “non” Estimer une densité La fenêtre ! La régression A quoi ça sert tout ça ?

VOUS AVEZ DEMANDÉ UN TEST ?

I Ne quittez pas...I Sébastien arrive

Recommended