Tests non paramétriques de spécification pour densité ... · 1.1.1 Test de Andrews (1988, 1997) Andrews(1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification

Tests non paramétriques de spécification pourdensité conditionnelle : application à des modèles de

choix discret

Mémoire

Koami Dzigbodi AMEGBLE

Maîtrise en économiqueMaître ès arts (M.A.)

Québec, Canada

© Koami Dzigbodi AMEGBLE, 2015

Résumé

Dans ce travail, nous étudions la performance statistique (taille et puissance) en échantillon fini de

deux tests non paramétriques de spécification pour densité conditionnelle proposés par Fan et al.

(2006) et Li et Racine (2013). Ces tests permettent de vérifier si les probabilités conditionnelles pos-

tulées dans les modèles de choix discret (logit/probit multinomial à effets fixes ou aléatoires, esti-

mateur de Klein et Spady (1993), etc) représentent correctement les choix observés. Par rapport aux

tests existants, cette approche a l’avantage d’offrir une forme fonctionnelle flexible alternative au mo-

dèle paramétrique lorsque ce dernier se révèle mal spécifié. Ce modèle alternatif est directement issu

de la procédure de test et il correspond au modèle non contraint obtenu par des produits de noyaux

continus et discrets. Les deux tests explorés ont une puissance en échantillon fini supérieure aux tests

existants. Cette performance accrue s’obtient en combinant une procédure bootstrap et l’utilisation de

paramètres de lissage des fonctions noyaux par validation croisée par les moindres carrés. Dans notre

application, nous parallélisons les calculs de taille et de puissance, ainsi que l’estimation des fenêtres

de lissage, sur un serveur multi-processeurs (Colosse, de Calcul Québec). Nous utilisons des routines

"Open MPI" pré-implémentées dans R. Par rapport aux simulations effectuées dans les articles ori-

ginaux, nous postulons des modèles plus proches de ceux habituellement utilisés dans la recherche

appliquée (logit et probit à variance unitaire notamment). Les résultats des simulations confirment les

bonnes taille et puissance des tests en échantillon fini. Par contre, les gains additionnels de puissance

de la statistique lissée proposée par Li et Racine (2013) se révèlent négligeables dans nos simulations.

——————————

Mots clés : Bootstrap, choix discret, densité conditionnelle, Monte Carlo, produit de noyaux, puis-

sance, taille.

iii

Table des matières

Résumé iii

Table des matières v

Liste des tableaux vii

Avant-propos ix

Introduction 1

1 Revue de littérature 31.1 Tests de spécification pour densités conditionnelles sans noyaux continus et discrets 31.2 Tests de spécification pour les densités conditionnelles avec noyaux continus et

discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Méthodologie d’estimation 112.1 Démarche méthodologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Processus de génération des données sous les hypothèses nulle et alternative . . . 122.3 Estimation paramétrique de la densité conditionnelle . . . . . . . . . . . . . . . 132.4 Estimation non paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Application 213.1 Calcul de la taille et la puissance des tests sur R . . . . . . . . . . . . . . . . . . 213.2 Résultats et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Conclusion 29

A Annexes 31A.1 Lemme et théorèmes utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Bibliographie 33

v

Liste des tableaux

3.1 Taille basée sur le modele H0 : y∗i = 1+ xi− zi +ui avec M=1000, B=399 et σu = 1 . 233.2 Puissance basée sur le modele DGP H1a : y∗i = 1+ xi− zi + sin(0,5πxi) + ui avec

M=1000, B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3 Puissance basée sur le modele DGP H1b : y∗i = 1+ xi− zi + x2

i + ui avec M=1000,B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4 Puissance basée sur le modele DGP H1c : y∗i = 1+xi− zi+xiui avec M=1000, B=399et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5 Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1+xi−zi+sin(0,5πxi)+ui avecM=1000, ui ∼ N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

vii

Avant-propos

Ce travail n’aurait pu être réalisé sans l’aide de mon directeur de recherche, le Professeur Carlos

Ordás Criado, et de mon co-directeur, le Professeur Guy Lacroix. Je leur suis profondément recon-

naissant pour leur assistance et leurs conseils. Je remercie le troisième lecteur de ce mémoire, Charles

Bellemare, pour sa lecture et ses remarques.

Je voudrais exprimer plus particulièrement ma gratitude au Professeur Carlos Ordás Criado pour son

apport sur les méthodes non paramétriques, ainsi que pour son généreux support financier.

Je suis reconnaissant au corps professoral du département d’économique pour l’enseignement de qua-

lité qu’il m’a apporté.

Pour finir, je tiens à remercier mes camarades de maîtrise, mes collègues de la Chaire de Recherche

Aéroportuaire, mes amis, mes parents, ma femme ainsi que ma fille pour leurs soutiens moral et

psychologique, et enfin au Créateur de l’univers pour m’avoir accordé la vie et la santé.

ix

Introduction

Les économistes utilisent différents types de modèles pour analyser les choix de consommation des in-

dividus. Lorsque ces choix sont de nature discrète (décisions liées aux modes de transports, choix entre

différentes politiques publiques, entrée ou non sur le marché du travail), le modèle le plus couramment

utilisé est celui de l’utilité aléatoire. Cette approche impose un certain nombre de restrictions qui per-

mettent aux économistes de relier les choix observés à des mécanismes de décision. À titre d’exemple,

les modèles classiques de choix discrets de McFadden (1974) ou Maddala (1983) postulent que les

variables explicatives constituent un indice linéaire et que la probabilité conditionnelle est logistique

ou normale (logit ou probit). Or, rien ne garantit que cette formulation ne décrit adéquatement les

choix observés, conditionnellement aux variables explicatives qui sont pertinentes du point de vue de

la théorie économique. Un mécanisme comportemental compatible avec la réalité observée est pour-

tant crucial pour valider les recommandations de politiques économiques et les analyses de bien-être

issues des modèles d’utilité aléatoire.

De nombreux modèles de choix discret ont été proposés afin de permettre une plus grande flexibilité

dans la fonction de probabilité et de réduire différentes sources de biais dans l’estimation. Les for-

mulations flexibles les plus populaires sont l’estimateur semi-paramétrique de Klein et Spady (1993),

celui du score maximum de Manski (1975) ou la version lissée proposée par Horowitz (1992), les

algorithmes de Matzkin (1992, 1993) ou encore l’estimateur de Blevins et Khan (2013). Plusieurs

tests statistiques permettent de comparer des modèles paramétriques et semi-paramétriques dans ce

contexte. On trouve également dans la littérature économétrique des tests généraux de spécification

pour densités conditionnelles. Par exemple, Andrews (1988a,b, 1997) propose différentes extensions

du test de Khi-deux de Pearson et du test de Kolmogorov-Smirnov. Ces tests sont néanmoins non

constructifs, car ils n’offrent pas d’alternative satisfaisante en cas de rejet de la probabilité condition-

nelle postulée. De plus, ils obligent souvent le chercheur à utiliser des estimations locales basées sur

un faible nombre d’observations, sans exploiter de manière optimale l’information se trouvant dans le

voisinage des régions peu denses du support.

De récents développements sur l’estimation non paramétrique de densités par noyau ont permis de re-

médier à ces déficiences. Le premier pas a été donné par le travail pionnier de Li et Racine (2003), qui

propose d’utiliser la méthode non paramétrique du noyau pour estimer de manière lisse les densités

jointes d’un mélange de variables aléatoires discrètes et continues. La principale innovation de cette

1

recherche est d’introduire des noyaux discrets lissés, qui permettent d’estimer la probabilité jointe

sans réduire en sous-échantillons le support de la distribution. Cette méthode ajoute du biais dans

l’estimation de la densité mais elle réduit sa variance. Dans des travaux ultérieurs, Hall et al. (2004),

Racine et al. (2004) et Li et Racine (2008) étendent leurs estimateurs aux densités/probabilités condi-

tionnelles, à la régression par noyaux et aux quantiles conditionnels. Hall et al. (2004) montrent que le

choix du paramètre de lissage de la fonction noyau par validation croisée par les moindre carrés permet

d’exclure asymptotiquement les variables explicatives non pertinentes dans le cadre de l’estimation

conditionnelle. Ils montrent également que cette validation croisée génère des gains de performance

prévisionnel ‘hors-échantillon’, même en échantillon fini. Des tests formels d’adéquation pour les

densités conditionnelles sont proposés par Fan et al. (2006), et par Li et Racine (2013), où les résultats

mis en lumière par Hall et al. (2004) sont exploités.

L’objectif principal du présent travail de maîtrise est de répliquer les deux tests proposés par Fan et al.

(2006) et Li et Racine (2013), afin de vérifier si les résultats publiés sur leur taille et leur puissance

restent valides en échantillon fini dans le cadre de l’hypothèse standard de variance unitaire des mo-

dèles probit et logit (polytomique ordonné et non ordonné). Fan et al. (2006) proposent un test qui

omet de lisser le variable réponse discrète de la densité conditionnelle mais qui lisse les variables

explicatives discrètes. Li et Racine (2013) proposent de lisser toutes les variables discrètes présentent

dans la densité conditionnelle, la variable réponse discrète incluse.

L’implémentation de ces tests n’étant pas disponible sur R, nous décrivons les grandes étapes de cette

implémentation. Les résultats de nos simulations en échantillon fini indiquent que les deux tests pré-

sentent une bonne taille et qu’ils sont puissants contre des alternatives non linéaires et hétéroscédas-

tiques. Cependant, nous obtenons des différences de puissance très faibles quand nous comparons la

performance des deux tests. Ceci contraste avec les résultats de Li et Racine (2013), qui obtiennent

systématiquement des puissances supérieures par rapport à la version ‘semi-lissée’ de la statistique de

Fan et al. (2006), et ceci pour tous les seuils critiques.

Ce travail est structuré en trois chapitres. Au chapitre 1, nous passons en revue les procédures mises

en place pour tester l’adéquation des probabilités conditionnelles des principaux modèles de choix

discrets. Le chapitre 2 décrit les procédures d’estimations et de tests. Notons que les simulations

requièrent l’estimation de paramètres de lissages par validation croisée par les moindres carrés. Par

conséquent, une parallélisation de la procédure est souhaitable, pour obtenir des résultats dans un délai

raisonnable. Le chapitre 3 commente les résultats et nous terminons ce mémoire en récapitulant nos

résultats et en offrant quelques recommandations pour l’implémentation du test sur R.

2

Chapitre 1

Revue de littérature

La littérature économétrique propose de nombreuses approches pour tester la spécification ou l’adé-

quation des densités conditionnelles postulées par les chercheurs. On peut distinguer entre les ap-

proches qui se basent sur des fonctions paramétriques sous l’hypothèse alternative (Hausman, 1978;

Hausman et McFadden, 1984; Horowitz et Louviere, 1993) et celles qui utilisent des formes fonction-

nelles non paramétriques. Ces dernières approches ayant l’avantage d’être plus robustes à des erreurs

de spécification sous l’hypothèse alternative, nous nous concentrons sur ces dernières. Dans cette

classe de méthodes, nous distinguons encore deux grandes catégories : celles qui utilisent une discré-

tisation du support sans référence explicite à l’estimation par noyau et celles qui emploient des noyaux

(avec détermination d’une fenêtre optimale de lissage). Sans être exhaustif, ce chapitre propose une

revue des principaux tests généralement discutés lorsque l’on s’intéresse aux tests non paramétriques

de densités conditionnelles. Nous mettons l’accent sur l’aspect le plus pratique de cette discussion :

leur performance en échantillon fini.

1.1 Tests de spécification pour densités conditionnelles sans noyauxcontinus et discrets

Dans cette section, nous nous concentrons sur deux tests qui n’utilisent pas la méthode des noyaux,

ceux proposés par Andrews dans ses travaux de 1988 et 1997. Cet auteur dérive des tests qui utilisent

des approches non paramétriques basées sur l’idée générale des tests de Khi-deux de Pearson et de

Kolmogorov. Ils ont l’avantage d’être puissants contre toute alternative locale à l’hypothèse.

1.1.1 Test de Andrews (1988, 1997)

Andrews (1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification de la densité

conditionnelle des modèles paramétriques (voir également Heckman (1984)). Il s’agit d’une extension

du test de Khi-deux de Pearson, applicable aux différents modèles (transversaux) de réponses discrètes

(logit et probit polytomiques, régression SUR, équations simultanées, etc).

3

Sous l’hypothèse nulle, la densité conditionnelle de Yi (variable dépendante pour l’observation i) sa-

chant Xi (vecteur de variables explicatives pour cette observation) appartient à la famille de densité

conditionnelle ( f (y|x,θ) : θ ∈ Θ) qui respecte une mesure σ -finie. Le terme Θ représente l’espace

des paramètres. L’hypothèse alternative est que la distribution conditionnelle est mal spécifiée. Le

test est basé sur le partitionnement du support de la densité conditionnelle en cellules disjointes et la

comparaison entre les probabilités empiriques issues de l’échantillon et les probabilités prédites par le

modèle postulé pour ces cellules. Il note par Γ un élément aléatoire de la classe des partitions Y ×X ,

dont Γ est l’estimateur. La mesure de divergence utilisée est basée sur l’écart entre les effectifs obser-

vés et les effectifs conditionnels prédits. Plus précisément, cette distance est donnée par l’expression :

vn(Γ, θ) =√

n[Pn(Γ)−Fn(Γ, θ)

], (1.1)

où Pn représente la distribution conditionnelle empirique du couple {(Yi,Xi), i = 1, ...,n}, Fn est la dis-

tribution conditionnelle paramétrique estimée de Yi sachant Xi. Soit W un estimateur convergent de

l’inverse généralisé de Σ0 (la vraie matrice de dispersion sous H0). Sous l’hypothèse nulle, la distri-

bution asymptotique de l’expression (1.1) est normale, de moyenne nulle et de matrice de dispersion

Σ0. En utilisant la distance quadratique est en divisant par l’écart-type, nous obtenons la statistique de

test :

X2n (Γ, θ) = v

′n(Γ, θ)Wvn(Γ, θ) (1.2)

Sous H0, l’expression (1.2) est distribuée asymptotiquement selon un Khi-deux dont les degrés de

liberté sont donnés par le rang de Σ0 . Andrews (1988b) vérifie la performance du test en échantillon

fini à l’aide d’un modèle de régression censurée 1. Il teste le DGP sous H0 contre deux alternatives sy-

métriques (à queues mince puis épaisse), une version asymétrique de ce même DGP, ainsi que contre

le modèle censuré proposé par Cragg (1971). Il calcule la taille du test avec 5000 réplications Monte

Carlo sur des échantillons finis de taille 100 et 250. Ses résultats révèlent que le test est de bonne

taille et puissant contre toute alternative. Ce test non paramétrique se révèle plus puissant que les tests

paramétriques développés par Hausman (1978), Hausman et McFadden (1984).

Dans la continuité de ses travaux, Andrews (1997) propose un test de spécification pour densités condi-

tionnelles de type Kolmogorov (appelé Kolmogorov Conditionnel, KC). Ce test est une extension du

test traditionnel d’adéquation de Kolmogorov pour les distributions non conditionnelles. L’hypothèse

nulle (de bonne spécification du modèle paramétrique) s’écrit :

H0 : H(y|x) = F(y|x,θ) pour un certain θ ∈Θ, (1.3)

où F(y|x,θ) est la fonction de répartition de Yi conditionnellement aux vecteurs de variables explica-

tives Xi = x, et au vecteur de paramètres θ , Θ est l’espace des paramètres, H(y|x) est la vraie fonction

de répartition conditionnelle, et f (y|x,θ) est la fonction de densité respectant une mesure σ -finie (pas

1. Plus précisément, le processus de génération de données est Yi = c+X′i β +Ui > 0 et 0 sinon, avec (Ui|Xi)∼ N(0,1)

sous H0.

4

nécessairement la mesure de Lebesgue). L’auteur estime θ par un estimateur θ qui converge vers θ0.

La statistique de test est une distance maximisée (Max), différente de l’habituel supremum (Sup)

utilisé dans le test standard de Kolmogorov :

CKn =√

nmaxj≤n| Hn(Z j)− Fn(Z j, θ) | (1.4)

où Fn(z, θ) = 1n

n∑

i=1F(y|Xi,θ)I(Xi≤x) avec z = (y,x).

Sous H0 la distribution asymptotique de la statistique dépend des paramètres de nuisances θ (ou θ0

quand il est connu) et de G, la fonction de répartition empirique de X . La performance du test en

échantillon fini s’obtient par une procédure de bootstrap paramétrique. Dans l’article, l’auteur utilise

un modèle logit multinomial sous H0. La taille du test est calculée avec 4000 réplications de Monte

Carlo pour les échantillons de petite taille et 2000 réplications pour les échantillons de grande taille.

Il utilise des bootstrap de taille 299 dans les deux cas. Il montre que le test est puissant contre les

alternatives locales à 1√n -convergent et contre toutes alternatives fixes à l’hypothèse nulle 2.

1.2 Tests de spécification pour les densités conditionnelles avec noyauxcontinus et discrets

L’un des défauts du test d’Andrews (1997) est qu’il ne propose pas directement d’alternative à la den-

sité conditionnelle paramétrique rejetée. Les tests basés sur l’estimateur du noyau offrent directement

cette spécification alternative, mais leur performance dépend du choix d’un paramètre de lissage op-

timal. Ces dernières années, certaines méthodes de sélection du paramètre de lissage ont révélé des

propriétés intéressantes : (i) elles permettent de combiner de manière optimale de l’information sur

des supports discrets et peu denses, (ii) elles détectent automatiquement les variables pertinentes dans

le conditionnement. Nous abordons à présent dans cette section les tests proposés par Zheng (2000),

Fan et al. (2006), et Li et Racine (2013). Tous ces tests utilisent une approche non paramétrique basée

sur l’estimation par noyau et ils se complètent dans leur démarche méthodologique. Dans cette sec-

tion, nous utilisons les notations originales des auteurs, pour faciliter la comparaison avec les articles

originaux.

1.2.1 Test proposé par Zheng (2000)

Zheng (2000) est le précurseur de la série de tests non paramétriques qui utilisent l’approche par la

méthode du noyau pour tester l’adéquation de la densité conditionnelle postulée par le chercheur.

Soit {yi,xi}i=1,..,n une observation d’un échantillon aléatoire indépendante et identiquement distribuée

provenant d’une famille de loi de densité jointe p(y,x), où yi un vecteur de l variables dépendantes,

tel que yi ∈ Rl et xi un vecteur de m variables explicatives, tel que xi ∈ Rm .

2. C’est une séquence d’alternatives de densité conditionnelle qn(y|x) = f (y|x,θ0)+d(z)√

n , qui sont des perturbations auvoisinage de l’hypothèse nulle.

5

Soit p(y|x) la densité conditionnelle de y sachant x. Comme annoncé plus haut, Zheng s’intéresse à

tester p(y|x) à l’intérieur d’une famille de densité conditionnelle paramétrique. Soit Θ l’espace des

paramètres 3, un sous-ensemble compact et convexe de Rk. La densité conditionnelle paramétrique de

y sachant x étant donné θ0 est définie par f (y|x,θ0).

Zheng cherche une procédure de test qui permet de départager les deux hypothèses suivantes :

H0 : P(p(y|x) = f (y|x,θ0)) = 1 , pour un θ0 ∈Θ donné,

contre

H1 : P(p(y|x) = f (y|x,θ))< 1∀θ ∈Θ

Pour mesurer la différence entre p(y|x) et f (y|x,θ0) sous l’hypothèse nulle, Zheng (2000) choisit le

critère d’information de divergence de Kullback et Leibler (1951) en encore la mesure d’entropie

relative. Ce critère est une mesure de la dissimilarité entre deux distributions de probabilités, l’une

théorique et l’autre empirique. Il est défini dans le cas présent par :

I(p, f ) = E{

log[

p(yi|xi)

f (yi|xi,θ0)

]}(1.5)

Il montre de façon générale que I(p, f )≥ 0 et nulle sous l’hypothèse H0. Par ailleurs, par le dévelop-

pement de Taylor 4 d’ordre 1 du log[

p(yi|xi)f (yi|xi,θ0)

]on a

I(p, f ) = E{

p(yi|xi)

f (yi|xi,θ0)−1}= E

{p(yi|xi)− f (yi|xi,θ0)

f (yi|xi,θ0)

}(1.6)

Zheng (2000) prouve qu’en pondérant la densité conditionnelle paramétrique par la densité margi-

nale de x que l’expression (1.6) conserve les mêmes propriétés que I(p, f ) sous H0 comme sous H1.

L’expression (1.6) devient donc sous H0 :

I1(p, f ) = E{

p(yi,xi)− p1(xi) f (yi|xi,θ0)

f (yi|xi,θ0)

}(1.7)

où p1(x) la densité marginale de x. Zheng propose d’estimer les fenêtres de lissage des estimateurs

respectifs des densités p(yi,xi) et p1(xi) par l’approche de Silverman (1986). De même, la densité

jointe p(yi,xi) est estimée par le produit des noyaux. En effet, c’est une méthode qui permet de ré-

soudre des problèmes non linéaires à l’aide des méthodes linéaires en transformant les espaces de

données en un espace de dimension plus grande. Ainsi, les estimateurs de densité p(yi,xi) et p1(xi)

3. L’espace de paramètre en général différent de l’espace des variables. Ils sont égaux si le nombre de variables pourl’estimation non paramétrique est exactement égale à celui de l’estimation paramétrique. Voir les hypothèses alternativespour le calcul de la puissance, chapitre 3.

4. log(x)≈ x−1 .

6

sont respectivement définis par les expressions suivantes :

p(yi,xi) =1n

n

∑j=1

1hl+m K2

(yi− y j

h

)K1

(xi− x j

h

)(1.8)

p1(xi) =1n

n

∑j=1

1hm K1

(xi− x j

h

)(1.9)

En outre, en estimant le paramètre θ0 par la méthode de quasi maximum de vraisemblance, Zheng

(2000) dérive l’estimateur lissé de la densité p(y,x) de f (yi|xi,θ)p1(xi) qui est défini par :

p(yi,xi) =1n

n

∑j=1

1hl+m

∫K2

(yi− y

h

)K1

(xi− x j

h

)f (y|x j, θ)dy (1.10)

où θ est l’estimateur quasi maximum de vraisemblance de θ , et h correspond au paramètre de lissage

de x et y . Il déduit la statistique Wn du test et sa version normalisée Tn qui prennent la forme :

Wn =1

n(n−1)

n

∑i=1

n

∑j=1j 6=i

1hl+m

K2( yi−y

h

)K1

(xi−x j

h

)−∫

K2( yi−y

h

)K1

(xi−x j

h

)f (y|x j, θ)dy

f (yi|xi, θ)

(1.11)

et

Tn =nh

l+m2 Wn

σ(1.12)

Zheng (2000) montre sous certaines hypothèses de régularité que la statistique Tn converge en loi

vers une loi normale centrée réduite sous l’hypothèse nulle et que la statistique non standardisée Wn

converge en probabilité vers I(p, f )> 0 sous l’hypothèse alternative. Zheng a abordé la puissance en

se basant sur une séquence d’alternatives locales, c’est-à-dire, H1n : p(y|x) = f (y|x,θ0)+dn× l(y,x),

où l(., .) est une fonction continument différentiable et uniformément bornée, avec∫

l(x,y)dy = 0.

Cet auteur vérifie la performance du test en échantillon fini sur les modèles de régression linéaire

et les modèles de régression censurée par une simulation Monte Carlo de 1000 réplications avec

des échantillons de taille 50, 100, 200 et 300. La taille du test est calculée sous H0 en spécifiant un

modèle linéaire homoscédastique avec une erreur normale centrée réduite, et la puissance avec quatre

hypothèses alternatives, dont les deux premières sont linéaires avec des erreurs suivant respectivement

une loi logistique et une Student à 5 degrés de liberté (à queues plus minces). Les deux dernières sont

respectivement quadratique et hétéroscédastique avec des erreurs normales standards. Par ailleurs,

Zheng souligne que le test de Andrews (1997) est localement plus puissant que son test.

1.2.2 Test proposé par Fan et al. (2006)

Le défaut du test de Zheng (2000) est qu’il ne considère que des variables continues dans ses produits

de noyaux. En outre, il ne fournit pas de directives pour l’estimation des fenêtres de lissage. Ces

manquements sont pris en compte par le test de Fan et al. (2006). Ils proposent d’exploiter les produits

de noyaux mixtes développés par Li et Racine (2003).

7

Soit x un vecteur de variables explicatives continues et discrètes (xc,xd), tel que xc pour une obser-

vation donnée est une matrice q× 1 et xd une matrice r× 1. Soit Dk le support de xdik de longueur ck

allant de 0 à ck− 1. Les valeurs prises par la k-ième composante de la i-ième observation de xd sont

notées xdik. Pour estimer la densité par la méthode de noyau, Fan et al. (2006) utilisent l’estimateur de

Aitchison et Aitken (1976) pour la k-ième variable discrète défini par :

l(xdik,x

djk,λk) =

{1−λk si xd

ik = xdjk

λkck−1 si xd

ik 6= xdjk

(1.13)

La densité jointe de l’ensemble de variables discrètes est donnée par le produit de noyaux :

L(xdi ,x

dj ,λ ) =

r

∏k=1

l(xdik,x

djk,λk) =

r

∏k=1

(λk

ck−1

)Nik(x)

(1−λk)1−Nik(x) (1.14)

où Nik(x) est la fonction indicatrice donnant 1 si xdik 6= xd

jk et 0 sinon, λk est le paramètre de lissage de la

k-ième variable discrète, dont les valeurs sont comprises entre 0 et ck−1ck

. Pour les variables continues,

la fonction noyau utilisée est le noyau d’ordre 2 d’Epanechnikov défini par : w(u) = 34(1−u2)1{|u|≤1}.

Ainsi, l’estimateur par noyau de la densité jointe des variables continues est :

W (xci ,x

cj,h) =

q

∏k=1

1hk

w(xc

ik− xcjk

hk

)(1.15)

où hk est le paramètre de lissage de la k-ième variable continue xc. Par la suite, l’estimateur par

noyau de la densité jointe des variables explicatives est le produit des densités marginales continues

et discrètes (Fan et al., 2006) :

Kγ(xi,x j) =W (xci ,x

cj,h)×L(xd

i ,xdj ,λ ) (1.16)

Pour estimer les densités p(yi,xi) et p1(xi) au point i, Fan et al. (2006) suggèrent d’omettre le point i

dans l’estimation (estimateur "leave-one-out"), conduisant à l’estimateur :

p−i(yi,xi) =1

n−1

n

∑j=1j 6=i

I(yi = y j)Kγ(xi,x j) (1.17)

p1,−i(xi) =1

n−1

n

∑j=1j 6=i

Kγ(xi,x j) (1.18)

Ainsi, l’estimateur de lissage du produit de densité f (yi|xi,θ)p1(xi), p(yi,xi) proposé par Fan et al.

(2006) est défini par :

p(yi,xi) =1

n−1

n

∑j=1j 6=i

∑y∈Dy

I(yi = y)Kγ(xi,x j) f (y|x j, θ) (1.19)

8

où Dy est le support de la variable dépendante y.

Lorsque yi = y, l’expression (1.19) devient donc :

p(yi,xi) =1

n−1

n

∑j=1j 6=i

Kγ(xi,x j) f (yi|x j, θ) (1.20)

En remplaçant, les expressions de p(yi,xi), p(xi) et p(yi,xi) dans l’expression de I1(p, f ), Fan et al.

(2006) déduisent l’estimateur non lissé de la statistique Wn,γ :

W nsn,γ =

1n(n−1)

n

∑i=1

n

∑j=1j 6=i

{Kγ(xi,x j)

f (yi|xi, θ)

[I(yi = y j)− f (yi|x j, θ)

]}(1.21)

Ils proposent d’estimer les paramètres de lissage par la méthode de validation croisée par moindres

carrés qui a la propriété asymptotique d’éliminer les variables non pertinentes dans le modèle. Ainsi,

sous les conditions de régularité de Hall et al. (2004) liées à la convergence des fenêtres de lissage,

Fan et al. (2006) montrent sous H0 que la statistique de l’expression (1.21) converge en loi vers une

loi normale centrée réduite :

T nsn,γ =

n(h1h2...hq)1/2W ns

n,γ√Vn,γ

d→N(0,1) (1.22)

où Vn,γ = 2n(n−1)

n∑

i=1

n∑j 6=i

{Kγ (xi,x j)

f (yi|xi,θ)

[I(yi = y j)− f (yi|x j, θ)

]}2est un estimateur convergent de la va-

riance asymptotique de n(h1h2...hq)1/2W ns

n,γ .

Pour examiner la performance du test en échantillon fini, Fan et al. (2006) utilise la statistique non

standardisée W nsn,γ pour la simulation Monte Carlo avec 5000 réplications pour le calcul de la taille et

2000 réplications pour le calcul de la puissance en 1000 bootstraps pour déduire la distribution asymp-

totique de W nsn sous H0. Ils utilisent sous H0 un PGD binaire caractérisé par une variable latente qui suit

une loi normale standard (probit), qui est testé contre deux alternatifs, dont les variables latentes sont

respectivement quadratique et hétéroscédastique. Ils obtiennent de bonnes tailles et montrent aussi

que leur test est plus puissant que le test de Zheng (2000). De même, le test est plus puissant que celui

de Andrews (1997) quand il s’agit de tester l’adéquation de densités conditionnelles paramétriques.

1.2.3 Test proposé par Li et Racine (2013)

En échantillon fini, le lissage des variables discrètes apporte un gain d’efficacité dans l’estimation.

Ainsi, Li et Racine (2013) profite de cette propriété pour améliorer la performance en échantillon

fini de la statistique proposée par Fan et al. (2006). Ils proposent de remplacer l’indicatrice de la

variable réponse par un estimateur lissé selon la méthode de Aitchison et Aitken (1976). Ainsi, pour

9

une variable dépendante discrète nominale, ils utilisent l’estimateur suivant :

l(yi,y j,λ0) = (1−λ0)I(yi = y j)+λ0

c0−1I(yi 6= y j) (1.23)

avec λ0 compris entre 0 et c0−1c0

. Ils étendent la procédure du test également aux variables réponses

discrètes ordonnées en utilisant l’estimateur de Wang et van Ryzin (1981) :

l(yi,y j,λ0) = (1−λ0)I(yi = y j)+λ|yi−y j|0

2I(yi 6= y j) (1.24)

avec λ0 compris entre 0 et 1.

En intégrant l’estimateur lissé de la fonction indicatrice, Li et Racine (2013) dérivent les estimateurs

"leave-one-out" des densités p(yi,xi), p1(xi), et p(yi,xi) :

p−i(yi,xi) =1

n−1

n

∑j=1j 6=i

l(yi,y j,λ0)Kγ(xi,x j) (1.25)

p1,−i(xi) =1

n−1

n

∑j=1j 6=i

Kγ(xi,x j) (1.26)

p−i(yi,xi) =1

n−1

n

∑j=1j 6=i

∑y∈Dy

l(yi,y,λ0)Kγ(xi,x j) f (yi|x j, θ) (1.27)

En utilisant les expressions (1.25), (1.26), (1.27), Li et Racine (2013) déduisent les statistiques lissées

W sn,γ et T s

n,γ (contrepartie des équations (1.21) et (1.22) ) :

W sn,γ =

1n(n−1)

n

∑i=1

n

∑j=1j 6=i

{Kγ(xi,x j)

f (yi|xi, θ)

[l(yi,y j,λ0)− ∑

y∈Dy

l(yi,y,λ0) f (y|x j, θ)

]}(1.28)

T sn,γ =

n(h1h2...hq)1/2W s

n,γ√Vn,γ

(1.29)

Ils montrent que la statistique standardisée T sn,γ converge en loi vers une loi normale centrée et ré-

duite sous l’hypothèse nulle (Li et Racine (2013), Théorème 2.1, voir aussi l’annexe)). De plus, sous

l’hypothèse alternative, T sn,γ converge en probabilité vers une valeur strictement positive (Li et Racine

(2013), Théorème 2.2, voir aussi l’annexe).

Par ailleurs, pour obtenir la performance du test en échantillon fini, ils utilisent une procédure boots-

trap paramétrique de 1000 réplications et 399 bootstraps, sur un modèle probit ordonné dont la variable

latente est linéaire sous H0 et un alternatif sinusoïdal. Les résultats de la simulation réalisée avec des

tailles d’échantillon 200, 300, 400 révèlent que le test possède une bonne taille qui ne varie pas selon

le type de statistique utilisée, et que la statistique lissée apporte un gain de puissance par rapport à la

statistique de Fan et al. (2006).

10

Chapitre 2

Méthodologie d’estimation

Lorsque des tests statistiques sont proposés, il est parfois possible d’établir des règles de rejet et

d’acceptation de l’hypothèse nulle à la fois en grand échantillon et en échantillon de taille fixe. Fan

et al. (2006) et Li et Racine (2013) établissent que leurs statistiques de test sont asymptotiquement

normales sous l’hypothèse nulle (sous-section 1.2.2, et sous-section 1.2.3), mais ils ajoutent que la

normalité de la distribution n’est aucunement garantie en échantillon fini. Pour pallier cette déficience,

ils proposent une procédure bootstrap qui possède de très bonnes propriétés en échantillon fini : (i)

elle identifie le vrai modèle au même seuil d’erreur qu’en grand échantillon lorsque le chercheur

postule le vrai modèle, (ii) elle rejette avec une probabilité suffisamment élevée le modèle utilisé

par le chercheur lorsque le modèle postulé ne correspond pas au vrai processus de génération de

données (bonne puissance du test). Dans ce chapitre, nous décrivons en détail les différentes étapes

qui permettent de démontrer ces résultats.

2.1 Démarche méthodologique

Pour analyser la taille du test en échantillon fini, nous commençons par choisir le vrai processus de

génération de données (PGD) sous l’hypothèse nulle et nous créons des échantillons de différentes

tailles. Comme dans les articles originaux de Fan et al. (2006) et Li et Racine (2013), nous retiendrons

n = {200,300,400,500}. Pour une taille fixe d’échantillon, nous obtenons une première estimation du

vrai PGD à l’aide des deux estimateurs paramétrique et non paramétrique par noyau. Nous calculons

l’écart d’ajustement des valeurs prédites par les deux estimateurs à l’aide des statistiques Wn (voir les

équations (1.21) et (1.28)). De toute évidence, cette statistique n’est pas utile car il nous manque sa

distribution en échantillon fini. Nous tirons donc 399 échantillons bootstrap de l’échantillon original

et nous réestimons avec ces échantillons bootstrap les statistiques des deux tests (lissé et non lissé).

Ceci nous donne 399 valeurs bootstrap des statistiques des tests, qui permettent de définir une densité

empirique des statistiques(lissée et non lissée) pour l’échantillon initialement généré. Nous comparons

finalement les statistiques (lissée et non lissée) de notre échantillon original à leurs distributions boots-

trap. Si les statistiques échantillonnales dépassent les quantiles 90%, 95% ou 99% des distributions

11

bootstrap, l’égalité des estimations paramétrique et non paramétrique sera rejetée au seuil de confiance

correspondant. En répétant cette procédure 1000 fois (toujours pour un échantillon de même taille),

nous testons la capacité des statistiques proposées (Fan et al., 2006; Li et Racine, 2013) à détecter le

vrai processus de génération de données en échantillon fini.

L’analyse de la puissance des deux tests se fait en générant nos échantillons de taille fixe avec un

processus de génération de données alternatif à celui postulé sous H0. Nous estimons ensuite les pro-

babilités conditionnelles avec le modèle postulé sous H0. Le modèle postulé sous H0 inclut les mêmes

variables incluses dans le PGD alternatif, mais il se distingue par une forme fonctionnelle différente.

Par conséquent, l’utilisation d’une forme fonctionnelle paramétrique erronée (celle postulée sous H0)

conduit à des estimations paramétriques biaisées de la densité conditionnelle postulée sous l’hypothèse

alternative H1. L’estimateur de noyau étant flexible, il captera correctement le processus de génération

de données postulé sous H1. La procédure bootstrap décrite ci-dessus devrait alors aboutir à rejeter

l’hypothèse nulle plus fréquemment, et à la rejeter avec une probabilité croissante lorsque la taille de

l’échantillon croît.

La simulation requiert donc la définition d’un PDG (ou modèle de densité conditionnelle) sous l’hy-

pothèse nulle, d’un PGD alternatif, d’un estimateur paramétrique, d’un estimateur non paramétrique

et d’une procédure bootstrap adéquate. Dans tous les cas, nous utilisons les estimateurs et procédures

recommandées par les auteurs des tests et nous les implémentons dans R.

Dans les sous-sections qui suivent, nous commençons par définir le vrai PGD utilisé pour calculer la

taille des tests de Fan et al. (2006) et de Li et Racine (2013), puis nous identifions les PGD utilisés

pour établir leur puissance dans la section 2.2. Ensuite, nous définissons les estimateurs paramétriques

et les fonctions du logiciel R utilisées pour l’estimation. Nous nous tournons ensuite vers l’estimateur

non paramétrique et nous précisons les outils pertinents pour les obtenir dans R. Finalement, nous

rappelons l’ensemble de la procédure sous la forme d’une liste d’étapes. Ce n’est qu’au chapitre 3 que

nous rapportons nos résultats.

2.2 Processus de génération des données sous les hypothèses nulle etalternative

Le PGD retenu sous H0 est similaire à celui proposé par Li et Racine (2013). La seule différence tient

à notre hypothèse de variance unitaire σ2u = 1, alors que les auteurs précités préfèrent σ2 = 0.25. Par

conséquent, nous considérons le modèle probabiliste :

y∗i = θ0 +θ1xi +θ2zi +ui, (2.1)

où xi ∼ N(0,σx = 1), zi est généré par un processus Bernoulli {0,1} tel que P(zi = 1) = 0,5, ui ∼N(0,σu), avec θ0 = 1, θ1 = 1, θ2 = −1, et σu = 1. Le modèle (2.1) génère une variable latente,

que nous reclassifions pour obtenir un modèle discret en yi sur le support Dy = {0,1, ...,c− 1}. La

12

variable dépendante polytomique y est générée selon les quantiles de la distribution normale. À titre

d’illustration, pour σ2u = 1 et c = 4, yi prend les valeurs discrètes suivantes :

yi =

0 si −∞≤ y∗i <−0,674

1 si −0,674≤ y∗i < 0

2 si 0≤ y∗i < 0,674

3 si 0,674≤ y∗i <+∞

Afin d’étendre nos simulations au modèle logistique multinomial simple, nous considérons également

le PGD de l’équation (2.1) avec une erreur ui∼ logit(0,σu). La variable latente est ensuite transformée

selon la même logique vis-à-vis de la distribution logistique.

En ce qui concerne la puissance du test, Li et Racine (2013) postulent des PGD différents de l’équation

(2.1) en utilisant les mêmes variables explicatives. Ils se concentrent ainsi sur une erreur de spécifica-

tion de la forme fonctionnelle. Dans nos simulations, nous considérons l’alternative sinusoïdale de Li

et Racine (2013), mais également les modèles à indice quadratique et hétéroscédastique de Fan et al.

(2006). Les trois PGD considérés pour tester la puissance sont donc :

DGP 1a : y∗i =θ0 +θ1xi +θ2zi +θ3 sin(0,5πxi)+ui

DGP 1b : y∗i =θ0 +θ1xi +θ2zi +θ3x2i +ui

DGP 1c : y∗i =θ0 +θ1xi +θ2zi + xiui

Comme indiqué au début de la section 2.1, nous devons maintenant estimer les modèles

P(yi = y|xi,zi) =

Φ(xi,zi;θ) paramétrique

f (xi,zi) non paramétrique.

La section 2.3 décrit les estimateurs utilisés pour les modèles paramétriques alors que la section 2.4

décrit l’estimation non paramétrique.

2.3 Estimation paramétrique de la densité conditionnelle

Comme indiqué dans la section 1.2, le calcul des statistiques des tests de Fan et al. (2006) et Li et

Racine (2013) nécessite l’estimation de la densité conditionnelle paramétrique et de fenêtres de lissage

pour estimer la densité du noyau jointe des variables explicatives. Dans cette section, nous rappelons

la procédure d’estimation des densités conditionnelles polytomiques par maximum de vraisemblance.

2.3.1 Estimation de la densité conditionnelle paramétrique d’un modèle polytomiquenon ordonné

Soit {yi,xi}i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de

(y,x). yi est une variable polytomique dont le support Dy = {1,2, ...,M}, et xi un vecteur de k variables

13

explicatives. Soit y∗im la variable latente de yi définit telle que : y∗im = xiθm + uim ; i = 1, ...,n et m =

1, ...,M ; θm est un vecteur de k paramètres réelles. La variable latente peut être vue comme l’utilité de

l’individu i de choisir la modalité m de la variable réponse. La probabilité que l’individu i choisisse la

modalité m conditionnellement aux variables explicatives xi est définie par :

P(yi = m |xi ) =P(y∗im > y∗i j,∀ j 6= m |xi )

=P(xiθm +uim > xiθ j +ui j,∀ j 6= m |xi )

=P(ui j−uim < xiθm− xiθ j,∀ j 6= m |xi )

=P(umi j < xiθm− xiθ j,∀ j 6= m |xi )

=Fim(xi(θm−θ1), ...,xi(θm−θM))

avec

umi j = ui j−uim (2.2)

La fonction de répartition Fim est celle de l’erreur umi = (ui1− uim,ui2− uim, ...,uiM− uim). Elle peut

être une loi multinormale si le modèle estimé est un probit multinomial, ou encore une loi de Gumbel

dans le cas logit multinomial. Pour ymi j = xiθm− xiθ j, yim = I(yi = m) et pim(θ) = P(yi = m |xi ) la

densité conditionnelle de yi sachant xi est donnée par :

f (yi|xi,θ) =M

∏m=1

pyimjm(θ) (2.3)

La log vraisemblance à maximiser s’écrit sous la forme suivante :

L(θ) =1n

n

∑i=1

M

∑m=1

yim log(pim(θ)) (2.4)

La condition de premier ordre de l’équation (2.4) est donnée par :

∂L(θ)∂θ

=1n

n

∑i=1

M

∑m=1

yim1

pim(θ)

∂ pim(θ)

∂θ= 0 (2.5)

Sous des conditions de régularité (McFadden, 1974; Amemiya, 1985) le problème de maximisation

admet un maximun global unique. Par ailleurs, si les conditions de régularité sont respectées, la dis-

tribution limite 1 de l’estimateur est :

√n(θ −θ0

) d→N(0,A−10 B0A−1

0 ), (2.6)

avec A0 = E(

∂ 2L(θ)∂θ∂θ

′

)et B0 = E

(∂L(θ)

∂θ

∂L(θ)∂θ′

). Par conséquent, sous H0, la distribution asymptotique

de θ est :

θd∼N(θ0,−A0) (2.7)

1. Pour plus de détails, voir Amemiya (1985); Cameron et Trivedi (2005).

14

L’estimateur de la densité conditionnelle paramétrique est donné par :

f (yi|xi, θ) =M

∏m=1

pyimjm(θ) (2.8)

Ce modèle est estimé sur R avec la fonction mlogit() du package mlogit proposé par Croissant

(2013) 2. L’optimisation de la log vraisemblance peut être améliorée par la fonction mlogit.optim()qui utilise par défaut l’algorithme de Newtn-Raphson (NR) avec la numérisation de la matrice hes-

sienne. Cette fonction offre la possibilité de choisir les méthodes d’optimisation alternatives 3.

2.3.2 Estimation de la densité conditionnelle paramétrique d’un modèle polytomiqueordonné


(y,x). yi est une variable polytomique dont le support Dy = {1,2, ...,M} et la variable latente y∗i =

xiθ + ui où θ ∈ Θ ⊂ Rk (un sous-ensemble compact et convexe) et xi ∈ Rk telle que (Long, 1997;

Agresti, 2002) :

yi =

1 si α0 ≤ y∗i < α1

2 si α1 ≤ y∗i < α2

...

M si αM−1 ≤ y∗i < αM

(2.9)

avec α0 =−∞ et αM =+∞, ui est identiquement distribué avec une fonction de répartition F . On a :

P(yi = m|xi,θ ,αm−1,αm) = P(αm−1 ≤ xiθ +ui < αm)

= P(αm−1− xiθ ≤ ui < αm− xiθ)

= F(αm− xiθ)−F(αm−1− xiθ)

avec m∈Dy, F(α0−xiθ) = 0, P(yi = 1|xi,θ) = F(α1−xiθ), et P(yi = M|xi,θ) = 1−F(αM−1−xiθ)

La densité conditionnelle est donnée par :

f (yi|xi,θ ,α) =M

∏m=1

pI(yi=m)im (θ ,αm−1,αm) (2.10)

où pim(θ ,αm−1,αm) = F(αm− xiθ)−F(αm−1− xiθ).

De plus, en posant yim = I(yi = m) et en maximisant la log vraisemblance :

L(α,θ) =1n

n

∑i=1

M

∑m=1

yim log(pim(θ ,αm−1,αm)) (2.11)

2. Estimation of multinomial logit model in R : mlogit packages.3. Comme algorithme de Berndt-Hall-Hall-Hausman (BHHH) ou encore Broyden-Fletcher-Goldfarb-Shanno (BFGS).

15

nous obtenons les conditions de premier ordre ci-après :

∂L(θ)∂θ

=1n

n

∑i=1

M

∑m=1

∂ pim(θ ,αm−1,αm)

∂θ

yim

pim(θ ,αm−1,αm)= 0 (2.12)

∂L(α,θ)

∂αm=

1n

n

∑i=1

[yim

pim(θ ,αm−1,αm)−

yi(m+1)

pi(m+1)(θ ,αm,αm+1)

]f (αm + xiθ) = 0 (2.13)

avec m = 1, ...,M et F′(αm + xiθ) = f (αm + xiθ) la fonction de densité de la distribution de DGP.

Sous certaines conditions de régularité 4 (Pratt, 1981), le problème admet un unique maximum global

qui respecte la propriété de convergence de l’expression (2.6). Ce qui permet de dériver la fonction de

densité conditionnelle paramétrique :

f (yi|xi, θ , α) =M

∏m=1

pyimim (θ , αm−1, αm) (2.14)

Ce modèle est estimable sur R par le package MASS, avec la fonction polr(), développé par Venables

et Ripley (2002) . Elle utilise l’algorithme de Newton-Raphson et la méthode vcov() du package stats(R Core Team, 2014). Par ailleurs, le cas binaire est estimé par la fonction glm() du package stats.

2.4 Estimation non paramétrique

L’estimation non paramétrique comprend l’obtention des fenêtres de lissage pour densités condition-

nelles, jointe et marginale de respectivement (y|x), (y,x) et de x puis le calcul des produits de noyaux

discrets et continus.

2.4.1 Estimation des fenêtres de lissage conditionnelles par validation croisée parmoindres carrés

Il existe de nombreuses méthodes pour obtenir les paramètres de lissage optimaux. Les méthodes de

validation croisée proposent de partir de fenêtres de lissages candidates et de minimiser l’erreur de

prévision des densités en chaque point i de l’échantillon en utilisant toutes les valeurs de l’échantillon,

excepté le point i. Cette approche est qualifiée en anglais de ‘leave-one-out’. Une fois obtenues les

estimations en chaque point, il convient de définir une métrique qui mesure la qualité d’ajustement

de la prévision non paramétrique. À titre d’exemple, la méthode de validation croisée par maximum

de vraisemblance utilise la (log)vraisemblance de la densité estimée comme fonction objectif. Cette

méthode a tendance à surlisser les fenêtres soit en raison d’une estimation non robuste (sensibilité

excessive aux points extrêmes), soit à cause de la présence de variables explicatives non pertinentes (Li

et Racine, 2007, pp. 161) dans le modèle postulé par le chercheur. Par contre, la méthode de validation

croisée par moindres carrés à l’avantage d’éliminer asymptotiquement les variables explicatives non

pertinentes du modèle.

4. Pour d’autres développements voir Amemiya (1985); Long (1997); Agresti (2002).

16


(y,x), et soit yi, une variable polytomique dont le support Dy = {1,2, ...,M}. La méthode de validation

croisée par les moindres carrés se base sur le critère de minimisation de la somme de carré des erreurs

(Integrated Squared Errors) :

CV (h,λ ) =1n

n

∑l=1

G−l(xl)

[µ−l(xl)]2 −

2n

n

∑l=1

f−l(xl,yl)

µ−l(xl)(2.15)

où, f−l et µ−l sont respectivement les densités jointe de (x,y) et marginale de x estimées par "leave-

one-out", et Gl est défini par :

G−l(xl) =1n2

n

∑i=1,i 6=l

n

∑j=1, j 6=l

K(xi,xl)K(x j,xl)L(yi,y j) (2.16)

avec Kγ(xi,x j) = W (xci ,x

cj,h)× L(xd

i ,xdj ,λ ), où K(), W() et L() sont les fonctions-noyaux définies

dans les équations (1.13), (1.14) et (1.15). Les paramètres (h, λ ) sont les estimateurs des fenêtres de

lissage. Hall et al. (2004) établissent que l’estimateur des paramètres de lissage par la méthode de

validation croisée par les moindres carrés converge en probabilité vers (h0,λ 0) selon le Lemme 2.1

(Voir Annexe). Un algorithme existe sur R pour calculer ces paramètres de lissage. Il est implémenté

dans la fonction npcdensbw() du package np développé par Hayfield et Racine (2008) 5.

2.4.2 Estimation non paramétrique de la densité conditionnelle

Nous avons vu que les statistiques des tests sont estimées par la mesure de divergence I1(p, f ) définie

par l’expression (1.7). 6 Les sous-sections précédentes ont permis d’estimer les fenêtres de lissage des

densités conditionnelles et la fonction de densité conditionnelle. Il reste à estimer la densité jointe

(p(yi,xi)) et la densité marginale (p1(xi)).

Comme nous l’avons vu dans les sous-sections 1.2.2 et 1.2.3, Fan et al. (2006) et Li et Racine (2013)

proposent d’estimer les densités jointe p(yi,xi) et marginale p1(xi) par la méthode de validation croi-

sée "leave-one-out" et en utilisant le produit de noyaux continus et discrets (l’expression (1.13)) pour

l’estimateur de Aitchison-Aitken et (1.14) pour noyaux discrets nominaux et l’expression (1.24) mé-

thode de Wang et Van Ryzin pour les noyaux discret ordonnés). Ainsi en utilisant les fenêtres opti-

males issues de la validation croisée par moindres carrés et les expressions (1.25), (1.26), et (1.27),

l’estimateur non paramétrique de la densité conditionnelle est donné par :

p−i(yi|xi) =

n∑j=1j 6=i

l(yi,y j, λ0)Kγ(xi,x j)

n∑j=1j 6=i

Kγ(xi,x j)(2.17)

5. Pour plus d’information voir la documentation du package.

6.(

I1(p, f ) = E{

p(yi,xi)−p1(xi) f (yi|xi,θ0)f (yi|xi,θ0)

}).

17

où l(yi,y j, λ0) est donné par les expressions (1.23) et (1.24) suivant la nature de la variable réponse.

En utilisant les expressions (1.21), (1.28), (2.8), et (2.14), nous pouvons définir la statistique lissée qui

est prête à être implémentée sur R par : 7

W sn,γ =

1n(n−1)

n∑

i=1

n∑j=1j 6=i

Kγ (xi,x j)M∏

m=1pyim

im (θ ,αm−1,αm)

[l(yi,y j, λ0)− ∑

y∈Dy

l(yi,y, λ0)M∏

m=1pyim

im (θ , αm−1, αm)

]ordonnée

1n(n−1)

n∑

i=1

n∑j=1j 6=i

Kγ (xi,x j)M∏

m=1pyim

jm (θ)

[l(yi,y j, λ0)− ∑

y∈Dy

l(yi,y, λ0)M∏

m=1pyim

jm(θ)

]non ordonnée

(2.18)

La densité jointe Kγ(xi,x j) est estimée à l’aide de la fonction npksum() du package np (Hayfield et

Racine, 2008).

2.5 Simulations

Cette section décrit la procédure de simulation utilisée par Li et Racine (2013) pour établir la taille et

la puissance de leur test en échantillon fini. Elle présente également de manière un peu plus formelle

les calculs de taille et de puissance.

2.5.1 Bootstrap

Nous commençons par décrire la procédure bootstrap. Elle est de type paramétrique et elle s’effectue

dans le but de déterminer la distribution des statistiques W sn et W ns

n en échantillon fini pour une seule

simulation de Monte Carlo.

(a) Générer la i-ième valeur bootstrap de la variable y à partir de la distribution conditionnelle

estimée f (yi|xi, θ). Soit ybi cette valeur et i = 1, . . . ,n. L’échantillon {xi,yB

i }n1=1 constitue un

échantillon bootstrap. Des détails sur l’identification de yb seront donnés en section 3.1.1, au

point (f).

(b) Sous l’hypothèse nulle, estimer le vecteur de paramètres θ avec l’échantillon bootstrap. Nous

pouvons appeler l’estimateur θ b l’estimateur bootstrap de θ . Il n’est pas nécessaire d’obtenir

des paramètres de lissage γ spécifiques à l’échantillon bootstrap. En effet, Fan et al. (2006) et

Li et Racine (2013) précisent que les paramètres de lissage calculés avec l’échantillon Monte

Carlo peuvent être réutilisés pour le calcul de la statistique sous bootstrap ;

(c) Estimer les statistiques lissées W s,bn,γ et non lissées W ns,b

n,γ en remplaçant {yi}i=1,...,n par {ybi }i=1,...,n

et le paramètre θ par θ b.

7. La statistique non lissée se définit de façon similaire.

18

(d) Répéter (a), (b) et (c) un grand nombre de fois (par exemple B = 399). Ces tirages successifs

permettent d’approximer la distribution des statistiques lissées W s,bn,γ et non lissées W ns,b

n,γ sous

l’hypothèse nulle pour un échantillon Monte Carlo donné ;

(e) Calculer les quantiles d’ordre α de W s,bnγ

et de W ns,bnγ

pour les B tirages bootstrap ;

(f) L’hypothèse nulle d’un modèle paramétrique correctement spécifié est rejetée par le test boots-

trap si les deux statistiques empiriques W sn,γ et W ns

n,γ calculées pour l’échantillon Monte Carlo

donné sont supérieures aux quantiles d’ordre α de, respectivement, {W s,bn,γ }

Bj=1 et {W ns,b

n,γ }Bj=1.

2.5.2 Simulations de Monte Carlo

Les calculs de la taille et de la puissance nécessitent la répétition de la procédure bootstrap M fois, par

exemple M=1000.

Calcul de la taille

Le calcul de la taille utilise la distribution de la statistique bootstrap obtenue en générant des échan-

tillons bootstrap de taille fixe avec le processus générateur des données (PGD) sous H0. Ainsi, à partir

d’un grand nombre de réalisations du modèle sous H0, il est possible de tester le nombre de fois

que H0 est rejetée alors que le modèle paramétrique utilisé pour l’estimation est le vrai modèle. La

taille du test bootstrap équivaut à l’erreur de première espèce. Soit M simulations sous H0 des statis-

tiques lissées W sn,γ,i et non lissées W ns

n,γ,i avec i = 1, ...,M ; W s,bn,γ,i(α) et W ns,b

n,γ,i(α) les quantiles bootstrap

d’ordre α respectivement de W s,bn,γ,i et non lissées W ns,b

n,γ,i sous H0. En pratique, la taille de test est définie

(MacKinnon, 2006; Flachaire, 2005) telle que :

Taille(α) =1M

M

∑i=1

I(Wn,γ,i >W bn,γ,i(α)) (2.19)

Il est souvent recommandé de calculer la taille du test en passant par la p-valeur plutôt que par le

quantile du seuil critique de la statistique (Flachaire, 2005). La p-valeur se définit par la distribution

(asymptotique, car M est grand) des réalisations bootstrap sous l’hypothèse nulle.

pv = Pb(W bn,γ >Wn,γ) = 1−Fb(Wn,γ) (2.20)

De l’équation (2.20), nous déduisons la taille du test par l’expression suivante :

Taille(α) = PH0(pv < α) = 1−FH0(F−1

b (Wn,γ)) =1M

M

∑i=1

I(pv,i ≤ α) (2.21)

Calcul de la puissance

La puissance évalue la capacité d’un test à rejeter le modèle postulé par le chercheur lorsque ce

modèle est effectivement erroné. Ici, il s’agit de vérifier la puissance des tests de Fan et al. (2006)

19

et Li et Racine (2013) en échantillon fini. La puissance se calcule en générant dans le processus de

Monte Carlo sous l’hypothèse alternative. Elle correspond à la probabilité de rejeter l’hypothèse nulle

sachant qu’elle est fausse. Soit M simulations sous H1 des statistiques lissées W asn,γ,i et non lissées W ans

n,γ,i

avec i = 1, ...,M. En pratique, la puissance est définie telle que :

Puissance(α) =1M

M

∑i=1

I(W an,γ,i >W b

n,γ,i(α)) (2.22)

Elle peut être aussi obtenue de façon similaire par l’expression (2.21).

20

Chapitre 3

Application

Ce chapitre s’intéresse à l’implémentation des deux tests développés par Fan et al. (2006) et Li et

Racine (2013), en prenant comme modèle sous l’hypothèse H0 la spécification proposée par Li et

Racine (2013), et à l’interprétation des résultats.

3.1 Calcul de la taille et la puissance des tests sur R

Nous abordons dans cette section les procédures de calcul de la taille et de la puissance sur R.

3.1.1 Procédure de calcul de la taille sur R

Pour calculer la taille des deux tests, nous nous contentons de décrire les étapes suivies pour un modèle

à réponse binaire. L’extension aux modèles polytomiques se fait facilement.

(a) Simuler un échantillon {xi,zi,ui}i=1,..,n suivant le modèle H0 retenu tels que ui ∼ N(0,1), xi ∼N(0,1) et zi∼ Bernoulli(1

2). La variable latente sous H0 étant définie par y∗i = θ0+θ1xi+θ2zi+ui

avec θ0 = 1, θ1 = 1, θ2 =−1 et déduire la variable réponse yi = 1{y∗i >0} ;

(b) Estimer les paramètres θ pour l’échantillon simulé avec la fonction glm() du package stats ;

(c) Prédire la probabilité P(yi = 1|xi,zi, θ) à l’aide de la fonction predict.glm() du package stats ;

(d) Calculer les fenêtres de lissage (λ0, λ , h) des variables y, z et x par la méthode de validation croisée

par moindres carrés avec la fonction npcdensbw() du package np ;

(e) Calculer Wn,i(y,z,x, λ0, λ , h, p) selon l’expression (2.18) en utilisant la fonction npksum() du pa-

ckage np pour estimer le densité jointe K(xi,zi) ;

(f) Générer l’échantillon bootstrap selon la procédure décrite dans la sous-section 2.5.1. L’échantillon

bootstrap est constitué de {ybi ,xi}i=1,..,n en utilisant la probabilité P(yi = 1|xi,zi, θ). En pratique,

on génère un échantillon {ei}ni=1 tel que ei ∼ U [0,1] puis on ordonne les éléments de chaque

vecteur-ligne [ ei P(yi = 0|xi,zi, θ),1 ] de manière croissante 1. On récupère ensuite le rang de

1. P(yi = 0|xi,zi, θ) = 1−P(yi = 1|xi,zi, θ).

21

ei dans le vecteur réordonné 2 et on lui soustrait la valeur 1. La valeur ainsi obtenue constitue la

modalité 0 ou 1 de la ième observation 3 ybi ;

(g) Obtenir θ b avec les valeurs {ybi ,xi}i=1,..,n afin de prédire P(yb

i = 1|xi,ziθb) ;

(h) calculer Wn,i,b(yb,z,xλ0, λ1, h, pb) ;

(i) Calculer la taille selon la formule (2.21).

3.1.2 Procédure de calcul de la puissance sur R

Comme décrit dans la sous-section 2.5.2, le calcul de la puissance se base sur les quantiles de la

distribution boostrap des statistiques de test. En prenant l’exemple du modèle DGP1a de la section

2.2, la procédure de calcul de la puissance du test est la suivante :

(a) A partir de l’échantillon {xi,zi,ui}i=1,..,n, calculer la variable latente y∗i = θ0 + θ1xi + θ2zi +

θ3 sin(0,5πxi)+ui et en déduire la variable réponse yi = 1{y∗i >0} ;

(b) Estimer θ avec le modèle postulé sous H0, (dans notre cas, il s’agit du modèle (2.1), section

2.2) et en déduire la probabilité PHa(yi = 1|xi,zi, θ) ;

(c) Calculer les fenêtres de lissage (λ0, λ , h) des variables y, z et x par la méthode de validation

croisée par moindres carrés ;

(d) Calculer la statistique W an,i(y,x,z, λ0, λ , h, p) ;

(e) Calculer la puissance du test à l’aide des statistiques bootstraps et de la formule (2.22).

3.2 Résultats et interprétation

Cette section est consacrée aux résultats liés aux calculs de la taille et de la puissance. Par ailleurs,

pour dériver les puissances et les tailles, nous réalisons 1000 simulations Monte Carlo et 399 tirages

bootstraps avec le modèle de base de Li et Racine (2013). Les calculs sont fondés sur les statistiques

non standardisées Wn (lissée et non lissée). La simulation est réalisée sur R. Les tirages bootstrap et

le calcul des fenêtres de lissage sont parallélisés sur Colosse (Calcul Québec) à l’aide des fonctions

"foreach" et "dopar" des package foreach et doSNOW développés par Analytics et Weston (2014b,a).

En procédant ainsi, nous réduisons considérablement le temps de calcul des simulations. Bien entendu,

ce temps est fonction du nombre de nœuds alloués à la parallélisation. Nous avons généralement utilisé

entre 24 et 48 processeurs, selon la taille des échantillons.

3.2.1 Estimation de la taille du test

Comme décrit plus haut, le calcul de la taille est basé sur le PGD donné par l’équation (2.1). Les

estimations sont faites pour des variables dépendantes polytomiques ordonnées et non ordonnées avec

2. Ce rang sera dans ce cas, soit 1, soit 2, car la probabilité d’obtenir un ei de exactement 0 ou 1 est infime.3. Cette approche est celle utilisée par Li et Racine (2013) et elle est particulièrement utile lorsqu’elle est adaptée au cas

des réponses polytomiques.

22

un nombre de classe c∈ {2,3,4,5} et un nombre d’observations n∈ {200,300,400,500}. Par ailleurs,

deux types de modèles paramétriques sont estimés à savoir le probit ordonné et le logit multinomial

simple 4.

D’après le tableau 3.1, les résultats de la simulation montrent que les tailles sont relativement proches

de celles attendues avec les statistiques asymptotiques, ce qui révèle que les tests proposés par Fan

et al. (2006) et Li et Racine (2013) conservent leurs bonnes propriétés en échantillon fini : ils ne

rejettent que rarement l’hypothèse nulle de spécification correct, lorsque le vrai modèle est utilisé

pour établir la probabilité conditionnelle en petit échantillon. Par exemple, pour le modèle probit

binaire avec n=200, les tailles au seuil de 1% , 5% et 10% sont respectivement 1,8% , 8,0% et 16,5%

pour les deux statistiques (lissée et non lissée). Un résultat similaire est obtenu au niveau du modèle

logit binaire. Par ailleurs, quel que soit le type de statistique (lissée ou non lissée), la taille du test ne

varie presque pas. Ce qui confirme les résultats de Li et Racine (2013). De plus, la taille des deux tests

ne s’améliore ni lorsque n croît à nombre égale de modalités, ni quand le nombre c de modalités de la

variable dépendante augmente en conservant la taille de l’échantillon fixe.

TABLE 3.1 – Taille basée sur le modele H0 : y∗i = 1+ xi− zi +ui avec M=1000, B=399 et σu = 1

Probit multinomial ordonné Logit multinomial non ordonnéy lissée y non lissée y lissée y non lissée

n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1

200 2 0.018 0.080 0.165 0.018 0.080 0.165 0.026 0.113 0.174 0.026 0.113 0.174300 2 0.021 0.085 0.158 0.021 0.085 0.158 0.024 0.087 0.152 0.024 0.087 0.152400 2 0.015 0.070 0.131 0.015 0.070 0.131 0.017 0.091 0.156 0.017 0.091 0.156500 2 0.020 0.094 0.164 0.020 0.094 0.164 0.018 0.099 0.174 0.018 0.099 0.174

200 3 0.010 0.078 0.147 0.010 0.079 0.146 0.026 0.108 0.181 0.026 0.108 0.181300 3 0.019 0.075 0.131 0.019 0.075 0.131 0.039 0.107 0.184 0.039 0.107 0.184400 3 0.015 0.063 0.127 0.015 0.063 0.127 0.027 0.106 0.197 0.027 0.106 0.197500 3 0.013 0.066 0.127 0.013 0.066 0.127 0.030 0.116 0.200 0.030 0.116 0.200

200 4 0.018 0.080 0.137 0.020 0.078 0.136 0.030 0.116 0.195 0.030 0.116 0.195300 4 0.014 0.072 0.130 0.014 0.072 0.130 0.037 0.101 0.194 0.037 0.101 0.194400 4 0.015 0.062 0.122 0.015 0.062 0.122 0.035 0.129 0.210 0.035 0.129 0.210500 4 0.017 0.075 0.133 0.017 0.075 0.133 0.037 0.127 0.211 0.037 0.127 0.211

200 5 0.014 0.071 0.142 0.014 0.071 0.143 0.028 0.107 0.181 0.028 0.107 0.181300 5 0.014 0.057 0.110 0.016 0.057 0.110 0.040 0.122 0.204 0.040 0.122 0.204400 5 0.010 0.071 0.136 0.010 0.071 0.135 0.032 0.119 0.198 0.032 0.119 0.198500 5 0.008 0.062 0.121 0.008 0.062 0.121 0.047 0.138 0.229 0.047 0.138 0.229

4. Dans l’article original, le nombre de classes de la variable réponse est tel que c ∈ {2,3,5,7,9}.

23

3.2.2 Estimation de la puissance du test

Le calcul de la puissance est basé sur trois modèles alternatifs proposés par Fan et al. (2006) et Li et

Racine (2013) comme indiqué dans la section 2.1. Dans le tableau 3.2, l’alternative sinusoïdale (H1a)

conduit à une puissance minimale de 30% approximativement pour les deux types de modèles (probit

ordonné et logit multinomial simple) et pour la grande majorité des seuils critiques. Plus précisément,

la probabilité de rejeter H0 au seuil de 1% sachant qu’elle est fausse est au minimum de ∼ 30%. Cette

probabilité augmente à ∼ 50% si on accepte d’accroitre le risque de se tromper un peu plus souvent,

soit au seuil de 10%. Notons que, lorsque l’on maintient la taille d’échantillon fixe, la puissance du test

ne s’accroît pas nécessairement avec le nombre de modalités de la variable réponse. Comme attendu,

la puissance s’accroît avec n. Pour ce qui est de la puissance selon le type de statistique utilisée (lissée

versus non lissée), il n’y a pas de gain significatif de puissance pour la statistique lissée. Même si

par endroit nous observons des gains de puissance, ceux-ci restent très faibles (de l’ordre de 10−3) au

regard de l’aléa attendu.

TABLE 3.2 – Puissance basée sur le modele DGP H1a : y∗i = 1 + xi − zi + sin(0,5πxi) + ui avecM=1000, B=399 et σu = 1


n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1

200 2 0.387 0.546 0.616 0.386 0.546 0.616 0.298 0.483 0.575 0.296 0.479 0.573300 2 0.484 0.628 0.703 0.483 0.628 0.703 0.381 0.590 0.693 0.377 0.590 0.692400 2 0.599 0.744 0.804 0.600 0.744 0.804 0.494 0.668 0.746 0.494 0.666 0.746500 2 0.734 0.838 0.873 0.734 0.838 0.873 0.570 0.751 0.837 0.570 0.751 0.835

200 3 0.406 0.583 0.683 0.407 0.582 0.683 0.298 0.486 0.585 0.299 0.483 0.584300 3 0.585 0.756 0.818 0.584 0.755 0.817 0.437 0.605 0.695 0.431 0.600 0.695400 3 0.755 0.869 0.902 0.754 0.869 0.902 0.526 0.743 0.814 0.526 0.743 0.814500 3 0.835 0.926 0.953 0.835 0.925 0.953 0.656 0.822 0.880 0.656 0.821 0.881

200 4 0.415 0.636 0.735 0.413 0.634 0.734 0.313 0.469 0.558 0.312 0.468 0.554300 4 0.609 0.769 0.828 0.607 0.768 0.828 0.402 0.599 0.692 0.400 0.597 0.692400 4 0.769 0.886 0.932 0.769 0.885 0.932 0.557 0.723 0.803 0.550 0.721 0.804500 4 0.866 0.944 0.966 0.866 0.944 0.966 0.634 0.804 0.868 0.633 0.805 0.869

200 5 0.422 0.612 0.727 0.420 0.609 0.727 0.304 0.441 0.517 0.299 0.440 0.528300 5 0.617 0.786 0.854 0.614 0.786 0.853 0.406 0.586 0.656 0.402 0.585 0.656400 5 0.784 0.906 0.938 0.783 0.906 0.938 0.530 0.695 0.780 0.530 0.694 0.781500 5 0.892 0.962 0.976 0.892 0.961 0.976 0.608 0.774 0.861 0.607 0.774 0.859

Pour l’hypothèse alternative quadratique H1b, le tableau 3.3 montre que la puissance du test est su-

périeure à 90% quel que soit le modèle et le type de statistique utilisé pour tester la spécification

correcte. Les autres résultats pour ce DGP sont similaires aux résultats obtenus sous H1a. Notons en

24

particulier l’absence de gains de puissance en faveur de la statistique lissée.

TABLE 3.3 – Puissance basée sur le modele DGP H1b : y∗i = 1+xi−zi+x2i +ui avec M=1000, B=399

et σu = 1


n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1

200 2 0.934 0.985 0.998 0.934 0.984 0.998 0.836 0.938 0.970 0.834 0.938 0.968300 2 0.989 0.999 1.000 0.989 0.999 1.000 0.942 0.993 0.998 0.939 0.993 0.998400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.983 0.997 0.999 0.983 0.997 0.99500 2 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000

200 3 0.947 0.994 0.997 0.947 0.993 0.997 0.903 0.966 0.983 0.898 0.963 0.983300 3 0.995 1.000 1.000 0.995 1.000 1.000 0.976 0.998 1.000 0.975 0.997 1.000400 3 1.000 1.000 1.000 1.000 1.000 1.000 0.996 1.000 1.000 0.996 1.000 1.000500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

200 4 0.955 0.993 0.998 0.954 0.991 0.998 0.920 0.974 0.992 0.914 0.973 0.988300 4 0.996 1.000 1.000 0.995 1.000 1.000 0.989 0.998 0.999 0.988 0.998 0.999400 4 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000 0.999 1.000 1.000500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

200 5 0.965 0.994 0.997 0.964 0.994 0.997 0.911 0.975 0.991 0.902 0.971 0.991300 5 0.998 1.000 1.000 0.998 1.000 1.000 0.989 1.000 1.000 0.986 0.999 1.000400 5 1.000 1.000 1.000 1.000 1.000 1.000 0.998 1.000 1.000 0.998 1.000 1.000500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Les résultats du test de puissance pour l’alternative hétéroscédastique sont présentés dans le tableau

3.4. On note les mêmes tendances que pour les alternatives quadratiques et sinusoïdales. La puissance

est virtuellement unitaire lorsque n est supérieur à 300 et lorsque c est supérieur à 3.

D’après nos analyses, les gains de puissance apportés par la statistique lissée sont donc négligeables.

Ces résultats contrastent avec ceux de Li et Racine (2013) qui obtiennent systématiquement des gains

de puissance pour la statistique lissée à tous les seuils critiques. Sous l’hypothèse d’absence d’erreur

de codage, ces différences pourraient être dues à la variance inférieure du terme stochastique du PGD,

supérieure dans nos simulations en comparaison à Li et Racine (2013). Ces auteurs utilisent une

variance quatre fois inférieure pour l’erreur normale. Dans ce contexte, nos paramètres de lissage

pourraient être sous optimaux comparés à ceux de Li et Racine (2013). Sachant que les variables

explicatives de nos modèles sont toutes pertinentes, nous nous attendons à observer peu de surlissage

des fenêtres optimales calculées par validation croisée par les moindres carrés. Le tableau 3.5 donne

donc la proportion de paramètres de lissage qui peut être considérée comme excessivement large

pour les 1000 simulations de Monte Carlo, en fonction de la taille de l’échantillon et du nombre de

modalités de la variable dépendante. Dans ce tableau, nous nous concentrons sur le PGD considéré

25

TABLE 3.4 – Puissance basée sur le modele DGP H1c : y∗i = 1+ xi− zi + xiui avec M=1000, B=399et σu = 1


n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1

200 2 0.877 0.951 0.971 0.876 0.951 0.971 0.781 0.913 0.954 0.778 0.909 0.953300 2 0.982 0.995 0.998 0.982 0.995 0.998 0.938 0.986 0.992 0.935 0.984 0.990400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.989 0.998 0.999 0.989 0.997 0.999500 2 0.998 1.000 1.000 0.998 1.000 1.000 0.996 0.998 1.000 0.996 0.998 1.000

200 3 0.993 0.998 0.998 0.993 0.998 0.998 0.996 0.998 0.998 0.995 0.998 0.998300 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000400 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

200 4 0.997 0.999 0.999 0.997 0.999 0.999 0.999 1.000 1.000 0.998 1.000 1.00300 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000400 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

200 5 0.995 0.998 0.999 0.995 0.997 0.999 1.000 1.000 1.000 1.000 1.000 1.000300 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000400 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

sous H1a : plus de 15% des fenêtres de lissage continues (variable x) peuvent être considérées comme

excessivement larges 5. Cette proportion peut même être supérieure pour les autres PDG utilisés 6. Le

surlissage n’est pas un problème avec les variables discrètes réponse et explicative du modèle car il n’y

virtuellement pas de surlissage. Cela pourrait vouloir dire que l’accroissement de puissance établi par

Li et Racine (2013) pourrait ne pas avoir la portée générale souhaitée dans les applications pratiques.

Si cette explication était plausible, nous devrions probablement constater certaines distorsions de taille

et de puissance dans nos simulations par rapport à celles de Li et Racine (2013), dues à une estimation

moins performante du modèle non paramétrique. Or, ce n’est pas ce que nous constatons. De plus,

des simulations menées 7 avec la variance utilisée par Li et Racine (2013) ne nous permettent pas non

plus de constater les gains de puissance établis par ces auteurs par rapport à la statistique de Fan et al.

(2006). Dans notre cas, nous concluons donc que les gains de puissance apportés par le lissage de la

variable réponse ne concordent pas avec ceux établis par Li et Racine (2013) et qu’ils mériteraient

peut-être d’être confirmés ou infirmés par d’autres simulations.

5. Le seuil informel de ‘surlissage’ du paramètre de lissage est fixé à 0.75n1

q+4 pour la variable continu et à 0.75 c−1c

pour la variable discrète. Ces seuils correspondent aux valeurs asymptotiques définies par le Lemme 2.1.6. Ces résultats n’ont pas été reportés ici.7. Ces résultats sont disponibles sur demande.

26

TABLE 3.5 – Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1+ xi− zi + sin(0,5πxi)+ui avecM=1000, ui ∼ N(0,1)

x z y

n c Moy Med Seuil Rejet Moy Med Seuil Rejet Moy Med Seuil Rejet200 2 0.242 0.252 0.310 0.169 0.091 0.073 0.375 0.019 0.001 0.000 0.375 0.000200 3 0.257 0.263 0.310 0.232 0.100 0.086 0.375 0.010 0.003 0.000 0.500 0.000200 4 0.270 0.275 0.310 0.293 0.109 0.100 0.375 0.010 0.004 0.000 0.562 0.000200 5 0.285 0.288 0.310 0.356 0.116 0.105 0.375 0.006 0.005 0.000 0.600 0.000

300 2 0.224 0.230 0.290 0.148 0.064 0.052 0.375 0.005 0.001 0.000 0.375 0.000300 3 0.238 0.244 0.290 0.197 0.074 0.067 0.375 0.001 0.001 0.000 0.500 0.000300 4 0.251 0.259 0.290 0.272 0.082 0.075 0.375 0.002 0.002 0.000 0.562 0.000300 5 0.260 0.267 0.290 0.329 0.088 0.083 0.375 0.001 0.003 0.000 0.600 0.000

400 2 0.213 0.219 0.276 0.158 0.046 0.040 0.375 0.000 0.000 0.000 0.375 0.000400 3 0.227 0.234 0.276 0.178 0.057 0.052 0.375 0.000 0.000 0.000 0.500 0.000400 4 0.239 0.246 0.276 0.256 0.064 0.059 0.375 0.000 0.001 0.000 0.562 0.000400 5 0.249 0.253 0.276 0.330 0.069 0.065 0.375 0.000 0.001 0.000 0.600 0.000

500 2 0.204 0.209 0.266 0.121 0.039 0.035 0.375 0.000 0.000 0.000 0.375 0.000500 3 0.217 0.220 0.266 0.159 0.047 0.044 0.375 0.000 0.000 0.000 0.500 0.000500 4 0.229 0.234 0.266 0.227 0.055 0.051 0.375 0.000 0.001 0.000 0.562 0.000500 5 0.238 0.241 0.266 0.296 0.060 0.057 0.375 0.000 0.001 0.000 0.600 0.000

27

Conclusion

L’adéquation entre les formes fonctionnelles postulées par l’économiste et les relations observées dans

les données demeure un sujet important de préoccupation en recherche appliquée, en particulier quand

il s’agit de décrire et d’extrapoler des choix individuels. Les estimateurs non paramétriques par noyaux

mixtes (continus et discrets) permettent de tester l’adéquation entre les densités conditionnelles pos-

tulées et les choix observés. Ces estimateurs fournissent également un modèle flexible utilisable en

cas de rejet de la fonction de probabilité postulée.

Nos simulations confirment que les tests récemment proposés par Fan et al. (2006) et Li et Racine

(2013) présentent de bonnes propriétés statistiques en échantillon fini (taille et puissance). Ces tests

identifient de manière statistiquement fiable le vrai modèle (bonne taille) lorsque ce dernier est un

logit/probit polytomique ordonné ou non ordonné. Ils rejettent ces mêmes modèles avec une fréquence

élevée (bonne puissance) lorsque le chercheur omet des non linéarités ou de l’hétéroscédasticité dans

son modèle. Par contre, nous n’avons pas pu confirmer les gains de puissances systématiques mis en

avant par Li et Racine (2013) par rapport au test de Fan et al. (2006). D’après nos simulations, le

lissage de la variable dépendante discrète n’entraîne pas de gains significatifs de puissance par rapport

à une situation ou seul la variable explicative discrète est lissée. Nous n’avons donc trouvé aucune

raison de privilégier l’un des deux tests en échantillon fini.

Les deux tests peuvent être relativement aisément programmés sur R si l’on emploie les fonctions

fournies dans le package np. Nous recommandons l’utilisation de fenêtres de lissage optimales par

la méthode de validation croisée par moindres carrés, comme suggéré par Fan et al. (2006) et Li et

Racine (2013). Pour des échantillons de grande taille (> 1000 observations) et avec plusieurs variables

explicatives, la librairie npRmpi de R permet de paralléliser aisément le calcul de ces fenêtres dans un

environnement Open MPI. Dans la pratique, il n’est pas rare que la validation croisée par les moindres

carrés conduise à des fenêtres optimales sous-lissées. Le sous-lissage peut se révéler frustrant lorsqu’il

affecte une variable explicative continue. Le chercheur devra alors recourir à des fenêtres de lissage

‘sous-optimales’ selon ce critère pour établir une relation lisse entre la variable explicative et la proba-

bilité conditionnelle. Il serait donc intéressant de répéter nos simulations pour vérifier la performance

des tests avec différentes méthodes de sélection des paramètres de lissage. Une autre extension utile

serait d’explorer la taille et la puissance du test lorsque l’on accroît le nombre de variables explicatives

continues. Cela permettrait de quantifier l’impact du ‘curse of dimentionality’ (trappe de la dimension)

29

sur la performance du test. En effet, dans la pratique, la probabilité conditionnelle implique de plu-

sieurs facteurs explicatifs discrets et continus.

30

Annexe A

Annexes

A.1 Lemme et théorèmes utilisés

Lemme 2.1 (Li et Racine, 2013)

Sous les conditions de régularité données par Hall et al. (2004)

n1/(q+4)hs

p→h0s ∀ s = 1, ...,q,

n2/(q+4)λs

p→λ 0s ∀ s = 0, ...,r, où h0

s > 0,λ 0s > 0 sont des constantes fines, r + 1 le nombre de va-

riables discrètes y compris la variable dépendante, q le nombre de variables explicatives continues.

Théorème 2.1 (Li et Racine, 2013) 1

Supposons que y est une variable discrète non ordonnée. Sous les conditions de régularité données par

Fan et al. (2006) et en définissant T nsn,γ =

n(h1h2...hq)1/2W ns

n,γ√Vn,γ

, alors :

(i) Sous H0, T nsn,γ

d→N(0,1) ;

(ii) Sous H1, Pr[T nsn,γ > Bn]→1, pour toute suite de Bn = o(n(h1...hq))

1/2 .

Théorème 2.2 (Li et Racine, 2013)

Supposons que y est une variable discrète ordonnée 2. Sous les conditions de régularité données par

Fan et al. (2006) et en définissant T sn,γ =

n(h1h2...hq)1/2W s

n,γ√Vn,γ

, alors :

(i) Sous H0, T nsn,γ

d→N(0,1) ;

(ii) Sous H1, Pr[T nsn,γ > Bn]→1, pour toute suite de Bn = o(n(h1...hq))

1/2 .

1. Pour la démonstration de ces théorèmes voir Li et Racine (2013).2. La différence entre le Théorème 2.1 et 2.2 réside dans le calcul des fenêtres de lissage optimales, (1.17) et (1.18).

31

Théorème 2.3 (Li et Racine, 2013) pour la validation asymptotique du bootstrap

Supposons que y est une variable discrète non ordonnée. Supposons les conditions du théorème 2.1

sont vérifiées à l’exception de l’hypothèse nulle, et en définissant T ns∗n,γ =

n(h1h2...hq)1/2W ns∗

n,γ√V ∗n,γ

où V ∗n,γ est

définie comme Vn,γ sauf que yi est remplacé par y∗i alors

supz∈R|P(T ns∗

n ≤ z|{xi,yi}ni=1)−Φ(z)|= op(1)

avec Φ(.) la fonction de répartition de la loi normale standard.

Théorème 2.4 (Li et Racine, 2013) pour la validation asymptotique du bootstrap

Supposons que y est une variable discrète ordonnée. Supposons les conditions du théorème 2.2 sont

vérifiées à l’exception de l’hypothèse nulle, et en définissant T ns∗n,γ =

n(h1h2...hq)1/2W ns∗

n,γ√V ∗n,γ

où V ∗n,γ est définie

comme Vn,γ sauf que yi est remplacer par y∗i alors

supz∈R|P(T ns∗

n ≤ z|{xi,yi}ni=1)−Φ(z)|= op(1)

avec Φ(.) la fonction de répartition de la loi normale standard.

32

Bibliographie

Agresti, A. (2002). Categorical Data Analysis. John Wiley and Sons, Inc., Hoboken, New Jersey,

second edition.

Aitchison, J. and Aitken, C. G. G. (1976). Multivariate binary discrimination by the kernel method.

Biometrika, 63(3) :413–420.

Amemiya, T. (1985). Advanced Econometrics. Library of Congress Cataloging in Publication Data.

Analytics, R. and Weston, S. (2014a). doSNOW : Foreach parallel adaptor for the snow package. R

package version 1.0.12.

Analytics, R. and Weston, S. (2014b). foreach : Foreach looping construct for R. R package version

1.4.2.

Andrews, D. W. K. (1988a). Chi-square diagnostic tests for econometric models : Introduction and

applications. Journal of Econometrics, 37(1) :135–156.

Andrews, D. W. K. (1988b). Chi-square diagnostic tests for econometric models : Theory. Econome-

trica, 56(6) :1419–1453.

Andrews, D. W. K. (1997). A conditional kolmogorov test. Econometrica, 65(5) :1097–1128.

Blevins, J. R. and Khan, S. (2013). Local nlls estimation of semi-parametric binary choice models.

Econometrics Journal, 16(2) :135–160.

Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics. Cambridge Univ. Press, Cambridge

[u.a.].

Cragg, J. G. (1971). Some statistical models for limited dependent variables with application to the

demand for durable goods. Econometrica, 39(5) :829–844.

Croissant, Y. (2013). mlogit : multinomial logit model. R package version 0.2-4.

Fan, Y., Li, Q., and Min, I. (2006). A nonparametric bootstrap test of conditional distributions. Eco-

nometric Theory, 22(04) :587–613.

33

Flachaire, E. (2005). Propriétés en échantillon fini des tests robustes à l’hétéroscédasticité de forme

inconnue. Université Paris1 Panthéon-Sorbonne (Post-Print and Working Papers) halshs-00175905,

HAL.

Hall, P., Racine, J., and Li, Q. (2004). Cross-validation and the estimation of conditional probability

densities. Journal of the American Statistical Association, 99 :1015–1026.

Hausman, J. and McFadden, D. (1984). Specification tests for the multinomial logit model. Econo-

metrica, 52(5) :1219–1240.

Hausman, J. A. (1978). Specification tests in econometrics. Econometrica, 46(6) :1251–1271.

Hayfield, T. and Racine, J. S. (2008). Nonparametric econometrics : The np package. Journal of

Statistical Software, 27(5).

Heckman, J. J. (1984). The χ2 Goodness of Fit Statistic for Models with Parameters Estimated from

Microdata. Econometrica, 52(6) :1543–47.

Herbrich, R. (2001). Learning Kernel Classifiers : Theory and Algorithms. The MIT Press.

Horowitz, J. L. (1992). A smoothed maximum score estimator for the binary response model. Econo-

metrica, 60(3) :505–531.

Horowitz, J. L. and Louviere, J. J. (1993). Testing predicted choices against observations in probabi-

listic discrete-choice models. Marketing Science, 12(3) :270–279.

Klein, R. W. and Spady, R. H. (1993). An efficient semiparametric estimator for binary response

models. Econometrica, 61(2) :387–421.

Kullback, S. and Leibler, R. A. (1951). On information and sufficiency. Ann. Math. Statist., 22(1) :79–

86.

Li, C. and Racine, J. S. (2013). A smooth nonparametric conditional density test for categorical

responses. Econometric Theory, 29(03) :629–641.

Li, Q. and Racine, J. (2003). Nonparametric estimation of distributions with categorical and conti-

nuous data. Journal of Multivariate Analysis, 86(2) :266–292.

Li, Q. and Racine, J. S. (2007). Nonparametric Econometrics : Theory and Practice. Princeton

University Press, Princeton.

Li, Q. and Racine, J. S. (2008). Nonparametric estimation of conditional cdf and quantile functions

with mixed categorical and continuous data. Journal of Business & Economic Statistics, 26 :423–

434.

Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. SAGE

Publications, International Educational and Professional Publisher.

34

MacKinnon, J. G. (2006). Bootstrap methods in econometrics. Working Papers 1028, Queen’s Uni-

versity, Department of Economics.

Maddala, G. (1983). Limited Dependent and Qualitative Variables in Econometrics. Cambridge

University Press.

Manski, C. F. (1975). Maximum score estimation of the stochastic utility model. Journal of Econo-

metrics, 3 :205–228.

Matzkin, R. L. (1992). Nonparametric and distribution-free estimation of the binary threshold crossing

and the binary choice models. Econometrica, 60(2) :239–270.

Matzkin, R. L. (1993). Nonparametric identification and estimation of polychotomous choice models.

Journal of Econometrics, 58(1-2) :137–168.

McFadden, D. (1974). The measurement of urban travel demand. Journal of Public Economics,

3(4) :303–328.

Pratt, J. W. (1981). Concavity of log likelihood. American Statistical Association, 76(376) :103–106.

R Core Team (2014). R : A Language and Environment for Statistical Computing. R Foundation for

Statistical Computing, Vienna, Austria.

Racine, J., Li, Q., and Zhu, X. (2004). Kernel estimation of multivariate conditional distributions.

Annals of Economics and Finance, 5(2) :211–235.

Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall,

London.

Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York,

fourth edition. ISBN 0-387-95457-0.

Wang, M.-C. and van Ryzin, J. (1981). A class of smooth estimators for discrete distributions. Bio-

metrika, 68(1) :301–309.

Wooldridge, J. M. (1992). A test for functional form against nonparametric alternatives. Econometric

Theory, 8(04) :452–475.

Zheng, J. X. (2000). A Consistent Test Of Conditional Parametric Distributions. Econometric Theory,

16(05) :667–691.

35

Documents

Tests non paramétriques de spécification pour densité ... · 1.1.1 Test de Andrews (1988, 1997) Andrews(1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification