219
Table des mati` eres 1 Mod` eles et probl` emes statistiques 9 1.1 Mod` ele statistique ............................... 9 1.1.1 efinition g´ en´ erale ........................... 9 1.1.2 Mod` ele param´ etrique, semi-param´ etrique ou non-param´ etrique. ........................... 10 1.1.3 Mod` ele conditionnel .......................... 11 1.1.4 Mod` ele latent et mod` ele observable .................. 12 1.1.5 Mod` ele domin´ e et mod` ele homog` ene ................. 12 1.2 Probl` emes statistiques ............................. 13 1.2.1 Estimation ponctuelle ......................... 13 1.2.2 Test d’hypoth` ese ............................ 13 1.2.3 egion de confiance ........................... 13 1.2.4 Th´ eorie de la d´ ecision ......................... 13 2 Exemples de mod` eles et de probl` emes 17 2.1 Mod` eles d’´ echantillonnage ........................... 17 2.1.1 efinition ................................ 17 2.1.2 Mod` ele d’´ echantillonnage de Bernoulli ................ 17 2.1.3 Mod` ele d’´ echantillonnage normal univari´ e .............. 18 2.1.4 Mod` ele d’´ echantillonnage normal multivari´ e ............. 18 2.1.5 Mod` eles d’´ echantillonnage semi-param´ etrique ............ 19 2.2 Mod` eles conditionnels statiques (M.C.S.) ................... 19 2.2.1 efinition ................................ 19 2.2.2 Mod` ele de r´ egression lin´ eaire univari´ e ................. 20 2.2.3 Mod` ele de r´ egression lin´ eaire multivari´ e ................ 21 2.2.4 Mod` ele `a´ equations simultan´ ees lin´ eaire ................ 21 2.2.5 Mod` ele de r´ egression non-lin´ eaire ................... 22 2.2.6 Mod` ele`ar´ eponse enti` ere ........................ 22 2.2.7 Mod` ele`ar´ eponse dichotomique .................... 23 2.2.8 en´ eralisations des mod` eles`ar´ eponse dichotomique ......... 23 2.2.9 Mod` ele Tobit simple .......................... 24 2.2.10 Mod` ele Tobit g´ en´ eralis´ e ........................ 24 2.2.11 Mod` ele de d´ es´ equilibre ......................... 25 1

Table des mati`eres - École Polytechniquecappe/2006-2007/polycopie.pdf · 2008. 1. 7. · Avant-Propos Ce cours a pour objectif de proposer une voie d’entr´ee dans une discipline

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Table des matières

    1 Modèles et problèmes statistiques 91.1 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.1.1 Définition générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.2 Modèle paramétrique, semi-paramétrique ou

    non-paramétrique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1.3 Modèle conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1.4 Modèle latent et modèle observable . . . . . . . . . . . . . . . . . . 121.1.5 Modèle dominé et modèle homogène . . . . . . . . . . . . . . . . . 12

    1.2 Problèmes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.2 Test d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Région de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.4 Théorie de la décision . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2 Exemples de modèles et de problèmes 172.1 Modèles d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.2 Modèle d’échantillonnage de Bernoulli . . . . . . . . . . . . . . . . 172.1.3 Modèle d’échantillonnage normal univarié . . . . . . . . . . . . . . 182.1.4 Modèle d’échantillonnage normal multivarié . . . . . . . . . . . . . 182.1.5 Modèles d’échantillonnage semi-paramétrique . . . . . . . . . . . . 19

    2.2 Modèles conditionnels statiques (M.C.S.) . . . . . . . . . . . . . . . . . . . 192.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Modèle de régression linéaire univarié . . . . . . . . . . . . . . . . . 202.2.3 Modèle de régression linéaire multivarié . . . . . . . . . . . . . . . . 212.2.4 Modèle à équations simultanées linéaire . . . . . . . . . . . . . . . . 212.2.5 Modèle de régression non-linéaire . . . . . . . . . . . . . . . . . . . 222.2.6 Modèle à réponse entière . . . . . . . . . . . . . . . . . . . . . . . . 222.2.7 Modèle à réponse dichotomique . . . . . . . . . . . . . . . . . . . . 232.2.8 Généralisations des modèles à réponse dichotomique . . . . . . . . . 232.2.9 Modèle Tobit simple . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.10 Modèle Tobit généralisé . . . . . . . . . . . . . . . . . . . . . . . . 242.2.11 Modèle de déséquilibre . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1

  • 2 TABLE DES MATIÈRES

    2.3 � Modèles dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.2 Modèle linéaire autorégressif . . . . . . . . . . . . . . . . . . . . . . 272.3.3 Modèle autorégressif et autorégressif-moyenne-mobile

    (ARMA) univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.4 Modèle VAR (vectoriel autorégressif) . . . . . . . . . . . . . . . . . 292.3.5 Modèle ARCH (Autorégressif conditionnellement hétéroscedastique) 29

    3 Exhaustivité, information et identification 333.1 Définition d’une statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 � Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Critère de factorisation . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Cas d’un modèle conditionnel . . . . . . . . . . . . . . . . . . . . . 36

    3.3 Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3.1 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 373.3.2 Divergence de Kullback . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.4 Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.5 Cas des modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . 45

    3.5.1 Définition d’un modèle exponentiel . . . . . . . . . . . . . . . . . . 453.5.2 Modèles exponentiels et exhaustivité . . . . . . . . . . . . . . . . . 453.5.3 Modèles exponentiels et identification . . . . . . . . . . . . . . . . . 46

    3.6 Compléments sur les modèles conditionnels . . . . . . . . . . . . . . . . . . 47

    4 Estimation sans biais 534.1 Fonctions de perte quadratiques . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Définition d’un estimateur sans biais . . . . . . . . . . . . . . . . . . . . . 554.3 � Estimation sans biais optimale . . . . . . . . . . . . . . . . . . . . . . . 55

    4.3.1 Théorème de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . 554.3.2 Théorème de Lehman-Scheffé . . . . . . . . . . . . . . . . . . . . . 57

    4.4 Borne de Fréchet-Darmois-Cramer-Rao . . . . . . . . . . . . . . . . . . . . 584.5 Cas du modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    4.5.1 Modèle linéaire semi-paramétrique . . . . . . . . . . . . . . . . . . 594.5.2 Modèle linéaire normal . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5 M-Estimateurs 635.1 Le point de vue asymptotique sur l’estimation ponctuelle . . . . . . . . . . 635.2 Résultats généraux sur les M-Estimateurs . . . . . . . . . . . . . . . . . . 65

    5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.2.2 Existence et consistance . . . . . . . . . . . . . . . . . . . . . . . . 655.2.3 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.3 Le maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . 675.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

  • TABLE DES MATIÈRES 3

    5.3.2 Propriétés de la méthode du maximum de vraisemblance . . . . . . 685.3.3 Exemples de vraisemblances . . . . . . . . . . . . . . . . . . . . . . 70

    5.4 � Le pseudo-maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 725.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.4.2 Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.4.3 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . 745.4.4 Exemples de familles exponentielles linéaires . . . . . . . . . . . . . 765.4.5 Prolongements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.4.6 Application au modèle de Poisson . . . . . . . . . . . . . . . . . . . 78

    5.5 Moindres carrés non linéaires . . . . . . . . . . . . . . . . . . . . . . . . . 80

    6 Tests d’hypothèses 876.1 Test, fonction de tests et risques . . . . . . . . . . . . . . . . . . . . . . . . 87

    6.1.1 Définition d’un problème de test . . . . . . . . . . . . . . . . . . . . 876.1.2 Test pur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.1.3 Test aléatoire (ou mixte) . . . . . . . . . . . . . . . . . . . . . . . . 89

    6.2 Choix d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.2.1 Optique décisionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 906.2.2 Principe bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.2.3 Principe de Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . 916.2.4 Principe d’absence de biais . . . . . . . . . . . . . . . . . . . . . . . 92

    6.3 Tests U.P.P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 926.3.1 Test d’une hypothèse simple contre une hypothèse simple . . . . . . 926.3.2 Tests d’hypothèses composites unilatérales . . . . . . . . . . . . . . 97

    6.4 � Condition d’absence de biais et autres prolongements . . . . . . . . . . . 99

    7 Tests asymptotiques 1037.1 Convergence, hypothèse nulle et estimation

    contrainte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1037.1.1 Convergence d’un test . . . . . . . . . . . . . . . . . . . . . . . . . 1037.1.2 Le contexte statistique . . . . . . . . . . . . . . . . . . . . . . . . . 1047.1.3 Estimation contrainte . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    7.2 Statistiques de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.2.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.2.2 Test du multiplicateur de Lagrange . . . . . . . . . . . . . . . . . . 1077.2.3 Test de type (( score )) . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.2.4 Test d’Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.2.5 Test du type rapport de vraisemblance . . . . . . . . . . . . . . . . 1097.2.6 Cas de la méthode du maximum de vraisemblance . . . . . . . . . . 111

    7.3 Cas d’une hypothèse nulle sous forme explicite . . . . . . . . . . . . . . . . 1127.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

    7.4.1 Test de significativité d’un coefficient ou d’un ensemble de coefficients1137.4.2 Test d’homoscédasticité . . . . . . . . . . . . . . . . . . . . . . . . 113

  • 4 TABLE DES MATIÈRES

    7.4.3 Tests d’adéquation et d’indépendance du khi-deux. . . . . . . . . . 115

    8 Régions de confiance 1238.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1238.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    8.2.1 Estimation de la moyenne d’une loi normale (variance connue) . . . 1248.2.2 Estimation de la moyenne d’une loi normale (variance inconnue) . . 1258.2.3 Région de confiance pour la moyenne et la variance d’une loi normale1258.2.4 Région de confiance pour les paramètres d’un modèle linéaire . . . . 126

    8.3 Régions de confiance par excès (ou conservatrices) . . . . . . . . . . . . . . 1278.4 � Optimalité d’une région de confiance . . . . . . . . . . . . . . . . . . . . 1288.5 Régions de confiance asymptotiques . . . . . . . . . . . . . . . . . . . . . . 1338.6 Exemples de régions de confiance asymptotiques . . . . . . . . . . . . . . . 135

    9 Compléments sur le modèle linéaire 1399.1 Échantillons normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    9.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1399.1.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 1399.1.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 1409.1.4 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    9.2 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1439.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1439.2.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 1449.2.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 1479.2.4 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 150

    10 � Modèles statistiques dynamiques 15310.1 Le cadre statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15310.2 Exemples de modèles dynamiques . . . . . . . . . . . . . . . . . . . . . . . 155

    10.2.1 Modèles linéaires dynamiques . . . . . . . . . . . . . . . . . . . . . 15510.2.2 Modèles autorégressifs (AR ou VAR) . . . . . . . . . . . . . . . . . 15610.2.3 Modèles ARCH (autorégressifs conditionnellement

    hétéroscédastiques) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15710.3 Estimation ponctuelle dans les modèles dynamiques . . . . . . . . . . . . . 158

    10.3.1 Passage du cas statique au cas dynamique . . . . . . . . . . . . . . 15810.3.2 M-estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    10.4 Tests et régions de confiance dans les modèles dynamiques . . . . . . . . . 166

    Annexe I Démonstration du critère de factorisation 171

    Annexe II Vecteurs normaux et convergence en loi 175II.1 Vecteurs normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

    II.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175II.1.2 Lois dérivées de la loi normale . . . . . . . . . . . . . . . . . . . . . 176

  • TABLE DES MATIÈRES 5

    II.1.3 Projections et formes quadratiques de vecteurs normaux . . . . . . 177II.1.4 Conditionnement pour les vecteurs normaux . . . . . . . . . . . . . 179

    II.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

    Annexe III Théorèmes asymptotiques pour les processus stochastiques 187III.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187III.2 Lois fortes des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 190III.3 Lois fortes des grands nombres uniformes . . . . . . . . . . . . . . . . . . . 195III.4 Théorèmes de type central limite . . . . . . . . . . . . . . . . . . . . . . . 196

    Annexe IV Propriétés asymptotiques des estimateurs obtenus par optimi-sation d’un critère 201IV.1 Mesurabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201IV.2 Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203IV.3 Normalité asymptoptique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204IV.4 Estimateur équivalent de Newton . . . . . . . . . . . . . . . . . . . . . . . 207IV.5 Estimation contrainte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

    Bibliographie 211

    Tables statistiques 213

  • 6 TABLE DES MATIÈRES

  • Avant-Propos

    Ce cours a pour objectif de proposer une voie d’entrée dans une discipline vaste etmultiforme : la statistique.

    Bien que tout découpage soit relativement arbitraire, il est commode de distinguer troisgrands domaines statistiques : la production des données, l’exploration des données et lamodélisation. Chaque domaine fait appel à des techniques diverses. Ainsi la production desdonnées peut utiliser les techniques de sondages ou de plans d’expérience. L’explorationdes données met en oeuvre des méthodes de statistique descriptive et, en particulier, lesméthodes géométriques d’analyse des données ; ces méthodes ont pour but de résumer oude visualiser des grands ensembles de données, sans faire référence à un modèle proba-biliste. Enfin la modélisation statistique a pour but de formaliser un phénomène par unmodèle probabiliste et de confronter ce modèle aux données ; les méthodes correspondantessont souvent regroupées sous le nom de statistique mathématique, ou statistique inductiveou statistique inférentielle.

    C’est essentiellement à ce troisième domaine que l’on va s’intéresser, pour diversesraisons. Tout d’abord parce qu’en fait ce domaine est très général : les techniques de son-dages et de plans d’expériences peuvent être mises dans un cadre probabiliste, de même,la plupart des techniques d’analyse des données (( sans modèle )) ont des homologues pro-babilistes. Par ailleurs, la statistique inférentielle, utilisant des techniques probabilistes,bénéficie de leur très grand développement et constitue un domaine de recherche trèsactif. Enfin, et surtout, la statistique inférentielle permet de mettre en évidence un nou-veau rôle des mathématiques dans la démarche scientifique. En effet, le rôle classique desmathématiques est avant tout d’assurer la cohérence interne des modèles, la statistiqueinférentielle, quant à elle, a pour but de confronter les modèles à la réalité, autrementdit d’apprécier leur (( cohérence externe )). Cet objectif est très général et il n’est doncpas étonnant que les méthodes statistiques soient utilisées dans les domaines très variés :physique, chimie, biologie, automatique, analyse d’images, théorie du signal, histoire, so-ciologie, agronomie, linguistique, économie, finance, marketing, assurance...

    Dans ce cours, nous avons choisi de mettre l’accent sur les méthodes statistiquesfondées sur l’optimisation d’un critère, parce qu’elles sont très employées en pratiqueet permettent de traiter rapidement des problèmes relativement complexes. Par ailleurs,nous avons privilégié les approches asymptotiques de ces méthodes car elles ont l’avantage

    7

  • 8 AVANT-PROPOS

    d’être très unifiées et très générales. Enfin, nous avons cherché à rédiger un texte auto-nome (d’où l’existence des annexes II et III présentant des résultats probabilistes utiles),un texte sans développements techniques excessifs (d’où le regroupement dans les annexesI et IV des démonstrations les plus délicates) et un texte aussi complet que possible (cequi entrâıne que certains passages, par exemple ceux consacrés aux méthodes de pseudo-maximum de vraisemblance ou aux modèles dynamiques sont hors programme).

    Les sections ou chapitres dont le numéro est suivi du

    signe � ne sont pas au programme du cours de deuxièmeannée.

  • Chapitre 1

    Modèles et problèmes statistiques

    Dans ce chapitre on donnera une définition formelle des modèles et des problèmesstatistiques ; ces définitions seront illustrées par des exemples dans le chapitre suivant.

    1.1 Modèle statistique

    1.1.1 Définition générale

    Un espace probabilisé (ou espace de probabilité) est composé :– d’un espace Y dont les éléments y sont les résultats possibles de l’expérience

    aléatoire ; cet espace est appelé espace des résultats ou espace des observations ouespace fondamental.

    – d’une tribu A de parties de Y ; les éléments A de A sont appelés les événements ; pardéfinition d’une tribu, A contient Y , est stable par complémentation et intersection(ou réunion) dénombrable.

    – d’une probabilité P , c’est-à-dire d’une application de A dans le segment [0,1] quivérifie P (Y) = 1 et qui est σ-additive (la σ-additivé signifie que pour toute suitedénombrable A1, ..., Ai..., d’événements disjoints on a P (

    ∑∞i=1Ai) =

    ∑∞i=1 P (Ai)).

    Un espace probabilité (Y ,A, P ) est aussi appelé modèle probabiliste. La théorie desprobabilités a pour objectif d’étudier les propriétés de tels modèles ; elle adopte donc unedémarche déductive allant du général, c’est-à-dire le modèle probabiliste, au particulier,c’est-à-dire les propriétés de ce modèle.

    En statistique (on dit aussi statistique mathématique, ou statistique inductive oustatistique inférentielle), la situation est différente. On dispose encore d’un espace desrésultats Y et d’une tribu A, mais la probabilité P est remplacée par une famille de pro-babilités P.

    Définition 1.1. Un modèle statistique est un triplet (Y ,A,P) oùY est un espace, appelé espace des résultats

    9

  • 10 CHAPITRE 1. MODÈLES ET PROBLÈMES STATISTIQUES

    A est une tribu de parties de YP est une famille de probabilités sur A.

    Si on note Y la variable aléatoire identité sur Y , le modèle stipule donc que la loi deY appartient à P.

    Dans un modèle statistique, on ne connâıt donc pas la probabilité P0 appelée vraieprobabilité, qui a régi l’expérience aléatoire, on sait (ou, on suppose) seulement qu’elle ap-partient à une famille P, qui, elle, est parfaitement connue. Tout le travail du statisticiensera de fournir, au vu du résultat y de l’expérience (réalisation de Y ), des informationsaussi précises que possible sur P0. On peut dire qu’il s’agit d’une démarche de type in-ductif allant du particulier, c’est-à-dire le résultat y de l’expérience aléatoire, au général,c’est-à-dire le modèle probabiliste inconnu (Y ,A, P0), mais naturellement les outils que lestatisticien utilisera auront des propriétés fondées sur des résultats mathématiques, doncde type déductif, établis dans le modèle de référence (Y ,A,P). Ces idées générales serontprécisées tout au long de ce cours ; en particulier, dès le paragraphe (1.2) de ce chapitre,on décrira plus en détail les principaux problèmes que le statisticien doit résoudre. Aupa-ravant on approfondira la notion de modèle statistique.

    Réglons d’abord un point technique. Dans les modèles statistiques que nous étudierons,l’espace des résultats sera soit dénombrable, soit égal à Rn ; on sait que dans le casdénombrable on peut toujours prendre comme tribu A la tribu de toutes les parties, parailleurs si Y = Rn la tribu A sera la tribu des boréliens. Dans tous les cas, la tribu Asera donc clairement définie et on ne la mentionnera donc plus dans la suite (sauf dansl’annexe 1 qui regroupe les démonstrations les plus techniques).

    1.1.2 Modèle paramétrique, semi-paramétrique ounon-paramétrique.

    Dans de nombreux modèles statistiques la valeur d’un paramètre θ ∈ Θ ⊂ Rp, appeléparamètre d’intérêt, est attachée de façon naturelle à chaque probabilité P de la famille P,on pourrait donc le noter θ(P ). Si à chaque valeur θ du paramètre correspond une seuleprobabilité P de P, c’est-à-dire si θ(·) est injective, on dit que le modèle est paramétrique ;dans ce cas le paramètre θ peut indicer la famille P, les probabilités de la famille P sontalors notées Pθ et le modèle statistique est noté (Y , Pθ, θ ∈ Θ). Remarquons qu’à l’issuede la construction d’un modèle paramétrique (Y , Pθ, θ ∈ Θ), on peut se trouver dans lasituation où plusieurs (en général une infinité) valeurs de θ sont associées à une mêmeprobabilité P , autrement dit l’application θ(·) n’existe pas, ou encore l’application θ → Pθn’est pas injective ; ce problème, dit de l’identification, sera discuté dans le chapitre 3.

    Si chaque valeur de θ ne définit pas nécessairement une seule probabilité de la familleP, on dit que le modèle est semi-paramétrique ; dans ce cas le paramètre θ ne permet pasd’indicer la famille P.

  • 1.1. MODÈLE STATISTIQUE 11

    Enfin, s’il n’y a pas de paramètre naturel de dimension finie apparaissant dans lemodèle statistique, on dit que celui-ci est non-paramétrique.

    Exemple 1.2. Supposons que l’on tire n fois indépendamment sous une loi normale demoyenne θ ∈ R et de variance 1 ; cette loi est notée N(θ, 1). On suppose que le paramètred’intérêt θ est inconnu ; le modèle statistique est paramétrique, avec comme paramètreθ ∈ Θ = R, puisque θ définit une seule probabilité de la famille P = [N(θ, 1)]⊗n. Le modèlestatistique s’écrit : {Rn, [N(θ, 1)]⊗n, θ ∈ R}. Notons aussi que l’application θ → N(θ, 1)est injective et le modèle est alors dit identifiable.

    Exemple 1.3. Reprenons le même type d’exemple en remplaçant N(θ, 1) par N(θ2, 1),θ ∈ R. Le modèle est encore paramétrique mais il n’est plus identifiable, puisque l’appli-cation θ → N(θ2, 1) n’est pas injective.

    Exemple 1.4. Supposons que y soit la réalisation d’un vecteur aléatoire Y = (Y1, ..., Yn)dont les composantes Yi, i = 1, ..., n, sont supposées indépendantes et de moyenne inconnueθ, θ ∈ R. θ est le paramètre d’intérêt ; ce paramètre caractérise l’espérance mathématiquede la loi du vecteur des observations Y , mais pas la loi complète. On peut donc qualifierle modèle de semi-paramétrique.

    1.1.3 Modèle conditionnel

    Souvent on s’intéresse au comportement d’une variable aléatoire Y , conditionnellementà la connaissance de la réalisation x d’une autre variable aléatoire X. Dans ce contexte,on fait intervenir un modèle statistique conditionnel.

    Définition 1.5. Un modèle statistique conditionnel est défini par [Y , (Px, x ∈ X )]où Y est l’espace des valeurs possibles d’une variable aléatoire Y , appelée variable condi-tionnée ou endogène, et où Px est, pour tout x ∈ X , la famille des lois conditionnellesde Y sachant X = x possibles ; la variable X est dite conditionnante ou exogène.

    Dans ce modèle on suppose donc que la vraie loi conditionnelle de Y sachant X = x,notée P0,x appartient à une famille donnée Px.

    Si, pour tout x ∈ X , la famille Px est une famille paramétrique, les probabilités de Pxpeuvent être notées Pθ,x, θ ∈ Θ. Les lois conditionnelles sont alors doublement indicées parx ∈ X et θ ∈ Θ ; les deux indices jouent cependant des rôles très différents, en particulierx est observable alors que θ ne l’est pas. Des exemples de modèles conditionnels serontdonnés dans le chapitre suivant.

  • 12 CHAPITRE 1. MODÈLES ET PROBLÈMES STATISTIQUES

    1.1.4 Modèle latent et modèle observable

    Il arrive fréquemment que des considérations théoriques amènent à formuler un modèlestatistique, conditionnel ou non conditionnel, pour une variable aléatoire Y ∗ non obser-vable ; ce modèle est appelé modèle latent. Un tel modèle, supposé par exemple non condi-tionnel, est noté (Y∗,P∗) où Y∗ est l’ensemble des valeurs possibles de Y ∗ et P∗ la familledes lois de probabilités possibles de Y ∗. Puisque Y ∗ est non observable, ce modèle n’estpas utilisable par le statisticien. En général, on dispose d’une variable observable Y quiest une fonction connue de Y ∗ : Y = ϕ(Y ∗). Le modèle pertinent pour le statisticien,dit modèle observable, est alors le modèle image par ϕ du modèle latent, c’est-à-dire, dansle cas non-conditionnel considéré ci-dessus, (Y ,P) avec Y = ϕ(Y∗) et P : ensemble desprobabilités P ∗ϕ, image de P ∗ par ϕ, P ∗ ∈ P∗.

    Dans le cas d’un modèle latent paramétrique (Y∗, P ∗θ , θ ∈ Θ), le modèle observablesera le modèle paramétrique [ϕ(Y∗), P ∗θ , θ ∈ Θ] ; le paramétrage est le même mais, mêmesi le modèle latent est identifiable, le modèle observable ne l’est pas nécessairement (voirle chapitre 2 pour des exemples).

    1.1.5 Modèle dominé et modèle homogène

    Plaçons nous dans le cas d’un modèle paramétrique, éventuellement conditionnel, noté(Y , Pθ, θ ∈ Θ) (s’il s’agit d’un modèle conditionnel l’indice x a été omis).

    Définition 1.6. Un modèle paramétrique (Y , Pθ, θ ∈ Θ) est dit dominé, s’il existe unemesure (positive) µ sur Y telle que toutes les probabilités Pθ sont absolument continuespar rapport à µ. La mesure µ est appelée mesure dominante. Soit ℓ(y, θ) une densitéde Pθ par rapport à µ, la fonction ℓ(y, ·) est appelée vraisemblance du modèle.

    L’absolue continuité de Pθ par rapport à µ signifie, par définition,µ(A) = 0 ⇒ Pθ(A) = 0 et cette propriété est équivalente, d’après le théorème de Radon-Nikodym, à l’existence d’une classe de densités (égales µ presque partout) de Pθ parrapport à µ et on note ℓ(y, θ) l’une de ces densités.

    Définition 1.7. Un modèle paramétrique (Y , Pθ, θ ∈ Θ) est dit homogène si, pour toutθ, θ′ ∈ Θ, Pθ est absolument continue par rapport à Pθ′.

    On voit donc qu’un modèle homogène est en particulier dominé, par exemple par touteprobabilité de la famille ; on peut vérifier par ailleurs que si on prend une probabilité dela famille comme mesure dominante les densités peuvent être prises strictement positives(le montrer à titre d’exercice).

  • 1.2. PROBLÈMES STATISTIQUES 13

    1.2 Problèmes statistiques

    Dans la suite, on considérera essentiellement des modèles statistiques paramétriquesou semi-paramétriques. Un paramètre θ ∈ Θ ⊂ Rp apparâıt donc de façon naturelle dansle modèle.

    1.2.1 Estimation ponctuelle

    On suppose que le statisticien doit proposer une valeur pour une fonction g(θ0) de lavraie valeur du paramètre (g étant une fonction connue). On dit alors que le statisticienest confronté à un problème d’estimation ponctuelle, puisque sa réponse doit être un pointde l’espace g(Θ) ; souvent la fonction g sera la fonction identité et on s’intéresse donc auparamètre θ0 lui-même.

    1.2.2 Test d’hypothèse

    L’espace des paramètres Θ est partitionné en deux ensembles Θ0 et Θ1 = Θ − Θ0,appelés hypothèses, et le statisticien doit indiquer si la vraie valeur du paramètre θ0 setrouve dans Θ0 ou dans Θ1. On dit alors que le problème posé est un problème de testd’hypothèses.

    1.2.3 Région de confiance

    Comme dans le cas de l’estimation ponctuelle on s’intéresse à g(θ0) mais le statisti-cien doit proposer une partie de g(Θ) qui est censée contenir g(θ0). Comme la réponsedu statisticien doit être ici un sous-ensemble de g(Θ) on dit qu’il s’agit d’un problèmed’estimation ensembliste ou de détermination de région de confiance.

    1.2.4 Théorie de la décision

    Les trois problèmes statistiques qui viennent d’être présentés sont ceux auxquels ons’intéressera dans la suite. Pour chacun de ces problèmes le travail du statisticien est dechoisir un élément, que l’on peut appeler décision et que l’on note d, dans un ensemble D,appelé espace des décisions. Dans le cas de l’estimation ponctuelle on a D = g(Θ) ; dansle cas d’un test d’hypothèse on a D = {d0, d1} où d0 signifie (( décider que la vraie valeurdu paramètre appartient à Θ0 )) et d1 signifie (( décider que la vraie valeur du paramètreappartient à Θ1 )) ; dans le cas de l’estimation ensembliste D est l’ensemble des partiesou de certaines parties de g(Θ) (intervalles, pavés, hyperellipsöıdes, boréliens...). Pourprendre sa décision d, le statisticien dispose de l’observation y et son travail consiste àchoisir une fonction δ, appelée règle de décision pure, définie sur Y à valeurs dans D. Toutle problème de la statistique est donc le choix d’une règle de décision δ ayant de (( bonnes ))propriétés, en un sens à préciser. L’objectif de la théorie de la décision est de formaliserle problème du choix d’une telle règle de décision pure (ou d’une règle de décision mixte

  • 14 CHAPITRE 1. MODÈLES ET PROBLÈMES STATISTIQUES

    qui sera définie dans le chapitre 6). La première étape de la formalisation est la définitiond’une fonction de perte L(d, θ) définie sur D×Θ à valeurs dans R+ ; cette fonction définitla perte que l’on subit lorsqu’on décide d alors que la vraie valeur du paramètre est θ.Il s’agit donc maintenant de choisir une règle de décision δ ayant ex-ante, c’est-à-direavant l’expérience, une bonne performance vis-à-vis de la perte encourue. Pour une règleδ donnée, la perte L[δ(Y ), θ] est, ex-ante, aléatoire. Une façon possible de résumer cetteperte aléatoire est de considérer son espérance mathématique E

    θL[δ(Y ), θ], le symbole E

    θ

    signifiant que l’espérance est prise par rapport à la loi Pθ ; cette espérance est alors notéeR(δ, θ) et la fonction R(δ, ·) est appelée fonction de risque de la règle δ. Pour compa-rer deux règles δ1 et δ2 on peut comparer leurs fonctions de risque R(δ1, ·) et R(δ2, ·) ;ainsi δ1 sera dite préférable à δ2 si R(δ1, θ) ≤ R(δ2, θ) pour tout θ ∈ Θ. Le problème,et c’est là un des problèmes de base de la statistique, est que cette notion de préférencene définit, en général, qu’un préordre partiel dans l’ensemble ∆ des règles, puisque deuxrègles ne sont pas comparables dès qu’il existe θ1 et θ2 vérifiant R(δ1, θ1) < R(δ2, θ1) etR(δ1, θ2) > (δ2, θ2). De même, il n’existe pas, en général, une règle préférable à toutes lesautres.

    Le but de la théorie de la décision est de contourner de diverses manières cette difficultéde base. Une première façon de procéder est d’utiliser des principes statistiques (principed’absence de biais, principe d’invariance, principe de Neyman...) pour réduire l’ensembledes règles possibles ; on ne cherchera pas à traiter de façon générale cette question maison verra dans la suite des applications du principe d’absence de biais et du principe deNeyman. Une autre façon de procéder est de transformer le critère de choix, à savoir lafonction de risque R(δ, ·), en un scalaire ; le préordre devient alors automatiquement total.Ainsi si l’on retient le principe minimax, le choix consiste à minimiser en δ le maximumen θ du risque : max

    θR(δ, θ). Une autre façon de transformer le critère R(δ·) en un scalaire

    est la méthode bayésienne ; dans l’optique bayésienne on suppose l’existence d’une loi deprobabilité Π sur θ, cette loi, dite loi a priori, résume l’information sur θ provenant soit desources objectives (expériences passées) soit de sources subjectives (introspection). Si onadmet l’existence d’une telle loi a priori Π, un critère de choix naturel est alors le risquebayésien défini par RΠ(δ) = E

    ΠR(δ, θ), qui fournit bien un critère scalaire. Le problème

    délicat de la théorie bayésienne est évidemment le choix de Π ; dans les domaines d’ap-plications qui nous intéressent le choix de Π est en général particulièrement difficile Unevoie possible, mais que l’on n’empruntera pas, est de laisser Π varier dans une familleparamétrique ; le paramètre de cette famille est appelé hyperparamètre et la famille estchoisie en général de façon que le choix de δ minimisant ER(δ, θ) soit techniquementsimple.

    Le développement systématique de la théorie de la décision ne rentre pas dans le champde ce cours mais le lecteur intéressé pourra se reporter, par exemple, au livre de De Groot(1970).

  • 1.2. PROBLÈMES STATISTIQUES 15

    ENCADRÉ 1

    • Modèle statistique défini par (Y ,P) :Y : espace des résultats (Y variable aléatoire identité sur Y)P : famille de probabilités P sur Y décrivant les lois possibles de Y ; la vraie loi

    (inconnue) est notée P0• Modèle statistique conditionnel défini par (Y ,Px)Y : espace des valeurs de la variable endogène YX : espace des valeurs de la variable exogène Xx : valeur observée de XPx : famille de probabilités Px sur Y décrivant les lois conditionnelles de Y sa-

    chant X = x possibles ; la vraie loi conditionnelle (inconnue) est notée P0,x

    ENCADRÉ 2

    • Modèle paramétrique défini par (Y ,P) :P, ou Px, est indicée par un paramètre θ ∈ Θ ∈ Rp, θ0 = θ(P0) vraie valeur deθ

    • Modèle semi-paramétriqueIl existe un paramètre d’intérêt θ = θ(P ), [ou θ = θ(Px)], ne caractérisant pasP [ ou Px], autrement dit θ(·) n’est pas injective ; θ0 = θ(P0) vraie valeur de θ.

    • Modèle paramétrique non identifiableModèle paramétrique (Y , Pθ, θ ∈ Θ) dans lequel l’application θ → Pθ n’est pasinjective (alors l’application P → θ(P ) n’existe pas)

    ENCADRÉ 3

    • Estimation ponctuelle : proposer une valeur pour g(θ0)[g(·) fonction connue]• Test d’hypothèse : étant donné une partition de Θ en deux parties Θ0 et Θ1,

    dire si θ0 appartient à Θ0 ou Θ1• Région de confiance : proposer une partie de g(Θ) contenant g(θ0).

  • 16 CHAPITRE 1. MODÈLES ET PROBLÈMES STATISTIQUES

  • Chapitre 2

    Exemples de modèles et deproblèmes statistiques

    Afin de rendre plus concrètes les définitions du chapitre précédent, on va considérerdivers types de modèles et de problèmes statistiques susceptibles d’être traités par lesméthodes introduites dans la suite de ce cours.

    2.1 Modèles d’échantillonnage

    2.1.1 Définition

    Dans un modèle d’échantillonnage, on observe n variables aléatoires Y1, . . . , Ynà valeurs dans Ỹ (uni ou multidimensionnelles), on suppose que ces variables sontindépendantes et de même loi (on dit qu’elles sont I.I.D., c’est-à-dire Indépendamment etIdentiquement Distribuées) et on suppose que cette loi commune (inconnue) appartient àune famille de probabilité P̃ sur Ỹ . L’espace des résultats est donc Y = Ỹn et la famille Pest la famille {P̃⊗n, P̃ ∈ P̃}, notée P̃⊗n. La vraie loi P0 = P̃⊗nn est donc supposée appar-tenir à P. Le modèle sera noté {Ỹn, P̃⊗n} ou {Ỹ , P̃, }n. Le modèle sera paramétrique si lafamille P̃ (ou P) est paramétrée par un paramètre θ ∈ Θ ⊂ Rp. S’il existe un paramétred’intérêt θ(P̃ ) ne caractérisant pas complètement P̃ , par exemple si θ(P̃ ) est l’espérancede P̃ , le modèle sera semi-paramétrique.

    Prenons quelques exemples.

    2.1.2 Modèle d’échantillonnage de Bernoulli

    Dans le modèle de Bernoulli, il y a à chaque tirage deux résultats possibles, notés 0et 1, on a donc Ỹ = {0, 1}. P̃ est une probabilté de Bernoulli, notée B(θ), où θ est laprobabilité pour que 1 soit tiré ; le modèle s’écrit donc ({0, 1}n,B(θ)⊗n, θ ∈ [0, 1]).

    17

  • 18 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    Ce type de modèle s’applique à un sondage dans une population de n individuspossédant une caractéristique à deux modalités. Ces modalités peuvent être, par exempledans une population d’électeurs, (( avoir l’intention de voter pour monsieur X )) (modalité1) ou (( ne pas avoir l’intention de voter pour monsieur X )) (modalité 0) ; si on tire au ha-sard, avec remise, n individus dans la population on a bien un modèle d’échantillonnage deBernoulli ou θ est la proportion (inconnue) d’individus de la population ayant l’intentionde voter pour monsieur X. Dans une population d’entreprises, θ peut être par exemple laproportion de celles dont les stocks ont augmenté, ou de celles ayant l’intention d’embau-cher...

    Ce type de modèle est un modèle paramétrique et on peut se poser des problèmesd’estimation ponctuelle, d’estimation ensembliste ou de test sur le paramètre θ ; dansl’exemple de l’élection un test pourrait correspondre aux hypothèses Θ0 = [0,

    12[ et Θ1 =

    [12, 1].

    2.1.3 Modèle d’échantillonnage normal univarié

    Supposons que l’on observe des variables aléatoires Y1, . . . , Yn, scalaires, indépendantesde même loi normale inconnue N(m, σ2) ; on est bien dans un contexte d’échantillonnageavec Ỹ = R, P̃ = {N(m, σ2), (m, σ2) ∈ R ⊗ R+} et θ = (m, σ2) ∈ Θ = R ⊗ R+. Lemodèle est paramétrique. Ce type de modèle peut, par exemple, être appliqué au cas oùles Y1, . . . , Yn représentent les rendements d’un actif au cours de n périodes ; m représentealors le rendement espéré de l’actif et σ2 est un indicateur du risque attaché à l’actif.

    2.1.4 Modèle d’échantillonnage normal multivarié

    On suppose maintenant que l’on observe des variables aléatoires Y1, . . . , Yn de dimen-sion J , indépendantes, de même loi normale inconnue N(m,Σ) ou m est un vecteur deRJ et Σ une matrice symétrique positive de taille J ×J . Dans ce cas encore le modèle estparamétrique. Notons que les vecteurs Yi, sont indépendants mais que deux composantesY ji , Y

    ki de Yi sont en général correlées puisque Σ est quelconque.

    Supposons, par exemple, que Y ji représente le rendement net, pendant la période i,d’un actif noté j ; Y ji est donc le rendement de l’actif j pendant la période i diminué durendement de l’actif sans risque pendant la même période. On peut alors vouloir testerdiverses hypothèses : par exemple que tous les actifs ont même rendement net espéré, c’est-à-dire que les composantes mj , j = 1, . . . J dem sont égales, ou bien que tous les actifs sontaussi risqués, c’est-à-dire que les termes diagonaux de Σ sont identiques, ou encore que cesactifs ont des rendements indépendants, c’est-à-dire que la matrice Σ est diagonale etc...Une autre hypothèse, plus sophistiquée, est que l’un des actifs, le premier par exemple,est efficient au sens où il n’existe pas de combinaison convexe (avec des poids sommantà 1) de tous les actifs (y compris l’actif sans risque) ayant même rendement espéré quele premier actif et une variance plus faible. On peut montrer [voir Jobson-Korkie (1982)]

  • 2.2. MODÈLES CONDITIONNELS STATIQUES (M.C.S.) 19

    que cette condition d’efficience est équivalente à m1 − σ1(σ21)−1m1 = 0 où m1, σ1,Σ, sontdéfinis par m =

    (

    m1m1

    )

    ,Σ =

    (

    σ21 σ′1

    σ1 Σ1

    )

    . Cette hypothèse, contrairement aux précédentes,

    fait intervenir à la fois le vecteur m et la matrice Σ.

    2.1.5 Modèles d’échantillonnage semi-paramétrique

    On peut prendre comme exemples les mêmes qu’en 2.1.2 et 2.1.3 mais en supprimantl’hypothèse de normalité.

    2.2 Modèles conditionnels statiques (M.C.S.)

    2.2.1 Définition

    Dans un modèle conditionnel (voir définition 1.6) statique on observe n variablesaléatoires Yi (uni ou multivariées) et n variables aléatoires Xi (uni ou multivariées), on

    suppose que les

    (

    YiXi

    )

    i = 1, . . . , n sont I.I.D. (Indépendamment et Identiquement Dis-

    tribuées) et on s’intéresse à la loi conditionnelle de Y =

    Y1...Yn

    sachant que X =

    X1...Xn

    est égal à la valeur observée x =

    x1...xn

    .

    Cette vraie loi conditionnelle notée Po,x, est égale au produit des lois conditionnellesindividuelles de Yi sachant Xi = xi, notées P̃o,xi ; en effet, en se plaçant dans le cas(non restrictif) où la vraie loi jointe de (Yi, Xi) a une densité (par rapport à une me-

    sure µ) notée fo(yi, xi), la loi jointe des (Yi, Xi) i = 1, . . . , n a pour densitén

    Πi=1fo(yi, xi),

    la loi jointe des Xi, i = 1, . . . , n a pour densitén

    Πi=1fox(xi) (où fox(xi) est la densité

    marginale de Xi) et donc la loi conditionnelle de Y sachant X = x a pour densité

    ℓo(y/x) =

    i=1fo(yi,xi)

    i=1fox(xi)

    =n

    Πi=1fox(yi, xi), où fo(yi/xi) est la densité conditionnelle de Yi sa-

    chant Xi = xi (densité de P̃o,xi).

    Enfin, dans le cadre d’un modèle conditionnel statique, on suppose que Po,x appartienà une famille de lois Px, ou, ce qui est équivalent, que P̃o,xi appartient à une famille P̃xi(avec Px = {

    n⊗i=1P̃xi, P̃xi ∈ P̃xi}).

  • 20 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    Si P̃xi est paramétrée par θ ∈ Θ ⊂ Rp, θ étant le même pour tout i, on a un modèleconditionnel statique paramétrique, défini par une famille de probabilités conditionnellespossibles

    f0(yi/xi) ∈ {f(yi/xi; θ), θ ∈ Θ ∈ Rp}Si le paramètre θ ne caractérise pas une loi de Pxi (pour tout i) mais par exemple, samoyenne, on a un modèle semi-paramétrique dans lequel pour tout i, la vraie espéranceconditionnelle E

    0(Yi/Xi = xi) est supposée appartenir à une famille

    {h(xi, θ), θ ∈ Θ ⊂ Rp}

    Examinons divers modèles conditionnels statiques particuliers.

    2.2.2 Modèle de régression linéaire univarié

    Dans ce type de modèle conditionnel statique on observe une variable aléatoire scalaireYi, i = 1, . . . , n dite endogène, l’indice i repérant un individu ou une date d’observation.On observe par ailleurs un vecteur aléatoire Xi, i = 1, . . . , n, de taille p, et on suppose que,sachant Xi = xi, Yi est d’espérance conditionnelle x

    ′ib, (la notation x

    ′i signifie que xi est

    transposé) où b ∈ Rp, et de variance conditionnelle fixe σ2 ∈ R+, b et σ2 étant inconnus.On peut donc écrire ce modèle :

    Yi = x′ib+ ui i = 1, . . . , n

    où, sachantXi = xi, i = 1, . . . , n, les uj sont indépendants, de moyenne nulle et de varianceσ2. Avec des notations matricielles évidentes, on peut aussi écrire :

    Y = Xb+ u avec E(u/X) = 0, V (u/X) = σ2Idn

    où Idn est la matrice identité de taille n×n. On a aussi E(Y/X) = Xb et la caractéristiqueimportante de ce modèle est la linéarité par rapport à b de cette espérance conditionnelle.Le modèle fait intervenir des paramètres naturels, b et σ2 ; ces paramètres caractérisentrespectivement l’espérance conditionnelle et la matrice de variance-covariance condition-nelle de Y sachant X, mais ils ne caractérisent pas complètement la loi conditionnelle deY sachant X, le modèle est donc semi-paramétrique. Naturellement, si on fait l’hypothèseque la loi conditionnelle de Y sachant X (ou de u sachant X) est normale on obtient unmodèle paramétrique.

    Ce type de modèle permet donc de juger de l’influence de certaines variables réelles,les composantes de Xi, sur une autre variable réelle Yi. Il est évidemment utile d’estimerb et σ2. Pour juger si une composante de Xi donnée a une influence sur Yi on peut testerl’hypothèse de nullité de la composante de b correspondante.

    Le modèle de régression linéaire est utilisé dans des domaines très variés, ma-croéconomie : étude de l’influence du revenu disponible sur la consommation, des facteurs

  • 2.2. MODÈLES CONDITIONNELS STATIQUES (M.C.S.) 21

    de production sur la production... (l’indice i représente alors le temps), microéconomie :influence de l’investissement en recherche développement sur la productivité (i repère alorsune entreprise), marketing : influence des dépenses de publicité sur les ventes (i représentepar exemple un point de vente), assurances : influence de la cylindrée de la voiture et del’âge du conducteur sur le montant des sinistres pendant une période (i repère alors uncontrat), finance : influence des caractéristiques d’une entreprise sur le cours de son action,biologie : influence des caractéristiques d’un organisme sur sa durée de vie...

    2.2.3 Modèle de régression linéaire multivarié

    C’est un modèle analogue au précédent dans lequel Yi est multidimensionnel ; on noted la dimension de Yi. On peut alors écrire

    Yi = Bxi + ui i = 1, . . . , n

    où B est une matrice de coefficient de taille d × p et les ui sont des vecteurs de taille dqui, conditionnellement aux xi, sont indépendants, centrées et de matrice de variance Σ.Bxi s’interprète donc comme l’espérance conditionnelle de Yi sachant les xi, et Σ, commela matrice de variance-covariance conditionnelle de Yi sachant les xi.

    2.2.4 Modèle à équations simultanées linéaire

    Un modèle à équations simultanées linéaires s’écrit sous la forme :

    AYi + Cxi = vi i = 1, . . . , n

    où A est une matrice d× d et C une matrice d × p ; on suppose que, conditionnellementaux xi, les vi sont indépendants, centrés et de même matrice de variance-covariance Σ.Ce type de modèle est utilisé, par exemple, pour décrire un équilibre sur un marché ; ona alors une équation de demande (i représente la date) :

    Di = a1Pi + x′ic1 + v1i

    et une équation d’offre :Si = a2Pi + x

    ′ic2 + v2i

    où Pi représente le prix, Di la quantité demandée, Si la quantité offerte et xi un vecteurde variables exogènes. Si on suppose que le prix s’ajuste de façon à réaliser l’équilibreDi = Si = Qi (quantité échangée) on obtient :

    {

    Qi = a1Pi + x′ic1 + v1i

    Qi = a2Pi + x′ic2 + v2i

    ou

    A

    (

    QiPi

    )

    + Cxi = vi

  • 22 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    avec

    A =

    (

    1 −a11 −a2

    )

    , C =

    (

    −c′1−c′2

    )

    , vi =

    (

    v1iv2i

    )

    On a donc bien un système d’équations simultanées, avec comme variable endogène

    Yi =

    (

    QiPi

    )

    . Le système d’équations AYi + Cxi = ui i = 1, . . . , n est appelée forme

    structurelle du modèle, c’est dans cette forme qu’apparaissent les coefficients ayant uneinterprétation économique. À cette forme structurelle on peut associer une forme réduite(en supposant A inversible) qui est le modèle de régression linéaire multivarié :

    Yi = Bxi + ui avec

    {

    B = −A−1C ,ui = A

    −1vi

    Bxi s’interprète comme l’espérance conditionnelle de Yi sachant les xi. Si les matricesA et C ne sont pas suffisamment contraintes, il se peut que des valeurs différentes de(A,C) conduisent à la même matrice B = −A−1C, dans ce cas A et C ne sont pas iden-tifiables. En général le modèle sera suridentifié, c’est-à-dire qu’il sera identifiable et queles contraintes sur A et C imposeront des contraintes sur B ; la forme réduite est alors unmodèle de régression linéaire multivarié contraint.

    Les contraintes qui sont habituellement imposées à A et C, sont des contraintes denormalisation (certains coefficients de A valent 1) ou des contraintes d’exclusion (certainesvariables n’apparaissent pas dans certaines équations, autrement dit certains coefficientsde A et C sont nuls).

    2.2.5 Modèle de régression non-linéaire

    Examinons, pour simplifier, le cas des modèles univariés. Dans ces modèles on nesuppose plus que l’espérance conditionnelle de Yi sachant les xi est linéaire par rapportà un paramètre inconnu b ; on suppose que cette espérance conditionnelle s’écrit m(xi, b)où m est une fonction connue, xi un vecteur de p variables exogènes et b un paramètre(vectoriel) inconnu. Le modèle s’écrit alors

    Yi = h(xi, θ) + ui i = 1, . . . , n

    et, conditionnellement aux xi, les ui sont indépendants et centrés.

    2.2.6 Modèle à réponse entière

    Supposons que l’on cherche à expliquer le nombre de brevets déposés par une entre-prise, pendant une période donnée, en fonction de diverses caractéristiques de l’entreprise,ou le nombre de sinistres subis par un assuré en fonction de caractéristiques relatives àcet assuré. Dans ce type de problèmes la variable Yi prend des valeurs entières. Un modèle

  • 2.2. MODÈLES CONDITIONNELS STATIQUES (M.C.S.) 23

    souvent utilisé pour décrire ce type de variable est le modèle de Poisson conditionnel.

    Dans ce modèle on suppose que Yi est, conditionnellement à Xi = xi, distribuée selonune loi de Poisson P(λi). Le paramètre λi de la loi Poisson est fonction de paramètresinconnus et de variables exogènes xi, l’hypothèse la plus courante est λi = exp(x

    ′iθ). Ce

    modèle est le plus simple que l’on puisse imaginer mais on sent qu’il manque de degrésde liberté et qu’il faudra souvent le généraliser, ne serait-ce que parce que la moyenne etla variance conditionnelle de Yi sont contraintes à être identiques (et égales à λi).

    2.2.7 Modèle à réponse dichotomique

    La variable Yi peut prendre deux positions codées 1 et 0. Ces positions peuvent être :choisir un transport en commun ou non, accorder un crédit ou non ((( credit scoring ))).

    Dans la modélisation classique de ce type de variable on suppose qu’il existe unevariable latente Y ∗i , représentant l’utilité attachée à la modalité i, vérifiant un modèle derégression linéaire :

    Y ∗i = x′ib+ ui

    où xi est un vecteur de variables exogènes, et où les ui sont, conditionnellement aux xi,indépendants, de même loi et centrés. On suppose ensuite que :

    Yi = 11[Y ∗i >0] =

    {

    1 si Y ∗i > 0

    0 sinon

    Dans le cas où on impose que la loi de uσ, σ ∈ R+, suit la loi logistique, c’est-à-dire

    la loi de fonction de répartition 11+e−z

    , on obtient le modèle logit ; si on impose que la loide ui

    σ, σ ∈ R+, est la loi N(0, 1) on obtient le modèle probit. Si on note F l’une des deux

    fonctions de répartition de uiσ

    , on voit que la probabilité conditionnelle pour que Yi = 1est (en utilisant la symétrie de la loi) :

    P (ui > −x′ib) = P(

    uiσ< x′i

    b

    σ

    )

    = F

    (

    x′ib

    σ

    )

    et que seul le paramètre bσ

    est identifiable.

    2.2.8 Généralisations des modèles à réponse dichotomique

    On peut généraliser les modèles précédents dans plusieurs directions.

    Lorsque la variable Yi est qualitative et peut prendre plus de deux modalités ordonnées,par exemple dans le cadre d’une classification de dossiers de demande de crédit selon unordre croissant de fiabilité, on peut généraliser les démarches précédentes en découpant ledomaine de variation de ui

    σ, c’est-à-dire R, en autant d’intervalles qu’il y a de modalités ;

  • 24 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    on obtient ainsi les modèles logit polytomique univarié ordonné et probit polytomique uni-varié ordonné.

    S’il n’y a pas d’ordre dans les modalités (par exemple dans le choix de plusieurs modesde transport), divers modèles sont possibles, par exemple le modèle logit polytomiqueunivarié dans lequel la probabilité d’appartenir à la modalité k pour l’individu i est

    pik =exp(x′ikbk)K∑

    k=1

    exp(x′ikbk)

    où K est le nombre de modalités et où, par convention x′i1b1 = 0 pour lever le problèmed’identification. De même on peut généraliser ces modèles au cas où on considère si-multanément plusieurs variables qualitatives, on a alors des modèles multivariés [voirGouriéroux (1984)].

    2.2.9 Modèle Tobit simple

    Il arrive fréquemment qu’une variable endogène soit contrainte par des seuils ins-titutionnels : salaire minimum, plafonnement d’une aide aux entreprises, prix agricoled’intervention, âge de la retraite,... dans d’autres cas le seuil s’impose naturellement : parexemple un ménage ou une entreprise décidera d’acheter tel bien, pendant une périodedonnée, si sa variation de stock désirée est positive sinon il n’y aura pas d’achat, la quan-tité achetée est bornée inférieurement par zéro. Dans tous les cas, on peut formaliser cetype de problème de la façon suivante. Il existe une variable latente Y ∗i (par exemple lavariation de stock désirée) régie par un modèle classique, par exemple linéaire :

    Y ∗i = x∗i b+ ui

    et la variable observée, (par exemple la quantité achetée) est :

    Yi = Y∗i 11{Y ∗i >0}

    Ce type de modèle est appelé modèle Tobit, lorsque les ui sont supposés normaux ;Tobit est une contraction de Tobin’s Probit, Tobin (1958) ayant le premier étudié ce typede modèles.

    2.2.10 Modèle Tobit généralisé

    Ce modèle s’écrit

    Y ∗1i = x′1ib1 + u1i

    Y ∗2i = x′2ib2 + u2i

    Yi = Y∗1i11{Y ∗2i>0}

  • 2.3. � MODÈLES DYNAMIQUES 25

    où les vecteurs (u1i, u2i), i = 1, . . . , n sont, conditionnellement aux x1i, x2i, indépendants etde même loi normale N(0,Σ),Σ, étant une matrice symétrique positive (2×2) quelconque.

    Il y a donc deux variables latentes Y ∗1i et Y∗2i et on observe Y

    ∗1i si Y

    ∗2i > 0 et 0 sinon.

    Ce type de modèle est employé dans de nombreux contextes. En marketing, Y ∗2i peutreprésenter la propension à choisir une marque donnée pour un individu i, cette marquesera choisie si Y ∗2i > 0 et Y

    ∗1i représente alors la quantité achetée. En théorie des sondages

    Y ∗2i peut représenter la propension à accepter de répondre à tel type de question, la réponsesera donnée si Y ∗2i > 0 et la réponse sera Y

    ∗1i. En économie du travail, Y

    ∗2i peut représenter

    la différence entre un salaire offert Y ∗1i et un salaire désiré minimal S∗i , l’individu acceptera

    de travailler si Y ∗2i > 0 et le salaire observé sera alors Y∗1i.

    2.2.11 Modèle de déséquilibre

    On a vu plus haut (2.2.4) un exemple de modèle d’équilibre sur un marché. Dans cetype de modèle le prix est endogène, ce qui implique qu’il peut s’ajuster à l’intérieur dela période i de façon à réaliser l’égalité de l’offre et de la demande. Supposons que l’onfasse maintenant l’hypothèse que les prix ne sont pas flexibles à court terme (c’est-à-diredans la période), les prix doivent alors être considérés comme exogènes et on obtient lemodèle :

    Di = a1pi + x′ic1 + v1i

    Si = a2pi + x′ic2 + v2i

    où Di, Si représentent respectivement la demande et l’offre dans la période i.

    Notons que, puisque pi est exogène, le vecteur (v1i, v2i) est centré conditionnellementaux xi et pi, autrement dit a1pi+x

    ′ic1. (resp. a2pi+x

    ′ic2) représente l’espérance condition-

    nelle deDi (resp. Si) sachant les xi et pi, ce qui n’était pas le cas dans le modèle d’équilibre.

    Dans ce type de situation, les variables Di et Si ne sont pas égales et il faut indiquercomment la quantité échangée Qi est déterminée ; l’hypothèse la plus simple est

    Qi = min(Di, Si)

    Ce modèle de base peut être généralisé de diverses façons : ajustement partiel des prix,cas de plusieurs marchés, agrégation de micromarchés... [voir Gouriéroux Laffont-Monfort(1980) et Laroque-Salanié (1989)].

    2.3 � Modèles dynamiques

    Dans les modèles dynamiques, le temps joue un rôle central. En particulier les ob-servations seront souvent repérées par une date ou une période t (dans ce cas l’indice t

  • 26 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    remplace l’indice i) ou, lorsqu’il y a également une dimension individuelle, par le couple(i, t), i représentent l’individu et t la période ou la date. La différence essentielle entre lesindices i et t est que t, représentant le temps, est naturellement ordonné ; cet ordre seraimportant dans les modélisations.

    2.3.1 Définition

    Dans les modèles dynamiques les variables aléatoires observées

    (

    YtXt

    )

    , t = 1, . . . , T ne

    seront plus supposées indépendantes.

    En notant, comme dans le cas statique, Y =

    Y1...YT

    , X =

    X1...XT

    , on s’intéresse,

    comme dans le cas statique, à la vraie densité conditionnelle de Y sachant X = x, notéeℓo(y/x).

    Contrairement au cas des modèles conditionnels statiques, cette densité ne sedécompose plus en produits des densités conditionnelles (( élémentaires )) de Yt sachant

    Xt = xt, parce qu’on n’a plus l’hypothèse d’indépendance des

    (

    YtXt

    )

    .

    Cependant la vraie densité jointe des

    (

    YtXt

    )

    , t = 1, . . . T , peut toujours s’écrire

    T

    Πt=1fot(yt, xt/y

    t−1, xt−1)

    avec les notations :

    yt = (y1, . . . , , yt)

    xt = (x1, . . . , , xt)

    et la convention fo1(y1, x1/y0, x0) = fo1(y1, x1) densité marginale de

    (

    Y1X1

    )

    .

    De même la vraie densité jointe des Xt, t = 1, . . . , T peut s’écrire

    T

    Πt=1fXot (xt/x

    t−1)

    où fXot (xt/xt−1) est la densité conditionnelle de Xt sachant X

    t−1 = xt−1.La densité conditionnelle qui nous intéresse, ℓo(y/x) = ℓo(y

    T/xT ) s’écrit donc :

    ℓo(yT/xT ) =

    T

    Πt=1fot(yt, xt/y

    t−1, xt−1)

    T

    Πt=1fXot (xt/x

    t−1)

  • 2.3. � MODÈLES DYNAMIQUES 27

    En outre la densité fot(yt, xt/yt−1, xt−1) se factorise en

    fot(yt/yt−1, xt)fot(xt/y

    t−1, xt−1)

    Si on suppose que fot(xt/yt−1, xt−1) = fXot (xt/x

    t−1), c’est-à-dire que Yt ne cause pas Xt(ou que Xt est fortement exogène) on obtient :

    ℓo(yT/xT ) =

    T

    Πt=1fot(yt/y

    t−1, xt)

    Modéliser ℓo(yT/xT ) revient donc à modéliser foT (yt/y

    t−1, xt), vraie densité conditionnellede Yt sa chant Y

    t−1 et X t.On peut, à nouveau, faire deux types d’hypothèses :

    – hypothèse paramétrique :

    fot(yt/yt−1, xt) ∈ {ft(yt/yt−1, xt; θ), θtΘ ⊂ Rp}

    ℓo(yT/xT ) ∈ {

    n

    Πt=1ft(yt/y

    t−1, xt; θ), θ ∈ Θ ⊂ Rp}

    – ou semi-paramétrique, par exemple :

    Eo(Yt/y

    t−1, xt) ∈ {ht(yt−1, xt; θ), θ ∈ Θ ⊂ Rp}

    On s’intéresse en particulier aux modèles dynamiques (( purs )) c’est-à-dire les modèlesdans lesquels il n’y a pas de variables exogènes.

    2.3.2 Modèle linéaire autorégressif

    Dans un tel modèle on suppose que l’espérance conditionnelle de Yt sachant Yt−1 =

    yt−1 et X t = xt est linéaire et du type :

    ϕyt−1 + x′tb

    Autrement dit seule la valeur précèdente de la variable exogène et la valeur actuelle de lavariable exogène ont de l’importance.

    On suppose en outre que la variance conditionnelle de Yt sachant Yt−1 = yt−1 et

    X t = xt est inconnue mais fixe (indépendant de yt−1 et xt) ; le paramètre correspondantest notée σ2.

    Un tel modèle peut s’écrire

    Yt = ϕYt−1 +X′tb+ εt t = 1, ..., T

  • 28 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    avec Y0 fixé.

    et où εt vérifie :

    Eo(εt/y

    t−1, xt) = 0

    Vo(εt/y

    t−1, xt) = σ2

    Le paramètre θ est ici (a, b, σ2).

    Le modèle est semi-paramétrique ; il devient paramétrique, si on suppose par exempleque la loi conditionnelle de Yt sachant Y

    t−1 = yt−1 et X t−1 = xt−1 est la loi normaleN(ϕyt−1 + x

    ′tb, σ

    2)

    2.3.3 Modèle autorégressif et autorégressif-moyenne-mobile

    (ARMA) univarié

    Le modèle autorégressif le plus simple est le modèle autorégressif d’ordre 1 univarié.Ce modèle s’écrit :

    Yi = ϕYt−1 + εt t = 1, . . . , T

    où {εt} est un bruit blanc c’est-à-dire une suite de variables centrées, indépendantes, demême variance σ2. Si la loi des εt est, en plus, supposée normale on a un modèle pa-ramétrique (non conditionnel puisqu’il n’y a pas de variables exogènes) sinon le modèleest semi-paramétrique. Ce modèle est un cas particulier du modèle précèdent, dans lequelb = 0.

    Ce modèle simple peut être généralisé au cas des autorégressifs d’ordre p, notés AR(p),définis par :

    Yt =

    p∑

    k=1

    ϕkYt−k + εt

    ouΦ(L)Yt = εt

    en notant Φ(L) = 1 − ϕ1L− . . .− ϕpLp et L l’opérateur retard défini par LYt = Yt−1.

    Une classe plus générale encore est la classe des processus autorégressifs-moyennes-mobiles d’ordres p, q, notés ARMA(p, q), et définis par

    Φ(L)Yt = Θ(L)εt

    où Θ(L) = 1 − θ1L . . .− θqLq .[voir Box-Jenkins (1970), Gouriéroux-Monfort, (1990)].

  • 2.3. � MODÈLES DYNAMIQUES 29

    La famille des processus ARMA est souvent utilisée dans les problèmes de prévision,lorsqu’on ne souhaite pas faire intervenir des variables exogènes (( explicatives )) (prévisionde consommation électrique, de cours boursiers, de taux d’intéret...)

    2.3.4 Modèle VAR (vectoriel autorégressif)

    Les modèles précédents peuvent être généralisés au cas multivarié ; en particulier lesmodèles vectoriels autorégressifs (VAR) sont largement utilisés dans divers domaineséconomiques. Un modèle VAR d’ordre p s’écrit :

    Φ(L)Yt = εt

    où Φ(L) est une matrice d×d dont chaque terme est un polynôme en L de degré p (avec laconvention de normalisation Φ(0) = Idd) et {εt} est un bruit blanc multivarié, c’est-à-direune suite de vecteurs aléatoires de taille d, centrés, indépendants, de même matrice devariance-covariance Σ.

    Ce type de modèle permet d’analyser les interactions dynamiques entre d variablesendogènes et il est très utilisé pour la prévision ; on peut également l’utiliser commecadre de référence pour tester des hypothèses économiques [voir Monfort-Rabemananjara(1990)].

    2.3.5 Modèle ARCH (Autorégressif conditionnellement

    hétéroscedastique)

    Considérons, pour simplifier, un modèle autorégressif univarié d’ordre 1 :

    Yt = ϕYt−1 + εt t = 1, . . . , T

    l’espérance conditionnelle de Yt, sachant le passé, E(Yt, /Yt−1, . . . , Y1) est égale à ϕYt−1,tandis que la variance conditionnelle V (Yt/Yt−1, . . . , Y1) est fixe et égale à σ

    2, la variancede εt. Le fait que cette variance conditionnelle soit fixe n’est pas admissible dans diversdomaines, en particulier dans le domaine financier où les variables peuvent avoir unevolatilité très irrégulière. C’est la raison de l’introduction de modèles dans lesquels cettevariance conditionnelle peut varier, on dit alors qu’il y a hétéroscédasticité conditionnelle.Ainsi dans les modèles ARCH d’ordre p [voir Engle (1982)] la loi conditionnelle de Yt,sachant le passé est la loi normale

    N(0, α0 + α1y2t−1 + . . . αpy

    2t−p)

    La variance conditionnelle dépend donc du passé, en revanche l’espérance (condition-nelle ou non conditionnelle) est fixe et égale à 0. Pour généraliser au cas d’une espérancenon constante on peut adopter deux types de solutions. La première consiste à introduireun vecteur de variables exogènes xt, dans cette espérance, on obtient alors le modèle de

  • 30 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

    régression ARCH dans lequel la loi conditionnelle de Yt sachant le passé et les variablesexogènes est

    N(x′tb, α0 + α1u2t−1 + . . .+ αpu

    2t−p)

    avec ut = y1 − x′tb .Engle, Lillien et Robins (1987) ont proposé une autre solution, pour certains modèles fi-nanciers, consistant à introduire aussi les chocs passés ut−1,...,ut−p dans la moyenne condi-tionnelle, la loi conditionnelle de Yt, sachant le passé et les variables exogènes xt, zt estalors, par exemple :

    N(x′tb+ cσt, σ2t )

    avec σ2t = α0 + α1u2t−1 + . . .+ αpu

    2t−p + z

    ′td

    ut = yt − x′tb− cσt

  • 2.3. � MODÈLES DYNAMIQUES 31

    ENCADRÉ 4

    • Modèle d’échantillonnage

    Y =

    Y1...Yn

    Yi I.I.D. (Indépendamment et Identiquement Distribuées)

    à valeurs dans ỸP̃ : lois possibles pour Yi, i = 1, . . . , nY = Ỹn , P = P̃⊗n• Cas paramétrique P̃ = {P̃θ, θ ∈ Θ ⊂ Rp}• Cas semi-paramétrique

    θ(P̃ ) ne caractérise par P̃ , par exempleθ(P̃ ) = E

    P̃Yi

    • Modèle conditionnel statique (M.C.S.)(

    YiXi

    )

    i = 1, . . . , n I.I.D.

    P̃xi : lois conditionnelles de Yi sachant Xi = xi possiblesY = Ỹn

    Px =n⊗i=1

    P̃xi = {Px =n⊗i=1P̃xi, P̃xi ∈ P̃xi}

    • Cas paramétrique : pour i = 1, . . . , nP̃xi = {P̃θ,xi, θ ∈ Θ ⊂ Rp}(θ ne dépendant pas de i)

    • Cas semi-paramétriqueθ ne caractérise pas les P̃xi, par exemple θ est défini parEPxi

    Yi = h(xi, θ), h fonction connue, ∀i = 1, . . . , n

    • Modèle dynamique(

    YtXt

    )

    , t = 1, . . . , T non I.I.D. (voir chapitre 10)

  • 32 CHAPITRE 2. EXEMPLES DE MODÈLES ET DE PROBLÈMES

  • Chapitre 3

    Exhaustivité, information etidentification

    Dans les deux premiers chapitres on a d’abord défini la notion de modèle statistiqueet les principaux problèmes statistiques, on a ensuite proposé divers exemples destinés àmontrer la diversité des applications possibles.

    Il faut maintenant commencer à construire les outils nécessaires à la résolution desproblèmes posés. Dans ce chapitre on va introduire trois notions de base en statistique :l’exhaustivité, l’information et l’identification.

    3.1 Définition d’une statistique

    Définition 3.1. Soit (Y ,P) un modèle statistique. On appelle statistique une applica-tion S (mesurable) de Y sur S = S(Y) ⊂ Rk.

    Pour simplifier les notations on ne fait pas apparâıtre explicitement un conditionne-ment éventuel. Si un tel conditionnement existe on remplacera P par Px et P par Px.

    Il est important de noter que la fonction S ne dépend pas de P ∈ P.

    La seule différence entre une statistique et une variable aléatoire est donc qu’une sta-tistique est définie sur un espace muni, non pas d’une probabilité, mais d’une famille Pde probabilités.

    On peut donc facilement transposer certaines propriétés des variables aléatoires auxstatistiques à condition d’imposer qu’elles soient vraies pour tout P ∈ P. Ainsi une sta-tistique S sera dite intégrable, si elle est P -intégrable ∀P ∈ P ; deux statistiques S1 et S2seront dites indépendantes si elles sont P -indépendantes ∀P ∈ P...

    33

  • 34 CHAPITRE 3. EXHAUSTIVITÉ, INFORMATION ET IDENTIFICATION

    Une statistique définit de manière naturelle un modèle image.

    Définition 3.1. Soit (Y ,P) un modèle statistique et S une statistique. On appellemodèle image de (Y ,P) par S, le modèle [S = S(Y),PS], où PS = {P S, P ∈ P],P S étant la probabilité image de P par S définie par P S(B) = P [S−1(B)], pour toutborélien B de S(Y).

    Une première propriété des modèles images est la suivante :

    Proposition 3.2. Si le modèle (Y ,P) est dominé par une mesure µ, le modèle image parS est dominé par µS.

    Démonstration. On a :

    µS(B) = 0 ⇔ µ[S−1(B)] = 0 ⇒ P [S−1(B)] = 0 ⇔ P S(B) = 0. �

    3.2 � Exhaustivité

    3.2.1 Définition

    Considérons le modèle d’échantillonnage bernoullien ({0, 1}n,B(θ)⊗n, θ ∈ [0, 1]) intro-duit en 2.1.1. pour modéliser un sondage donnant lieu à une réponse binaire. La statistiqueY des observations est ici un vecteur de taille n dont la ième composante Yi vaut 0 ou 1selon la réponse de l’individu tiré au ième tirage. Intuitivement, on peut penser que l’(( in-

    formation )) sur θ contenue dans Y est résumée dans la statistique S(Y ) =n∑

    i=1

    Yi ; en

    effet il est naturel d’avancer que seul le nombre total des individus ayant répondu 1 a del’importance, les rangs des tirages auxquels ces individus apparaissent n’intervenant pas.Cette idée intuitive peut être formalisée en considérant la loi conditionnelle de Y sachantS(Y ) = s, c’est-à-dire :

    Pθ(Y = y/S = s) =

    0 , si

    n∑

    i=1

    yi 6= s

    θs(1 − θ)n−sCsnθ

    s(1 − θ)n−s =1

    Csn, si

    n∑

    i=1

    yi = s

    On remarque que cette loi conditionnelle ne dépend pas du paramètre inconnu θ.Cette propriété traduit bien le fait que, connaissant S, la connaissance de Y n’apportepas d’(( information )) supplémentaire sur θ ; on pourrait d’ailleurs, sachant S = s, tirerdans la loi conditionnelle connue de Y sachant S = s et obtenir ainsi une observation arti-ficielle ayant pour loi Pθ0 , θ0 étant la vraie valeur de θ. On pose donc la définition suivante.

  • 3.2. � EXHAUSTIVITÉ 35

    Définition 3.3. Soit (Y , Pθ, θ ∈ Θ) un modèle statistique paramétrique et S une sta-tistique. La statistique S est dite exhaustive si la loi conditionnelle de Y sachant S nedépend pas de θ.

    3.2.2 Critère de factorisation

    Pour déterminer si une statistique S est exhaustive en utilisant la définition 3.2, il fautcalculer la loi conditionnelle P

    Y/S(Y )=sθ , ce qui n’est pas toujours simple.

    Dans le cas dominé il existe une autre façon, souvent beaucoup plus simple, dedéterminer si une statistique est exhaustive qui consiste à utiliser le critère de factori-sation suivant.

    Théorème 3.4. (critère de factorisation). Soit (Y , Pθ, θ ∈ Θ) un modèle statistiqueparamétrique dominé par une mesure µ ; une condition nécessaire et suffisante pour qu’unestatistique S soit exhaustive est que les densités ℓ(y, θ) admettent une décomposition dutype :

    ℓ(y, θ) = ψ[S(y), θ]λ(y) .

    Démonstration. La démonstration générale est donnée dans l’annexe I. Ici on considèreseulement la démonstration dans le cas discret.

    Condition nécessaire.Si S est exhaustive on peut écrire :

    ℓ(y, θ) = Pθ(Y = y)

    = Pθ[S(Y ) = S(y) et Y = y]

    = Pθ[S(Y ) = S(y)]Pθ[Y = y/S(Y ) = S(y)]

    Comme Pθ[Y = y/S(Y ) = S(y)] ne dépend pas de θ, ℓ(y, θ) a bien la décompositionvoulue.

    Condition suffisante.Si on a :

    ℓ(y, θ) = Pθ[Y = y] = ψ[S(y), θ]λ(y)

    on en déduit :

    Pθ[Y = y/S(Y ) = s] =Pθ[Y = y et S(Y ) = s]

    Pθ[S(Y ) = s]

    = 0, si S(y) 6= s

    =Pθ(Y = y)∑

    y:S(y)=s

    Pθ(Y = y)=

    λ(y)∑

    y:S(y)=s

    λ(y)si S(y) = s

    La loi conditionnelle ne dépend donc pas de θ. �

  • 36 CHAPITRE 3. EXHAUSTIVITÉ, INFORMATION ET IDENTIFICATION

    Exemple 3.5. Considérons un échantillon de taille n extrait de la loi exponentielle dedensité

    f(yi, θ) =1

    θ2exp[− 1

    θ2(yi − θ1)]11(yi≥θ1) θ2 > 0

    La densité du vecteur Y des observations est

    ℓ(y, θ) =

    n∏

    i=1

    f(yi, θ) =1

    θn2exp

    [

    − 1θ2

    n∑

    i=1

    yi + nθ1θ2

    ]

    n∏

    i=1

    11(yi≥θ1)

    = 11(min yi≥θ1) exp

    (

    − 1θ2

    n∑

    i=1

    yi

    )

    1

    θn2exp

    (

    nθ1θ2

    )

    Par conséquent le critère de factorisation implique que la statistique S(Y ) =(∑

    i

    Yi,miniYi) est exhaustive (le calcul de la loi conditionnelle aurait été plus délicat).

    3.2.3 Cas d’un modèle conditionnel

    Les définitions et les résultats précédents se généralisent immédiatement au cas d’unmodèle conditionnel [Y , (Px, x ∈ X )]. Une statistique est alors définie sur X ×Y . Dans lecas paramétrique (Y , Pθ,x, θ ∈ Θ, x ∈ X ) une statistique S(X, Y ) est exhaustive (condi-tionnellement) si la loi conditionnelle de Y sachant X et S(X, Y ) ne dépend pas de θ.Dans le cas dominé le critère de factorisation devient :

    ℓ(y/x; θ) = ψ[S(x, y), x; θ]λ(x, y)

    où ℓ(y/x; θ), θ ∈ Θ, sont les densités conditionnelles de Y sachant X = x.

    Exemple 3.6. Considérons le modèle linéaire normal conditionnel (introduit en (2.2.2)où le vecteur des observations Y (de taille n) admet comme loi la loi normale N(Xθ, Idn),X étant une matrice n × p dont les lignes sont les diverses valeurs prises par le vecteurdes variables conditionnantes. La densité conditionnelle de Y sachant X est donc :

    (2π)−n/2 exp

    [

    −12(Y −Xθ)′(Y −Xθ)

    ]

    =(2π)−n/2 exp

    [

    Y ′Xθ − 12θ′X ′Xθ − 1

    2Y ′Y

    ]

    En utilisant le critère de factorisation on voit que la statistique X ′Y est exhaustive(conditionnellement).

    3.3 Information

    Dans le paragraphe précédent on a utilisé, sans la définir avec précision, une notiond’information. On a dit en particulier qu’une statistique exhaustive conservait toute l’(( in-formation )) sur le paramètre θ d’un modèle paramétrique ; on pourrait dire également

  • 3.3. INFORMATION 37

    qu’une statistique dont la loi ne dépend pas de θ (une telle statistique est dite libre) perdtoute l’(( information )) sur θ.

    Au delà de ces deux cas extrêmes, il serait utile de mesurer l’information apportée parune statistique quelconque S. On restera dans le cadre paramétrique. En outre on ne ferapas apparâıtre explicitement les variables conditionnantes, si elles existent. Dans le casd’un modèle conditionnel, les résultats qui suivent devront donc être interprétés à x ∈ Xfixé.

    3.3.1 Information de Fisher

    On considère un modèle statistique paramétrique (Y , Pθ, θ ∈ Θ) dominé par une me-sure µ ; on note ℓ(y, θ), θ ∈ Θ, la famille des densités de probabilité par rapport à µ ;on suppose que le modèle est régulier, c’est-à-dire que Θ est un ouvert de Rp et que lesconditions de régularité suivantes sont vérifiées :

    C1 : ℓ(y, θ) > 0, ∀ y ∈ Y , ∀θ ∈ Θ (modèle homogène)

    C2 :∂ℓ(y, θ)

    ∂θet∂2ℓ(y, θ)

    ∂θ ∂θ′existent ∀y ∈ Y et θ ∈ Θ

    C3 : la matrice de variance-covariance de∂ log ℓ(Y, θ)

    ∂θexiste

    C4 : ∀θ ∈ Θ, ∀A borelien de Y on peut dériver (par rapport à θ)∫

    A

    ℓ(y, θ)dµ(y) deux fois sous le signe somme .

    Définition 3.7. On appelle information de Fisher du modèle la matrice de variance-

    covariance de ∂ log ℓ(Y,θ)∂θ

    ; cette matrice est notée IF (θ).

    L’interprétation intuitive de cette définition sera fournie en même temps que celle del’information de Kullback dans le paragraphe suivant. On peut cependant étudier dèsmaintenant quelques propriétés de l’information de Fisher.

    Notons d’abord que le vecteur ∂ log ℓ(Y,θ)∂θ

    , appelé vecteur du score, est centré ; en effet,en dérivant l’égalité

    on obtient :

    ou :

    ou encore

    ℓ(y, θ)dµ(y) = 1 ∀θ ∈ Θ∫ ∂ℓ(y,θ)

    ∂θ.dµ(y) = 0 ∀θ ∈ Θ

    ∫ ∂ log ℓ(y,θ)∂θ

    .ℓ(y, θ)dµ(y) = 0 ∀θ ∈ Θ

    (

    ∂ log ℓ(Y,θ)∂θ

    )

    = 0 ∀θ ∈ Θ .

  • 38 CHAPITRE 3. EXHAUSTIVITÉ, INFORMATION ET IDENTIFICATION

    La matrice d’information de Fisher s’écrit donc également :

    IF (θ) = Eθ

    [

    ∂ log(Y, θ)

    ∂θ

    ∂ log(Y, θ)

    ∂θ′

    ]

    On peut noter aussi que la définition de IF (θ) ne dépend pas du choix de la mesure do-minante ; en effet soit Pθ∗ une probabilité fixée de la famille, Pθ∗ est absolument continuepar rapport à toute mesure dominante µ ; en outre comme la famille est homogène (condi-tion C1) on peut prendre Pθ∗ comme mesure dominante. Si on note ℓ∗(y, θ) les densitéspar rapport à Pθ∗ on a :

    dPθdµ

    =dPθdPθ∗

    dPθ∗dµ

    ou, avec des notations évidentes :

    ℓ(y, θ) = ℓ∗(y, θ)h(y)

    Cette dernière égalité implique :

    ∂ log ℓ(y, θ)

    ∂θ=∂ log ℓ∗(y, θ)

    ∂θ

    ce qui entrâıne bien que IF (θ) ne dépend pas de la mesure dominante.

    Une autre expression utile de IF (θ) est fournie par la propriété suivante.

    Théorème 3.8

    IF (θ) = −Eθ

    [

    ∂2 log ℓ(Y, θ)

    ∂θ∂θ′

    ]

    Démonstration. On a vu que∫ ∂ℓ(y,θ)

    ∂θdµ(y) = 0 ∀θ ∈ Θ

    En dérivant une seconde fois on obtient :∫

    ∂2ℓ(y, θ)

    ∂θ∂θ′dµ(y) = 0 ∀θ ∈ Θ

    ou :

    [

    1

    ℓ(Y, θ)

    ∂2ℓ(Y, θ)

    ∂θ∂θ′

    ]

    = 0 ∀θ ∈ Θ

    Par conséquent on a :

    −Eθ

    [

    ∂2 log ℓ(Y, θ)

    ∂θ∂θ′

    ]

    = −Eθ

    [

    1

    ℓ(Y, θ)

    ∂2ℓ(Y, θ)

    ∂θ∂θ′− 1ℓ2(Y, θ)

    ∂ ℓ(Y, θ)

    ∂θ

    ∂ ℓ(Y, θ)

    ∂θ′

    ]

    = Eθ

    [

    ∂ log ℓ(Y, θ)

    ∂θ

    ∂ log ℓ(Y, θ)

    ∂θ′

    ]

    = IF (θ) . �

  • 3.3. INFORMATION 39

    Revenons maintenant au problème posé au début de ce paragraphe, à savoir la mesurede l’information apportée par une statistique. Comme on a défini l’information de Fisherd’un modèle, il est naturel de proposer la définition suivante.

    Définition 3.9. L’information de Fisher apportée par une statistique S, notéeISF (θ), est l’information de Fisher du modèle image par S.

    Si on note ℓ(s, θ) une famille de densités de probabilités (par rapport à une me-sure ν) dans le modèle image par S, l’information de Fisher apportée par S est donc

    (

    ∂ log ℓS(S,θ)∂θ

    )

    , matrice de variance-covariance du vecteur du score dans le modèle image.

    Pour étudier les propriétés de la matrice d’information, ISF (θ) il est utile de s’intéresser àce vecteur du score dans le modèle image, et de déterminer, en particulier, comment il sedéduit du vecteur du score dans le modèle initial.

    Lemme 3.10. On a :

    ∂ log ℓS(S, θ)

    ∂θ= E

    θ

    [

    ∂ log ℓ(Y, θ)

    ∂θ/S

    ]

    Démonstration. Soit B un borélien quelconque de S = S(Y).On a :

    B

    ℓS(s, θ)dν(s) =

    S−1(B)

    ℓ(y, θ)dµ(y)

    En dérivant par rapport à θ :

    B

    ∂ℓS(s, θ)

    ∂θdν(s) =

    S−1(B)

    ∂ℓ(y, θ)

    ∂θdµ(y)

    ou :∫

    11B(s)∂ log ℓS(s, θ)

    ∂θdP Sθ (s) =

    11B[S(y)]∂ log ℓ(y, θ)

    ∂θdPθ(y)

    En utilisant l’opérateur espérance cette égalité s’écrit :

    {

    11B(S)

    [

    ∂ log ℓS(S, θ)

    ∂θ− ∂ log ℓ(Y, θ)

    ∂θ

    ]}

    = 0

    Comme cette égalité est vraie pour tout B chaque composante de ∂ log ℓS(S,θ)

    ∂θ− ∂ log ℓ(Y,θ)

    ∂θ

    est orthogonale, au sens de L2, à toute fonction de S ; on en déduit [voir Neveu (1995)],

    que chaque composante de ∂ log ℓS(S,θ)

    ∂θest égale à l’espérance conditionnelle sachant S de

    la composante correspondante de ∂ log ℓ(Y,θ)∂θ

    . �

  • 40 CHAPITRE 3. EXHAUSTIVITÉ, INFORMATION ET IDENTIFICATION

    Proposition 3.11. La matrice ISF (θ) est inférieure ou égale, au sens de l’ordre partielsur les matrices symétriques, à la matrice IF (θ).

    Démonstration. En utilisant le lemme 3.10, on peut écrire la matrice ISF (θ) sous laforme :

    ISF (θ) = VθEθ

    [

    ∂ log ℓ(Y, θ)

    ∂θ

    /

    S

    ]

    Par ailleurs en utilisant la décomposition de la matrice IF (θ) = Vθ

    [

    ∂ log ℓ(Y,θ)∂θ

    ]

    on obtient :

    IF (θ) = VθEθ

    [

    ∂ log ℓ(Y, θ)

    ∂θ

    /

    S

    ]

    + EθVθ

    [

    ∂ log ℓ(Y, θ)

    ∂θ

    /

    S

    ]

    IF (θ) = ISF (θ) + E

    θVθ

    [

    ∂ log ℓ(Y, θ)

    ∂θ

    /

    S

    ]

    IF (θ) ≥ ISF (θ) . (au sens où IF (θ) − ISF (θ) est une matrice positive) �

    Donc, comme il est naturel, l’information apportée par S ne peut pas être supérieureà l’information du modèle initial. On peut également vérifier que la notion d’exhaustivité,introduite précédemment est bien cohérente avec la notion d’information :

    Proposition 3.12. Si S est exhaustive ISF (θ) = IF (θ) ∀θ ∈ Θ.

    Démonstration. Si S est exhaustive, on a d’après le critère de factorisation 3.4 :

    ℓ(y, θ) = ψ[S(y), θ]λ(y)

    et donc :∂ log ℓ(y, θ)

    ∂θ=∂ logψ[S(y), θ]

    ∂θ

    Le vecteur du score dans le modèle initial ne dépend donc de y qu’à travers S(y) et,en utilisant le lemme 3.10, on voit qu’il est égal au vecteur du score dans le modèle image,d’où le résultat.�

    Il est possible [voir Monfort (1982) page 74] de montrer une réciproque du résultatprécédent ; par ailleurs on peut vérifier que l’information ISF (θ) sera minimale, c’est-à-direnulle, si et seulement si la statistique S est libre. Finalement, il est intéressant de signalerune propriété d’additivité de l’information de Fisher pour des statistiques indépendantes :

    Proposition 3.13. Si S et T sont deux statistiques indépendantes, on a : I(S,T )F (θ) =

    I(S)F (θ) + I

    (T )F (θ).

  • 3.3. INFORMATION 41

    Démonstration. D’après l’indépendance, le couple (S, T ) admet comme densité de pro-babilité

    ℓ(S,T )(s, t ; θ) = ℓS(s, θ)ℓT (t, θ)

    et donc∂ log ℓ(S,T )(s, t ; θ)

    ∂θ=∂ log ℓS(s, θ)

    ∂θ+∂ log ℓT (t, θ)

    ∂θ

    d’où le résultat. �

    La propriété précédente implique en particulier que, dans un modèle d’échantillonnagede taille n, la matrice d’information de Fischer du modèle IF (θ) est égale à nĨF (θ), oùĨF (θ), est la matrice d’information du modèle avec une seule observation.

    On peut noter également que, lorsque deux statistiques S et T sont indépendantes,si S est exhaustive T est libre puisque ISF (θ) = IF (θ), I

    (S,T )F (θ) ≤ IF (θ) et I

    (S,T )F (θ) =

    ISF (θ) + ITF (θ) ≥ IF (θ) d où I

    (S,T )F (θ) = IF (θ) et I

    TF (θ) = 0.

    3.3.2 Divergence de Kullback

    Considérons un modèle paramétrique (Y , Pθ, θ ∈ Θ) dominé par une mesure µ, maispas nécessairement homogène. Supposons que la vraie valeur du paramètre soit θ0 ; onpeut alors se demander dans quelle mesure le modèle permet de discerner θ0 d’une autrevaleur du paramètre θ1.

    Considérons deux cas extrêmes :

    (y, θ0)

    (y, θ1)

    y

    ll

    l

    Figure 1

    (y, θ0)

    (y, θ1)

    A0 B0 A1 B1

    l

    l

    Figure 2

    Dans le cas de la figure 1, on a ℓ(y, θ0) = ℓ(y, θ) pour tout y et il est alors clair quel’expérience, c’est-à-dire l’observation de y, ne permettra jamais de distinguer θ0 de θ1(le modèle n’est pas identifiable). Dans le cas de la figure 2, au contraire, le résultat del’expérience sera dans A0B0 et permettra donc d’affirmer que la vraie valeur du paramètre

  • 42 CHAPITRE 3. EXHAUSTIVITÉ, INFORMATION ET IDENTIFICATION

    ne peut pas être θ1.

    Naturellement le cas général est intermédiaire ; plus précisément on peut encore avoirdeux types de cas :

    (y, θ0) (y, θ1)l l

    Figure 3

    (y, θ0)

    (y, θ1)

    A0 A1 B1B0

    l

    l

    Figure 4

    Dans le cas de la figure 3 on voit que, quel que soit le résultat, on ne pourra pas exclureque θ1 est la vraie valeur du paramètre ; en revanche, dans le cas de la figure 4, on pourrale faire si l’observation tombe dans A0A1.

    Kullback a proposé de définir, pour tout résultat y, le pouvoir discriminant entre lavraie valeur θ0 et θ1 par log

    ℓ(y,θ0)ℓ(y,θ1)

    . Notons que si y discrimine parfaitement [ℓ(y, θ