204
T ESTS STATISTIQUES NATHALIE A KAKPO NOTES DE COURS ISSUES DU MODULE 4M018 STATISTIQUE APPLIQUÉE MASTER 1MATHÉMATIQUES ET APPLICATIONS UNIVERSITÉ PIERRE ET MARIE CURIE 7 SEPTEMBRE 2017

TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

  • Upload
    others

  • View
    3

  • Download
    1

Embed Size (px)

Citation preview

Page 1: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TESTS STATISTIQUES

NATHALIE AKAKPO

NOTES DE COURS ISSUES DU MODULE

4M018 STATISTIQUE APPLIQUÉE

MASTER 1 MATHÉMATIQUES ET APPLICATIONS

UNIVERSITÉ PIERRE ET MARIE CURIE

7 SEPTEMBRE 2017

Page 2: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Avant-propos

Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée àl’UPMC de 2013 à 2015. Elles seront progressivement complétées par les TD et TP qui illustraientce cours.

Ce cours ne contient pas de rappels sur l’estimation, mais on pourra consulter sur ce sujet lesréférences données dans le guide bibliographique 1, ou le polycopié de T. Rebafka qui contient lapremière partie du cours 4M018.

Malgré les relectures, ce document est susceptible de contenir quelques coquilles. Vous pouvezme les signaler en me contactant à [email protected].

Page 3: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Table des matières

1 GUIDE BIBLIOGRAPHIQUE 7

2 GÉNÉRALITÉS SUR LES TESTS 92.1 D’une question pratique à la formulation d’un test statistique . . . . . . . . . . . 92.2 Hypothèses du test et zone de rejet . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Erreurs associées aux hypothèses de test . . . . . . . . . . . . . . . . . . . . . . 152.4 Degré de significativité ou p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . 182.5 Critères de performance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . 202.6 Méthodes générales de construction de tests . . . . . . . . . . . . . . . . . . . . 21

2.6.1 À partir d’un estimateur ou d’une statistique pivotale . . . . . . . . . . . 212.6.2 À partir d’un intervalle de confiance . . . . . . . . . . . . . . . . . . . . 222.6.3 À partir du rapport des vraisemblances . . . . . . . . . . . . . . . . . . 23

2.7 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.8 Les grandes familles de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.8.1 Selon l’objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.8.2 Tests paramétriques versus tests non-paramétriques . . . . . . . . . . . . 26

2.9 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.10 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.11 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . 28

3 TESTS PARAMÉTRIQUES USUELS 333.1 Tests pour échantillons i.i.d. gaussiens . . . . . . . . . . . . . . . . . . . . . . . 34

3.1.1 Test de conformité de la moyenne à variance connue (z-test) . . . . . . . 343.1.2 Test de conformité de la moyenne à variance inconnue (t-test de conformité) 373.1.3 Test de comparaison de deux moyennes à variances inconnues . . . . . . 413.1.4 Test de conformité de la variance . . . . . . . . . . . . . . . . . . . . . 443.1.5 Test de comparaison de deux variances (F -test ou test de Fisher) . . . . . 463.1.6 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2 Tests dans le modèle de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 463.2.1 Test de conformité d’une proportion : version exacte . . . . . . . . . . . 463.2.2 Test de conformité d’une proportion : version asymptotique . . . . . . . 473.2.3 Test exact de Fisher pour la comparaison de deux proportions . . . . . . 493.2.4 Test asymptotique de comparaison de deux proportions . . . . . . . . . . 50

3

Page 4: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

3.3 Commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.4 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.5 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.6 Correction du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.7 Tests paramétriques : récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . 58

4 TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 614.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.1.1 Quelques propriétés de la fonction de quantile . . . . . . . . . . . . . . . 624.1.2 Propriétés ponctuelles de la fonction de répartition empirique . . . . . . 63

4.2 Tests non-paramétriques sur les quantiles . . . . . . . . . . . . . . . . . . . . . 644.2.1 Un test exact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.2 Un test asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3 Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée . . . . . 654.3.1 Notion d’ordre stochastique . . . . . . . . . . . . . . . . . . . . . . . . 654.3.2 Expression et représentation des statistiques de test . . . . . . . . . . . . 684.3.3 Comportement des statistiques de Kolmogorov . . . . . . . . . . . . . . 694.3.4 Règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.3.5 Approximations des lois des statistiques de test sous H0 . . . . . . . . . 72

4.4 Test de normalité de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . 734.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.5.1 Tests d’adéquation à une famille de lois paramétrée . . . . . . . . . . . . 754.5.2 Test de comparaison de Smirnov . . . . . . . . . . . . . . . . . . . . . . 754.5.3 Tests d’adéquation basés sur d’autres distances . . . . . . . . . . . . . . 754.5.4 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.6 Commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.7 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.8 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.9 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . 81

5 TESTS DU KHI-DEUX 935.1 Test d’adéquation à une loi donnée . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.1.1 Objectif et principe du test . . . . . . . . . . . . . . . . . . . . . . . . . 945.1.2 Reformulation du test en terme de loi multinomiale . . . . . . . . . . . . 955.1.3 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . . 965.1.4 Quelques remarques pratiques . . . . . . . . . . . . . . . . . . . . . . . 975.1.5 Exemple : Croisements de cobayes de race pure . . . . . . . . . . . . . 97

5.2 Test d’adéquation à une famille de lois paramétrée . . . . . . . . . . . . . . . . . 995.2.1 Objectif et principe du test . . . . . . . . . . . . . . . . . . . . . . . . . 995.2.2 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . . 1005.2.3 Application : adéquation à une famille de lois binomiales . . . . . . . . . 101

5.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1025.3.1 Variables observées et objectif du test . . . . . . . . . . . . . . . . . . . 1025.3.2 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Page 5: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

5.3.3 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . . 1045.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4 Usage des tests du khi-deux dans un cadre non-paramétrique . . . . . . . . . . . 1065.4.1 Exemple de test d’adéquation à une loi discrète de support infini . . . . . 1075.4.2 Exemple de test d’adéquation à une famille de lois discrètes de support infini109

5.5 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.6 Annexe : Propriétés et quantiles des lois du khi-deux . . . . . . . . . . . . . . . 1135.7 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.8 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . 117

6 TESTS BASÉS SUR LES RANGS 1236.1 Statistiques de rang : définition et propriétés . . . . . . . . . . . . . . . . . . . . 1236.2 Test de comparaison des positions de deux échantillons indépendants . . . . . . . 125

6.2.1 Les statistiques de Wilcoxon et de Mann-Whitney . . . . . . . . . . . . . 1256.2.2 Propriétés sous l’hypothèse F = G . . . . . . . . . . . . . . . . . . . . 1276.2.3 Formulation mathématique des hypothèses de test . . . . . . . . . . . . . 127

6.3 Tests de comparaison des positions de deux échantillons : bilan . . . . . . . . . . 1286.3.1 Récapitulatif des tests unilatères . . . . . . . . . . . . . . . . . . . . . . 1296.3.2 Comparaison asymptotique des tests de Student et de Wilcoxon . . . . . 1316.3.3 Comparaison non-asymptotique des 4 tests . . . . . . . . . . . . . . . . 1326.3.4 Conclusion des tests pour les données de l’exemple . . . . . . . . . . . . 141

6.4 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . 1426.5 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1436.6 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . 144

7 ANALYSE DE LA VARIANCE 1557.1 Analyse de la variance à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . 156

7.1.1 Trois écritures d’un même modèle . . . . . . . . . . . . . . . . . . . . . 1567.1.2 Estimation des paramètres par moindres carrés . . . . . . . . . . . . . . 1587.1.3 Test de (l’absence d’effet) l’effet du facteur . . . . . . . . . . . . . . . . 1607.1.4 ANOVA non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 1637.1.5 Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

7.2 Analyse de la variance à deux facteurs . . . . . . . . . . . . . . . . . . . . . . . 1687.2.1 Les différentes écritures du modèle . . . . . . . . . . . . . . . . . . . . 1697.2.2 Calcul des estimateurs des moindres carrés . . . . . . . . . . . . . . . . 1707.2.3 Équation et table d’analyse de la variance . . . . . . . . . . . . . . . . . 1727.2.4 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.3 Annexe : Tables d’analyse de la variance . . . . . . . . . . . . . . . . . . . . . . 1787.3.1 ANOVA à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.3.2 ANOVA à deux facteurs équilibrée avec interaction . . . . . . . . . . . . 1817.3.3 ANOVA à deux facteurs équilibrée : modèle additif ou sans interaction . 183

7.4 Annexe : Petit nécessaire d’algèbre linéaire pour statisticien . . . . . . . . . . . . 1857.4.1 Espaces euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1857.4.2 Formules de changement de base . . . . . . . . . . . . . . . . . . . . . 185

Page 6: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

6

7.4.3 Projection, projection orthogonale . . . . . . . . . . . . . . . . . . . . . 1867.4.4 Isométries et matrices orthogonales . . . . . . . . . . . . . . . . . . . . 1887.4.5 Endomorphismes auto-adjoints et matrices symétriques . . . . . . . . . . 189

7.5 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1907.6 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . 197

CONCLUSION SUR LES TESTS 197

Page 7: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 1

GUIDE BIBLIOGRAPHIQUE

Toutes les références suivantes sont disponibles dans les bibliothèques de l’UPMC, et mêmedisponibles dans les ressources en ligne pour certaines.

Pour une introduction générale aux statistiques (estimation, intervalles de confiance ettests), on pourra consulter Biau et al. (2010); Daudin et al. (1999); Davison (2003); Efron etHastie (2016); Lejeune (2010); Prum (2010); Rivoirard et Stoltz (2009). Des références plus avan-cées sur les tests sont par exemple Bickel et Doksum (2015) ou Lehmann (1997); van der Vaart(1998) (vraiment beaucoup plus avancées).

Pour la mise en œuvre des tests sous R, les principales commandes sont données dans cepolycopié, mais on pourra également consulter Bertrand et Maumy-Bertrand (2014); Cornillonet al. (2008); Lafaye De Micheaux et al. (2011).

Pour les tests basés sur la fonction de répartition, on pourra consulter Thas (2010), qui demanière plus générale offre un panorama assez complet des tests de comparaison d’échantillons,paramétriques ou non-paramétriques.

Il est difficile de trouver des références sur les tests basés sur les rangs faisant un bon compro-mis entre mathématiques et pratique. On pourra consulter par exemple Lehmann (2006); van derVaart (1998) pour les aspects plus théoriques et les livres de biostatistique de la bibliothèque L1-L2pour des illustrations pratiques.

Pour les modèles de régression en général et l’analyse de la variance en particulier, d’excel-lentes références sont Azaïs et Bardet (2012); Cornillon et Matzner-Løber (2007, 2010).

Pour une introduction très sommaire au bootstrap, on pourra consulter Wasserman (2004,2006). On pourra compléter par Davison et Hinkley (1997); DiCiccio et Efron (1996); Efron etTibshirani (1993), voire consulter Shao et Tu (1995) pour des résultats plus avancés.

7

Page 8: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

8

Page 9: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 2

GÉNÉRALITÉS SUR LES TESTS

Sommaire2.1 D’une question pratique à la formulation d’un test statistique . . . . . . . . 92.2 Hypothèses du test et zone de rejet . . . . . . . . . . . . . . . . . . . . . . . 142.3 Erreurs associées aux hypothèses de test . . . . . . . . . . . . . . . . . . . . 152.4 Degré de significativité ou p-valeur . . . . . . . . . . . . . . . . . . . . . . . 182.5 Critères de performance d’un test . . . . . . . . . . . . . . . . . . . . . . . 202.6 Méthodes générales de construction de tests . . . . . . . . . . . . . . . . . . 21

2.6.1 À partir d’un estimateur ou d’une statistique pivotale . . . . . . . . . . 212.6.2 À partir d’un intervalle de confiance . . . . . . . . . . . . . . . . . . . 222.6.3 À partir du rapport des vraisemblances . . . . . . . . . . . . . . . . . 23

2.7 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.8 Les grandes familles de tests . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.8.1 Selon l’objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.8.2 Tests paramétriques versus tests non-paramétriques . . . . . . . . . . . 26

2.9 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . 262.10 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.11 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . 28

Références : Biau et al. (2010); Daudin et al. (1999); Lejeune (2010); Prum (2010); Rivoirardet Stoltz (2009)

Dans ce chapitre, nous présentons le principe des tests statistiques, et introduisons le vocabu-laire associé.

2.1 D’une question pratique à la formulation d’un test statistique

Voici quelques situations illustrant la démarche conduisant à formuler un test statistique, enlaissant entrevoir les subtilités intervenant dans la traduction d’un problème concret en un pro-blème de test. Ces exemples motivent l’intérêt porté aux tests et donnent un premier aperçu de leurgrande diversité.

9

Page 10: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

10 2.1. D’une question pratique à la formulation d’un test statistique

EXEMPLE 1 : SIGNAL ÉMIS PAR UN CAPTEUR

CONTEXTE : Pour enregistrer les bruits sous-marins émis par des baleines bleues (à bassefréquence), on dispose de nouveaux capteurs (très chers) semblables à des bouées, avec microintégré, et batterie autonome. Tant que le capteur fonctionne, il émet un signal (à haute fréquence)perçu par les instruments de mesure usuels, qui permet aussi de localiser le capteur.

DONNÉES : On étudie un capteur situé dans l’Océan Antarctique. Dans une journée donnée,on enregistre toutes les demi-heures le signal reçu.

QUESTION : Peut-on considérer à la fin de la journée que le capteur fonctionne toujours oupas?

Afin d’apporter une réponse à cette question, le statisticien doit tout d’abord modéliser leproblème. Ici, on observe xi, intensité du signal reçu à l’instant i, pour i = 1, . . . , n, où n = 48.On considèrera x1, . . . , xn comme des réalisations de variables aléatoiresX1, . . . , Xn. En effet, lesignal reçu n’est pas exactement le signal émis : il est entâché par le « bruit » de l’océan (vagues,bateaux, animaux, . . .). On supposera même les Xi i.i.d. de loi N (µ, σ2), où µ ∈ R et σ > 0 sontinconnus, afin de travailler avec un modèle paramétrique simple (en pratique, il faudrait au moinsvérifier que ce modèle est plausible grâce à une analyse préliminaire des données). Le paramètreµ peut s’interpréter comme l’intensité du signal émis par le capteur, alors que σ rend compte dubruit de l’océan. Répondre à la question posée consiste maintenant à départager deux hypothèsesportant sur le paramètre µ :

— ou bien le capteur ne fonctionne pas, autrement dit µ = 0;— ou bien le capteur fonctionne, i.e. µ > 0.

Pour cela, on réalisera un test dit paramétrique (puisque le modèle statistique choisi est paramé-trique) de position (puisque les hypothèses portent sur le paramètre de position µ = E[Xi]).

Dans la réalité, l’une des hypothèses est vraie, mais on ne sait pas laquelle : on ne disposeque des données pour décider laquelle des deux conserver. Il y a donc un risque de se tromper,qui n’est pas sans conséquence. En effet, si en réalité µ = 0 (« le capteur ne fonctionne pas »),mais qu’on décide µ > 0 (« le capteur fonctionne »), alors avant de se rendre compte de l’erreur, lecapteur (très cher !) aura eu tout le temps de dériver loin de sa dernière position connue et on l’auradéfinitivement perdu. Si en réalité µ > 0, mais qu’on décide µ = 0, alors il faudra envoyer unbateau pour vérifier (inutilement) le capteur. Ces deux situations ont un coût, mais en général l’unest beaucoup plus élevé que l’autre : ici, c’est le prix d’un des capteurs. Il y a donc une dissymétrieentre les deux hypothèses, qui permet de distinguer :

— l’hypothèse que l’on garderait par précaution, si on n’avait aucune donnée : on l’appellehypothèse nulle et on la note H0 (ici, H0 : µ = 0) ;

— l’hypothèse que l’on doit s’efforcer de prouver si on veut la conserver : on l’appelle hypo-thèse alternative et on la note H1 (ici, H0 : µ > 0).

Le rôle des données dans le processus de décision est bien décrit par la métaphore du procès. Onretiendra l’analogie entre

Page 11: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 11

— l’hypothèse nulle H0 et l’hypothèse « le prévenu est innocent » ;— l’hypothèse alternative H1 et l’hypothèse « le prévenu est coupable » ;— les données x et les preuves à charge (c’est-à-dire présentées par l’accusation) ;— le test statistique et le juge : il détermine si les données/preuves sont suffisamment acca-

blantes pour rejeter H0/condamner le prévenu.

EXEMPLE 2 : PRÉCISION D’UNE MACHINE

CONTEXTE : Une usine doit fabriquer des ailettes de réacteur, de longueur moyenne 785 mm,avec une précision de +- 2mm. Si les ailettes produites sont vraiment trop longues ou trop courtes,elles seront inutilisables. Des contrôles réguliers ont permis de montrer que la longueur moyennereste conforme à la norme, mais que la précision des machines a tendance à s’émousser.

DONNÉES : On procède à un contrôle en mesurant la longueur en mm de 100 ailettes choisiesau hasard.

785.6512 785.9891 784.8173 780.7555 784.0794 785.7608 783.9604 784.5810 785.9217 785.9081784.6624 786.2625 786.4485 785.2417 786.9975 787.4418 785.4847 781.6485 781.4663 785.4611784.3441 784.9795 783.9961 783.8506 785.3154 785.2307 782.9626 783.7270 784.4450 783.7117785.8326 783.5918 785.5602 785.6994 787.0705 783.1058 786.2019 785.4179 784.4713 786.3014784.6826 783.7935 786.3359 782.2267 784.0105 786.6072 785.3122 787.4313 783.6592 782.8160787.0968 784.7145 782.8120 784.6210 783.9680 784.5246 785.0283 783.6138 780.0765 787.3774787.6564 785.7798 784.8597 779.9698 783.2468 786.8548 782.8475 785.2669 782.9580 788.2990785.4214 784.5182 788.0940 786.8908 785.7995 785.6585 781.2268 784.2567 789.4452 786.4002786.9842 788.0771 786.6054 783.5964 785.9916 785.3437 786.3903 789.0122 784.6587 785.1604785.7481 784.5097 783.0051 785.6268 785.7789 785.4953 785.3556 783.0409 782.9640 783.5649

QUESTION : Peut-on considérer que la précision est acceptable ou pas?

Modélisation du problème. Soit n = 100, pour i = 1, . . . , n, notons xi la longueur en mmde la ie ailette. En procédant à une analyse descriptive des données, on obtient notamment lesgraphiques de la Figure 2.1. ci-dessous. On pourra donc considérer x1, . . . , xn comme des réalisa-tions de variables aléatoires X1, . . . , Xn i.i.d. de loi N (µ, σ2), où µ ∈ R et σ > 0 sont inconnus(éventuellement, on peut supposer µ connu, µ = 785). Les hypothèses à départager s’écriventalors

— σ2 < 4 (« la précision est acceptable », « la marchandise est utilisable ») ;— σ2 ≥ 4 (« la précision n’est pas acceptable », « la marchandise est inutilisable »).

Le test à réaliser est un test paramétrique (puisque le modèle statistique est paramétrique) dedispersion (puisqu’il porte sur le paramètre σ2 = Var(Xi)).

Choix deH0 et deH1. Si en réalité σ2 ≥ 4, mais qu’on décide σ2 < 4, les clients vont recevoirtoute une livraison inutilisable. Si en réalité σ2 < 4, mais qu’on décide σ2 ≥ 4, l’usine va détruiretout un stock qui était en fait de bonne qualité. Le choix de H0 et de H1 dépend donc aussi du

Page 12: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

12 2.1. D’une question pratique à la formulation d’un test statistique

780 782 784 786 788 790

0.0

00

.10

0.2

00

.30

−2 −1 0 1 2

−2

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

FIGURE 2.1 – À gauche : histogramme des longueurs et densité de la loi N (xn, σ2n). À droite :

QQ-plot gaussien des longueurs centrées réduites.

point de vue adopté. Du point de vue du client, par précaution, H0 : σ2 ≥ 4, alors que du point devue de l’usine, H0 : σ2 < 4 est l’hypothèse la plus intéressante à conserver par défaut !

EXEMPLE 3 : NORMALITÉ DES DONNÉES

CONTEXTE : Le modèle d’échantillonnage gaussien est un modèle statistique simple, auxparamètres facilement interprétables. De plus, c’est dans ce modèle que de nombreux tests statis-tiques sont faciles à formuler et à étudier (cf. Chapitre ??).

DONNÉES : Données de l’exemple 1, ou données de l’exemple 2, et plus généralementx1, . . . , xn réalisations de variables aléatoires réelles i.i.d. X1, . . . , Xn.

QUESTION : Peut-on considérer que les données sont générées selon une loi normale ou pas?

Comme d’habitude, il vaut mieux commencer par représenter les données. Voici par exemple,dans la Figure 2.2, huit graphiques représentant chacun le QQ-plot gaussien d’un échantillon i.i.d.standardisé. À votre avis, lesquels correspondent à un échantillon gaussien? Confrontez votrepoint de vue à celui d’un camarade ; aboutissez-vous aux mêmes conclusions? Un test statistiqueoffrirait ici un critère objectif sur lequel fonder la décision. Par ailleurs, si on devait considérer nonplus huit, mais un très grand nombre d’échantillons, alors faire réaliser un test statistique fiablepar un logiciel prendrait moins de temps qu’analyser chacun des QQ-plots gaussiens.

Nous verrons au Chapitre 11 que, quitte à supposerX1, . . . , Xn i.i.d. de fonction de répartitioncontinue, on sait tester H0 : « les Xi suivent une loi normale » contre H1 : « les Xi ne suivent pasune loi normale ». Un tel test est non-paramétrique puisque le modèle statistique global est non-paramétrique (c’est l’ensemble des lois continues sur R). Son but est de déterminer si la loi des Xi

appartient à une famille de lois paramétrique donnée : c’est ce qu’on appelle un test d’adéquationà une famille de lois.

Page 13: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 13

−2 −1 0 1 2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−1

.00

.01

.02

.0

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−1

.50

.01

.02

.0

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−3

−1

12

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−4

−2

02

4

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

−2 −1 0 1 2

−2

01

23

4

Normal Q−Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntil

es

FIGURE 2.2 – QQ-plots gaussiens de 8 échantillons centrés réduits.

Page 14: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

14 2.2. Hypothèses du test et zone de rejet

EXEMPLE 4 : EFFICACITÉ D’UN NOUVEAU MÉDICAMENT

CONTEXTE : Pour une certaine maladie, le taux de guérison avec les traitements classiquesest au plus de 30%. Une compagnie pharmaceutique met au point un nouveau traitement, pluscher que les traitements classiques, censé améliorer le taux de guérison.

DONNÉES : On effectue une étude en sélectionnant au hasard 50 patients malades auxquelson administre le nouveau traitement et que l’on suit pendant 1 an. On admettra que le traitementest inefficace si le malade n’est pas guéri au bout d’un 1 an. À la fin de l’étude, on observe 17guérisons.

QUESTION : Peut-on déclarer le nouveau traitement plus efficace que les traitements clas-siques ou pas?

Modélisation : Ici, n = 50, et pour i = 1, . . . , n, on observe xi qui vaut 1 si le ie patient guérit,et 0 sinon. On suppose que x1, . . . , xn sont des réalisations de v.a. X1, . . . , Xn i.i.d. de loi B(θ),θ ∈ [0, 1].

Hypothèses : « Le nouveau médicament est plus efficace que les traitements classiques » setraduit par θ > 0, 30, alors que « le nouveau médicament n’est pas plus efficace » se traduit parθ ≤ 0, 30. On aura donc recours à un test paramétrique (modèle statistique de Bernoulli), surune proportion.

Choix de H0 et de H1 : Cela dépend du point de vue adopté. Pour une agence indépendante decontrôle des médicaments ou un concurrent, la compagnie pharmaceutique doit apporter la preuveque son nouveau médicament est meilleur : autrement dit, H0 : θ ≤ 0, 30 et H1 : θ > 0, 30. Enrevanche, pour la compagnie à l’origine du nouveau médicament, l’hypothèse qu’il est souhaitablede conserver à défaut de preuves contraires est H0 : θ > 0, 30.

Dans le reste du chapitre, nous nous placerons dans le cadre suivant. On observe une variablealéatoire X définie sur un espace mesurable (Ω,A), à valeurs dans (X ,B(X )) où X ⊂ Rn. Parexemple, X = (X1, . . . , Xn) est un échantillon i.i.d. de variables aléatoires réelles, ou X estvecteur gaussien de Rn. Dans la suite, soit on considèrera que n est un entier non nul fixé, soit onrappellera en indice la dépendance en n (par exemple Xn au lieu de X). La loi de X est inconnuemais on suppose qu’elle appartient au modèle statistique identifiable Pθ, θ ∈ Θ. On identifie lesespaces (Ω,A) et (X ,B(X )), de sorte que pour B ∈ B(X ), on identifie Pθ(X ∈ B) et Pθ(B).

2.2 Hypothèses du test et zone de rejet

Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ tels que Θ = Θ0 ∪Θ1. En se basant surl’observation de X, on souhaite décider si l’élément θ ∈ Θ tel que X ∼ Pθ vérifie θ ∈ Θ0 ou

Page 15: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 15

θ ∈ Θ1. On introduit les hypothèses

H0 : θ ∈ Θ0, appelée hypothèse nulle

etH1 : θ ∈ Θ1, appelée hypothèse alternative.

L’hypothèse Hi est dite simple si Θi se réduit à un seul élément, et composée sinon. Lorsque θest un paramètre réel, Hi s’écrit le plus souvent sous l’une des 3 formes :

— θ = θi : hypothèse simple ;— θ < θi ou θ ≤ θi ou θ > θi ou θ ≥ θi : hypothèses unilatères ;— θ 6= θi : hypothèse bilatère,

où θi est un réel connu.Un test est simplement une règle permettant de décider entre H0 et H1 au vu des observations.

Définition 2.1. On appelle test de H0 contre H1 toute fonction mesurable des observations ϕ(X)à valeurs dans 0, 1. Etant donnée une réalisation x de X, si ϕ(x) = 0, on décide H0/rejette H1,et si ϕ(x) = 1, on décide H1/rejette H0. On appelle région de rejet du test

Rϕ = x ∈ X/ϕ(x) = 1.

Un test est donc entièrement caractérisé par sa zone de rejet. En pratique, pour construire un test,on introduit une statistique de test, c’est-à-dire une variable aléatoire T (X) à valeurs réelles,fonction mesurable de la variable observée X, et dont le comportement est différent selon que H0

ou H1 est vraie. Puis on choisit un ensemble mesurable R de valeurs de la statistique de test plusattendues sous H1 que sous H0. La règle qui consiste à rejeter H0/décider H1 lorsque T (X) ∈ R,et à décider H0 sinon, correspond au test de région de rejet

R = x ∈ X/T (x) ∈ R. (2.1)

Par exemple, si T (X) a tendance à prendre de petites valeurs sous H0 et de grandes valeurs sousH1, on obtiendra une région de rejet de la forme

Rc = x ∈ X/T (x) > c,

où c est un réel qu’il reste à déterminer.

Remarque 2.1. Par abus de langage, on désigne aussi par région de rejet l’événement T (X) ∈R ⊂ Ω ou encore le sous-ensemble R de R.

Dans la suite, nous ne considérerons que des tests dont la zone de rejet est de la forme (2.1).

2.3 Erreurs associées aux hypothèses de test

Que l’on décide H0 ou H1, il y a toujours un risque de se tromper, c’est-à-dire que la déci-sion ne corresponde pas à la réalité. À chacune des deux manières de se tromper, on associe uneprobabilité quantifiant le risque d’erreur.

Page 16: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

16 2.3. Erreurs associées aux hypothèses de test

RéalitéSi H0 est vraie Si H1 est vraie

pour θ = θ0 ∈ Θ0 pour θ = θ1 ∈ Θ1

Décision On conserve H0 avec proba 1− α(θ0)erreur de seconde espèceβ(θ1) = Pθ1(conserver H0)

On rejette H0erreur de première espèceα(θ0) = Pθ0(rejeter H0)

avec proba 1− β(θ1)

Définition 2.2. Etant donné un test de H0 contre H1 de région de rejet R donnée par (2.1), lafonction erreur de première espèce est définie pour θ0 ∈ Θ0 par

α(θ0) = Pθ0(T (X) ∈ R),

et la fonction erreur de seconde espèce est définie pour θ1 ∈ Θ1 par

β(θ1) = Pθ1(T (X) /∈ R).

Les erreurs maximales de première et seconde espèces sont

α? = supθ0∈Θ0

α(θ0) = supθ0∈Θ0

Pθ0(T (X) ∈ R)

etβ? = sup

θ∈Θ1

β(θ1) = supθ∈Θ1

Pθ1(T (X) /∈ R).

L’erreur maximale de première espèce α? est aussi appelée taille du test. Si α? est atteinte enθ = θ? ∈ Θ0, on dit que l’hypothèse θ = θ? est l’hypothèse nulle la moins favorable.

Dans l’idéal, on souhaiterait minimiser simultanément ces deux erreurs, mais cela est en gé-néral impossible. On observe même le plus souvent que ces deux erreurs ont tendance à varier ensens inverse. Nous adopterons ici le point de vue de Neyman et Pearson, qui privilégie le contrôlede l’erreur de première espèce. Aussi, c’est seulement pour cette erreur qu’on se fixe a priori unniveau à ne pas dépasser, niveau qui sera désigné dans la suite par un réel α ∈ [0, 1] (typiquement,α = 10%, 5% ou 1%.)

Définition 2.3. Soit α ∈ [0, 1]. Le test de région de rejet (2.1) est dit— de niveau α s’il est de taille au plus α, i.e. α? ≤ α, et conservateur si α? < α ;— de niveau exactement α s’il est de taille α, i.e. α? = α ;— de niveau asymptotique α si α?n −−−→n→∞

α.

Remarque 2.2. Pour obtenir un niveau α = 1, il suffit de toujours rejeter H0 (R1 = X ) ; pourobtenir un niveau α = 0, il suffit de ne jamais rejeter H0 (R0 = ∅). Typiquement, plus le niveauα choisi est faible et moins on rejette H0. Dans le même ordre d’idées, si un test est de tailleα? < α, il aura tendance à moins rejeterH0 qu’un test de niveau exactement α, d’où le qualificatifde « conservateur ».

Page 17: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 17

Une fois ce niveau α fixé, il faut déterminer une zone de rejet de niveau α, et si possible exacte-ment α. Pour cela, il faut pouvoir évaluer facilement la taille du test, et il est donc souhaitable quela loi de la statistique de test T (X) sous H0 soit parfaitement connue. (Sinon, on peut envisagerde recourir au bootstrap.)

Exemple 2.1. Reprenons l’exemple du cas (fréquent) où T (X) prend de plus grandes valeurs sousH1 que sous H0, d’où une zone de rejet de niveau α de la forme

Rα = x ∈ X/T (x) > cα.

Supposons de plus que l’hypothèse H0 est simple : H0 : θ = θ0, et notons Fθ0 la fonction derépartition de T (X) lorsque X ∼ Pθ0 . Alors la taille du test est

α? = 1− Fθ0(cα).

Le test est de niveau α si et seulement si le seuil cα vérifie

Fθ0(cα) ≥ 1− α.

Afin que la taille du test soit la plus proche possible du niveau fixé, on choisit cα le plus petitpossible, c’est-à-dire cα quantile d’ordre 1− α de Fθ0 (cf. Chapitre 2, paragraphe 2.2.2) :

cα = infc ∈ R/Fθ0(c) ≥ 1− α = F−1θ0

(1− α). (2.2)

On constate bien ici que plus α est faible, plus cα est grand, et moins on rejette H0. D’autre part,si la fonction de répartition Fθ0 est continue, on obtient avec (2.2) un test de niveau exactement α.En revanche, si Fθ0 est une loi discrète, il est possible qu’on ne puisse pas atteindre exactement leniveau α.

En privilégiant ainsi l’hypothèse H0, on introduit une dissymétrie entre H0 et H1 dont on doittenir compte en choisissant les hypothèses de test. En effet, si on dispose d’un test de niveau α deH0 contre H1, alors :

— ou bien on rejette H0, et dans le pire des cas, la probabilité de se tromper en rejetant H0

est α? ≤ α;— ou bien on conserve H0, et dans le pire des cas, la probabilité de se tromper en conservant

H0 est β?.Ainsi, lorsqu’on conserve H0 au niveau α, on ne sait rien de la probabilité de se tromper. Pourcela, il faudrait aussi évaluer l’erreur de seconde espèce. Lorsqu’on conserve H0, on ne peut doncpas vraiment considérer que l’on « accepte » H0, mais juste qu’à défaut de preuves suffisantes, onne peut rejeterH0 au profit deH1. Aussi, il vaut mieux choisir pour l’hypothèseH0 une hypothèsedont on est relativement sûr, admise depuis longtemps, ou qui relève d’un principe de précaution.En revanche, lorsqu’on rejetteH0 au profit deH1 à un niveau donné, le risque d’erreur est contrôlé,et on peut effectivement dire dans ce cas que l’on accepte H1. Rejeter H0/accepter H1 représentedonc un progrès dans la connaissance des données : le test est dit significatif ou positif en casde rejet de H0. Selon que la décision correspond ou non à la réalité, on parle de vrai positif, vrainégatif, faux positif ou faux négatif.

Page 18: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

18 2.4. Degré de significativité ou p-valeur

RéalitéH0 est vraie H1 est vraie

Décision On conserve H0 vrai négatif faux négatifOn rejette H0 faux positif vrai positif

2.4 Degré de significativité ou p-valeur

Supposons avoir construit, pour tout α ∈ ]0, 1[, un test de niveau α de H0 contre H1 basé surla statistique de test T (X) et de région de rejet

Rα = x ∈ X/T (x) ∈ Rα. (2.3)

Définition 2.4. On appelle degré de significativité, p-valeur ou seuil critique de la famille detests de régions de rejet (2.3) la fonction définie sur X par

p(x) = infα ∈ ]0, 1[/T (x) ∈ Rα.

Ainsi, p(x) est le plus petit seuil à partir duquel on rejetteH0 lorsqu’on observe la réalisation x deX. Si p(x) est proche de 0, on rejettera H0 à tous les niveaux habituels, autrement dit le test serasignificatif à tous les niveaux habituels, d’où le terme « degré de significativité ». On interprèteparfois le degré de significativité comme un indicateur de la confiance qu’on peut avoir en H0 auvu de l’observation dont on dispose. Si p(x) est proche de 0, cela a en effet toujours un sens. Enrevanche, si p(x) est proche de 1, on ne rejettera H0 à aucun des niveaux usuels, et comme on l’adéjà évoqué, il faudrait alors évaluer l’erreur maximale de seconde espèce : si celle-ci est faible,on ne peut avoir confiance en H0 !

Remarque 2.3. De l’utilité de la p-valeur et de la région de rejet. La p-valeur est une statistique : àchaque expérience, à chaque réalisation de X correspond une nouvelle p-valeur. Cependant, pourune réalisation x donnée, la p-valeur permet de conclure pour n’importe quel niveau. La régionde rejet dépend du niveau fixé a priori : dès que le niveau change, la région de rejet change aussi.Mais elle ne dépend pas des observations et peut donc être déterminée avant même qu’on disposedes données de l’expérience.

Il est important de ne pas confondre la p-valeur avec la probabilité que H0 soit vraie. Lap-valeur peut certes s’interpréter comme une probabilité dans certains cas, mais il s’agit de laprobabilité que la statistique de test prenne sous H0 des valeurs au moins aussi grandes que celleobservée.

Proposition 2.1. Pour le test de

H0 : θ = θ0 contre H1 : θ > θ0,

on suppose que T (X) est une statistique de test qui a tendance à prendre sous H1 de plus grandesvaleurs que sous H0. On suppose que la fonction de répartition Fθ0 de T (X) sous H0 est :

(i) soit continue sur R, nulle sur ]−∞, a[, et strictement croissante sur [a,+∞[,

Page 19: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 19

(ii) soit la fonction de répartition d’une loi à support dans Z.

Pour α ∈ ]0, 1[, on considère le test de niveau α de région de rejet

Rα = x ∈ X/T (x) > F−1θ0

(1− α). (2.4)

Si l’on observe X = x, alors

p(x) = Pθ0 (T (X) ≥ T (x)) . (2.5)

Remarque 2.4. On aura noté l’inégalité stricte dans la définition de la région de rejet (2.4), etl’inégalité large dans celle de la p-valeur (2.5). Ce n’est pas une coquille (cf. preuve de la Propo-sition 2.1) !

PREUVE : (i) Cas où Fθ0 est continue sur R et strictement croissante sur son support. Soit J =Fθ0([a,+∞[), Fθ0 : [a,+∞[→ J est inversible au sens usuel donc

p(x) = infα ∈ ]0, 1[/T (x) > F−1θ0

(1− α)= infα ∈ ]0, 1[/Fθ0(T (x)) > 1− α= 1− Fθ0(T (x))

= Pθ0 (T (X) > T (x))

= Pθ0 (T (X) ≥ T (x))

où la dernière égalité résulte de la continuité de Fθ0 .(ii) Cas où Fθ0 est la fonction de répartition d’une loi à support dans Z. Comme Fθ0 est

constante par morceaux, elle n’est plus inversible au sens usuel et on peut notamment avoir t0 >F−1θ0

(p0) sans que Fθ0(t0) > p0, dès que p0 ∈ Fθ0(R) (faites un dessin !). Cependant, on disposeau moins de la propriété d’inversibilité suivante.

Lemme 2.1. Soient t0 ∈ R et p0 ∈]0, 1[, t0 ≥ F−1θ0

(p0)⇐⇒ Fθ0(t0) ≥ p0.

PREUVE DU LEMME : Si Fθ0(t0) ≥ p0, alors t0 ∈ t ∈ R/Fθ0(t) ≥ p0, d’où t0 ≥ F−1θ0

(p0).

Réciproquement, si t0 ≥ F−1θ0

(p0), alors Fθ0(t0) ≥ Fθ0

(F−1θ0

(p0))

car Fθ0 est croissante. Enfin,en examinant les cas p0 ∈ Fθ0(R) et p0 6∈ Fθ0(R) (faites un dessin !), on observe qu’on a toujoursFθ0

(F−1θ0

(p0))≥ p0.

Comme T (X) est à valeurs dans Z sous Pθ0 , et grâce au lemme précédent, on obtient

p(x) = infα ∈ ]0, 1[/T (x)− 1 ≥ F−1θ0

(1− α)= infα ∈ ]0, 1[/Fθ0(T (x)− 1) ≥ 1− α= 1− Fθ0(T (x)− 1)

= Pθ0 (T (X) > T (x)− 1)

= Pθ0 (T (X) ≥ T (x)) .

Remarque 2.5. La Proposition 2.1 reste valable pour le test de H0 : θ ≤ θ0 contre H1 : θ > θ0 siθ = θ0 est l’hypothèse nulle la moins favorable.

Page 20: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

20 2.5. Critères de performance d’un test

2.5 Critères de performance d’un test

Pour évaluer les performances d’un test, on étudie sa capacité à rejeter H0, d’où la notion depuissance.

Définition 2.5. On appelle fonction puissance du test de région de rejet (2.1) la fonction π définiesur Θ par

π(θ) = Pθ(T (X) ∈ R).

On appelle puissance du test la restriction de π à Θ1.

On notera que connaître la fonction puissance π permet de calculer les erreurs de première etseconde espèce : α est la restriction de π à Θ0, β, la restriction de 1− π à Θ1, et

α? = supθ∈Θ0

π(θ)

β? = supθ∈Θ1

(1− π(θ)), i.e. 1− β? = infθ∈Θ1

π(θ).

Un test « raisonnable » devrait au moins être capable, lorsque H1 est vraie, de rejeter H0 avecune probabilité proche de 1 dès qu’on dispose de suffisamment de données, d’où la notion deconsistance.

Définition 2.6. Un test est dit consistant si sa fonction puissance πn vérifie, pour tout θ ∈ Θ1,

πn(θ) −−−→n→∞

1.

On peut aussi considérer qu’un test devrait être plus enclin à rejeter H0 lorsque H1 est vraie quelorsque H0 est vraie, d’où la notion de biais.

Définition 2.7. Un test est dit sans biais si pour tous θ0 ∈ Θ0 et θ1 ∈ Θ1, α(θ0) ≤ 1−β(θ1), i.e.

α? ≤ 1− β?.

Pour comparer les performances de deux tests de même niveau, on peut comparer leurs erreursde seconde espèce, i.e. leurs fonctions puissances sous H1, i.e. leurs puissances.

Définition 2.8. Soient ϕ1 et ϕ2 deux tests de même niveau et de puissances respectives π1 et π2.Le test ϕ1 est plus puissant que le test ϕ2 si, pour tout θ ∈ Θ1,

π1(θ) ≥ π2(θ)(

i.e. β1(θ) ≤ β

2(θ)).

Deux tests de même niveau ne sont pas toujours comparables au sens précédent : l’un peut être pluspuissant uniquement pour certaines valeurs dans Θ1.Un test est optimal au sens de la définition 2.8lorsqu’il vérifie la définition 2.9.

Définition 2.9. Soit ϕ? un test de niveau α, on dit que ϕ? est uniformément plus puissant deniveau α (UPP(α)) lorsque ϕ? est plus puissant que tout autre test de niveau α.

Page 21: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 21

Cependant, il n’existe pas toujours de test UPP. Un autre critère de comparaison est basé surl’effacité relative.

Définition 2.10. Soient ϕ(1) et ϕ(2) deux tests de même niveau de H0 contre H1. On appelleefficacité relative de ϕ(2) par rapport à ϕ(1) pour l’alternative θ = θ1 le rapport n1/n2, où n1

et n2 sont les tailles d’échantillons nécessaires pour que ϕ(1)n1 et ϕ(2)

n2 aient la même puissance, aumême niveau, contre l’alternative θ = θ1.

Par exemple, si n1/n2 = 2, alors ϕ(2) est deux fois plus efficace que ϕ(1) pour l’alternativeconsidérée puisqu’il atteint le même niveau et la même puissance que ϕ(1) avec deux fois moinsde données.

2.6 Méthodes générales de construction de tests

2.6.1 À partir d’un estimateur ou d’une statistique pivotale

Si l’on dispose d’un estimateur θ(X) de θ, un test naturel consiste à rejeter H0 lorsque θ(X)a tendance à prendre des valeurs proches de Θ1. Éventuellement, on transforme θ(X) de manièreà obtenir une statistique de test dont la loi sous H0 est la plus simple possible. Pour ce faire, ontransforme d’abord θ(X) en une statistique pivotale S(X). Puis, on obtient une statistique de testT (X) en remplaçant le paramètre inconnu θ dans l’expression de S(X) par l’hypothèse nulle θ0

apparemment la moins favorable.

Exemple 2.2. Soit θ0 ∈ R connu, on observe X = (X1, . . . , Xn) i.i.d. N (θ, 1), θ ∈ R inconnu,et on souhaite tester H0 : θ ≤ θ0 contre H1 : θ > θ0. Une statistique pivotale pour θ est

S(X) =√n(Xn − θ)

qui suit la loi N (0, 1) sous Pθ, et cela quel que soit θ ∈ R. A priori, l’hypothèse nulle la moinsfavorable est θ = θ0, d’où la statistique de test

T (X) =√n(Xn − θ0)

qui suit la loi N (0, 1) sous Pθ0 . La région de rejet de niveau α est donc de la forme

Rα = x ∈ Rn/T (x) > cα.

La fonction puissance est définie pour θ ∈ R par

π(θ) = Pθ(T (X) > cα)

= Pθ(√n(Xn − θ) +

√n(θ − θ0) > cα)

= Pθ(S(X) > cα −√n(θ − θ0))

= 1− Φ(cα −√n(θ − θ0)),

donc π est une fonction croissante de θ. Aussi,

α? = supθ≤θ0

π(θ) = π(θ0) = 1− Φ(cα)

Page 22: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

22 2.6. Méthodes générales de construction de tests

ce qui montre que θ0 est effectivement l’hypothèse nulle la moins favorable et que la région derejet de niveau exactement α est

Rα = x ∈ Rn/T (x) > Φ−1(1− α).

Remarque 2.6. On gardera bien à l’esprit la différence entre une statistique pivotale (son expres-sion dépend du paramètre inconnu θ,mais sa loi sous Pθ est parfaitement connue) et une statistiquede test (son expression ne dépend pas du paramètre inconnu θ, et sa loi sous Pθ0 est parfaitementconnue, où θ0 est l’hypothèse nulle apparemment la moins favorable).

2.6.2 À partir d’un intervalle de confiance

Proposition 2.2. Supposons θ ∈ Θ ⊂ R. Soient θ0 ∈ R donné, θ : X → Θ un estimateur de θ, etα ∈ [0, 1].

(i) Soit ICbi1−α(X) = [a(θ(X)), b(θ(X))] un intervalle de confiance de niveau au moins (resp.exactement, asymptotiquement) 1− α, où a : Θ→ a(Θ) et b : Θ→ b(Θ) sont inversibles,on définit un test de niveau au plus (resp. exactement, asymptotiquement) α de

H0 : θ = θ0 contre H1 : θ 6= θ0

en rejetant H0 lorsque θ0 /∈ ICbi1−α(X). Sa région de rejet est

Rα = x ∈ X/θ(x) > a−1(θ0) ou θ(x) < b−1(θ0).

(ii) Soit ICunig1−α (X) = [g(θ(X)),+∞[ un intervalle de confiance de niveau au moins (resp.exactement, asymptotiquement) 1− α, où g : Θ→ g(Θ) est inversible, on définit un test deniveau au plus (resp. exactement, asymptotiquement) α de

H0 : θ = θ0 contre H1 : θ > θ0

en rejetant H0 lorsque θ0 /∈ ICunig1−α (X). Sa région de rejet est

Rα = x ∈ X/θ(x) > g−1(θ0).

(iii) Soit ICunid1−α (X) =] − ∞, d(θ(X))] un intervalle de confiance de niveau au moins (resp.exactement, asymptotiquement) 1− α, où d : Θ→ d(Θ) est inversible, on définit un test deniveau au plus (resp. exactement, asymptotiquement) α de

H0 : θ = θ0 contre H1 : θ < θ0

en rejetant H0 lorsque θ0 /∈ ICunid1−α (X). Sa région de rejet est

Rα = x ∈ X/θ(x) < d−1(θ0).

PREUVE : Étudions par exemple le cas (ii) avec un intervalle de confiance de niveau de confianceau moins 1− α. La taille du test défini parRα est

α? = Pθ0(θ(X) > g−1(θ0))

= Pθ0(g(θ(X)) > θ0)

= 1− Pθ0(θ0 ∈ [g(θ(X)),+∞[

)≤ α.

Page 23: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 23

Exemple 2.3. Soit X = (X1, . . . , Xn) échantillon i.i.d de la loi N (θ, 1), on veut tester H0 : θ =θ0 contre H1 : θ 6= θ0. Un intervalle de confiance de niveau de confiance exactement 95% pour leparamètre θ est

IC95%(X) =[Xn − Φ−1(0, 975)/

√n; Xn + Φ−1(0, 975)/

√n].

Dire que θ0 /∈ IC1−α(X) équivaut à dire que |√n(Xn − θ0)| > Φ−1(0, 975). Donc le test de H0

contre H1 de région de rejet

R = x ∈ Rn/|√n(xn − θ0)| > Φ−1(0, 975)

est de niveau exactement 5%.

2.6.3 À partir du rapport des vraisemblances

Cas de deux hypotèses simples. Supposons que X est à valeurs dans Nn et qu’on veut tester,au vu de la réalisation x,

H0 : θ = θ0 contre H1 : θ = θ1, (2.6)

où θ0 6= θ1. Pour départager H0 et H1, une idée naturelle consiste à comparer les probabilitésd’observer la valeur x sous H0 et sous H1. On introduit donc la statistique de test

λ(x) =Pθ1(X = x)

Pθ0(X = x)

et la région de rejetRc = x ∈ Nn/λ(x) > c, (2.7)

où le seuil c est à calibrer en fonction du niveau visé.

Exemple 2.4. Soient θ0 < θ1 deux réels connus dans [0, 1]. On observe X1, . . . , Xn i.i.d. de loiB(θ) et on souhaite testerH0 : θ = θ0 contreH1 : θ = θ1 au niveau α. En notant πi = θi/(1−θi),on obtient pour x ∈ Nn,

log λ(x) = nxn logπ1

π0+ n log

1− θ1

1− θ0.

Comme π0 < π1, on en déduit une région de rejet de la forme

Rα = x ∈ Nn/nxn > cα,n.

La taille du test est

α? = Pθ=θ0(nXn > cα,n) = P(B(n, θ0) > cα,n).

Afin que le test soit de taille au plus α et la proche possible de α, on choisit cα,n quantile d’ordre1− α de B(n, θ0).

Page 24: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

24 2.6. Méthodes générales de construction de tests

De manière générale, pour le test de deux hypothèse simples (2.6), on introduira comme sta-tistique de test le rapport des vraisemblances

λ(x) =L(x, θ1)

L(x, θ0)(2.8)

et la région de rejet (2.7). La popularité de ce test vient de son optimalité, que nous admettrons.

Théorème 2.1. Lemme de Neyman et Pearson (admis). Soit α ∈]0, 1[. Pour le test de deuxhypothèse simples (2.6), s’il existe un seuil c tel que la région de rejet (2.7) soit exactement deniveau α, alors le test du rapport des vraisemblances est UPP(α).

Cas général. On souhaite maintenant tester

H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1,

où Θ0 et Θ1 peuvent être composées. La statistique λ définie en (2.8) se généralise en

λ(x) =supθ1∈Θ1

L(x, θ1)

supθ0∈Θ0L(x, θ0)

,

et on obtient toujours une région de rejet de la forme (2.7). On remplace généralement λ par

λ(x) =supθ∈Θ L(x, θ)

supθ0∈Θ0L(x, θ0)

, (2.9)

car la loi de λ(X) sous H0 est difficile à étudier, même asymptotiquement, alors que lorsqueθ ∈ Rd, on peut montrer que, sous certaines hypothèses de régularité,

2 log λ(X)L−−−→

n→∞χ2(d) sous H0.

Cependantλ(x) = maxλ(x), 1

de sorte que dès que c ≥ 1, λ(x) > c est équivalent à λ(x) > c.

Définition 2.11. On appelle test du rapport des vraisemblances généralisé (RVG) tout test dontla zone de rejet est de la forme

Rc = x ∈ X n/λ(x) > c,

où c ∈ R.

La popularité du test RVG vient également du fait que, sous certaines conditions, ce test est sansbiais et a une puissance optimale. Ces propriétés dépassent le cadre de ce cours, mais sont étudiéesdans en cours de Statistique mathématique.

Page 25: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 25

Exemple 2.5. On observe X1, . . . , Xn i.i.d. de loi N (0, σ2) et on souhaite tester H0 : σ2 = 4contre H1 : σ2 6= 4. Ici, Θ0 = 4,Θ1 = R?+\4, Θ = R?+, et

supσ∈R?

+

L(x, σ2) = L(x, s2n),

où s2n =

∑ni=1X

2i /n. Après calculs, on obtient

log λ(x) = logL(x, s2n)− logL(x, 4) =

n

2g(s2

n/4),

où g(t) = −(log t + 1 − t) est décroissante sur [0, 1] et croissante sur [1,+∞[. La conditionlog λ(x) > c conduit finalement à rejeter H0 lorsque s2

n < d1 ou s2n > d2. Il resterait encore à

préciser les valeurs de d1 et de d2 en fonction du niveau choisi.

2.7 Récapitulatif

Question scientifique (économique, biologique,. . .) pour laquelle on dispose de données x ∈X n.

1. Formuler en français une hypothèse nulle H0 (hypothèse privilégiée, admise depuis long-temps, celle à laquelle on tient le plus) et une hypothèse alternative H1 (hypothèse de re-cherche).

2. Choisir un modèle statistique : les données collectées x sont considérées comme une réa-lisation d’une variable aléatoire X à valeurs dans X n, dont la loi appartient à une familleidentifiable Pθ; θ ∈ Θ. ATTENTION : le modèle doit être aussi vraisemblable que pos-sible compte tenu des données dont on dispose.

3. Traduire mathématiquement les hypothèses du testH0 etH1 en hypothèses sur le paramètreθ.

4. Introduire une statistique de test T (X) de loi connue sousH0, et dont le comportement sousH1 est différent de celui sous H0.

5. Déterminer l’allure de la zone de rejet selon la forme de H1 (par exemple, selon que le testest unilatéral ou bilatéral).

6. Un niveau α ∈]0, 1[ ayant été fixé, déterminer précisément la zone de rejet Rα pour que letest soit de niveau α (si possible exactement).

7. Calculer la réalisation T (x) de la statistique de test correspondant aux données x.Appartient-elle ou non à la zone de rejet ?

7.1 Si T (x) ∈ Rα, alors le test est significatif : on rejette H0, en commettant au pire uneerreur ≤ α.

7.2 Si T (x) /∈ Rα, alors le test n’est pas significatif : on conserve H0, en commettant aupire une erreur β?, à évaluer si possible.

Alternative à 6. et 7. :

Page 26: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

26 2.8. Les grandes familles de tests

6. Calculer la réalisation T (x) de la statistique de test.

7. Calculer la réalisation p(x) de la p-valeur et la comparer au niveau α fixé a priori.

7.1 Si α > p(x), alors le test est significatif : on rejette H0, en commettant au pire uneerreur ≤ α.

7.2 Si α < p(x), alors le test n’est pas significatif : on conserve H0, en commettant aupire une erreur β?, à évaluer si possible.

2.8 Les grandes familles de tests

2.8.1 Selon l’objectif

Pour un échantillon :— Tests de conformité (conformité d’un paramètre à une certaine contrainte)— Tests d’ajustement (adéquation) à une loi donnée ou à une famille de lois donnée (en

anglais goodness-of-fit test)— Tests de symétrie— Tests de monotonie— etc ...Pour deux échantillons ou plus :— Tests d’indépendance, ou d’association, ou de liaison— Tests de comparaison (homogénéité) pour données appariées, i.e. pour plusieurs échan-

tillons observés sur les mêmes individus ou des individus liés (comme des jumeaux, parexemple)

— Tests de comparaison (homogénéité) pour données non appariées, i.e. pour des échantillonsindépendants

— etc ...

2.8.2 Tests paramétriques versus tests non-paramétriques

Pour déterminer la loi d’une statistique de test T (X), au moins sous l’hypothèse H0, on sup-pose parfois que la loi de X appartient à un modèle paramétrique, i.e. une famille de lois donnéequi peut être décrite par un nombre fini de paramètres. On dit alors qu’on effectue un test pa-ramétrique. Cette hypothèse, bien commode d’un point de vue théorique, n’est généralementpas vérifiée dans la pratique. Certains tests paramétriques restent valables même si les conditionsthéoriques d’application du test ne sont pas remplies : ces tests sont dits robustes. Un test va-lable quelle que soit la loi de X sous H0 est dit non-paramétrique (ou distribution free dans lalittérature anglo-saxonne).

2.9 Applications directes du cours

On pourra consulter les références bibliographiques pour d’autres exemples détaillés et desexercices corrigés.

Page 27: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 27

Exercice 2.1. Dans l’exemple 1 (signal émis par un capteur), effectuer le test de H0 : µ = 0contre H1 : µ > 0 au niveau 5%.

Exercice 2.2. Dans l’exemple 2 (précision d’une machine),

1. Effectuer le test de H0 : σ2 ≥ 4 contre H1 : σ2 < 4 au niveau α.

2. Calculer la p-valeur.

3. Rejette-t-on H0 au niveau 5%? au niveau 10%?

En quoi les résultats sont-ils modifiés si on suppose µ connu, µ = 785.

2.10 Exercices et problèmes

Problème 2.1. Soient X1, . . . , X10 i.i.d. de loi de Poisson P(θ), où θ > 0 inconnu. On souhaitetester H0 : θ = 1 contre H1 : θ = 2 au niveau 5%.

1. Rappeler la loi de∑10

i=1Xi.

2. Proposer un test de niveau 5% de H0 contre H1. Quelle est la taille de ce test ?

3. Donner les erreurs de première et de seconde espèces, ainsi que la fonction puissance.

4. Pour chacun des échantillons suivants, le test est-il significatif au niveau 5%?Échantillon 1 : 2 3 3 1 4 0 1 4 0 0Échantillon 2 : 4 2 1 1 0 1 0 2 0 2

5. Calculer les p-valeurs. Que peut-on en déduire?

6. Utilisez R pour obtenir ou vérifier vos résultats numériques (fonctions dpois, ppois ouqpois, pour les probabilités élémentaires, la fonction de répartition ou les quantiles d’uneloi de Poisson).

Problème 2.2. Soient X1, . . . , Xn i.i.d de loi E(1/θ), où θ > 0 est inconnu. Soient α ∈]0, 1[ etθ0 > 0 deux réels donnés. On effectuera les applications numériques au niveau α = 5%, pourθ0 = 2 et l’échantillon x :

2.9 4.2 5.9 1.7 6.8 1.3 1.5 0.2 0.4 3.2.

1. On souhaite tester H0 : θ = θ0 contre H1 : θ > θ0.

1.1 Montrer que (2/θ)∑n

i=1Xi suit la loi du χ2 à 2n degrés de liberté.

1.2 Proposer un estimateur de θ. En déduire un test de niveau α.

1.3 Étudier les erreurs de première et seconde espèces de ce test. Est-il sans biais ?

1.4 Calculer le degré de significativité.

2. On souhaite tester H0 : θ ≤ θ0 contre H1 : θ > θ0.

2.1 Donner la forme d’une région de rejet de niveau α.

2.2 Étudier la fonction puissance du test. En déduire précisément la région de rejet.

Page 28: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

28 2.11. Correction des exercices et problèmes

2.3 Le test est-il sans biais ?

2.4 Déterminer le seuil critique.

NB : Utilisez R pour obtenir ou vérifier vos résultats numériques (fonctions dchisq, pchisq ouqchisq, pour les probabilités élémentaires, la fonction de répartition ou les quantiles d’une loidu chi-deux).

2.11 Correction des exercices et problèmes

Correction problème 2.1. Notations : X = (X1, . . . , X10) vecteur aléatoire, x =(x1, . . . , x10) ∈ R10

1. Rappelons que si X ∼ P(θ1), Y ∼ P(θ2) et X et Y sont indépendantes, alors X + Y ∼P(θ1 + θ2) (il suffit par exemple d’expliciter, pour tout entier k ∈ N, P(X + Y = k)).Comme les (Xi)1≤i≤10 sont i.i.d. de loi P(θ),

∑10i=1Xi suit la loi P(10θ).

2. On souhaite tester H0 : θ = 1 contre H1 : θ = 2 au niveau 5%.

Statistique de test : T (X) =∑10

i=1Xi. En effet, un estimateur naturel de θ (par la méthodedes moments, par exemple) est T (X)/10 et T (X) a une loi parfaitement connue sous H0.

Forme de la région de rejet de niveau α : Comme Eθ[T (X)] = 10θ, T (X) a tendance àprendre des valeurs plus grandes sous H1 que sous H0, d’où Rα = x ∈ R10/T (x) >cα = x ∈ R10/

∑10i=1 xi > cα.

Choix du seuil cα : Ici, H0 : θ = 1 est une hypothèse simple donc la taille du test est

α? = α(1)

= Pθ=1 (T (X) > cα)

= 1− FP(10)(cα).

On choisit cα de sorte que α? ≤ α et α? aussi proche que possible du niveau α visé, d’où

cα = inft ∈ R/FP(10)(t) ≥ 1− α = F−1P(10)(1− α).

Applications numériques : FP(10)(14) ≈ 0, 917 et FP(10)(15) ≈ 0, 951, d’où c5% = 15 etR5% = x ∈ R10/

∑10i=1 xi > 15.

Taille du test : α? = P(P(10) > 15) ≈ 4, 9%

3. Comme H0 : θ = 1 est une hypothèse simple, l’erreur de première espèce est

α(1) = α?.

Comme H1 : θ = 2 est une hypothèse simple, l’erreur de seconde espèce est

β(2) = Pθ=2(conserver H0) = P(P(20) ≤ 15) ≈ 0, 843.

La fonction puissance est définie pour θ ∈ 1, 2 par π(θ) = Pθ(rejeter H0), d’où π(1) =α(1) ≈ 4, 9% et π(2) = 1 − β(2) ≈ 15, 7%. On notera que π(1) ≤ π(2), autrement dit lacapacité du test à rejeter H0 est meilleure sous H1 que sous H0 : le test est sans biais.

Page 29: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 29

4. Pour l’échantillon 1,∑10

i=1 xi = 18 > 15, donc on rejette H0 au niveau 5% : le test estsignificatif au niveau 5%. Ou bien H0 est effectivement fausse, ou bien H0 est vraie et onse trompe alors avec probabilité α? ≈ 4, 9%.

Pour l’échantillon 2,∑10

i=1 xi = 13 ≤ 15, donc on conserve H0 au niveau 5% : le test n’estpas significatif au niveau 5%. Ou bien H0 est effectivement vraie, ou bien H0 est fausse eton se trompe alors avec probabilité β(2) ≈ 84, 3%.

5. Lorsqu’on observe la réalisation x ∈ R10 du vecteur aléatoire X, la p-valeur associée estpar définition

p(x) = inf

α ∈]0, 1[/

10∑i=1

xi > F−1P(10)(1− α)

.

Ici, FP(10) n’est pas inversible au sens usuel puisqu’il s’agit d’une loi discrète. Cependant,pour tout α ∈]0, 1[, la zone de rejet de niveau α est Rα = x ∈ R10/

∑10i=1 xi > cα avec

cα = F−1P(10)(1 − α). C’est aussi la zone de rejet du test de niveau α et de taille la plus

proche de α de H0 : θ = 1 contre l’hypothèse unilatère H1 : θ > 1. D’après la propriété ducours, on a donc

p(x) = Pθ=1

(10∑i=1

Xi ≥10∑i=1

xi

)

= P

(P(10) ≥

10∑i=1

xi

)

Pour l’échantillon 1, p(x) = 1 − FP(10)(17) ≈ 0, 0143 donc, au vu des données,on rejetterait aussi H0 à tout niveau d’au moins 1, 43%. Pour l’échantillon 2, p(x) =1 − FP(10)(12) ≈ 0, 2084 donc, au vu des données, on ne rejetterait H0 qu’à partir des ni-veaux de l’ordre de 21% : le test n’est significatif à aucun des niveaux usuels (1%, 5%, 10%).

Correction problème 2.2. Soient X1, . . . , Xn i.i.d de loi E(1/θ), où θ > 0 est inconnu. Soientα ∈]0, 1[ et θ0 > 0 deux réels donnés. On effectuera les applications numériques au niveauα = 5%, pour θ0 = 2 et l’échantillon x :

2.9 4.2 5.9 1.7 6.8 1.3 1.5 0.2 0.4 3.2.

1. Test de H0 : θ = θ0 contre H1 : θ > θ0.1.1 Pour i ∈ 1, . . . , n, la variable aléatoire 2Xi/θ est à valeurs dans R+ et pour tout

t ≥ 0, comme Xi ∼ E(1/θ),

Pθ (2Xi/θ ≤ t) = Pθ (Xi ≤ tθ/2) = 1− e−t/2,

i.e. 2Xi/θ ∼ E(1/2). D’après l’exercice 1 de la feuille de TD 1,

E(1/2) = Γ(1, 1/2) = χ2(2),

et comme les (Xi)1≤i≤n sont i.i.d., on conclut que (2/θ)∑n

i=1Xi suit la loiΓ(2n/2, 1/2), qui n’est autre que la loi χ2(2n).

Page 30: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

30 2.11. Correction des exercices et problèmes

1.2 Comme Eθ[Xi] = θ, l’estimateur par la méthode des moments est θ = Xn. D’après1.1, quel que soit θ, 2nθ/θ ∼ χ2(2n) sous Pθ. Aussi, T = 2nθ/θ est une statistiquepivotale.Construction du test via une statistique de test. La statistique pivotale sous l’hypothèsenulle la moins favorable (ici forcément θ = θ0) conduit à la statistique de test T0 =2nθ/θ0, de loi χ2(2n) sous H0. Au vu de H1, la région de rejet de niveau α est de laforme Rα = 2nθ/θ0 > cα,n où cα,n est choisi de sorte que Pθ=θ0 (T0 > cα,n) ≤ α,i.e. P

(χ2(2n) ≤ cα,n

)≥ 1 − α. Ici, on peut même choisir cα,n de sorte que la taille

du test soit exactement α : Rα = 2nθ/θ0 > F−1χ2(2n)

(1− α).Construction du test via un intervalle de confiance. Comme H1 ⇔ θ ∈]θ0,+∞[,on construit d’abord un intervalle de confiance pour θ de niveau 1 − α de la forme]b,+∞[. Après calculs, on obtient b = 2nθ/F−1

χ2(2n)(1 − α). La règle de décision

consiste à rejeter H0 : θ = θ0 lorsque θ0 /∈]b,+∞[, et l’on trouve ainsi la mêmerégion de rejet Rα.

1.3 Comme H0 est simple, l’erreur de première espèce est

α(θ0) = α? = α.

En revanche, H1 est composée, donc l’erreur de seconde espèce est définie pour toutθ > θ0, et donnée par

β(θ) = Pθ(T0 ≤ cα,n)

= Pθ(2nθ/θ ≤ cα,nθ0/θ)

= Fχ2(2n) (cα,nθ0/θ)

qui est une fonction décroissante de θ (plutôt rassurant, non?)Enfin, pour tout θ > θ0,

π(θ) = 1− β(θ) = 1− Fχ2(2n) (cα,nθ0/θ) > 1− Fχ2(2n) (cα,n) = α = π(θ0),

donc le test est sans biais.

1.4 Comme H0 est simple et H1 unilatère, d’après la propriété du cours, le degré de signi-ficativité, ou p−valeur, au vu des données x est

p(x) = Pθ=θ0(T0(X) ≥ T0(x))

= P(χ2(2n) ≥ 2n∑i=1

xi/θ0).

2. Test de H0 : θ ≤ θ0 contre H1 : θ > θ0.

2.1 La région de rejet de niveau α est de la forme R′α = 2nθ/θ0 > dα,n.

Page 31: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 2. GÉNÉRALITÉS SUR LES TESTS 31

2.2 La fonction puissance π2 du test est définie pour tout θ > 0 par

π2(θ) = Pθ(

2nθ/θ0 > dα

)= 1− Fχ2(2n) (dα,nθ0/θ) .

C’est une fonction croissante de θ, donc la taille du test est

α? = supθ≤θ0

π2(θ) = π2(θ0) = 1− Fχ2(2n)(dα,n).

Aussi, on retrouve pour R′α la région de rejet Rα.

2.3 Le test est encore sans biais car

α? = supθ≤θ0

π2(θ) = π2(θ0) ≤ infθ>θ0

π2(θ).

2.4 Le test est le même que celui construit en 1., donc le seuil critique (ou degré de signi-ficativité, ou p−valeur) est le même qu’en 1.4.

Applications numériques : Pour θ0 = 2, n = 10, α = 5% et l’échantillon x de l’énoncé, onobtient :

R5% = 1∑i=1

0 > 31, 41, T0(x) = 28, 1, p(x) = P(χ2(20) ≥ 28, 1) ≈ 0, 107.

Ici, on conserve doncH0 au niveau 5%, ou même 10%, et on rejetteraitH0 à tout niveau supérieurà 11%.

Page 32: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

32 2.11. Correction des exercices et problèmes

Page 33: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 3

TESTS PARAMÉTRIQUES USUELS

Sommaire3.1 Tests pour échantillons i.i.d. gaussiens . . . . . . . . . . . . . . . . . . . . . 34

3.1.1 Test de conformité de la moyenne à variance connue (z-test) . . . . . . 343.1.2 Test de conformité de la moyenne à variance inconnue (t-test de confor-

mité) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.1.3 Test de comparaison de deux moyennes à variances inconnues . . . . . 413.1.4 Test de conformité de la variance . . . . . . . . . . . . . . . . . . . . 443.1.5 Test de comparaison de deux variances (F -test ou test de Fisher) . . . . 463.1.6 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2 Tests dans le modèle de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 463.2.1 Test de conformité d’une proportion : version exacte . . . . . . . . . . 463.2.2 Test de conformité d’une proportion : version asymptotique . . . . . . 473.2.3 Test exact de Fisher pour la comparaison de deux proportions . . . . . 493.2.4 Test asymptotique de comparaison de deux proportions . . . . . . . . . 50

3.3 Commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.4 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . 533.5 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.6 Correction du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.7 Tests paramétriques : récapitulatif . . . . . . . . . . . . . . . . . . . . . . . 58

Références : Biau et al. (2010); Daudin et al. (1999); Lejeune (2010); Prum (2010); Rivoirardet Stoltz (2009)

Effectuer un test dit paramétrique consiste à se placer, avant même de définir les hypothèsesde test, dans un certain modèle statistique paramétrique. Cela permet en général d’étudier facile-ment toutes les caractéristiques du test, et notamment les deux types d’erreurs. Dans ce chapitre,nous étudierons en détail quelques tests classiques pour des échantillons gaussiens et pour deséchantillons de Bernoulli, parangons des tests paramétriques.

Dans toute la suite, on désigne par Φ la fonction de répartition de la loi N (0, 1), par Φ−1 safonction de quantile, et on fixe un niveau α ∈ ]0, 1[.

33

Page 34: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

34 3.1. Tests pour échantillons i.i.d. gaussiens

3.1 Tests pour échantillons i.i.d. gaussiens

3.1.1 Test de conformité de la moyenne à variance connue (z-test)

Soit X = (X1, . . . , Xn) un échantillon i.i.d. de la loi normaleN (µ, σ2), où µ ∈ R est inconnuet σ > 0 est supposé connu.

3.1.1.a. Étude détaillée d’un test unilatère

Soit µ0 un réel donné, on souhaite tester

H0 : µ ≤ µ0 contre H1 : µ > µ0.

En partant soit de l’estimateur naturel Xn de la moyenne µ, soit du rapport des vraisemblancesgénéralisé, on obtient comme statistique de test

T (X) =√n(Xn − µ0)/σ. (3.1)

La forme de l’hypothèse H1 (ou le test du rapport des vraisemblances généralisé) conduit à unerégion de rejet de la forme

Rα = x ∈ Rn/T (x) > cα , (3.2)

où le réel cα est à calibrer pour obtenir le niveau α. La fonction puissance du test est donnée, pourµ ∈ R, par

πα(µ) = Pµ (T (X) > cα)

= Pµ(√n(Xn − µ)/σ >

√n(µ0 − µ)/σ + cα

)= 1− Φ

(√n(µ0 − µ)/σ + cα

).

On observe que πα est une fonction croissante de µ : sous Pµ, plus µ est grand devant µ0, et plusle test est susceptible de rejeter H0. D’autre part, la taille du test est

α? = supµ≤µ0

πα(µ) = πα(µ0) = 1− Φ (cα) ,

donc en choisissantcα = Φ−1(1− α),

on obtient un test de niveau exactement α.

Remarque 3.1. Pour le test de H0 contre H1, l’hypothèse µ = µ0 est l’hypothèse nulle la moinsfavorable. La région de rejet (3.2) est donc aussi une région de rejet pour un test de niveau exacte-ment α de µ = µ0 contre µ > µ0.

L’erreur de seconde espèce est donnée, pour µ > µ0, par

β(n, α;µ) = Φ(√n(µ0 − µ)/σ + Φ−1(1− α)

).

Comme on doit s’y attendre pour tout test « raisonnable » :

Page 35: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 35

— à n et α fixés, β(n, α;µ) est une fonction décroissante de µ : sous Pµ, plus µ est granddevant µ0, et moins le test est susceptible de conserver H0;

— à n et µ > µ0 fixés, β(n, α;µ) est une fonction décroissante de α : on peut améliorerl’erreur de seconde espèce en augmentant le niveau du test ;

— à α et µ > µ0 fixés, β(n, α;µ) est une fonction décroissante de n : on peut améliorerl’erreur de seconde espèce en augmentant la taille de l’échantillon.

Lorsque µ > µ0, on a

limn→+∞

πα(µ) = limx→−∞

(1− Φ(x)) = 1,

donc le test est consistant. Par ailleurs,

infµ>µ0

πα(µ) = πα(µ0),

donc le test est sans biais.Enfin, la p-valeur associée à la réalisation x est

p(x) = Pµ0(T (X) > T (x)) = 1− Φ(√n(xn − µ0)/σ

).

En effet, comme notre test deH0 : µ ≤ µ0 contreH1 est équivalent au test de µ = µ0 contreH1 etque la loi de T (X) sous µ = µ0 est à densité strictement positive, on peut par exemple appliquerici la Proposition 2.1 du Chapitre 2.

3.1.1.b. Les différents tests et leurs propriétés

Dans le tableau 3.1 sont récapitulées les caractéristiques des principaux tests sur la moyenneà variance connue. Dans tous les cas, la statistique de test est (3.1) et on peut vérifier que le testest consistant et sans biais. La fonction puissance est exprimée comme une fonction de la tailled’effet

δ =µ− µ0

σ. (3.3)

Remarque 3.2. On rappelle que par symétrie de la loi N (0, 1), pour tout réel t,

Φ(−t) = 1− Φ(t),

P(|N (0, 1)| > t) = 2(1− Φ(t)),

et pour tout p ∈]0, 1[,Φ−1(1− p) = −Φ−1(p),

propriétés qu’il faut savoir retrouver rapidement, à partir de la courbe de la densité de la loiN (0, 1)par exemple.

Remarque 3.3. La fonction t ∈ R 7→ Φ (t−√nδ) est la fonction de répartition de la loi

N (√nδ, 1). Aussi, la fonction puissance du test unilatère droit est par exemple

πα(δ) = 1− FN (√nδ,1)

(Φ−1(1− α)

).

Page 36: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

36 3.1. Tests pour échantillons i.i.d. gaussiens

Test unilatère droitHypothèses de test H0 : µ ≤ µ0 (ou µ = µ0) contre H1 : µ > µ0

Zone de rejet de niveau exactement α Rα =x ∈ Rn/T (x) > Φ−1(1− α)

Fonction puissance

πα(δ) = 1− Φ(Φ−1(1− α)−

√nδ)

= Φ(Φ−1(α) +

√nδ)

Degré de significativité p(x) = Pµ0(T (X) ≥ T (x)) = 1− Φ (T (x))

Test unilatère gaucheHypothèses de test H0 : µ ≥ µ0 (ou µ = µ0) contre H1 : µ < µ0

Zone de rejet de niveau exactement α Rα =x ∈ Rn/T (x) < Φ−1(α)

Fonction puissance πα(δ) = Φ

(Φ−1(α)−

√nδ)

Degré de significativité p(x) = Pµ0(T (X) ≤ T (x)) = Φ (T (x))

Test bilatèreHypothèses de test H0 : µ = µ0 contre H1 : µ 6= µ0

Zone de rejet de niveau exactement α Rα =x ∈ Rn/|T (x)| > Φ−1(1− α/2)

Fonction puissance

πα(δ) = Φ(Φ−1(α/2) +

√n|δ|

)+Φ

(Φ−1(α/2)−

√n|δ|

)Degré de significativité

p(x) = Pµ0(|T (X)| ≥ |T (x)|) = 2 (1− Φ(|T (x)|))= 2 min1− Φ(T (x)); Φ(T (x)

TABLE 3.1 – Propriétés du test z de conformité

3.1.1.c. Robustesse

Supposons toujours que X = (X1, . . . , Xn) est un échantillon i.i.d. où µ ∈ R est inconnu etσ > 0 est connu, mais sans hypothèse paramétrique sur la loi des Xi. Alors, sous Pµ0,

T (X)L−−−→

n→∞N (0, 1).

Les régions de rejet données dans le paragraphe précédent sont donc de niveau asymptotique α.Pour chacun des tests, unilatère ou bilatère, on définit la fonction puissance asymptotique du testπAα comme la fonction πα donnée dans le tableau ci-dessus. On peut montrer grâce au théorème deDini que la distance pour la norme sup entre la fonction puissance réelle et la fonction puissanceasymptotique converge vers 0 quand n tend vers l’infini.

Théorème 3.1. Théorème de Dini pour les fonctions de répartition (admis). Si une suite defonctions croissantes admettant les limites 0 et 1 en −∞ et +∞ converge simplement vers unefonction continue, alors elle converge uniformément sur R.

En effet, on en déduit notamment que, dans le théorème Central Limit, la convergence des fonc-tions de répartition vers Φ est en fait uniforme.

Dans la littérature, on considère souvent que l’approximation est « bonne » dès que n ≥ 30.Cependant, la qualité de l’approximation dépend bien évidemment de la loi des Xi et sera d’au-tant meilleure que cette loi est « proche » d’une gaussienne. Dans la mesure du possible, si la

Page 37: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 37

taille d’échantillon est « modeste », on s’en remettra plutôt à un test non-paramétrique et non-asymptotique.

3.1.2 Test de conformité de la moyenne à variance inconnue (t-test de conformité)

Soit X = (X1, . . . , Xn) un échantillon i.i.d. de la loi normale N (µ, σ2), où µ ∈ R et σ > 0sont tous les deux inconnus. Pour effectuer des tests sur la moyenne, on remplace σ dans (3.1.2)par

σn =

√√√√ 1

n− 1

n∑i=1

(Xi − Xn)2,

d’où la statistique de testT (X) =

√n(Xn − µ0)/σn.

3.1.2.a. Loi de Student décentrée

Définition 3.1. Soient δ ∈ R et d ∈ N?. On appelle loi de Student décentrée à d degrés de liberté(ddl), de paramètre de décentrement δ, la loi de

Z + δ√V/d

où Z et V sont des v.a. indépendantes de lois respectives N (0, 1) et χ2(d). On note cette loiT (d, δ).

Pour δ = 0, on retrouve la loi de Student usuelle. La loi de Student T (d, δ) a des propriétéssimilaires à la loi N (δ, 1) :

— lorsque le nombre de d.d.l. est suffisamment grand, la loi de Student T (d, δ) se comporteà peu près comme la loi normale N (δ, 1) ;

— à nombre de d.d.l. fixé, plus le paramètre de décentrement est grand, et plus une v.a. de loiT (d, δ) a tendance à prendre de grandes valeurs.

Ces propriétés sont illustrées dans les Figures 3.1 et 3.2. Plus précisément, on a la propriété sui-vante.

Proposition 3.1. Soient d ∈ N?, δ1 ∈ R et δ2 ∈ R. Soient T1 et T2 de lois respectives T (d, δ1) etT (d, δ2). Si T1 a pour loi T (d, δ1), alors

T1L−−−→

d→∞N (δ1, 1), (3.4)

Si T2 a pour loi T (d, δ2) avec δ2 ≥ δ1, alors pour tout réel t,

P(T2 > t) ≥ P(T1 > t). (3.5)

Page 38: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

38 3.1. Tests pour échantillons i.i.d. gaussiens

−10 −5 0 5

0.0

0.1

0.2

0.3

0.4

x

N(−2,1)T(3,−2)T(10,−2)

−5 0 5 10

0.0

0.1

0.2

0.3

0.4

x

N(2,1)T(3,2)T(10,2)

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

x

N(0,1)T(3)T(10)

FIGURE 3.1 – Densités des lois N (δ, 1) et T (d, δ), pour différentes valeurs de δ et de d.

Page 39: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 39

−15 −10 −5 0 5 10 15

0.0

0.1

0.2

0.3

x

T(3,0)T(3,−2)T(3,2)T(3,4)

FIGURE 3.2 – Densités des lois T (3, δ), pour différentes valeurs du paramètre de décentrement δ.

Si T2 a pour loi T (d, δ2) avec |δ2| ≥ |δ1|, alors pour tout réel t,

P(|T2| > t) ≥ P(|T1| > t). (3.6)

PREUVE : Comme la loi χ2(d) est la loi de∑n

i=1 Z2i , où lesZi sont i.i.d.N (0, 1), etE[Z2

i ] = 1, ondéduit (3.4) des théorèmes classiques de convergence (loi des grands nombres, continuité, lemmede Slutsky).

Soient Z et V des v.a. indépendantes de lois respectives N (0, 1) et χ2(d). Pour tout réel t,

P(T2 > t) = P

(Z + δ2√V/d

> t

)

=

∫RP

(Z + δ2√V/d

> t|V = v

)fV (v)dv

=

∫R

1− Φ

(Z >

√v

dt− δ2

)fV (v)dv

≥∫R

1− Φ

(Z >

√v

dt− δ1

)fV (v)dv

≥ P(T1 > t),

d’où (3.5). On démontre de même (3.6).

3.1.2.b. Les différents tests et leurs propriétés

On obtient des résultats en tous points similaires à ceux du paragraphe 3.1.1.b., en remplaçantT par T (cf. Tableau 3.2). On définit toujours δ comme en (3.3) et on désigne par tn−1(p) lequantile d’ordre p de la loi de Student T (n− 1).

Page 40: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

40 3.1. Tests pour échantillons i.i.d. gaussiens

Test unilatère droitHypothèses de test H0 : µ ≤ µ0 (ou µ = µ0) contre H1 : µ > µ0

Zone de rejet de niveau exactement α Rα =

x ∈ Rn/T (x) > tn−1(1− α)

Fonction puissance πα(δ) = 1− FT (n−1,√nδ) (tn−1(1− α))

Degré de significativité p(x) = Pµ0(T (X) ≥ T (x)) = 1− FT (n−1)

(T (x)

)Test unilatère gauche

Hypothèses de test H0 : µ ≥ µ0 (ou µ = µ0) contre H1 : µ < µ0

Zone de rejet de niveau exactement α Rα =

x ∈ Rn/T (x) < tn−1(α)

Fonction puissance πα(δ) = FT (n−1,√nδ) (tn−1(α))

Degré de significativité p(x) = Pµ0(T (X) ≤ T (x)) = FT (n−1)

(T (x)

)Test bilatère

Hypothèses de test H0 : µ = µ0 contre H1 : µ 6= µ0

Zone de rejet de niveau exactement α Rα =

x ∈ Rn/|T (x)| > tn−1(1− α/2)

Fonction puissanceπα(δ) = 1− FT (n−1,

√nδ) (tn−1(1− α/2))

+FT (n−1,√nδ) (tn−1(α/2))

Degré de significativitép(x) = Pµ0(|T (X)| ≥ |T (x)|)

= 2 min1− FT (n−1)(T (x));FT (n−1)(T (x)

TABLE 3.2 – Propriétés du test t de conformité

Page 41: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 41

N (0, 1) T (3) T (10) T (30) T (50) T (100) T (200)

p = 95% 1.6449 2.3534 1.8125 1.6973 1.6759 1.6602 1.6525p = 97.5% 1.96 3.1824 2.2281 2.0423 2.0086 1.984 1.9719

TABLE 3.3 – Quantiles d’ordre 95% et 97.5% pour N (0, 1) et T (d)

On trouvera dans les figures 3.3 à 3.5 une comparaison des fonctions puissances des tests deconformité à variance connue et inconnue.

3.1.2.c. Robustesse

Supposons toujours que X = (X1, . . . , Xn) est un échantillon i.i.d. où µ ∈ R et σ > 0 sontinconnus, mais sans hypothèse paramétrique sur la loi des Xi. Alors, sous Pµ0 ,

T (X)L−−−→

n→∞N (0, 1).

Des régions de rejet de niveau asymptotique α pour les tests unilatère droit, unilatère gauche etbilatère sont donc respectivement

Rα =

x ∈ Rn/T (x) > Φ−1(1− α)

;

Rα =

x ∈ Rn/T (x) < Φ−1(α)

;

Rα =

x ∈ Rn/|T (x)| > Φ−1(1− α/2).

En pratique, on considère généralement que l’approximation est « bonne » dès que n ≥ 30, eton peut continuer à utiliser le test de Student puisque les quantiles de la loi de Student sont alorsextrêmement proches de ceux de la loi N (0, 1) (cf. Tableau 3.3).

3.1.3 Test de comparaison de deux moyennes à variances inconnues

On considère deux échantillons indépendants X = (X1, . . . , Xn1) et Y = (Y1, . . . , Yn2),où les (Xi)1≤i≤n1 sont i.i.d de loi N (µ1, σ

21) et les (Yj)1≤j≤n2 sont i.i.d. de loi N (µ2, σ

22). On

suppose que µ1 ∈ R, µ2 ∈ R et σ1 > 0, σ2 > 0 sont tous inconnus. On note Pµ1,µ2,σ1,σ2 la loijointe de (X,Y). On souhaite tester

H0 : µ1 = µ2 contre H1 : µ1 6= µ2.

Page 42: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

42 3.1. Tests pour échantillons i.i.d. gaussiens

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

δ

test à variance connuetest de Student

FIGURE 3.3 – Fonctions puissances du test z et du test t unilatères droit pour n = 10 et α = 5%

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

1.0

δ

test à variance connuetest de Student

FIGURE 3.4 – Fonctions puissances du test z et du test t unilatères gauche pour n = 10 et α = 5%

Page 43: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 43

3.1.3.a. Cas où les variances sont égales (t-test de comparaison)

On suppose σ1 = σ2 = σ et on note simplement Pµ1,µ2,σ la loi jointe de (X,Y).

Statistique de test : On pose

σ1 =

√√√√ n1∑i=1

(Xi − Xn1)2/(n1 − 1), σ2 =

√√√√ n2∑j=1

(Yj − Yn2)2/(n2 − 1),

.σ =

√(n1 − 1)σ2

1 + (n2 − 1)σ22

n1 + n2 − 2. (3.7)

On définit alors la statistique de test

TC(X,Y) =Xn1 − Yn2

σ√

1/n1 + 1/n2

=

√n1n2

n1 + n2

Xn1 − Yn2

σ.

Pour décrire la loi de TC(X,Y), on introduit

ε =

√n1n2

n1 + n2

µ1 − µ2

σ.

Proposition 3.2. Sous Pµ1,µ2,σ, TC(X,Y) ∼ T (ε, n1 + n2 − 2).

PREUVE : On considère le modèle linéaire gaussien

Z = Λµ+ η

où Z = (X1, . . . , Xn1 , Y1, . . . , Yn2)T , µ = (µ1, µ2)T , η ∼ Nn1+n2(0, σ2In1+n2). La matrice Λest facile à expliciter, ainsi que les estimateurs des moindres carrés : il s’agit de µ = (Xn1 , Yn2)T

et σ2 défini par (3.7). La proposition résulte alors du théorème de Cochran. En particulier, sous H0, la loi de TC(X,Y) est libre des paramètres inconnus ; et sous H1,TC(X,Y) a tendance à prendre des valeurs soit plus grandes soit plus petites que sous H0.Zone de rejet de niveau exactement α :

Rα = (x,y)/|TC(x,y)| > tn1+n2−2(1− α/2).

Degré de significativité :

p(x,y) = 2 min1− FT (n1+n2−2)(TC(x,y));FT (n1+n2−2)(TC(x,y)).

Puissance :

πα(ε) = 1− FT (n1+n2−2,ε) (tn1+n2−2(1− α/2)) + FT (n1+n2−2,ε) (tn1+n2−2(α/2)) .

Page 44: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

44 3.1. Tests pour échantillons i.i.d. gaussiens

3.1.3.b. Cas où les variances sont inégales

Une statistique de test naturelle est

TW (X,Y) =Xn1 − Yn2√σ2

1/n1 + σ22/n2

.

C’est la statistique du test de Welch, qui utilise de plus que la loi sous H0 de TW (X,Y) estapproximativement T (d), où d est la v.a. satisfaisant l’équation

1

d=

(R

1 +R

)2 1

n1 − 1+

1

(1 +R)2

1

n2 − 1,

avec

R =σ2

1/n1

σ22/n2

.

3.1.3.c. Cas où les échantillons sont appariés

On considère ici deux échantillons de même taille X = (X1, . . . , Xn) et Y = (Y1, . . . , Yn),où les Xi sont i.i.d de moyenne µ1 et les Yj sont i.i.d. de moyenne µ2. Cependant, on ne supposeplus les deux échantillons indépendants : par exemple, (Xi, Yi) représentent deux mesures effec-tuées sur un même individu. Alors on introduit l’échantillon des différences D = (D1, . . . , Dn)où Di = Yi −Xi. Si D est un échantillon gaussien i.i.d., alors le test de

H0 : µ1 = µ2 contre H1 : µ1 6= µ2

se ramène à un test de conformité sur la moyenne pour l’échantillon D.

3.1.4 Test de conformité de la variance

Soient X = (X1, . . . , Xn) un échantillon i.i.d. de la loi normaleN (µ, σ2), où µ ∈ R et σ > 0sont inconnus, et σ0 > 0 donné. Pour tout test de comparaison de la variance à σ2

0, on utilisecomme statistique de test

Vn(X) = (n− 1)σ2n/σ

20,

σ2n =

1

n− 1

n∑i=1

(Xi − Xn)2.

Par le théorème de Cochran, sous Pµ,σ2 , (n−1)σ2n/σ

2 ∼ χ2(n−1), d’où les résultats rassemblésdans le tableau 3.4. On désigne ci-dessous par qd(p) et Fχ2(d) le quantile d’ordre p et la fonctionde répartition de la loi du khi-deux à d degrés de libertés.

Page 45: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 45

−3 −2 −1 0 1 2 3

0.2

0.4

0.6

0.8

1.0

δ

test à variance connuetest de Student

FIGURE 3.5 – Fonctions puissances du test z et du test t bilatères pour n = 10 et α = 5%

Test unilatère droitHypothèses de test H0 : σ ≤ σ0 (ou σ = σ0) contre H1 : σ > σ0

Zone de rejet de niveau exactement α Rα = x ∈ Rn/vn(x) > qn−1(1− α)Fonction puissance πα(σ2) = 1− Fχ2(n−1)

(σ20σ2 qn−1(1− α)

)Degré de significativité p(x) = 1− Fχ2(n−1)(vn(x))

Test unilatère gaucheHypothèses de test H0 : σ ≥ σ0 (ou σ = σ0) contre H1 : σ < σ0

Zone de rejet de niveau exactement α Rα = x ∈ Rn/vn(x) < qn−1(α)Fonction puissance πα(σ2) = Fχ2(n−1)

(σ20σ2 qn−1(α)

)Degré de significativité p(x) = Fχ2(n−1)(vn(x))

Test bilatèreHypothèses de test H0 : σ = σ0 contre H1 : σ 6= σ0

Zone de rejet de niveau exactement αRα = x ∈ Rn/vn(x) > qn−1(1− α/2)∪ x ∈ Rn/vn(x) < qn−1(α/2)

Fonction puissanceπα(σ2) = 1− Fχ2(n−1)

(σ20σ2 qn−1(1− α/2)

)+Fχ2(n−1)

(σ20σ2 qn−1(α/2)

)Degré de significativité p(x) = 2 min1− Fχ2(n−1)(vn(x));Fχ2(n−1)(vn(x))

TABLE 3.4 – Propriétés des tests de conformité sur la variance

Page 46: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

46 3.2. Tests dans le modèle de Bernoulli

Remarque 3.4. Dans le test bilatère, on obtient encore un test de niveau exactement α en rempla-çant 1 − α/2 et α/2 par 1 − α1 et α2, où α1 + α2 = α. Le choix α1 = α2 = α/2 ne donnecertes pas le meilleur test exact puisque la loi du chi-deux n’est pas symétrique, mais c’est unchoix « pratique ».

Robustesse? Ce test ne doit pas être utilisé pour un échantillon non gaussien, même de grandetaille (cf. 3.4, exercice 4).

3.1.5 Test de comparaison de deux variances (F -test ou test de Fisher)

On considère deux échantillons indépendants X = (X1, . . . , Xn1) et Y = (Y1, . . . , Yn2), oùles Xi sont i.i.d de loi N (µ1, σ

21) et les Yj sont i.i.d. de loi N (µ2, σ

22). On suppose que µ1 ∈

R, µ2 ∈ R, σ1 > 0 et σ2 > 0 sont tous inconnus. On note Pµ1,µ2,σ1,σ2 la loi jointe de (X,Y).Soient σ2

1 et σ22 définies comme dans le paragraphe 3.1.3, pour tout test sur la comparaison des

variances, on utilise la statistique de test

Q(X,Y) =σ2

1

σ22

.

Pour les tests de— H0 : σ1 ≤ σ2 contre H1 : σ1 > σ2

— H0 : σ1 ≥ σ2 contre H1 : σ1 < σ2

— H0 : σ1 6= σ2 contre H1 : σ1 6= σ2,on obtient des résultats analogues à ceux du paragraphe 3.1.4, en remplaçant la loi χ2(n− 1) parla loi F(n1 − 1, n2 − 1).

Robustesse? Ce test ne doit pas être utilisé pour des échantillons non gaussiens, même degrande taille.

3.1.6 Test d’indépendance

cf. TD 8, exercice 6Robustesse? Ce test ne doit pas être utilisé pour des échantillons non gaussiens, même de

grande taille.

3.2 Tests dans le modèle de Bernoulli

3.2.1 Test de conformité d’une proportion : version exacte

On observe X1, . . . , Xn i.i.d. de loi B(θ), où θ ∈ ]0, 1[ est inconnu.Hypothèses de test. Soit θ0 ∈ ]0, 1[ donné, on veut tester

H0 : θ ≤ θ0 contre H1 : θ > θ0

Statistique de test : la moyenne empirique Xn, qui vérifie nXn ∼ B(n, θ).Forme de la région de rejet : Rα = x ∈ Rn/xn > cα.Puissance. La fonction puissance πn,α(θ) = Pθ(Xn > cα) est croissante d’après la propriétésuivante.

Page 47: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 47

Proposition 3.3. Pour tous entier n ∈ N? et d ∈ Z, θ ∈ [0, 1] 7→ P(B(n, θ) > d) est croissante.

PREUVE : Fixond n ∈ N?, d ∈ Z et notons fn,d(θ) = P(B(n, θ) > d). Pour d ∈ 1, . . . , n− 1,

fn,d(θ) = 1−

((1− θ)n +

d∑k=1

(n

k

)θk(1− θ)n−k

),

et après dérivation et réarrangement des termes de la somme,

f ′n,d(θ) = n

(n− 1

d

)θd(1− θ)n−1−d.

Pour d /∈ 1, . . . , n − 1, fn,d(θ) s’explicite encore plus facilement et est clairement croissante(éventuellement constante). Choix du seuil. L’hypothèse nulle θ = θ0 est la moins favorable, donc on choisit cα = dα/n, oùdα est le quantile d’ordre 1−α de B(n, θ0).On obtient ainsi la plus grande région de rejet possiblepour que le test soit de niveau α, mais la taille du test n’est pas toujours égale à α.Degré de significativité. De la proposition 2.1 du Chapitre ??, on déduit

p(x) = P(B(n, θ0) ≥ nxn) = Pθ0(Xn ≥ xn).

On notera l’inégalité large ici, au lieu de l’inégalité stricte comme dans la région de rejet.

3.2.2 Test de conformité d’une proportion : version asymptotique

On observe toujours X1, . . . , Xn i.i.d. de loi B(θ), où θ ∈ ]0, 1[ est inconnu.Hypothèses de test. Soit θ0 ∈ ]0, 1[ donné, on veut toujours tester

H0 : θ ≤ θ0 contre H1 : θ > θ0

Statistique de test : la moyenne empirique Xn, qui vérifie, sous Pθ0√n(Xn − θ0)√θ0(1− θ0)

L−−−→n→∞

N (0, 1).

Région de rejet de niveau asymptotique α : Rα = x ∈ Rn/xn > dα où

dα = θ0 + Φ−1(1− α)

√θ0(1− θ0)

n.

Puissance asymptotique. Sous Pθ,√n(Xn − θ)/

√θ(1− θ) L−−−→

n→∞N (0, 1), donc une approxi-

mation de la fonction puissance est donnée par la fonction puissance asymptotique

πAn,α(θ) = 1− Φ

(√n(θ0 − θ)√θ(1− θ)

+ Φ−1(1− α)

√θ0(1− θ0)

θ(1− θ)

).

La puissance du test non-asymptotique et la puissance asymptotique sont représentées sur la fi-gure 3.6.

Page 48: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

48 3.2. Tests dans le modèle de Bernoulli

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

θ

n=10

theta0 = 0.001

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

θ

n=30

theta0 = 0.001

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

θ

n=10

theta0 = 0.5

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

θ

n=30

theta0 = 0.5

FIGURE 3.6 – Fonction puissance du test non-asymptotique (trait plein) et fonction puissanceasymptotique (pointillés) pour la conformité d’une proportion au niveau 5%.

Page 49: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 49

Degré de significativité asymptotique :

pA(x) = 1− Φ

(√n(xn − θ0)√θ0(1− θ0)

).

Validité de l’approximation : Il est recommandé de n’utiliser cette approximation que lorsque nest suffisamment grand et θ0 suffisamment loin de 0 ou 1, soit en pratique lorsque nθ0 ≥ 5 etn(1− θ0) ≥ 5.

3.2.3 Test exact de Fisher pour la comparaison de deux proportions

On observe deux échantillons indépendants X = (X1, . . . , Xn1) i.i.d. de loi B(θ1) et Y =(Y1, . . . , Yn2) i.i.d. de loi B(θ2), où θ1 et θ2 sont inconnus, mais dans ]0, 1[. On veut tester

H0 : θ1 ≤ θ2 contre H1 : θ1 > θ2.

Fisher a proposé un test dit conditionnel, car basé sur la loi conditionnelle de S1 sachant S1 + S2,où S1 =

∑n1i=1Xi et S2 =

∑n2i=1 Yi. Les hypothèses du test de Fisher portent sur le rapport des

chances (odds ratio) et sont (avec le logiciel R, par exemple)

H ′0 :θ1/(1− θ1)

θ2/(1− θ2)≤ 1 contre H1 :

θ1/(1− θ1)

θ2/(1− θ2)> 1,

où H ′i est bien équivalente à Hi.

Définition 3.2. Soient D,N, n des entiers naturels tels que D ≤ N et n ≤ N. On dit que X suitla loi hypergéométrique de paramètres D,N, n, notéeH(D,N, n) si

P(X = k) =CkDC

N−kN−D

CnN

pour tout entier k tel que max0, n− (N −D) ≤ k ≤ minn,D.

Exemple 3.1. On considère une famille de N objets dont D sont défectueux et N − D ne lesont pas. Le nombre d’objets défectueux dans une sous-famille quelconque de taille n suit la loiH(D,N, n). En revanche, si on effectue n tirages avec remise parmi les N objets, le nombred’objets défectueux parmi ces n objets suit la loi binomiale B(n,D/N).

Proposition 3.4. La loi conditionnelle de S1 sachant S1 + S2 ne dépend que du rapport deschances. De plus, si θ1 = θ2 = θ, alors pour tout entier naturel s ∈ 0, . . . , n1 + n2, la loi deS1 sachant que S1 + S2 = s est la loiH(n1, n1 + n2, s).

Le test de Fisher correspond à la règle de rejet suivante : lorsqu’on observe S1 +S2 = s, on rejetteH0 si S1 > cα(s), où cα(s) est le quantile d’ordre 1− α de la loiH(n1, n1 + n2, s).

Page 50: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

50 3.3. Commandes R

Proposition 3.5. Pour tout s ∈ 0, . . . , n1 + n2,

PH0(S1 > cα(s)|S1 + S2 = s) ≤ α.

De plus,PH0(rejeter H0) ≤ α.

Cela garantit donc au moins que le test de Fisher est de niveau au plus α. L’avantage du test estd’être valable quelles que soient les tailles d’échantillons (c’est pourquoi on l’appelle parfois « testexact de Fisher », bien qu’il n’atteigne généralement pas exactement le niveau fixé). Cependant,en pratique, ce test est plutôt conservatif, i.e. de taille inférieure au niveau fixé.

3.2.4 Test asymptotique de comparaison de deux proportions

Voir par exemple Lejeune (2010).

3.3 Commandes R

Dans la suite, on désigne par x et y deux vecteurs représentant chacun une réalisation d’unéchantillon i.i.d., et par µ0, µ1, µ2, . . . les réels qui apparaissent dans les définitions des tests étu-diés précédemment. Pour les tests sur des proportions, s, s1 et s2 sont des nombres de succès, etn, n1, n2, les tailles des échantillons correspondants. Pour le test exact de Fisher, table est unematrice 2 × 2 (ligne i : nombre de succès et d’échecs dans l’échantillon i). Pour les tests sur desproportions, on peut également rajouter l’option correct=TRUE pour effectuer une correctionde continuité censée améliorer l’approximation de la loi binomiale, discrète, par la loi normale,continue. Les commandes R des tests paramétriques usuels sont rassemblées dans le tableau 3.3.

Donnons un exemple de mise en œuvre d’un test sous R en utilisant les donnéesailettes.Rdata. Ces données sont disponibles sur Sakai. Téléchargez-les, enregistrez-les,puis chargez-les sous R.

> load("ailettes.Rdata")> ls()

[1] "ailettes"

Supposons que les données sont les réalisations de v.a. i.i.d. de loi N (µ, σ2), où µ ∈ R et σ > 0sont inconnus, et effectuons le test de conformité sur la moyenne de H0 : µ = 785 contre H1 :µ 6= 785.

> t.test(ailettes, alternative="two.sided",mu=785)

One Sample t-test

data: ailettest = -0.1432, df = 99, p-value = 0.8864

Page 51: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 51

alternative hypothesis: true mean is not equal to 78595 percent confidence interval:784.6170 785.3314

sample estimates:mean of x784.9742

On peut sauvegarder l’ensemble des résultats du test, comme ci-dessous dans ttestailettes.

> ttestailettes<-t.test(ailettes, alternative="two.sided",mu=785)

Puis, comme pour tout test sous R, on peut accéder uniquement à la valeur de la statistique de test

> ttestailettes$statistic

t-0.1431898

ou de la p-valeur.

> ttestailettes$p.value

[1] 0.8864313

Dans le cas d’un t-test, on récupère également une estimation ponctuelle de la moyenne

> ttestailettes$estimate

mean of x784.9742

ainsi qu’un intervalle de confiance pour la moyenne

> ttestailettes$conf.int

[1] 784.6170 785.3314attr(,"conf.level")[1] 0.95

bilatère et de niveau 95% par défaut. On notera qu’ici 785 est dans l’intervalle de confiance, doncon ne rejette pas H0 au niveau 5%. Cela est cohérent avec la p-valeur de l’ordre de 88%, quipermet même de dire qu’on ne rejette H0 à aucun des niveaux usuels (1%, 5%, 10%).

Page 52: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

52 3.3. Commandes R

Test

sC

omm

ande

sRz

-tes

tde

conf

orm

itépa

sde

fonc

tion

tout

efa

ite

t-te

stde

conf

orm

itéH

1:µ>µ

0t.test(x

,alternative="greater",mu=µ

0)

t-te

stde

conf

orm

itéH

1:µ≤µ

0t.test(x

,alternative="less",mu=µ

0)

t-te

stde

conf

orm

itéH

1:µ6=µ

0t.test(x

,alternative="two.sided",mu=µ

0)

t-te

stde

com

para

isonH

1:µ

1>µ

2t.test(x,

y,alternative="greater")

t-te

stde

com

para

isonH

1:µ

1≤µ

2t.test(x,

y,alternative="less")

t-te

stde

com

para

isonH

1:µ

16=µ

2t.test(x,

y,alternative="two.sided")

test

deW

elch

t.tes

t(x

,y,a

ltern

ativ

e=".

...",

var.e

qual

=FA

LSE

)

t-te

stde

com

para

ison

pour

donn

ées

appa

riée

st.test(x,

y,alternative="....",paired=TRUE)

test

deco

nfor

mité

pour

lava

rian

cepa

sde

fonc

tion

tout

efa

ite

F-t

estd

eco

mpa

rais

onde

deux

vari

ance

svar.test(x,

y,alternative="....")

test

d’in

dépe

ndan

cecor.test(x,

y,alternative="....")

test

exac

tde

conf

orm

itéd’

une

prop

ortio

nbinom.test(s,n,alternative="....")

test

appr

oché

deco

nfor

mité

d’un

epr

opor

tion

prop.test(s,n,alternative="....")

test

exac

tde

Fish

erfisher.test(table,alternative="....")

test

appr

oché

deco

mpa

rais

onde

prop

ortio

nsprop.test(c(s 1,s

2),

c(n

1,n

2),alternative="...")

TAB

LE

3.5

–C

omm

ande

sR

pour

les

test

spa

ram

étri

ques

usue

ls

Page 53: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 53

3.4 Applications directes du cours

Les tests paramétriques sont les tests les plus étudiés dans les cours d’introduction à la statis-tique. Aussi on trouvera aisément d’autres exemples détaillés et des exercices corrigés, notammentdans les références bibliographiques.

Exercice 3.1. Retrouver les résultats du Tableau 3.1 et étudier les variations des fonctions puis-sance.

Exercice 3.2. Retrouver les résultats du Tableau 3.2 et étudier les variations des fonctions puis-sance.

Exercice 3.3. Retrouver les résultats du Tableau 3.4 et étudier les variations des fonctions puis-sance.

Exercice 3.4. Soit σ0 > 0 un réel donné.

1. SoientX1, . . . , Xn des variables aléatoires i.i.d. de loiN (µ, σ2), où µ ∈ R et σ > 0 sont in-connus. Déterminer la loi asymptotique de

√n(σ2/σ2−1). En déduire un test asymptotique

de niveau α de H0 : σ2 ≤ σ20 contre H1 : σ2 > σ2

0. (Ce test est une bonne approximationpour n grand du test exact construit en 3.1.4).

2. Soient X1, . . . , Xn des variables aléatoires i.i.d. de moyenne µ et de variance σ2 finies etinconnues. Déterminer la loi asymptotique de

√n(σ2/σ2 − 1). Le test construit dans la

question précédente est-il toujours de niveau asymptotique α?

3.5 Problème

Problème 3.1. Test d’indépendance pour échantillons gaussiens. On suppose que les(Xi, Yi)

T

1≤i≤n sont des vecteurs aléatoires indépendants à valeurs dans R2, de même loi, telsque σ2

1 = Var(X1) > 0 et σ22 = Var(Y1) > 0. On note ρ le coefficient de corrélation entre X1 et

Y1 et on définit le coefficient de corrélation empirique

Rn =

∑ni=1(Xi − X)(Yi − Y )√∑n

i=1(Xi − X)2∑n

i=1(Yi − Y )2

et la statistique

Tn =√n− 2

Rn√1−R2

n

.

Partie 1.1. Montrer que Rn est un estimateur consistant de ρ. Si ρ 6= 0, que peut-on en déduire pourT 2n ?

2. Dans cette question uniquement, on suppose que les (Xi)1≤i≤n sont i.i.d. de loi N (0, σ21)

et que (Y1, . . . , Yn) = (y1, . . . , yn) est un vecteur déterministe dont les coordonnées nesont pas toutes égales. On désigne par 〈., .〉 le produit scalaire usuel sur Rn (i.e. pour u =

Page 54: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

54 3.5. Problème

(u1, . . . , un)T et v = (v1, . . . , vn)T vecteurs de Rn, 〈u, v〉 =∑n

i=1 uivi), et par ‖.‖ lanorme associée. On note X = (X1, . . . , Xn)T , 1In = (1, . . . , 1)T , et on identifie Xn etXn1In.

2.1 Soit u un vecteur unitaire de Rn orthogonal à 1In.

• Donner la loi de 〈X− Xn, u〉.• Montrer que ‖X− Xn‖2 − 〈X, u〉2 = ‖X− Xn − 〈X, u〉u‖2 et en déduire sa loi.

• Montrer que 〈X− Xn, u〉 et ‖X− Xn − 〈X, u〉u‖2 sont indépendantes.

2.2 En déduire la loi de Tn.

3. Dans cette question, on suppose que

(Xi, Yi)T

1≤i≤n est un échantillon i.i.d. de loiN2(0,Σ), où Σ est définie positive, et que ρ = 0.

3.1 Déterminer la loi conditionnelle de Xi sachant Yi.

3.2 Déduire des questions précédentes la loi de Tn, puis celle de T 2n .

3.3 On rappelle que la loi β(α1, α2) est la loi admettant pour densité par rapport à lamesure de Lebesgue sur [0, 1] :

f(u) =Γ(α1 + α2)

Γ(α1)Γ(α2)uα1−1(1− u)α2−1.

Montrer que R2n suit la loi β (1/2, (n− 2)/2) .

3.4 Comment sont modifiés les résultats des questions précédenteslorsque

(Xi, Yi)

T

1≤i≤n est un échantillon i.i.d. de loi N2(µ,Σ), où Σ est définiepositive et ρ = 0?

Partie 2.1. On suppose que

(Xi, Yi)

T

1≤i≤n est un échantillon i.i.d. de loiN2(µ,Σ), où Σ est définiepositive. Proposer un test de

H0 : «Xi et Yi sont indépendants »

contre

H1 :«Xi et Yi ne sont pas indépendants. »

2. Application. Les 6 nuages de points représentés sur la figure 3.7 correspondent chacun à uneréalisation d’un échantillon de loi bivariée de taille 200. On admettra que ces échantillonspeuvent être traités comme des échantillons gaussiens.Les valeurs observées des coefficients de corrélation empiriques sont :

ra = −0.01, rb = 0.81, rc = −0.72, rd = 0.99, re = −1, rf = −0.12.

2.1 Associer à chaque nuage de points ce qui semble être son coefficient de corrélationempirique.

2.2 Calculer la p-valeur de ce test pour chacun des jeux de données. Dans quels cas rejette-t-on H0 au niveau 5%? au niveau 10%?

Page 55: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 3. TESTS PARAMÉTRIQUES USUELS 55

-2 -1 0 1 2

01

23

4

X1

Y1

-3 -2 -1 0 1 2

-2-1

01

2

X2

Y2

-3 -2 -1 0 1 2

-4-2

02

4

X3

Y3

-2 -1 0 1 2

-6-4

-20

X4

Y4

-2 -1 0 1 2

02

46

810

X5

Y5

-2 -1 0 1 2

-2-1

01

2

X6

Y6

FIGURE 3.7 – Nuages de points

Page 56: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

56 3.6. Correction du problème

3.6 Correction du problème

Correction problème 3.1. Test d’indépendance pour échantillons gaussiens.

Partie 1.1. Il suffit de recentrer les données, puis par la loi (forte) des grands nombres et le premier

théorème de continuité,

1

n

n∑i=1

(Xi−X)(Yi−Y ) =1

n

n∑i=1

(Xi−µ1)(Yi−µ2)−(X−µ1)(Y−µ2)p.s.−−−→n→∞

E[(X1−µ1)(Y1−µ2)],

et de même

1

n

n∑i=1

(Xi − X)2 =1

n

n∑i=1

(Xi − µ1)2 − (X − µ1)2 p.s.−−−→n→∞

E[(X1 − µ1)]2.

Par continuité encore, on conclut que Rnp.s.−−−→n→∞

ρ, puis que

R2n

1−R2n

p.s.−−−→n→∞

`,

où ` = +∞ si |ρ| = 1, et ` > 0 si 0 < |ρ| < 1. Aussi, si ρ 6= 0, alors T 2n

p.s.−−−→n→∞

+∞.

2. Dans cette question uniquement, les (Xi)1≤i≤n sont i.i.d. de loiN (0, σ21) et (Y1, . . . , Yn) =

(y1, . . . , yn) est un vecteur déterministe dont les coordonnées ne sont pas toutes égales.2.1 Le vecteur u ∈ Rn vérifie ‖u‖ = 1 et 〈u, 1In〉 = 0.

• Par bilinéarité du produit scalaire, 〈X − Xn1In, u〉 = uTX =∑n

i=1 uiXi est unetransformation linéaire du vecteur gaussien X. D’après les propriétés de u, sa loi estN (0, σ2

1).

• Comme ‖a − b‖2 = ‖a‖2 + ‖b‖2 − 2〈a, b〉, il suffit de développer ‖X − Xn −〈X, u〉u‖2 et d’utiliser les propriétés de u pour établir l’égalité demandée. Soit V lesous-espace vectoriel de Rn engendré par les vecteurs orthogonaux u et 1In, alors

‖X− Xn − 〈X, u〉u‖2 = ‖pV ⊥(X)‖2 = σ21‖pV ⊥(X/σ1)‖2,

qui suit la loi σ21χ

2(n− 2) par le théorème de Cochran.

• Comme 〈X − Xn, u〉 = 〈X, u〉 est une fonction mesurable de pVect(u)(X/σ1) et‖X−Xn−〈X, u〉u‖2 est une fonction mesurable de pV ⊥(X/σ1), ces deux variablessont indépendantes, toujours d’après le théorème de Cochran.

2.2 En interprétant covariance et variances empiriques comme des produits scalaires, onobtient

Tn =〈X− Xn, u〉√

‖X− Xn‖2 − 〈X− Xn, u〉2/√n− 2

,

donc Tn ∼ T (n− 2) d’après la question 2.1.

Page 57: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

3. Dans cette question, on suppose que

(Xi, Yi)T

1≤i≤n est un échantillon i.i.d. de loiN2(0,Σ), où Σ est définie positive, et que ρ = 0.

3.1 Comme (Xi, Yi)T est un vecteur gaussien, ρ = 0 équivaut à l’indépendance de Xi et

Yi. Aussi, la loi conditionnelle de Xi sachant Yi est la loi de Xi : N (0, σ21).

3.2 D’après la question 2), pour tout vecteur y ∈ Rn à coordonnées non toutes égales, laloi de Tn sachant que Y = y est la loi T (n − 2). Comme cette loi ne dépend pas dey, c’est aussi celle de Tn. On en déduit immédiatement que T 2

n ∼ F(1, n− 2).

3.3 D’après la question précédentes, T 2n a pour densité par rapport à la mesure de Lebesgue

fT 2n(y) = C(n)

y−1/2

(n− 2 + y)(n−1)/21Iy>0.

Par le théorème de transfert et changement de variable,

R2n =

T 2n

n− 2 + T 2n

∼ β(1/2;n/2− 1).

3.4 Les résultats des questions précédentes restent inchangés puisque le coefficient de cor-rélation empirique est invariant par recentrage des variables.

Partie 2.1. Comme (Xi, Yi)

T est un vecteur gaussien, H0 ⇐⇒ ρ = 0 et H1 ⇐⇒ ρ 6= 0. Sous H0,

T 2n ∼ F(1, n − 2), alors que sous H1, T

2n

p.s.−−−→n→∞

+∞, donc on rejette H0 au niveau α

lorsque T 2n > f1,n−2(1− α) (ce qui équivaut à |Tn| > tn−2(1− α/2)).

2. Application. L’ensemble des résultats de cette question est résumé dans le tableau 3.6.

2.1 Le coefficient ρ ne mesure que la corrélation linéaire, et on déjà rappelé dans le dernierexercice de la Feuille 1 l’interprétation des cas extrêmes ρ = 1 et ρ = −1.

2.2 D’après la proposition du Chapitre 9, au vu de la réalisation tn de Tn, la p-valeur dece test est

p(tn) = Pρ=0(T 2n > t2n) = P(F(1, n− 2) > t2n).

Nuage Corrélation p-valeur Significatif Significatifempirique à 5% à 10%

1 rc = −0.72 ≈ 0 oui oui2 ra = −0.01 ≈ 0.89 non non3 rd = 0.99 ≈ 0 oui oui4 rf = −0.12 ≈ 0.09 non oui5 rb = 0.81 ≈ 0 oui oui6 re = −1 ≈ 0 oui oui

TABLE 3.6 – Nuages, coefficients de corrélation empirique et significativité du test.

Page 58: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

3.7 Tests paramétriques : récapitulatif

Page 59: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TE

ST

SPA

RA

TR

IQU

ES

:RÉ

CA

PIT

UL

AT

IF(v

oira

ussi

3.3)

Lége

nde

:•

R(r

obus

te):

test

para

mét

riqu

equ

ires

teva

labl

ede

man

ière

appr

oché

epo

urun

egr

ande

taill

ed’

écha

ntill

on,m

ême

sile

shy

po-

thès

espa

ram

étri

ques

neso

ntpa

sre

mpl

ies

•N

R(n

onro

bust

e):t

estp

aram

étri

que

non

robu

ste

TE

ST

UN

ÉC

HA

NT

ILL

ON

:CO

NF

OR

MIT

É(C

OM

PAR

AIS

ON

ÀU

NE

NO

RM

ED

ON

E)

Test

Rem

arqu

eN

atur

ede

sobs

erva

tions

R/N

RR

éfér

ence

Test

sde

conf

orm

itéd’

une

prop

ortio

nB

inai

res

3.2.

1,3.

2.2

Test

deco

nfor

mité

dela

moy

enne

àva

rian

ceco

nnue

(z-t

est)

Test

depo

sitio

nG

auss

ienn

es/C

ontin

ues

deva

rian

cefin

ieR

3.1.

1Te

stde

conf

orm

itéde

lam

oyen

neà

vari

ance

inco

nnue

(t-t

est)

Test

depo

sitio

nG

auss

ienn

es/C

ontin

ues

deva

rian

cefin

ieR

3.1.

2Te

stde

conf

orm

itéde

lava

rian

ceTe

stde

disp

ersi

onG

auss

ienn

esN

R3.

1.4

TE

ST

DE

UX

ÉC

HA

NT

ILL

ON

S:C

OM

PAR

AIS

ON

DE

DE

UX

ÉC

HA

NT

ILL

ON

SIN

PE

ND

AN

TS

Test

Rem

arqu

eN

atur

ede

sobs

erva

tions

R/N

RR

éfér

ence

Test

sde

com

para

ison

dede

uxpr

opor

tions

Bin

aire

s;2

écha

ntill

ons

3.2.

3,3.

2.4

Test

deSt

uden

tde

com

para

ison

des

moy

enne

sTe

stde

posi

tion

Gau

ssie

nnes

dem

ême

vari

ance

;2éc

hant

illon

sR

3.1.

3Te

stde

Wel

chde

com

para

ison

des

moy

enne

sTe

stde

posi

tion

Gau

ssie

nnes

;2éc

hant

illon

sR

3.1.

3Te

stde

Fish

erde

com

para

ison

des

vari

ance

sTe

std’

éche

lleG

auss

ienn

es;2

écha

ntill

ons

NR

3.1.

5

TE

ST

DE

UX

ÉC

HA

NT

ILL

ON

S:C

OM

PAR

AIS

ON

DE

DE

UX

ÉC

HA

NT

ILL

ON

SA

PPA

RIÉ

S

Test

Nat

ure

deso

bser

vatio

nsR

/NR

Réf

éren

cet-

test

pour

écha

ntill

ons

appa

riés

Gau

ssie

nnes

;2éc

hant

illon

sap

pari

ésR

3.1.

3.c.

TE

ST

DE

UX

ÉC

HA

NT

ILL

ON

S:C

OR

LA

TIO

N

Test

Nat

ure

deso

bser

vatio

nsR

/NR

Réf

éren

ceTe

std’

indé

pend

ance

dede

uxéc

hant

illon

sV

ecte

urga

ussi

enN

R3.

5

Page 60: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

60 3.7. Tests paramétriques : récapitulatif

Page 61: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 4

TESTS BASÉS SUR LA FONCTION DERÉPARTITION EMPIRIQUE

Sommaire4.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.1.1 Quelques propriétés de la fonction de quantile . . . . . . . . . . . . . . 624.1.2 Propriétés ponctuelles de la fonction de répartition empirique . . . . . 63

4.2 Tests non-paramétriques sur les quantiles . . . . . . . . . . . . . . . . . . . 644.2.1 Un test exact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.2 Un test asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3 Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée . . 654.3.1 Notion d’ordre stochastique . . . . . . . . . . . . . . . . . . . . . . . 654.3.2 Expression et représentation des statistiques de test . . . . . . . . . . . 684.3.3 Comportement des statistiques de Kolmogorov . . . . . . . . . . . . . 694.3.4 Règle de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.3.5 Approximations des lois des statistiques de test sous H0 . . . . . . . . 72

4.4 Test de normalité de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . 734.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.5.1 Tests d’adéquation à une famille de lois paramétrée . . . . . . . . . . . 754.5.2 Test de comparaison de Smirnov . . . . . . . . . . . . . . . . . . . . . 754.5.3 Tests d’adéquation basés sur d’autres distances . . . . . . . . . . . . . 754.5.4 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.6 Commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.7 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . 784.8 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.9 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . 81

Références : Thas (2010)

Dans les chapitres précédents, nous avons introduit des tests faciles à étudier car ils présup-posent un modèle paramétrique simple tel que le modèle d’échantillonnage gaussien. Cependant,

61

Page 62: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

62 4.1. Rappels

on peut se demander quelle confiance accorder au résultat de ces tests si le modèle paramétriquepostulé n’est pas adéquat. Certains tests, comme le test sur la moyenne du Chapitre 3, sont robustes(ils restent valables dans un modèle statistique plus général pourvu que la taille d’échantillon soitsuffisamment grande), mais d’autres pas, comme le test sur la variance du Chapitre 3. Cepen-dant, même lorsqu’un test est robuste, il ne reste vraiment performant que si la taille d’échantillonest « suffisante », ce qui est toujours difficile à quantifier. Par ailleurs, le test sur la moyenne duChapitre 3 est un test de position valable dans le modèle gaussien, mais n’a plus de sens dansun modèle où l’espérance n’est pas nécessairement définie. Aussi, dans ce chapitre, nous nousefforcerons de construire des tests

— valables dans un modèle non-paramétrique, par exemple pour X1, . . . , Xn i.i.d. et de loicontinue, voire seulement X1, . . . , Xn i.i.d. (tests non-paramétriques) ;

— valables quelle que soit la taille d’échantillon (tests non-asymptotiques, ou « small sampletests »).

Pour ce faire, nous utiliserons les propriétés de la fonction de répartition empirique.

4.1 Rappels

Rappelons tout d’abord quelques propriétés de la fonction de quantile et de la fonction derépartition empirique.

4.1.1 Quelques propriétés de la fonction de quantile

On rappelle que la fonction de quantile (ou inverse généralisée ou pseudo-inverse) de F ouest la fonction F−1 définie pour p ∈ ]0, 1[ par

F−1(p) = inft ∈ R/F (t) ≥ p.

Voici les propriétés de la fonction de quantile que nous utiliserons dans ce chapitre.

Proposition 4.1. Soient t0 ∈ R et p0 ∈ ]0, 1[,

(i) Λ(p0) := t ∈ R/F (t) ≥ p0 est l’intervalle [F−1(p0),+∞[;

(ii) F−1 est croissante ;

(iii) F F−1(p0) ≥ p0, avec égalité si et seulement si p0 ∈ F (R);

(iv) F (t0) ≥ p0 ⇐⇒ t0 ≥ F−1(p0);

(v) si U ∼ U(]0, 1[), alors F−1(U) a pour fonction de répartition F.

PREUVE :

(i) Λ(p0) est un intervalle deR infini à droite car F est croissante, et contient sa borne inférieurecar F est continue à droite.

(ii) Si p0 ≤ p1, alors Λ(p1) ⊂ Λ(p0).

(iii) Faites 3 dessins : l’un où p0 = F (t0) avec F strictement croissante au voisinage de t0, l’unoù p0 ∈ F (R) et a plusieurs antécédents, un dernier où p0 /∈ F (R).

Page 63: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 63

(iv) Facile, par définition de F−1(p0) et le point précédent.

(v) Pour tout réel t, grâce au point (iv),

P(F−1(U) ≤ t) = P(U ≤ F (t)).

4.1.2 Propriétés ponctuelles de la fonction de répartition empirique

On rappelle que la fonction de répartition empirique de l’échantillon X1, . . . , Xn est lafonction aléatoire Fn définie, pour t ∈ R, par

Fn(t) =1

n

n∑i=1

1IXi≤t.

Étant donnée une réalisation x = (x1 . . . , xn) de X = (X1, . . . , Xn), on utilisera aussi dans lasuite la notation Fn pour la réalisation de la fonction de répartition empirique

Fn(t) =1

n

n∑i=1

1Ixi≤t,

le sens à donner à la notation Fn étant clair d’après le contexte. La fonction Fn s’exprime égale-ment à l’aide des statistiques d’ordre X(1), . . . , X(n) correspondant au réarrangement croissantdes (Xi)1≤i≤n :

Fn(t) =1

n

n∑i=1

1IX(i)≤t,

ce qui permet de construire son graphe facilement. En effet, étant donnée une réalisation(x1, . . . , xn) de (X1, . . . , Xn), si les observations sont deux à deux distinctes (ce qui se pro-duit p.s. lorsque F est continue), alors on procède comme suit pour représenter graphiquement laréalisation correspondante de Fn :

(1) On renumérote les observations en x(1), x(2), . . . , x(n) de telle sorte qu’elles soient rangéesdans l’ordre croissant : x(1) < x(2) < . . . < x(n). Autrement dit, x(1), x(2), . . . , x(n) est laréalisation des statistiques d’ordre X(1), X(2), . . . , X(n).

(2) Tant que t < x(1), Fn(t) = 0.

(3) Pour tout 1 ≤ i ≤ n − 1, Fn(x(i)) = i/n et Fn est constante égale à i/n sur l’intervalle[x(i), x(i+1)[.

(4) Dès que t ≥ x(n), Fn(t) = 1.

Si les observations ne sont pas deux à deux distinctes, on procède de manière analogue, mais Fnprésente certains sauts de hauteur > 1/n et la relation Fn(x(i)) = i/n n’est plus vérifiée pourcertaines valeurs de i ∈ 1, . . . , n.

Des arguments élémentaires permettent de montrer que Fn est un bon estimateur de F , aumoins ponctuellement. En effet, pour t ∈ R fixé, F (t) est une proportion (paramètre de succès dela loi de 1IXi≤t), et son estimateur Fn(t), une moyenne empirique.

Page 64: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

64 4.2. Tests non-paramétriques sur les quantiles

Proposition 4.2. Pour tout réel t, l’estimateur Fn(t) de F (t) vérifie

nFn(t) ∼ B(n, F (t)) (4.1)

E[Fn(t)

]= F (t) (4.2)

Fn(t)p.s.−−−→n→∞

F (t) (4.3)

√n(Fn(t)− F (t))

L−−−→n→∞

N (0, F (t)(1− F (t))). (4.4)

4.2 Tests non-paramétriques sur les quantiles

Dans un cadre non-paramétrique, où moyenne et variance ne sont pas nécessairement définies,on peut construire des tests de position ou de dispersion portant sur des paramètres toujours biendéfinis, comme la médiane ou l’écart inter-quartiles. Nous décrivons ici des tests de position baséssur les quantiles, qui peuvent se substituer au test sur la moyenne du Chapitree 3 lorsque l’hypo-thèse de normalité est douteuse. Dans la suite, les réels t0 ∈ R, p0 ∈ ]0, 1[ et α ∈ ]0, 1[ désignentdes quantités connues.

4.2.1 Un test exact

On souhaite tester au niveau α

H0 : F−1(p0) ≤ t0 contre H1 : F−1(p0) > t0

D’après la proposition 4.1, ce test équivaut à celui de

H0 : F (t0) ≥ p0 contre H1 : F (t0) < p0.

Il s’agit donc tout simplement d’un test sur la proportion F (t0) = P(X ≤ t0). D’après le Cha-pitre 3, on rejette H0 au niveau α lorsque∑

i=1

1IXi>t0 > F−1B(n,1−p0)(1− α).

Pour p0 = 1/2, ce test est communément appelé test de la médiane.

4.2.2 Un test asymptotique

On souhaite tester au niveau α

H0 : F−1(p0) = t0 contre H1 : F−1(p0) 6= t0.

Supposons F inversible au sens usuel. Le test équivaut alors au test de conformité d’une proportionde

Page 65: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 65

H0 : F (t0) = p0 contre H1 : F (t0) 6= p0.

En écrivant par exemple l’intervalle de confiance asymptotique de niveau 1−α pour F (t0) déduitde la proposition 4.2, on conclut qu’on rejette H0 au niveau asymptotique α lorsque

√n|Fn(t0)− p0|√

Fn(t0)(

1− Fn(t0)) > Φ−1(1− α/2).

4.3 Tests de Kolmogorov de comparaison ou d’adéquation à une loidonnée

Pour un échantillon, les tests sur la moyenne et la variance, et plus généralement les testsde position ou de dispersion, ont pour but de comparer un paramètre de la loi inconnue à unenorme donnée, définie par une moyenne µ0 donnée, ou par une variance σ2

0 donnée, etc. Plusgénéralement, on peut définir la norme à laquelle se comparer non plus comme une norme sur unparamètre, mais comme une loi donnée, en particulier lorsqu’on ne sait pas quel type de différenceon cherche à détecter. Les tests de Kolmogorov de comparaison ou d’adéquation permettent cegenre de généralisation. Pour les définir, on se place dans le modèle statistique suivant : on observedes v.a. réelles i.i.d. X1 . . . , Xn, de même loi que X, de fonction de répartition F inconnue etcontinue. Par ailleurs, on désigne par F0 une fonction de répartition donnée continue sur R (c’estla norme à laquelle on se compare) et par Y0 une v.a. de loi F0. On souhaite construire un test deH0 : X et Y0 ont même loi (i.e. F = F0)

— soit contre H1 : X et Y0 ne suivent pas la même loi (i.e. F 6= F0)— soit contre H1 : «X a tendance à prendre des valeurs plus petites que Y0 »— soit contre H1 : «X a tendance à prendre des valeurs plus grandes que Y0 ».

Le premier test est un test d’adéquation à la loi connue F0 : c’est un test de conformité qui géné-ralise en un certain sens les tests bilatères de position ou de dispersion portant sur un paramètre.Les deux autres sont des tests de comparaison à la loi connue F0 : ce sont des tests de conformitéqui généralisent en un certain sens les tests unilatères portant sur un paramètre de position ou dedispersion. Afin de traduire mathématiquement les hypothèses des tests de comparaison, on utilisela notion d’ordre suivante sur les variables aléatoires.

4.3.1 Notion d’ordre stochastique

Dans la suite, FZ désigne la fonction de répartition de la variable aléatoire Z, F−1Z sa fonction

de quantile, et SZ := 1− FZ sa fonction de survie.

Définition 4.1. On dit que la variable X est stochastiquement inférieure à la variable Y lorsque,pour tout réel t,

P(X > t) ≤ P(Y > t).

On note alors X st Y ou FX st FY , ou Y st X ou FY st FX . Si de plus il existe t0 ∈ Rtel que

P(X > t0) < P(Y > t0),

Page 66: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

66 4.3. Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée

on dit que la variable X est stochastiquement inférieure au sens strict à la variable Y, et on notealors X ≺st Y ou FX ≺st FY , ou Y st X ou FY st FX .

Cet ordre particulier sur les variables aléatoires se traduit en terme d’ordre usuel entre fonctionsde répartition, queues de répartition, fonctions de quantile, ou variables aléatoires.

Proposition 4.3. Il y a équivalence entre

i) FX st FY .ii) Pour tout réel t, SX(t) ≤ SY (t).

iii) Pour tout réel t, FX(t) ≥ FY (t).

iv) Il existe des versions X et Y de X et de Y définies sur un même espace de probabilité tellesque X et X ont même loi, Y et Y ont même loi et X ≤ Y .

Si de plus FX et FY sont continues et strictement croissantes, alors il y a équivalence entrei), ii), iii), iv) etv) Pour tout p ∈ ]0, 1[, F−1

X (p) ≤ F−1Y (p).

PREUVE : L’équivalence entre i), ii) et iii) est immédiate. Pour montrer que i)⇒ iv), il suffit dechoisir X = F−1

X (U) et Y = F−1Y (U), où U ∼ U(]0, 1[). Puis iv)⇒ iii) est immédiat.

Supposons maintenant FX et FY continues et strictement croissantes, donc inversibles au sensusuel. Pour montrer que iii) ⇒ v), il suffit de partir de l’inégalité FX(F−1

X (p)) ≥ FY (F−1X (p)),

puis de lui appliquer F−1Y . Réciproquement, pour montrer que v) ⇒ iii), pour t ∈ R tel que

FX(t) ∈ ]0, 1[, on applique v) avec p = FX(t), et on conclut par continuité lorsque FX(t) = 0,et de manière évidente lorsque FX(t) = 1.

Voici quelques exemples de lois comparables au sens de l’ordre stochastique.

Exemple 4.1. Soient µ1 ∈ R, µ2 ∈ R et σ > 0, si µ1 < µ2, alors N (µ1, σ2) ≺st N (µ2, σ

2).

Exemple 4.2. Si Y a même loi que X + ∆, où ∆ > 0, alors X ≺st Y.

Exemple 4.3. Soient δ1 ∈ R, δ2 ∈ R et d ∈ N?, si δ1 < δ2, alors T (d, δ1) ≺st T (d, δ2).

Exemple 4.4. Soient d1 ∈ N? et d2 ∈ N?, si d1 < d2, alors χ2(d1) ≺st χ2(d2).

Exemple 4.5. Soient θ1 ∈ [0, 1], θ2 ∈ [0, 1] et n ∈ N?, si θ1 < θ2, alors B(n, θ1) ≺st B(n, θ2).

Un graphique donnant une indication sur l’ordre stochastique entre 2 variables est le PP-plot.

Définition 4.2. Soient F et G deux fonctions de répartition. On appelle PP-plot (ProbabilityProbability plot) associé à F et G l’ensemble des points de coordonnées (F (t), G(t)) lorsque tdécrit R.

Cependant, d’après la proposition 4.3, pour étudier graphiquement l’ordre stochastique entre 2 va-riables, on peut au choix étudier la position relative des fonctions de répartition ou des queues derépartition, ou encore étudier la position du PP-plot ou du QQ-plot par rapport à la première bissec-trice. Chacun des graphiques de la Figure 4.1 illustre par exemple la relation d’ordre stochastiqueentre les lois de Student T (d, 0) et T (d, 4).

Page 67: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 67

−15 −10 −5 0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Fonctions de répartition

T(3,0)

T(3,4)

−15 −10 −5 0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

Queues de répartition

T(3,0)

T(3,4)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

PP−plot

Fonction de répartition de T(3,0)

Fo

nctio

n d

e r

ép

artitio

n d

e T

(3

,4)

−2 0 2 4 6 8

−2

02

46

8

QQ−plot

Quantiles de T(3,0)

Qu

an

tile

s d

e T

(3

,4)

FIGURE 4.1 – Ordre stochastique pour les lois de Student décentrées

Page 68: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

68 4.3. Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée

4.3.2 Expression et représentation des statistiques de test

Nous sommes maintenant en mesure de traduire mathématiquement les hypothèses des troistests :

(1) H0 : F = F0 contre H1 : F ≺st F0, i.e. F ≥ F0 et F 6= F0, («X a tendance à prendre deplus petites valeurs que Y0 »)

(2) H0 : F = F0 contre H1 : F st F0, i.e. F ≤ F0 et F 6= F0, («X a tendance à prendre deplus grandes valeurs que Y0 »)

(3) H0 : F = F0 contre H1 : F 6= F0 (test d’adéquation à la loi connue F0).

Les statistiques de test de Kolmogorov associées sont respectivement

(1) D+n = supt∈R

(Fn(t)− F0(t)

)pour le test (1)

(2) D−n = supt∈R

(F0(t)− Fn(t)

)pour le test (2)

(3) Dn = supt∈R

∣∣∣Fn(t)− F0(t)∣∣∣ pour le test (3).

Puisque Fn est une fonction en escalier et que F0 est croissante, chacun de ces trois écarts entreFn et F0 est atteint en l’un des points de saut de Fn. Les statistiques de test se calculent doncextrêmement facilement, comme le montre la proposition suivante.

Proposition 4.4. Soit X1, . . . , Xn un échantillon de fonction de répartition F continue, si F0 estune fonction de répartition continue, alors

D+np.s.= max

i=1,...,n

i

n− F0

(X(i)

)

D−np.s.= max

i=1,...,n

F0

(X(i)

)− i− 1

n

Dn = maxD+

n , D−n

p.s.= max

i=1,...,n

i

n− F0

(X(i)

), F0

(X(i)

)− i− 1

n

.

Remarque 4.1. Cette propriété montre au passage que D+n , D

−n , et Dn sont bien des variables

aléatoires, car fonctions mesurables des observations, ce qui a priori n’est pas évident pour dessuprema sur un ensemble continu.

PREUVE : Commme F est continue, il n’y a p.s. pas d’ex-æquo parmi X1, . . . , Xn, d’oùFn(X(i))

p.s.= i/n. Dans la suite, toutes les égalités sont des égalités valables presque partout.

Pour i = 1, . . . , n− 1,

supX(i)≤t<X(i+1)

(Fn(t)− F0(t)) = supX(i)≤t<X(i+1)

(i/n− F0(t)) = i/n− F0(X(i)).

De même, supt<X(1)(Fn(t) − F0(t)) = supt<X(1)

(−F0(t)) = 0 et supt≥X(n)(Fn(t) − F0(t)) =

supt≥X(n)(1 − F0(t)) = 1 − F0(X(n)). Cela démontre la proposition pour D+

n . Pour D−n , onprocède de manière analogue en explicitant le supremum sur chacun des intervalles ]−∞, X(1)[,[X(i), X(i+1)[ pour i = 1, . . . , n− 1, et [X(n),+∞[.

Page 69: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 69

Exemple 4.6. Sur la figure 4.2 sont représentées la fonction de répartition empirique pour l’échan-tillon

x1 = −0.7, x2 = 3.5, x3 = −0.1, x4 = 1.5, x5 = −4.5

et la fonction de répartition F0 de la loi N (0, 1). Représentez les écarts i/n − F0

(x(i)

)pour

i = 1, . . . , n et vous constaterez que D+n = 1/n − F0

(x(1)

)ici. De même, on observe que

D−n = F0

(x(4)

)− 3

n , puis que Dn = D−n ici.

Un autre graphique naturellement associé aux statistiques de Kolmogorov est le PP-plot. Lafigure 4.3 représente le PP-plot de l’exemple 4.6. Retrouvez sur ce graphique les valeurs des 3statistiques de test de l’exemple.

Remarque 4.2. Contrairement à la fonction de répartition empirique ou au QQ-plot, le PP-plotn’est pas prédéfini dans R et devra donc être programmé.

4.3.3 Comportement des statistiques de Kolmogorov

Pour étudier les propriétés de convergence ou la loi des statistiques de test, les propriétésponctuelles de la fonction de répartition empirique ne sont pas des outils suffisamment puissants.On utilisera le théorème de Glivenko-Cantelli

Théorème 4.1. Glivenko-Cantelli (admis). Si X1, . . . , Xn sont indépendantes, de même fonctionde répartition F0, et de fonction de répartition empirique Fn, alors

supt∈R

∣∣∣Fn − F0(t)∣∣∣ p.s.−−−→n→∞

0.

On en déduit le résultat suivant pour les statistiques de Kolmogorov.

Proposition 4.5. Soient X1, . . . , Xn un échantillon de fonction de répartition F continue et F0

est une fonction de répartition continue, alors

(1) D+n

p.s.−−−→n→∞

D+ := supt∈R(F (t)− F0(t))

(2) D−np.s.−−−→n→∞

D− := supt∈R(F0(t)− F (t))

(3) Dnp.s.−−−→n→∞

D := supt∈R |F0(t)− F (t)| .

PREUVE : Par l’inégalité triangulaire, |D+n −D+| ≤ ‖Fn − F‖∞, |D−n −D−| ≤ ‖Fn − F‖∞ et

|Dn −D| ≤ ‖Fn − F‖∞. Or, d’après le théorème de Glivenko-Cantelli, ‖Fn − F‖∞p.s.−−−→n→∞

0.

CQFD

Aussi, pour le test (3), Dnp.s.−−−→n→∞

0 si et seulement si F = F0. Pour le test (1), si on se restreint au

modèle composé des fonctions de répartitions F ≥ F0 et continues, alors D+ ≥ 0 et D+n

p.s.−−−→n→∞

0

si et seulement si on se trouve sous H0. De même, Pour le test (2), si on se restreint au modèlecomposé des fonctions de répartitions F ≤ F0 et continues, alors D− ≥ 0 et D−n

p.s.−−−→n→∞

0 si etseulement si on se trouve sous H0. Dans chacun des 3 cas, la statistique de test a donc tendance àprendre des valeurs plus grandes sous H1 que sous H0.

Page 70: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

70 4.3. Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée

−6 −4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

FIGURE 4.2 – Fn (en gras) et F0 pour l’exemple 4.6.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

F0(t)

Fn(

t)

FIGURE 4.3 – PP-plot de Fn et F0 pour l’exemple 4.6.

Page 71: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 71

Afin d’établir des zones de rejet précises, nous avons également besoin de connaître la loi dechacune des statistiques de Kolmogorov sous H0.

Théorème 4.2. Quelle que soit la fonction de répartition F0 continue, les lois de D+n , D

−n et

Dn sous H0 : F = F0 ne dépendent pas de F0. Soient U1, . . . , Un un échantillon de la loiU(]0, 1[), Gn sa fonction de répartition empirique,

KS+n := sup

u∈[0,1]

(Gn(u)− u

)= max

i=1,...,n

i

n− U(i)

et

KSn := supu∈[0,1]

∣∣∣Gn(u)− u∣∣∣ = max

i=1,...,n

i

n− U(i), U(i) −

i− 1

n

.

Alors, sous H0, D+n et D−n ont même loi que KS+

n , et Dn a même loi que KSn.

Que l’hypothèse nulle soit H0 : X ∼ N (0, 1), ou H0 : X ∼ N (3, 2), ou H0 : X ∼ U([1, 2]), ouH0 : X ∼ χ2(3), etc, la loi de Dn sous H0 est toujours la même, la loi de D+

n ou D−n sous H0 esttoujours la même. Ces deux lois ne dépendent que de la taille n de l’échantillon.PREUVE : Comme Dn est une fonction mesurable de (X1, . . . , Xn), sa loi ne dépend que decelle de (X1, . . . , Xn). Par indépendance et par la proposition 4.1, (X1, . . . , Xn) a même loi que(F−1(U1), . . . , F−1(Un)), donc sous H0, Dn a même loi que

supt∈R

∣∣∣∣∣ 1nn∑i=1

1IF−10 (Ui)≤t − F0(t)

∣∣∣∣∣ = supt∈R

∣∣∣∣∣ 1nn∑i=1

1IUi≤F0(t) − F0(t)

∣∣∣∣∣ par la proposition 4.1

= supt∈R

∣∣∣Gn(F0(t))− F0(t)∣∣∣

= supu∈[0,1]

∣∣∣Gn(u)− u∣∣∣ par continuité de F0.

On procède de même pour D+n et D−n . Pour ces deux statistiques, on obtient la même loi sous H0

par symétrie de la loi uniforme.

4.3.4 Règle de décision

Proposition 4.6. Soient α ∈ [0, 1], sn,1−α le quantile d’ordre 1− α de KSn et s+n,1−α le quantile

d’ordre 1−α deKS+n . La région de rejet de niveau exactement α du test de Kolmogorov-Smirnov

de H0 : F = F0 contre

(1) H1 : F ≺st F0 est D+n ≥ s+

n,1−α(2) H1 : F st F0 est D−n ≥ s+

n,1−α(3) H1 : F 6= F0 est Dn ≥ sn,1−α.

PREUVE : La loi deKS+n est continue, ce qui permet de vérifier que PH0(D+

n < s+n,1−α) = 1−α.

On procède de même pour les autres tests. Pour une réalisation donnée, la décision de rejeter ou non H0 peut aussi être basée sur la

p-valeur.

Page 72: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

72 4.3. Tests de Kolmogorov de comparaison ou d’adéquation à une loi donnée

Proposition 4.7. Lorsqu’on observe que D+n (resp. D−n , Dn) prend la valeur d+

n (resp. d−n , dn),la p-valeur associée est

(1) p(d+n ) = PH0(D+

n ≥ d+n ) = P(KS+

n ≥ d+n ) pour le test (1)

(2) p(d−n ) = PH0(D−n ≥ d−n ) = P(KS+n ≥ d−n ) pour le test (2)

(3) p(dn) = PH0(Dn ≥ dn) = P(KSn ≥ dn) pour le test (3).

PREUVE : Pour le test (3) par exemple, on obtient grâce à la proposition 4.1

p(dn) = inf0 < α < 1/dn ≥ F−1KSn

(1− α)= inf0 < α < 1/FKSn(dn) ≥ 1− α= 1− FKSn(dn)

= P(KSn > dn)

= P(KSn ≥ dn)

où la dernière égalité résulte de la continuité de la loi de KSn.

4.3.5 Approximations des lois des statistiques de test sous H0

En pratique, dès que n est suffisamment grand, on utilise des approximations des lois de KSnet de KS+

n qui reposent sur les résultats suivants (non triviaux !), que nous admettrons.

Théorème 4.3. (Kolmogorov, 1933). Soient X1, . . . , Xn un échantillon de loi continue et F0 unefonction de répartition continue. Alors sous H0,

√nDn

L−−−→n→∞

W0

où W0 est une variable aléatoire à densité, qui ne dépend pas de F0, à valeurs positives, defonction de répartition

P(W0 ≤ t) = 1− 2∞∑k=1

(−1)k+1 exp (−2k2t2), pour t ≥ 0.

La loi deW0 (supremum d’un pont brownien) est appelée loi de Kolmogorov-Smirnov. C’est uneloi bien connue, et tabulée. En notant w1−α son quantile d’ordre 1 − α, la région de rejet du testd’adéquation de Kolmogorov (3) de niveau asymptotique α est

Rn,α =Dn ≥ w1−α/

√n.

En utilisant uniquement l’approximation par le premier terme

PH0

(Dn ≥ t/

√n)' P(W0 ≥ t) ' 2 exp (−2t2), pour t ≥ 0,

on obtient comme valeurs approchées pour les quantiles dès que n est assez grand (typiquementn ≥ 100)

sn,1−α ' w1−α/√n '

√1

2nln

(2

α

). (4.5)

Page 73: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 73

Aussi, des régions de rejet de niveau asymptotique 1%, 5% ou 10% sont respectivement

Rn,1% =Dn ≥ 1, 63/

√n, Rn,5% =

Dn ≥ 1, 36/

√n, Rn;10% =

Dn ≥ 1, 22/

√n.

Les régions de rejet de niveau asymptotique α obtenues par l’approximation (4.5) sont en fait,quelle que soit la taille n de l’échantillon, des régions de rejet de niveau au plus α d’après lerésultat suivant.

Théorème 4.4. (Massart, 1990). Quels que soient n ∈ N? et t ≥ 0,

P(√nKSn ≥ t) ≤ 2 exp(−2t2).

Par ailleurs, le théorème 4.3 permet également de calculer une valeur approchée de la p-valeur :c’est ainsi que la la p-valeur est calculée dans le logiciel R dès que n ≥ 100 .

Pour les tests de comparaison (1) et (2), on dispose d’approximations du même type baséessur les théorèmes suivants.

Théorème 4.5. (Smirnov, 1944). Soient X1, . . . , Xn un échantillon de loi continue et F0 unefonction de répartition continue. Alors sous (H0),

√nD+

nloi−−−→

n→∞W+

0

où W+0 est une variable aléatoire absolument continue, qui ne dépend pas de F0, à valeurs posi-

tives, de fonction de répartition

P(W+0 ≤ t) = 1− 2 exp(−2t2), pour t ≥ 0.

Théorème 4.6. (Massart, 1990). Quels que soient n ∈ N? et t ≥ 0,

PH0(√nD+

n > t) ≤ exp(−2t2).

4.4 Test de normalité de Kolmogorov-Smirnov

De nombreux tests usuels reposent sur l’hypothèse de normalité des données. Afin de décidersi cette hypothèse est vraisemblable ou non, on peut effectuer un test de normalité ou test d’adé-quation à la familles des lois normales. Pour cela, on considère le modèle suivant : on observeun échantillon X1, . . . , Xn de même loi que X, où X est une v.a. de fonction de répartition Finconnue et continue sur R. On souhaite tester

H0 : «X suit une loi gaussienne » contre H1 : « la loi de X n’est pas gaussienne »,

Le test du paragraphe 4.3 n’est pas adapté puisqu’il permet seulement de tester l’hypothèse H0 :X ∼ N (0, 1), ou encore H0 : X ∼ N (0, 3), ou encore H0 : X ∼ N (2, 1), . . . . S’il existe µ ∈ Ret σ > 0 tels que X ∼ N (µ, σ2), alors X a pour fonction de répartition

FX(t) = Φ

(t− µσ

),

Page 74: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

74 4.4. Test de normalité de Kolmogorov-Smirnov

où Φ est la fonction de répartition de la loiN (0, 1), et de bons estimateurs de sa moyenne et de savariance sont

µX = Xn et σ2X =

1

n− 1

n∑i=1

(Xi − Xn)2.

Aussi, le test de normalité de Kolmogorov-Smirnov est basé sur la statistique de test

DNn =

∥∥∥∥Fn − Φ

(.− µXσX

)∥∥∥∥∞

= supt∈R

∣∣∣∣Fn(t)− Φ

(t− µXσX

)∣∣∣∣ .Comme Φ est continue, le calcul pratique de DNn s’effectue exactement comme celui de

Dn

(N (µ, σ2)

):=

∥∥∥∥Fn − Φ

(.− µσ

)∥∥∥∥∞

= maxi=1,...,n

i

n− Φ

(X(i) − µ

σ

),Φ

(X(i) − µ

σ

)− i− 1

n

(4.6)

en remplaçant µ par µX et σ par σX. En revanche, la loi de DNn sous l’hypothèse de normalitén’est pas la même que la loi de Dn sous l’hypothèse nulle du test (3). On dispose cependant durésultat suivant, qui justifie l’utilisation de DNn comme statistique de test.

Théorème 4.7. Sous H0, i.e. s’il existe µ ∈ R et σ > 0 tels que X1, . . . , Xn sont i.i.d de loiN (µ, σ2), la loi de DNn ne dépend pas des paramètres inconnus µ et σ2. Il s’agit de la loi de

KSNn := supt∈R

∣∣∣∣Φn(t)− Φ

(t− µZσZ

)∣∣∣∣ ,où Z = (Z1, . . . , Zn) est un échantillon de loi N (0, 1) et de fonction de répartition empiriqueΦn.

PREUVE : D’après la formule (4.6), la loi de DNn ne dépend que de la loi de (X1, . . . , Xn). Sicet échantillon est de loiN (µ, σ2), alors il a même loi que l’échantillon (σZ1 +µ, . . . , σZn +µ),qui a pour moyenne empirique σµZ + µ et pour variance empirique σ2σ2

Z. Aussi, sous H0, DNna même loi que

supt∈R

∣∣∣∣∣ 1nn∑i=1

1IσZi+µ≤t − Φ

(t− (σµZ + µ)

σσZ

)∣∣∣∣∣ = supt∈R

∣∣∣∣∣Φn

(t− µσ

)− Φ

(t−µσ − µZσZ

)∣∣∣∣∣= sup

u∈R

∣∣∣∣Φn (u)− Φ

(u− µZσZ

)∣∣∣∣ .On peut ainsi simuler les quantiles zn,1−α d’ordre 1 − α de la loi de DNn sous H0 et rejeterl’hypothèse de normalité au niveau α lorsque

DNn ≥ zn,1−α. (4.7)

Le test de région de rejet (4.7) est appelé test de normalité de Kolmogorov-Smirnov, ou test deKolmogorov-Smirnov avec correction de Lilliefors, ou encore test de Lilliefors car ce dernier

Page 75: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 75

en a publié les tables de quantiles et étudié la puissance en 1967. On peut également calculer lap-valeur du test

p(v) = P(KSNn ≥ v)

lorsque la valeur prise par la statistique de test DNn est le réel v.

Remarque 4.3. Que se passe-t-il si l’on utilise à tort les quantiles sn,1−α propres à la statistiqueKSn pour tester l’hypothèse de normalité ? On aboutit à un test conservateur, c’est-à-dire quiconserve l’hypothèse nulle plus souvent qu’il ne devrait. En effet, on peut montrer que sn,1−α ≥zn,1−α (zn,1−α ' 2sn,1−α/3).

4.5 Compléments

Nous n’avons donné ici que quelques exemples de tests basés sur la fonction de répartitionempirique. Mais ces exemples illustrent bien les propriétés utilisées pour construire les autrestests usuels basés sur la fonction de répartition empirique. Les tests que nous avons étudiés segénéralisent au moins dans les trois directions suivantes, ce que nous illustrerons en TD et en TP.

4.5.1 Tests d’adéquation à une famille de lois paramétrée

Soient F l’ensemble des fonctions de répartition continues sur R et N le sous-ensemble desfonctions de répartition des lois normales sur R. Le test de normalité de Kolmogorov-Smirnovconsiste à tester, sur la base d’un échantillon, H0 : F ∈ N contre H1 : F ∈ F\N . On peutremplacer l’ensemble N par une autre famille de lois paramétrée, et notamment par n’importequelle famille de lois qui se déduit d’une loi connue par translation et/ou changement d’échelle.La loi de la statistique de test sous H0 dépendra de la famille de lois considérée.

4.5.2 Test de comparaison de Smirnov

Si l’on dispose de deux échantillons X = (X1, . . . , Xn) i.i.d. de fonction de répartition Fcontinue inconnue et Y = (Y1, . . . , Ym) i.i.d. de fonction de répartition G continue inconnue telsque X et Y sont indépendants, alors on peut effectuer le test bilatère

H0 : F = G contre H1 : F 6= G grâce à la statistique supt∈R |Fn(t)− Gm(t)|

ou le test unilatère

H0 : F = G contre H1 : F ≺st G grâce à la statistique supt∈R(Fn(t)− Gm(t)).

4.5.3 Tests d’adéquation basés sur d’autres distances

En remplaçant la distance de Kolmogorov-Smirnov par une autre distance bien choisie, onobtient encore des statistiques de tests dont la loi sous H0 ne dépend pas de la loi des données.

Page 76: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

76 4.6. Commandes R

Ainsi, pour le test d’adéquation à une loi donnée de H0 : F = F0 contre H1 : F 6= F0, lastatistique du test de Cramér-von Mises est

CvMn :=

∫ +∞

−∞

(√n(Fn(x)− F0(x))

)2dF0(x)

=1

12n+

n∑i=1

(F0(X(i))−

2i− 1

n

)2

,

et la statistique du test d’Anderson-Darling est

ADn :=

∫ +∞

−∞

(√n(Fn(x)− F0(x))√F0(x)(1− F0(x))

)2

dF0(x)

= −n− 1

n

n∑i=1

((2i− 1) log(F0(X(i))) + (2n+ 1− 2i) log(1− F0(X(i)))

).

Tout comme la statistique de Kolmogorov, ces statistiques peuvent être modifiées pour tester l’adé-quation à une famille de lois, ou pour comparer deux lois. En revanche, il n’est pas possible d’ef-fectuer des tests unilatères.

4.5.4 Test de Shapiro-Wilk

Le test de Shapiro-Wilk est un test de normalité exclusivement, qui repose sur des outils dif-férents. Cependant, pour tester la normalité, ce test est en pratique bien plus puissant que les testsde Kolmogorov-Smirnov, Anderson-Darling ou Cramér-von Mises, ce qui justifie sa popularité.

4.6 Commandes R

FONCTION DE RÉPARTITION EMPIRIQUE D’UN ÉCHANTILLON x = (x1, . . . , xn)

>Fn<- ecdf(x)

renvoie une fonction Fn, qu’on peut évaluer en n’importe quel point ou vecteur de points.

> plot(Fn)

construit la représentation graphique de Fn.Exemple R. Déterminons la fonction de répartition empirique des données de l’exemple 4.6.

> donnees<-c(-0.7,3.5,-0.1,1.5,-4.5)> Fn<-ecdf(donnees)

On peut alors évaluer Fn ou n’importe quelle autre fonction, par exemple Φ ici, en chacune desdonnées.

Page 77: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 77

> Fn(x)[1] 0.4 1.0 0.6 0.8 0.2> pnorm(donnees,0,1)[1] 2.419637e-01 9.997674e-01 4.601722e-01 9.331928e-01 3.397673e-06

Les commandes suivantes permettent de construire une figure similaire à la Figure 4.2.

>plot(Fn)>curve(pnorm(x,0,1),from=min(data),to=max(data),add=TRUE)

TESTS DE KOLMOGOROV-SMIRNOV

Tests de Kolmogorov de conformité à une loi donnée. On utilise une commande du type>ks.test(x,"familleF0",mu0,sigma0,alternative="...")où

— x, vecteur : échantillon observé d’une loi inconnue F— familleF0, famille paramétrée de fonctions de répartition prédéfinie dans R (pnorm,

pexp, pgamma, pcauchy, . . .), à laquelle appartient la loi donnée F0

— mu0,sigma0, réels : valeurs des paramètres de la loi F0

— alternative="two.sided" pour tester l’adéquation (H1 : F 6= F0),alternative="greater" pour H1 : F ≺st F0 (i.e. F ≥ F0 et F 6= F0),alternative="less" pour H1 : F0 ≺st F.

Exemple R. Reprenons les données de l’exemple 4.6 et réalisons le test d’adéquation à la loiN (0, 1).

> ks.test(donnees,pnorm,0,1,alternative="two.sided")

One-sample Kolmogorov-Smirnov test

data: donneesD = 0.3332, p-value = 0.5334alternative hypothesis: two-sided

Comme pour tous les tests sous R, le mieux est encore de sauvegarder l’ensemble des résultatsdu test (ci-dessous dans ksadequation), afin de pouvoir accéder par la suite uniquement à lavaleur de la statistique de test ou à la p-valeur.

> ksadequation<-ks.test(donnees,pnorm,0,1,alternative="two.sided")> ksadequation

Page 78: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

78 4.7. Applications directes du cours

One-sample Kolmogorov-Smirnov test

data: donneesD = 0.3332, p-value = 0.5334alternative hypothesis: two-sided

> ksadequation$statisticD

0.3331928> ksadequation$p.value[1] 0.5333963

Test de comparaison de Smirnov. On utilise une commande du type>ks.test(x,y,alternative="...")où :

— x, vecteur : échantillon observé d’une loi inconnue FX— y, vecteur : échantillon observé d’une loi inconnue FY— alternative="two.sided" pour l’alternative bilatère H1 : FX 6= FY ,

alternative="greater" pour H1 : FX ≺st FY .

TESTS DE NORMALITÉ

Télécharger le package nortest, ce qui sous RStudio s’effectue comme suit :— Menu Tools— Install packages— Install from : CRAN (Mirror : France)— Packages : nortest

puis charger le package>library(nortest).Cela permet d’appliquer à un échantillon x

— le test de normalité de Kolmogorov : >lillie.test(x)— le test de normalité d’Anderson-Darling : >ad.test(x)— le test de normalité de Cramér-von Mises : >cvm.test(x)— le test de normalité de Shapiro-Wilk : >shapiro.test(x).

4.7 Applications directes du cours

Exercice 4.1. Démontrer la Proposition 4.2.

Exercice 4.2. Soient X1 . . . , Xn des v.a. réelles i.i.d., on note S leur fonction de survie. Soientt0 ∈ R et p0 ∈ ]0, 1[ donnés.

Page 79: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 79

1. Proposer un estimateur Sn(t0) de S(t0) par la méthode de substitution. Est-il sans biais ?Est-il consistant ?

2. Déterminer la loi de Sn(t0).

3. Construire un intervalle de confiance de niveau asymptotique 1− α pour S(t0).

Exercice 4.3. Soient X1, . . . , Xn des v.a. i.i.d. de fonction de répartition F inconnue, et demédiane MedF . Soient α ∈]0, 1[ et t0 ∈ R donnés, construire un test de H0 : MedF =t0 contre H1 : MedF > t0

i) de niveau α;

ii) de niveau asymptotique α.

Exercice 4.4. Justifier les propriétés d’ordre stochastique pour les lois usuelles données enexemple dans le paragraphe 4.3.1.

Exercice 4.5. Pour le test de normalité de Kolmogorov-Smirnov, montrer que la région de rejetproposée est bien de niveau exactement α et justifier l’expression de la p-valeur.

4.8 Exercices et problèmes

Problème 4.1. (Test de la médiane) Soient m0 un réel donné et X1, . . . , Xn des v.a. i.i.d. defonction de répartition F inconnue, on note Med(F ) la médiane de F.

1) Déterminer la loi et l’espérance de

Mn =1

n

n∑i=1

1IXi≤m0 .

2) Proposer un test de H0 : Med(F ) = m0 contre H1 : Med(F ) > m0 asymptotiquement deniveau α.

3) Proposer un test non-asymptotique de H0 : Med(F ) = m0 contre H1 : Med(F ) > m0 deniveau α.

4) Proposer un test non-asymptotique de H0 : Med(F ) ≤ m0 contre H1 : Med(F ) > m0 deniveau α.

Problème 4.2. (Test de Cramér-Von Mises) Soient X1, . . . , Xn des v.a. i.i.d. de fonction de ré-partition F inconnue continue et F0 une fonction de répartition continue donnée. Pour tester l’hy-pothèse H0 : F = F0 contre H1 : F 6= F0, une statistique de test possible est la statistique deCramér-von Mises

CvMn = n

∫R

(Fn(t)− F0(t)

)2dF0(t),

où Fn est la fonction de répartition empirique des (Xi)1≤i≤n.

Page 80: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

80 4.8. Exercices et problèmes

1) Montrer que, presque sûrement, la statistique CvMn peut aussi s’écrire

CvMn =1

12n+

n∑i=1

(F0(X(i))−

2i− 1

2n

)2

,

où les X(i), i = 1, . . . , n, sont les statistiques d’ordre du n-échantillon (X1, . . . , Xn).

Indication : On pourra poser X(0) = −∞, X(n+1) = 1 et utiliser le développement(F0(X(k+1))−

k

n

)3

=

(F0(X(k+1))−

k + 1

n+

1

n

)3

=

(F0(X(k+1))−

k + 1

n

)3

+ . . . .

2) Montrer que la loi de CvMn sous H0 ne dépend pas de F0.

3) En déduire un test de H0 : F = F0 contre H1 : F 6= F0. On décrira tous les élémentsnécessaires à la mise en œuvre du test.

Problème 4.3. (Autour des lois exponentielles) On observe des v.a. i.i.d. X1, . . . , Xn, de mêmeloi que X , de fonction de répartition F inconnue et continue.

1. 1.1 Si X suit une loi exponentielle, donner une variable aléatoire de loi E(1) obtenue parune transformation simple de X .

1.2 Proposer une statistique de test DEn basée sur la distance de Kolmogorov-Smirnovpour tester H0 : « la loi de X est exponentielle » contre H1 : « la loi de X n’est pasexponentielle ». Vérifier que, sous H0, sa loi ne dépend pas de F . On la notera KSEn.

1.3 Décrire tous les éléments nécessaires à la mise en œuvre du test.

2. La durée de fonctionnement en heures des piles de la marque A peut être modélisée parune loi exponentielle de moyenne 1 700 h. Pour la marque B, on a observé les durées defonctionnement suivantes sur un échantillon de piles.

Durées (en h) 1681 2020 2166 2605 2762 7478 1298 1596 1770 654

2.1 Au vu de ces données, peut-on considérer que la durée de fonctionnement des piles demarque B suit une loi exponentielle ?

2.2 Une entreprise qui se fournissait jusqu’ici exclusivement chez le fabricant A souhaitesavoir s’il est utile de mettre fin à sa collaboration avec le fabricant A pour se fournirchez le fabricant B. Quel(s) test(s) peut-on lui proposer pour prendre une décision auvu de ces seules données?

Page 81: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 81

Problème 4.4. (Test de comparaison de Kolmogorov-Smirnov) Soient X1, . . . , Xm des v.a. i.i.d.de fonction de répartition F inconnue et continue, et Y1, . . . , Yn des v.a. i.i.d. de fonction de ré-partition G inconnue et continue. On suppose les deux échantillons (X1, . . . , Xm) et (Y1, . . . , Yn)indépendants. On note Fm (resp. Gn) la fonction de répartition empirique de X1, . . . , Xm (resp.Y1, . . . , Yn). On souhaite construire un test de comparaison des lois des deux échantillons basé surla statistique

Dm,n = supt∈R

(Fm(t)− Gn(t)).

1) Montrer que

Dm,n = max

i

m− j

n; pour 1 ≤ i ≤ m, 1 ≤ j ≤ n tels que Y(j) ≤ X(i) < Y(j+1)

.

2) Montrer que, lorsque F = G, la loi de Dm,n ne dépend pas de F .

3) Construire un test de H0 : F = G contre H1 : F ≺st G.

4) On souhaite comparer deux médicaments sensés soulager la douleur post-opératoire. On aobservé 16 patients, dont 8 ont pris le médicament A habituel, et les 8 autres un médicament Bexpérimental. Dans le tableau ci-dessous sont reportés les temps (en heures) entre la prise dumédicament et la sensation de soulagement.

médicament A 6,8 3,1 5,8 4,5 3,3 4,7 4,2 4,9médicament B 4,4 2,5 2,8 2,1 6,6 0,0 4,8 2,3

Sur la base de ces observations, on doit décider si le médicament B est significativementmeilleur que le médicament A. Proposer un test adapté. Comment peut-on obtenir graphi-quement la valeur de la statistique de test ?

Problème 4.5. Pour n ∈ 20, 50, on a simulé un échantillon de taille R = 10000 de chacunedes lois KSn,KSN n,KSEn. Commenter les graphiques suivants.

4.9 Correction des exercices et problèmes

Problème 4.6. (Test de la médiane)

1) Les (Xi)1≤i≤n sont i.i.d. de fonction de répartition F, donc les (1IXi≤m0)1≤i≤n sont i.i.d. deloi de Bernoulli B(F (m0)). Aussi, nMn suit la loi binomiale B(n, F (m0)),

EF [Mn] = F (m0) VarF [Mn] =F (m0)(1− F (m0))

n.

Page 82: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

82 4.9. Correction des exercices et problèmes

Histogramme d'un échantillon D0 de loi KSn

Density

0.0 0.1 0.2 0.3 0.4 0.5

05

1015

Histogramme d'un échantillon DN0 de loi KSNn

Density

0.0 0.1 0.2 0.3 0.4 0.5

05

1015

Histogramme d'un échantillon DE0 de loi KSEn

Density

0.0 0.1 0.2 0.3 0.4 0.5

05

1015

0.1 0.2 0.3 0.4 0.5

0.0

0.4

0.8

Fonctions de répartitions enpiriques

n=20

D0DN0DE0

FIGURE 4.4 – n = 20

Page 83: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 83

Histogramme d'un échantillon D0 de loi KSn

Density

0.00 0.05 0.10 0.15 0.20 0.25 0.30

05

1525

Histogramme d'un échantillon DN0 de loi KSNn

Density

0.00 0.05 0.10 0.15 0.20 0.25 0.30

05

1525

Histogramme d'un échantillon DE0 de loi KSEn

Density

0.00 0.05 0.10 0.15 0.20 0.25 0.30

05

1525

0.05 0.10 0.15 0.20 0.25 0.30

0.0

0.4

0.8

Fonctions de répartitions enpiriques

n=50

D0DN0DE0

FIGURE 4.5 – n = 50

Page 84: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

84 4.9. Correction des exercices et problèmes

2) Dans cette question, on supposera de plus que F est inversible au sens usuel, de sorte que H0 :F−1(1/2) = m0 équivaut à F (m0) = 1/2 et H1 : F−1(1/2) > m0 équivaut à F (m0) < 1/2.Il s’agit donc d’un test unilatère sur une proportion. Une statistique asymptotiquement pivotalepour F (m0) est

√n(Mnn − F (m0)

)√Mnn

(1− Mn

n

) ,

de loi asymptotique N (0, 1) d’après la loi des grands nombres, le théorème de continuité, leTCL et le lemme de Slutsky (on devrait bien sûr détailler à l’écrit les différentes étapes). Unestatistique de test est

T =

√n(Mnn − 1/2

)√Mnn

(1− Mn

n

) ,de loi asymptotique N (0, 1) sous H0. On obtient donc comme région de rejet

Rα = T ≤ Φ−1(α)

de niveau asymptotique α. CommeH0 est simple etH1 : F (m0) ∈ ]−∞, 1/2[∩[0, 1], on peutaussi partir de l’intervalle de confiance unilatère0,

Mn

n+ Φ−1(1− α)

√Mnn

(1− Mn

n

)n

de niveau de confiance asymptotique 1− α, et rejeter H0 lorsque 1/2 n’est pas dans cet inter-valle. On retrouve le même test que précédemment.

3) Dans cette question, on supposera toujours que F est inversible au sens usuel. En utilisant laloi exacte de Mn, on peut proposer un test non asymptotique de niveau α ayant une région derejet de la forme

R′α = nMn ≤ c.

La taille de ce test est FB(n,1/2)(c) et croît avec c, donc pour avoir un test de niveau α, et detaille aussi proche que possible de α, on choisira

c = supt ∈ R/FB(n,1/2)(t) ≤ α.

On notera que ce n’est pas un quantile de B(n, 1/2) au sens du cours.

4) Dans cette question, il est inutile de supposer F inversible au sens usuel, car d’après la Propo-sition 1 du Chapitre 11 ((iv), on a (sans hypothèse sur la fonction de répartition)

H0 ⇔ F (m0) ≥ 1/2 et H1 ⇔ F (m0) < 1/2.

Page 85: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 85

La région de région R′α reste de niveau α. En effet, la taille du test est alors

α? = supF/F (m0)≤1/2

PF (nMn ≤ c)

= supF/F (m0)≤1/2

P(B(n, F (m0)) ≤ c)

= sup0≤p≤1/2

P(B(n, p) ≤ c)

= sup0≤p≤1/2

(1− P(B(n, p) ≥ c+ 1)).

D’après la Proposition 5 du Chapitre 10 (ordre stochastique et loi binomiale), on a

α? = P(B(n, 1/2) ≤ c) ≤ α,

par définition de c.

Problème 4.7. (Test de Cramér-Von Mises).1) Les (Xi)1≤i≤n sont i.i.d. de fonction de répartition continue, donc (X1, . . . , Xn) est p.s. sans

ex-æquo. Fixons x = (x1, . . . , xn) ∈ Rn sans ex-æquo et posons x(0) = −∞ et x(n+1) =

+∞. Par linéarité de l’intégrale et par définition de Fn,

CvMn(x) = n

n∑k=0

Jk,

Jk =

∫ x(k+1)

x(k)

(k

n− F0(t)

)2

F. 0(t).

Or

J0 =

∫ F0(x(1))

0u2u. =

1

3F 3

0 (x(1)),

Jn =

∫ 1

F0(x(n))(u− 1)2u. = −1

3

(F0(x(n))− 1

)3,

et de même, pour k = 1, . . . , n− 1,

Jk =1

3

((F0(x(k+1))−

k

n

)3

−(F0(x(k))−

k

n

)3),

D’après l’indication, pour k = 0, . . . , n,

nJk =n

3

((F0(x(k+1))−

k + 1

n

)3

−(F0(x(k))−

k

n

)3)

+

(F0(x(k+1))−

k + 1

n

)2

+1

n

(F0(x(k+1))−

k + 1

n

)+

1

3n2,

Page 86: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

86 4.9. Correction des exercices et problèmes

d’où

CvMn(x) =n

3

n∑k=0

((F0(x(k+1))−

k + 1

n

)3

−(F0(x(k))−

k

n

)3)

+n∑k=0

((F0(x(k+1))−

k + 1

n+

1

2n

)2

+1

12n2

),

La première somme étant télescopique, on obtient finalement

CvMn(x) =1

12n+

n∑i=1

(F0(x(i))−

2i− 1

2n

)2

.

2) Soient U1, . . . , Un i.i.d. de loi U([0, 1]), on note Gn leur fonction de répartition empirique.Plaçons-nous sous H0 : F = F0. Alors, l’échantillon (F−1

0 (U1), . . . , F−10 (Un)) a même loi

que (X1, . . . , Xn), d’où

CvMn(x)L=

sous H0

n

∫R

(1

n

n∑i=1

1IF−10 (Ui)≤t − F0(t)

)2

F. 0(t).

De la propriété d’inversibilité des inégalités pour F0 et F−10 , on déduit

CvMn(x)L=

sous H0

n

∫R

(1

n

n∑i=1

1IUi≤F0(t) − F0(t)

)2

F. 0(t).

Enfin, l’image de R par F0 est contenue dans [0, 1], et comme F0 est continue, son imagecontient aussi ]0, 1[ par le théorème des valeurs intermédaires, d’où

CvMn(x)L=

sous H0

n

∫R

(Gn(u)− u

)2u. .

3) La loi de CvMn sous H0 ne dépend pas de F0, donc c’est la loi de la variable aléatoire

C0 := n

∫R

(Gn(u)− u

)2u. =

1

12n+

n∑i=1

(U(i) −

2i− 1

2n

)2

.

Aussi, on rejette H0 au niveau α lorsque CvMn ≥ cn,1−α, où cn,1−α est le quantile d’ordre1− α de C0. La p-valeur de ce test est

p(x) = infα ∈ ]0, 1[/CvMn(x) ≥ F−1C0 (1− α)

= infα ∈ ]0, 1[/FC0(CvMn(x)) ≥ 1− α= 1− FC0(CvMn(x))

= P (C0 > CvMn(x)) .

Page 87: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 87

Pour mettre en œuvre le test, on doit d’abord calculer la valeur observée de la statistique detest CvMn(x) en utilisant la formule montrée en 1), puis on peut :

— soit calculer une valeur approchée du quantile cn,1−α par simulation, et conclure en com-parant CvMn(x) à cn,1−α;

— soit calculer une valeur approchée de la p-valeur p(x) par simulation, et conclure en lacomparant au niveau choisi a priori.

Algorithme 1 (approximation du quantile cn,1−α)ENTRÉES :— n ∈ N?, taille de l’échantillon— α ∈ ]0, 1[, niveau— REP ∈ N?, nombre de répétitions pour l’approximation Monte-CarloSORTIE : c, valeur approchée de cn,1−αVARIABLE LOCALE : t = (t1, . . . , tREP ) ∈ RREP , initialisé à (0, . . . , 0), destiné à contenir

un REP -échantillon de la loi de C0

(1) Pour r = 1, . . . , REP,

1.1 simuler (ur1, . . . , urn) indépendamment selon la loi U([0, 1])

1.2 remplacer tr par 112n +

∑ni=1

(ur(i) −

2i−12n

)2.

(2) Renvoyer c = t(dREP (1−α)e) (autrement dit, ranger t1, . . . , tREP dans l’ordre croissant etgarder la coordonnée en position dREP (1− α)e).

Algorithme 2 (approximation de la p-valeur p(x))ENTRÉES :— x ∈ Rn, données observées— REP ∈ N?, nombre de répétitions pour l’approximation Monte-CarloSORTIE : p, valeur approchée de p(x)

VARIABLE LOCALE : t = (t1, . . . , tREP ) ∈ RREP , initialisé à (0, . . . , 0), destiné à contenirun REP -échantillon de la loi de C0

(1) Calculer CvMn(x) = 112n +

∑ni=1

(x(i) − 2i−1

2n

)2(2) Pour r = 1, . . . , REP,

2.1 simuler (ur1, . . . , urn) indépendamment selon la loi U([0, 1])

2.2 remplacer tr par 112n +

∑ni=1

(ur(i) −

2i−12n

)2

(3) Renvoyer p = 1REP

∑REPr=1 1Itr>CvMn(x).

Problème 4.8. (Autour des lois exponentielles)

1. 1.1 SiX suit la loi exponentielle E(θ), alors θX ∼ E(1) (calculer par exemple sa fonctionde répartition).

Page 88: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

88 4.9. Correction des exercices et problèmes

1.2 Pour θ > 0, notons Gθ la fonction de répartition de la loi E(θ). En s’inspirant du testde normalité du cours, on obtient comme statistique de test

DEn = ‖Fn −Gθ‖∞,

où Fn est la fonction de répartition empirique de (X1, . . . , Xn) et θ un estimateurde θ calculé sous l’hypothèse que (X1, . . . , Xn) suit une loi E(θ). On prendra icil’estimateur du maximum de vraisemblance : θ = 1/Xn. En s’inspirant du cours surle test de normalité de Kolmogorov, on démontre d’une part que

DEn = max1≤i≤n

i

n−Gθ(X(i));Gθ(X(i))−

i− 1

n

(4.8)

et d’autre part que, sous H0, DEn a même loi que

KSEn := supt≥0|Hn(t)−G1/Yn(t)|,

où (Y1, . . . , Yn) est un échantillon de la loi E(1), de fonction de répartition empiriqueHn.

1.3 Pour calculer la réalisation de la statistique de test DEn(x), on utilise la formule (4.8).On rejette H0 au niveau α lorsque DEn(x) ≥ cn,1−α, où cn,1−α quantile d’ordre αde la loi KSEn. Comme dans l’exercice 1, on peut calculer une approximation de cequantile en simulant un échantillon suffisamment grand de la loi de KSEn.Sinon, on peut obtenir une approximation de la p-valeur p(x) = P(KSEn > DEn(x)),toujours en simulant un échantillon suffisamment grand de la loi de KSEn.

2. Pour les applications numériques, vous aurez l’occasion de mettre en œuvre les tests propo-sés en TP.2.1 Soit n = 10, pour i = 1, . . . , on note xi la durée de fonctionnement de la ie pile

de marque B. On considère x1, . . . , xn comme des réalisations de v.a. X1, . . . , Xn defonction de répartition F continue inconnue.

2.2 Si on se place dans un modèle statistique exponentiel, on peut effectuer le test paramé-trique de la feuille 8 (exercice 3) de H0 : E[X1] = 1700 contre H1 : E[X1] > 1700.

Dans le cadre non-paramétrique où F est juste continue, on peut utiliser le test deKolmogorov deH0 : F = F0 contreH1 : F ≤ F0 et F 6= F0 (i.e. F stochastiquementsupérieure au sens strict à F0), où F0 = G1/1700.

Problème 4.9. (Test de comparaison de Kolmogorov-Smirnov)1) Notons Y(0) = −∞ et Y(n+1) = +∞. Lorsque X(m) < Y(1), on obtient facilement que

Dm,n = 1 p.s.. De même, lorsque Y(n) < X(1), on obtient facilement que Dm,n = 0 p.s..Sinon, il existe bien au moins un intervalle [Y(j), Y(j+1)[ qui contient l’une des X(i). Pour untel intervalle, on a pour t ∈ [Y(j), Y(j+1)[, Fm(t)− Gn(t) = Fm(t)− j/n à valeurs dans

i

m− j

npour 1 ≤ i ≤ m tels que Y(j) ≤ X(i) < Y(j+1)

.

Page 89: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 89

En revanche, un intervalle [Y(j), Y(j+1)[ ne contenant aucune des X(i) ne contribue pas aucalcul de Dm,n, car la valeur de Fm(t)− Gn(t) peut alors être majorée par une quantité appar-tenant à l’ensemble ci-dessus (regarder par exemple ce qui se passe pour t ∈ [X(i0), Y(j)[, oùX(i0) est la plus grande statistique d’ordre de X précédent Y(j)).

2) Soit (U1, . . . , Un+m) un échantillon de loi U(]0, 1[), alors (F−1(U1), . . . , F−1(Um)) et(G−1(Um+1), . . . , G−1(Um+n)) sont deux échantillons indépendants, de F et G respecti-vement. Comme Dm,n est une fonction mesurable de (X1, . . . , Xm, Y1, . . . , Yn) (voir 1)),sa loi ne dépend que de celle de (X1, . . . , Xm, Y1, . . . , Yn), qui est la même que celle de(F−1(U1), . . . , F−1(Um), G−1(Um+1), . . . , G−1(Um+n)). Aussi

Dm,nL= sup

t∈R

1

m

m∑i=1

1IF−1(Ui)≤t −1

n

n∑j=1

1IG−1(Um+j)≤t

.

D’après la Proposition 1, (iv),

Dm,nL= sup

t∈R

1

m

m∑i=1

1IUi≤F (t) −1

n

n∑j=1

1IUm+j≤G(t)

L= sup

t∈R

(G1:m(F (t))− Gm+1:m+n(G(t))

),

où G1:m et Gm+1:m+n sont respectivement les fonctions de réparitions empiriques de(U1, . . . , Um) et (Um+1, . . . , Um+n). Sous H0, F = G, donc

Dm,nL=

sous H0

supu∈F (R)

(G1:m(u)− Gm+1:m+n(u)

),

où G1:m et Gm+1:m+n sont respectivement les fonctions de réparitions empiriques de(U1, . . . , Um) et (Um+1, . . . , Um+n). Par continuité (théorème des valeurs intremédiaires),

]0, 1[⊂ F (R) ⊂ [0, 1].

Comme G1:m(u)− Gm+1:m+n(u) est nulle p.s. en 0 et 1, on obtient que

Dm,nL=

sous H0

KSCm,n,

oùKSCm,n = sup

u∈[0,1]

(G1:m(u)− Gm+1:m+n(u)

).

3) Comme H1 ⇔ (F ≥ G et F 6= G), on considère une région de rejet de la forme

Rα = Dm,n ≥ c.

Comme la loi de KSCm,n est continue, on vérifie comme dans le cours qu’en choisissant pourc le quantile d’ordre 1−α de KSCm,n, la région de rejet est bien de niveau α. Si la statistiquede test prend la valeur dm,n, on démontre comme dans le cours que la p− valeur est

p(dm,n) = P(KSCm,n ≥ dm,n).

Page 90: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

90 4.9. Correction des exercices et problèmes

4) Ici, n = m = 8, et on note Ai le temps de soulagement du ie patient avec le médicament Aet Bj le temps de soulagement du je patient avec le médicament B. On suppose A1, . . . , A8

i.i.d. de même loi FA continue inconnue, B1, . . . , B8 i.i.d. de même loi FB. De plus, comme ils’agit de 2 groupes distincts de patients, on suppose les 2 échantillons indépendants. On peuttester

H0 : FA = FB contre H1 : FB ≺st FA.

À l’aide la question 1., on pourra s’amuser à retrouver sur le graphique ci-dessous la valeur dela statistique de test, donnée dans la sortie R :

> A<-c(6.8, 3.1, 5.8, 4.5, 3.3,4.7,4.2,4.9)> B<-c(4.4,2.5,2.8,2.1,6.6,0.0,4.8 ,2.3)> ks.test(B,A,alternative="greater")

Two-sample Kolmogorov-Smirnov test

data: B and AD^+ = 0.625, p-value = 0.04394alternative hypothesis: the CDF of x lies above that of y

On observe clairement ici (voir Figure 4.6) que FB ≺st FA. De plus, on rejette H0 au niveau5%.

Problème 4.10. Pour n ∈ 20, 50, on a simulé un échantillon de taille R = 10000 de chacunedes lois KSn,KSN n,KSEn. Commenter les graphiques suivants.

Pour n = 20, les trois histogrammes représentent des densités à support dansR+, unimodales,légèrement asymétriques, avec une queue à droite plus longue que la queue à gauche. De plus, ilsemble que la queue à droite de KSn soit plus lourde que celle de KSEn ,elle-même plus lourdeque celle de KSN n. La position du mode est différente : c’est pour pour KSn qu’elle semble êtrela plus à droite. Pour KSEn et KSN n, la position du mode semble grosso modo être la même,mais la valeur du mode de KSN n semble être un peu plus élevée. Par ailleurs, il semble que

FKSn ≤ FKSEn ≤ FKSNn ,

ce qui laisse supposer queKSN n st KSEn st KSn.

Au final, il semble que KSN n ait tendance à prendre des valeurs plus petites que KSEn, quielle-même a tendance à prendre des valeurs plus petites que KSn.

Pour n = 50, on peut faire les mêmes observations, et rajouter que la position du mode deKSEn semble ici être plus à droite que celle du mode de KSN n.

Enfin, lorsque n = 50 semblent être plus concentrée autour du mode (support plus restreint,valeur du mode plus élevée).

En tout cas, on ne sera pas étonné de constater que les 3 lois sont différentes et dépendent den.

Page 91: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 4. TESTS BASÉS SUR LA FONCTION DE RÉPARTITION EMPIRIQUE 91

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

t

Echantillon AEchantillon B

FIGURE 4.6 – Fonctions de répartition empiriques des échantillons A et B.

Page 92: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

92 4.9. Correction des exercices et problèmes

Page 93: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 5

TESTS DU KHI-DEUX

Sommaire5.1 Test d’adéquation à une loi donnée . . . . . . . . . . . . . . . . . . . . . . . 94

5.1.1 Objectif et principe du test . . . . . . . . . . . . . . . . . . . . . . . . 945.1.2 Reformulation du test en terme de loi multinomiale . . . . . . . . . . . 955.1.3 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . 965.1.4 Quelques remarques pratiques . . . . . . . . . . . . . . . . . . . . . . 975.1.5 Exemple : Croisements de cobayes de race pure . . . . . . . . . . . . 97

5.2 Test d’adéquation à une famille de lois paramétrée . . . . . . . . . . . . . . 995.2.1 Objectif et principe du test . . . . . . . . . . . . . . . . . . . . . . . . 995.2.2 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . 1005.2.3 Application : adéquation à une famille de lois binomiales . . . . . . . . 101

5.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1025.3.1 Variables observées et objectif du test . . . . . . . . . . . . . . . . . . 1025.3.2 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.3.3 Éléments caractéristiques du test . . . . . . . . . . . . . . . . . . . . . 1045.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4 Usage des tests du khi-deux dans un cadre non-paramétrique . . . . . . . . 1065.4.1 Exemple de test d’adéquation à une loi discrète de support infini . . . . 1075.4.2 Exemple de test d’adéquation à une famille de lois discrètes de support

infini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095.5 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . 1125.6 Annexe : Propriétés et quantiles des lois du khi-deux . . . . . . . . . . . . . 1135.7 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.8 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . 117

Références : On pourra consulter en première approche Dacunha-Castelle et Duflo (1994);Lejeune (2010); Prum (2010). Pour des résultats plus pointus sur l’utilisation des tests du khi-deux dans des cadres non-paramétriques, voir Lehmann (1997); van der Vaart (1998).

93

Page 94: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

94 5.1. Test d’adéquation à une loi donnée

Les exemples concrets utilisés dans ce chapitre sont fortement inspirés de mon passage à l’IUTParis Descartes (merci à FLORENCE MURI).

Par tests du khi-deux, on désigne toute une famille de tests d’objectifs divers (ajustement,indépendance, homogénéité, symétrie, ...) ayant en commun de mesurer l’écart à l’hypothèse nullevia un certain type de pseudo-distance, que nous définirons dans la suite comme une divergencedu khi-deux. De plus, toutes les statistiques de test associées suivent approximativement une loidu χ2 sous l’hypothèse nulle. Au sens strict, les tests du khi-deux ne sont valables que pour desdonnées qualitatives (ou discrètes) à support fini, et sont donc des tests paramétriques ! Cependant,en pratique, ces tests sont aussi couramment appliqés à des données discrètes à support infini, voirecontinues, après regroupement en classes. Nous évoquerons cette utilisation non-paramétrique destests du khi-deux à la fin du chapitre.

5.1 Test d’adéquation à une loi donnée

5.1.1 Objectif et principe du test

Soit X une variable aléatoire qualitative ou quantitative discrète à K modalités, notéesa1, . . . , aK , de loi π = (π1, . . . , πK) inconnue, où

πk = P(X = ak) > 0, pour k = 1, . . . ,K.

On dispose de n données x1, . . . , xn considérées comme des réalisations de n variables aléa-toires X1, . . . , Xn indépendantes et de même loi que X . On se donne par ailleurs une loi deprobabilité L0 sur a1, . . . , aK entièrement connue, caractérisée par le vecteur de probabilitép0 = (p0

1, . . . , p0K) tel que

0 < p0k < 1 pour k = 1, . . . ,K, et

K∑k=1

p0k = 1.

Autrement dit, Y0 ∼ L0 si et seulement si pour tout k ∈ 1, . . . ,K,P(Y0 = ak) = p0k. On

souhaite tester

(H0) : X ∼ L0 contre (H1) : X ne suit pas la loi L0.

Les hypothèses du test se traduisent donc par

(H0) : ∀ k ∈ 1, . . . ,K, πk = p0k contre (H1) : ∃ k ∈ 1, . . . ,K tel que πk 6= p0

k.

Pour construire la statistique de test, une idée naturelle consiste à estimer la loi de probabilité πde X à partir de l’échantillon (X1, . . . , Xn), et à comparer cet estimateur à la loi p0. Pour 1 ≤k ≤ K, en notant Nk le nombre (aléatoire) de fois où l’on obtient la valeur ak dans l’échantillon(X1, . . . , Xn), i.e. Nk =

∑ni=1 1IXi=ak , on estime πk par Nk/n. On considère alors la variable

aléatoire

Tn = n

K∑k=1

(Nkn − p

0k

)2

p0k

(5.1)

Page 95: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 95

qui s’écrit aussi

Tn =

K∑k=1

(Nk − np0

k

)2np0

k

. (5.2)

Tn mesure donc la « distance » entre les proportions observées et les proportions théoriques sousH0, ou encore la « distance » entre les effectifs observés et les effectifs théoriques sous H0. Maisil ne s’agit pas d’une distance au sens mathématique du terme puisqu’il n’y a pas symétrie entreproportions observées et théoriques.

Définition 5.1. Étant données deux lois de probabilités p = (p1, . . . , pK) et q = (q1, . . . , qK) sura1, . . . , aK, avec pour tout k, qk 6= 0, on appelle divergence du khi-deux de la loi p à la loi qla quantité

χ2(p; q) =K∑k=1

(pk − qk)2

qk.

En notant π = (N1/n, . . . , NK/n), on observe que

Tn = nχ2(π;p0). (5.3)

Remarque 5.1. Dans tout le chapitre, on désignera par χ2 aussi bien la divergence du khi-deuxentre deux lois de probabilité (χ2(p; q)) que la loi du χ2 à d degrés de liberté (χ2(d)), le sens dela notation étant évident d’après le contexte.

5.1.2 Reformulation du test en terme de loi multinomiale

Rappelons tout d’abord deux caractérisations des lois multinomiales.

Définition 5.2. Soient d, n ∈ N? et p = (p1, . . . , pd) ∈ [0, 1]d tel que p1+. . .+pd = 1. Un vecteuraléatoireN = (N1, . . . , Nd) défini sur un espace de probabilité (Ω,A,P) suit la loi multinomialede paramètres n et p si pour tous entiers naturels n1, . . . , nd tels que n1 + . . .+ nd = n,

P(N = (n1, . . . , nd)) =n!

n1! . . . nd!pn1

1 . . . pndd .

On note alorsN ∼M(n,p).

Expérience type. On dispose de n boules, que l’on jette une par une aléatoirement dans d boîtesdifférentes, chaque boule ayant la probabilité pk d’être jetée dans la ke boîte. En notant Nk lenombre de boules dans la ke boîte, on a

N = (N1, . . . , Nd) ∼M(n, (p1, . . . , pd)).

Autrement dit, on considère une expérience à d issues, de probabilités respectives p1, . . . , pd,encore appelée épreuve multinomiale. On réalise cette expérience n fois de manière indépendante.Le résultat de l’épreuve composée suit une loi multinomiale, et en particulier binomiale lorsqued = 2. Comme son nom l’indique, la loi multinomiale généralise la loi binomiale.

Page 96: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

96 5.1. Test d’adéquation à une loi donnée

La statistique de test Tn ne dépend de X1, . . . , Xn que via les variables de comptageN1, . . . , NK . Comme les (Xi)1≤i≤n sont i.i.d. de loi π, le vecteur N = (N1, . . . , NK) suit laloi multinomialeM(n,π). Le test précédent peut donc aussi être présenté comme un test d’adé-quation à une loi multinomiale connue, d’hypothèses

H0 : N ∼M(n,p0) contre H1 : N ne suit pasM(n,p0).

5.1.3 Éléments caractéristiques du test

Dans toute cette partie, on se place dans un modèle paramétrique, au sens où le nombre Kde classes est fini et ne dépend pas de la taille d’échantillon n. Tout d’abord, on vérifie que lecomportement de la statistique de test Tn n’est pas le même sous H0 et sous H1.

Proposition 5.1. SousH0 et sousH1, Tn/np.s.−−−→n→∞

χ2(π;p0). En particulier, sousH1, Tnp.s.−−−→n→∞

+∞.Par ailleurs, la loi de Tn sous H0 est connue, au moins asymptotiquement.

Théorème 5.1. Sous H0, TnL−−−→

n→∞χ2(K − 1).

Remarque 5.2. On observe que Tn =∑K

k=1(Y(k)n )2 où

Y (k)n =

√nNk/n− p0

k√p0k

.

Cependant, appliquer le TCL en dimension 1 à chacune des variablesNk ne suffit pas pour prouverle théorème 5.1. En effet, d’une part, pour tout 1 ≤ k ≤ K,

Y (k)n

L sous H0−−−−−−→n→∞

N (0, 1− p0k),

de sorte que (Y (k)n

)2 L sous H0−−−−−−→n→∞

(1− p0k)χ

2(1),

et d’autre part, les (Y(k)n )1≤k≤K ne sont pas indépendantes

(∑Kk=1Nk = n

).

Remarque 5.3. Une loi de probabilité à K modalités est entièrement caractérisée par la donnéedes probabilités de K − 1 modalités, d’où le nombre de degrés de liberté de la loi limite.

Les résultats précédents permettent de définir une région de rejet asymptotique.

Corollaire 5.1. Soit α ∈ ]0, 1[, le test de région de rejet

Tn > F−1χ2(K−1)

(1− α) (5.4)

est un test de niveau asymptotique α de H0 contre H1.

La décision peut aussi être basée sur le degré de significativité des données.

Corollaire 5.2. Lorsque la valeur observée de la statistique de test est le réel t, la p-valeur asso-ciée à la famille des tests de régions de rejet (5.4) vérifie

p(t) = PH0(Tn ≥ t) −−−→n→∞

P(χ2(K − 1) ≥ t).

Page 97: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 97

5.1.4 Quelques remarques pratiques

On considère généralement que l’approximation de la loi de Tn sous H0 par une loi du χ2 estbonne lorsque les effectifs théoriques vérifient

np0k ≥ 5 pour tout k ∈ 1, . . . ,K. (5.5)

Lorsque ce n’est pas le cas, on regroupe des classes (si cela a un sens) jusqu’à ce que ces condi-tions soient vérifiées. Mais, attention : lorsqu’on regroupe des modalités, la région de rejet changepuisque la loi limite de Tn sous H0 dépend du nombre de classes.

5.1.5 Exemple : Croisements de cobayes de race pure

On considère une espèce de cobayes ayant les caractéristiques suivantes :— le gène responsable de la couleur du pelage est présent sous la forme de deux allèles, l’un

dominant N associé au noir, l’autre récessif b associé au blanc ;— le gène responsable de la couleur du pelage est présent sous la forme de deux allèles, l’un

dominant C associé aux poils courts, l’autre récessif l associé aux poils longs ;— les gènes responsables de la couleur et de la longueur du pelage sont sur des chromosomes

différents ;— chaque parent donne, au hasard, à son descendant une copie d’un des deux chromosomes

de chaque paire, et ce indépendamment de l’autre parent.On croise deux cobayes de race pure, noir à poil court, NC, et blanc à poil long, bl, i.e. de géno-types 1 NN CC et bb ll. À la première génération, on obtient des cobayes de génotype Nb Cl,et donc de phénotype 2 NC. D’après la loi de Mendel, pour la deuxième génération de cobayes(croisement de cobayes de génotype Nb Cl ×Nb Cl), les phénotypes sont répartis ainsi :

P(NC) =9

16; P(Nl) =

3

16; P(bC) =

3

16; P(bl) =

1

16.

Après croisement de cobayes de race pure, on a obtenu à la deuxième génération 560 cobayes dontla répartition des phénotypes est donnée dans le tableau suivant.

Phénotype NC Nl bC bl

Nombre de cobayes à la 327 118 90 252e génération

Au vu de ces observations, on se demande si la loi de Mendel est vérifiée dans ce cas.

Traduction du problème en termes mathématiques. Codons par exemple les phénotypes NC,Nl, bC, bl, respectivement par 1, 2, 3, 4. Ici, X représente le phénotype d’un cobaye de la 2e gé-nération, à valeurs dans 1, 2, 3, 4. On considère que les données dont on dispose correspondent

1. Le génotype est l’ensemble des gènes portés par l’ADN chromosomique d’une cellule.2. Le phénotype est la partie observable ou visible des caractères génétiques d’un individu, résultant du génotype

et de l’environnement.

Page 98: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

98 5.1. Test d’adéquation à une loi donnée

à une réalisation d’un échantillon (X1, . . . , Xn) de même loi que X , avec comme taille d’échan-tillon n = 560.

La loi L0 est la loi sur 1, 2, 3, 4 caractérisée par les probabilités

p01 =

9

16, p0

2 =3

16, p0

3 =3

16, p0

4 =1

16.

Fixons-nous comme niveau α = 5%. Il s’agit de tester au niveau 5%

H0 : X ∼ L0 contre H1 : X ne suit pas la loi L0.

Calcul de tn, réalisation de la statistique de test Tn pour nos observations. Ici, n = 560. Onnote nk la réalisation de la variable Nk, qui donne l’effectif observé associé à la ke modalité.

Phénotype NC Nl bC bl TotalModalité no 1 2 3 4 *

Probabilités théoriques p0k sous H0 9/16 3/16 3/16 1/16 1

Effectifs théoriques np0k sous H0 315 105 105 35 560

Effectifs observés nk 327 118 90 25 560(nk−np0k)2

np0k0,4571 1,6095 2,1429 2,8571 tn ≈ 7, 1

Région de rejet de niveau asymptotique 5%. Tous les effectifs théoriques np0k sont bien supé-

rieurs à 5 donc aucun regroupement de classes n’est nécessaire. Comme il y a K = 4 modalités,sous (H0), Tn =

∑4i=1

(Nk−np0k)2

np0ksuit approximativement la loi χ2(3). Le quantile d’ordre 95%

de cette loi est d’après la table de l’annexe 5.6 : k3,95% ≈ 7, 81. La région de rejet de niveauasymptotique 5% est donc

Rn,α = Tn > 7, 81.

Conclusion pour le test au niveau 5%. Au vu de nos observations, on ne rejette pas l’hypothèseH0 au niveau asymptotique de 5%, autrement dit nos observations ne sont pas en désaccord avecla loi de Mendel.

Calcul approché de la p-valeur.

p(tn) ≈ P(χ2(3) ≤ tn) ≈ 1− Fχ2(3)(7, 1) ≈ 0, 07

Au vu de nos observations, on rejette donc l’hypothèse nulle à tout niveau supérieur à 7%, et on laconserve sinon.

Mise en œuvre du test sous R. Il suffit de définir le vecteur Nobs des effectifs observés et levecteur ptheo des probabilités théoriques sous H0.

Page 99: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 99

> Nobs<- c(327,118,90,25)> ptheo<- c(9/16,3/16,3/16,1/16)> chisq.test(Nobs, p=ptheo)

Chi-squared test for given probabilities

data: Nobs

X-squared = 7.0667, df = 3, p-value = 0.0698

5.2 Test d’adéquation à une famille de lois paramétrée

5.2.1 Objectif et principe du test

Comme pour le test d’ajustement du khi-deux à une loi donnée, on observe une variable aléa-toire X qualitative ou quantitative discrète à K modalités, notées a1, . . . , aK . On dispose de ndonnées x1, . . . , xn considérées comme des réalisations de n variables aléatoires X1, . . . , Xn in-dépendantes et de même loi que X . On note toujours π la loi, inconnue, de X. Etant donnée unefamille de lois de probabilité (L(θ))θ∈Θ définies sur a1, . . . , aK, on veut tester l’hypothèse

H0 : Il existe θ ∈ Θ tel que X ∼ L(θ)

contreH1 : La loi de X n’appartient pas à la famille (L(θ))θ∈Θ .

Par exemple, (L(θ))θ∈Θ peut être la famille des lois binomiales B(K, θ), pour θ ∈]0, 1[. Plus gé-néralement, les lois (L(θ))θ∈Θ sont caractérisées par les vecteurs de probabilité sur a1, . . . , aKde la famille

P(Θ) = p(θ); θ ∈ Θ,

où pour tout θ ∈ Θ, p(θ) = (p1(θ), . . . , pK(θ)) avec

p(θ) ∈ ]0, 1[K etK∑k=1

pk(θ) = 1.

On souhaite donc tester l’hypothèse H0 : π ∈ P(Θ) contre H1 : π /∈ P(Θ). Pour construire lastatistique de test, on remplace p0 dans Tn par « la loi de P(Θ) la plus proche de π au vu desdonnées », c’est-à-dire la loi p(θn), où θn est l’estimateur du maximum de vraisemblance de θbasé sur X1, . . . , Xn sous H0. Cela donne comme nouvelle statistique de test

Tn = nK∑k=1

(Nk/n− pk(θn)

)2

pk(θn)=

K∑k=1

(Nk − npk(θn)

)2

npk(θn)= nχ2(π;p(θn)).

Page 100: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

100 5.2. Test d’adéquation à une famille de lois paramétrée

5.2.2 Éléments caractéristiques du test

Là encore, les résultats théoriques usuels ne sont valables que dans le cadre paramétrique où lenombre de classes K est un entier fixé indépendamment de la taille d’échantillon n. On admettrale théorème suivant, dont la démonstration dépasse le cadre de ce cours.

Théorème 5.2. (admis) On suppose que

i) Θ est un ouvert de Rd où d < K − 1;

ii) pour tout θ ∈ Θ et tout k ∈ 1, . . . ,K, pk(θ) > 0 et∑K

k=1 pk(θ) = 1;

iii) l’application p : θ ∈ Θ→ p(θ) est injective ;

iv) l’application p est de classe C2;

v) pour tout θ ∈ Θ, les d dérivées partielles de p en θ sont linéairement indépendantes, i.e. lesd vecteurs de RK

∂jp =

(∂

∂θjp1(θ), . . . ,

∂θjpK(θ)

)T, j = 1, . . . , d

forment une famille libre de RK ;

vi) pour tout θ ∈ Θ, si X1, . . . , Xn sont i.i.d. de loi p(θ), alors θnp.s.−−−→n→∞

θ.

Alors, sous H0, TnL−−−→

n→∞χ2(K − 1− d).

On en déduit une région de rejet de niveau asymptotique α.

Corollaire 5.3. Soit α ∈]0, 1[, le test région de rejet

Tn > F−1χ2(K−1−d)

(1− α) (5.6)

est un test de niveau asymptotique α de H0 contre H1.

Remarque 5.4. Le nombre de degrés de liberté de la loi asymptotique est donné par « nombre declasses - 1 - nombre de paramètres à estimer sous H0. »

Remarque 5.5. L’estimation de d paramètres réduit le nombre de degrés de liberté de la loi asymp-totique sousH0 par rapport au test d’adéquation à une loi donnée. Pour un niveau α donné, le seuilde rejet est donc d’autant plus petit que d est grand.

On peut aussi calculer une approximation de la p-valeur.

Corollaire 5.4. Lorsque la valeur observée de la statistique de test Tn est le réel t, la p-valeurassociée à la famille des tests de régions de rejet (5.6) vérifie

p(t) = PH0(Tn ≥ t) −−−→n→∞

P(χ2(K − 1− d) ≥ t).

Page 101: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 101

5.2.3 Application : adéquation à une famille de lois binomiales

On observe X1, . . . , Xn i.i.d. de même loi que X , à valeurs dans 0, . . . , L, où L ne dépendpas de n. On veut tester

H0 : X suit une loi binomiale non triviale, i.e. X ∼ B(L, θ), 0 < θ < 1

contreH1 : X ne suit pas une loi binomiale.

Toutes les hypothèses du théorème 5.2 sont ici clairement remplies. En notant pour tout k =0, . . . , L, pk(θ) = CkLθ

k(1− θ)L−k, la statistique de test

Tn = nL∑k=0

(Nk/n− pk(Xn/L)

)2pk(Xn/L)

converge donc en loi sous H0 vers la loi χ2(L− 1).

Exemple : Nombre de garçons dans une fratrie. Pour 10000 fratries de quatre enfants exac-tement, on a relevé le nombre de garçons :

Nombre de garçons 0 1 2 3 4Effectifs 572 2329 3758 2632 709

On modélise les naissances de la manière suivante :— les naissances sont indépendantes ;— chaque naissance correspond à la naissance d’un garçon avec probabilité θ, ou d’une fille

avec probabilité 1− θ.Testons

H0 : X ∼ B(4, θ), où 0 < θ < 1

contreH1 : X ne suit pas une loi B(4, θ), 0 < θ < 1.

Sous H0, l’EMV de θ est θn = Xn/4, qui vaut ici 0, 514425.

Nombre de garçons 0 1 2 3 4 TotalProbabilités théoriques pk(θn) sous H0 0,0556 0,2356 0,3744 0,2644 0,07 1Effectifs théoriques npk(θn) sous H0 555,9 2355,9 3743,8 2 644,1 700,3 10 000

Effectifs observés nk 572 2329 3758 2632 709 10 000

Écarts (nk−npk(θn))2

npk(θn)0.4641 0.3064 0.0542 0.0556 0.1079 tn ≈ 0, 99

Sous H0,

Tn =4∑

k=0

(Nk − npk(θn))2

npk(θn)

Page 102: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

102 5.3. Test d’indépendance

suit approximativement la loi χ2(3) donc on rejette H0 au niveau asymptotique de 5% lorsque

Tn > 7, 81.

On observe ici tn ≈ 0, 99 donc on ne rejette pas H0. Par ailleurs, le degré de significativité vaut

p(tn) ≈ P (χ2(3) ≥ 0.99) ≈ 0.8

donc on conserve H0 à tout seuil inférieur à 80%, et en particulier à tout seuil usuel.

Mise en œuvre du test sous R. Le logiciel R ne sait faire que des tests du khi-deux d’adéquationà une loi donnée. Cela permet au moins de calculer rapidement la valeur de Tn, mais quant à larègle de décision proposée par le logiciel ... Voici les sorties R pour l’exemple précédent.

> classes<-c(0,1,2,3,4)> Nobs<-c(572,2329,3758,2632,709) #effectifs observés> n<-sum(Nobs) #taille d'échantillon> hatheta<- sum(Nobs*classes)/(n*4);hatheta #estimation de theta[1] 0.514425> ptheo<-dbinom(0:4,4,hatheta);ptheo[1] 0.05559366 0.23558683 0.37437602 0.26441282 0.07003067> chisq.test(Nobs, p=ptheo)

Chi-squared test for given probabilities

data: Nobs

X-squared = 0.9883, df = 4, p-value = 0.9116

On notera que la p-valeur des sorties R est plus grande que la p-valeur calculée « à la main », cequi n’est pas surprenant, n’est-ce pas?

5.3 Test d’indépendance

5.3.1 Variables observées et objectif du test

Soient X et Y deux variables aléatoires qualitatives ou discrètes admettant un nombre finide modalités. On note a1, . . . , aK les modalités de X et b1, . . . , bL celles de Y . On dispose den données (x1, y1), . . . , (xn, yn) considérées comme les réalisations de n couples de variables(X1, Y1), . . . , (Xn, Yn) indépendants et de même loi que le couple (X,Y ), et on souhaite tester

H0 : X et Y sont indépendantes contre H1 : X et Y sont dépendantes.

Page 103: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 103

5.3.2 Principe du test

Donnons juste dans ce paragraphe une justification heuristique pour la construction de la sta-tistique de test. La loi du couple de variables (X,Y ) est caractérisée par les probabilités

P(X = ak, Y = bl), 1 ≤ k ≤ K, 1 ≤ l ≤ L.

En termes mathématiques, les hypothèses H0 et H1 peuvent donc s’écrire sous la formeH0 : Pour tous 1 ≤ k ≤ K et 1 ≤ l ≤ L,

P(X = ak, Y = bl) = P(X = ak)P(Y = bl)

H1 : Il existe k0 ∈ 1, . . . ,K et l0 ∈ 1, . . . , L tels que

P(X = ak0 , Y = bl0) 6= P(X = ak0)P(Y = bl0).

On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables aléatoires— Nkl, nombre de couples de variables (Xi, Yi), pour 1 ≤ i ≤ n, tels que Xi = ak ET

Yi = bl (« nombre de fois où le couple de variables (X,Y ) prend la valeur (ak, bl) »)— Nk• =

∑Ll=1Nkl, nombre de variablesXi, 1 ≤ i ≤ n, qui prennent la valeur ak (« nombre

de fois où la variable X prend la valeur ak »)— N•l =

∑Kk=1Nkl, nombre de variables Yi, pour 1 ≤ i ≤ n, qui prennent la valeur bl

(« nombre de fois où la variable Y prend la valeur bl »).Etant donnée une réalisation (x1, y1), . . . , (xn, yn) de (X1, Y1), . . . , (Xn, Yn), on note respective-ment nkl, nk• et n•l les réalisations correspondantes deNkl, Nk• etN•l, qui peuvent être représen-tées dans le tableau de contingence ci-dessous. On estime alors, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L,

X \ Y b1 . . . bl . . . bL Totala1 n11 . . . n1l . . . n1L n1•...

......

......

......

ak nk1 . . . nkl . . . nkL nk•...

......

......

......

aK nK1 . . . nKl . . . nKL nK•

Total n•1 . . . n•l . . . n•L n

TABLE 5.1 – Tableau de contingence des variables X et Y

— P(X = ak et Y = bl) par Nkl/n— P(X = ak)P(Y = bl) par Nk•N•l/n

2.En s’inspirant des paragraphes précédents, on obtient la statistique de test

In = nK∑k=1

L∑l=1

(Nkln −

Nk•N•ln2

)2

Nk•N•ln2

=K∑k=1

L∑l=1

(Nkl − Nk•N•l

n

)2

Nk•N•ln

.

Page 104: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

104 5.3. Test d’indépendance

5.3.3 Éléments caractéristiques du test

On suppose K et L fixés indépendamment de n.

Proposition 5.2. On suppose que pour tous 1 ≤ k ≤ K et 1 ≤ l ≤ L, P(X = ak) > 0 etP(Y = bl) > 0. Alors, sous H0,

InL−−−→

n→∞χ2 ((K − 1)(L− 1)) .

PREUVE : Effectuons la preuve pour K = L = 2, le cas général étant laissé en exercice. Dans lemodèle global (que l’on soit sous H0 ou sous H1), la loi jointe π de (X,Y ) appartient à la familledes lois de probabilité P de support a1, a2 × b1, b2, qui sont caractérisées par 3 paramètres.Notons qk = P(X = ak), rl = P(Y = bl) et Θ = θ = (q1, r1) ∈ ]0, 1[2. Le modèle sous H0 estcaractérisé par la famille de loi P(Θ) = p(θ), θ ∈ Θ où p11(θ) = q1r1, p12(θ) = q1(1 − r1),p21(θ) = (1 − q1)r1 et p22(θ) = (1 − q1)(1 − r1). Les points i) et ii) sont donc vérifiés avecd = 2 et K − 1 = 3. On observe que q1 = p11(θ) + p12(θ) et r1 = p21(θ) + p22(θ), d’où iii).L’application p est polynomiale en chacune des variables, d’où iv). Sa différentielle en θ ∈ Θ apour matrice

r1 q1

1− r1 −q1

−r1 1− q1

−(1− r1) −(1− q1)

qui est clairement de rang 2, d’où v). Enfin, pour tous x ∈ a1, a2n, y ∈ b1, b2n et θ =(q1, r1) ∈ Θ, la log-vraisemblance sous H0 s’écrit

`(x,y; θ) = (n11+n12) log(q1)+(n21+n22) log(1−q1)+(n11+n21) log(r1)+(n12+n22) log(1−r1).

Cette fonction est clairement strictement concave en chacune des variables q1 et r1, et strictementconcave en θ par additivité (inutile de dériver pour cela !). Il suffit donc de trouver le point critique,qui correspondra bien à un maximum global. Le point critique est caractérisé par les équations

n1•q1

=n2•q2

etn•1r1

=n•2r2.

Comme n = n1• + n2• = n•1 + n•2, l’EMV de θ est θ = (N1•/n,N•1/n), qui vérifie bien vi)par la loi forte des grands nombres. CQFD

Remarque 5.6. Comment retrouver rapidement le nombre de degrés de liberté?Nombre de modalités du couple (X,Y ) : KLNombre de paramètres à estimer sous H0 : sous (H0), pour tous 1 ≤ k ≤ K et 1 ≤ l ≤ L,P(X = ak et Y = bl) = P(X = ak)P(Y = bl), donc il suffit d’estimer les P(X = ak), pourk = 1, . . . ,K − 1, et les P(Y = bl), pour l = 1, . . . , L− 1.Nombre de d.d.l. (KL− 1)− [(K − 1) + (L− 1)] = (K − 1)(L− 1).

Page 105: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 105

Comme précédemment, on en déduit immédiatement région de rejet et p-valeur.

Corollaire 5.5. Soit α ∈]0, 1[, le test région de rejet

In > F−1χ2((K−1)(L−1))

(1− α) (5.7)

est un test de niveau asymptotique α de H0 contre H1.

Corollaire 5.6. Lorsque la valeur observée de la statistique de test est le réel i, la p-valeur asso-ciée à la famille des tests de régions de rejet (5.7) vérifie

p(i) = PH0(In ≥ i) −−−→n→∞

P(χ2((K − 1)(L− 1)) ≥ i).

5.3.4 Exemple

On souhaite savoir si le temps écoulé depuis la vaccination contre une maladie donnée a ounon une influence sur le degré de gravité de la maladie lorsque celle-ci se déclare. Les patients sontdivisés en 3 catégories selon la gravité de la maladie – légère (L), moyenne (M) ou grave (G)– eten 3 autres selon la durée écoulée depuis la vaccination – moins de 10 ans (A), entre 10 et 25 ans(B), plus de 25 ans (C). Les résultats d’une étude portant sur 1574 malades sont donnés dans letableau suivant. Que peut-on conclure au vu des résultats de cette étude?

A B C TotalG 1 42 230 273M 6 114 347 467L 23 301 510 834

Total 30 457 1087 1574

TABLE 5.2 – Tableau de contingence en effectifs

D’un point de vue purement descriptif, on peut comparer par exemple les lois conditionnellesempiriques de la durée depuis la vaccination sachant la gravité de la maladie, qui ont l’air vraimenttrès différentes, ce qui tend à soutenir l’hypothèse de dépendance. De même, on pourrait comparerles lois conditionnelles empiriques de la gravité sachant la durée.

A B C TotalG 0.003663004 0.1538462 0.8424908 1M 0.012847966 0.2441113 0.7430407 1L 0.027577938 0.3609113 0.6115108 1

TABLE 5.3 – Lois conditionnelles empiriques de la durée sachant la gravité

Sous R, le test du χ2 d’indépendance d’hypothèses

Page 106: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

106 5.4. Usage des tests du khi-deux dans un cadre non-paramétrique

A B CG 0.03333333 0.09190372 0.2115915M 0.20000000 0.24945295 0.3192272L 0.76666667 0.65864333 0.4691812

Total 1 1 1

TABLE 5.4 – Lois conditionnelles empiriques de la gravité sachant la durée

H0 : La durée depuis la vaccination et la gravité de la maladie sont indépendantes

contre

H1 : La durée depuis la vaccination et la gravité de la maladie sont liées.

peut être obtenu en rentrant d’abord le tableau de contingence en effectifs.

> contingence<-matrix(c(1,42,230,6,114,347,23,301,510),nrow=3,ncol=3,byrow=TRUE)> contingence

[,1] [,2] [,3][1,] 1 42 230[2,] 6 114 347[3,] 23 301 510> chisq.test(contingence)

Pearson's Chi-squared test

data: contingence

X-squared = 61.3105, df = 4, p-value = 1.538e-12

Le test confirme que les données sont en faveur de l’hypothèse de dépendance à tous les seuilsusuels.

5.4 Usage des tests du khi-deux dans un cadre non-paramétrique

N’importe quel test du khi-deux peut s’appliquer en pratique pour tester l’adéquation à des loisdiscrètes de support infini ou à des lois continues, en effectuant des regroupements en classes jus-qu’à ce qu’une condition du type (5.5) soit vérifiée. Cependant, le choix des classes peut s’avérerdélicat et deux regroupements en classes différents peuvent conduire à des conclusions différentes.Dans le cas des tests du χ2 d’adéquation pour des données continues, il est recommandé d’utili-ser des classes équiprobables sous H0. Autant pour les lois discrètes les tests du khi-deux restentincontournables, autant pour les lois continues on dispose de tests à la fois adaptés à la nature desdonnées et non-asymptotiques (voir Chapitres 4, 6, par exemple).

Page 107: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 107

5.4.1 Exemple de test d’adéquation à une loi discrète de support infini

Dans une entreprise, le nombre d’accidents du travail par semaine était modélisé jusqu’ici parla loi de Poisson P(4). Pour savoir si ce modèle est toujours valable, on étudie le nombre d’acci-dents du travail par semaine sur les 4 dernières années environ. Les données observées portent sur200 semaines. Elles sont reportées dans le tableau 5.5 et représentées sur la figure 5.1.

Nombre d’accidents k par semaine Effectifs observés Effectifs théoriques nP(P(4) = k)

0 5 3.71 28 14.72 47 29.33 41 39.14 27 39.15 21 31.36 19 20.97 5 11.98 4 69 3 2.610 0 1.111 0 0.412 0 0.113 0 0.0414 0 0.01≥ 15 0 ≤ 2.10−5

TABLE 5.5 – Données observées et loi P(4)

On considère les données comme des réalisations i.i.d. d’une v.a. X de loi discrète de sup-port N (modèle non-paramétrique, car décrit par une infinité de paramètres), où xi est le nombred’accidents observés la ie semaine et n = 200. On souhaiterait tester

X ∼ P(4) contre X 6∼ P(4).

Pour se ramener à un nombre fini de classes, on regroupe les modalités de la loi P(4) jusqu’àobtenir des classes Ck, k = 1, . . . ,K, d’effectifs théoriques np0

k ≥ 5 (cf. Tableau 5.6).

Classes Ck C1 C2 C3 C4 C5 C6 C7 C8

Nombre d’accidents par semaine 0 ou 1 2 3 4 5 6 7 8 ou 9Effectifs théoriques np0

k 18.3 29.3 39.1 39.1 31.3 20.8 11.9 10.2

TABLE 5.6 – Regroupement en classes basé sur la loi P(4)

On regroupe ensuite les données observées selon les classes (Ck)1≤k≤K précédemment dé-finies. Quitte à remplacer les classes Ck par leur numéro k, les données ainsi transformées,(y1, . . . , yn), sont des réalisations de Y telle Y = k si et seulement si X ∈ Ck. En notant π

Page 108: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

108 5.4. Usage des tests du khi-deux dans un cadre non-paramétrique

0 2 4 6 8 10 12 14

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Fréquences empiriquesLoi P(4)

FIGURE 5.1 – Comparaison de la loi empirique et de la loi P(4)

la loi de Y, on sait donc tester

H0 : π = p0 contre H1 : π 6= p0, (5.8)

où la loi théorique p0 n’est plus la loi P(4), mais la loi décrite dans le tableau 5.6. On comparedonc les lois représentées sur la figure 5.2.

On effectue alors le test d’adéquation du khi-deux à une loi donnée sur la base du tableau 5.7,le nombre de degrés de liberté de la loi limite de la statistique de test sous H0 étant K − 1 = 7.

Classes Ck C1 C2 C3 C4 C5 C6 C7 C8

Nombre d’accidents par semaine 0 ou 1 2 3 4 5 6 7 ≥ 8

Effectifs observés nk 33 47 41 27 21 19 5 7Effectifs théoriques np0

k 18.3 29.3 39.1 39.1 31.3 20.8 11.9 10.2

TABLE 5.7 – Regroupement en classes basés sur la loi P(4)

La valeur observée de la statistique de test est

t = n8∑

k=1

(nk/n− p0k)

2

p0k

≈ 35,

Page 109: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 109

C1 C2 C3 C4 C5 C6 C7 C8

Fréquences observéesFréquences théoriques

Fréq

uenc

e

0.00

0.05

0.10

0.15

0.20

FIGURE 5.2 – Comparaison de la loi empirique et de la loi p0 issues du regroupement en classes

et une approximation de la p-valeur est

p(t) ≈ P(χ2(7) > t) ≈ 10−5.

Pour le test (5.8), on rejette donc H0 au niveau asymptotique 5% : la loi P(4) ne correspond doncpas aux données observées.

5.4.2 Exemple de test d’adéquation à une famille de lois discrètes de support infini

On reprend les données de l’exemple précédent pour tester maintenant l’adéquation à la familledes lois de Poisson :

H0 : «X suit une loi de Poisson » contre H1 : «X ne suit pas une loi de Poisson ».

Tout d’abord, on estime le paramètre θ de la loi de Poisson sous l’hypothèse X ∼ P(θ) parl’EMV θ. Ici, on observe θ = xn ≈ 3.33 (cf. Figure 5.3). On regroupe alors les modalités de laloi P(θ) jusqu’à obtenir des classes Ck, k = 1, . . . ,K(θ), d’effectifs théoriques npk(θ) ≥ 5 (cf.Tableaux 5.8, 5.9 et Figure 5.3).

On regroupe ensuite les données observées selon les classes (Ck)1≤k≤K(θ) précédemment

définies, renumérotées de 1 àK(θ).On récupère les données transformées, (y1, . . . , yn), où yi = ksi et seulement si xi ∈ Ck (cf. Tableau 5.10 et Figure 5.4).

On calcule enfin la statistique de test et une approximation de sa loi sous H0 selon le principe

Page 110: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

110 5.4. Usage des tests du khi-deux dans un cadre non-paramétrique

0 2 4 6 8 10 12 14

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Fréquences empiriques

P(θ)

FIGURE 5.3 – Comparaison de la loi empirique et de la loi P(θ)

Nombre d’accidents k par semaine Effectifs observés Effectifs théoriques nP(P(θ) = k)

0 5 7.21 28 23.82 47 39.73 41 44.14 27 36.75 21 24.46 19 13.67 5 6.48 4 2.79 3 110 0 0.311 0 0.112 0 0.0313 0 0.00714 0 0.002≥ 15 0 ≤ 3.10−6

TABLE 5.8 – Données observées et loi P(θ)

Page 111: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 111

C1 C2 C3 C4 C5 C6 C7 C8

Fréquences observéesFréquences théoriques

Fréq

uenc

e

0.00

0.05

0.10

0.15

0.20

FIGURE 5.4 – Comparaison de la loi empirique et de la loi p issues du regroupement en classes

Classes Ck C1 C2 C3 C4 C5 C6 C7 C8

Nombre d’accidents par semaine 0 1 2 3 4 5 6 ≥ 7

Effectifs théoriques npk 7.2 23.8 39.7 44.1 36.7 24.4 13.6 10.6

TABLE 5.9 – Regroupement en classes basé sur la loi P(θ)

Page 112: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

112 5.5. Applications directes du cours

Classes Ck C1 C2 C3 C4 C5 C6 C7 C8

Nombre d’accidents par semaine 0 1 2 3 4 5 6 ≥ 7

Effectifs empiriques n′k 5 28 47 41 27 21 19 12Effectifs théoriques npk 7.2 23.8 39.7 44.1 36.7 24.4 13.6 10.6

TABLE 5.10 – Regroupement en classes basé sur la loi P(θ)

décrit dans le paragraphe 5.2. Aussi, la statistique de test vaut

t = n

8∑k=1

(n′k/n− pk)2

pk≈ 8,

et on considère qu’elle suit approximativement sous H0 la loi χ2((K − 1) − 1) = χ2(6), d’oùl’approximation de la p-valeur

p(t) ≈ P(χ2(6) > t) ≈ 0.21.

Il semble donc qu’on doive conserver H0 à tout niveau usuel, autrement dit le modèle de Pois-son est acceptable pour les données observées. Cependant, on perd en fait tout résultat théoriquepuisque les classes définies ici dépendent aussi des données.

5.5 Applications directes du cours

Exercice 5.1. Montrer que, pour K = 2, le test du khi-deux d’adéquation à une loi donnée estéquivalent au test asymptotique de conformité d’une proportion.

Exercice 5.2. Pour le test d’adéquation à la famille des lois binomiales du paragraphe 5.2.3, mon-trer que les hypothèses du Théorème 5.2 sont bien remplies.

Exercice 5.3. Pour le test d’indépendance du paragraphe 5.3, avec des nombres de classes K etL quelconques ne dépendant pas de n, vérifier que les hypothèses du Théorème 5.2 sont bienremplies.

Page 113: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 113

5.6 Annexe : Propriétés et quantiles des lois du khi-deux

Définition 5.3. Soient ν ∈ N? etX1, . . . , Xν des variables aléatoires indépendantes de loi normalecentrée réduite N (0, 1). On appelle loi du χ2 à ν degrés de libertés, et on note χ2(ν), la loi deX2

1 + . . .+X2ν .

On déduit immédiatement de la définition les propriétés 1, 2 et 4, ci-dessous, et on se reportera auTD1 pour le lien avec la famille des lois Gamma.

Proposition 5.3. Soient µ, ν ∈ N?.1. Si X ∼ χ2(ν), alors E(X) = ν et Var(X) = 2ν.

2. χ2(ν) = Γ (ν/2, 1/2), d’où en particulier χ2(2) = E(1/2).

3. Si X ∼ χ2(ν), Y ∼ χ2(µ) et X et Y sont indépendantes, alors X + Y ∼ χ2(µ+ ν).

4. Si µ < ν, alors χ2(µ) ≺st χ2(ν).

FIGURE 5.5 – Densité de la loi χ2(ν) pour ν1, 2, 3, 4

Page 114: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

114 5.7. Exercices et problèmes

Soit Fν la fonction de répartition de la loi χ2(ν) et q ∈ ]0, 1[. Le quantile d’ordre q de χ2(ν)est le réel t tel que Fν(t) = q.

qν 0.005 0.010 0.025 0.050 0.100 0.250 0.500 0.750 0.900 0.950 0.975 0.990 0.9951 0.0000393 0.000157 0.000982 0.00393 0.0158 0.102 0.455 1.32 2.71 3.84 5.02 6.63 7.882 0.0100 0.0201 0.0506 0.103 0.211 0.575 1.39 2.77 4.61 5.99 7.38 9.21 10.63 0.0717 0.115 0.216 0.352 0.584 1.21 2.37 4.11 6.25 7.81 9.35 11.3 12.84 0.207 0.297 0.484 0.711 1.06 1.92 3.36 5.39 7.78 9.49 11.1 13.3 14.95 0.412 0.554 0.831 1.15 1.61 2.67 4.35 6.63 9.24 11.1 12.8 15.1 16.76 0.676 0.872 1.24 1.64 2.20 3.45 5.35 7.84 10.6 12.6 14.4 16.8 18.57 0.989 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.0 14.1 16.0 18.5 20.38 1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.2 13.4 15.5 17.5 20.1 22.09 1.73 2.09 2.70 3.33 4.17 5.90 8.34 11.4 14.7 16.9 19.0 21.7 23.610 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.5 16.0 18.3 20.5 23.2 25.211 2.60 3.05 3.82 4.57 5.58 7.58 10.3 13.7 17.3 19.7 21.9 24.7 26.812 3.07 3.57 4.40 5.23 6.30 8.44 11.3 14.8 18.5 21.0 23.3 26.2 28.313 3.57 4.11 5.01 5.89 7.04 9.30 12.3 16.0 19.8 22.4 24.7 27.7 29.814 4.07 4.66 5.63 6.57 7.79 10.2 13.3 17.1 21.1 23.7 26.1 29.1 31.315 4.60 5.23 6.26 7.26 8.55 11.0 14.3 18.2 22.3 25.0 27.5 30.6 32.816 5.14 5.81 6.91 7.96 9.31 11.9 15.3 19.4 23.5 26.3 28.8 32.0 34.317 5.70 6.41 7.56 8.67 10.1 12.8 16.3 20.5 24.8 27.6 30.2 33.4 35.718 6.26 7.01 8.23 9.39 10.9 13.7 17.3 21.6 26.0 28.9 31.5 34.8 37.219 6.84 7.63 8.91 10.1 11.7 14.6 18.3 22.7 27.2 30.1 32.9 36.2 38.620 7.43 8.26 9.59 10.9 12.4 15.5 19.3 23.8 28.4 31.4 34.2 37.6 40.021 8.03 8.90 10.3 11.6 13.2 16.3 20.3 24.9 29.6 32.7 35.5 38.9 41.422 8.64 9.54 11.0 12.3 14.0 17.2 21.3 26.0 30.8 33.9 36.8 40.3 42.823 9.26 10.2 11.7 13.1 14.8 18.1 22.3 27.1 32.0 35.2 38.1 41.6 44.224 9.89 10.9 12.4 13.8 15.7 19.0 23.3 28.2 33.2 36.4 39.4 43.0 45.625 10.5 11.5 13.1 14.6 16.5 19.9 24.3 29.3 34.4 37.7 40.6 44.3 46.926 11.2 12.2 13.8 15.4 17.3 20.8 25.3 30.4 35.6 38.9 41.9 45.6 48.327 11.8 12.9 14.6 16.2 18.1 21.7 26.3 31.5 36.7 40.1 43.2 47.0 49.628 12.5 13.6 15.3 16.9 18.9 22.7 27.3 32.6 37.9 41.3 44.5 48.3 51.029 13.1 14.3 16.0 17.7 19.8 23.6 28.3 33.7 39.1 42.6 45.7 49.6 52.330 13.8 15.0 16.8 18.5 20.6 24.5 29.3 34.8 40.3 43.8 47.0 50.9 53.731 14.5 15.7 17.5 19.3 21.4 25.4 30.3 35.9 41.4 45.0 48.2 52.2 55.032 15.1 16.4 18.3 20.1 22.3 26.3 31.3 37.0 42.6 46.2 49.5 53.5 56.333 15.8 17.1 19.0 20.9 23.1 27.2 32.3 38.1 43.7 47.4 50.7 54.8 57.634 16.5 17.8 19.8 21.7 24.0 28.1 33.3 39.1 44.9 48.6 52.0 56.1 59.035 17.2 18.5 20.6 22.5 24.8 29.1 34.3 40.2 46.1 49.8 53.2 57.3 60.336 17.9 19.2 21.3 23.3 25.6 30.0 35.3 41.3 47.2 51.0 54.4 58.6 61.637 18.6 20.0 22.1 24.1 26.5 30.9 36.3 42.4 48.4 52.2 55.7 59.9 62.938 19.3 20.7 22.9 24.9 27.3 31.8 37.3 43.5 49.5 53.4 56.9 61.2 64.239 20.0 21.4 23.7 25.7 28.2 32.7 38.3 44.5 50.7 54.6 58.1 62.4 65.540 20.7 22.2 24.4 26.5 29.1 33.7 39.3 45.6 51.8 55.8 59.3 63.7 66.8

FIGURE 5.6 – Table des quantiles d’ordre q de la loi χ2(ν)

5.7 Exercices et problèmes

Problème 5.1. On étudie la désintégration de particules radioactives. Pour 100 particules de mêmenature, supposées indépendantes, on a observé les durées de vie suivantes en secondes.

Page 115: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 115

Durée de vie 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 20Nombre de particules 21 17 14 10 9 6 4 3 2 3 2 3 1 1 1 2 1

Pour chacune des questions, on décrira le modèle statistique et les hypothèses du test pourlesquels les résultats théoriques s’appliquent.

1. Pour des particules radioactives que nous appellerons de type α, la durée de vie est mo-délisée par une loi géométrique sur N de moyenne 7 secondes. Peut-on considérer que lesparticules observées sont de type α?

2. Peut-on modéliser la durée de vie des particules observées par une loi géométrique?

On pourra utiliser les sorties R suivantes.

>table(x)

x0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 2021 17 14 10 9 6 4 3 2 3 2 3 1 1 1 2 1

>mean(x)[1] 3.73

>sd(x)[1] 4.158125

>var(x)[1] 17.29

> dgeom(0:20,p=1/8)

[1] 0.1250 0.1094 0.0957 0.0837 0.0733 0.0641 0.0561

[8] 0.0491 0.0430 0.0376 0.0329 0.0288 0.0252 0.0220

[15] 0.0193 0.0169 0.0148 0.0129 0.0113 0.0099 0.0087

> phat<-1/(1+3.73);phat[1] 0.21142

> dgeom(0:20,p=phat)

[1] 0.2114 0.1667 0.1315 0.1037 0.0818 0.0645 0.0508

Page 116: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

116 5.7. Exercices et problèmes

[8] 0.0401 0.0316 0.0249 0.0197 0.0155 0.0122 0.0096

[15] 0.0076 0.0060 0.0047 0.0037 0.0029 0.0023 0.0018

Problème 5.2. (Modèle de Hardy-Weinberg) Dans une population à l’équilibre génétique par rap-port à un gène à 2 allèles A et a, la probabilité de chacun des génotypes AA, Aa et aa est de laforme

P(AA) = p2A, P(Aa) = 2pApa, P(aa) = p2

a,

où 0 < pA, pa < 1. Sur une île isolée vit une population de mouettes. Chez 100 mouettes choisiesau hasard et de manière indépendante dans la population, on a observé le génotype correspondantau gène G et obtenu les résultats suivants.

Génotype AA Aa aa

Nombre de mouettes 13 49 38

Au vu de ces observations, on veut tester

H0 : la population est à l’équilibre génétique pour le gène G

contre

H1 : la population n’est pas à l’équilibre génétique pour le gène G.

1. Définir le modèle statistique.

2. Montrer que l’hypothèse H0 peut être décrite par une famille de lois à un seul paramètre.

3. Construire le test du khi-deux de H0 contre H1.

4. Conclure au niveau 5%.

Problème 5.3. (Test de comparaison pour données éventuellement appariées). On observe un n-échantillon (Xi, Yi)1≤i≤n à valeurs dans 1, . . . , N2 tel que pour (k, l) ∈ 1, . . . , N2, πk,l =P(X1 = k, Y1 = l) > 0. On veut tester la symétrie de la loi de (X1, Y1), c’est-à-dire tester

H0 : (X1, Y1) a même loi que (Y1, X1)contre

H1 : (X1, Y1) et (Y1, X1) n’ont pas la même loi.

Pour cela, on considère la statistique de test

Tn =∑

1≤k<l≤N

(Nk,l −Nl,k)2

Nk,l +Nl,k,

où Nk,l désigne le nombre de fois où l’on observe le couple (k, l) dans l’échantillon.Dans la suite, on s’intéressera uniquement au cas N = 2 (Test de MacNemar).

Page 117: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 117

1. Comment s’expriment H0 et Tn lorsque N = 2?

2. Etudier le convergence presque sûre de Tn/n sous H0 et sous H1.

3. Déterminer la loi limite de (N12 −N21)/n sous H0. En déduire la loi limite de Tn sous H0

et une région de rejet de niveau asymptotique α.

4. Formuler le test comme un test d’adéquation à une famille de lois paramétrée. Retrouver lerésultat de la question précédente en utilisant le théorème du cours.

5.8 Correction des exercices et problèmes

Problème 5.4. Rappelons la définition de la loi géometrique de paramètre θ ∈]0, 1[ et de supportN, que nous noterons G(θ) : Z ∼ G(θ) signifie que, pour tout k ∈ N,

P(Z = k) = θ(1− θ)k.

L’espérance de Z est alors 1/θ − 1.Pour les applications numériques, on se reportera au corrigé R.

1. Pour i = 1, . . . , n, où n = 100, on observe Xi, durée de vie de la ie particule en secondes.On suppose X1, . . . , Xn i.i.d. de support N. On souhaiterait tester

H0 : X1 ∼ G(1/8) contre H1 : X1 G(1/8).

Pour pouvoir utiliser un test du khi-deux, on regroupe les données en classes C1, . . . , CKtelles que

nP(G(1/8) ∈ Ck) ≥ 5,

soit iciP(G(1/8) ∈ Ck) ≥ 0, 05.

On définit ainsi K = 13 classes (voir corrigé R), où C1 = 0, C2 = 1, . . . , C7 =6, C8 = 7, 8, C9 = 9, 10, C10 = 11, 12, C11 = 13, 14, 15, C12 =16, 17, 18, 19, 20, C13 = n ∈ N t.q. n ≥ 21. Pour définir la loi √0, on remplace la

loi G(1/8) par la loi de support 1, . . . , 13 déduite de la loi G(1/8) après ce regroupementen classes. De même, pour i = 1, . . . , n, on définit Yi par

Yi = k lorsque Xi ∈ Ck, pour k = 1, . . . ,K.

Les (Yi)1≤i≤n sont i.i.d., de même loi π inconnue de support 1, . . . , 13. On peut donceffectuer le test du khi-deux d’adéquation à une loi donnée de H ′0 : Y1 ∼ p0 contre H ′1 :Y1 p0. La loi asymptotique de la statistique de ce test sous H ′0 est d’après le cours la loiχ2(13− 1).

2. On souhaiterait tester

H0 : la loi de X1 appartient à la famille G = G(θ), θ ∈]0, 1[contre

H1 : la loi de X1 n’appartient pas à G.

Page 118: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

118 5.8. Correction des exercices et problèmes

Pour pouvoir utiliser un test du khi-deux :

(i) On calcule l’EMV θ de θ sous H0.

(ii) On regroupe les données en classes C1, . . . , CK telles que

nP(G(θ) ∈ Ck) ≥ 5,

soit iciP(G(θ) ∈ Ck) ≥ 0, 05.

(iii) On définit Yi par Yi = k lorsque Xi ∈ Ck, pour k = 1, . . . , K.

Ici, le nombre de classes K est aléatoire, donc le théorème du cours (test du khi-deux d’adé-quation à une famille de lois paramétrée) ne s’applique plus. Cependant, dans la pratique, onutilise quand même la règle donnée par ce théorème : ici K(x) = 10 et on a estimé un seulparamètre donc on approche la loi de la statistique de test sous H0 par la loi χ2(10−1−1).Quant au calcul de l’EMV dans le modèle G, on explicitera la vraisemblance et on vérifierasans difficulté particulière que

θ =1

Xn + 1,

(qui par ailleurs est un EMM).

Problème 5.5. (Modèle de Hardy-Weinberg)

1. Codons les génotypes AA,Aa et aa respectivement par 1, 2 et 3. Pour i = 1, . . . , n, oùn = 100, on observe Xi, génotype de la ie mouette, et les (Xi)1≤n sont supposées i.i.d. demême loi π appartenant à la famille P3 des lois de probabilité de support 1, 2, 3.

2. Comme p2A + 2pApa + p2

a = 1, pa et pA sont liés par pa + pA = 1. Soient Θ =]0, 1[ et

P(Θ) = p(θ) = (θ2, 2θ(1− θ), (1− θ)2), θ ∈ Θ,

alors H0 équivaut à π ∈ P(Θ).

3. Il reste à vérifier les 6 hypothèses du théorème 8 (paragraphe 12.2.2).

i) Θ est un ouvert de Rd, où d = 1 < K − 1 puisque K = 3.

ii) P(Θ) ⊂ P3 (évident).

iii) Comme θ =√p1(θ), p est injective.

iv) Chaque coordonnée de p est polynomiale en θ, donc p est de classe C2.

v) Pour tout θ ∈ Θ, le vecteur

Dp(θ) = 2

θ1− 2θθ − 1

est différent du vecteur nul (0, 0, 0)T .

Page 119: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 119

vi) Plaçons-nous sous H0, de sorte qu’il existe θ ∈ Θ tel que π = p(θ). Pour θ ∈ Θ etx = (x1, . . . , xn) ∈ 1, 2, 3n, la log-vraisemblance s’écrit

`(θ; x) =n∑i=1

logPθ(Xi = xi)

= n1 log(θ2) + n2 log(2θ(1− θ)) + n1 log((1− θ)2)

= (2n1 + n2) log(θ) + (n2 + 2n3) log(1− θ) + n2 log(2).

où nk =∑n

i=1 1Ixi=k. Comme

`′(θ; x) =(2n1 + n2)− 2nθ

θ(1− θ),

on obtient comme estimateur du maximum de vraisemblance

θ =2N1 +N2

n.

Par la loi forte des grands nombres, θ converge bien p.s. vers θ sous H0.

D’après le théorème 8, Tn = nχ2(π,p(θ)) converge en loi sous H0 vers χ2(3−1−1)degrés de liberté. On se rapportera au script R pour le calcul de la statistique de test.

4. Voir script R.

Problème 5.6. (Test de comparaison pour données éventuellement appariées). On observe un n-échantillon (Xi, Yi)1≤i≤n à valeurs dans 1, 22 tel que pour (k, l) ∈ 1, 22, πk,l = P(X1 =k, Y1 = l) > 0. On veut tester la symétrie de la loi de (X1, Y1), c’est-à-dire tester

H0 : (X1, Y1) a même loi que (Y1, X1)contre

H1 : (X1, Y1) et (Y1, X1) n’ont pas la même loi.

1. Comme N = 2, H0 équivaut à π12 = π21. Pour (k, l) ∈ 1, 22, P(X1 = k) = πk1 + πk2

et P(Y1 = l) = π1l + π2l, donc pour N = 2, H0 est aussi équivalente à X1 et Y1 ont mêmeloi. Enfin, pour N = 2,

Tn =(N21 −N12)2

N21 +N12.

2. Par la loi forte des grands nombres,

N12

n

p.s.−−−→n→∞

π12 etN21

n

p.s.−−−→n→∞

π21,

donc par continuité

Tnn

=(N21n −

N12n )2

N12n + N21

n

p.s.−−−→n→∞

(π21 − π12)2

π12 + π21.

Cette limite est nulle sous H0 et strictement positive sous H1.

Page 120: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

120 5.8. Correction des exercices et problèmes

3. Pour 1 ≤ i ≤ n, notons Zi = 1I(Xi,Yi)=(1,2) − 1I(Xi,Yi)=(2,1). Les (Zi)1≤i≤n sont i.i.d. et,sous H0, elles sont centrées de variance 2π12. On déduit donc du théorème central limit que

√n

(N12 −N21

n

)L sous H0−−−−−−→n→∞

N (0, 2π12).

On remarquera qu’il ne suffit pas d’appliquer le TCL àN12/n d’une part et àN21/n d’autrepart : chacune de ces 2 variables a une loi asymptotique non dégénérée, donc on ne peut pasutiliser le lemme de Slutsky.Par continuité,

(N12 −N21)2

n

L sous H0−−−−−−→n→∞

2π12χ2(1)

etN12 +N21

n

P sous H0−−−−−→n→∞

2π12,

donc par le lemme de Slutsky

TnL sous H0−−−−−−→n→∞

χ2(1).

Une région de rejet de niveau asymptotique α pour un test de H0 contre H1 est donc Rα =Tn ≥ F−1

χ2(1)(1− α).

4. Notons P4 l’ensemble des lois de probabilité de support 1, 2 × 1, 2. Ces lois ont doncun support à K = 4 éléments. Définissons

Θ = θ = (θ1, θ2) tels que 0 < θ1 < 1, 0 < θ2 < 1, θ1 + θ2 < 1

et

P(Θ) =

p(θ) =

(θ1,

1− (θ1 + θ2)

2,1− (θ1 + θ2)

2, θ2

), θ ∈ Θ

,

alorsH0 équivaut à π ∈ P(Θ) etH1 équivaut à π /∈ P(Θ). Il reste à vérifier les 6 hypothèsesdu théorème 8 (paragraphe 12.2.2).

i) Θ est un ouvert de Rd, où d = 2 < K − 1 puisque K = 4.

ii) P(Θ) ⊂ P4 (évident).

iii) θ1 = p11(θ) et θ2 = p22(θ) donc p est injective.

iv) Chaque coordonnée de p est polynomiale en θ, donc p est de classe C2.

v) Pour tout θ ∈ Θ, la matrice

Dp(θ) =

1 0−1/2 −1/2−1/2 −1/2

0 1

est clairement de rang maximal d = 2.

Page 121: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 5. TESTS DU KHI-DEUX 121

vi) Plaçons-nous sous H0, de sorte qu’il existe θ ∈ Θ tel que π = p(θ). Pour θ ∈Θ etz = ((x1, y1), . . . , (xn, yn)) ∈ (1, 2 × 1, 2)n , la log-vraisemblance s’écrit

`(θ; z) =n∑i=1

logPθ((Xi, Yi) = (xi, yi))

=2∑

k=1

2∑l=1

n∑i=1

log pkl(θ)1I(xi,yi)=(k,l)

= n11 log(θ1) + (n12 + n21) log(1− (θ1 + θ2))

+ n22 log(θ2)− (n12 + n21) log(2).

où nkl =∑n

i=1 1I(xi,yi)=(k,l). Comme x 7→ log(x) et x 7→ log(1− x) sont strictementconcaves sur ]0, 1[, il en est de même pour θ ∈ Θ 7→ `(θ, z) : s’il existe un pointcritique, il correspond à l’unique maximum global. Il existe effectivement un pointcritique, caractérisé par

n11

θ1=n22

θ2=

n12 + n21

1− (θ1 + θ2).

Comme n11 + n22 + n12 + n21 = n, on obtient comme estimateur du maximum devraisemblance

θ = (N11/n,N22/n).

Par la loi forte des grands nombres dans R2, θ converge bien p.s. vers θ sous H0.

D’après le théorème 8, Tn = nχ2(π,p(θ)) converge en loi sous H0 vers χ2(4−1−2)degrés de liberté, et un petit calcul permet de vérifier que Tn correspond à la statistiqueTn de l’énoncé.

Page 122: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

122 5.8. Correction des exercices et problèmes

Page 123: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 6

TESTS BASÉS SUR LES RANGS

Sommaire6.1 Statistiques de rang : définition et propriétés . . . . . . . . . . . . . . . . . 1236.2 Test de comparaison des positions de deux échantillons indépendants . . . 125

6.2.1 Les statistiques de Wilcoxon et de Mann-Whitney . . . . . . . . . . . . 1256.2.2 Propriétés sous l’hypothèse F = G . . . . . . . . . . . . . . . . . . . 1276.2.3 Formulation mathématique des hypothèses de test . . . . . . . . . . . . 127

6.3 Tests de comparaison des positions de deux échantillons : bilan . . . . . . . 1286.3.1 Récapitulatif des tests unilatères . . . . . . . . . . . . . . . . . . . . . 1296.3.2 Comparaison asymptotique des tests de Student et de Wilcoxon . . . . 1316.3.3 Comparaison non-asymptotique des 4 tests . . . . . . . . . . . . . . . 1326.3.4 Conclusion des tests pour les données de l’exemple . . . . . . . . . . . 141

6.4 Applications directes du cours . . . . . . . . . . . . . . . . . . . . . . . . . 1426.5 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1436.6 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . 144

Références : Les tests basés sur les rangs sont très utilisés en pratique, mais il existe peu deréférences à la fois rigoureuses et accessibles sur le sujet. Si vous souhaitez un jour approfondir laquestion, vous pourrez par exemple consulter Lehmann (1997) et van der Vaart (1998) (Chapitre13). On trouvera dans Lejeune (2010) (Chapitre 10) et Thas (2010) une présentation succincte plusabordable.

6.1 Statistiques de rang : définition et propriétés

On suppose dans ce paragraphe que X1, . . . , Xn sont des variables aléatoires définies sur unmême espace de probabilité (Ω,A,P), indépendantes, de même loi, et de fonction de répartitionF continue. L’échantillon X = (X1, . . . , Xn) ne contient donc presque sûrement pas d’ex-æquo.

Définition 6.1. Dire que X(.) = (X(1), . . . , X(n)) est le vecteur des statistiques d’ordre de Xsignifie que, pour tout ω ∈ Ω,

X(1)(ω), . . . , X(n)(ω) = X1(ω), . . . , Xn(ω) et X(1)(ω) ≤ X(2)(ω) ≤ . . . ≤ X(n)(ω).

123

Page 124: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

124 6.1. Statistiques de rang : définition et propriétés

Définition 6.2. On appelle statistiques de rang (ou vecteur des rangs) associées à X la variablealéatoire RX = (RX(1), . . . , RX(n)) telles que RX(i) est le rang de Xi dans l’échantillon Xréordonné dans l’ordre croissant.

Remarque 6.1. Comme l’échantillon X ne contient p.s. pas d’ex-æquo, on a p.s.

X(1) < X(2) < . . . < X(n),

et le vecteur des rangs est défini de manière unique p.s.

Pour tout ω ∈ Ω, on identifie le vecteur RX(ω) à la permutation de 1, . . . , n

RX(ω) : 1, . . . , n −→ 1, . . . , ni 7−→ RX(ω)(i)

et le vecteur des rangs RX à une permutation aléatoire, i.e. RX : Ω → Sn, où Sn désignel’ensemble des permutations de 1, . . . , n. Rangs et statistiques d’ordre sont donc liés par lapropriété, immédiate, suivante.

Proposition 6.1. Soit σ ∈ Sn,

RX(ω) = σ =∀ i = 1, . . . , n,Xi = X(σ(i))

=∀ j = 1, . . . , n,Xσ−1(j) = X(j)

=Xσ−1(1) < . . . < Xσ−1(n)

.

Exemple 6.1. On considère l’échantillon

x1 = 1, 6 x2 = 2, 4 x3 = 3, 2 x4 = 0, 8 x5 = −1.

On ax(1) = x5 < x(2) = x4 < x(3) = x1 < x(4) = x2 < x(5) = x3.

On définit les rangs associés comme

Rx(1) = 3 Rx(2) = 4 Rx(3) = 5 Rx(4) = 2 Rx(5) = 1,

ce qui revient à dire que Rx est la permutation

Rx =

(1 2 3 4 53 4 5 2 1

).

Remarque 6.2. Tout comme les statistiques d’ordre, les rangs dépendent de la taille de l’échan-tillon. Dans l’exemple précédent, le rang de x1 dans l’échantillon (x1, x2, x3, x4) est 2.

Le théorème suivant justifie l’intérêt des statistiques de rang pour la construction de tests non-paramétriques.

Théorème 6.1. Soient X = (X1, . . . , Xn) des v.a. réelles i.i.d. de fonction de répartition continue.

i) RX : Ω→ Sn suit la loi uniforme sur Sn.

Page 125: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 125

ii) Pour tout i = 1, . . . , n, le rang RX(i) suit une loi uniforme sur l’ensemble 1, . . . , n, d’où

E[RX(i)] =n+ 1

2et Var(RX(i)) =

n2 − 1

12.

iii) Pour 1 ≤ i 6= j ≤ n,

Cov(RX(i), RX(j)) = −n+ 1

12.

Exemple 6.2. Pour n’importe quel échantillon X = (X1, X2, X3) de 3 variables i.i.d. de loicontinue, le vecteur des rangs RX = (RX(1), RX(2), RX(3)) peut prendre 3! = 6 valeurs

(1, 2, 3) (1, 3, 2) (2, 1, 3) (2, 3, 1) (3, 1, 2) (3, 2, 1)

qui sont équiprobables.

6.2 Test de comparaison des positions de deux échantillons indépen-dants

On considère deux échantillons indépendants :— X = (X1, . . . , Xm) i.i.d., de même loi que X , de fonction de répartition F continue et

strictement croissante, donc inversible au sens usuel ;— Y = (Y1, . . . , Yn) i.i.d., de même loi que Y , de fonction de répartition G continue et

strictement croissante ;où X et Y sont aussi indépendantes. On souhaite par exemple répondre à la question : «X et Y secomportent-elles de la même manière » («H0 ») ou «X a-t-elle tendance à prendre de plus petitesvaleurs que Y » ( «H1 »)?

6.2.1 Les statistiques de Wilcoxon et de Mann-Whitney

On appelle échantillon complet le vecteur aléatoire Z = (Z1, . . . , Zn+m) =(X1, . . . , Xm, Y1, . . . , Yn) . On définit (R1, . . . , Rm) comme les rangs de (X1, . . . , Xm) dansl’échantillon complet réordonné Z(.) (à ne pas confondre avec le vecteur des rangs de RX =(RX(1), . . . , RX(n))). Comme l’échantillon complet ne contient p.s. pas d’ex-æquo, on a p.s.

Ri =m+n∑j=1

1IZj≤Xi .

On appelle statistique de Wilcoxon (1945) et on note WXY la somme des rangs des (Xi)1≤i≤mdans l’échantillon complet réordonné Z(.) :

WXY =

m∑i=1

Ri.

Page 126: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

126 6.2. Test de comparaison des positions de deux échantillons indépendants

On appelle statistique de Mann-Whitney (1947) et on note MWXY le nombre de couples(Xi, Yj), i = 1, . . . ,m, j = 1, . . . , n, tels que Xi ≥ Yj :

MWXY =m∑i=1

n∑j=1

1IYj≤Xi .

On a la relation

MWXY = WXY −m(m+ 1)

2. (6.1)

En effet,

Ri =m+n∑j=1

1IZj≤Xi =n∑j=1

1IYj≤Xi +m∑k=1

1IXk≤Xi =n∑j=1

1IYj≤Xi +RX(i),

de sorte que

MWXY =m∑i=1

(Ri −RX(i)) = WXY −m∑i=1

i.

Par ailleurs,WXY est à valeurs dansm(m+1)

2 , . . . ,mn+ m(m+1)2

etMWXY est à valeurs dans

0, . . . ,mn . Les statistiques prennent leur plus petite valeur lorsque X(m) < Y(1), et leur plusgrande valeur lorsque X(1) > Y(n). Sous « H1 », ces deux statistiques auront donc tendance àprendre de petites valeurs.

Exemple 6.3. Dans une entreprise, on a relevé les salaires annuels en milliers d’euros de 4 femmeschoisies au hasard parmi les employées féminines et de 6 hommes choisis au hasard parmi lesemployés masculins.

X (revenu annuel des femmes en Keuros) 35 32.1 39 31

Y (revenu annuel des hommes en Keuros) 37 38 39.3 39.5 42 44.5

x = (35, 32.1, 39, 31) de taille m = 4y = (38, 37, 44.5, 39.5, 39.3, 42) de taille n = 6

z = (35, 32.1, 39, 31, 38, 37, 44.5, 39.5, 39.3, 42)

z(.) = (31, 32.1, 35, 37, 38, 39, 39.3, 39.5, 42, 44.5)

= (x4, x2, x1, y2, y1, x3, y5, y4, y6, y3)

(r1, r2, r3, r4) = (3, 2, 6, 1)

Wxy = 1 + 2 + 3 + 6 = 12

MWxy = 12− 4× 5/2 = 2

Page 127: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 127

6.2.2 Propriétés sous l’hypothèse F = G

Les statistiques de Wilcoxon et Mann-Whitney sont effectivement des statistiques de test,pourvu que l’hypothèse nulle soit de la forme H0 : F = G. En effet, leur loi sous H0 est alorsindépendante des lois F et G.

Proposition 6.2. Sous l’hypothèse F = G,

i) la loi deWXY ne dépend pas de F,mais seulement dem et n.On l’appellera loi de Wilcoxonde paramètres m et n et on la noteraWm,n. Cette loi est tabulée.

ii) la loi de WXY est symétrique par rapport à m(n+m− 1)/2, i.e.

WXY −m(n+m+ 1)

2

L=

sous F=G

m(n+m+ 1)

2−WXY

iii)

EF=G[WXY] =m(n+m+ 1)

2et VarF=G[WXY] =

mn(n+m+ 1)

12.

Grâce à la relation (6.1), on en déduit immédiatement les propriétés sous l’hypothèse F = G dela statistique de Mann-Whitney.

Proposition 6.3. Sous l’hypothèse F = G,

i) la loi de MWXY ne dépend pas de F, mais seulement de m et n. On l’appellera loi deWilcoxon-Mann-Whitney de paramètres m et n et on la noteraMWm,n.

ii) la loi de MWXY est symétrique par rapport à mn/2, i.e.

MWXY −mn

2

L sous H0=mn

2−MWXY;

iii)

EF=G[WXY] =mn

2et VarF=G[WXY] =

mn(n+m+ 1)

12.

6.2.3 Formulation mathématique des hypothèses de test

L’interprétation de la statistique de Mann-Whitney permet de mieux comprendre quel typed’alternative à H0 on peut espérer détecter en construisant un test basé sur MWXY ou WXY. Eneffet, la statistiqueMWXY/(mn) est un estimateur sans biais de P(Y ≤ X), qui peut s’interpréterau moins de deux manières.

Interprétation géométrique de P(Y ≤ X). Comme X et Y ont indépendantes, et que F estcontinue strictement croissante, on obtient par changement de variable

P(Y ≤ X) =

∫RP(Y ≤ x|X = x)dF (x)

=

∫RG(x)dF (x)

=

∫ 1

0G F−1(u)du

= aire sous la courbe du PP-plot(F (t), G(t)), t ∈ R

Page 128: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

128 6.3. Tests de comparaison des positions de deux échantillons : bilan

Aussi, si F = G, alors P(Y ≤ X) = 1/2, et si F ≥ G, i.e. X st Y, alors P(Y ≤ X) ≤ 1/2. Onpeut cependant avoir P(Y ≤ X) ≤ 1/2 sans que X st Y, i.e. sans que F (t) ≥ G(t) pour toutt ∈ R.

Interprétation probabiliste de P(Y ≤ X). Comme P(Y ≤ X) = FY−X(0), on a

P(Y ≤ X) ≥ 1/2⇔Med(Y −X) ≤ 0

P(Y ≤ X) < 1/2⇔Med(Y −X) > 0.

Hypothèses de test dans le modèle de translation. Afin de pouvoir formuler les hypothèses dutest sous la forme

H0 : F = G contre H1 : F ≺st G

comme dans le Chapitre 4, on suppose de plus que

G ∈ F+ = F∆ : t ∈ R 7→ F (t−∆); ∆ ≥ 0.

Ainsi, F et G ne diffèrent que par un paramètre de translation ∆ ≥ 0, mais le modèle reste biennon-paramétrique puisque la seule hypothèse sur F est qu’il s’agit d’une fonction de répartitioncontinue et strictement croissante. On notera que

G = F∆ ⇔ Y −∆ ∼ F ⇔ YL= X + ∆,

de sorte que— si ∆ = 0, alors G = F , donc P(Y ≤ X) = 1/2, donc Med(Y −X) ≤ 0;— si ∆ > 0, alorsG < F (en tout point deR), donc P(Y ≤ X) < 1/2, doncMed(Y −X) >

0.

Proposition 6.4. Si G ∈ F+, i.e. s’il existe ∆ ≥ 0 tel que G = F∆, alorsH0 : F = G⇔ ∆ = 0⇔ P(Y ≤ X) = 1/2⇔Med(Y −X) ≤ 0H1 : F ≺st G⇔ ∆ > 0⇔ P(Y ≤ X) < 1/2⇔Med(Y −X) > 0.

On peut alors définir la région de rejet de niveau α comme

Rα = WXY ≤ dm,n,α,

où dm,n,α = supt ∈ R/FWm,n(t) ≤ α, ou de manière équivalente

Rα = MWXY ≤ em,n,α,

où em,n,α = supt ∈ R/FMWm,n(t) ≤ α. Comme les lois de Wilcoxon et Mann-Whitney sontdiscrètes, ces régions de rejet ne sont pas nécessairement de taille α, mais ce sont les plus grandesrégions de rejet de niveau α. Par ailleurs, dm,n,α ne coïncide pas en général avec le quantile d’ordreα (faire un dessin en distinguant 2 cas selon que α est ou non dans l’image de FWm,n .)

6.3 Tests de comparaison des positions de deux échantillons : bilan

Le but de cette partie est de donner quelques éléments de comparaison pour les différents testsde comparaison des positions de deux échantillons dans le cadre défini en 6.2.

Page 129: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 129

6.3.1 Récapitulatif des tests unilatères

La mise en œuvre pratique des tests sous R est illustrée sur les données du paragraphe 6.2.1.

x<-c(35,32.1,39,31) # salaires des femmesy<-c(37,38,39.3,39.5,42,44.5) # salaires des hommes

On veut tester

H0 : « les valeurs de X et de Y sont du même ordre »contre

H1 : «X a tendance à prendre des valeurs plus petites que Y. »

On se réfèrera au cours pour les conditions d’application précises de chaque test.

6.3.1.a. Test de Student de comparaison des moyennes (voir Chapitre 3).

H0 : E[X] = E[Y ] contre H1 : E[X] < E[Y ]

> t.test(x,y,alternative="less",var.equal=TRUE)

Two Sample t-test

data: x and yt = -2.8973, df = 8, p-value = 0.009987alternative hypothesis: true difference in means is less than 095 percent confidence interval:

-Inf -2.068455sample estimates:mean of x mean of y

34.275 40.050

6.3.1.b. Test de Welch de comparaison des moyennes (voir Chapitre 3).

Le test de Welch est une modification du test de Student permettant de comparer les moyennesde deux échantillons gaussiens indépendants de variance éventuellement différentes.

H0 : E[X] = E[Y ] contre H1 : E[X] < E[Y ]

> t.test(x,y,alternative="less",var.equal=FALSE)

Welch Two Sample t-test

data: x and yt = -2.7351, df = 5.346, p-value = 0.01912

Page 130: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

130 6.3. Tests de comparaison des positions de deux échantillons : bilan

alternative hypothesis: true difference in means is less than 095 percent confidence interval:

-Inf -1.580528sample estimates:mean of x mean of y

34.275 40.050

6.3.1.c. Test de comparaison de Kolmogorov-Smirnov (voir 4.8).

H0 : F = G contre H1 : F ≺st G (i.e. F ≥ G et F 6= G)

Statistique de test : supt∈R(Fm(t)− Gn(t))

> ks.test(x,y,alternative="greater")

Two-sample Kolmogorov-Smirnov test

data: x and yD^+ = 0.75, p-value = 0.0672alternative hypothesis: the CDF of x lies above that of y

6.3.1.d. Test de Wilcoxon-Mann-Whitney.

Dans le modèle de translation, i.e. G ∈ F (. − ∆),∆ ≥ 0 où F fonction de répartitioncontinue sur R, on teste

H0 : F = G contre H1 : F ≺st G,

ou de manière équivalente

H0 : ∆ = 0 contre H1 : ∆ > 0.

Sous R, la statistique W calculée est la statistique de Mann-Whitney MWXY .

> wilcox.test(x,y,alternative="less")

Wilcoxon rank sum test

data: x and yW = 2, p-value = 0.01905alternative hypothesis: true location shift is less than 0

Remarque 6.3. Ne pas se méprendre sur le sens de la dernière ligne. Le « true location shift » enquestion n’est pas notre ∆. L’aide en ligne R confirme bien que ce test est celui qui nous intéresse :« the one-sided alternative "greater" is that x is shifted to the right of y ».

Page 131: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 131

6.3.2 Comparaison asymptotique des tests de Student et de Wilcoxon

On considère le modèle de translation G ∈ F (.−∆),∆ ≥ 0 et on suppose m = n.Lorsque F = N (0, σ2), en utilisant l’approximation de la loi de Student par la loi normale,

on obtient que la puissance du test de Student de niveau α de

H0 : E[X] = E[Y ] (i.e. ∆ = 0) contre H1 : E[X] < E[Y ] (i.e. ∆ > 0)

est approximativement

Πt(α,∆) ≈ Φ

(√n

2

σ+ Φ−1(α)

).

La taille minimale d’échantillon nécessaire pour obtenir la puissance 1− β contre une alternative∆ donnée est donc approximativement

nt(α, β,∆) ≈ 2σ2

(Φ−1(α) + Φ−1(β)

)2

.

Montrez-le à titre d’exercice (voir TD8). On considèrera que cette approximation reste valablelorsque F est une loi symétrique de variance σ2 finie et que n est suffisamment grand.

En utilisant une approximation de type TCL pour la statistique de Wilcoxon (hors du cadredu cours), on peut montrer que, pour le test de Wilcoxon, la taille minimale d’échantillon né-cessaire pour obtenir la puissance 1 − β contre une alternative ∆ suffisamment proche de 0 estapproximativement

nW (α, β,∆) ≈ 1

6∫R f

2

(Φ−1(α) + Φ−1(β)

)2

.

Étant fixés un niveau α, une puissance 1 − β, et une alternative ∆, on appelle efficacité relativedu test de Wilcoxon par rapport au test de Student pour ce niveau, cette puissance et contre cettealternative, le rapport nt(α,β,∆)

nW (α,β,∆) : cela indique qu’il faut une taille déchantillon nt(α,β,∆)nW (α,β,∆) fois

plus grande avec le test de Student pour obtenir la même puissance, contre la même alternative etau même niveau que le test de Wilcoxon. On peut montrer que

nt(α, β,∆)

nW (α, β,∆)−−−→∆→0

12σ2

∫Rf2.

Cette limite est appelée efficacité relative asymptotique. Dans le tableau 6.2, l’efficacité relativeasymptotique est donnée pour les lois F suivantes :

— Normale : F = N (0, 1)— Uniforme : F = U([0, 1])— Logistique : F de densité

f(x) =e−x

(1 + e−x)2

— Laplace (Double-Exponentielle) : F de densité

f(x) =1

2e−|x|

Page 132: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

132 6.3. Tests de comparaison des positions de deux échantillons : bilan

— Cauchy : F = Cauchy(1)— Exponentielle : F = Exp(1).

Les densités de ces lois sont représentées sur la figure 6.1, et les QQ-plots gaussiens, sur la fi-gure 6.2. Le tableau 6.1 récapitulent les propriétés d’asymétrie ou d’aplatissement de ces lois.

Normale Uniforme Logistique Laplace Cauchy ExponentielleAsymétrie 0 0 0 0 Symétrique 2

Aplatissement 0 -1.2 1.2 3 Queues lourdes 6

TABLE 6.1 – Asymétrie et aplatissement des lois F

F Normale Uniforme Logistique Laplace Cauchy ExponentielleeAW,t 0.955 1.000 1.097 1.500 ∞ 3.000

TABLE 6.2 – Efficacité relative asymptotique du test de Wilcoxon-Mann-Whitney par rapport autest de Student

Commentaire. Quels que soient α et β dans ]0, 1[, pour ∆ > 0 proche de 0, on a approximati-vement

nt(α, β,∆) ≈ eAW,tnW (α, β,∆)

où eAW,t est l’efficacité relative asymptotique du test de Wilcoxon-Mann-Whitney par rapport autest de Student reportée dans le tableau 6.2. Autrement dit, lorsque G = F (. − ∆) avec ∆ > 0proche de 0, et que les échantillons sont de taille suffisamment grande, le test de Student a besoinde eAW,t fois plus de données que le test de Wilcoxon-Mann-Whitney pour atteindre le même niveauet la même puissance. Le test de WMW est donc moins performant que le test de Student pourdétecter un petit décalage entre deux lois normales (eAW,t < 1), équivalent dans le cas de la loiuniforme (eAW,t ≈ 1), mais plus performant pour les autres types de lois (eAW,t > 1). De manièregénérale, on peut montrer que eAW,t ≥ 0.864, de sorte que le test de WMW n’est jamais beaucoupmoins performant que le test de Student.

6.3.3 Comparaison non-asymptotique des 4 tests

Toujours dans le modèle de translation, on a obtenu par simulation une valeur approchée dela puissance de chaque test pour 2 échantillons de même taille m = n. Les figures suivantesrécapitulent les puissances obtenues au niveau α = 5% sous des alternatives de la forme

G = F (.−∆)

pour différentes lois F, n = 20 ou n = 100 et ∆ ∈ 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.Commentaires. On observe tout d’abord deux propriétés attendues :

Page 133: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 133

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dnor

m (x

)

-1.0 0.0 1.0 2.0

0.0

0.5

1.0

1.5

x

duni

f (x)

-6 -4 -2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

xdl

ogis

(x)

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

0.5

x

dlap

lace

(x)

-6 -4 -2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

x

dcau

chy

(x)

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

x

dexp

(x)

FIGURE 6.1 – Densités des lois F (trait plein) et densités des gaussiennes de mêmes moyenne etvariance.

Page 134: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

134 6.3. Tests de comparaison des positions de deux échantillons : bilan

−1.0 0.0 1.0

−1.

0−

0.5

0.0

0.5

1.0

Quantiles de N(0,1)

Qua

ntile

s de

N(0

,1)

−1.0 0.0 1.0

−1.

0−

0.5

0.0

0.5

1.0

Quantiles de N(0,1)

Qua

ntile

s de

U[0

,1]−

1/2

−2 −1 0 1 2

−2

−1

01

2

Quantiles de N(0,1)Q

uant

iles

Logi

stiq

ue

−1.5 −0.5 0.5 1.5

−1.

5−

0.5

0.5

1.0

1.5

Quantiles de N(0,1)

Qua

ntile

s La

plac

e

−3 −1 1 2 3

−3

−2

−1

01

23

Quantiles de N(0,1)

Qua

ntile

s C

auch

y

−1.0 0.0 1.0

−1.

0−

0.5

0.0

0.5

1.0

Quantiles de N(0,1)

Qua

ntile

s E

xp(1

)−1

FIGURE 6.2 – QQ-plot gaussiens des lois F .

Page 135: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 135

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=20, F=Normale

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=100, F=Normale

Page 136: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

136 6.3. Tests de comparaison des positions de deux échantillons : bilan

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=20, F=Uniforme

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=100, F=Uniforme

Page 137: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 137

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=20, F=Logistique

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=100, F=Logistique

Page 138: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

138 6.3. Tests de comparaison des positions de deux échantillons : bilan

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=20, F=Laplace

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=100, F=Laplace

Page 139: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 139

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=20, F=Cauchy

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=100, F=Cauchy

Page 140: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

140 6.3. Tests de comparaison des positions de deux échantillons : bilan

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce

StudentWelchKSWilcoxon

n=20, F=Exponentielle

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Pui

ssan

ce StudentWelchKSWilcoxon

n=100, F=Exponentielle

Page 141: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 141

— la puissance des tests augmente d’une part avec la taille d’échantillon, et d’autre part avec∆, c’est-à-dire plus on s’éloigne de H0;

— les tests de Student et de Welch sont équivalents ici, ce qui n’est pas surprenant puisquedans le modèle de translation, F et G ont même variance (si elle existe !).

Influence de la taille d’échantillon. Pour chaque loi F , l’ordre dans lequel sont classés les testsselon leur puissance est le même pour n = 20 et n = 100.

Influence de l’écart à la normalité. Pour les lois normale, uniforme et logistique, symétriqueset à queues légères, les tests de WMW, Student et Welch sont à peu près équivalents et meilleursque le test de KS.

Pour les lois de Laplace, de Cauchy et exponentielle, à queues plus lourdes qu’une loi normale,ce sont les tests de WMW et de KS qui sont meilleurs que les tests de Student et de Welch. Ladifférence entre les tests non-paramétriques et paramétriques semble d’autant plus marquée queles queues de répartition sont lourdes. On notera en particulier le cas de la loi de Cauchy, où lestests paramétriques ont une puissance qui reste proche du niveau même pour n grand et ∆ grand,et sont même biaisés pour ∆ proche de 0. La puissance des tests WMW et KS est à peu près dumême ordre, le test de WMW étant légèrement meilleur pour ∆ proche de 0, et légèrement moinsbon quand ∆ est suffisamment grand.

Conclusion. Dans le modèle de translation, le test de WMW semble globalement être le plusperformant, au sens où sa puissance est proche de celle du meilleur des 4 tests pour toutes les loisF considérées ici.

Remarque 6.4. Lorsque F etG diffèrent essentiellement par leur dispersion, le test de WMW n’estplus adapté (les tests de Student et Welch non plus). Parmi les tests déjà rencontrés, on dispose

— du test paramétrique de comparaison des variances, essentiellement dans le cas gaussien,même pour de grands échantillons

— du test non-paramétrique de comparaison de KS, qui est un test de comparaison globaledes fonctions de répartition, i.e. pas spécifique à la recherche d’une différence de positionou d’échelle.

6.3.4 Conclusion des tests pour les données de l’exemple

Au niveau 5% par exemple, les tests de Student, Welch et WMW rejettent l’hypothèse H0,mais pas le test de KS. Comme on ne sait pas a priori si les données sont gaussiennes, et qu’onne peut prétendre valider cette hypothèse avec d’aussi petits échantillons, on écarte les tests deStudent et de Welch. En supposant au moins la continuité des fonctions de répartition de X et Y :

— le test de WMW rejette au niveau 5% H0 : F = G au profit de H1 : Med(Y −X) > 0,le risque d’erreur associé à cette décision étant de 5%;

— le test de KS conserve au niveau 5% H0 : F = G plutôt que H1 : F ≺st G, le risqued’erreur associé à cette décision étant un risque de seconde espèce inconnu, mais dont onpeut s’attendre à ce qu’il soit très grand puisque les tailles d’échantillons sont très faibles(pensez aux courbes de puissance du paragraphe précédent pour n = 20). Par ailleurs,même si la p−valeur est inférieure au niveau, elle reste relativement proche du niveau fixé.

On peut donc conclure, que comme l’indique le test de WMW, les revenus annuels des femmes(X) sont significativement plus faibles que les revenus annuels des hommes (Y ).

Page 142: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

142 6.4. Applications directes du cours

X Y

3234

3638

4042

44

Sexe

Rev

enu

annu

el

X Y

3234

3638

4042

44

Sexe

Remarque 6.5. Avant d’effectuer un quelconque test, penser à effectuer une analyse descriptivedes données (voir Figure ??) ! Les tests complètent cette analyse et permettent de décider si ladifférence observée est significative ou non.

6.4 Applications directes du cours

Exercice 6.1. Construire le PP -plot de deux fonctions de répartition FX et FY telles que P(Y <X) ≤ 1/2 sans que X st Y.

Exercice 6.2. Soient F une fonction de répartition, ∆ ∈ R et F∆ : t ∈ R F−→ (t−∆).

1. Construire sur un même graphique l’allure de F et F∆ pour ∆ > 0 et ∆ < 0.

2. Construire le PP -plot de F∆ en fonction de F pour ∆ > 0 et ∆ < 0.

3. Si Y ∼ F∆, montrer qu’il existe une variable aléatoire X, obtenue par une transformationsimple de Y, qui suit la loi F. Donner une relation entre les médianes de X et de Y. Si F estd’espérance finie, donner une relation entre les espérances de X et Y.

Page 143: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CHAPITRE 6. TESTS BASÉS SUR LES RANGS 143

6.5 Exercices et problèmes

Dans les exercices suivants, X et Y désignent deux variables aléatoires de fonctions de répar-tition respectives F et G continues sur R et inconnues. On observe deux échantillons Xm et Yn

tels que— Xm = (X1, . . . , Xm), échantillon i.i.d., de même loi que X ,— Yn = (Y1, . . . , Yn), échantillon i.i.d., de même loi que Y .

On note Z = (X1, . . . , Xm, Y1, . . . , Yn) l’échantillon complet.

Problème 6.1. (À propos de l’hypothèse alternative du test de Wilcoxon-Mann-Whitney). Danscet exercice, on suppose que X et Y sont indépendantes, de même que Xm et Yn, et que F et Gadmettent une densité continue et strictement positive par rapport à la mesure de Lebesgue sur R.

1. Montrer que P(Y ≤ X) < 1/2 si et seulement si Med(Y −X) > 0.

2. Rappeler l’interprétation géométrique de P(Y ≤ X).

3. Supposons de plus qu’il existe ∆ ∈ R inconnu tel que

G = F∆ : t ∈ R 7→ F (t−∆).

3.1 Pour u ∈ R, interpréter géométriquement P(Y −X ≤ u).

3.2 Que peut-on en déduire pour P(Y −X ≤ u) selon le signe de ∆− u?

3.3 Montrer que ∆ = Med(Y −X).

3.4 En déduire un estimateur de ∆.

Problème 6.2. (Puissance du test de Wilcoxon-Mann-Whitney). On suppose X et Y indépen-dantes, de même que Xm et Yn, et qu’il existe ∆ ∈ R tel que

G = F∆ : t ∈ R 7→ F (t−∆).

On souhaite tester au niveau α :

H0 : Y st X contre H1 : X ≺st Y.

1. Reformuler H0 et H1 comme des hypothèses sur le paramètre ∆.

2. Rappeler la région de rejet Rα du test de niveau α de

H ′0 : ∆ = 0 contre H1 : ∆ > 0

basée sur la statistique de Mann-Whitney MWXY.

3. Pour ∆ ∈ R, on noteπ(∆) := P∆ ((Xm,Yn) ∈ Rα)

la probabilité que (Xm,Yn) ∈ Rα lorsque Y ∼ F∆. Dans la suite, on fixe ∆1 ≤ ∆2 et onsuppose Y ∼ F∆1 .

Page 144: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

3.1 Construire un échantillon i.i.d. Y′n = (Y ′1 , . . . , Y′n) de la loi F∆2 , obtenu par une

transformation simple de l’échantillon Yn.

3.2 Comparer les statistiques MWXY et MWXY′ . En déduire que π(∆1) ≤ π(∆2).

4. Déterminer la région de rejet d’un test de niveau α de H0 contre H1.

Problème 6.3. Dans cet exercice, on suppose que X et Y indépendantes, de même que Xm etYn, et que F = G. On veut montrer que la loi de la statistique de Wilcoxon WXY est alorssymétrique, et plus précisément que

WXY −m(n+m+ 1)

2

L=

sous F=G

m(n+m+ 1)

2−WXY.

Soient (R1, . . . , Rm) les rangs des (Xi)1≤i≤m dans l’échantillon complet réordonné dans l’ordrecroissant, et (R′1, . . . , R

′m) les rangs des (Xi)1≤i≤m dans l’échantillon complet réordonné dans

l’ordre décroissant, on rappelle que WXY =∑m

i=1Ri et on note W ′XY =∑m

i=1R′i.

1. Exprimer R′i en fonction de Ri. En déduire l’expression de W ′XY en fonction de WXY.

2. Rappeler la loi du vecteur des rangs RZ. En déduire que (R′1, . . . , R′m) a même loi que

(R1, . . . , Rm).

3. Conclure.

Problème 6.4. (Coefficient de corrélation de Spearman). Dans cet exercice, on suppose quem = n et que les couples (Xi, Yi), i = 1, . . . , n, sont i.i.d., de même loi que (X,Y ). Onappelle coefficient de corrélation de Spearman de Xn et Yn et on note ρS(Xn,Yn) le coef-ficient de corrélation empirique entre les vecteurs des rangs RX = (RX(1), . . . , RX(n)) etRY = (RY (1), . . . , RY (n)) :

ρS(Xn,Yn) =1n

∑ni=1(RX(i)− RX)(RY (i)− RY )√

1n

∑ni=1(RX(i)− RX)2 1

n

∑ni=1(RY (i)− RY )2

. (6.2)

1. Montrer que

ρS(Xn,Yn) =1n

∑ni=1RX(i)RY (i)− (n+1)2

4n2−1

12

. (6.3)

2. Quelles sont les valeurs extrêmes de ρS(Xn,Yn)? À quoi correspondent-elles ?3. Montrer que lorsque X et Y sont indépendantes, la loi de ρS(Xn,Yn) ne dépend ni de F

ni de G, mais seulement de n. Nous l’appellerons loi de Spearman de paramètre n et lanoterons Sp(n). Montrer que cette loi est centrée et de variance 1

n−1 .

4. On souhaite tester H0 : «X et Y sont indépendantes » contre H1 :«X et Y ont tendance àvarier dans le même sens ». Proposer un test approprié, en précisant la formulation mathé-matique de l’alternative.

6.6 Correction des exercices et problèmes

Page 145: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

trl t+. Îxaru,ræ j-

Y à &,,Èé It o f* q"t à L ual,,n

" Y+ .-Yut4 & r"æ*x vy, & I , e o.&*ila g> o 4* J*ld o' À

' x'n=W==(",) r $=(lt-r-y^)" xlly

) f0/^ fo,À /' V (n rC[ 0,, rw\

lry ( x) <42 <:à) o(v- x.<o) < )-/z ê Fy-x td < 4u

@ é/-'> o

Pry.< x\ > )r/s, <:) Yy-" (o) > L/z é> o > Vyl (L/Jr)

tn. Df y( x) ,<-L/z 1r-) MeJ(y- x) >o

â) Pry(x)= ) D(yr(ne[x=æ] dII.r)

I hl.r

= r p(y<o)dYb)xry jr5

X4 P o,f a Jo,,ah />oary<x) = À

dp^. .anfi.ur, .t d"/^b^p-[ acibnfu, &,. *rqr#L, )'ù

6oY-t ( Pâ)) lul A

nB ê Pu i* Jo, rLce Ê l=Vb)

coY-'t g) 4eum ù *,n& t (V; 6c?-'

*, Qo on& I (VcU, ecu))

â".I 4Qrr,.flrr eonl.nry o0q"g6t th\ Ot- id,6, ol*'

Page 146: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Yrl

6 æ)

\i -4t

à'"

G Prl' grrb^^L on[ûrJ)ra' -!a )1.,r o'/."'a

àYhs

h)

I h; 6oY-h)

t (Yrt\, erU ),

ù(u <tJ

F ertuJa^n lflt1o à *",6t J"

:) (A t)c--ur',rY c-(q3

0E\f / moqlro Ù^oJn

/J.n" b) dPâ)" VG)_

dV t^s^r, Vt.^gre & dA +ù V-u,

V 0 çwuà0,1

je dY= jëoy-o dh,

9s E (y< x) = cùe *,, û *u(. J* æ- 1k.u 6 so &t* * Y.

L

/-dY/.)=

Jo,'

J*'

3)

3. d_,

0t

J/*i

G=Yn, b etR, r_:, Y(f-^) or; /€,R'g,ytcownu

2un, cfr_, CfY- X'-(u) = a tY-q -'ï)À U /.,. &y-n

*/'t"UVD (y-u r( L) = Q (y-<t+tr )-- P ( L+u- À) = Po-, (t)

oru pw U *,^b J

Efy- Xr(u) = ùp æ, t *r& d,. æ- t(À ob Pr-, *,$ie

Page 147: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

,tr.

J.;

Rt /-u = 9

I (Y- x -<u)

"br\-/l-A-u =

vt" c rR,

V !a> Pty-x'(q)V4-6(E\ = Vf U-(^-u\)

A '>O

v. ..r''*tl'_,t("1 , ,o.)"

'/';,Lr"

J"r

S d-u >0;

P (y- X.(u)

.]. ) Yy- "

< YrtJeoaVei /io

<J-14

(u) =

u(A4 =*u>4

A , ie.J*, hp l r u ,o,l Vy- *

l]"4, Vv4-ry J=L...=5 x-y, ,bnc

^= rrdnzne tn$ùry/a J'" i i Xi - X),, '-1 '- '\ ) ù-4 -^J

a&u awohil, & ^

t qfrmoh/^ À dodcs" )dw,,a.^)

= al/2, '!Lu

*YrI 7t1

.ft" V L e fÀ, Yl-, tU = Y(tlro-'l ))

Page 148: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Vw* 9'-ro tL

t)Jn.

= Y(.- a) si

-> e-- P+ 6..<Y

:> ç>Y

Letfu

6 + Va

6+Yq t"

e )=V

(.uY

Ya,

"Iel

^

t\€

6

ôâ <o

Le,> o

ài€ Y :

d^^.

@

1)

v4u= I1*9 *Mv/xy

x+Â$Y- S=Ya=Pf.- a) ^.[* y_ L - y ,

*\ : =âÊ

JL yd.<xr.rh.

,yxy tu tc '=- LÈ

tLxl'r( Xl

: Ë R*rù)+ Mrvxy

,P.t

Ril" da, Aro, Mrxdy a tv,Jo"* & +^Jr "b ryftb /,"b" J,w- R.t & l, !au*,t \zrrx/xy

Y=6, lYrv^y ty +lfu-.^r,nË).< h.l ù li, $ïtrrffËMn*.Jo

<h) -( "r

Page 149: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

l. lt, ,=.Yn etd - Yan J/oi y't. =

?il A At Pa,:

yt .< u)-- e ()a S t + aa- l,?,) = Yn,

: P tP-Âe): You ft)

rnr)'\.9. ltrx/1y= 3? 4y,o(x;'% \Ia

Nrx,(y, = ,5 â V,6. xr -v'4 \l =,t

k yf S xe - il* an; o[ra70 "t

yL- At+ Au , ,1 _2\

(1" ^a--Aù)

V< xl'! - )

n>t L,oJ=t w

ïr,1k/xy_r

:( xP _ r.&jt)7-O

d M \x/xy

rn24i-à

JdIt. -J rda\ tt (ta) = Di't ( (x^,vÀ siU )

a ( vr*yxy û*r < t" )P ( Mtxzlo, -tJ ah ) =_

.tï ra*)

ri(o) c^îv 4u e)

\

4

e"

g* ît^) =

y' .<o

Rx cmrvhtl o/nCS,€.

Page 150: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

f,raoowa" n LL

U R)r"=rn+n- Ri + L

/cl V, = â e-^+r) -

2)

Joi

àr,(

*"I

,

\l*/ =

9J

rn

>R/.-(--4

rn,z Ri=t4

1U., -- (Xt, --.= x^,yL--= yn ) à ae6n^û' 8PJ db ,il,' I ,,Y or,ll^rc,,

R; ^-r A ( 2e^u" )J RL =-R.) = ho Q\ --- R; fn,'i i,v k\.= d^) qnh* &, ô 9-, dMi'*; )rt \4 - **nf

P!= o ( R. à --rt:-, - -. Q)^--.'^ )

(n;=rn+n-r,; +l.t 4aut=! . h)

o;ri er,,v''nvnL (1, -=^) etl ( nn *n- r'++ l, ------z rn + ô - rfi + a)

I 2.rn+n-rh I

m ('m+n + )

oryt o

= &=o

Page 151: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

L) Ry= +eR*ri) = +3,' t4d ù mA* Ry= ?Ja" + ë 6'r,)- Q.y) (ny /,)- Ry) :

gn,srt

3- W o,^n" &)t.--=RxIn)i =,1 L--nJ

ù r ifQ*rc) _Rr)*=n 'â.':

X a>0, be rtu tg

]L-il= lR,* P)

W=4,==) fy (L)=

txÛ ;uLJ'vry& dc* $

.Dnûna,6t+\,)---t err

ad

= 6nl) (n -r),L2r

n) " fn( xn,y,) *

. /d (\n,Y) = +L sxro

ey, ol, -= eyfn)J -Qs t 1l y,' ) -- +'L Kro

RfL

:EùCP)L :+= ? 4 (Ryr)-Tv)*

li Rx- Rx lt , tlQy_IyllL-r,4) lalà e*d,U- t/,rnrg

'tr, Ry fi) - R--y - o (Rx (..) - R")+b

=,Kx h))

fty /i)

r,e,a *&, (* LVtl

&" li*fu tnftilae e VOn- Ry fl) +4-

Page 152: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

ud y,n# e,^i4,adr^! Q,x d Ay /b,[ Ja,, %rbpndn| -L 0t ";-,U(Rxray) û. Jw.orJarug +*th uryn"cû"& Rx dny

Yy =,

Y,n ùd \r Y an\hil", &,. R.,. -w A @) & fu nau W Ry,

$s0

kb dt, \ x I R/ Jo*

-luray,n VçL+., Rx (i) oL

J,)CIt rÊ [ qf^D = 'o"

no [n_r)z(n+i\L

É t Âx (t) ay ri= RfRy 1r) I :*tey it)J = t,ï,r) u

ayo ^/ U( \l - ^J) )

SUi ?, Rx (,') Ry/r) )

1À'* (R' ti) Ay /, ) ) t .5 %(qr (i) ryir),' L_<it'ç_<4 *8., tl nyil )

\__\/--____

n2- n tu^a

)";t

.'%. ( spr^) )= \à.46 ( f rxl y") )

Page 153: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Ry tr)) * Fr t Rx (ttl t-r, [Rx ()] = # * $'|t _ GDf3n*a)

1=f)ta -loo --

q*(ù),

*

IIr=

1^oI

I

I

l^,

Ë r (x(ù("l,ù)l

E I Rx ril]9 , r<

E I Rx*(iJ_J

$^ i*i , J*

Jroi \ha" I qr rJ fly(ù)

/ (n*r) (e-o+t)

nng r01

fur+ Dx(à * t) 1

&s 31

6/

W Lqir'l nfc,tJ$rl

Es [ (x tD Ry ti)J

6 +r;x (n+t) "'

(n+t) q

>--b<

Ôd)

E!-[o9,4

.2t

LrÈtJ

lr lt,n+\)s- t rI,. i:q! 2 g<) ,u

(/rn+ $ * 3n+3 ) ( I, n+ x- 3n -3 )

(+n*s) (n-r )/L2t-

"t [c) tiy r\ Rx (i) Ry(,1)): Ét$llR"()rE LRx ii)Ry tc)l

ofun4 _ mir,

,Cn *\jÙ,(t n * t,)s

S.gu. 3L.--/ o

a/'4

0rr\) * Qn* 2J --f,

\ iJ Ry (d)J

E[Rx (d) R/,j')]

J9 * 3q. ,/ -.'lzÂ+ e, >4n-3 ) (?n* I + 3o+ 3-):a_* .,_"- _._/_ _, -.*^=,

&e*3''

Page 154: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

y' h-ù

lt) tox, è", f t

, \yVl ^r sp(n) Jr* lÊdb (f,r tLn, S) ) = o

1** Qo,xs Y,\ ) - #

Ao, X. ity $ À+în /qbla ôb )Y* f r

( ryY) > e". o'i è1 =

h ca $ -= \n 7ært ),r,Ye a y &"lb -=Yn, d/ qh ft tb, Y; +fu & l ,

o

Page 155: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Chapitre 7

ANALYSE DE LA VARIANCE

Sommaire7.1 Analyse de la variance à un facteur . . . . . . . . . . . . . . . . . . . . . . 156

7.1.1 Trois écritures d’un même modèle . . . . . . . . . . . . . . . . . . . . 1567.1.2 Estimation des paramètres par moindres carrés . . . . . . . . . . . . . 1587.1.3 Test de (l’absence d’effet) l’effet du facteur . . . . . . . . . . . . . . . 1607.1.4 ANOVA non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . 1637.1.5 Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

7.2 Analyse de la variance à deux facteurs . . . . . . . . . . . . . . . . . . . . . 1687.2.1 Les différentes écritures du modèle . . . . . . . . . . . . . . . . . . . 1697.2.2 Calcul des estimateurs des moindres carrés . . . . . . . . . . . . . . . 1707.2.3 Équation et table d’analyse de la variance . . . . . . . . . . . . . . . . 1727.2.4 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.3 Annexe : Tables d’analyse de la variance . . . . . . . . . . . . . . . . . . . 1787.3.1 ANOVA à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.3.2 ANOVA à deux facteurs équilibrée avec interaction . . . . . . . . . . . 1817.3.3 ANOVA à deux facteurs équilibrée : modèle additif ou sans interaction 183

7.4 Annexe : Petit nécessaire d’algèbre linéaire pour statisticien . . . . . . . . 1857.4.1 Espaces euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1857.4.2 Formules de changement de base . . . . . . . . . . . . . . . . . . . . 1857.4.3 Projection, projection orthogonale . . . . . . . . . . . . . . . . . . . . 1867.4.4 Isométries et matrices orthogonales . . . . . . . . . . . . . . . . . . . 1887.4.5 Endomorphismes auto-adjoints et matrices symétriques . . . . . . . . . 189

7.5 Exercices et problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1907.6 Correction des exercices et problèmes . . . . . . . . . . . . . . . . . . . . . 197

Références : Azaïs et Bardet (2012); Cornillon et Matzner-Løber (2007, 2010); Cornillonet al. (2008); Lafaye De Micheaux et al. (2011); Lejeune (2010). On y trouvera notamment lespré-requis pour ce chapitre sur l’estimation dans les modèles de régression gaussiens : formulepour l’estimateur des moindres carrés, théorème de Cochran, lois associées aux échantillons gaus-siens (Student, Khi-deux, Fisher). Toutes les notions d’algèbre linéaire utiles sont rappelées dansl’Annexe 7.4.

155

Page 156: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.1 Analyse de la variance à un facteur

On trouvera au paragraphe 7.1.5 la description de l’exemple concret d’application qui nousservira d’illustration ainsi que toutes les sorties correspondantes.

Le cadre correspondant à l’analyse de la variance à un facteur est le suivant. Pour une popula-tion donnée, on observe deux variables :

— une variable d’intérêt continue Y— une variable catégorielle qui permet de décomposer la population en plusieurs groupes.

Cette variable est appelée facteur et ses différentes valeurs sont aussi appelés niveaux dufacteur.

Ainsi, dans l’exemple 1, la population correspond aux 40 laboratoires, la variable d’intérêt Yest le dosage en mg de Chlorpheniramine maleate, et le facteur est un facteur « laboratoire » à 4niveaux (2, 5, 6 et 7). À un niveau du facteur correspond un groupe, ici l’ensemble des dosagesd’un même laboratoire.

Dans le cadre précédemment défini, on s’intéresse généralement aux questions suivantes :— la variable d’intérêt prend-elle des valeurs significativement différentes d’un groupe à

l’autre (autrement dit, y a-t-il un effet dû au facteur) ?— si oui, peut-on définir des familles de groupes homogènes?

7.1.1 Trois écritures d’un même modèle

Soient I ∈ N? le nombre de niveaux du facteur, ni ≥ 2 le nombre d’individus du groupe i, etn =

∑Ii=1 ni la taille de la population totale. Pour i ∈ 1, . . . , I, j ∈ 1, . . . , ni, on note Yij

la valeur de la variable d’intérêt pour le je individu du groupe i. Pour i ∈ 1, . . . , I, on supposeYi1, . . . , Yini i.i.d. de loi normale, de moyenne mi et de variance σ2 inconnues. On notera que lavariance ne dépend pas ici du groupe : c’est l’hypothèse d’homoscédasticité. On suppose de plusles (Yij), i = 1, . . . , I, j = 1, . . . , ni, indépendantes. Enfin, on écrit le vecteur des observations Ysous la forme du vecteur colonne de Rn obtenu par concaténation des vecteurs Y(i), i = 1, . . . , I,où Y(i) = (Yi1 . . . Yini)

>. Dans la suite, tous les vecteurs de Rn auront la même structure que Y.Autrement dit, a ∈ Rn désignera le vecteur des (aij)i=1,...,I,j=1,...,ni , et le ie bloc du vecteur asera le vecteur

a(i) = (ai1 . . . aini)> ∈ Rni .

Le modèle peut s’écrire

Yij = mi + εij , i = 1, . . . , I, j = 1, . . . , ni,

où les (εij) sont i.i.d. de loi N (0, σ2), ou sous forme matricielle

Y = m+ ε, (7.1)

où m est le vecteur de Rn dont toutes les composantes du ie bloc sont égales à mi. Pouri ∈ 1, . . . , I, définissons vi comme le vecteur de Rn dont le ie bloc ne contient que des 1,et dont toutes les autres coordonnées sont nulles (autrement dit, vi est le « vecteur indicateur » duie groupe). Alors, on déduit de (7.1)

Y = m1v1 + . . .+mIvI + ε

Page 157: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

d’où la seconde écriture matricielleY = Xθ + ε, (7.2)

où X est la matrice de colonnes v1, . . . ,vI , et θ = (m1, . . . ,mI)>. On retrouve un modèle

de régression, avec des régresseurs de nature qualitative, indiquant l’appartenance ou non à ungroupe. On notera que, les (vi)1≤i≤I étant orthogonaux, la matrice X est de rang plein égal à I.Par ailleurs, le sous-espace V de Rn engendré par v1, . . . ,vI est l’ensemble auquel appartientm.

Une autre écriture usuelle du modèle est basée sur la décomposition de chaque moyenne mi

en un effet moyen, noté µ, et un effet spécifique au groupe, noté αi pour le groupe i :

Yij = µ+ αi + εij , i = 1, . . . , I, j = 1, . . . , ni.

On supppose de plus vérifiée la contrainte d’identifiabilité

I∑i=1

niαi = 0,

ainsi appelée car elle assure que la décomposition des mi en µ + αi vérifiant cette contrainte estunique. On en déduit l’écriture matricielle

Y = µ1In +I∑i=1

αivi + ε, (7.3)

où 1In est le vecteur de Rn dont toutes les coordonnées sont égales à 1.Cette écriture matricielle reflète la décomposition de l’espace des observations en un espace

correspondant à l’effet moyen, un espace correspondant à l’effet dû au facteur et l’espace desrésidus :

Rn = M0

⊥⊕A

⊥⊕ V ⊥,

où M0 = Vect(1In), A =∑I

i=1 αivi/∑I

i=1 niαi = 0

et V = M0

⊥⊕A.

Remarque 7.1. De l’écriture

Yij = µ+ αi + εij , i = 1, . . . , I, j = 1, . . . , ni,

on déduit aussi l’écriture matricielleY = Xθ + ε, (7.4)

où θ = (µ, α1, . . . , αI)T et X est la matrice de colonnes 1In,v1, . . . ,vI . Cependant, cette écriture

ne rend pas compte de la contrainte d’identifiabilité : X n’est clairement pas de rang plein.

On passe aisément d’une écriture à l’autre. En effet,— pour le passage de (7.2) à (7.1), tout simplement

m =I∑i=1

mivi =I∑i=1

θivi;

Page 158: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

— pour le passage de (7.1) à (7.2), θi = mi est la ie coordonnée dem dans la base orthogonale(v1, . . . ,vI) d’où

θi =〈m,vi〉ni

,

ou par la formule du Chapitre 7, puisque X est de rang plein,

θ = (X>X)−1X>m;

— pour le passage de (7.3) à (7.1), tout simplement mi = µ+ αi;— pour le passage de (7.1) à (7.3), on déduit de la contrainte d’identifiabilité

µ =1

n

I∑i=1

nimi,

puis αi = mi − µ.

7.1.2 Estimation des paramètres par moindres carrés

7.1.2.a. Estimation dem

L’estimateur par moindres carrés dem est défini par

m = argminv∈V

‖Y − v‖2

et donc caractérisé par

m = pV (Y)

où pV désigne la projection orthogonale de Rn sur V. On notera que m n’est autre que ce quenous avions défini comme la valeur ajustée Y dans le cours sur la régression. Comme V a pourbase orthogonale v1, . . . ,vI, on obtient

m =I∑i=1

Yi.vi

Yi. =1

ni

ni∑j=1

Yij

est la moyenne empirique des données du groupe i. On notera que Yi. est de loi normale, demoyenne mi et de variance σ2/ni, et que les variables Y1., . . . , YI. sont indépendantes.

Page 159: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.1.2.b. Estimation de θ

L’estimateur par moindres carrés de θ est défini par

θ = argminβ∈RI

‖Y −Xβ‖2,

de sorte que Xθ est caractérisé par

Xθ = pV (Y) = m.

On obtient doncXTXθ = XTm,

puis X étant de rang pleinθ = (XTX)−1XTm.

Cette formule n’est pas surprenante puisqu’elle s’obtient aussi directement en invoquant le Cha-pitre 7. Ainsi,

θ = (Y1., . . . , YI.)T

est un vecteur gaussien de loi normale centrée et de matrice de variance-covariance σ2D, oùD estla matrice diagonale, de diagonale (1/n1, . . . , 1/nI).

7.1.2.c. Estimation de µ et des (αi)1≤i≤I

Les estimateurs par moindres carrés de µ, α1, . . . , αI sont définis par

(µ, α1, . . . , αI) = argmin(ν,β1,...,βI)∈RI+1t.q.

∑Ii=1 niβi=0

∥∥∥∥∥Y − ν1In −I∑i=1

βivi

∥∥∥∥∥2

.

Comme indiqué en remarque à la fin du paragraphe 7.1.1, il n’est pas possible ici d’appli-quer les résultats du cours sur la régression en utilisant l’écriture (7.4). En revanche, l’estimateur(µ, α1, . . . , αI) est caractérisé par

µ1In +I∑i=1

αivi = pV (Y) = m

et la contrainteI∑i=1

niαi = 0.

On obtient donc

µ = Y :=1

n

I∑i=1

ni∑j=1

Yij =1

n

I∑i=1

niYi.

etαi = Yi. − µ.

Page 160: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Les estimateurs µ et αi peuvent tous s’écrire comme combinaisons linéaires de gaussiennesindépendantes. C’est évident pour µ et on obtient par exemple

α1 =(

1− n1

n

)Y1. −

1

n

I∑i=2

niYi..

Aussi, µ suit la loi normale de moyenne µ et de variance σ2, alors que αi suit la loi normale demoyenne αi et de variance σ2(1− ni/n).

7.1.2.d. Estimation de σ2

Introduisons, comme dans le cours sur la régression, le vecteur des résidus ε = Y − m =pV ⊥(Y) et la somme des carrés des résidus (SCR) ‖ε‖2. On considère l’estimateur sans biaisusuel de la variance déjà vu dans le Chapitre 7, c’est-à-dire le carré moyen résiduel (CMR)

σ2 =‖ε‖2

dim(V ⊥)

=‖Y −Xθ‖2

n− rang(X)

=1

n− I‖Y − m‖2

=1

n− I

I∑i=1

ni∑j=1

(Yij − Yi.)2.

D’après le théorème de Cochran, σ2 est indépendante de toute fonction mesurable de pV (Y), doncen particulier de m et θ, et vérifie (n− I)σ2/σ2 de loi du khi-deux à n− I degrés de liberté.

7.1.3 Test de (l’absence d’effet) l’effet du facteur

On souhaite tester

H0 : m1 = m2 = . . . = mI (« pas de différence entre les groupes »)

contre

H1 : il existe 1 ≤ i1 6= i2 ≤ I tels que mi1 6= mi2 (« il existe au moins deux goupes différents »,ou encore « le facteur a un effet sur la variable Y ».)

De manière équivalente, on peut écrire

H0 : α1 = α2 = . . . = αI = 0 (« absence d’effet dû au facteur »)

H1 : il existe 1 ≤ i ≤ I tels que αi 6= 0 (« le facteur a un effet sur la variable Y ».)

Page 161: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Lorsque I = 2, il suffit d’utiliser le test de Student de comparaison des moyennes à varianceségales (cf. Polycopié, Chap. 10, et TD6). Lorsque I ≥ 3, on peut comparer les groupes 2 à 2,c’est-à-dire effectuer tous les tests de Student de

H(i1i2)0 : mi1 = mi2 contre H

(i1i2)1 : mi1 6= mi2

pour 1 ≤ i1 < i2 ≤ I. On en déduit par exemple un test de niveau au plus α de H0 contreH1 en rejetant H0 si et seulement si l’une au moins des H(i1i2)

0 est rejetée au niveau α/N, oùN = I(I − 1)/2 est le nombre de tests de Student à combiner. Un tel test n’est cependant pas engénéral de taille α, et sa puissance est difficile à évaluer. Le but de ce paragraphe est de construireun autre test de H0 contre H1 de niveau exactement α : le test de Fisher. Ce test est basé sur lacomparaison entre

— un estimateur dem dans le modèle global, i.e. lorsquem ∈ V :

m = pV (Y) =I∑i=1

Yi.vi

— un estimateur dem dans le modèle sous H0, i.e. lorsquem ∈ V0 = Vect (1In) :

m0 = pV0(Y) = Y 1In.

Sous H0, m et m0 sont censés être proches car ce sont deux bons estimateurs de m, alors quesous H1, m0 est un mauvais estimateur dem, qui devrait donc être loin de m.

7.1.3.a. Loi de ‖m− m0‖2 sous H0

L’espace des observations se décompose en

Rn = V⊥⊕ V ⊥ = V0

⊥⊕A

⊥⊕ V ⊥

où V0 = Vect(1In), A =∑I

i=1 αivi/∑I

i=1 niαi = 0

et V = V0

⊥⊕A,

d’où

m− m0 = pV (Y)− pV0(Y) = pA(Y).

Sous H0,m ∈ V0 de sorte que pA(m) = 0 et

‖m− m0‖2 = σ2

∥∥∥∥pA(Y −mσ

)∥∥∥∥2

suit donc sous H0 la loi σ2χ2(dimA) par le théorème de Cochran.Remarque 7.2. De manière générale,

‖m− m0‖2 = σ2 ‖pA(Y/σ)‖2 ∼ χ2(I − 1, ‖pA(m)‖/σ),

loi du khi-deux décentrée à I−1 degrés de liberté, de paramètre de décentrement ‖pA(m)‖/σ (cf.TD11). On montre aisément à partir de la définition donnée dans le TD11 que cette loi a tendanceà prendre (au sens de l’ordre stochastique) des valeurs d’autant plus grandes que ‖pA(m)‖ estgrande.

Page 162: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.1.3.b. Statistique de test et règle de décision

Comme la loi sous H0 de ‖m − m0‖2 n’est connue qu’à σ2 près, on considère la statistiquede test

T =‖m− m0‖2/(I − 1)

σ2=‖pA(Y)‖2/ dim(A)

‖pV ⊥(Y)‖2/dim(V ⊥).

Par le théorème de Cochran, le numérateur et le dénominateur de T sont indépendants, de sorteque sous H0, T ∼ F(I − 1, n− I), d’où le nom de statistique de Fisher. On définit donc, pourle test de H0 contre H1, la région de rejet de niveau exactement α

Rα = T > fI−1,n−I(1− α).

Lorsqu’on observe pour T la valeur t, la p-valeur associé est

p(t) = PH0(T ≥ t) = 1− FF(I−1,n−I)(t).

7.1.3.c. Équation et table d’analyse de la variance

Comme

Rn = V0

⊥⊕A

⊥⊕ V ⊥,

on peut décomposer Y en

Y = pV0(Y) + pA(Y) + pV ⊥(Y)

d’où par le théorème de Pythagore

‖Y − pV0(Y)‖2 = ‖pA(Y)‖2 + ‖pV ⊥(Y)‖2. (7.5)

On appelle— somme des carrés totale (SCT) ou variabilité totale

‖Y − pV0(Y)‖2 = ‖Y − Y 1In‖2 =I∑i=1

ni∑j=1

(Yij − Y )2;

— somme des carrés des écarts dus au facteur A (SCEA) ou variabilité inter-groupes

‖pA(Y)‖2 = ‖m− m0‖2 =

I∑i=1

ni(Yi. − Y )2;

— somme des carrés résiduelle (SCR) ou variabilité intra-groupes

‖pV ⊥(Y)‖2 = ‖Y − pV (Y)‖2 =

I∑i=1

ni∑j=1

(Yij − Yi.)2.

Page 163: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

L’équation (7.5), soitSCT = SCEA + SCR

est appelée équation d’analyse de la variance. Lorsque SCEA est suffisamment grande parrapport à SCR, cela indique que la variabilité de Y est essentiellement due à l’existence de sous-groupes homogènes (SCR faible) mais bien distincts les uns des autres (SCEA élevée). On re-trouve donc qu’il est naturel de considérer l’effet dû au facteur comme significatif dès que lastatistique de Fisher

T =SCEA/dim(A)

SCR/dim(V ⊥)

est suffisamment grande. Toutes les quantités introduites ici sont reportées dans la table d’analysede la variance (cf. 7.3.1), table renvoyée par tous les logiciels de statistique usuels, et à savoirinterpréter.

7.1.4 ANOVA non-paramétrique

Lorsque l’hypothèse de normalité des données est peu vraisemblable, on peut remplacer le testde Fisher par un test basé sur les rangs, en remplaçant l’hypothèse de normalité par l’hypothèseque les échantillons sont de lois continues.

Pour I = 2, on utilise par exemple la statistique de Wilcoxon W12 basée sur les échantillonsindépendants Y (1) et Y (2) pour construire un test bilatère de niveau α de

H0 : Y11L= Y21

contre

H1 : P(Y21 ≤ Y11) 6= 1/2 (« Y11 et Y21 ont tendance à prendre des valeurs différentes »).

On connaît la loi sous H0 de W12, ce qui permet de fixer des seuils cα et dα tels que la région derejet W12 ≤ cα ∪ W12 ≥ dα soit de niveau au plus α.

Pour I ≥ 2, le test de Wilcoxon-Mann-Whitney bilatère se généralise de la manière suivante.On réordonne les observations du vecteur Y dans l’ordre croissant, et on note Rij le rang de Yijdans l’échantillon ainsi réordonné. On associe alors au ie groupe son rang moyen

Ri. =1

ni

ni∑j=1

Rij

que l’on compare au rang moyen global

R =1

n

I∑i=1

ni∑j=1

Rij =n+ 1

2.

Plus précisément, le test de Kruskal-Wallis consiste à rejeterH0 : « les échantillons sont de mêmeloi » lorsque la statistique

K =12

n(n+ 1)

I∑i=1

(Ri. −

n+ 1

2

)2

prend des valeurs trop grandes.

Page 164: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.1.5 Exemple 1

(D’après les données de Kirchhoefer (1979).) On souhaite comparer les techniques de dosagede différents laboratoires. On considère des comprimés contenant 4 mg d’une certaine substance(Chlorpheniramine maleate). On prépare un composite en moulant et en mélangeant plusieursde ces comprimés. À partir de ce composite, on demande à chaque laboratoire d’effectuer 10dosages de la susbtance, chaque dosage étant effectué à partir d’un morceau du composite depoids équivalent à un comprimé.

Dans la suite, nous n’étudierons que les données relatives aux laboratoires 2, 5, 6 et 7, qui sontregroupées dans le tableau de données Mesures.

Page 165: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

LES DONNÉES SOUS R.

> MesuresLabo Dosage

1 2 3.862 2 3.853 2 4.084 2 4.115 2 4.086 2 4.017 2 4.028 2 4.049 2 3.9710 2 3.9511 5 4.0212 5 3.9513 5 4.0214 5 3.8915 5 3.9116 5 4.0117 5 3.8918 5 3.8819 5 3.9920 5 4.0021 6 4.0222 6 3.8623 6 3.9624 6 3.9725 6 4.0026 6 3.8227 6 3.9828 6 3.9929 6 4.0230 6 3.9331 7 4.0032 7 4.0233 7 4.0334 7 4.0435 7 4.1036 7 3.8137 7 3.9138 7 3.9639 7 4.0540 7 4.06

Page 166: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

> attach(Mesures)

QUELQUES RÉSUMÉS (INDICATEURS ET GRAPHIQUES).

> str(Mesures)'data.frame': 40 obs. of 2 variables:$ Labo : Factor w/ 4 levels "2","5","6","7": 1 1 1 1 1 1 1 1 1 1 ...$ Dosage: num 3.86 3.85 4.08 4.11 4.08 4.01 4.02 4.04 3.97 3.95 ...> summary(Mesures)Labo Dosage2:10 Min. :3.8105:10 1st Qu.:3.9256:10 Median :3.9957:10 Mean :3.977

3rd Qu.:4.020Max. :4.110

Ici, il y a donc n = 40 observations, réparties en I = 4 groupes de même taille n1 = . . . =n4 = 10 selon le niveau du facteur. Dans la suite, on renumérote les niveaux du facteurs : 1 pour« Labo 2 », 2 pour « Labo 5 », 3 pour « Labo 6 », 4 pour « Labo 7 ».

VÉRIFICATION GROSSIÈRE DE L’HOMOSCÉDASTICITÉ.

> sd(Dosage)[1] 0.07614258> tapply(Dosage,Labo,sd)

2 5 6 70.08969702 0.05853774 0.06704062 0.08482662

La comparaison de l’écart-type global des dosages et des écarts-types par groupe des dosagesne contredit pas de manière flagrante l’hypothèse d’égalité des variances.

PREMIERS INDICATEURS SUR L’EFFET DU FACTEUR.

> tapply(Dosage,Labo,mean)2 5 6 7

3.997 3.956 3.955 3.998

A priori, la variable dosage a tendance à prendre des valeurs légèrement différentes selon lelaboratoire, et en particulier légèrement plus grandes dans les laboratoires 2 et 7, que 5 et 6.

Page 167: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

2 5 6 7

3.80

3.85

3.90

3.95

4.00

4.05

4.10

FIGURE 7.1 – Dosage selon le laboratoire

ESTIMATION ET TESTS.

> rescont<-lm(Dosage~Labo,data=Mesures,contrasts=list(Labo="contr.sum"))> summary(rescont)

Call:lm(formula = Dosage ~ Labo, data = Mesures,contrasts = list(Labo = "contr.sum"))

Residuals:Min 1Q Median 3Q Max

-0.18800 -0.04625 0.02250 0.05250 0.11300

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.97650 0.01203 330.500 <2e-16 ***Labo1 0.02050 0.02084 0.984 0.332Labo2 -0.02050 0.02084 -0.984 0.332Labo3 -0.02150 0.02084 -1.032 0.309---Signif. codes: 0 Ô***Õ 0.001 Ô**Õ 0.01 Ô*Õ 0.05 Ô.Õ 0.1 Ô Õ 1

Residual standard error: 0.0761 on 36 degrees of freedomMultiple R-squared: 0.07806, Adjusted R-squared: 0.001231F-statistic: 1.016 on 3 and 36 DF, p-value: 0.3969

> anova(rescont)

Page 168: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Analysis of Variance Table

Response: DosageDf Sum Sq Mean Sq F value Pr(>F)

Labo 3 0.01765 0.0058833 1.016 0.3969Residuals 36 0.20846 0.0057906

Le tableau Coefficients donnent les valeurs observées des estimateurs :

µ ≈ 3.9765, α1 ≈ 0.0205, α2 ≈ −0.0205, α3 ≈ −0.0215,

d’où on déduit via la contrainte d’identifiabilité, et puisque tous les groupes sont de même taille :

α4 = −(α1 + α2 + α3) ≈ 0.0215.

On vérifie aussi que ces valeurs coïncident avec les moyennes par groupe données précédemment.Dans le tableau Analysis of Variance Table, on lit par exemple la valeur de l’esti-

mateur de la variance (0.0057906), ou encore la valeur de la statistique du test de Fisher (1.016)pour tester l’absence d’effet du facteur « Labo », ou encore la p-valeur (0.3969) de ce test. Onconclut donc, à tous les niveaux usuels, que l’on conserve H0 : autrement dit, le dosage n’est passignificativement différent d’un laboratoire à l’autre.

Remarque 7.3. Lorsque le test de Fisher d’absence d’effet du facteur est significatif au niveau α,on effectue ensuite les différents tests de Student de comparaison des moyennes au niveau adéquat(cf. 7.1.3, ce qui donnerait ici 6 tests au niveau α/6) afin de déterminer les groupes significative-ment différents.

7.2 Analyse de la variance à deux facteurs

On trouvera au paragraphe 7.2.4 la description de l’exemple concret d’application qui nousservira d’illustration ainsi que toutes les sorties correspondantes.

Le cadre correspondant à l’analyse de la variance à deux facteurs est le suivant. Pour unepopulation donnée, on observe trois variables :

— une variable d’intérêt continue Y— deux variables catégorielles, ou facteurs, que nous appellerons facteur A et facteur B,

admettant respectivement I et J niveaux. On peut donc partitionner la population soiten I groupes correspondant aux niveaux du facteur A, soit en J groupes correspondantaux niveaux du facteur B, soit en IJ sous-groupes correspondant aux niveaux du facteurconjoint (A,B).

Dans l’exemple 2, la variable d’intérêt Y est le rendement, le facteur A est le facteur « Va-riété » à I = 3 niveaux, le facteur B est le facteur « Lumière » à J = 2 niveaux, F pour une faibleintensité lumineuse et H pour une intensité lumineuse élevée.

En présence de 2 facteurs, on peut s’intéresser soit à l’effet dû à chacun des facteurs, soit à unéventuel effet conjoint, ou interaction, entre les facteurs. Nous étudierons essentiellement ici cedernier point, dans le cadre de l’ANOVA dite à 2 facteurs avec interaction.

Page 169: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.2.1 Les différentes écritures du modèle

Soient I ≥ 2 le nombre de niveaux du facteur A, J ≥ 2 le nombre de niveaux du fac-teur B, on suppose que pour chacun des IJ niveaux de (A,B) on dispose du même nombreK ≥ 2 d’observations : on parle alors de plan d’expériences équilibré et équirépété. Pouri ∈ 1, . . . , I, j ∈ 1, . . . , J, et k ∈ 1, . . . ,K, on note Yijk la valeur de la variable d’in-térêt pour le ke individu du groupe caractérisé par « le facteur A vaut i et le facteur B vaut j ».On suppose les (Yijk)1≤i≤I,1≤j≤J,1≤k≤K indépendantes, gaussiennes, de même variance σ2 > 0inconnue. Pour i ∈ 1, . . . , I et j ∈ 1, . . . , J fixés, on suppose que le vecteur aléatoire de RK

Y(ij) = (Yij1 . . . YijK)>

correspond à un échantillon i.i.d. de la loi N (mij , σ2).

On appellera Y(ij) le sous-bloc correspondant à (A,B) = (i, j). En concaténant, à i ∈1, . . . , I fixé, les sous-blocs Y(ij), j = 1, . . . , J, on obtient le vecteur aléatoire de RJK

Y(i) =(Y(i1)>Y(i2)> . . .Y(iJ)>

)>,

que nous appellerons bloc des JK observations correspondant à B = j. En notant n = IJK, levecteur observé est donc le vecteur aléatoire de Rn obtenu en concaténant les I blocs Y(i), i =1, . . . , I :

Y =(Y(1)>Y(2)> . . .Y(I)>

)>.

Dans la suite, tous les vecteurs de Rn auront la même structure que Y. Autrement dit, a ∈ Rndésignera le vecteur des (aijk)i=1,...,I,j=1,...,J,k=1,...,K , le sous-bloc ij du vecteur a sera

a(ij) = (aij1 . . . aijK)> ∈ RK ,

et le bloc i du vecteur a sera le vecteur

a(i) =(a(i1)>a(i2)> . . . a(iJ)>

)>∈ RJK .

Nous pouvons par exemple écrire le modèle sous la forme

Yijk = mij + εijk, pour i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . ,K,

où les (εijk) sont i.i.d. de loi N (0, σ2), ou sous forme matricielle

Y = m+ ε, (7.6)

où m est le vecteur de Rn dont toutes les composantes du sous-bloc ij sont égales à mij . Maisl’écriture usuelle du modèle, celle qui permet de distinguer l’effet dû à chacun des facteurs ou àleur interaction, est la suivante :

Yijk = µ+ αi + βj + γij + εijk, i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . ,K.

Page 170: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Afin que la décomposition des mij en µ + αi + βj + γij soit unique, on impose de plus lescontraintes d’identifiabilité

I∑i=1

αi = 0,J∑j=1

βj = 0,J∑j=1

γij = 0 pour 1 ≤ i ≤ I,I∑i=1

γij = 0 pour 1 ≤ j ≤ J. (7.7)

Le coefficient µ décrit un effet moyen et les (γij), l’interaction entre les 2 facteurs. Les (αi)1≤i≤I(resp. les (βj)1≤j≤J ) décrivent l’effet principal dû au facteur A (resp. B), à distinguer del’effet (global) dû au facteur A (resp. B) décrit par les (αi + γij)1≤i≤I,1≤j≤J (resp. les (βj +γij)1≤i≤I,1≤j≤J ). Pour i ∈ 1, . . . , I et j ∈ 1, . . . , J, définissons les vecteurs de Rn

— ai, vecteur de coordonnées égales à 1 dans le ie bloc, et 0 sinon (ai « vecteur indicateurde A = i ») ;

— bj , vecteur de coordonnées égales à 1 dans le je sous-bloc de chaque bloc, et 0 sinon (bj« vecteur indicateur de B = j ») ;

— vij , vecteur de coordonnées égales à 1 dans le sous-bloc ij, et 0 sinon (vij « vecteurindicateur de (A,B) = (i, j) »).

On en déduit l’écriture vectorielle

Y = µ1In +

I∑i=1

αiai +

J∑j=1

βjbj +

I∑i=1

J∑j=1

γijvij + ε, (7.8)

où 1In est toujours le vecteur de Rn dont toutes les coordonnées sont égales à 1.

7.2.2 Calcul des estimateurs des moindres carrés

L’écriture (7.8) reflète la décomposition de l’espace des observations en un espace M0 cor-respondant à l’effet moyen, un espace A correspondant à l’effet principal dû au facteur A, unespace B correspondant à l’effet principal dû au facteur B, un espace C correspondant à l’inter-action entre les 2 facteurs et l’espace des résidus V ⊥ (qui n’est plus le même qu’en 7.1.1). Plusprécisément, on déduit des contraintes d’identifiabilité (7.15) la propriété suivante.

Proposition 7.1. Soient

M0 = Vect1In, A =

I∑i=1

αiai/

I∑i=1

αi = 0

, B =

J∑j=1

βjbj/

J∑j=1

βj = 0

,

C =

I∑i=1

J∑j=1

γijvij/∀ 1 ≤ i ≤ I,J∑j=1

γij = 0 et ∀ 1 ≤ j ≤ J,I∑i=1

γij = 0

,

alors, sous (7.15), les espaces M0, A,B et C sont deux à deux orthogonaux, de dimensions

dim(M0) = 1, dim(A) = I − 1, dim(B) = J − 1, dim(C) = (I − 1)(J − 1).

De plus, en notant V = M0

⊥⊕ A

⊥⊕ B

⊥⊕ C, alors l’espace des résidus V ⊥ a pour dimension

IJ(K − 1).

Page 171: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

PREUVE : L’orthogonalité résulte de la bilinéarité du produit scalaire. Pour le calcul des di-mensions, on introduit les espaces

A =

I∑i=1

αiai; (α1, . . . , αI) ∈ RI

et B =

J∑j=1

βjbj ; (β1, . . . , βJ) ∈ RJ . (7.9)

Ces espaces admettent respectivement pour bases orthogonales a1, . . . ,aI et b1, . . . , bJ, etsont donc de dimension I et J. Par ailleurs, on observe que

A = M0

⊥⊕A et B = M0

⊥⊕B,

d’où les dimensions de A et B. Enfin,

M0

⊥⊕A

⊥⊕B = A

⊥⊕B

est de dimension I + J − 1, et V, qui admet pour base orthogonale vij , 1 ≤ i ≤ I, 1 ≤ j ≤ J ,est de dimension IJ, d’où la dimension de C.

Les estimateurs des moindres carrés µ, (αi)1≤i≤I , (βj)1≤j≤J , (γij)1≤i≤I,1≤j≤J sont définiscomme les variables aléatoires obtenues en minimisant∥∥∥∥∥∥Y − µ1In −

I∑i=1

αiai −J∑j=1

βjbj −I∑i=1

J∑j=1

γijvij

∥∥∥∥∥∥2

par rapport à µ, (αi)1≤i≤I , (βj)1≤j≤J , (γij)1≤i≤I,1≤j≤J vérifiant les contraintes (7.15). Commeindiqué dans la preuve précédente, ces contraintes traduisent des propriétés d’orthogonalité, desorte que les EMC sont caractérisés par

µ1In +∑I

i=1 αiai +∑J

j=1 βjbj +∑I

i=1

∑Jj=1 γijvij = pV (Y)∑I

i=1 αiai = pA(Y)∑Jj=1 βjbj = pB(Y)∑Ii=1

∑Jj=1 γijvij = pC(Y)

On obtient donc les EMC en projetant successivement sur des espaces dont on connaît unebase orthogonale, ce qui revient à résoudre le système

µ1In = pM0(Y)

µ1In +∑I

i=1 αiai = pA(Y)

µ1In +∑J

j=1 βjbj = pB(Y)

µ1In +∑I

i=1 αiai +∑J

j=1 βjbj +∑I

i=1

∑Jj=1 γijvij = pV (Y)

Après calcul, on obtient

µ = Y

αi = Yi.. − Yβj = Y.j. − Yγij = Yij. − Y

Page 172: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Yij. : =1

K

K∑k=1

Yijk

Yi.. : =1

JK

J∑j=1

K∑k=1

Yijk =1

J

J∑j=1

Yij.

Y.j. : =1

IK

I∑i=1

K∑k=1

Yijk =1

I

I∑i=1

Yij.

Y : =1

n

I∑i=1

J∑j=1

K∑k=1

Yijk =1

I

I∑i=1

Yi.. =1

J

J∑j=1

Y.j..

Enfin, on estime toujours la variance par le carré moyen résiduel

σ2 =‖pV ⊥(Y)‖2

dim(V ⊥)

=‖Y − pV (Y)‖2

n− dim(V )

=1

n− IJ

I∑i=1

J∑j=1

K∑k=1

(Yijk − Yij.)2.

D’après le théorème de Cochran, σ2 est indépendante de toute fonction mesurable deµ, (αi)1≤i≤I , (βj)1≤j≤J , (γij)1≤i≤I,1≤j≤J et vérifie (n− IJ)σ2/σ2 de loi du khi-deux à n− IJdegrés de liberté.

7.2.3 Équation et table d’analyse de la variance

CommeRn = M0

⊥⊕A

⊥⊕B

⊥⊕ C

⊥⊕ V ⊥, (7.10)

où V = M0

⊥⊕A

⊥⊕B

⊥⊕ C, on peut décomposer Y en

Y = pM0(Y) + pA(Y) + pB(Y) + pC(Y) + pV ⊥(Y)

d’où par le théorème de Pythagore

‖Y − pM0(Y)‖2 = ‖pA(Y)‖2 + ‖pB(Y)‖2 + ‖pC(Y)‖2 + ‖pV ⊥(Y)‖2. (7.11)

On appelle— somme des carrés totale (SCT )

‖Y − pM0(Y)‖2 = ‖Y − Y 1In‖2 =

I∑i=1

I∑j=1

K∑k=1

(Yijk − Y )2;

Page 173: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

— somme des carrés des écarts dus au facteur A (SCEA)

‖pA(Y)‖2 = ‖pA(Y)− pM0(Y)‖2 = JKI∑i=1

(Yi. − Y )2;

— somme des carrés des écarts dus au facteur B (SCEB)

‖pB(Y)‖2 = ‖pB(Y)− pM0(Y)‖2 = IKJ∑j=1

(Y.j. − Y )2;

— somme des carrés des écarts dus à l’interaction (SCEC)

‖pC(Y)‖2 = ‖pV (Y)− pA(Y)− pB(Y) + pM0(Y)‖2 = K

I∑i=1

J∑j=1

(Yij. − Y )2;

— somme des carrés résiduelle (SCR)

‖pV ⊥(Y)‖2 = ‖Y − pV (Y)‖2 =

I∑i=1

J∑j=1

K∑k=1

(Yijk − Yij.)2.

L’équation (7.11), soit

SCT = SCEA + SCEB + SCEC + SCR

est appelée équation d’analyse de la variance.Les décompositions (7.10) et (7.11) sont également données dans la table d’analyse de la

variance (cf. 7.3.2), ainsi que les valeurs observées des statistiques de Fisher usuelles. Par lecturedirecte de la table, on peut conclure directement pour les tests d’absence d’effet principal dû aufacteur A, d’absence d’effet principal dû au facteur B, ou d’absence d’interaction entre les 2facteurs.

7.2.4 Exemple 2

Une expérience est destinée à étudier l’adaptation de trois variétés de moutarde à la sécheresse.On a un dispositif à 4 traitements différents dérivant de 3 variétés de moutarde notéesA,B etC, etde 2 intensités lumineuses (29000 lux et 8000 lux) notéesH et F . On dispose de 4 plants pour cha-cun des traitementsAH,AF,BH,BF,CH,CF . Un indicateur de l’adaptation à la sécheresse estl’apparition de racines courtes tubérisées. Le tableau ci-dessous indique les rendements observés,le rendement correspondant au nombre de racines observées.

AH 78 79 44 77AF 64 96 30 20BH 137 85 302 315BF 64 67 102 47CH 82 85 65 39CF 32 86 45 65

Page 174: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

LES DONNÉES SOUS R.

> MoutardeRendement Variete Lumiere

1 78 A H2 79 A H3 44 A H4 77 A H5 64 A F6 96 A F7 30 A F8 20 A F9 137 B H10 85 B H11 102 B H12 115 B H13 64 B F14 67 B F15 102 B F16 47 B F17 82 C H18 95 C H19 107 C H20 89 C H21 32 C F22 86 C F23 45 C F24 35 C F> attach(Moutarde)

Page 175: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

QUELQUES RÉSUMÉS (INDICATEURS ET GRAPHIQUES).

> str(Moutarde)'data.frame': 24 obs. of 3 variables:Rendement: num 78 79 44 77 64 96 30 20 137 85 ...Variete : Factor w/ 3 levels "A","B","C": 1 1 1 1 1 1 1 1 2 2 ...Lumiere : Factor w/ 2 levels "F","H": 2 2 2 2 1 1 1 1 2 2 ...

> summary(Moutarde)Rendement Variete Lumiere

Min. : 20.00 A:8 F:121st Qu.: 46.50 B:8 H:12Median : 78.50 C:8Mean : 74.083rd Qu.: 95.25Max. :137.00

VÉRIFICATION GROSSIÈRE DE L’HOMOSCÉDASTICITÉ.

> sd(Rendement)[1] 29.99408> tapply(Rendement,Variete,sd)

A B C26.81684 29.76305 29.35953> tapply(Rendement,Lumiere,sd)

F H27.02636 23.20593

PREMIERS INDICATEURS SUR L’EFFET DE CHAQUE FACTEUR.

> tapply(Rendement,Variete,mean)A B C

61.000 89.875 71.375> tapply(Rendement,Lumiere,mean)

F H57.33333 90.83333

Page 176: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

A B C

2040

6080

100

120

140

FIGURE 7.2 – Rendement selon la variété

F H

2040

6080

100

120

140

FIGURE 7.3 – Rendement selon la lumière

Page 177: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

ESTIMATION ET TESTS DANS LE MODÈLE AVEC INTERACTION.

> resINTER<-lm(Rendement~Variete*Lumiere,contrasts=list(Variete="contr.sum",Lumiere="contr.sum"))> summary(resINTER)

Call:lm(formula = Rendement ~ Variete * Lumiere,contrasts = list(Variete = "contr.sum", Lumiere = "contr.sum"))

Residuals:Min 1Q Median 3Q Max

-32.500 -15.250 -3.625 10.000 43.500

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 74.083 4.739 15.632 6.45e-12 ***Variete1 -13.083 6.702 -1.952 0.06666 .Variete2 15.792 6.702 2.356 0.03000 *Lumiere1 -16.750 4.739 -3.534 0.00237 **Variete1:Lumiere1 8.250 6.702 1.231 0.23419Variete2:Lumiere1 -3.125 6.702 -0.466 0.64662---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 23.22 on 18 degrees of freedomMultiple R-squared: 0.5311, Adjusted R-squared: 0.4008F-statistic: 4.077 on 5 and 18 DF, p-value: 0.01190

> anova(resINTER)Analysis of Variance Table

Response: RendementDf Sum Sq Mean Sq F value Pr(>F)

Variete 2 3423.1 1711.5 3.1752 0.065900 .Lumiere 1 6733.5 6733.5 12.4919 0.002369 **Variete:Lumiere 2 832.7 416.4 0.7725 0.476595Residuals 18 9702.5 539.0---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Interprétation. Ici, le facteur Variété a 3 niveaux A, B et C, rebaptisés respectivementVariete 1, Variete 2 et Variete 3 par le logiciel, et le facteur Lumière a 2 niveaux,rebaptisés respectivement Lumiere 1 et Lumiere 2.

Page 178: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Le tableau Coefficients donne les valeurs observées des estimateurs des paramètres et latable d’ANOVA la valeur observée de σ2 :

µ ≈ 74.083, α1 ≈ −13.03, α2 ≈ 15.792, β1 = −16.750, γ11 ≈ 8.25, γ21 ≈ −3.125, σ2 ≈ 539,

dont on déduitα3 = −(α1 + α2), β2 = −β1, γ12 = −γ11, γ22 = −γ21.

Pour le test de H0 : « pas d’interaction entre les 2 facteurs » contre H1 : « il existe une inter-action entre les 2 facteurs », on lit la p-valeur 0.476595, donc on conserve H0 à tous les niveauxusuels, i.e. on peut considérer que les 2 facteurs n’interagissent pas (cependant, l’erreur associée àcette décision est une erreur de seconde espèce inconnue).

7.3 Annexe : Tables d’analyse de la variance

Page 179: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.3.

1A

NO

VAà

unfa

cteu

r

MO

LE

.Soi

entI

et(ni)

1≤i≤I

des

entie

rsst

rict

emen

tpos

itifs

.On

cons

idèr

ele

mod

èle,

noté

(Mα),

Yij

+αi+ε ij,

pouri∈1,...,I

etj∈1,...,n

i,

où—

(Yij

) 1≤i≤I,1≤j≤ni

vari

able

sob

serv

ées;

—(εij

) 1≤i≤I,1≤j≤ni

non

obse

rvée

si.i

.d.d

elo

iN(0,σ

2);

—µ

,(αi)

1≤i≤I

para

mèt

resr

éels

inco

nnus

repr

ésen

tant

resp

ectiv

emen

tl’e

ffet

moy

enet

l’ef

fetd

ûau

fact

eurA

,vér

ifian

tla

cont

rain

ted’

iden

tifiab

ilité

I ∑ i=1

niαi

=0,

—σ>

0pa

ram

ètre

denu

isan

cein

conn

u.

CO

MP

OS

ITIO

ND

EL’

ES

PAC

ED

ES

OB

SE

RV

AT

ION

S.E

nno

tantn

=∑ I i=

1ni

lata

ille

duve

cteu

rY=

(Yij

) 1≤i≤I,1≤j≤ni,

Rn

=V⊥ ⊕V⊥

oùV

=M

0

⊥ ⊕A,

avec

M0

=V

ect

1In

etA

=

I ∑ i=1

αiai/

I ∑ i=1

αi

=0 .

ÉQ

UA

TIO

ND

’AN

ALY

SE

DE

LA

VA

RIA

NC

E. ‖Y−Y

1In‖2

=‖pA

(Y)‖

2+‖pV⊥

(Y)‖

2

Page 180: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TAB

LE

D’A

NA

LYS

ED

EL

AV

AR

IAN

CE

.

Sour

ceD

egré

sSo

mm

esC

arré

sV

aleu

rFp

-val

eur

Hyp

othè

senu

lleL

oideT

deva

riab

ilité

delib

erté

deca

rrés

moy

ens

deT

H0

sousH

0

Df

SumSq

MeanSq

Fvalue

Pr(>F)

Fact

eurA

dim

(A)

SCEA

CMA

CMA/CMR

P H0(T≥F

1=α

2=...

=αI

=0

F(I−

1,n−I)

=I−

1=‖pA

(Y)‖

2=‖p

A(Y

)‖2

dim

(A)

«ab

senc

ed’

effe

tdu

fact

eur»

Rés

idus

dim

(V⊥

)SCR

CMR

=n−I

=‖pV⊥

(Y)‖

2=‖p

V⊥

(Y)‖

2

dim

(V⊥

)

2

Tota

ln−

1SCT

=‖Y−Y

1In‖2

Page 181: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.3.

2A

NO

VAà

deux

fact

eurs

équi

libré

eav

ecin

tera

ctio

n

MO

LE

.Soi

entI,J,K

des

entie

rsst

rict

emen

tpos

itifs

,K≥

2.

On

cons

idèr

ele

mod

èle,

noté

(Mα,β,γ

),

Yijk

+αi+βj

+γij

+ε ijk,

pouri∈1,...,I,j∈1,...,J

etk∈1,...,K,

où —(Yijk) 1≤i≤I,1≤j≤J,1≤k≤K

vari

able

sob

serv

ées;

—(εijk) 1≤i≤I,1≤j≤J,1≤k≤K

non

obse

rvée

si.i

.d.d

elo

iN(0,σ

2);

—µ

,(αi)

1≤i≤I,(βj) 1≤j≤J

,(γij

) 1≤i≤I,1≤j≤J

para

mèt

res

réel

sin

conn

usre

prés

enta

ntre

spec

tivem

entl

’eff

etm

oyen

,l’e

ffet

prin

cipa

ldû

aufa

cteu

rA,l

’eff

etpr

inci

pald

ûau

fact

eurB

etl’

effe

tdû

àl’

inte

ract

ion

entr

ele

s2

fact

eurs

,etv

érifi

antl

esco

ntra

inte

sd’

iden

tifiab

ilité

I ∑ i=1

αi

=0,

J ∑ j=1

βj

=0,

J ∑ j=1

γij

=0

pour

1≤i≤I,

I ∑ i=1

γij

=0

pour

1≤j≤J.

—σ>

0pa

ram

ètre

denu

isan

cein

conn

u.

CO

MP

OS

ITIO

ND

EL’

ES

PAC

ED

ES

OB

SE

RV

AT

ION

S.E

nno

tantn

=IJK

lata

ille

duve

cteu

rY=

(Yijk) 1≤i≤I,1≤j≤J,1≤k≤K,

Rn

=V⊥ ⊕V⊥

oùV

=M

0

⊥ ⊕A⊥ ⊕B⊥ ⊕C,

avec

M0

=V

ect

1In,

A=

I ∑ i=1

αiai/

I ∑ i=1

αi

=0 ,

B=

J ∑ j=1

βjbj/

J ∑ j=1

βj

=0 ,

C=

I ∑ i=1

J ∑ j=1

γij

vij/∀

1≤i≤I,

J ∑ j=1

γij

=0

et∀

1≤j≤J,

I ∑ i=1

γij

=0 .

Rem

arqu

e:L

eses

pace

sM

0etA

sont

les

mêm

esqu

’en

7.3.

1,m

ais

pas

les

espa

cesV

etV⊥.

ÉQ

UA

TIO

ND

’AN

ALY

SE

DE

LA

VA

RIA

NC

E.

‖Y−Y

1In‖2

=‖pA

(Y)‖

2+‖pB

(Y)‖

2+‖pC

(Y)‖

2+‖pV⊥

(Y)‖

2

Page 182: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TAB

LE

D’A

NA

LYS

ED

EL

AV

AR

IAN

CE

.

Sour

ceD

egré

sSo

mm

esC

arré

sV

aleu

rFp

-val

eur

Hyp

othè

senu

lleL

oideT

deva

riab

ilité

delib

erté

deca

rrés

moy

ens

deT

H0

sousH

0

Df

SumSq

MeanSq

Fvalue

Pr(>F)

Fact

eurA

dim

(A)

SCEA

CMA

CMA/CMR

α1

2=...

=αI

=0

F(I−

1,n−IJ

)

=I−

1=‖pA

(Y)‖

2=‖p

A(Y

)‖2

dim

(A)

«ab

senc

ed’

effe

tpri

ncip

aldû

aufa

cteu

rA»

Fact

eurB

dim

(B)

SCEB

CMB

CMB/CMR

β1

2=...

=βJ

=0

F(J−

1,n−IJ

)

=J−

1=‖pB

(Y)‖

2=‖p

B(Y

)‖2

dim

(B)

«ab

senc

ed’

effe

tpri

ncip

aldû

aufa

cteu

rB»

Inte

ract

ion

dim

(C)

SCEC

CMC

CMC/CMR

∀1≤i≤I,∀

1≤j≤J,F

((I−

1)(J−

1),n−IJ

)

=(I−

1)(J−

1)=‖pC

(Y)‖

2=‖p

C(Y

)‖2

dim

(C)

γij

=0

«ab

senc

ed’

inte

ract

ion

»

Rés

idus

dim

(V⊥

)SCR

CMR

=n−IJ

=‖pV⊥

(Y)‖

2=‖p

V⊥

(Y)‖

2

dim

(V⊥

)

2

Tota

ln−

1SCT

=‖Y−Y

1In‖2

Rem

arqu

e:L

’est

imat

eurd

ela

vari

anceσ

2n’

estp

asle

mêm

equ

’en

7.3.

1.

Page 183: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.3.

3A

NO

VAà

deux

fact

eurs

équi

libré

e:m

odèl

ead

ditif

ousa

nsin

tera

ctio

n

MO

LE

.Soi

entI,J,K

des

entie

rsst

rict

emen

tpos

itifs

,K≥

2.

On

cons

idèr

ele

mod

èle,

noté

(Mα,β

),

Yijk

+αi+βj

+ε ijk,

pouri∈1,...,I,j∈1,...,J

etk∈1,...,K,

où—

(Yijk) 1≤i≤I,1≤j≤J,1≤k≤K

vari

able

sob

serv

ées;

—(εijk) 1≤i≤I,1≤j≤J,1≤k≤K

non

obse

rvée

si.i

.d.d

elo

iN(0,σ

2);

—µ

,(αi)

1≤i≤I,(βj) 1≤j≤J

,par

amèt

res

réel

sin

conn

usre

prés

enta

ntre

spec

tivem

entl

’eff

etm

oyen

,l’e

ffet

dûau

fact

eurA

,l’e

ffet

dûau

fact

eurB

,vér

ifian

tles

cont

rain

tes

d’id

entifi

abili

té I ∑ i=1

αi

=0,

J ∑ j=1

βj

=0;

—σ>

0pa

ram

ètre

denu

isan

cein

conn

u.

CO

MP

OS

ITIO

ND

EL’

ES

PAC

ED

ES

OB

SE

RV

AT

ION

S.

Ave

cle

sno

tatio

nsdu

para

grap

he7.

3.2,

Rn

=VAB

⊥ ⊕V⊥ AB

oùVAB

=M

0

⊥ ⊕A⊥ ⊕B

etV⊥ AB

=C⊥ ⊕V⊥.

ÉQ

UA

TIO

ND

’AN

ALY

SE

DE

LA

VA

RIA

NC

E.

‖Y−Y

1In‖2

=‖pA

(Y)‖

2+‖pB

(Y)‖

2+‖pV⊥ AB

(Y)‖

2

Page 184: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TAB

LE

D’A

NA

LYS

ED

EL

AV

AR

IAN

CE

.

Sour

ceD

egré

sSo

mm

esC

arré

sV

aleu

rFp

-val

eur

Hyp

othè

senu

lleL

oideT

deva

riab

ilité

delib

erté

deca

rrés

moy

ens

deT

H0

sousH

0

Df

SumSq

MeanSq

Fvalue

Pr(>F)

Fact

eurA

dim

(A)

SCEA

CMA

CMA/CMR

α1

2=...

=αI

=0F

(I−

1,n−I−J

+1)

=I−

1=‖pA

(Y)‖

2=‖p

A(Y

)‖2

dim

(A)

«ab

senc

ed’

effe

tdû

aufa

cteu

rA»

Fact

eurB

dim

(B)

SCEB

CMB

CMB/CMR

β1

2=...

=βJ

=0F

(J−

1,n−I−J

+1)

=J−

1=‖pB

(Y)‖

2=‖p

B(Y

)‖2

dim

(B)

«ab

senc

ed’

effe

tdû

aufa

cteu

rB»

Rés

idus

dim

(V⊥ AB

)SCRAB

CMRAB

=n−I−J

+1

=‖pV⊥ AB

(Y)‖

2=‖p

V⊥ AB

(Y)‖

2

dim

(V⊥

)

=‖pC

(Y)‖

2

+‖pV⊥

(Y)‖

2=σ

2

Tota

ln−

1SCT

=‖Y−Y

1In‖2

Rem

arqu

e:L

’est

imat

eurd

ela

vari

anceσ

2n’

estp

asle

mêm

equ

el’

estim

ateu

rσ2

dupa

ragr

aphe

7.3.

2.

Page 185: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.4 Annexe : Petit nécessaire d’algèbre linéaire pour statisticien

Pour un espace vectoriel E, on note L(E) l’ensemble des endomorphismes de E, i.e. l’en-semble des applications u : E → E linéaires. Étant donnée une base B de E, on appellera matricede u ∈ L(E) relativement à B la matrice de u : (E,B)→ (E,B) (même base sur E au départ et àl’arrivée). Pour n ∈ N?, on noteMn(R) l’ensemble des matrices carrées de taille n à coefficientsréels etMn,1(R) l’ensemble des vecteurs colonnes à coefficients réels.

7.4.1 Espaces euclidiens

Définition 7.1. On dit que E est un espace euclidien si E est un R-espace vectoriel de dimensionfinie muni d’un produit scalaire. On notera 〈., .〉 ce produit scalaire et ‖.‖ la norme associée.

Proposition 7.2. SoientE un espace euclidien et B une base orthonormée quelconque deE. Pourx, y ∈ E, soient X,Y ∈Mn,1(R) leurs coordonnées dans B, alors

〈x, y〉 = XTY = XY T et ‖x‖2 = XTX.

PREUVE : Si B = (e1, . . . , en), x =∑n

i=1 xiei et y =∑n

i=1 yiei, alors

〈x, y〉 =

⟨n∑i=1

xiei,

n∑j=1

yiej

⟩=

n∑i=1

n∑j=1

xiyj〈ei, ej〉 =

n∑i=1

xiyi.

7.4.2 Formules de changement de base

Soient E un espace vectoriel de dimension finie, B = (e1, . . . , en) et B′ = (e′1, . . . , e′n) deux

bases de E. Pour tout j ∈ 1, . . . , n, e′j admet une unique décomposition dans B de la forme

e′j =

n∑i=1

pijei.

Définition 7.2. On appelle matrice de passage de B à B′ la matrice P = (pij)1≤i,j≤n, dont laje colonne, j ∈ 1, . . . , n, contient les coordonnées de e′j dans l’ancienne base B.

Proposition 7.3. Si P est la matrice de passage de B à B′, alors P est inversible et P−1 est lamatrice de passage de B′ à B.

Proposition 7.4. Soient x ∈ E, X (resp. X ′) le vecteur colonne de ses coordonnées dans B (resp.B′), alors on a

X = PX ′ . . . .

Remarque 7.4. . . . et surtout pas X ′ = PX!

La matrice de passage de B à B′ permet donc d’exprimer les anciennes coordonnées en fonctiondes nouvelles.

Page 186: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Définition 7.3. Deux matrices A et A′ ∈ Mn(R) sont dites semblables lorsqu’il existe unematrice Q ∈Mn(R) inversible telle que

A′ = Q−1AQ.

Proposition 7.5. Soient u ∈ L(E), B et B′ deux bases de E. On note A (resp. A′) la matrice de urelativement à B (resp. B′) et P la matrice de passage de B à B′. Alors A et A′ sont semblables,et plus précisément

A′ = P−1AP.

Rappelons que, par similitude, le déterminant, le rang et la trace sont invariants, de sorte qu’onpeut définir le déterminant, le rang et la trace de u ∈ L(E) comme celui/celle de l’une quelconquede ses matrices. Si A et A′ sont 2 matrices de u ∈ L(E), alors

det(u) = det(A) = det(A′), rang(u) = rang(A) = rang(A′), T r(u) = Tr(A) = Tr(A′),

où la dernière égalité est une conséquence de la propriété

Tr(AB) = Tr(BA).

On se reportera au paragraphe 7.4.4 pour les changements de bases orthonormées.

7.4.3 Projection, projection orthogonale

7.4.3.a. Projection

Définition 7.4. Soientt E un espace vectoriel, et F,G deux sous-espaces vectoriels de E tels queE = F ⊕G, i.e. pour tout x ∈ E, il existe un unique couple (xF , xG) ∈ F ×G tel que

x = xF + xG.

On appelle projection de E sur F parallèlement à G l’application p : E → E telle que, pourtout x ∈ E, p(x) = xF .

Proposition 7.6. L’application p ainsi définie est une application linéaire d’image Im(p) = F etde noyau Ker(p) = G. De plus, p p = p : on dit que p est idempotente.

Définition 7.5. Un endomorphisme p ∈ L(E) est appelé projecteur si p p = p.

Proposition 7.7. Soit p ∈ L(E) un projecteur, alors E = Ker(p)⊕ Im(p) et p est la projectionde E sur Im(p) parallèlement Ker(p).

Pour écrire simplement la matrice d’un projecteur p, il est judicieux de choisir comme base deE une base obtenue en rassemblant une base (f1, . . . , fd) de Im(p) := F (espace sur lequel onprojette) et une base de (g1, . . . , gn−d) de Ker(p) = G (espace parallèlement auquel on projette).Dans une telle base de E, p a pour matrice

Jd =

(Id Od,n−d

On−d,d Od,d

)et plus généralement

Page 187: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Proposition 7.8. La matrice de p relativement à n’importe quelle base de E est de la forme

PJdP−1.

En particulier, la trace de l’une quelconque de ses matrices est

Tr(p) = Tr(Jd) = d = dim(Im(p)) = rang(p).

On aura noté que la seule projection inversible est l’identité !

7.4.3.b. Projection orthogonale

Dans toute ce paragraphe, E est un espace euclidien.

Définition 7.6. Soit F un sous-espace vectoriel de E, alors E = F⊥⊕ F⊥. On appelle projection

orthogonale de E sur F et on note pF la projection de E sur F parallèlement à F⊥.

Proposition 7.9. Soit F un sous-espace vectoriel de E. La projection orthogonale de E sur F estl’application pF caractérisée par

i) pF pF = pF

ii) Im(pF ) = F

iii) Ker(pF ) = F⊥.

Matriciellement, il y a un lien entre projection orthogonale et matrice symétrique (cf. para-graphe 7.4.5), mais il n’y a pas de rapport entre matrice de projection orthogonale et matriceorthogonale (cf. paragraphe 7.4.4).

Le projeté orthogonal d’un élément admet différentes caractérisations, toutes très utiles.

Proposition 7.10. Soient F un sous-espace vectoriel de E et x ∈ E. Il y a équivalence entre

i) xF est le projeté orthogonal de x sur F

ii) xF ∈ F et x− xF ∈ F⊥

iii) xF ∈ F et pour tout f ∈ F, 〈x, f〉 = 〈xF , f〉

iv) xF = argminf∈F

‖x− f‖2

v) xF ∈ F et, étant donnée une base orthogonale (f1, . . . , fd) de F , pour tout j ∈ 1, . . . , d,〈x, fj〉 = 〈xF , fj〉

vi) Étant donnée une base orthogonale (f1, . . . , fd) de F ,

xF =

d∑j=1

〈x, fj〉‖fj‖2

fj .

Page 188: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

PREUVE : L’équivalence entre i), ii), iii) et v) est immédiate, de même que vi)⇒ v).Pour l’équivalence entre i) et iv), comme pour tout f ∈ F, x−pF (x) ∈ F⊥ et pF (x)−f ∈ F,

le théorème de Pythagore permet décrire

‖x− f‖2 = ‖x− pF (x)‖2 + ‖pF (x)− f‖2.

Pour v)⇒ vi), on sait que xF admet une décomposition de la forme

xF =d∑j=1

λjfj

et les (λj)1≤j≤d sont déterminés par

〈x, fj〉 = 〈xF , fj〉 = λj‖fj‖2.

7.4.4 Isométries et matrices orthogonales

Dans tout ce paragraphe, E est un espace euclidien de dimension n.

Définition 7.7. Soit u ∈ L(E), on dit que u est une isométrie (ou un endomorphisme orthogo-nal) si u conserve la norme, i.e. pour tout x ∈ E,

‖u(x)‖ = ‖x‖.

Puisqu’on peut reconstruire le produit scalaire à partir de la norme (4〈x, y〉 = ‖x+y‖2−‖x−y‖2), on a aussi :

Proposition 7.11. Soit u ∈ L(E), u est une isométrie si et seulement si u conserve le produitscalaire, i.e. pour tout x, y ∈ E,

〈u(x), u(y)〉 = 〈x, y〉. (7.12)

Proposition 7.12. Toute isométrie de E est bijective.

PREUVE : Une isométrie est clairement injective. De plus, E est ici de dimension finie.

Définition 7.8. Une matrice A ∈Mn(R) est dite orthogonale lorsque ATA = In.

Proposition 7.13. La matrice d’une isométrie relativement à une base orthonormée est une ma-trice orthogonale.

PREUVE : Soit u ∈ L(E) une isométrie, dans une base orthonormée, la relation (7.12) donne,pour tous vecteurs X,Y ∈Mn,1(R),

XTATAY = XTY

i.e.XT (ATA− In)Y = 0

donc (ATA− In)Y est le vecteur nul, car il est orthogonal à tout vecteur de Rn.Proposition 7.14. Soit u ∈ L(E), u est une isométrie si et seulement si elle transforme toute baseorthonormée de E en une base orthonormée de E.

Remarque 7.5. Attention au vocabulaire ! La matrice d’une projection orthogonale autre quel’identité n’est pas une matrice orthogonale, par exemple parce que c’est une matrice non in-versible.

Page 189: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.4.5 Endomorphismes auto-adjoints et matrices symétriques

Dans tout ce paragraphe, E est un espace euclidien de dimension n.

Définition 7.9. Soit u ∈ L(E), u est appelé endomorphisme auto-adjoint si pour tous x, y ∈ E,

〈u(x), y〉 = 〈x, u(y)〉. (7.13)

Proposition 7.15. Soient u ∈ L(E) un endomorphisme auto-adjoint et B une base orthonorméede E, alors la matrice A de u relativement à B vérifie

AT = A.

On dit que A est une matrice symétrique.

PREUVE : Pour tous x, y ∈ E, si l’on note X,Y ∈ Mn,1(R) leurs coordonnées dans B, commeB est orthonormée, la relation (7.13) s’écrit matriciellement

XTATY = XTAY,

d’oùXT (AT −A)Y = 0

donc (AT −A)Y = 0 car ce vecteur est orthogonal à tout vecteur de Rn.

Proposition 7.16. Tout projecteur orthogonal est un endomorphisme auto-adjoint. Autrement dit,la matrice d’une projection orthogonale relativement à une base orthonormée est symétrique.

PREUVE : Si p est la projection orthogonale de E sur F, alors

〈p(x), y〉 = 〈p(x), p(y) + (y − p(y))〉 = 〈p(x), p(y)〉 = 〈x+ (p(x)− x), p(y)〉 = 〈x, p(y)〉.

Proposition 7.17. Soit u ∈ L(E) un endomorphisme auto-adjoint, alors il existe une base ortho-normée de E formée de vecteurs propres de u.

Matriciellement, cela donne

Proposition 7.18. Toute matrice symétrique A admet une décomposition de la forme

A = P

λ1 · · · 0...

. . ....

0 · · · λn

P T ,

où (λ1, . . . , λn) ∈ Rn et P est une matrice orthogonale, i.e. P T = P−1.

En statistique, nous nous intéresserons tout particulièrement aux propriétés des matrices sy-métriques positives, car elles correspondent aux matrices de variance-covariance.

Page 190: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Définition 7.10. Une matrice symétriqueA ∈Mn(R) est dite positive si pour toutX ∈Mn,1(R)

XTAX ≥ 0.

Elle est dite définie positive si de plus

XTAX = 0⇔ X = 0.

Proposition 7.19. Une matrice symétrique est positive (resp. définie positive) si et seulement sitoutes ses valeurs propres sont positives (resp. strictement positives).

On peut donc définir la racine d’une matrice symétrique positive.

Proposition 7.20. Toute matrice symétrique positive A peut s’écrire sous la forme A = B2, où Best aussi une matrice symétrique positive.

PREUVE : Comme les valeurs propres λ1, . . . , λn de A sont positives, il existe une matrice ortho-gonale P telle que

A = PD2P T

D =

√λ1 · · · 0...

. . ....

0 · · ·√λn

.

Comme P TP = In, on aA = PDP TPDP T ,

et l’on peut poser B = PDP T .

7.5 Exercices et problèmes

Problème 7.1. (Intervalles de confiance simultanés)Pour i = 1, . . . , p, on observe Y(i) = (Yi1, . . . , Yini)

T de composantes i.i.d. de loiN (µi, σ2), où

µi ∈ R et σ2 > 0 sont inconnus. On suppose Y(1), . . . ,Y(p) indépendants. On note

Yi. =1

ni

ni∑j=1

Yij et n =

p∑i=1

ni.

1. Donner un intervalle de confiance de niveau 90% pour µ1.

2. Déterminer des intervalles IC1, . . . , ICp, fonctions uniquement des données observées etde n, tels que quels que soient µ = (µ1, . . . , µp)

T ∈ Rp et σ > 0, on ait

Pµ,σ (µ1 ∈ IC1, . . . , µp ∈ ICp) ≥ 90%.

3. Proposer un test de niveau 10% de

H0 : µ1 = . . . = µp

contreH1 : tous les (µi)1≤i≤p ne sont pas égaux.

Page 191: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Problème 7.2. (ANOVA à 2 facteurs : modèle additif)

Situation concrète. Une expérience est destinée à étudier l’adaptation de 3 variétés de mou-tarde à la sécheresse. On a un dispositif à 6 traitements différents dérivant de 3 variétés de mou-tarde notées A, B et C, et de 2 intensités lumineuses (29 000 lux et 8 000 lux) notées H et F . Ondispose de 4 plants pour chacun des traitements AH,AF,BH,BF,CH, CF . Un indicateur del’adaptation à la sécheresse est l’apparition de racines courtes tubérisées. On appelle rendement lenombre observé de ces racines. On souhaite savoir si le rendement dépend significativement de lavariété et si le rendement dépend significativement de l’intensité lumineuse.

Modélisation. Soient I, J,K des entiers strictement positifs, K ≥ 2. On considère le modèle,noté (Mα,β),

Yijk = µ+ αi + βj + σεijk,

pour i ∈ 1, . . . , I, j ∈ 1, . . . , J et k ∈ 1, . . . ,K, où— Y = (Yijk)1≤i≤I,1≤j≤J,1≤k≤K sont les variables observées ;— les variables (εijk)1≤i≤I,1≤j≤J,1≤k≤K ne sont pas observées et sont supposées indépen-

dantes de loi N (0, 1);— les paramètres réels µ, (αi)1≤i≤I et (βj)1≤j≤J représentent respectivement l’effet moyen,

l’effet dû au premier facteur (ou facteur A), l’effet dû au second facteur (ou facteur B). Cesont des réels inconnus vérifiant les contraintes dites d’identifiabilité

I∑i=1

αi = 0,

J∑j=1

βj = 0; (7.14)

— σ > 0 est un paramètre de nuisance inconnu.

Notations. On notem = E[Y], n = IJK,

Y =1

n

I∑i=1

J∑j=1

K∑k=1

Yijk, Yi.. =1

JK

J∑j=1

K∑k=1

Yijk, Yij. =1

K

K∑k=1

Yijk,

et on définit de même Y.j., Y..k, Y.jk, Yi.k.

Page 192: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Sorties R pour le modèle (Mα,β).

> res<-lm(Rendement~Variete+Lumiere,contrasts=list(Variete="contr.sum",Lumiere="contr.sum"))> summary(res)

Call:lm(formula = Rendement ~ Variete + Lumiere,contrasts = list(Variete = "contr.sum", Lumiere = "contr.sum"))

Residuals:Min 1Q Median 3Q Max

-33.750 -15.594 -2.688 11.000 51.750

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 74.083 4.685 15.813 9.06e-13 ***Variete1 -13.083 6.625 -1.975 0.06227 .Variete2 15.792 6.625 2.383 0.02718 *Lumiere1 -16.750 4.685 -3.575 0.00189 **---Signif. codes: 0 Ô***Õ 0.001 Ô**Õ 0.01 Ô*Õ 0.05 Ô.Õ 0.1 Ô Õ 1

Residual standard error: 22.95 on 20 degrees of freedomMultiple R-squared: 0.4908, Adjusted R-squared: 0.4145F-statistic: 6.427 on 3 and 20 DF, p-value: 0.003172

> anova(res)Analysis of Variance Table

Response: RendementDf Sum Sq Mean Sq F value Pr(>F)

Variete 2 3423.1 1711.5 3.2492 0.059995 .Lumiere 1 6733.5 6733.5 12.7828 0.001894 **Residuals 20 10535.2 526.8---Signif. codes: 0 Ô***Õ 0.001 Ô**Õ 0.01 Ô*Õ 0.05 Ô.Õ 0.1 Ô Õ 1

Page 193: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Question préliminaire.

1. Montrer que sous les contraintes d’identifiabilité (7.14), m appartient à un sous-espace vec-toriel V de Rn admettant une décomposition en somme directe orthogonale de la forme

V = M0

⊥⊕A

⊥⊕B.

On explicitera les espaces M0, A et B, et on donnera leur dimension.

Estimation et intervalles de confiance.

resume Déterminer m, µ, (αi)1≤i≤I ,(βj)1≤j≤J , estimateurs des moindres carrés des paramètresm, µ, (αi)1≤i≤I ,(βj)1≤j≤J , sous la contrainte (7.14).

resume Déterminer σ2 estimateur sans biais de la variance σ2. Donner sa loi.

resume Soit 0 < δ < 1. Pour chacun des paramètres µ, αi, βj , construire un intervalle deconfiance de niveau 1− δ.

Tests. On fixe 0 < δ < 1.

resume Soient 1 ≤ i < k ≤ n. Proposer un test de niveau δ de

H ik0 : αi = αk contre H ik

1 : αi 6= αk.

resume En déduire un test de niveau δ d’hypothèse nulle H0 : « le facteur A n’a pas d’effet sur lerendement ».

resume Proposer un test de niveau exactement δ pour tester l’absence d’effet dû au facteur A.

resume Dans la situation concrète, au niveau 5% :

4.1 Tester l’absence d’effet dû au facteur variété. Si l’hypothèse nulle est rejetée, propo-ser un test de même niveau permettant de déterminer les variétés significativementdifférentes.

4.2 Tester l’absence d’effet dû au facteur lumière. Si l’hypothèse nulle est rejetée, peut-on considérer qu’accroître l’intensité lumineuse est favorable au rendement?

Estimation dans le modèle réduit à un facteur. Dans cette question, on considère le modèle(Mβ)

Yijk = µ+ βj + σεijk,

pour i ∈ 1, . . . , I, j ∈ 1, . . . , J et k ∈ 1, . . . ,K, avec les mêmes hypothèses surµ, βj , σ, εijk que dans le modèle (M(α,β)).

resume Déterminer µ, βj , j = 1, . . . , J, estimateurs des moindres carrés des paramètres µ, βj , j =1, . . . , J sous la contrainte (7.14), ainsi que σ2, estimateur sans biais de la variance σ2.

resume Comparer aux estimateurs µ, βj et σ2 de la seconde partie.

Page 194: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Vérification de l’homoscédasticité. Dans cette question, on suppose J = 2 et on considère lemodèle

Yijk = µ+ βj + σjεijk,

pour i ∈ 1, . . . , I, j ∈ 1, . . . , J et k ∈ 1, . . . ,K. Les hypothèses sur µ, βj , εijk sont lesmêmes que dans le modèle (M(α,β)), et σ1 > 0, σ2 > 0 sont inconnus.

resume Tester l’homoscédasticité au niveau 10%. Donner la conclusion du test pour la situationconcrète.

Problème 7.3. (ANOVA à deux facteurs avec interaction)Soient I, J,K des entiers strictement positifs,K ≥ 2. On considère le modèle, noté (Mα,β,γ),

Yijk = µ+ αi + βj + γij + σεijk,

pour i ∈ 1, . . . , I, j ∈ 1, . . . , J et k ∈ 1, . . . ,K, où— les variables (Yijk)1≤i≤I,1≤j≤J,1≤k≤K sont les variables observées ;— les variables (εijk)1≤i≤I,1≤j≤J,1≤k≤K ne sont pas observées et sont supposées indépen-

dantes de loi N (0, 1);— les paramètres réels µ, (αi)1≤i≤I ,(βj)1≤j≤J , (γij)1≤i≤I,1≤j≤J représentent respective-

ment l’effet moyen, l’effet principal dû au facteur A, l’effet principal dû au facteur Bet l’effet dû à l’interaction entre les 2 facteurs. Ce sont des réels inconnus vérifiant lescontraintes dites d’identifiabilité

I∑i=1

αi = 0,

J∑j=1

βj = 0,

J∑j=1

γij = 0 pour 1 ≤ i ≤ I,I∑i=1

γij = 0 pour 1 ≤ j ≤ J.

(7.15)— σ > 0 est un paramètre de nuisance inconnu.

Situation concrète. (Source : Box et Cox (1964)) Les données étudiées correspondent auxtemps de survie de 48 animaux. On a administré à chaque animal un certain poison et un certaintraitement. On souhaite savoir si le temps de survie dépend du type de poison ou du type detraitement.

1. Définir le sous-espace vectoriel V de Rn auquel appartient m = E[Y].

2. Traduire chacune des hypothèses H0 suivantes sous la forme m ∈ V0, où V0 est un sous-espace vectoriel de Rn que l’on définira.

2.1 H0 : absence d’effet principal dû au facteur A;

2.2 H0 : absence de tout effet dû au facteur A;

2.3 H0 : absence d’interaction entre les deux facteurs ;

3. Pour quels tests pouvez-vous conclure par lecture directe de la table d’analyse de la va-riance? Donnez vos conclusions pour la situation concrète au niveau 5%.

4. On souhaite effectuer le test restant au niveau exactement α. Proposer une statistique detest basée sur un estimateur de m dans le modèle global et un estimateur de m sous H0.Déterminer sa valeur pour la situation concrète et conclure au niveau 5%.

Page 195: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Sorties R.

Données brutes et résumés statistiques.

> BoxCox64Survie Poison Traitement

1 0.31 p1 A2 0.45 p1 A3 0.46 p1 A4 0.43 p1 A5 0.82 p1 B6 1.10 p1 B7 0.88 p1 B8 0.72 p1 B9 0.43 p1 C10 0.45 p1 C11 0.63 p1 C12 0.76 p1 C13 0.45 p1 D14 0.71 p1 D15 0.66 p1 D16 0.62 p1 D17 0.36 p2 A18 0.29 p2 A19 0.40 p2 A20 0.23 p2 A21 0.92 p2 B22 0.61 p2 B23 0.49 p2 B24 1.24 p2 B25 0.44 p2 C26 0.35 p2 C27 0.31 p2 C28 0.40 p2 C29 0.56 p2 D30 1.02 p2 D31 0.71 p2 D32 0.38 p2 D33 0.22 p3 A34 0.21 p3 A35 0.18 p3 A36 0.23 p3 A37 0.30 p3 B38 0.37 p3 B

Page 196: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

39 0.38 p3 B40 0.29 p3 B41 0.23 p3 C42 0.25 p3 C43 0.24 p3 C44 0.22 p3 C45 0.30 p3 D46 0.36 p3 D47 0.31 p3 D48 0.33 p3 D

> str(BoxCox64)'data.frame': 48 obs. of 3 variables:Survie: num 0.31 0.45 0.46 0.43 0.82 1.1 0.88 0.72 0.43 0.45 ...Poison : Factor w/ 3 levels "p1","p2","p3": 1 1 1 1 1 1 1 1 1 1 ...Traitement : Factor w/ 4 levels "A","B","C","D": 1 1 1 1 2 2 2 2 3 3 ...> summary(BoxCox64)

Survie Poison TraitementMin. :0.1800 p1:16 A:121st Qu.:0.3000 p2:16 B:12Median :0.4000 p3:16 C:12Mean :0.4794 D:123rd Qu.:0.6225Max. :1.2400

Analyse de la variance dans le modèle (Mα,β,γ)

> res<-lm(Survie~Poison*Traitement,contrasts=list(Poison="contr.sum",Traitement="contr.sum"))> anova(res)Analysis of Variance Table

Response: SurvieDf Sum Sq Mean Sq F value Pr(>F)

Pois 2 1.03301 0.51651 23.2217 3.331e-07 ***Trait 3 0.92121 0.30707 13.8056 3.777e-06 ***Pois:Trait 6 0.25014 0.04169 1.8743 0.1123Residuals 36 0.80073 0.02224

Page 197: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

7.6 Correction des exercices et problèmes

Page 198: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

CO

NC

LU

SIO

NS

UR

LE

ST

ES

TS

Prin

cipa

uxou

tilsp

our

cons

trui

reun

test

non-

para

mét

riqu

eU

nte

stes

tbas

ésu

rune

stat

istiq

uede

test

,c’e

st-à

-dir

eun

eva

riab

leal

éato

ire

dont

lalo

iest

conn

ueso

usH

0,o

uau

moi

nsso

usl’

hypo

thès

enu

llela

moi

nsfa

vora

ble.

Afin

dedé

term

iner

cette

loi,

unte

stpa

ram

étri

que

utili

sede

shy

poth

èses

surl

alo

ides

vari

able

sob

serv

ées

telle

squ

ela

norm

alité

,l’é

galit

éde

sva

rian

ces,...

Pour

s’en

affr

anch

ir,on

peut

pare

xem

ple

:•

regr

oupe

rles

donn

ées

encl

asse

s;•

utili

serl

afo

nctio

nde

répa

rtiti

onem

piri

que;

•tr

avai

llers

urle

sra

ngs.

Avan

tage

sdes

test

snon

-par

amét

riqu

espa

rra

ppor

taux

test

spar

amét

riqu

es•

Néc

essi

tent

peu

d’hy

poth

èses

surl

alo

ides

obse

rvat

ions

(typ

ique

men

t,ob

serv

atio

nsi.i

.d.d

efo

nctio

nde

répa

rtiti

onco

ntin

ueou

àde

nsité

).•

Val

able

sen

géné

ralq

uelle

que

soit

lata

ille

d’éc

hant

illon

,ete

npa

rtic

ulie

rpou

rles

petit

séc

hant

illon

s.•

Perm

ette

ntde

véri

fiers

iles

cond

ition

sd’

appl

icat

ion

dece

rtai

nste

sts

para

mét

riqu

esso

ntou

non

rem

plie

s(p

arex

empl

e,no

rma-

lité)

.

Dés

avan

tage

sdes

test

snon

-par

amét

riqu

espa

rra

ppor

taux

test

spar

amét

riqu

es•

Lor

sque

les

cond

ition

sd’

appl

icat

ion

d’un

test

para

mét

riqu

eso

ntre

mpl

ies,

lete

stpa

ram

étri

que

est

plus

puis

sant

qu’u

nte

stno

n-pa

ram

étri

que.

•Pe

rte

d’in

form

atio

nlié

eau

xtr

ansf

orm

atio

nssu

bies

parl

esdo

nnée

s(p

arex

empl

e,ni

lere

grou

pem

ente

ncl

asse

s,ni

les

rang

sne

tienn

entc

ompt

ede

séc

arts

entr

ele

sdo

nnée

s.)

Rem

arqu

es•

L’ét

ude

dela

puis

sanc

esu

rde

sdo

nnée

ssi

mul

ées

perm

etd’

éval

uer

cequ

’on

gagn

e/pe

rden

prat

ique

àut

ilise

run

test

non-

para

mét

riqu

epl

utôt

que

para

mét

riqu

e.•

Une

anal

yse

stat

istiq

ueco

mpl

ète

com

men

cepa

run

ean

alys

ede

scri

ptiv

ede

sdo

nnée

s(n

atur

ede

sdo

nnée

s,re

prés

enta

tions

gra-

phiq

ues,

indi

cate

urs

stat

istiq

ues)

.Un,

voir

epl

usie

urs

test

s,po

urro

nten

suite

être

appl

iqué

spo

urdé

term

iner

sile

spo

ints

mis

enév

iden

cepa

rl’a

naly

sede

scri

ptiv

eso

ntvr

aim

ents

igni

ficat

ifs.

Page 199: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Prin

cipa

uxte

stsp

aram

étri

ques

etno

n-pa

ram

étri

ques

Lége

nde

:•

P:t

estp

aram

étri

que

•R

(rob

uste

):

test

para

mét

riqu

equ

ires

teva

labl

ede

man

ière

appr

oché

epo

urun

egr

ande

taill

ed’

écha

ntill

on,m

ême

sile

shy

poth

èses

para

mét

riqu

esne

sont

pas

rem

plie

s•

NR

(non

robu

ste)

:tes

tpar

amét

riqu

eno

nro

bust

e•

NP

:tes

tnon

-par

amét

riqu

e•

E(e

xact

):la

loid

ela

stat

istiq

uede

test

sous

l’hy

poth

èse

nulle

lam

oins

favo

rabl

ees

tcon

nue

dem

aniè

reex

acte

•A

(app

roch

é):o

nut

ilise

une

appr

oxim

atio

nde

lalo

ide

last

atis

tique

dete

stso

usl’

hypo

thès

enu

llela

moi

nsfa

vora

ble.

Page 200: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TE

ST

UN

ÉC

HA

NT

ILL

ON

:CO

NF

OR

MIT

É(C

OM

PAR

AIS

ON

ÀU

NE

NO

RM

ED

ON

E)

Test

Rem

arqu

eN

atur

ede

sobs

erva

tions

P(R

/NR

)ou

NP

E/A

Réf

éren

ceTe

sts

deco

nfor

mité

d’un

epr

opor

tion

Bin

aire

sP

E/A

3.2.

1,3.

2.2

Test

dukh

i-de

uxd’

adéq

uatio

une

loid

onné

eTe

stgl

obal

Qua

ntita

tives

oudi

scrè

tes

àsu

ppor

tP/

NP

A5.

1fin

i/D

iscr

ètes

àsu

ppor

tinfi

ni5.

4.1,

5.7

ouco

ntin

ues,

regr

oupé

esen

clas

ses

Test

deco

nfor

mité

dela

moy

enne

àva

rian

ceco

nnue

(z-t

est)

Test

depo

sitio

nG

auss

ienn

es/C

ontin

ues

deva

rian

cefin

ieP

(R)

E3.

1.1

Test

deco

nfor

mité

dela

moy

enne

àva

rian

cein

conn

ue(t

-tes

t)Te

stde

posi

tion

Gau

ssie

nnes

/Con

tinue

sde

vari

ance

finie

P(R

)E

3.1.

2Te

stsu

rla

méd

iane

Test

depo

sitio

nC

ontin

ues

NP

E/A

4.2,

4.8

Test

deco

nfor

mité

dela

vari

ance

Test

dedi

sper

sion

Gau

ssie

nnes

P(N

R)

E3.

1.4

Test

deK

olm

ogor

ovd’

adéq

uatio

une

loid

onné

eTe

stgl

obal

Con

tinue

sN

PE

4.3

Test

d’A

nder

son-

Dar

ling

d’ad

équa

tion

àun

elo

idon

née

Test

glob

alC

ontin

ues

NP

E4.

5.3,

4.8

Test

deC

ram

ér-v

onM

ises

d’ad

équa

tion

àun

elo

idon

née

Test

glob

alC

ontin

ues

NP

E4.

5.3

TE

ST

UN

ÉC

HA

NT

ILL

ON

:AD

ÉQ

UA

TIO

N/A

JUS

TE

ME

NT

(CO

MPA

RA

ISO

UN

EFA

MIL

LE

DE

LO

IS)

Test

Rem

arqu

eP

(R/N

R)o

uN

PE

/AR

éfér

ence

Test

dukh

i-de

uxd’

adéq

uatio

une

fam

ille

delo

isQ

uant

itativ

esou

disc

rète

supp

ortfi

ni/D

iscr

ètes

àP/

NP

A5.

2su

ppor

tinfi

niou

cont

inue

s,re

grou

pées

encl

asse

s5.

4.2,

5.7

Test

deno

rmal

itéde

Kol

mog

orov

-Sm

irno

vC

ontin

ues

NP

E4.

4Te

stde

norm

alité

d’A

nder

son-

Dar

ling

Con

tinue

sN

PE

4.5.

3Te

stde

norm

alité

deC

ram

ér-v

onM

ises

Con

tinue

sN

PE

4.5.

3Te

stde

Shap

iro-

Wilk

(nor

mal

ité)

Con

tinue

sN

PE

4.5.

4Te

stde

Kol

mog

orov

-Sm

irno

vd’

adéq

uatio

lafa

mill

ede

slo

isex

pone

ntie

lles

Con

tinue

sN

PE

4.8

Rem

arqu

e:I

lexi

ste

auss

ides

vers

ions

des

test

sde

Kol

mog

orov

-Sm

irno

v,A

nder

son-

Dar

ling

ouC

ram

ér-v

onM

ises

pour

l’ad

équa

tion

àde

sfa

mill

esde

lois

obte

nues

part

rans

latio

net

/ou

chan

gem

entd

’éch

elle

àpa

rtir

d’un

elo

idon

née.

Page 201: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

TE

ST

PL

US

IEU

RS

ÉC

HA

NT

ILL

ON

S:C

OM

PAR

AIS

ON

DE

PL

US

IEU

RS

ÉC

HA

NT

ILL

ON

SIN

PE

ND

AN

TS

Test

Rem

arqu

eN

atur

ede

sobs

erva

tions

P(R

/NR

)ou

NP

E/A

Réf

éren

ceTe

sts

deco

mpa

rais

onde

deux

prop

ortio

nsB

inai

res;

2éc

hant

illon

sE

/A3.

2.3,

3.2.

4Te

stde

Stud

entd

eco

mpa

rais

onde

sm

oyen

nes

Test

depo

sitio

nG

auss

ienn

esde

mêm

eva

rian

ce;2

écha

ntill

ons

P(R

)E

3.1.

3Te

stde

Wel

chde

com

para

ison

des

moy

enne

sTe

stde

posi

tion

Gau

ssie

nnes

;2éc

hant

illon

sP

(R)

E3.

1.3

Test

deW

ilcox

on-M

ann-

Whi

tney

Test

depo

sitio

nC

ontin

ues;

2éc

hant

illon

sN

PE

6A

NO

VAà

unfa

cteu

rTe

stde

posi

tion

Gau

ssie

nnes

;Plu

sieu

rséc

hant

illon

sP

E7

(1éc

hant

illon

pour

1ni

veau

dufa

cteu

r)Te

stde

Kru

skal

-Wal

lisTe

stde

posi

tion

Con

tinue

s;Pl

usie

urs

écha

ntill

ons

NP

E7.

1.4

(1éc

hant

illon

pour

1ni

veau

dufa

cteu

r)Te

stde

Fish

erde

com

para

ison

des

vari

ance

sTe

std’

éche

lleG

auss

ienn

es;2

écha

ntill

ons

P(N

R)

E3.

1.5

Test

com

para

ison

deK

olm

ogor

ov-S

mir

nov

Test

glob

alC

ontin

ues;

2éc

hant

illon

sN

PE

4.8

TE

ST

DE

UX

ÉC

HA

NT

ILL

ON

S:C

OM

PAR

AIS

ON

DE

DE

UX

ÉC

HA

NT

ILL

ON

SA

PPA

RIÉ

S

Test

Nat

ure

deso

bser

vatio

nsP

(R/N

R)

E/A

Réf

éren

cet-

test

pour

écha

ntill

ons

appa

riés

Gau

ssie

nnes

;2éc

hant

illon

sap

pari

ésP

(R)

E3.

1.3.

c.Te

stde

sra

ngs

sign

ésde

Wilc

oxon

Con

tinue

s;2

écha

ntill

ons

appa

riés

NP

E

TE

ST

DE

UX

ÉC

HA

NT

ILL

ON

S:C

OR

LA

TIO

N

Test

Nat

ure

deso

bser

vatio

nsP

(R/N

R)

E/A

Réf

éren

ceTe

std’

indé

pend

ance

dede

uxéc

hant

illon

sV

ecte

urga

ussi

enP

(NR

)E

3.5

Test

dukh

i-de

uxd’

indé

pend

ance

Qua

ntita

tives

oudi

scrè

tes

àsu

ppor

tfini

/Dis

crèt

esà

P/N

PA

5.3

supp

orti

nfini

ouco

ntin

ues,

regr

oupé

esen

clas

ses

Test

deco

rrél

atio

nde

Spea

rman

Con

tinue

sN

PE

6.5

Rem

arqu

e:L

’AN

OVA

àun

oupl

usie

urs

fact

eurs

perm

etd’

étud

ierl

alia

ison

entr

eun

eva

riab

leco

ntin

uega

ussi

enne

etde

sva

riab

les

caté

gori

elle

sou

fact

eurs

.

Page 202: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront
Page 203: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

Bibliographie

AZAÏS, J.-M. et BARDET, J.-M. (2012). Le modèle linéaire par l’exemple : régression, analyse dela variance et plans d’expériences illustrés avec R et SAS. Dunod.

BERTRAND, F. et MAUMY-BERTRAND, M. (2014). Initiation à la statistique avec R-2e éd : Cours,exemples, exercices et problèmes corrigés. Dunod.

BIAU, G., DRONIOU, J. et HERZLICH, M. (2010). Mathématiques et statistique pour les sciencesde la nature. EDP Sciences.

BICKEL, P. J. et DOKSUM, K. A. (2015). Mathematical statistics—basic ideas and selected topics.Vol. 1. Texts in Statistical Science Series. CRC Press, Boca Raton, FL, second édition.

CORNILLON, P.-A., GUYADER, A., HUSSON, F., JÉGOU, N., JOSSE, J., KLOAREG, M.,MATZNER-LØBER, É. et ROUVIÈRE, L. (2008). Statistique avec R. Presses universitairesde Rennes.

CORNILLON, P.-A. et MATZNER-LØBER, É. (2007). Régression : Théorie et applications. Sprin-ger.

CORNILLON, P.-A. et MATZNER-LØBER, É. (2010). Régression avec R. Springer.

DACUNHA-CASTELLE, D. et DUFLO, M. (1994). Probabilités et statistiques : tome 1 : problèmesà temps fixe. Masson.

DAUDIN, J.-J., ROBIN, S. et VUILLET, C. (1999). Statistique inférentielle : idées, démarches,exemples. Rennes.

DAVISON, A. C. (2003). Statistical models, volume 11 de Cambridge Series in Statistical andProbabilistic Mathematics. Cambridge University Press, Cambridge.

DAVISON, A. C. et HINKLEY, D. V. (1997). Bootstrap methods and their application, volume 1de Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press,Cambridge. With 1 IBM-PC floppy disk (3.5 inch ; HD).

DICICCIO, T. J. et EFRON, B. (1996). Bootstrap confidence intervals. Statist. Sci., 11(3):189–228.With comments and a rejoinder by the authors.

203

Page 204: TESTS STATISTIQUES NATHALIE AKAKPO · Avant-propos Ces notes sont issues du cours donné dans le cadre du module 4M018 Statistique Appliquée à l’UPMC de 2013 à 2015. Elles seront

EFRON, B. et HASTIE, T. (2016). Computer age statistical inference, volume 5 de Institute of Ma-thematical Statistics (IMS) Monographs. Cambridge University Press, New York. Algorithms,evidence, and data science.

EFRON, B. et TIBSHIRANI, R. J. (1993). An introduction to the bootstrap, volume 57 de Mono-graphs on Statistics and Applied Probability. Chapman and Hall, New York.

LAFAYE DE MICHEAUX, P., DROUILHET, R. et LIQUET, B. (2011). Le logiciel R : Maitriser lelangage-Effectuer des analyses statistiques. Springer.

LEHMANN, E. L. (1997). Testing statistical hypotheses. Springer Texts in Statistics. Springer-Verlag, New York, second édition.

LEHMANN, E. L. (2006). Nonparametrics. Springer, New York, first édition. Statistical methodsbased on ranks, With the special assistance of H. J. M. D’Abrera.

LEJEUNE, M. (2010). Statistique—la théorie et ses applications. Collection Statistiques et Proba-bilités Appliquées. Springer, Paris. Second edition, with answers to exercises.

PRUM, B. (2010). La démarche statistique. Cépaduès.

RIVOIRARD, V. et STOLTZ, G. (2009). Statistique en action. Vuibert.

SHAO, J. et TU, D. S. (1995). The jackknife and bootstrap. Springer Series in Statistics. Springer-Verlag, New York.

THAS, O. (2010). Comparing distributions. Springer Series in Statistics. Springer, New York.

van der VAART, A. W. (1998). Asymptotic statistics, volume 3 de Cambridge Series in Statisticaland Probabilistic Mathematics. Cambridge University Press, Cambridge.

WASSERMAN, L. (2004). All of statistics. Springer Texts in Statistics. Springer-Verlag, New York.A concise course in statistical inference.

WASSERMAN, L. (2006). All of nonparametric statistics. Springer Texts in Statistics. Springer,New York.