Test Normalite

Embed Size (px)

Citation preview

Ricco Rakotomalala

Tests de normalitVersion 2.0

Techniques empiriques et tests statistiques

Universit Lumire Lyon 2Page: 1 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

Page: 2

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Avant-propos

Ce support dcrit les techniques statistiques destines examiner la compatibilit d'une distribution empirique avec la loi normale. On parle galement de test d'adquation la loi normale. Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la statistique infrentielle, en particulier la thorie des tests, consulter les ouvrages numrs dans la bibliographie. Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents en ligne sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail ; une disponibilit plus ou moins alatoire, au gr des migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier ; les informations sont disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique trs structurante. Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles pour les enseignements. La gratuit n'est pas le moindre de leurs atouts. Concernant ce document, rendons Csar ce qui est Csar, il a t en grande partie inspir du manuel Engineering Statistics Handbook du NIST, disponible en ligne http://www.itl.nist.

gov/div898/handbook/, notamment la section 1.3.5 Quantitative Techniques Distributional Measures (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35.htm).Enn, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.

Page: 3

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Page: 4

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Table des matires

Partie I Conformit la loi normale 1 Techniques empiriques et mthodes graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 5 6 7 9 9 13 14 16 18 21 24 26 29 29 31 35 36

1.1 Histogramme de frquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bote moustache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Coecient d'asymtrie et d'aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Q-Q Plot et Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test de Anderson-Darling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Test de D'Agostino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Conclusion sur les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1 Test de symtrie bas sur le coecient d'asymtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Test de symtrie - Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Test de symtrie - Test de Van der Waerden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Conclusion sur les tests de symtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Page: 5

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

64

Table des matiresTransformation de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37 37 38 38 39 39 41 42 42 43 44 47 49 51 53

4.1 Fonctions de transformation de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Approche graphique : utiliser la Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 La droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Exploiter la droite de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Box-Cox Normality Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Tester la normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Approche numrique : la maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Fonction de densit des variables Y et X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Expression de la fonction optimiser / . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Application numrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .A B C Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mise en oeuvre des tests de normalit dans TANAGRA . . . . . . . . . . . . . . . . . . . . . . . . . . Code source et packages R pour les tests de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Page: 6

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Partie I

Conformit la loi normale

Page: 1

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Page: 2

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

3Test d'adquationUn test d'adquation permet de statuer sur la compatibilit d'une distribution observe avec une distribution thorique associe une loi de probabilit. Il s'agit de modlisation. Nous rsumons une information brute, une srie d'observations, l'aide d'une fonction analytique paramtre. L'estimation des valeurs des paramtres est souvent un pralable au test de conformit. Au del de la simplication, ce test permet de valider une apprhension du processus de formation des donnes, il permet de savoir si notre perception du rel est compatible avec ce que nous observons. Prenons l'exemple simple du jeu de d. A priori, nous savons que chacune des faces du d a la mme probabilit d'apparatre, tout naturellement nous pensons une modlisation avec une loi multinomiale. Si, coinc par un margoulin dans une arrire salle d'un infme bouge, vous constatez qu'aprs un bon nombre de jets, certaines valeurs ont tendance sortir plus souvent que d'autres, il faut peut tre se poser la question de la loyaut du jeu : les observations ne sont plus compatibles avec la loi thorique qui devrait gnrer les donnes. Parmi les tests d'adquation, la conformit la loi normale (loi gaussienne, loi de Laplace-Gauss) revt une importance supplmentaire. En eet, l'hypothse de normalit des distributions sous-tend souvent de nombreux tests paramtriques (ex. comparaison de moyennes, rsidus de la rgression, etc.). En toute rigueur, s'assurer au pralable la compatibilit des distributions avec l'hypothse de normalit avant de procder au test statistique proprement dit devrait tre incontournable, surtout pour les petits eectifs. Fort heureusement, ce n'est pas une contrainte forte en pratique. En eet, grce la notion de robustesse, un test peut s'appliquer mme si l'on s'carte lgrement des conditions d'applications initiales. Dans ce point de vue, nous pouvons ds lors nous contenter de techniques simples (ex. statistique descriptives, techniques graphiques) pour vrier si la distribution des donnes est rellement inconciliable avec la distribution normale (ex. asymtrie forte, distribution avec plusieurs modes, etc.). Dans ce support, nous prsenterons dans un premier temps les techniques descriptives, notamment le trs populaire graphique Q-Q plot. Dans un second temps, nous dtaillerons plusieurs tests statistiques reconnus et implments dans la plupart des logiciels de statistique. Et enn, dans un troisime temps, nous tudierons les tests de symtrie des distributions qui, certains gards, peuvent tre considrs comme des cas particuliers des tests de normalit.

NotationsPour une population donne, nous voulons tudier la conformit de la distribution d'une v.a. continue X avec la loi normale. Nous disposons pour cela de n observations xi . Pour certaines techniques, nous pouvons tre amens trier les donnes. Nous obtenons une srie trie de manire ascendante que nous noterons x(i) : x(1) correspond la plus petite valeur observe c.--d.

x(1) = xmin , x(2) est la 2-me plus petite valeur, etc.

Page: 3

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

4DonnesDans ce support, nous utiliserons un chier recensant le logarithme de l'indice de masse corporelle (IMC, Body Mass Index en anglais) de 30 personnes (Figure 0.1). Nous pouvons considrer qu'il s'agit d'un petit eectif, inappropri pour certains tests (ex. Jarque-Bera), mais adquat pour des vises pdagogiques : le lecteur doit pouvoir facilement reproduire les calculs .

Fig. 0.1.

Donnes initiales

Nous utiliserons principalement le tableur EXCEL dans ce support, mais plusieurs reprises nous ferons appel des logiciels gratuits tels que TANAGRA et R, et des logiciels commerciaux tels que SPSS et STATISTICA.

1. Le chier de donnes est accessible sur le Web, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.htmlPage: 4 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

1 Techniques empiriques et mthodes graphiques

L'apprhension d'un jeu de donnes passe systmatiquement par les statistiques descriptives. Elles donnent une image globale. Bien souvent, elles permettent de se faire une ide sur les techniques que l'on pourrait utiliser et les dangers ou artefacts dont il faudra se mer. Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des donnes.

1.1 Histogramme de frquenceL'outil graphique le plus simple est l'histogramme de frquence. Il s'agit de couper automatiquement l'intervalle de dnition de la variable en k intervalles de largeur gales, puis de produire une srie de barres dont la hauteur est proportionnelle l'eectif associ l'intervalle. Dans la plupart des logiciels, le nombre k d'intervalles est dni de manire arbitraire, dans d'autres il est paramtrable. Une rgle simple pour dnir le bon nombre d'intervalles est d'utiliser la rgle k =

log2 (n).

Fig. 1.1.

Statistiques descriptives

Page: 5

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

6

1 Techniques empiriques et mthodes graphiquesDans le rsultat que nous reproduisons (Figure 1.1), la valeur k = 10 est manifestement trop leve,

il y a trop peu d'observations dans chaque intervalle. On peut essayer de descendre k = log2 (30) 5 (Figure 1.2), mais dnitivement il y a trop peu d'observations pour se donner une ide prcise dans cet exemple.

Fig. 1.2.

Histogramme de frquences

Certains logiciels procdent automatiquement l'estimation des deux principaux paramtres de la loi normale ( la moyenne, l'cart-type) et tracent la fonction de densit correspondante pour apprcier le rapprochement entre la distribution empirique (histogramme) et la distribution thorique (Figure 1.2). La moyenne est estime l'aide de la moyenne empirique :

x=

1 xi = 3.4362 n i

(1.1)

On utilise l'estimateur non biais de l'cart-type :

s=

1 (xi x)2 = 0.2290 n1 i

(1.2)

1.2 Bote moustacheLa bote moustaches , en anglais box-plot, est un outil graphique trs pratique reprsentant une distribution empirique l'aide de quelques paramtres de localisation : la mdiane (M ), le 1er (Q1 ) et 3me (Q3 ) quartile. Dans notre chier (Figure 1.3), M = 3.4531, Q1 = 3.2229 et Q3 = 3.5381. On constate un certain talement de la distribution vers les grandes valeurs, chose que l'on pouvait dj percevoir dans l'histogramme de frquences (Figure 1.2).

1. http://fr.wikipedia.org/wiki/Bote__moustaches et http://www.sfds.asso.fr/groupes/statvotre/Boite-a-moustaches.pdfPage: 6 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

1.3 Coecient d'asymtrie et d'aplatissement

7

Fig. 1.3.

Bote moustaches

Remarque 1 (Dtection et inuence des points atypiques). Les extrmits des moustaches sont dlimitspar 1.5 fois l'intervalle inter-quartile (Q3 Q1 ). Cela permet de dceler l'existence d'un point extrme . Il s'agit de l'observation correspondant xmax = 4.084, elle est largement plus leve que les autres valeurs. Ce point est mis en vidence dans la bote moustaches (Figure 1.3). Cette rgle de dtection est plus able que la fameuse rgle des 3-sigma qui consiste isoler les points en-de ou au-del de 3-fois l'cart-type autour de la moyenne. En eet, elle ne repose pas sur une hypothtique symtrie de la distribution, elle utilise galement des paramtres de localisation (les quartiles) qui, la dirence de la moyenne empirique, sont peu inuencs par les points extrmes.

Fig. 1.4.

Donnes sans le point extrme

Dans notre chier, il est patent que la valeur 4.084 est largement plus leve que les autres. Or tous les indicateurs et tests que nous mettrons en oeuvre reposent, au moins en partie, sur la moyenne empirique (x). Il parat plus judicieux de supprimer cette observation. Dsormais, le chier utilis dans les traitements comptera n = 29 observations (Figure 1.4), nous recalculons ds lors les statistiques descriptives (Figure 1.5).

1.3 Coecient d'asymtrie et d'aplatissementLa loi normale est caractrise par un coecient d'asymtrie et un coecient d'aplatissement nuls. Il parat naturel de calculer ces indicateurs pour se donner une ide, ne serait-ce que trs approximative, du rapprochement possible de la distribution empirique avec une gaussienne. Plutt que les indicateurs triviaux drivs de la dnition thorique des coecients, les logiciels calculent les estimateurs non-biaiss.

2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htmPage: 7 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

8

1 Techniques empiriques et mthodes graphiques

Fig. 1.5.

Statistiques descriptives sans le point extrme

Pour le coecient d'asymtrie 1 , appel skewness en anglais, nous utilisons ! :

G1 =

n (n 1)(n 2) i

(

xi x s

)3 = 0.2197(1.3)

Pour le coecient d'aplatissement 2 , appel kurtosis en anglais, nous utilisons " :

n(n + 1) G2 = (n 1)(n 2)(n 3) i

(

xi x s

)4

3(n 1)2 = 0.0053 (n 2)(n 3)

(1.4)

Si ces indicateurs sont susamment proches de la valeur 0, l'hypothse de compatibilit avec la loi normale ne peut tre rejete. Tout le problme est de quantier ce degr de proximit. Il faudrait connatre la loi de probabilit de ces indicateurs pour mettre en place un test statistique permettant de dterminer si l'cart est signicatif ou non ; ou tout du moins, calculer les cart-type (cf. les valeurs entre parenthses fournies par le logiciel TANAGRA, gure 1.5) et utiliser les distributions asymptotiques pour raliser le test. Nous dtaillerons ces procdures plus loin. A ce stade, les coecients d'asymtrie et d'aplatissement sont uniquement calculs titre indicatif. Nous constatons nanmoins, sans trop s'avancer quant aux rsultats des tests, qu'elles s'loignent peu des valeurs de rfrence. L'adquation la loi normale parat plausible.

Remarque 2 (Calculs avec le point atypique). Par curiosit, nous reprenons ces mmes indicateurs enincluant le point extrme (Figure 1.1), nous constatons qu'elles prennent des valeurs sensiblement direntes, G1 = 0.7476 et G2 = 1.1296, conrmant, si besoin est, qu'un individu s'cartant signicativement de la population peut fausser les rsultats.

3. http://en.wikipedia.org/wiki/Skewness 4. http://en.wikipedia.org/wiki/KurtosisPage: 8 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

1.4 Autres indicateurs

1.5 Q-Q Plot et Droite de Henry

9

D'autres indicateurs peuvent tre mis prot pour apprcier rapidement l'cart la loi normale. Par exemple, la distribution tant symtrique, l'cart entre la mdiane (M ) et la moyenne empirique (x) ne devrait pas tre trs lev. Dans notre jeu de donnes, la mdiane est gale 3.4400 et la moyenne 3.4138 (Figure 1.5). Ce dispositif est toutefois trs grossier : l'importance de l'cart dpend de la dispersion des donnes, il permet uniquement d'apprcier la symtrie de la distribution.

D=

1 |xi x| n i

(1.5)

Autre caractristique d'une gaussienne, le rapport entre l'cart absolu moyen (MAD - mean absolute 2 deviation en anglais, quation 1.5) et l'cart-type est asymptotiquement gal 0.7979. Dans notre chier de donnes, il est de 0.7811 (Figure 1.5). Ici galement, il parat dicile de rejeter d'emble l'adquation la loi normale. Ce dispositif peut tre to et aboutir un test statistique fond sur le ratio cart absolu moyen - cart-type (Avazian et al., page 301). Des tables sont disponibles pour dnir les rgions critiques associs aux dirents niveaux de risque. Mais il faut reconnatre que cette procdure est trs rarement rfrence. Pour ma part, je ne l'ai jamais vue implmente dans un logiciel.

1.5 Q-Q Plot et Droite de HenryLe Q-Q plot, quantile-quantile plot, est une technique graphique qui permet de comparer les distributions de deux ensembles de donnes # . Les chantillons ne sont pas forcment de mme taille. Il se peut galement, et c'est ce qui nous intresse dans le cas prsent, qu'un des ensembles de donnes soient gnres partir d'une loi de probabilit qui sert de rfrentiel. Concrtement, il s'agit 1. de trier les donnes de manire croissante pour former la srie x(i) ; 2. chaque valeur x(i) , nous associons la fonction de rpartition empirique Fi = 361) ; 3. nous calculons les quantiles successifs z(i) d'ordre Fi en utilisant l'inverse de la loi normale centre et rduite $ ; 4. enn, les donnes initiales n'tant pas centres et rduites, nous d-normalisons les donnes en appliquant la transformation x(i) = z (i) s + x. i0.375 n+0.25

(Saporta, page

Page: 9

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

10

1 Techniques empiriques et mthodes graphiques

Fig. 1.6.

Tableau de calcul du q-q plot

Si les donnes sont compatibles avec la loi normale, les points (x(i) , x(i) ) forment une droite, dite

droite de Henry, aligns sur la diagonale principale.Les calculs sont rsums dans un tableau de calcul que l'on peut construire facilement dans un tableur (Figure 1.6). Nous obtenons un graphique nuage de points, la droite de rfrence est matrialise par la diagonale principale (Figure 1.7). Nous constatons que les points sont relativement aligns. Nous n'observons pas un cartement signicatif, aucun point ne semble non plus se dmarquer des autres.

Fig. 1.7.

Q-Q plot pour notre jeu de donnes de 29 observations

5. http://www.itl.nist.gov/div898/handbook/eda/section3/qqplot.htm 6. =LOI.NORMALE.STANDARD.INVERSE(...) dans le tableur EXCELPage: 10 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

1.5 Q-Q Plot et Droite de HenryRemarque 3 (Estimation de la fonction de rpartition Fi ). Nous n'utilisons pas l'estimation triviale Fi =

11i n

dans les calculs. Il s'agit en eet de "lisser" la fonction de rpartition en prenant, non pas la valeur brute, mais la valeur espre en rfrence la loi de rpartition, la loi normale dans notre cas. Voir

http://www.uic.edu/classes/idsc/ids577/nscores.htm ; Blom's Normal Score - http://www.vni. com/products/imsl/jmsl/v30/api/com/imsl/stat/Ranks.html ; quelques scores usuels pour les tests bass sur les rangs (Wilcoxon, Van der Waerden, Savage, Siegel-Tukey, Klotz, etc.) - http://v8doc. i+a sas.com/sashtml/stat/chap47/sect17.htm. Plus gnralement, la formule idoine est Fi = n+1+2a , 3 a = 8 = 0.375 est une possibilit pour la loi normale, mais d'autres variantes existent http://en. wikipedia.org/wiki/Qq_plot.Remarque 4 (Variantes de la droite de Henry). D'autres modes de reprsentation de la droite de Henrysont couramment utiliss dans la littrature. Nous pouvons laisser les points z(i) en ordonne du graphique. L'intrt est qu'il est possible de dterminer graphiquement les paramtres de localisation et d'chelle de la distribution empirique (par exemple, la droite coupe l'axe des abcisses une coordonne qui permet d'estimer )(Figure 1.9). Autre reprsentation trs populaire, nous utilisons directement en ordonne les valeurs de Fi en utilisant un repre spcique dit repre gausso-arithmtique. L'astuce est de disposer, non pas rgulirement les valeurs de la frquence cumule en ordonne, mais selon une chelle qui permet d'obtenir une droite si la distribution tait gaussienne % (Figure 1.8).

Fig. 1.8.

Exemple de papier gausso-arithmtique

Remarque 5 (De l'utilisation du papier gausso-arithmtique). Ce type de papier trs spcique, vendunagure dans les librairies, tait pratique car il vitait au statisticien d'avoir calculer partir des tables

7. Des exemples de papier gausso-arithmtique : http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Tables/papier_gausso.htm ; http://www.iut.u-bordeaux4.fr/gea/pagesweb/henry.pdfPage: 11 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

12

1 Techniques empiriques et mthodes graphiques

statistiques les valeurs successives de z(i) partir des frquences Fi . Il n'a plus vraiment d'utilit de nos jours, un tableur fournit trs facilement ces valeurs.

Fig. 1.9.

Q-Q plot, valeurs standardises en ordonnes

Page: 12

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

2 Tests statistiques

Trs commodes, les approches empiriques n'ont pas la rigueur des techniques statistiques. Dans ce chapitre, nous prsentons les tests de compatibilit la loi normale. Encore une fois, il s'agit bien de vrier l'adquation (la compatibilit) la loi normale et non pas dterminer la loi de distribution. Mis part le test de Shapiro-Wilk, tous les tests prsents dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit bass sur les coecients d'asymtrie et d'aplatissement. La majorit de ces techniques sont prsents dans les logiciels. Nous reprenons notamment les rsultats de TANAGRA (Figure 2.1). Pour des raisons pdagogiques, nous reproduisons tous les calculs dans un tableur an que le lecteur puisse accder aux dtail des mthodes. A tout test est associ un risque dit de premire espce, il s'agit de la probabilit de rejeter l'hypothse de normalit alors qu'elle est vraie. Plus nous diminuons sa valeur, plus notre propension accepter l'adquation une gaussienne est leve. Dans tous nos exemples, nous adopterons le risque = 5%.

Fig. 2.1.

Tests de normalit avec le logiciel TANAGRA

Toutes les techniques que nous prsentons dans ce chapitre sont, et ne sont que, des techniques numriques. Les rsultats, rejet ou acceptation de la normalit, peuvent masquer des situations trs disparates. De plus, ces tests sont trs inuencs par la taille de l'chantillon. La compatibilit avec la loi normale est bien (trop) souvent la rgle sur des petits eectifs ; en revanche, l'incompatibilit avec la loi normale est quasi-systmatiquement dcide sur de gros eectifs, mme si les carts de distributions sont faibles. De fait, les approches empiriques, notamment graphiques, gardent toute leur importance.

Page: 13

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

14

2.1 Test de Shapiro-WilkDescription

2 Tests statistiques

Trs populaire, le test de Shapiro-Wilk est bas sur la statistique W . En comparaison des autres tests, il est particulirement puissant pour les petits eectifs (n 50). La statistique du test s'crit :

[ n [2] W =o

( )]2 ai x(ni+1) x(i) i=1 2 i (xi x)

(2.1)

x(i) correspond la srie des donnes tries ; [ n ] est la partie entire du rapport 2n 2

;

ai sont des constantes gnres partir de la moyenne et de la matrice de variance co-variance des quantiles d'un chantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spciques La statistique W peut donc tre interprte comme le coecient de dtermination (le carr du coecient de corrlation) entre la srie des quantiles gnres partir de la loi normale et les quantiles empiriques obtenues partir des donnes. Plus W est lev, plus la compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, s'crit :

R.C. : W < WcritLes valeurs seuils Wcrit pour dirents risques et eectifs n sont lues dans la table de Shapiro-Wilk ! .Calculs

Les calculs s'agencent de la manire suivante (Figure 2.2) : 1. trier les donnes xi , nous obtenons la srie x(i) ; ( ) 2. calculer les carts x(ni+1) x(i) ; 3. lire dans la table pour n = 29, les valeurs des coecients ai ; 4. former le numrateur de W , nW = 1.0231 ; 5. former le dnominateur de W , dW = 1.0847 ; 6. en dduire W =1.0240 1.0856

= 0.9432 ;

7. pour une risque = 0.05, le seuil critique lue dans la table pour n = 29 est Wcrit = 0.926. Dans notre exemple, W > Wcrit , au risque de 5%, l'hypothse de normalit est compatible avec nos donnes.

1. http://www.educnet.education.fr/rnchimie/math/benichou/tests/normalite/normalite.htm 2. http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/coef.htm ou http://www.santetropicale.com/SANTEMAG/algerie/stat/stat_10.htm#28 3. http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/tshapiro.htmPage: 14 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

2.1 Test de Shapiro-Wilk

15

Fig. 2.2.

Test de Shapiro-Wilk avec un tableur

Implmentations et logiciels

Comme nous pouvons le constater, les calculs sont assez complexes et reposent sur des valeurs tabules avec une certaine prcision. Il importe de vrier les direntes variantes implmentes dans les logiciels.

Petits eectifsPour les petits eectifs (n 50), SPSS procde au calcul exact et propose la valeur W = 0.9438. Il n'est pas oprant en revanche ds que n > 50. Ce rsultat est trs proche de ce que nous obtenons avec le tableur. A la dirence que les coecients ai doivent tre vraisemblablement plus prcis dans SPSS.

Eectifs intermdiairesPour les eectifs de taille modre, un autre algorithme prend le relais. Le programme de rfrence a t publie dans la revue Applied Statistics Journal " , le code source FORTRAN est accessible en ligne # . Il donne des rsultats prcis jusqu' n 5000. Il produit aussi la probabilit critique (p-value ) du test. Il est implment dans le logiciel DATAPLOT du NIST $ . Nous ne l'avons pas test. En revanche, l'implmentation dans le logiciel R a t value (fonction shapiro.test(...) % ). Nous obtenons la valeur

W = 0.9456, avec une p-value = 0.1408. L'hypothse de normalit ne peut tre rejete.

4. 5. 6. 7.

Algorithm AS R94 (SWILK sub routine) from the Applied Statistics Journal, 1995, Vol. 44, No. 4. http ://lib.stat.cmu.edu/apstat/R94 Voir le prototype de la fonction http://sekhon.berkeley.edu/stats/html/shapiro.test.htmljob: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/wilkshap.htm

Page: 15

16

2 Tests statistiquesLe code source en FORTRAN a t port en DELPHI dans le logiciel TANAGRA, nous obtenons

exactement les mmes rsultats (Figure 2.1). STATISTICA, dixit le chier d'aide, s'appuie sur une extension de l'algorithme de Royston (1982) & . Il y a de fortes chances qu'il s'agit d'une version fort similaire celle du mme auteur en 1995 (DATAPLOT). Nous obtenons galement des valeurs identiques.

2.2 Test de LillieforsDescription

Le test de Lilliefors ' est une variante du test de Kolmogorov-Smirnov o les paramtres de la loi ( et ) sont estimes partir des donnes. La statistique du test est calcule de la mme manire. Mais sa loi est tabule diremment, les valeurs critiques sont modies pour un mme risque . Elles ont t obtenues par simulation. Les avis sont partags quant la puissance de ce test. Il semble qu'il soit sensible au dsaccord de la distribution empirique avec la loi thorique aux alentours de la partie centrale de la distribution, l o justement les carts ont peu d'eets sur les tests paramtriques. Il est moins performant en revanche lorsque le dsaccord porte sur les queues de distribution, pourtant prjudiciables. Certains le dconseillent et prfrent le test de Shapiro-Wilk ou les tests bass sur les coecients d'asymtrie et d'aplatissement . La statistique du test d'crit :

( D = maxi=1,...,n

i1 i Fi , Fi n n

)(2.2)

o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =x(i) x . s

La table des valeurs critiques Dcrit pour les petites valeurs de n et direntes valeurs de doivent tre utilises . Lorsque les eectifs sont levs, typiquement n 30, il est possible d'approcher la valeur critique l'aide de formules simples :

Valeur critique Dcrit 0.10 0.05 0.010.805 n 0.886 n 1.031 n

8. Patrick Royston (1982) Algorithm AS 181 : The W Test for Normality. Applied Statistics, 31, 176180. 9. Lilliefors, H. (June 1967), "On the Kolmogorov-Smirnov test for normality with mean and variance unknown", Journal of the American Statistical Association, Vol. 62. pp. 399-402. 10. http://en.wikipedia.org/wiki/Lilliefors_test 11. http://courses.wcupa.edu/rbove/eco252/252KStest.docPage: 16 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

2.2 Test de LillieforsLa rgion critique du test pour la statistique D est dnie par

17

R.C. : D > Dcrit

Remarque 6 (Calcul de la p-value). Abdi et Molin (2007) fournissent des approximations plus prcises .Surtout, ils proposent une formule, assez complexe il faut le reconnatre, pour obtenir la probabilit critique (p-value ) du test. Cela simplie beaucoup la procdure, il sut de comparer cette p-value avec le risque que l'on s'est choisi. Nanmoins, je ne connais pas l'heure actuelle de logiciel qui ait intgr cette formule.

Calculs

Le test se construit comme le test de Kolmogorov-Smirnov, la dirence que les paramtres de la loi sont estims et que les valeurs critiques modis (Figure 2.3) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) = thoriques Fi ; 5. que nous opposons aux frquences empiriques pour obtenir la statistique D du test " , en calculant ( ) (i ) tour tour D = maxi=1,...,n Fi i1 = 0.1096, puis D+ = maxi=1,...,n n Fi = 0.1176, et n enn D = max (D , D+ ) = 0.1176 ; 6. nous comparons au seuil critique Dcrit = 0.161 lue dans la table 5%. Dans notre exemple, D < Dcrit , les donnes sont compatibles avec l'hypothse de normalit.x(i) x s

;

4. nous utilisons la fonction de rpartition de la normale centre et rduite ! pour obtenir les frquences

Implmentations et logiciels

Les calculs tant relativement simples, ils ne dirent gure d'un logiciel l'autre. Nous obtenons les mmes rsultats que sous un tableur. Ce n'est gure tonnant. La seule dirence pourrait rsider dans le calcul de la loi de rpartition F (z). Mais il y a un consensus maintenant au niveau de l'implmentation de la loi normale. Les bibliothques utilises sont trs similaires, voire identiques, les rsultats sont forcment les mmes.

12. Herv Abdi et Paul Molin, Lilliefors/Van Soet's test of normality, In : Neil Salkind (Ed.) (2007), Encyclopedia of Measurement and Statistics ; accessible en ligne http://www.utdallas.edu/~herve/Abdi-Lillie2007-pretty.pdf

13. =LOI.NORMALE.STANDARD(...) sous EXCEL 14. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htmjob: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

Page: 17

18

2 Tests statistiques

Fig. 2.3.

Test de Lilliefors avec un tableur

2.3 Test de Anderson-DarlingDescription

Le test de Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, la dirence qu'elle donne plus d'importance aux queues de distribution # . De ce point de vue, elle est plus indique dans la phase d'valuation des donnes prcdant la mise en oeuvre d'un test paramtrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors. Autre particularit, ses valeurs critiques sont tabules diremment selon la loi thorique de rfrence, un coecient multiplicatif correctif dpendant de la taille d'chantillon n peut tre aussi introduit. Concernant l'adquation la loi normale, la statistique du test s'crit :

A = n

1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] n i=1n

(2.3)

o Fi est la frquence thorique de la loi de rpartition normale centre et rduite associe la valeur standardise z(i) =x(i) x . s

Une correction est recommande pour les petits eectifs $ , cette statistique corrige est galement utilise pour calculer la p-value :

15. http://www.itl.nist.gov/div898/handbook/eda/section3/eda35e.htm 16. "Petits" tant assez vague, certains logiciels tel que STATISTICA ne valident l'utilisation du test d'AndersonDarling uniquement pour 10 n 40 ; la librairie intgre dans R n'autorise pas le calcul lorsque n < 8Page: 18 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

( ) 0.75 2.25 Am = A 1 + + 2 n n

2.3 Test de Anderson-Darling

19(2.4)

Les valeurs critiques Acrit pour dirents niveaux de risques sont rsumes dans le tableau suivant, ils ont t produits par simulation et ne dpendent pas de l'eectif de l'chantillon :

Acrit 0.10 0.631 0.05 0.752 0.01 1.035L'hypothse de normalit est rejete lorsque la statistique A prend des valeurs trop leves :

R.C. : A > Acrit

Calculs

Fig. 2.4.

Test de Anderson-Darling avec un tableur

La mise en place du test passe par les tapes suivantes (Figure ) : 1. les donnes sont tries pour former la srie x(i) ; 2. nous estimons les paramtres, x = 3.4138 et s = 0.1968 ; 3. nous calculons alors les donnes centres et rduites z(i) =x(i) x s

;

Page: 19

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

20

2 Tests statistiquesthoriques Fi ;

4. nous utilisons la fonction de rpartition de la normale centre et rduite % pour obtenir les frquences 5. nous calculons la colonne ln(Fi ) ; 6. de la mme manire, nous formons Fni+1 puis en dduisons ln(1 Fni+1 ) ; n 7. nous calculons alors la somme S = i=1 (2i 1) [ln(Fi ) + ln(1 Fni+1 )] = 858.0675 ;1 8. la statistique A = n n S = 0.5885 ;

9. que nous comparons au seuil critique 0.752 5%. Dans notre exemple, A < Acrit , l'hypothse de normalit est compatible avec nos donnes.

Implmentations et logiciels

LogicielsLes calculs tant relativement simples, ils ne varient gure d'un logiciel l'autre. Dans notre exemple, TANAGRA et R fournissent la mme valeur A = 0.5885. La dirence est dans le calcul de la p-value. TANAGRA se contente de spcier une plage de p-value en comparant la statistique aux seuils critiques relatifs aux dirents niveaux de risque. Dans le cas prsent, il indique p-value > 0.10 (Figure 2.1).

Calcul de la p-valueLa p-value est calcule partir de la statistique Am par interpolation partir d'une table dcrite dans Stephens, M.A. (1986), Tests based on EDF statistics. In : D'Agostino, R.B. and Stephens, M.A., eds. : Goodness-of-Fit Techniques. Marcel Dekker, New York. Nous donnons ici la rgle de calcul implmente dans le package nortest du logiciel R & : 1. calculer la statistique transforme Am = 0.6053 ; 2. utiliser la rgle suivante pour en dduire la p-value

Am Am < 0.2 0.34 Am < 0.6 0.66 Am 1e

p-value13.436+101.14Am 223.73(Am )22

0.2 Am < 0.34 1 e8.318+42.796Am 59.938(Am ) e0.91774.279Am 1.38(Am )2 2

e1.29375.709Am +0.0186(Am )

3. nous obtenons ainsi p-value = 0.1159, cohrent avec le rsultat indiqu par TANAGRA.

17. =LOI.NORMALE.STANDARD(...) sous EXCEL 18. http://www.biostat.wustl.edu/archives/html/s-news/2005-04/msg00065.htmlPage: 20 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

2.4 Test de D'AgostinoDescription

2.4 Test de D'Agostino

21

Le test de D'Agostino ' , connu galement sous l'appellation test K2 (K-squared) de D'Agostino-

Pearson, est bas sur les coecients d'asymtrie et d'aplatissement. Lorsque ces deux indicateurs dirent simultanment de la valeur de rfrence 0, on conclut que la distribution empirique n'est pas compatibleavec la loi normale. L'enjeu est de construire une combinaison ecace de ces indicateurs. L'ide est trs simple comprendre, sa puissance est considre comme trs bonne au point que son auteur prconise de le substituer aux tests bass sur la statistique de Kolmogorov-Smirnov. Le test de D'Agostino prsenterait une puissance similaire celle de Shapiro-Wilk mesure que les eectifs augmentent. Il devient particulirement ecace partir de n 20, on le prfre alors aux tests bass sur la statistique de Kolmogorov-Smirnov.

Par rapport au test de Shapiro-Wilk, il serait de surcrot peu

sensible l'existence des ex-aequo dans l'chantillon. Le reproche usuellement adress au test de D'Agostino est qu'il ne permet pas directement de comprendre la nature de la dviation de la loi normale en cas de rejet de l'hypothse nulle. Il faut complter l'analyse avec l'tude individuelle des coecients, ou en mettant en oeuvre les techniques descriptives dcrites prcdemment. Si l'ide est simple, les formules sont relativement complexes. Il faut procder par tapes. Le l directeur est de centrer et rduire les deux coecients (asymtrie et aplatissement) de manire obtenir des valeurs z1 et z2 distribues asymptotiquement selon une loi normale N (0, 1). La transformation intgre des corrections supplmentaires de manire rendre l'approximation normale plus ecace.

Transformation du coecient d'asymtrieUne premire transformation est eectue sur le coecient d'asymtrie. Les calculs successifs sont les suivants.

19. http://en.wikipedia.org/wiki/D'Agostino's_K-squared_test, j'ai nanmoins quelques doutes sur les formules fournies en ligne. 20. Voir Zar J.H. (1996) - Biostatistical Analysis - Prentice Hall International Editions. ; une description est disponible en ligne http://calamar.univ-ag.fr/uag/staps/cours/stat/stat.htm 21. Voir implmentation MATLAB tire de Trujillo-Ortiz, A. and R. Hernandez-Walls. (2003). DagosPtest : D'Agostino-Pearson's K2 test for assessing normality of data using skewness and kurtosis. A MATLAB le.,http://www.mathworks.com/matlabcentral/files/3954/DagosPtest.mPage: 21 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

22

2 Tests statistiques i=1 (xi x) g1 = ( )3/2 n 2 1 (xi x) i=1 n (n + 1)(n + 3) A = g1 6(n 2)1 n

n

3

B= C D E F

3(n2 + 27n 70)(n + 1)(n + 3) (n 2)(n + 5)(n + 7)(n + 9) = 2(B 1) 1 = C 1 = ln(D) A = 2 C1

( ) z1 = E ln F + F 2 + 1

Transformation du coecient d'aplatissementNous procdons de manire similaire pour le coecient d'aplatissement.

n(n + 1) g2 = G2 = (n 1)(n 2)(n 3) i G= H J K

(

xi x s

)4

3(n 1)2 (n 2)(n 3)

L

24n(n 2)(n 3) (n + 1)2 (n + 3)(n + 5) (n 2)(n 3)g2 = (n + 1)(n 1) G 6(n2 5n + 2) 6(n + 3)(n + 5) = (n + 7)(n + 9) n(n 2)(n 3) [ ] 8 2 4 = 6+ + 1+ 2 J J J 2 1 K = 2 1 + H K4 (1 2 9K )

z2 =

L3

1

2 9K

z1 et z2 suivent tous deux asymptotiquement une loi normale N (0, 1). La statistique du test est lacombinaison2 2 K2 = z1 + z2

(2.5)

Elle suit asymptotiquement une loi du 2 2 degrs de liberts. L'incompatibilit de la distribution value avec la loi normale est d'autant plus marque que la statistique K2 prend une valeur leve. Pour un risque , la rgion critique du test s'crit :Page: 22 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

2.4 Test de D'AgostinoR.C. : K2 > 2 (2) 1Pour = 0.05, le seuil critique est 2 (2) = 5.99. 0.95

23

Calculs

Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.5) :

Fig. 2.5.

Test de D'Agostino avec un tableur

1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 , d3 et d4 ; 4. calculer successivement les valeurs numres ci-dessus pour aboutir z1 = 0.5349 et z2 = 0.2259 ; 5. nous formons la statistique K2 = 0.53492 + 0.22592 = 0.3372 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8449. Dans notre exemple, la statistique K2 est largement infrieure 2 (2) = 5.99, la distribution 0.95 observe est compatible avec une distribution thorique normale. du 2 , et obtenir

22. =LOI.KHIDEUX(...) dans EXCELPage: 23 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

24

2 Tests statistiques

Implmentations et logiciels

La procdure se rsume des calculs arithmtiques simples que l'on peut facilement implmenter. En revanche la complexit des formules incite la prudence, des coquilles peuvent facilement s'immiscer. On peut se poser des questions quant la abilit des sources proposes en ligne. Nous avons test les donnes sur TANAGRA et R [package fBasic, fonction dagoTest(...)]. Nous avons obtenu des rsultats concordants. Mme si a n'a pas valeur de preuve, c'est quand mme un signe positif. Nous retrouvons exactement les valeurs calcules dans le tableur.

2.5 Test de Jarque-BeraDescription

Le test de normalit de Jarque-Bera

!

est galement fond sur les coecients d'asymtrie et d'apla-

tissement. Il value les carts simultans de ces coecients avec les valeurs de rfrence de la loi normale. La formulation est trs simple par rapport au test de D'Agostino, le prix est une puissance moindre. Il ne devient rellement intressant que lorsque les eectifs sont levs. Prenons les coecients d'asymtrie et d'aplatissement de Pearson (1 = normale. On propose les estimateurs3 3

et 2 =

4 4 ),

la seule

dirence avec ceux de Fisher est que le second coecient n'est pas normalis, c.--d. 2 = 3, pour la loi

x)3 )3 2 2 i (xi x) n 1 (xi x)4 b2 = ( n i )2 1 2 i (xi x) n b1 = ( 11 n i (xi

(2.6) (2.7)"

La loi conjointe de ces estimateurs est normale bivarie, on crit

:

n

(

b1 b2

)

[( ) ( )] 0 6 0 N , 3 0 24

(2.8)

La matrice de variance covariance prsente ici est une expression simplie valable pour les grandes valeurs de n. Il est possible de produire des expressions plus prcises, aches par les logiciels de statistique. Nous notons galement que la covariance de b1 et b2 est nulle. La forme quadratique associe permet de produire la statistique de Jarque-Bera T qui s'crit :

23. http://en.wikipedia.org/wiki/Jarque-Bera_test 24. http://wis.kuleuven.be/stat/robust/Papers/tailweightCOMPSTAT04.pdfPage: 24 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

( T =n

b2 (b2 3)2 1 + 6 24

)

2.5 Test de Jarque-Bera

25(2.9)

Elle est distribue asymptotiquement selon une loi du 2 2 degrs de libert, tout comme la statistique de D'Agostino vue prcdemment. La statistique T prend des valeurs d'autant plus leves que l'cart entre la distribution empirique et la loi normale est manifeste. La rgion critique pour un risque du test est dnie par

R.C. : T > 2 (2) 1Pour un risque = 0.05, le seuil critique est 2 (2) = 5.99. 0.95 En vrit, ce test est toujours moins puissant que le test de D'Agostino c.--d. il a une propension plus leve conclure la compatibilit avec la loi normale. On devrait donc toujours prfrer ce dernier. Dans la pratique, les carts de puissance s'amenuisent mesure que les eectifs augmentent. La simplicit des calculs, trs faciles apprhender et mettre en oeuvre sur des outils simples tels qu'un tableur, militent en faveur du test de Jarque-Bera.

Calculs

Pour notre ensemble de donnes, les calculs s'articulent comme suit (Figure 2.6) :

Fig. 2.6.

Test de Jarque-Bera avec un tableur

1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 , d3 et d4 ;Page: 25 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

26

2 Tests statistiques

4. calculer successivement les estimateurs b1 = 0.2081 et b2 = 2.7956 ; 5. nous formons la statistique T = 0.20812 + 2.79562 = 0.2599 ; 6. nous pouvons galement calculer la p-value l'aide de la fonction de rpartition p-value = 0.8781. Dans notre exemple, la statistique T est largement infrieure 2 (2) = 5.99, la distribution observe 0.95 est compatible avec une distribution thorique normale. Nous observons que la p-value du test est trs similaire celle fournie par le test de D'Agostino.#

du 2 , et obtenir

Implmentations et logiciels

La simplicit des calculs facilite sa diusion. Nous avons test la fonction jarqueBeraTest(...) du package fBasic dans R. Nous avons obtenu exactement des rsultats identiques ceux du tableur.

2.6 Conclusion sur les tests de normalitDans ce document nous avons prsent les techniques destines valuer la compatibilit d'une distribution empirique avec la loi normale. Sans msestimer la pertinence des tests statistiques, on pouvait en pressentir les rsultats la lumire des graphiques de distribution (Histogramme de frquences, gure 1.2), de la bote moustaches (Figure 1.3) et de la droite de Henry (Figure 1.7). Nous avions de plus une ide sur la nature des dsaccords : la distribution est unimodale, trs lgrement asymtrique, et la droite de Henry nous indique que les cart sont essentiellement situes dans les queues de distribution. Il est quand mme heureux que les caractristiques des tests tudies ici conrment cette impression. Certes, ils aboutissent tous la mme conclusion, la compatibilit avec la loi normale, mais des degrs dirents que l'on peut apprhender l'aide de la p-value. On constate que le test le moins enclin accepter l'hypothse de normalit est celui de Anderson-Darling, qui est justement sensible aux carts dans les queues de distribution (p-value = 0.1159). Le test de Shapiro-Wilk propose une p-value gale 0.1408. Sa puissance est reconnue dans la littrature, elle conrme cette ide ici. Le test de Lilliefors, pourtant fond sur la statistique de Kolmogorov-Smirnov, est plus conservateur, avec un p-value de 0.3859. Cela est surtout conscutif la nature du dsaccord, en queue de distribution, qu'elle dtecte mal. Enn, les tests de D'Agostino et de Jarque-Bera, bass sur les coecients d'asymtrie et d'aplatissement acceptent volontiers l'hypothse de normalit avec une p-value > 0.8. Elles sourent vraisemblablement de la petite taille de notre chier (n = 29)$.

25. =LOI.KHIDEUX(...) dans EXCEL 26. Voir l'article de Sneyers (1974) pour une stratgie de choix des tests de normalit.Page: 26 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

2.6 Conclusion sur les tests de normalit

27

Finalement, pourquoi tudier l'aide de tests compliqus ce que l'on pouvait apprhender sur des graphiques simples ? Les tests amnent un point de vue objectif, avec une approche rigoureuse. C'est un argument fort lorsque nos rsultats font l'objet d'enjeux importants. De plus, lorsque nous avons traiter un grand nombre de variables, il est intressant de disposer d'outils automatiss pour tester un grand nombre de variables, quitte revenir attentivement sur les variables qui posent problme par la suite. Mais pour cela, il faut comprendre le comportement des outils que l'on utilise. Autre aspect trs important, la dtection et le traitement des points atypiques que nous avons introduits au dbut de ce document n'tait pas du tout anodin dans notre contexte. La vrication de la normalit passe par l'estimation de l'esprance mathmatique, paramtre de la loi normale, l'aide de la moyenne empirique. La prsence de points douteux peuvent fausser totalement les calculs, et par consquent les conclusions du test. La suppression de ces points comme nous l'avons ralis est une solution possible. Adopter des estimations robustes de l'esprance en est une autre.

Page: 27

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Page: 28

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

3 Tests de symtrie

Dans certains cas, on peut se contenter de tester la symtrie d'une distribution. Le test est bien entendu moins restrictif puisqu'il ne porte que sur un aspect de la forme de la distribution.

Exemple 1. Pour valuer une rgression multiple de la forme Y = f (X; )+, une distribution des rsidus asymtrique laisse penser que le modle est mal spci. Le graphique des rsidus est un outil important, nous pouvons galement mettre en oeuvre des tests statistiques.

Exemple 2. Dans certaines techniques non-paramtriques, le test de Wilcoxon pour chantillons apparis par exemple, la symtrie est requise pour que le test agisse correctement.

3.1 Test de symtrie bas sur le coecient d'asymtrieDescription

Un test de symtrie fond sur le coecient d'asymtrie est la premire stratgie qui vient l'esprit. Il s'agit d'utiliser une partie du test de D'Agostino ou de Jarque-Bera. La statistique du test asymptotique que nous proposons utilise la premire composante du test de Jarque-Bera :

1 (xi x)3 b1 = g1 = ( n i )3 1 2 2 i (xi x) nPour une meilleure ecacit, nous produisons une estimation de la variance plus prcise2 1 =

(3.1)

6n(n 1) (n 2)(n + 1)(n + 3)b1 1

(3.2)

Sous l'hypothse nulle de distribution normale, le rapport La rgion critique du test s'crit :

suit asymptotiquement une loi N (0, 1).

1. http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_testPage: 29 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

30

3 Tests de symtrieR.C. : |o u1 est le quantile d'ordre 1 2 2

b1 | > u1 2 1

lue dans la table de la loi normale centre-rduite.

Il s'agit d'une distribution asymptotique. Mais ce test peut tre utilis pour des eectifs relativement faibles. On le conseille gnralement pour 8 n 5000.Calculs

Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.1) : 1. calculer la moyenne empirique x = 3.4148 ; 2. former la colonne d = x x ; 3. puis les colonnes d2 et d3 ;2 4. calculer successivement b1 = 0.2081, 1 = 0.1880 et 1 = 0.4335 ; b 5. nous formons la statistique | 1 | = 0.4801 ; 1

6. que nous comparons au seuil critique u0.975 = 1.96

Fig. 3.1.

Test de symtrie bas sur le coecient d'asymtrie

Les donnes sont compatibles avec une symtrie gaussienne. Bien entendu, disposant de la loi de rpartition de la statistique du test, nous pouvons calculer la p-value, elle est gale 0.6312.

2. Voir Tassi,Page: 30

Mthodes Statistiques

, Economica, 1992, pages 323-324.macro: svmono.cls date/time: 1-Oct-2011/7:43

job: Test_Normalite

3.2 Test de symtrie - Test de WilcoxonImplmentations et logiciels

31

A l'instar de l'estimation de la variance sur un chantillon, plutt que l'estimation triviale du coecient d'asymtrie, qui est biaise, les logiciels produisent une estimation non-biaise ! .

n (n 1)(n 2) i n(n 1) g1 G1 = n2 G1 =

(

xi x s

)3

L'estimation de l'cart type de la statistique n'est pas modie, nous utilisons toujours 1 . Dans notre exemple, G1 = 0.2197, le rapport STATISTICA, SPSS et TANAGRA. Nous constatons que la conclusion du test n'est pas modie concernant notre exemple.G1 1

= 0.5068. Ce sont les valeurs fournies par les logiciels

3.2 Test de symtrie - Test de WilcoxonDescription

Le test de symtrie ci-dessus introduit une restriction qui peut tre rdhibitoire : l'hypothse nulle correspond une distribution normale. Or, il se peut que l'on veuille couvrir une palette de distributions plus large. L'hypothse que l'on veut tester est la compatibilit avec une loi symtrique, que ce soit une loi normale bien videmment, mais aussi une loi de Laplace (exponentielle bilatrale), une loi de Cauchy, une loi uniforme, etc. Cette hypothse de symtrie peut tre importante dans certaines procdures statistiques. Il nous faut donc dnir une nouvelle statistique dont la distribution ne repose pas sur la loi de X . Nous nous tournons bien videmment vers les tests non paramtriques. Le test de symtrie que nous prsentons dans cette section (Avazian, pages 322 325) " , outre l'abandon de l'hypothse de normalit, est plus gnral que le test prcdent dans le sens o il permet d'examiner la symtrie par rapport un point quelconque . L'hypothse nulle de symtrie par rapport s'crit :

H0 : f (x + ) = f (x )o f () est la fonction de densit de la variable alatoire tudie.

(3.3)

Le test est fond sur les rangs absolus par rapport la valeur de rfrence . Concrtement, la procdure consiste : calculer la variable zi = |xi | ;

3. http ://en.wikipedia.org/wiki/Skewness 4. Wilcoxon F., Individual comparaisons byPage: 31 job: Test_Normalite

ranking methods

, Biometrics, 1, 80-83, 1945.date/time: 1-Oct-2011/7:43

macro: svmono.cls

32

3 Tests de symtrie former la srie trie z(i) ; pour chaque individu i tel que xi > 0 (notons I + l'ensemble des individus rpondant cette condition), obtenir dans la srie z(i) son rang ri ; La statistique du test est dnie par

S+ =

iI +

ri

(3.4)

Sous l'hypothse nulle, nous pouvons obtenir l'esprance et la variance de S + :

1 n(n + 1) 4 1 V (S + ) = n(n + 1)(2n + 1) 24 E(S + ) =

(3.5) (3.6)

Remarque 7 (Un cas particulier du test de comparaison de populations). Ce test peut se comprendrecomme le test de Wilcoxon de comparaison de populations sur chantillons apparis. L'un des chantillons est form par la valeur constante . La statistique S + a t tabule sous H0 pour les petites valeurs de n. Lorsque les eectifs augmentent + + (n 15 dans la pratique # ), la quantit Us = SE(S ) suit asymptotiquement une loi N (0, 1). La rgion + critique du test s'crit :V (S )

R.C. : Us =o u1 est le fractile d'ordre 1 2 2

|S + E(S + )| > u1 2 V (S + )

de la table de la loi normale centre rduite.

Il est possible de calculer la p-value du test partir de la fonction de rpartition de la loi normale.

Remarque 8 (Correction de continuit). Pour une meilleure approximation, nous pouvons introduire lacorrection de continuit, la rgion critique s'crit dans le cas : R.C : Us =

S + E(S + ) 0.5 S + E(S + ) + 0.5 + < u ou Us = > u1 2 2 V (S + ) V (S + )

La rgion critique est rduite, le test est plus conservateur. La correction devient nanmoins ngligeable mesure que les eectifs augmentent.

Page: 32

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

3.2 Test de symtrie - Test de Wilcoxon

33

Fig. 3.2.

Test de symtrie de Wilcoxon

Calculs

Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.2) : 1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice

wi pour cela ;4. calculer le rang ri de chaque observation dans zi ; 5. en dduire alors la statistique S + = i wi ri = 218, somme des rangs des observations pour lesquelles xi > x ; 6. former la statistique centre et rduite Us = 0.0108 ; 7. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9914. Les rsultats ne sont gure aects par la correction de continuit (Figure 3.2), la p-value est identique (jusqu' la 4-me dcimale).Traitement des ex aequo

Lorsque deux ou plusieurs observations prsentent la mme valeur, nous devons dnir une stratgie pour l'aectation des rangs.

5. http ://www.chups.jussieu.fr/polys/biostats/poly/POLY.Chp.12.2.htmlPage: 33 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

34

3 Tests de symtrie Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3 2 4 6 5Tableau 3.1.

Traitement des ex aequo - Mthode des rangs alatoires

Mthode des rangs alatoiresLa mthode des rangs alatoires consiste, pour une valeur repre plusieurs fois dans le chier, aecter alatoirement un rang pris parmi les rangs attribus la valeur. Dans notre exemple (Tableau 3.1) comportant 6 observations, 3 observations prsentent la mme valeur 2.4. Les rangs {2, 3, 4} doivent tre distribus alatoirement ces observations. L'intrt de cette approche est que tout le processus dcrit ci-dessus reste valable, notamment la formule de la variance. Son inconvnient est qu'il est moins puissant que la technique que nous dcrirons plus bas. Autre reproche que l'on pourrait lui faire, l'excution des calculs avec des gnrateurs de nombres alatoires dirents (par exemple lorsque le gnrateur est index sur l'horloge de la machine) peut aboutir des conclusions contradictoires. Ce qui ne manque pas de plonger le non initi dans un abme de perplexit.

Mthode des rangs moyensLa mthode des rangs moyens a le mrite de toujours fournir la mme rponse. Elle est surtout plus puissante. Il s'agit, pour des observations portant la mme valeur, de leur aecter un rang moyen. Dans notre exemple (Tableau 3.2), nous aectons5+6 2 2+3+4 3

= 3.0 aux individus correspondant la valeur 2.4, et

= 5.5 pour les individus correspondant 3.7. La statistique, sa loi de distribution asymptotique, et

son esprance ne sont pas modis. En revanche, il faut adapter la formule de la variance qui devient $ :

V (S + ) =

n(n + 1)(2n + 1) 1 tj (tj 1)(tj + 1) 24 2 j=1g

(3.7)

o g est le nombre de valeurs direntes dans le chier, tj est le nombre d'observations correspondant une valeur. Dans notre exemple (Tableau 3.2), g = 3 pour les valeurs {1.2, 2.4, 3.7}, et les tj sont

{1, 3, 2}.

Remarque 9. Si g = n (et donc tj = 1, j ), il n'y a pas d'ex aequo dans le chier de donnes, nousobservons que les variances concident V (S + ) = V (S + ).

Valeur 1.2 2.4 2.4 2.4 3.7 3.7 Rang 1 3.0 3.0 3.0 5.5 5.5Tableau 3.2.

Traitement des ex aequo - Mthode des rangs moyens

6. Siegel S., Castellan Jr., J.,Page: 34

Nonparametric Statistics for Behavioral Science

, McGraw-Hill, 1988, page 94.date/time: 1-Oct-2011/7:43

job: Test_Normalite

macro: svmono.cls

3.3 Test de symtrie - Test de Van der WaerdenDescription

3.3 Test de symtrie - Test de Van der Waerden

35

Ce test est une variante plus puissante du test de Wilcoxon, il introduit une lgre modication de la statistique qui s'crit maintenant

V+ =

iI +

(

1 1 ri + 2 2n+1

)(3.8)

() est la fonction inverse de la loi normale centre rduite.L'esprance et la variance de V + s'crivent

( ) n 1 1 k 1 + 2 2 2n+1 k=1 [ ( )]2 n 1 1 k 1 + V (V ) = + 4 2 2n+1 E(V + ) =k=1

(3.9) (3.10)

Sous H0 , la quantit Uv = VE(V ++

+

)

de la rgion critique est similaire celle du test de Wilcoxon.Calculs

V (V

)

suit asymptotiquement une loi normale N (0, 1). La dnition

Fig. 3.3.

Test de symtrie de Van der Waerden

Dans notre classeur EXCEL, les calculs s'articulent de la manire suivante (Figure 3.3) :Page: 35 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

36

3 Tests de symtrie

1. nous prenons comme valeur de rfrence la moyenne empirique = x = 3.4138 ; 2. former la srie zi = |xi x| ; 3. dtecter les observations i pour lesquelles xi > x, nous avons cr une colonne de variable indicatrice

wi pour cela ;4. calculer le rang ri de chaque observation dans zi ; ( ) ri 5. produire la valeur ai = 1 + 1 n+1 ; 2 2 6. puis, bi = (ai ) ; 7. en dduire alors la statistique V + = vations pour lesquelles xi > x ; 8. pour calculer l'esprance mathmatique et la variance de V + , nous formons les colonnes ci = ( ) 1 1 k 2 2 + 2 n+1 , di = (ci ) et ei = di ; 1 9. nous calculons E(V + ) = 1 i di = 11.2714 et V (V + ) = 4 i ei = 6.5275 ; 2 10. reste produire Uv =|11.171611.2714| 6.5275

i

wi bi = 11.1716, somme des rangs transforms des obser-

= 0.0391 ;

11. que l'on compare au fractile u0.975 = 1.96 de la loi normale centre et rduite. Au risque de 5%, l'hypothse de symtrie de la distribution des donnes est accepte. Nous pouvons galement calculer la p-value, elle est gale 0.9688.Traitement des ex aequo

Comme prcdemment, en adoptant la mthode des rangs moyens, nous devons adapter la formule de la variance :

V (V + ) =

[ ( )]2 g 1 1 1 rj tj + 4 j=1 2 2n+1

(3.11)

o rj est le rang moyen pour le j -me groupe de valeur.

Remarque 10. Encore une fois, s'il n'y a pas d'ex aequo (c.--d. tj = 1 ,j ), les variances concidentV (V + ) = V (V + ).

3.4 Conclusion sur les tests de symtrieLorsque le paramtre n'est pas fourni par la thorie (par ex. la moyenne des rsidus est gale 0 dans la rgression linaire multiple avec constante) ou la connaissance du domaine, il nous faut l'estimer. Dirents paramtres de localisation peuvent tre utilises, la moyenne arithmtique comme nous avons pu le faire dans ce support, mais aussi des paramtres moins sensibles aux donnes atypiques telles que la mdiane. Quoiqu'il en soit, lorsque est estim, les procdures non paramtriques prsentes dans ce chapitre sont approximatifs (Avazian, page 324). Enn, bien que leur utilit soit indniable, les tests de symtrie sont curieusement absents de la plupart des logiciels de statistique.Page: 36 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

4 Transformation de Box-Cox

Une grande partie des procdures statistiques reposent sur la normalit des distributions. Et quand bien mme certains d'entre eux seraient assez robustes, on sait gnralement que des distributions trs dissymtriques faussent les calculs, notamment les techniques bases sur des distances entre individus, ou pire des distances par rapport la moyenne. Transformer les variables de manire se rapprocher de la distribution normale, ou tout du moins pour les symtriser, est parfois un pralable ncessaire avant toute analyse statistique. Il est possible de rendre gaussienne toute variable alatoire continue par une transformation monotone continue. Les fonctions les plus rpandues sont certainement y = x et y = ln(x) ([1], page 275). Mais le rsultat laisse parfois dsirer, poussant les utilisateurs empiler au petit bonheur la chance les transformations. Il faut adopter une dmarche raisonne.

4.1 Fonctions de transformation de Box-CoxBox et Cox proposent des fonctions de transformations plus gnriques, car paramtrables. En les modulant au mieux, nous pouvons nous rapprocher de la distribution normale. Deux types de fonctions sont gnralement dcrites dans la littrature . La premire propose un seul paramtre :

{ y = (x) =

x 1

( = 0) ( = 0)

ln(x)

(4.1)

La seconde, plus gnrale, mais plus dicile apprhender, propose 2 paramtres 1 et 2 :

{ y = (x) =

(x+2 )1 1 1

(1 = 0) (1 = 0)

ln(x + 2 )

(4.2)

La principale dicult est de prciser la bonne valeur des paramtres sur un chantillon de donnes. C'est en cela que la premire formulation est plus accessible (quation 4.1), nous ne manipulons qu'un seul paramtre. Dans ce qui suit, nous montrons comment, en pratique, nous xons de manire ecace la valeur adquate du paramtre .

1. http://en.wikipedia.org/wiki/Box-Cox_transformationPage: 37 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

38

4.2 Approche graphique : utiliser la Droite de Henry4.2.1 La droite de Henry

4 Transformation de Box-Cox

Le Q-Q plot (quantile-quantile plot) consiste produire un graphique "nuage de points" o : nous plaons en abcisse les quantiles observs, en ordonne les quantiles thoriques de la loi normale (section 1.5, nous laissons directement les quantiles de loi normale centre rduite en ordonne dans ce chapitre). Si les points forment une droite, la distribution empirique est compatible avec la loi normale. Prenons un exemple pour xer les ides. Nous analysons le montant des crdits (X ) accords par une banque un chantillon de n = 50 clients. Nous cherchons savoir si la distribution est normale. Le plus simple est de produire le graphique Q-Q plot (Figure 4.1) en suivant les prescriptions dcrites par ailleurs (section 1.5). Nous observons dans la feuille de calcul :

Fig. 4.1.

Droite de Henry - Donnes non transformes

Dans la colonne A, nous avons les valeurs de X , tries de manire croissante. Ces valeurs correspondent donc aux quantiles.Page: 38 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

4.2 Approche graphique : utiliser la Droite de Henryrpartition empirique selon la formule Fi =i0.375 n+0.25

39

La colonne B sert uniquement numroter les observations. En C, nous avons la fonction de Nous utilisons l'inverse de la loi normale centre rduite pour produire la srie ui Le graphique Q-Q plot est form par les couples (xi , ui ). On constate dans notre cas que les points ne sont pas aligns sur une droite. L'hypothse de normalit n'est pas crdible. Il nous faut transformer la variable X pour nous rapprocher de la distribution normale.

4.2.2 Exploiter la droite de Henry

Une ide trs simple est de crer une nouvelle colonne Y base sur la transformation de Box-Cox (quation 4.1) dans la feuille de calcul, en rservant une cellule part pour le paramtre . Nous reconstruisons le graphique quantile-quantile sur Y . Nous pouvons alors ttonner en xant direntes valeurs de , nous observons chaque fois la situation de la droite de Henry. Nous arrtons les itrations lorsque nous obtenons un rsultat satisfaisant. Sduisante a priori, cette dmarche est trs vite fastidieuse, elle ne nous permet pas de tester un grand nombre de valeurs de . La situation devient intenable si nous avons un grand nombre de variables traiter. Comment exploiter au mieux les informations fournies par la droite de Henry tout en ayant la possibilit de tester un nombre lev de valeurs ? Pour rpondre cette question, il nous faut proposer un critre numrique qui donne des indications sur le caractre linaire de la srie de points du graphique Q-Q plot. Il en existe un, qui n'est pas fait pour a, mais qui rpond trs bien la spcication : le coecient de corrlation linaire de Pearson ! . En eet, le coecient de corrlation r indique l'intensit de la liaison linaire entre deux variables. Plus les points seront aligns dans le graphique quantile-quantile, plus la valeur de r se rapprochera de +1. Dans le cas idal, les points forment une droite, nous aurons r = +1. Bien videmment, nous dvoyons un peu le coecient de corrlation. La valeur de r n'a pas sens dans notre contexte. Il ne faut pas chercher l'interprter. Nous ne souhaitons pas mesurer l'association entre les quantiles thoriques et les quantiles observs. Il s'agit avant tout d'un critre destin caractriser l'alignement des points. Dans notre exemple ci-dessus (Figure 4.1), nous avons r = 0.9272. Est-ce qu'il est possible de produire une variable Y , en utilisant la formule 4.1, de manire augmenter encore cette valeur ?

4.2.3 Box-Cox Normality Plot

La bonne stratgie pour dtecter facilement la valeur adquate du paramtre dans la transformation est donc de balayer un grand nombre de valeurs de , et de surveiller la valeur de r calcule sur la droite de Henry. On choisira la valeur qui maximise r.

2. LOI.NORMALE.STANDARD.INVERSE(.) de EXCEL 3. http://eric.univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdfPage: 39 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

40

4 Transformation de Box-CoxPour obtenir une vue synthtique de la simulation, on construit gnralement un graphique " qui met

en relation (en abcisse) et r (en ordonne), il s'agit du Box-Cox Normality Plot #Application sur notre exemple (Figure 4.1) Nous avons reconstruit notre feuille EXCEL en

rajoutant la colonne Y paramtre par . Nous insrons dans une des cellules la formule du coecient de corrlation linaire calcul sur les couples de points (yi , ui ). A l'aide de l'outil "Table de simulation" d'EXCEL, nous avons produit les sries de valeurs (, r) pour = 2 +2 avec un pas de 0.1. Nous reproduisons le tableau des valeurs et le graphique Box-Cox Normality Plot (Figure 4.2).

Fig. 4.2. Box-Cox Normality Plot

Dans notre exemple, il semble que la bonne valeur soit = 0.1. Elle maximise la corrlation entre quantile thoriques et quantiles observs dans la droite de Henry avec r = 0.99451. Essayons de reporter cela dans notre feuille de calcul pour visualiser le graphique quantile-quantile de la variable transforme

4. Voir http://www.itl.nist.gov/div898/handbook/eda/section3/boxcoxno.htm 5. N.A. : Malgr mes recherches, je n'ai pas russi trouver l'quivalent francophone. Je ne voulais pas me lancer dans un nologisme sorti de nulle part. Si un lecteur statisticien connat l'appellation approprie en franais, j'accueillerai avec beaucoup de plaisir ses indications.Page: 40 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

4.2 Approche graphique : utiliser la Droite de Henryy= x0.1 1 0.1

41

Voici le dtail de la nouvelle feuille de calcul (Figure 4.3) :

Fig. 4.3.

Droite de Henry - Donnes transformes

Les colonnes A D sont identiques la feuille initiale (Figure 4.1). Dans la colonne E, nous insrons la variable Y , paramtre par en cellule E2. A la lumire des valeurs testes prcdemment, nous xons = 0.1 Nous construisons alors le graphique Q-Q plot l'aide des quantiles observes (yi , en abcisse) et des quantiles thoriques (ui , en ordonne) Par rapport aux donnes initiales, les points sont maintenant mieux aligns, assimilable une droite. La distribution de Y se rapproche de la loi normale.4.2.4 Tester la normalit

Pour valider notre dmarche, utilisons les tests de normalit mis en avant dans le chapitre 2. Nous souhaitons vrier l'ecacit de la transformation en testant la compatibilit de X , puis de Y , avec laPage: 41 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

42

4 Transformation de Box-Cox

distribution normale. Nous verrons ainsi si l'analyse graphique guide par la Droite de Henry produit des rsultats cohrents avec les procdures statistiques.

Fig. 4.4.

Tests de normalit - Donnes avant et aprs transformation

Nous utilisons le logiciel TANAGRA $ . Au niveau de signication 5%, quel que soit le test utilis, il apparat clairement que X n'est pas gaussienne. Aprs la transformation de Box-Cox (quation 4.1) avec

= 0.1, la variable modie Y est compatible avec la loi normale (Figure 4.4). Manifestement, l'oprationa t ralise avec succs. Malgr tout, il reste un bmol. La stratgie mise en oeuvre repose sur le ttonnement. La plage de valeurs tester doit tre dnie judicieusement. Le risque de passer ct de la valeur optimale n'est pas ngligeable. De plus, l'analyse graphique se prte mal un traitement d'un grand nombre de variables. Pour ces raisons, nous prsentons dans la section suivante une dmarche fonde sur un processus d'optimisation que l'on peut automatiser.

4.3 Approche numrique : la maximisation de la vraisemblance4.3.1 Fonction de densit des variables Y et X

La variable transforme Y est distribue normalement. Elle est paramtre par si on s'en tient la premire formulation (Equation 4.1). On peut s'appuyer sur le principe du maximum de vraisemblance

6. Voir http://tutoriels-data-mining.blogspot.com/2008/04/tests-dadquation-la-loi-normale.html concernant la mise en oeuvre de ces tests dans le logicielPage: 42 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

4.3 Approche numrique : la maximisation de la vraisemblancevraisemblance :n i=1

43

pour produire la valeur optimale . Pour un chantillon de taille n, nous souhaitons maximiser la

L=

f (yi )

o f (.) est la fonction de densit de la loi normale. En pratique, pour des raisons de commodits numriques, on procde plutt l'optimisation de la log-vraisemblancen i=1

LL =

ln f (yi )

Y est elle-mme exprime partir de X , il faudrait revenir la fonction de densit g(x). Il existe unlien entre les fonctions de densits lorsque une des variable est fonction d'une autre. La formule gnrique est la suivante % :

g(x) = f (y) |oy x

y | x

(4.3)

= (x) est la drive partielle premire par rapport X de la fonction (x).

Dans le cas de l'quation 4.1, son logarithme s'exprime de manire trs simple :

ln

y = ln (x) = ( 1) ln x x

(4.4)

4.3.2 Expression de la fonction optimiser /

En prenant en compte toutes ces informations, nous pouvons crire la fonction de log-vraisemblance que nous devons optimiser par rapport . Nous utilisons directement les estimateurs usuels en ce qui concerne les autres paramtres (moyenne et cart-type). La log-vraisemblance s'crit

LL = avec

n 1 ln(2) n ln(s) 2 [(xi ) m]2 + ( 1) ln xi 2 2s i i

(4.5)

1 (xi ) n i 1 s2 = [(xi ) m]2 n1 i m=La valeur qui maximise la log-vraisemblance produit la transformation souhaite. Y se rapproche au mieux de la distribution normale.

7. Voir par exemple http://rfv.insa-lyon.fr/~jolion/STAT/node32.html. Attention, notre situation est inverse, nous connaissons la distribution de la variable transforme, nous souhaitons revenir la fonction de densit de la variable initialePage: 43 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

44

4 Transformation de Box-Cox

Remarque 11 (Simplication de LL). Tout ce qui ne dpend pas de peut tre retire de l'expression 4.5.On peut ainsi omettre le premier terme de la formule.

Remarque 12 (Intervalle de conance de ). Il est possible de produire un intervalle de variation de pour un niveau de conance (1 ). Le calcul est fond sur le principe du rapport de vraisemblance. L'ide est de dnir la plage de valeurs de o la variable transforme Y est compatible avec la loi normale & .

4.3.3 Application numrique

Nous allons essayer de tirer prot du SOLVEUR d'EXCEL pour obtenir la valeur optimale du paramtre . Mais auparavant, il nous prparer la feuille de calcul, notamment en produisant la logvraisemblance. La cellule de cette dernire doit bien entendu tre dpendante de la cellule de . Dtaillons la feuille EXCEL (Figure ) : En colonne A, nous avons les donnes originelles x. En colonne B, nous avons les donnes transformes y = (x), paramtr par en B2 En B56 et B57, nous avons respectivement m et s A partir de D5, nous produisons les valeurs individuelles de la log-vraisemblance c.--d.

l(xi ) =

1 [yi m]2 + ( 1) ln xi 2s2

Il ne nous reste plus qu' raliser la somme pour obtenir la log-vraisemblance en D2,

LL =

n l(xi ) ln(2) n ln(s) + 2 i

Pour = 1, nous obtenons LL = 442.235 En lanant l'outil SOLVEUR, D2 en cellule cible et B2 en cellule variable, nous obtenons

= 0.06603avec

LL = 430.878Nous ne manquons pas de comparer cette valeur avec celle obtenue par ttonnement, nous avions trouv = 0.1. Mais bien entendu le rsultat tait tributaire de la prcision que nous avions dnie lors du processus de recherche. Avec l'approche par maximisation de la vraisemblance, le rsultat est obtenu directement, elle peut tre automatise. Cette caractristique est particulirement intressante ds lors que nous avons traiter un grand nombre de variables.

8. Voir http://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm. A ce sujet, je me suis rendu compte que l'expression de la log-vraisemblance sur ce site semble errone. C'est assez trange. De manire gnrale, NIST fait rfrence. Quoiqu'il en soit, sur l'exemple propos en ligne (Example of Box-Cox scheme ), en utilisant la feuille de calcul que nous prsenterons dans la section suivante, base sur la formule 4.5, nous retrouvons le bon rsultat = 0.276 avec LL = 46.918. En utilisant leur formulation, le processus d'optimisation ne converge pas.Page: 44 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

4.3 Approche numrique : la maximisation de la vraisemblance

45

Fig. 4.5.

Transformation de Box-Cox - Maximisation de la vraisemblance

Toujours au titre de la comparaison des rsultats, nous avons calcul la corrlation entre les quantiles thoriques et les quantiles observs de la droite de Henry avec la transformation = 0.06603, nous obtenons r = 0.99462, comparer avec la valeur r = 0.9945 obtenue lors de la recherche par ttonnement. Le gain est relativement faible quand mme. L'avantage comparatif ne se situe pas ce niveau l.

Remarque 13 (Optimisation numrique). Obtenir une expression directe de en fonction des xi pourl'optimisation de la log-vraisemblance serait l'idal. Mais ce n'est pas possible. Nous sommes obligs de nous tourner vers des procdures d'optimisation numrique. La fonction SOLVEUR en est l'illustration parfaite. Elle est capable de produire une solution en lui fournissant uniquement la fonction objectif et les paramtres manipuler. Pour les connaisseurs, le SOLVEUR est bas, dixit la documentation Microsoft,

Page: 45

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

46

4 Transformation de Box-Cox

sur l'algorithme GRG (Generalized Reduced Gradient ) ' . Pour ma part, j'ai rarement vu un outil aussi souple et able.

Remarque 14 (Calcul des paramtres 1 et 2 pour la fonction de transformation (x)). Concernant lafonction (x), nous pouvons adopter les deux dmarches ci-dessus : 1. Ttonner en fournissant des plages de valeurs de 1 et 2 tester. Le graphique Normal Probability

Plot rsumant les direntes congurations sera en 3D, mais a n'est en rien rdhibitoire.2. Optimiser la fonction de vraisemblance en fonction de 1 et 2 . Le processus est exactement le mme, l'information connatre pour crire convenablement la log-vraisemblance est

ln

y = (1 1) ln(x + 2 ) x

9. Voir http://support.microsoft.com/kb/214115/en-us/Page: 46 job: Test_Normalite macro: svmono.cls date/time: 1-Oct-2011/7:43

A Gestion des versions

Un support de cours n'est jamais g, nous essayons constamment de les enrichir. Dans cette annexe, nous recensons les direntes versions de ce document.Version 1.0 Premire version mise en ligne, au mois d'Aot 2007. Il comprend les chapitres 1, 2 et 3. Version 2.0 Le chapitre 4 a t intgr au document en Juin 2008.

Page: 47

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Page: 48

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

B Mise en oeuvre des tests de normalit dans TANAGRA

TANAGRA est un logiciel open source accessible en ligne. Il implmente plusieurs techniques d'exploration de donnes issues de la statistique, de la statistique exploratoire et de la fouille de donnes (Data Mining). Au-del du logiciel, une srie de didacticiels sont disponibles, accompagnes de jeu de donnes. L'ide est de prsenter brivement les enjeux de la mthode, proposer un jeu de donnes test, et montrer la dmarche suivre avec le logiciel. Les tests d'adquation la loi normale sont implments dans le composant NORMALITY TEST situ dans l'onglet STATISTICS. Plusieurs tests sont disponibles : le test de Shapiro-Wilk, de Lilliefors, d'Anderson-Darling et de D'Agostino (Figure B.1). Listons quelques rfrences utiles concernant le test de normalit : http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html, URL du site ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Normality_Test.pdf, didacticiel dtaillant la mise en oeuvre du test de normalit sur un jeu de donnes ; http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/normality_test_simulation.xls, donnes utilises pour le didacticiel.

Page: 49

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

50

B Mise en oeuvre des tests de normalit dans TANAGRA

Fig. B.1.

Copie d'cran du logiciel TANAGRA

Page: 50

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

C Code source et packages R pour les tests de normalit

Le logiciel R (http://www.r-project.org/) est un interprteur de commandes dot d'un vrai langage de programmation, et possdant une bibliothque trs riche de techniques statistiques. Tout un chacun peut programmer une fonction correspondant telle ou telle nouvelle technique. De plus, le principe des packages est un autre dispositif qui permet d'enrichir considrablement le logiciel. Les utilisateurs peuvent produire des bibliothques externes spcialises que l'on peut intgrer facilement. S'agissant des tests d'adquation la loi normale, nous avons tlcharg et install les packagesnortest et fBasics. Tous les tests dcrits dans ce support ont pu tre valus sur notre jeu de donnes.

Listing C.1.

Code source pour R

#v i d e r l a mmoire de t o u s l e s o b j e t s rm( l i s t = l s ( ) ) #m o d i f i e r l e r p e r t o i r e de t r a v a i l e t c h a r g e r l e s donnes setwd ( " . . . " ) data library ( nortest ) > l i l l i e . t e s t ( x ) #t e s t de L i l l i e f o r s L i l l i e f o r s ( KolmogorovSmirnov ) n o r m a l i t y t e s t data : x D = 0 . 1 1 7 6 , pv a l u e = 0 . 3 8 5 9 > ad . t e s t ( x ) #t e s t d ' Anderson D a r l i n g Anderson D a r l i n g n o r m a l i t y t e s t data : x A = 0 . 5 8 8 5 , pv a l u e = 0 . 1 1 5 9 > library ( fBasics ) > dagoTest ( x ) #t e s t de D' Agostino Title : D' Agostino Normality Test Test R e s u l t s : STATISTIC : Chi2 | Omnibus : 0 . 3 3 7 2 Z3 | Skewness : 0 . 5 3 4 9 Z4 | K u r t o s i s : 0 . 2 2 5 9 P VALUE: Omnibus Test : 0 . 8 4 4 9 Skewness Test : 0 . 5 9 2 7 K u r t o s i s Test : 0 . 8 2 1 3 > j a r q u e b e r a T e s t ( x ) #t e s t de Jarque Bera Title : Jarque Bera N o r m a l a l i t y Test Test R e s u l t s : STATISTIC : Xsquared : 0 . 2 5 9 9 P VALUE: Asymptotic p Value : 0 . 8 7 8 1

Page: 52

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43

Littrature

1. Avazian, S., Enukov, I., Mechalkine, L., 1986. 2. Borcard, D., 4. PROPHET 5. Saporta, G., 6. Sneyers, R.,Tests de normalit

Elments de modlisation et traitement primaire des donnes

, Mir,

, http://biol10.biol.umontreal.ca/BIO2042/Test_normal.pdfof Statistical Methods normality

3. NIST/SEMATECH e-Handbook StatGuide

, http://www.itl.nist.gov/div898/handbook/results

Examining

test

,

http://www.basic.northwestern.edu/

statguidefiles/n-dist_exam_res.htmlProbabilits, Analyse des donnes et Statistique Sur les tests de normalit

, Technip, 2me dition, 2006.

, in Revue de Statistique Applique, Tome 22, n.22, 1974, http:// archive.numdam.org/ARCHIVE/RSA/RSA_1974__22_2/RSA_1974__22_2_29_0/RSA_1974__22_2_29_0.pdf.Testing for Normality

7. Thode Jr., H.C.,

, Marcel Dekker, New York, 2002.

Page: 53

job: Test_Normalite

macro: svmono.cls

date/time: 1-Oct-2011/7:43