tests non paramétriques

Embed Size (px)

Citation preview

Master :

Marketing

et

Management

de

lAction

Commerciale (M2) Matire : Mthodologie de recherche

Expos sous le thme :

Les tests non paramtriques

Ralis par : par : AMEDIOUNE Mr IBOURK BOU-OUGOULA Karim MISBAH Asma

Evalu

Nabila

Anne universitaire 2011/2012

Le planIntroduction Rsum Catgories des tests Liste des tests usuels Choisir le test statistique appropri Tests paramtriques et non paramtriques : avantages et inconvnients V- Quelques applications pratiques des mthodes de statistique non paramtrique Conclusion IIIIIIIV-

INTRODUCTION En statistiques, un test d'hypothse est une dmarche consistant rejeter ou ne pas rejeter (rarement accepter) une hypothse statistique, appele hypothse nulle, en fonction d'un jeu de donnes (chantillon). Il sagit de statistique infrentielle : partir de calculs raliss sur des donnes observes, nous mettons des conclusions sur la population, en leur rattachant des risques de se tromper.

I-

Catgories des tests

Les tests peuvent tre classs selon leur finalit, le type et le nombre des variables dintrt, lexistence dhypothses a priori sur les distributions des donnes, le mode de constitution des chantillons.

1- Les tests selon leur finalitLa finalit dfinit lobjectif du test, les hypothses que lon veut opposer, linformation que lon souhaite extraire des donnes. Le test de conformit consiste confronter un paramtre calcul sur lchantillon une valeur pr-tablie. On parle alors de test de conformit un standard. Les plus connus sont certainement les tests portant sur la moyenne ou sur les proportions. Par exemple, dans un jeu de ds 6 faces, on sait que la face 3 a une probabilit de 1/6 dapparatre. On demande un joueur de lancer (sans prcautions particulires) 100 fois le d, on teste alors si la frquence dapparition de la face 3 est compatible avec la probabilit 1/6. Si ce nest pas le cas, on peut se poser des questions sur lintgrit du d. Le test dadquation consiste vrifier la compatibilit des donnes avec une distribution choisie a priori. Le test le plus utilis dans cette optique est le test dadquation la loi normale. Le test dhomognit (ou de comparaison) consiste vrifier que K (K >= 2) chantillons (groupes) proviennent de la mme population ou, cela revient la mme chose, que la distribution de la variable dintrt est la mme dans les K chantillons. Le test dassociation (ou dindpendance) consiste prouver lexistence dune liaison entre 2 variables. Les techniques utilises diffrent selon que les variables sont qualitatives nominales, ordinales ou quantitatives.

2- Les tests selon le type et le nombre de variablesOn distingue gnralement 3 principaux types de variables. Une variable qualitative nominale prend un nombre restreint de valeurs (modalits), il ny a pas dordre entre ces valeurs, lexemple le plus connu

est le sexe, il y a 2 valeurs possibles Homme et Femme. Une variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les valeurs. Un exemple naturel est la prfrence ou la satisfaction : peu satisfait, satisfait, trs satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les carts. Enfin, une variable quantitative prend thoriquement un nombre infini de valeurs, lcart entre 2 valeurs a un sens. Un exemple simple serait le poids, la diffrence de poids entre 2 personnes est quantifiable, on sait linterprter. Le type de donnes joue un rle trs important. Il circonscrit le cadre dapplication des techniques. Pour un mme objectif, selon le type de donnes, nous serons amens mettre en uvre des tests diffrents. Par exemple, pour mesurer lassociation entre 2 variables : si elles sont quantitatives, nous utiliserons plutt le coefficient de corrlation de Pearson ; si elles sont qualitatives nominales, le coefficient de corrlation na pas de sens, on utilisera plutt des mesures telles que le V de Cramer ou le t de Tschuprow. Principalement concernant les tests de conformit et dhomognit, on dit que le test est univari sil ne porte que sur une variable dintrt (ex. comparer la consommation de vhicules selon le type de carburant utilis), il est multivari sil met en jeu simultanment plusieurs variables (ex. la comparaison porte sur la consommation, la quantit de CO2 mise, la quantit de particules mises, etc.).

3- Tests paramtriques et tests non paramtriquesOn parle de tests paramtriques lorsque lon stipule que les donnes sont issues dune distribution paramtre. Dans ce cas, les caractristiques des donnes peuvent tre rsumes laide de paramtres estims sur lchantillon, la procdure de test subsquente ne porte alors que sur ces paramtres. Lhypothse de normalit sous jacente des donnes est le plus souvent utilise, la moyenne et la variance suffisent pour caractriser compltement la distribution. Concernant les tests dhomognit par exemple, pour prouver lgalit des distributions, il suffira de comparer les moyennes et/ou les variances. Les tests non paramtriques ne font aucune hypothse sur la distribution sous-jacente des donnes. On les qualifie souvent de tests distribution free. Ltape pralable consistant estimer les paramtres des distributions avant de procder au test dhypothse proprement dit nest plus ncessaire. Lorsque les donnes sont quantitatives, les tests non paramtriques transforment les valeurs en rangs. Lappellation tests de rangs est souvent rencontre. Lorsque les donnes sont qualitatives, seuls les tests non paramtriques sont utilisables. La distinction paramtrique non paramtrique est essentielle. Elle est systmatiquement mise en avant dans la littrature. Les tests non paramtriques, en ne faisant aucune hypothse sur les distributions des donnes, largissent le champ dapplication des procdures statistiques.

En contrepartie, ils sont moins puissants lorsque ces hypothses sont compatibles avec les donnes.

4- Constitution des chantillonsCe point est surtout associ aux tests de comparaison. On parle dchantillons indpendants lorsque les observations sont indpendantes lintrieur des groupes et dun groupe lautre. Cest le cas lorsque lchantillon provient dun chantillonnage simple dans la population globale. Les chantillons apparis en revanche reposent sur un schma diffrent. Dun groupe lautre, les individus sont lis. Cest le cas lorsque nous procdons des mesures rptes sur les mmes sujets. Par exemple, on mesure la fivre dun patient avant et aprs la prise dun mdicament. Lappariement est une procdure complexe qui va au del des mesures rptes (ex. les blocs alatoires complets), elle vise amliorer la puissance des tests en rduisant linfluence des fluctuations dchantillonnage.

I-

Liste des tests usuels

partir des considrations ci-dessus, nous pouvons proposer une classification des principaux tests utiliss en statistique infrentielle. Nous laissons de ct des tests relatifs des techniques statistiques spcifiques. Ils dpassent largement le cadre de ce sujet, il parat plus intressant de les approfondir dans leur cadre naturel (ex. test de nullit de coefficients de la Rgression linaire multiple ; valuation dun bloc de coefficients dans la Rgression logistique, etc.). Type de test Tests paramtriques Tests paramtriques non

Problme 1 chantillon

Tests de conformit un standard

Test de conformit d'une moyenne (test de Student), d'un cart . type et d'une proportion Test KolmogorovSmirnov de

Test d'adquation du 2 Test de ShapiroWilks, test de Lilliefors, test d'AndersonDarling, test de D'Agostino, Test de Jarque Bera

Tests d'adquation . une loi

Tests de symtrie . des rpartitions Comparaison de (K 2) populations Tests omnibus de comparaison de populations, les fonctions de . rpartition sont les mmes dans les groupes

Test de Wilcoxon Test de Van der Waerden Test Kolmogorov Smirnov Test de Kuiper Test de Cramer von Mises Test de la somme des rangs de Wilcoxon (K=2) Test de Mann Whitney (K=2) de -

Tests de comparaison de K chantillons indpendants (diffrenciation selon les caractristiques de tendance centrale, modle de localisation)

Test de comparaison de moyennes (K = 2) ANOVA (analyse de variance) 1 facteur

Test de Kruskal Wallis Test des mdianes Test de Van der Waerden Test Jonckheere Terpstra (alternatives ordonnes) de -

Tests de comparaison de K chantillons indpendants (diffrenciation selon les caractristiques de dispersion, modle d'chelle)

Test de Fisher (K=2) Test de Bartlett Test de Cochran Test F-max de Hartley Test de Levene Test de Forsythe Brown

Test de Ansari Bradley Test de Klotz Test de Mood Test de Tukey Test diffrences extrmes Moses Test des (K=2) Siegeldes de signes

Tests pour K chantillons apparis (mesures rptes ou blocs alatoires complets)

Test de Student de comparaison de moyennes pour chantillons apparis (K=2) Test de comparaison

Test des rangs signs de Wilcoxon (K=2)

de variances pour chantillons apparis (K=2) ANOVA pour blocs alatoires complets

Test de Friedman Test de Page (alternatives ordonnes) Test de McNemar (K=2, variables binaires) Test Q de Cochran (variables binaires)

T de Hotelling, comparaison de K=2 barycentres (vecteur des moyennes) MANOVA (analyse de variance mutlivarie), comparaison de K barycentres : Lambda de Wilks, Trace de . Pillai, Trace de Hotelling-Lawley, La plus grande valeur propre de Roy Test M de Box de comparaison de matrices de variance covariance

Tests multivaris pour K chantillons indpendants

Association entre variables Association entre Coefficient de p=2 variables corrlation de Pearson quantitatives

Rho de Spearman Tau-a de Kendall Gamma Goodman Kruskal de -

Association entre p = 2 variables . ordinales

Tau-b et Tau-c de Kendall d de Sommers Test de Mantel Haenszel (variables binaires) Test d'indpendance

Association entre . p=2 variables

du

t de Tschuprow et v de Cramer Coefficient (variables binaires) phi

nominales

Coefficient Q de Yule (variables binaires) Lambda Goodman Kruskal de -

Tau de Goodman Kruskal U de Theil Coefficient de concordance de Kendall (variables quantitatives ou ordinales) Coefficient Kappa de Fleiss, concordance de p jugements (variables ordinales ; Kappa de Cohen pour p = 2)

Association entre (p . 2) variables

I-

Choisir le test statistique appropri

Le plus souvent nous disposons de diffrents tests pour une recherche (validation d'hypothse) donne, il est alors ncessaire d'employer une mthode rationnelle pour choisir le test le plus appropri. Nous avons vu que l'un des critres de choix est la puissance du test utilis. Mais d'autres critres sont importants pour dterminer l'adquation d'un test lors de l'analyse de donnes particulires. Ces critres concernent :

la faon dont l'chantillon a t ralis, la nature de la population de laquelle a t tir l'chantillon et la nature des mesures ralises. Le modle statistique Lorsque nous dfinissons la nature de la population et le mode d'chantillonnage, nous tablissons un modle statistique (c'est dire une formulation mathmatique des hypothses faites sur les observations). A chaque test statistique est associ un modle et des contraintes de mesure. Ce test n'est alors valide que si les conditions imposes par le modle et les contraintes de mesure sont respectes. Il est difficile de dire si les conditions d'un modle sont remplies, et le plus souvent nous nous contentons d'admettre qu'elles le sont. Aussi devrions nous prciser, chaque fois : "Si le modle utilis et le mode de mesure sont corrects, alors....).

1.

Il est clair que moins les exigences imposes par le modle sont nombreuses et restrictives, plus les conclusions que l'on tire sont gnrales. De ce fait, les tests les plus puissants sont ceux qui ont les hypothses les plus strictes. Si ces hypothses sont valides, ces tests sont alors les mieux mme de rejeter H0 quand elle est fausse et de ne pas rejeter H0 quand elle est vraie.

Exemple : Le test de t (test paramtrique) est un des tests statistiques les plus puissants. Mais avant d'accepter les conclusions d'un tel test, nous devons vrifier que ses conditions d'utilisations sont remplies. Ces conditions sont les suivantes :1. Les observations doivent tre indpendantes. La slection d'une

observation pour un chantillon ne doit pas biaiser les chances de slectionner une autre observation pour cet chantillon. [Pour que l'indpendance des observations soit respecte, il faut : * dans le cas du tirage d'une boule dans une urne contenant des boules noires et des blanches dans certaines proportions, ou de cartes dans un jeu de cartes jouer, il faut remettre boule et carte dans l'ensemble de dpart et brasser soigneusement l'ensemble ** sinon considrer que l'on a affaire une urne illimite contenant un nombre tellement gand de boules que l'extraction d'une ne modifie pratiquement pasles proportions donnes] 2. Les observations doivent tre tires de populations normales (exemple : courbe de Gauss ou courbe normale rduite).

3. Ces

populations doivent avoir la mme variance (condition d'homoscdasticit; Homoscedasticity). La validit de cette hypothse peut tre contrle l'aide des tests d'galit de variance. permettant l'utilisation des oprations arithmtiques. A part l'hypothse d'homoscdasticit, qui peut tre teste, les autres hypothses sont considres comme vraies.

4. Les variables doivent tre mesures dans une chelle de mesure

Quand les hypothses constituant le modle statistique d'un test ne sont pas remplies, il est alors difficile de dire quel est le pouvoir rel du test et d'estimer la signification de son rsultat.1.

Nature des observations et chelle de mesure

Il est donc trs important de considrer la nature des donnes (observations) que l'on va tester. D'elle dpend la nature des oprations possibles et donc des statistiques utilisables dans chaque situation. Les observations peuvent tre soit quantitatives soit qualitatives. Les donnes quantitatives comprennent les dnombrements (ou comptages) et les mesures (ou mensurations). Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou discontinue, ne pouvant prendre que des valeurs entires non ngatives (nombre de fruits par rameau, nombre de ptales par fleurs, nombre de tte de btail..). Il suffit de compter le nombre d'individus affects par chacune des valeurs (frquences) de la variable. exemple : nombre de ptales par fleurs dans un chantillon de 1000 fleurs de Renonculus repens (Vessereau, 1948) Nombre de ptales par 3 4 5 6 7 fleur Nombre de fleurs 1 20 959 18 2 (Frquences) Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface, concentration, temprature..). Les valeurs possibles sont illimits mais du dait des mthodes de mesures et du degr de prcision de l'appareil de mesure, les donnes varient toujours de faon discontinue. Les mensurations peuvent tre ralises dans deux chelles de mesure :

l'chelle de rapport et l'chelle d'intervalle. Elles sont manipulables suivant les oprations de l'arithmtique. L'chelle de rapport est caractrise par l'existence d'un zro absolu et de distances de taille connue entre deux valeurs quelconque de l'chelle. C'est le cas de la mesure de la masse ou du poids. En effet, les chelles de mesure des poids en pounds ou en grammes ont toutes deux un zro absolu et le rapport entre deux poids quelconque d'une chelle est indpendant de l'unit de mesure (le rapport des poids de deux objets mesurs en pounds et celui de ces mmes objets mesurs en grammes sont identiques). Dans l'chelle d'intervalle, le point zro et l'unit de mesure sont arbitraires mais les distances entre deux valeurs quelconques de l'chelle sont de taille connue. C'est le cas de la mesure de la temprature (chelle Fahrenheit ou Celsius). Ces deux chelles sont compatibles avec l'utilisation de tests paramtriques. Les donnes qualitatives peuvent tre assimiles au cas des variables discontinues, en supposant que les diffrentes variantes du caractre qualitatif sont ranges dans un ordre correspondant par exemple la suite des nombres entiers positifs (diffrentes couleurs, diffrents degrs d'infection...). Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure : chelle de rangement et l'chelle nominale. Ces donnes ne sont pas manipulables par l'arithmtique. Dans l'chelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand que, suprieur , plus difficile que, prfre .... Exemple : Les nombres de candidats un examen obtenant les degrs A, B, C. Le degr A est meilleur que le degr B, lui-mme meilleur que le degr C. Une transformation ne changeant pas l'ordre des objets est admissible. La statistique la plus approprie pour dcrire la tendance centrale des donnes est la mdiane. Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers objets appartiennent. C'est le cas des numros d'immatriculation des voitures ou de scurit sociale (chanes de caractres). Le mme nombre peut tre donn aux diffrentes personnes habitant le mme dpartement ou de mme sexe constituant des sousclasses. Les symboles dsignant les diffrentes sous-classes dans l'chelle nominale peuvent tre modifis sans altrer l'information essentielle de l'chelle. Les seules statistiques descriptives utilisables dans ce cas sont le mode, la frquence... et les tests applicables seront centrs sur les frquences des diverses catgories.

Ces deux dernires chelles ne permettent que l'utilisation de tests non paramtriques.

I-

Tests paramtriques et paramtriques : avantages inconvnients

non et

Un test paramtrique requiert un modle fortes contraintes (normalit des distributions, galit des variances) pour lequel les mesures doivent avoir t ralises dans une chelle au moins d'intervalle. Ces hypothses sont d'autant plus difficiles vrifier que les effectifs tudis sont plus rduits. Un test non paramtrique est un test dont le modle ne prcise pas les conditions que doivent remplir les paramtres de la population dont a t extrait l'chantillon. Cependant certaines conditions d'application doivent tre vrifies. Les chantillons considres doivent tre alatoires [lorsque tous les individus ont la mme probabilit de faire partie de l'chantillon] et simples [tous les individus qui doivent former l'chantillon sont prlevs indpendamment les uns des autres], et ventuellement indpendants les uns des autres [emploi de tables de nombres alatoires]. Les variables alatoires prises en considration sont

gnralement supposes continues.

1. Avantages des tests non paramtriques1. Leur emploi se justifie lorsque les conditions d'applications des autres mthodes ne sont pas satisfaites, mme aprs d'ventuelles transformations de variables. Les probabilits des rsultats de la plupart des tests non paramtriques sont des probabilits exactes quelle que soit la forme de la distribution de la population dont est tir l'chantillon. Pour des chantillons de taille trs faible jusqu' N = 6, la seule possibilit est l'utilisation d'un test non paramtrique, sauf si la nature exacte de la distribution de la population est prcisment connue. Ceci permet une diminution du cot ou du temps ncessaire la collecte des informations. Il existe des tests non paramtriques permettant de traiter des chantillons composs partir d'observations provenant de populations diffrentes. De telles donnes ne peuvent tre traites par les tests paramtriques sans faire des hypothses irralistes. Seuls des tests non paramtriques existent qui permettent le traitement de donnes qualitatives : soit exprimes en rangs ou en plus ou moins (chelle ordinale), soit nominales. Les tests non paramtriques sont plus faciles apprendre et appliquer que les tests paramtriques. Leur relative simplicit rsulte souvent du remplacement des valeurs observes soit par des variables alternatives, indiquant l'appartenance l'une ou l'autre classe d'observation, soit par les rangs, c'est--dire les numros d'ordre des valeurs observes ranges par ordre croissant. C'est ainsi que la mdiane est gnralement prfre la moyenne, comme paramtre de position.

2.

3.

4.

5.

6.

2. Dsavantages des tests non paramtriques1. 2. Les tests paramtriques, quand leurs conditions sont remplies, sont les plus puissants que les tests non paramtriques. Un second inconvnient rside dans la difficult trouver la description des tests et de leurs tables de valeurs significatives, surtout en langue franaise. Heureusement, les niveaux de significativit sont donns directement par les logiciels statistiques courants.

On choisira les tests appropris en fonction du type de mesure, de la forme de la distribution de frquences et du nombre d'chantillons dont on dispose (voir schma).

L'assistance de logiciels statistiques permet d'effectuer rapidement et avec une bonne fiabilit les calculs ncessaires l'authentification des tests et obtenir les paramtres ncessaires pour accepter ou rejeter les hypothses. Il s'agit : MacO LOGICIELS STATISTIQUES MS DOS S Statview + + Systat + + Statlab + +

PCSM Unistat ViSta ADE Analyse cologiques

+ des donnes +

+ + + +

V- Quelques applications pratiques des mthodes de statistique non paramtrique 1. Cas d'un chantillon isolDes tests permettent de vrifier si un chantillon observ peut tre considr comme extrait d'une population donne (Test d'ajustement). Ces tests peuvent permettre de rpondre aux questions suivantes : - Y a t-il une diffrence significative de localisation (tendance centrale) entre l'chantillon et la population ? - Y a t-il une diffrence significative entre les frquences observes et les frquences attendues sur la base d'un principe ? - Y a t-il une diffrence significative entre des proportions observes et des proportions espres? - Est-il raisonnable de penser que cet chantillon a t tir d'une population d'une forme particulire ? - Est-il raisonnable de penser que cet chantillon est un chantillon d'une certaine population connue ? 1.1. Test binomial Test d'ajustement. Il y a des populations o seulement deux classes sont distingues : mle et femelle; lettr et illettr... Dans un tel cas, toutes les observations de cette population tomberont dans l'une ou l'autre classe. Pour toutes ces populations, si nous connaissons la proportion des cas d'une classe (P), nous connaissons celle de l'autre classe (1-P=Q). Ces proportions sont fixes pour une population donne. Cependant, ces proportions exactes ne se retrouveront pas dans un chantillon prlev au hasard dans cette population. De telles diffrences entre les valeurs observes et celles de la population sont dues au processus d'chantillonnage. Bien entendu, de faibles diffrences sont plus probables que de fortes diffrences. Le test binomial nous permet de dire si il est raisonnable de penser que les proportions (ou frquences) observes dans notre chantillon proviennent d'une population ayant une valeur donne de P.

Mthode La loi binomiale ne dpend que d'un paramtre, la probabilit p de "l'vnement favorable". La probabilit d'obtenir x objets dans une catgorie et N-x dans une autre est donn par la formule : p (x) = (N!/x! (N-x)!) Px QN-x N= nombre d'observations; P= proportion de cas attendus dans une catgorie ; Q = 1-P = proportion de cas attendus dans l'autre catgorie. Nous pouvons alors rpondre la question suivante : quelle est la probabilit exacte d'obtenir les valeurs observes. Mais le plus souvent nous posons la question : Quelle est la probabilit d'obtenir les valeurs observes ou des valeurs encore plus extrmes ? La distribution d'chantillonnage est alors

(1)

Exemple : Quelle est la probabilit d'obtenir deux six ou moins de deux six aprs cinq jets d'un d non pip ? N= 5 (le nombre de x = 2 (le nombre P = 1/6 (proportion de six jets) ; de six) ; attendue) ; Q = 5/6.

p (>= 2) probabilit d'obtenir deux ou moins de deux six = p (0) + p (1) + p (2) p (0) probabilit d'obtenir zro six; p (1) probabilit d'obtenir un six; p (2) probabilit d'obtenir deux six. p (0) = (5!/0!5!) (1/6)0 (5/6)5 = 1 x 1 x 0,40 = 0,40 p (1) = (5!/1!4!) (1/6)1 (5/6)4 = 5 x 0,1666 x 0,4822 = 0,40 p (2) = (5!/2!3!) (1/6)2 (5/6)3 = 10 x 0,0277 x 0,578 = 0,16 p (x 2) = p (0)+ p (1)+ p (2) = 0,40 + 0,40 + 0,16 = 0,96

La probabilit d'obtenir sous H0 deux six ou moins lorsqu'un d non pip est lanc cinq fois est p = 0,96. Petits chantillons Dans le cas d'un chantillon deux classes, une situation commune est celle o P = 1/2. Lorsque l'effectif est infrieur 25, la table 3 donne les probabilits associes diverses valeurs de x (la plus petite des frquences observes) pour diffrents effectifs N (de 5 25). Lorsque P est diffrent de Q, la formule prcdente doit tre utilise. Exemple : Dans une tude des effets du stress, on enseigne 18 tudiants deux mthodes diffrentes de faire un noeud. La moiti des sujets (choisie au hasard dans le goupe de 18) apprend d'abord la mthode A, puis la mthode B. L'autre moiti apprend en premier la mthode B, puis la mthode A. Aprs avoir subi un examen de quatre heures, on demande chaque sujet de faire le noeud. L'hypothse est que le stress induit une rgression, c'est--dire, que les sujets utiliserons la premire mthode apprise. Chaque sujet est catgoris suivant qu'il utilise la premire mthode apprise ou la seconde aprs le stress. Hypothse nulle H0 : p1 = p2 = 1/2

Il n'y a pas de diffrence entre la probabilit d'utiliser la premire mthode apprise (p1) et celle d'utiliser la seconde mthode apprise (p2), aprs le stress. H1 : p1 > p2 unilatral Test statistique Le test binomial est choisi car les donnes rentrent dans deux catgories discrtes et l'chantillon est unique. L'apprentissage en premier ou second des deux mthodes A et B tant reparti au hasard, il n'y a pas de raison de penser que la premire mthode apprise soit prfre la seconde, compte tenu de H0, et de P = Q = 1/2. Niveau de signification = 0,01 et N = 18 Distribution d'chantillonnage

Comme N < 25 et P = Q = 1/2, la table 3 donne la probabilit associe des valeurs observes de x. Rgion de rejet Elle comprend toutes les valeurs de x (nombre de sujets qui ont utilis, aprs le stress, la seconde mthode apprise) qui sont si faibles que leur probabilit associe sous H0 est gale ou infrieure = 0,01. Comme la direction de la diffrence est prdite d'avance, le test est unilattral. Dcision Dans cette exprience les rsultats obtenus aprs le stress sont les suivants : Mthode choisie Premire apprise Frquen 16 ce Deuxime apprise 2 Tota l 18

N = nombre d'observations indpendantes = 18 x = la frquence la plus faible

La Table 3 montre que pour N = 18, la probabilit associe avec x 2 est p = 0,001. Attendu que cette probabilit est infrieure = 0,01, nous pouvons rejeter H0 en faveur de H1. Nous concluons que p1 > p2, c'est-dire, les personnes soumises un stress utilisent la premire des deux mthodes apprises. Grands chantillons Lorsque N est suprieur 25, la table 3 ne peut tre utilise. Cependant, lorsque N s'accrot, la distribution binomiale tend vers la distribution normale. Cette tendance rapide lorsque P est proche de 0,5, se ralentie lorsque P est voisin de 0 ou de 1. Donc, plus la disparit entre P et Q est importante, plus l'chantillon devra tre important pour que l'approximation soit utile. Dans ce cas, une mthode empirique indique que NPQ doit tre gal au moins 9 avant que le test bas sur l'approximation normale soit applicable. La distribution normale est utilise pour des variables continues, alors que la distribution binomiale implique des variables discrtes, pour que l'approximation soit excellente

une correction pour la continuit doit tre incorpore. Compte tenu de ces contraintes, Ho peut tre teste par la formule z = ((x 0,5) - NP) / (2) > On utilisera x + 0,5 lorsque x < NP et x - 0,5 lorsque x > NP. La signification du z obtenu peut tre dtermine par rfrence la table 1, qui donne, pour les tests unilatraux, la probabilit associe d'obtenir, sous H0, des valeurs aussi extrmes que celle du z (Pour les tests bilatraux, la probabilit de la table doit tre double). Reprenons l'exemple prcdent : N = 18 x=2 P = Q = 0,5

x< NP (2 < 9) la formule est z = (2 + 0,5) - (18) (0,5) / z = - 3,07 La Table 1 montre qu'un tel z a une probabilit associe son occurence sous H0 de p = 0,0011. Nous avons trouv peu prs la mme probabilit avec la table des probabilits exactes, ce qui montre la qualit de l'approximation. Rsum de la procdure 1. Dterminer le nombre total d'observations = N. 2. Dterminer les frquences observes dans chacune des deux catgories. 3. Si N est gal ou infrieur 25 a- Et si P = Q = 0,5, utiliser directement la table 3 pour les tests unilatraux. Pour les tests bilatraux, il faut doubler le p de la table 3. b- Et si P = Q, utiliser la formule (1) et se reporter la table 3. Si N est suprieur 25 et P voisin de 0,5, utiliser la formule (2) et se reporter la table 1.4.

= 2,5 - 9 / 2,1213

Si la probabilit p associe la valeur observe x ou une valeur plus extrme est gal ou infrieure , rejeter H0.

Il n'existe pas d'alternative ce test. 1.2. Test du Khi carr d'ajustement (Chi square one-sample test) Le chercheur peut tre intress par le nombre de sujets, d'objets ou de rponses qui se rpartissent dans diffrentes catgories. Par exemple, il est possible de classer des enfants suivant leurs jeux, ou des personnes suivant qu'elles sont "favorables ", "indiffrentes" ou "opposes " une opinion donne et de tester l'hypothse selon laquelle ces jeux ou ces rponses diffrent entre eux par leur frquence. Le nombre de classes peut tre de deux ou plus. C'est un test d'ajustement puisque nous comparons un nombre observ d'objets ou de rponses dans chaque classe un nombre espr sur la base de l'hypothse nulle. Mthode L'hypothse nulle fixe la proportion d'objets dans chaque classe de la population thorique (frquences attendues ou thoriques). Le test du khi carr () vrifie si les frquences observes sont suffisamment proches des frquences attendues pour reprsenter la population thorique. On peut dmontrer que

(3)

o Oi = frquence observe dans chaque classe i = somme des k classes Ti = frquence thorique dans chaque classe i La valeur du Khi carr observe est nulle lorsque les frquences observes sont toutes gales aux frquences attendues, c'est--dire lorsqu'il y a concordance absolue entre la distribution observe et la distribution thorique. Cette valeur est d'autant plus grande que les carts entre les frquences observes et attendues sont plus grands. La signification de la valeur observe se fait par rfrence la table 2. On rejettera l'hypothse nulle lorsque la probabilit associe la valeur observe, pour un degr de libert = k -1, est gale ou infrieure Exemple .

Sgrgation de la descendance d'un dihybride de Pisum sativum. Parmi 556 plantes, Mendel a observ 315 individus graines rondes et albumen jaune (classe 1), 108 individus graines rondes et albumen vert (classe 2), 101 individus graines anguleuses et albumen jaune (classe 3) et 32 individus graines anguleuses et albumen vert (classe 4). Ces frquences observes sont-elles compatibles avec l'hypothse d'une sgrgation 9/3/3/1 ? Hypothse nulle H0 : P1 = 9/16 P2 = P3 = 3/16 P4 = 1/16

et les frquences attendues sont : T1 = 556 (9/16) = 312,75 T2 = T3 = 556 (3/16) = 104,75 T4 = 556 (1/16) = 34,75 Test statistique Le test du khi carr est choisi car nous voulons comparer les frquences observes dans des classes discrtes et leurs frquences attendues. Nous avons ici quatre classes. Niveau de signification = 0,01 et N = 556. Distribution d'chantillonnage Calculer d'aprs la formule (3). Le degr de libert est de k -1 = 3 Rgion de rejet H0 sera rejete si la valeur observe du khi carr est telle que sa probabilit associe, sous H0, avec ddl = 3 est gale ou infrieure = 0,01. Dcision Les rsultats sont prsents dans le tableau suivant : Classe Classe Classe Classe 1 2 3 4 Frquences thoriques 312,7 104,2 104,2 34,75 5 5 5

Frquences observes

315

108

101

32

Le calcul est = (315 - 312,75)2/312,75 + (108 -104,25)2/104,25 + (101 104,25)2/104,25 + (32 - 34,75)2/34,75 = 2,252/312,75 + 3,752/104,25 + 3,252/104,25 + 2,752/34,75 = 0,470 La Table 2 montre que le khi carr = 0,47 pour un ddl = 3 a une probabilit d'apparition comprise entre 0,95 et 0,90. Comme cette probabilit est largement suprieure au seuil de signification choisi = 0,01, nous ne pouvons rejeter l'hypothse nulle. Une condition doit tre respecte (car le rsultat obtenu n'est qu'approch) pour que le rsultat soit considr comme satisfaisant : toutes les frquences attendues doivent tre au moins gale 5 lorsque le degr de libert est gal 1 ou plus de 20% des frquences attendues ne peuvent tre infrieures 5 et aucune infrieure 1 lorsque le degr de libert est suprieur 1. Quand cette condition n'est pas remplie, on peut regrouper dans certains cas des classes voisines, de manire augmenter les frquences attendues. Quand les donnes sont mesures dans une chelle nominale ou quand elles sont constitues de frquences classes de faon discrte, il n'existe pas d'autres alternatives ce test. Si le degr de libert est suprieur 1, le khi carr est insensible aux effets d'ordre, aussi si l'hypothse prend en compte l'ordre des frquences, ce test n'est pas le meilleur. 1.3. Test de Kolmogorov et Smirnov (Kolmogorov-Smirnov onesample test) C'est un test d'ajustement. Il dtermine si les observations d'un chantillon peuvent raisonnablement provenir d'une population thorique donne. Il est bas sur la comparaison de la fonction cumulative de frquences (N (x)) de l'chantillon et de celle (F(x)) de la population donne. La plus grande divergence, en valeur absolue, existant entre ces deux distributions est recherche. La rfrence la distribution d'chantillonnage indique si une telle diffrence est vraisemblable sur la base du hasard. Mthode

D = maximum

(4)

La distribution d'chantillonnage de D est connue. La table 4 en donne certaines valeurs critiques. La signification d'une valeur donne de D dpend de la taille de l'chantillon N. La table 4 ne donne que les valeurs critiques de D pour N compris de 1 35. Au-del de N = 35, on dtermine les valeurs critiques de D par les divisions indiques dans la table 4. Par exemple, lorsque l'on travaille avec un chantillon de 43 observations et que l'on a fix = 0,05, la table 4 montre que tout D gal ou suprieur 1,36 / sera significatif. Ainsi, tout D, calcul par la formule (4), gal ou = 0,207 sera significatif au seuil 0,05 pour un test

suprieur 1,36 / bilatral. Exemple

Existe-t-il une hirarchie des prfrences parmi les teintes de peau ? Un chercheur fictif prend la photographie de 10 personnes. Il les fait dvelopper de telle sorte qu'il obtient cinq copies ou preuves photographiques de chaque personne. Chaque copie diffre lgrement des autres de faon pouvoir les ranger de la plus sombre la plus claire. La photo reprsentant la plus sombre est numrote 1, la suivante 2 et la plus claire 5. Chaque sujet choisit parmi ces cinq copies de son visage, celle qu'il prfre. Si la teinte de la peau n'a pas d'importance pour les sujets, les copies seront choisies alatoirement selon leur rang. Si la teinte de la peau a de l'importance, les sujets choisiront les copies extrmes. Hypothse nulle H0 : on ne peut s'attendre aucune diffrence dans le choix des copies en fonction de leur rang. H1 : les frquences de choix des diffrentes copies ne sont pas gales. Test statistique Le test Kolmogorov-smirnov est choisi car on cherche comparer la distribution des scores observs (mesurs dans une chelle de rangement) celle d'une distribution thorique. Niveau de signification = 0,01. Le nombre de sujets tudis N = 10.

Distribution d'chantillonnage Des valeurs critiques de D de la distribution d'chantillonnage sont prsentes dans la table 4, avec leurs probabilits d'occurence sous H0. Rgion de rejet Elle comprend toutes les valeurs de D calcule qui sont si fortes que la probabilit associe avec leur obtention, sous H0, est gale ou infrieure = 0,01. Dcision Dans notre tude hypothtique, un sujet a choisi l'preuve 2, cinq autres sujets l'preuve 4 et quatre autres l'preuve 5. Ces donnes sont dans le tableau suivant : Rang des choisies 1 Frquence des choisi ce rang sujets ayant 0 2 1 3 0 preuves 4 5 5 4

F (x) distribution cumulative thorique 1/5 2/5 3/5 4/5 5/5 des choix sous H0 N(x) distribution des choix observs N (x) - F (x) cumulative 0/10 1/10 1/10 6/10 10/1 0

2/10 3/10 5/10 2/10 0

Ce tableau rvle que D = 5/10 = 0,500. La table 4 montre que pour N = 10, D > 0,500 a une probabilit associe, sous H 0, de p < 0,01. Comme p est infrieur = 0,01, notre dcision est de rejeter H0 dans cette tude hypothtique. Nous concluons que les sujets tudis montrent des prfrences significatives parmi les teintes de peau. Ce test traite les observations individuelles sparment et ne ncessite en aucun cas la combinaison de classes comme dans le khi carr. De plus ce test est utilisable avec de petits chantillons, contrairement au khi carr. Aussi le test de Kolmogorov-Smirnov est dans tous les cas plus puissant que le test du khi carr.

Discussion

Pour tester des hypothses concernant le tirage d'un chantillon d'une population avec une distribution donne, nous devons utiliser l'un des trois tests d'ajustement prsents. Le choix parmi ces trois tests se dtermine par : 1. le nombre de catgories observes ; 2. l'chelle de mesure utilise ; 3. la taille de l'chantillon et 4. la puissance du test. Le test binomial peut tre utilis lorsque les donnes sont classes seulement en deux catgories. Mais il n'est intressant que lorsque la taille de l'chantillon est trop faible pour permettre l'emploi du khi carr. Le khi carr doit tre utilis lorsque les donnes se rangent dans des catgories discrtes et lorsque les frquences attendues sont suffisamment importantes. Ces deux tests peuvent tre mis en oeuvre lorsque les donnes sont mesures dans une chelle nominale ou de rangement. Le test de Kolmogorov-Smirnov doit tre utilis quand la variable considre a une distribution continue. Mais dans le cas contraire, appliqu une variable discontinue, si H0 est rejete, nous pouvons avoir confiance en cette dcision. Comme ce test ne ncessite aucun groupement des donnes et qu'il permet de traiter des chantillons de faible taille, chaque fois que ces conditions sont remplies, il est le plus puissant des tests d'ajustement prsents. Le test des squences (one-sample runs test) est concern par la distribution au hasard des squences des vnements dans un chantillon. Cette mthode est base sur l'ordre ou la squence dans lequel les observations individuelles ont t obtenues. Ce test n'a pas de test paramtrique alternatif.

2-

Cas de deux chantillons

Ce type de test est utile lorsque l'on veut tablir si deux traitements sont diffrents ou si un traitement est "meilleur" qu'un autre. Dans tous les cas, le groupe qui a subi le traitement est compar celui qui n'en a pas subi, ou qui a subi un traitement diffrent. Ce cas se prsente, par exemple, quand on compare deux mthodes de mesure en soumettant ces deux mthodes les mmes individus, choisis dans une population donne : chacune des mthodes correspond alors une population de mesures, mais ces populations et les chantillons que l'on

peut en extraire, ne sont pas indpendants. Il est aussi possible de soumettre les mmes sujets deux traitements diffrents. Chaque sujet est alors utilis comme son propre contrle et il suffit alors de contrebalancer l'effet d'ordre des traitements. Une dernire faon de faire consiste apparier des sujets et d'assigner alatoirement les membres de chaque paire aux deux conditions. Cet appariement est toujours dlicat. Il faut slectionner pour chaque paire les sujets les plus semblables possibles par rapport aux variables trangres qui pourraient affecter le rsultat de la recherche entreprise. En effet, dans de telles comparaisons de deux groupes apparis, des diffrences significatives peuvent tre observes qui ne sont pas le rsultat du traitement. Par exemple, la diffrence observe entre deux mthodes d'apprentissage par deux groupes d'tudiants peut ne pas traduire une efficacit relative de ces deux mthodes, car d'autres variables (les tudiant d'un groupe sont plus capables ou plus motivs que ceux de l'autre groupe) crent des diffrences dans les performances. Or nous ignorons ou connaissons mal les variables trangres pertinentes. Aussi, la qualit de cette deuxime mthode dpend de l'habilit du chercheur, et cette dernire est toujours limite. La mthode paramtrique usuelle pour analyser les donnes de chantillons non indpendants est le test de t, dont nous avons expos les contraintes. Si nous ne pouvons ou ne voulons pas accepter ces dernires ou si les mesures ne sont pas ralises, au moins, dans une chelle d'intervalle, nous devons choisir parmi les tests non paramtriques possibles : test de McNemar de la signification de changements, test du signe, test de rang de Wilcoxon, test de Walsh, et le test de randomization pour chantillons apparis. 2.1. chantillons apparis 2.1.1. Test des signes (Sign test) Il s'applique au cas de deux chantillons associes par paires. Il tire son nom du fait qu'il utilise les signes + et -, au lieu de donnes quantitatives. Il est particulirement utile dans les cas o il n'est possible que de ranger l'un par rapport l'autre les membres de chaque paire. Il est bas uniquement sur l'tude des signes des diffrences observes entre les paires d'individus, quelles que soient les valeurs de ces diffrences. Les seules contraintes de ce test sont que la variable considre ait une distribution continue et que les deux membres de chaque paire sont apparis. Mthode

L'hypothse nulle peut s'crire P (+) = P (-) = 1/2 P (+) = la probabilit d'observer une diffrence positive P (-) = la probabilit d'observer une diffrence ngative. Lorsque l'hypothse nulle est vraie et pour N paires d'observations, le nombre de diffrences positives (ou ngatives) est une variable binomiale de paramtres P = Q = 1/2 et N. Le test permet de comparer, grce cette distribution, le nombre observ de signes plus (ou moins) et le nombre attendu N/2. Quand certaines diffrences sont nulles, les paires d'observations correspondantes sont cartes de l'analyse et la valeur de N est rduite en consquence. Petits chantillons Lorsque N < 25, la table 3 donne les probabilits associes des valeurs x obtenues, sous H0. x = le nombre des signes les moins frquents. Le test des signes peut tre unilatral lorsque l'on prdit quel signe + ou - sera le plus frquent ou bilatral lorsque les frquences des deux signes seront simplement diffrentes. Exemples Vingt paires sont observes; 16 prsentent une diffrence (+) et les 4 autres une diffrences (-). Donc N = 20 et x = 4.1.

Si H1 prdit que les signes + sont les plus frquents (unilatralit), la Table 3 rvle que la probabilit d'obtenir la distribution est de 0,006 et que l'on peut rejeter H0 au seuil 0,001. Si H1 prdit simplement que la diffrence entre les frquences des deux signes est diffrente (bilatralit), il faut doubler la valeur p de la table 3. Dans notre cas, p = 0,012 et H0 ne peut tre rejete au seuil 0,001. 2. Douze arbres sont mesurs alors qu'ils sont debout, par une mesure trigonomtrique. Puis les mmes arbres sont mesurs au sol, aprs abattage. La premire mthode donne-t-elle des rsultats significativement trop faibles ou trop levs ? H0 Il n'y a pas de diffrences entre les mesures obtenus par la premire et la seconde mthodes. H1 il y a une diffrence significative. Seuil de signification = 0,05. Les hauteurs obtenues (en mtres) sont les suivantes : Arbres Arbres Diffrence

debouts 20,4 25,4 25,6 25,6 26,6 28,6 28,7 29,0 29,8 30,5 30,9 31,1

abattus 21,7 26,3 26,8 28,1 26,2 27,3 29,5 32,0 30,9 32,3 32,3 31,7

s -1,3 -0,9 -1,2 -2,5 0,4 1,3 -0,8 -3,0 -1,1 -1,8 -1,4 -0,6

N = 12 (nombre de diffrences non nulles) x = 2 La table 3 rvle que pour N = 12, la probabilit (bilatrale) d'obtenir un tel x 2 est de (0,019) x 2 = 0,038. L'identit des rsultats obtenus par les deux mthodes de mesure doit tre rejete au seuil de signification 0,05. Grands chantillons Lorsque N > 25, on peut utiliser l'approximation normale en faisant intervenir une correction de continuit. Il suffit de calculer la valeur

(5)

o x + 0,5 est utilis lorsque x < 1/2 N et x - 0,5 lorsque x > 1/2 N. La signification d'un tel z peut tre dtermine par rfrence la table 1. Cette table donne la probabilit unilatrale d'obtenir des valeurs aussi extrmes que le z observ. Pour un test bilatral, la probabilit donne par la table 1 doit tre double. Exemples

1. Si l'on reprend l'exemple de comparaison des mesures des arbres, l'approximation normale donnerait : z = ((2 + 0,5) - 6) / 0,5 = 3,5 / 1,7320508 = 2,02

La table 1 rvle que pour z = 2,02, la probabilit bilatrale associe est (0,0217) x 2 = 0,0434. Cette valeur conduirait rejeter l'hypothse nulle au seuil 0,05. Bien que les chantillons ne contiennent chacun que douze individus, l'approximation est dj trs satisfaisante puisqu'elle donne p = 0,0434 au lieu de p = 0,038. Supposons qu'un chercheur veuille dterminer si la vision d'un film sur la dlinquence juvnile change les opinions des membres d'une communaut sur la svrit des sanctions donner des dlinquents juvniles. Il extrait un chantillon alatoire de 100 adultes de la communaut. Chaque sujet sera son propre contrle. Il leur demande de prendre position sur la svrit plus ou moins grande des punitions infliger aux dlinquents juvniles. Il leur prsente ensuite le film et ritre sa question aprs.2.

Hypothse nulle H0 : le film n'a pas d'effet sur l'opinion des sujets. H 1 : le film a un effet systmatique. Test statistique Le test des signes est choisi pour cette tude portant sur deux groupes apparis et dont les mesures sont ralises dans l'chelle ordinale. Les diffrences pourront tre reprsentes par des plus ou des moins. Niveau de signification Posons = 0,01 ; N = le nombre de sujets qui change d'opinion, quel qu'en soit le sens. Distribution d'chantillonnage N > 25 aussi z est calcul avec la formule (5) et la Table 1 donne la probabilit associe aux valeurs aussi extrmes que le z obtenu. Rgion de rejet

Comme H1 ne prdit pas la direction des diffrences, la rgion de rejet est bilatrale. Dcision Les rsultats de cette tude fictive sont les suivants : Opinion avant le film Moins Plus 59 Opinion aprs le Moin film 8 s Plus 7 26

Ces donnes montre que 15 adultes (8 + 7) n'ont pas t affect par la vision du film et 85 l'ont t. Si le film n'a pas d'effet systmatique, nous nous attendrions ce que peu prs la moiti de ceux qui ont modifi leur jugement entre avant et aprs a chang de plus moins et peu prs la moiti a chang de moins plus. Soit 42,5 sujets auraient modifi leur jugement dans un sens ou dans l'autre. x = 26; N = 85 donc x < 1/2 N

z = ((26 + 0,5) - 42,5) / 0,5 (

) = 16 / 4,609772 = 3,47

Par rfrence la Table 1, p = 2 (0,0003) = 0,0006 < = 0,01 Nous pouvons rejeter l'hypothse nulle. Nous pouvons conclure, dans cette tude fictive, que la vision du film a eut un effet significatif sur l'opinion des adultes concernant la svrit des peines infliger aux dlinquents juvniles.

4.2.1.2. Test des rangs appliqu au cas d'chantillons apparis (Wilcoxon matched-pairs signed-ranks test) Le test prcdent n'utilise que l'information sur la direction des diffrences entre paires. Si nous pouvons prendre en compte en plus la grandeur des diffrences, un test plus puissant peut tre utilis. Le test de Wilcoxon donne plus de poids une paire qui montre une large diffrence

entre les deux conditions qu' une paire ayant une faible diffrence. Cela implique que l'on puisse dire quel membre d'une paire est plus grand que l'autre (donner le signe de la diffrence), mais aussi que l'on puisse ranger les diffrences en ordre croissant. Mthode di = diffrence entre chaque paire, reprsentant la diffrence entre les scores apparis obtenus lors des deux traitements. Chaque paire a un di. Ranger tous les di sans tenir compte de son signe. Dans ce cas, lorsque l'on range les di, un di de -1 est affect d'un rang infrieur celui d'un di de -2 ou +2. Puis raffecter chaque rang le signe de la diffrence. Si les traitements A et B sont quivalent, donc si H0 est vraie, la somme des rangs ayant un signe positif et celle des rangs ayant un signe ngatif devraient tre peu prs gale. Mais si la somme des rangs de signes positifs est trs diffrente de celle des rangs de signes ngatifs, nous en dduirons que le traitement A diffre du traitement B, et rejterons l'hypothse nulle. Donc, il y a rejet d'H0 que la somme des rangs de signe ngatif ou que celle des rangs de signe positif soit faible. Il est possible que les deux scores d'une quelconque paire soient gaux. Il n'y a pas de diffrence observe entre les deux traitements pour cette paire (d = 0). De telles paires sont abandonnes. N est alors gal au nombre de paires dont la diffrence entre les traitements n'est pas nulle. Mais deux ou plus des diffrences observes entre paire peuvent tre gales entre elles. On donne alors le mme rang ces valeurs lies. Le rang affect est la moyenne des rangs qu'auraient eu les diverses valeurs si elles avaient diffres. Ainsi, trois des paires observes prsentent les diffrences suivantes : -1, -1 et +1. Chaque paire aura le rang 2, car (1 + 2 + 3) / 3 = 2. La diffrence suivante aura alors le rang 4, puisque les rangs 1, 2, et 3 ont dj t utilis. Petits chantillons T = la somme des rangs du signe observe le moins frquent. La table 5 donne les valeurs critiques de T et leurs niveaux de signification associs pour N 25. Si le T observ est gal ou infrieur la valeur donne dans la table pour un niveau de signification et pour le nombre de diffrences non nulles N, l'hypothse nulle peut tre rejete ce niveau de signification. Exemples Un psychologue de l'enfance veut tester l'effet de l'assistance l'cole maternelle sur la comprhension sociale des enfants. Il estime cette

comprhension partir des rponses que les enfants donnent une srie de questions portant sur des images reprsentant diverses situations sociales. Chaque enfant obtient ainsi un score compris entre 0 et 100. Le psychologue ne peut pas affirmer que les diffrences observes entre scores sont numriquement exactes (il ne peut pas dire qu'un score de 60 est le double d'un score de 30, ni que la diffrence entre 60 et 40 est exactement le double de la diffrence entre 40 et 30). Cependant, il pense que les scores sont suffisamment prcis pour qu'il puisse les ranger selon leur valeur absolue. Pour tester l'effet de l'assistance l'cole maternelle sur la comprhension sociale des enfants, il utilise 8 paires de jumeaux. L'un des jumeaux est envoy l'cole, alors que l'autre reste la maison pendant un trimestre. L'affectation se faisant au hasard. A la fin du trimestre, il estime la comprhension sociale de chacun des enfants.

L'hypothse nulle : il n'y pas de diffrence entre la comprhension sociale des enfants rest la maison et celle des enfants ayant suivi l'cole. Les rsultats sont donns dans le tableau ci-dessous. Paire Score enfants Score enfants Rang d s scolariss Non scolaris de d a b c d e f g h 82 69 73 43 58 56 76 65 63 42 74 37 51 43 80 62 1 7 9 2 8 7 -1 -1 6 4 7 5 1 8 3 -4 -3 3 2 T=4 3 1 Rang avec signe le frquent le -

La table 5 montre que pour N = 8, un T = 4 nous permet de rejeter l'hypothse nulle au seuil 0,05 pour un test bilatral. Par consquent, nous conclurions, dans cette tude fictive, que l'exprience de l'cole affecte la comprhension sociale des enfants. Ces donnes sont aussi traitables par le test des signes. Dans ce cas, x = 2 et N = 8, la Table 3 montre que p = (0,145) 2 = 0,290 et nous ne pourrions pas rejeter H0 au seuil 0,05. Grands chantillons Lorsque N est suprieur 25, il peut tre dmontr que la somme des rangs T est pratiquement normale et que l'on peut calculer (6)

z = (T - (N (N +1) /4)) / et se rfrer la Table 1.

Pour montrer la prcision de l'approximation, nous pouvons traiter les donnes prcdentes N = 8, T = 4,

z = (4 - ((8) (9))/4) /

= - 1,96

La Table 1 rvle que pour z = -1,96, p = (0,025) 2 = 0,05, c'est--dire la mme probabilit qu'en utilisant la table des valeurs critiques de T. Exemple Si l'on demande des prisonniers de choisir entre deux jeux leur permettant de perdre ou de gagner des cigarettes, il est possible un exprimentateur de prdire le choix qui sera fait par chaque sujet dont on connait la valeur subjective qu'il accorde aux cigarettes. Mais dans certains cas, la prdiction est hasardeuse lorsque les termes du choix propos au sujet sont soit galement attractifs ou galement peu attractifs. Cependant, dans ces cas, le temps s'coulant entre la proposition et le choix du sujet risque de s'allonger. Aussi l'exprimentateur peut-il faire l'hypothse que les latences de rponse pour les choix imprvisibles seront plus longues que celles pour les choix prvisibles.

Une diffrence fut obtenu pour chaque sujet en soustrayant son temps mdian de rponse dans le cas des dcisions correctement prdites de celui des dcisions incorrectement prdites. Les rsultats obtenus pour trente prisonniers sont donns dans la table cidessous. Prisonni d er 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 -2 0 0 1 0 0 4 20,0 4 1 1 5 3 5 3 -1 1 -1 5 8 2 20,0 4,5 4,5 23,0 16,5 23,0 16,5 - 4,5 4,5 4,5 - 4,5 4,5 23,0 25,5 11,5 4,5 Rang Rang du signe le d frquent -11,5 11, 5

21 22 23 24 25 26 27 28 29 30

2 2 -3 -2 1 4 8 2 3 -1

11,5 11,5 -16,5 16,5 -11,5 11,5 4,5 20,0 25,5 11,5 16,5 - 4,5 4,5 T = 53,0

N = 26 , quatre diffrences tant nulles.

z = ((53 - (26) (27)) / 4) /

= -3,11

La Table 1 montre que pour un z = -3,11, p = 0,0009, car le test est unilatral puisque la direction de la diffrence est prdite. p < = 0,01, nous pouvons donc rejeter H0. Nous concluons que les latences des dcisions incorrectement prdites sont significativement suprieure celle des dcisions correctement prdites. Discussion Le test de McNemar peut tre utilis lorsque les donnes sont mesures dans l'chelle nominale. Il n'a pas d'quivalent dans le cas de deux chantillons apparis. Si le score de l'un des membres d'une paire peut tre dclar "plus grand" que le score de l'autre membre de la mme paire (chelle ordinale), le test des signes est applicable. Quand les mesures sont ralises dans une chelle ordinale la fois dans les paires et entre elles, le test de Wilcoxon doit tre utilis.

Le test de Walsh est applicable de petits chantillons (N < 15) quand il est possible d'affirmer que les chantillons observes proviennent de populations symtriques et continues et que les donnes sont mesures dans une chelle d'intervalle. Le test de randomization n'est applicable que lorsque N est suffisamment petit et que les mesures sont, au moins, dans une chelle d'intervalle. Ce test prend en compte toute l'information des chantillons et il est donc aussi efficace qu'un test de t.

ConclusionIl est utile de souligner les principales tapes et difficults de toute analyse statistique. Le premier problme est le choix de la ou des mthodes les mieux adaptes au but poursuivi et aux conditions de travail. Le but atteindre doit tre clairement dfini au dpart et non pas posteriori. Dans ce derniers cas, les risques de conclusion rrone peuvent tre particulirement importants, car les niveaux de signification utiliss n'ont plus de sens. Le choix d'un plan d'exprience doit tre dtermin en fonction des mthodes statistiques les mieux adaptes au but poursuivi. Au niveau de l'analyse, il est indispensable de s'assurer tout moment de l'exactitude des tableaux de donns traits et de la prcision des calculs effectus. Enfin, l'interprtation des rsultats fournis par l'analyse statistique doit tre faite avec prudence, et sans perdre de vue l'existence de risques d'erreurs inhrents aux mthodes utilises.