statistiques appliquées à l'expérimentation en sc humaine 2005

Embed Size (px)

Citation preview

StatistiquesAppliquees`alExperimentationenSciencesHumainesChristopheLalanne,SebastienGeorges,ChristophePallierTabledesmati`eres1 Methodologieexperimentaleetrecueil desdonnees 61.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Typologiedesvariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.1 Variablesqualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2 Variablesquantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.3 Variablesdependantesetindependantes . . . . . . . . . . . . . . . . . . . 91.4 Planicationduneexperience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.5 Formalisationdesplansdexperiences . . . . . . . . . . . . . . . . . . . . . . . . . 111.6 Quellogicielutiliser ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Analysedescriptive 142.1 Objetdelanalysedescriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Codageetrecodagedesdonnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.1 Recueiletcodagedesdonnees. . . . . . . . . . . . . . . . . . . . . . . . . 142.2.2 Recodagepardiscretisationetderivation . . . . . . . . . . . . . . . . . . 152.2.3 Recodagepartransformation . . . . . . . . . . . . . . . . . . . . . . . . . 162.3 Donneesnumeriques etrepresentationsgraphiques . . . . . . . . . . . . . . . . . 162.3.1 Donneesnumeriques ettypedevariable . . . . . . . . . . . . . . . . . . . 1612.3.2 Representationsnumeriques . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3.3 Representationsgraphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Indicateursdescriptifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.1 Tendancecentrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.2 Dispersion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4.3 Formedeladistributiondesobservations . . . . . . . . . . . . . . . . . . 272.5 Analysedescriptivedesdierencesetliaisonsentrevariables . . . . . . . . . . . . 292.5.1 Dierencesquantitativesentreindicateursdescriptifs . . . . . . . . . . . . 302.5.2 Liaisonentrevariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Analyseinferentielle 353.1 Deladescription` alinference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.1 Schemageneraldelademarcheinferentielle . . . . . . . . . . . . . . . . . 353.1.2 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Distributiondeprobabilites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.1 Distributiondechantillonnagedelamoyenneetloinormale . . . . . . . . 363.2.2 Calcul elementairedeprobabilites . . . . . . . . . . . . . . . . . . . . . . 403.3 Principesdestestsdinferenceetdelestimationstatistique . . . . . . . . . . . . 423.3.1 Principedutestdhypoth`ese . . . . . . . . . . . . . . . . . . . . . . . . . 423.3.2 Intervallesdeconance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.3 Conditionsgeneraledanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 473.4 Approcheintuitivedelanalyseinferentielledesprotocolesexperimentaux . . . . 474 Comparaisons, analysesdevarianceetdeliaison 504.1 Comparaisondesindicateursdescriptifspourunoudeux echantillons. . . . . . . 504.1.1 Comparaisondemoyennes. . . . . . . . . . . . . . . . . . . . . . . . . . . 5024.1.2 Intervallesdeconance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.1.3 Alternativesnon-parametriques . . . . . . . . . . . . . . . . . . . . . . . . 574.1.4 Autrescomparaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.2 Analysedevariancedordre1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.2 TypesdANOVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.3 Mod`elegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.2.4 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.2.5 Hypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.2.6 Decompositiondelavarianceettestdhypoth`ese . . . . . . . . . . . . . . 634.2.7 Comparaisonsmultiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.8 Intervallesdeconance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.2.9 Alternativesnon-parametriques . . . . . . . . . . . . . . . . . . . . . . . . 694.3 Analysedevariancedordren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3.2 Plansfactorielethierarchique. . . . . . . . . . . . . . . . . . . . . . . . . 704.3.3 Eetsprincipauxetinteractiondordren . . . . . . . . . . . . . . . . . . 714.3.4 Planfactorielavecreplication. . . . . . . . . . . . . . . . . . . . . . . . . 734.3.5 Planfactorielsansreplication. . . . . . . . . . . . . . . . . . . . . . . . . 784.3.6 Planfactoriel` amesuresrepetees . . . . . . . . . . . . . . . . . . . . . . . 794.3.7 Alternativesnon-parametriques . . . . . . . . . . . . . . . . . . . . . . . . 824.4 Analysedevariancemultidimensionnelle . . . . . . . . . . . . . . . . . . . . . . . 824.4.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824.4.2 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.4.3 Hypoth`ese. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8334.4.4 Testdhypoth`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.5 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.5.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.5.2 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.5.3 Hypoth`ese. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.5.4 Testdhypoth`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.5.5 Alternativenon-parametrique . . . . . . . . . . . . . . . . . . . . . . . . . 874.6 Regressionlineairesimple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.6.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.6.2 Mod`eledelaregressionlineaire . . . . . . . . . . . . . . . . . . . . . . . . 894.6.3 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.6.4 Hypoth`ese. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.6.5 Testdhypoth`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.6.6 Estimationetprediction:calculdesintervallesdeconance . . . . . . . . 944.7 Regressionlineairemultiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974.7.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974.7.2 Correlationpartielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984.7.3 Mod`elegeneraldelaregressionmultiple . . . . . . . . . . . . . . . . . . . 994.7.4 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.7.5 Demarchedelanalyseettestdhypoth`ese . . . . . . . . . . . . . . . . . . 1014.8 Analysedecovariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1054.8.1 Principegeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1054.8.2 Mod`eledelANCOVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.8.3 Conditionsdapplication. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.8.4 Hypoth`ese. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10644.8.5 Testdhypoth`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107References 108Annexes 109ATestsdajustement`adesdistributionstheoriques 110B Loisdedistributionettablesstatistiques 112CLogicielsstatistiques 12351 Methodologieexperimentaleetrecueil desdonnees1.1 IntroductionLobjet de ce document est de fournir les bases theoriques dutraitement statistique desdonnees recueillies lors dexperimentations enlaboratoire sur des sujets humains. Les basestheoriquesexposeesdanscedocumentsontillustreespardesetudesdecaspratiques, andefournirunsupportdereexionet detravail surlesanalyses etinterpretationsquelonpeutelaborer` apartirdunjeudedonnees.Pourquoi le titre Statistiques Appliquees ` a lExperimentation en Sciences Humaines ? En fait,lastatistiquerecouvreunvastedomainedapplicationspotentielles: psychometrie, agronomie,actuariat,epidemiologie, abiliteetcontr ole, etc. Chacundecesdomainesposs`edesespropresmethodesdinvestigationetsurtoutdanalyse,et,silesprincipesdebaserestentlesmemes,lestechniquesutiliseesvarientbeaucoupdundomaine` alautre. Nousavonsdoncchoisi denouslimiter aux applicationsen scienceshumaines, et autraitement des variables de type numeriquemesureesdanslecadredunprotocoleexperimental, etencesens, cecourssapparentebeau-coupplus` auncoursdebiostatistiquequ` auncourscompletdanalysedesdonnees(pourdeplusamplesreferencessurcedomaine,voirparexemple[5],[4]).Parailleurs,cedocumenteststructuredansuneoptiqueapplicative, carnousnexposonspaslesprincipesdelastatistiquemathematique(calcul desprobabilites, variableset vecteursaleatoires, loisdedistributionetconvergence,etc.), quiconstitueunedisciplineensoi ;ilesttout` afaitpossibledecomprendreles principes de lanalyse statistique des donnees et ses applications pratiques sans avoir auprealablesuivi uncoursapprofondidestatistiquemathematique. Cestaussi unparti-prisdesauteursquedepostulerquencommen cantparunescienceappliqueeonarriveplusfacilementauxtheories qui lafondent. Lesseules connaissances mathematiques vraimentutiles danscedocumentsontlesr`eglesdecalcul algebriqueelementaire, etquelquesnotionsdeprobabiliteselementaires.Cedocumentnepretendpascouvrirtouteslesanalysespossiblesdansledomainedelexpe-rimentationenscienceshumaines, maisexposelesbasestheoriquesdesprincipalestechniquesdanalysestatistique: analysedescriptive, comparaisondemoyennes, analysedevariance, re-gressionlineaire. Desetudesdecaspermettent, danslaplupartdescas, dillustrerlesnotionspresentees. Neanmoins, le document est organise de telle sorte que le lecteur trouvera dans chaquechapitredesindicationsbibliographiquespourapprofondircertainesdesnotionsdej` atratees,ainsi queles nombreusesautres qui nesont pas couvertes (analysedevariancehierarchique,regressionnon-lineaire, tests non-parametriques, etc.).De meme, ce document ne couvre pas lestechniques propres ` a lanalyse des donnees, cest-` a-dire les methodes factorielles (A.C.P., A.F.C.,A.C.M., AnalyseDiscriminante,Classication, etc.), qui,departleurrichesse,meriteraientde6gurerdansungrandchapitre` apart,voireunautredocument.Cedocumentpresentelestechniquesdelanalysedescriptive(chapitre2),quiconstitueuneetape prealable incontournable avant de poursuivre sur les etapes de lanalyse ` a visee inferentielle,ainsi que les principes generaux (chapitre 3) et les procedures speciques de lanalyse inferentielle(chapitre 4). Ce dernier chapitre est structure en dierentes parties, correspondant aux dierentscasdegurequelonrencontredans lesprotocolesexperimentaux, puisque cesontletypeetlestatutdesvariables,ainsiquelastructuredesdonneesquideterminentlesanalysespertinentes` aentreprendre. Cettepartieabordeainsi:lacomparaisondun echantillon` aunepopulationdereference,lacomparaisondedeux echantillons,lanalysedevariance` aunouplusieursfacteurs(ANOVA), lanalyse de lassociation et de la liaison entre deux ou plusieurs variables (correlationet regressionlineaire), ainsi queles extensions deces analyses debasequesontlanalysedevariancemultiple(MANOVA)etlanalysedecovariance(ANCOVA).Pourcesdeuxderni`eres,seuleslesprincipesgenerauxsontpresentes ;lelecteurpourrasereporterauxouvragescitesenreferencepourdeplusamplesdeveloppements. Chaquepartieestaccompagneedunexempledapplication, traitede mani`ere succinte et dans lequel les procedures de test sont eectuees ` alamainandesensibiliserlelecteur,dunepart,auxproceduresmanuelles,etdautrepart,aufaitque,si leslogicielslefont actuellementbeaucoupplus rapidement, ilesttoujours bondesavoirlefairesoi-memepuisquecelapermetdemieuxcomprendrelesetapesdelaprocedureetla logiquedelademarcheetdesresultatsobtenus ;celapeutainsipermettrededetecterdeventuelles erreursouinconsistences dans les resultats fournispar unlogiciel dedie, et quipeuventresulter,parexemple,doptionsdecalculinappropriees.1.2 TerminologieLa terminologieadoptee ici correspond globalement ` a celle de [3] (voir egalement [5]). On de-signe la plupart du temps par individusou observationsles donnees quantitatives recueillies lorsdun protocole experimental, par exemple un temps de reaction pour un sujet dans une conditionexperimentale. On peut dierencier les deux termes en considerant que les observations sont desinformationsdunequelconquenature, tandisqueles individussontlesupportsur lesquellescelles-ci onteterecueillies. Ontrouveegalementletermeunitesstatistiques pourdesignerlesindividus. Dans le cadre de ce document oriente sur lanalyse de donnees qauntitatives recueillieslorsdexperimentation,onparleraplusvolontiersdobservations.Unechantillonestunensembleouunecollectiondindividusoudobservationstiresdunepopulationplusvastelapopulationparente(oudereference)quinestgeneralementpasobservee.Ondesigneparvariable, facteur, oucaract`ere, lobjetdetude(invoquearticiellementounaturellement)quiestmanipuleparlexperimentateur.Un traitement, une condition, le niveaudun facteur, ou la modalitedune variable representelesdierentes valeursprisespar lavariabledetude. Ondesignerapar lasuitefacteur la7variable detude, qui comportera des niveauxoudes modalites selonque cette variable estnumerique ouqualitative1(cf. suivant).1.3 TypologiedesvariablesLatypologieadopteeici, illustreedanslagure1.1, correspondglobalement` acelleintro-duiteparStevens([8] ;voir egalement[3]et[5]),bienquecelle-ciaitfaitlobjetdenombreusesdiscussions,notammentencequiconcernelesanalysesquipeuvent etremeneesenfonctiondutypedevariable.Onadopteraegalement ladenitionsuivante(e.g. [5]) : unevariable est constituee dunensembledemodalites mutuellement exclusives et constituant le domainedevariationdelavariable. Lesmodalitesdelavariablepeuventetredesvaleursoudesniveaux(i.e. desvaleursordonnees,danslecaso` ulavariableestunfacteur).Variables Qualitatives Variables Quantitativesnominale ordinale intervalle rapportFig. 1.1:Lesdeuxgrandesclassesdevariables.1.3.1 VariablesqualitativesAppeleeegalement variable categorisee, unevariable qualitative est unevariable dont lesmodalitesnepeuventpas etre mesureessurune echellespecique.Cestlecasparexempledelacouleur des cheveuxoududegredappreciationduncertainobjet dans lecadredunquestionnaire avecjugement de preference. Ondistinguera lesvariablesnominalesdes variablesordinales,qui peuvent etre ordonnees ou recodeessur une echelle arbitraire. Cest le cas parexemple dune variable du type niveau dexpertise avec les modalites,ou niveaux, faible , intermediaireet avance.Oninclueradanscetypedevariableslesvariablesouvertes, cest-` a-direlesvariablesdontonnepeutpaspredirelavaleurouquineposs`edentpasdedomainededenition:cestlecasdesquestionslibresposeesdanslesquestionnaires,etpourlesquelleslesreponsesconsistentendes phrases, ou des expressions regroupees. Seront egalement considerees comme qualitatives lesvariablesbinairesoudichotomisees(e.g.oui/non,present/absent).Cesontdanstouslescasdesvariablesdiscontinues.1Onparle enfait de niveauxlorsque les modalites dufacteur sont ordonnees, et cela inclut les variablesqualitativesdetypeordinale.81.3.2 VariablesquantitativesLesvariablesquantitatives,ounumeriques,poss`edentquant` aellesune metrique,cest-` a-direquellespeuventetrerepresenteessuruneechellespeciquedemesure. Ondistinguerales variables dintervalle, qui supportentdestransformationslineaires (detypey=ax), desvariablesditesderapport, supportantlestransformationsanes(detypey=ax + b). Danscederniercas, ilexisteuneorigine,ouunzero,quiaunsens.Desexemplesdetellesvariablessont:latemperatureenC(intervalle),latailleouuntempsdepresentation(rapport),etc.Elles peuvent etre en outre continues(` a valeurs dans lensemble des reels), comme par exemplelorsquonmesureletempsdereaction` aun ev`enement,oudiscr`etes(` avaleursdanslensembledes entiers naturels), comme cest le cas dans une procedure de comptage de reponses ou ditems.1.3.3 VariablesdependantesetindependantesLavariablemesureelorsdelexperimentationsenommevariabledependante. Il peutbienentendu y en avoir plusieurs. Toutefois,par extension, ce sont egalement toutes les variables quiseront utilisees en tant quobservations dans lanalyse (on peut deriver de nouvelles variables` apartirdesvariablesinitiales).Lesdierentesconditionsdepassationdelexperienceconstituentlaoulesvariable(s) in-dependante(s). Onpeut egalement raner ladenition(cf. [5]) endistinguant les variablesindependantesprovoquees, i.e. explicitementdetermineesparlexperimentateur(e.g. intervalleinter-essai, typedeconsigne, etc.), desvariablesindependantesinvoquees, qui rel`eventplut otdescaracteristiquesintrins`eques desindividus (e.g. age,sexe,niveaudeQI,etc.).1.4 PlanicationduneexperienceLaconceptiondeplandexperiencesconstitueundomainedetude` apartenti`ere, etnousnouslimiterons` adecrirebri`evementlesprincipauxconceptsassocies` alamiseenuvreduneexperience, etplusparticuli`erementdansledomainedelapsychologieexperimentaleetdelabiologie(pourdeplusamplesreferences,lelecteurpourraconsulter[19],[14],[2],[6]).Entoute generalite, lorsque lonsouhaite mesurer les capacites dusujet humainsur unecertainedimension, onselectionnegeneralement ungroupedesujets qui peutetreconsiderecomme representatif de lapopulation2. Ce groupe de sujets est placedans une situationexpe-rimentaleparticuli`ere, permettantdobserverlesperformancesdessujetsenfonctiondesva-riations dun ou plusieurs facteur(s)manipule(s) par lexperimentateur et suppose(s) inuencer,2Cegroupedindividus,ouechantillon, nestpaschoisi nimportecomment, maisest selectionneparunemethodedechantillonnagealeatoire, cequi constituelabasedetoutes lesproceduresinferentielles(cf. chapitre3).9ou moduler, leurs capacites sur la dimension etudiee. En consequence, on essaie generalement deminimiser les autres facteurs susceptibles dinuencer les performances : la situationexperimen-taleestditecontr olee. Lobservationdevariationsdesperformancesenfonctiondesvariationsdufacteurmanipule(lesdierentesconditions delexperience), touteschosesetantegalesparailleurs,peutdelasorte etreattribuee` aleetdecefacteur.Lallocationdes sujets dans les dierentes conditions experimentales est une etapeessentielledanslademarcheexperimentale, etinuencelestraitementsstatistisquesqui serontentreprislors de lanalyse des donnees. Les sujets peuvent etre repartis de dierentes mani`eres (cf. tableau1.1):onpourra par exempleconstituerdeux groupesdesujets, selectionnesaleatoirementdansunepopulationdereference(parexemple, parmi lensembledesetudiantsduneuniversite, dememesexeetdememeniveaudetudes),et etudierleetdedeuxtraitementsenadministrantdefa conexclusivelundesdeuxtraitements` achacundesdeuxgroupes.Ainsi,lesindividus dupremiergroupeserontexposesexclusivementaupremiertraitement, etceuxdelautregroupeexclusivementausecondtraitement.Lundesdeuxgroupespourrait egalementnepasrecevoirdetraitement, ouservirde referenceparrapportauxautrestraitements, etil seraitalorsqualiedegroupecontr ole. Cetypedexperienceutiliseenfaitdesgroupesindependants : lesobservationsdanschacundesdeuxgroupessontindependanteslesunesdesautrespuisquellesproviennent desujetdierents.cond.no1 cond.no2S1S5S2S6S3S7S4S8. . . . . .cond.no1 cond.no2S1S1S2S2S3S3S4S4. . . . . .cond.no1 cond.no2 cond.no3S1x11,x12,... x21,x22,... x31,x32,...S2x11,x12,... x21,x22,... x31,x32,...S3x11,x12,... x21,x22,... x31,x32,...S4x11,x12,... x21,x22,... x31,x32,.... . . . . . . . . . . .Tab.1.1:Repartition des sujetsentre deux conditions avec des protocoles degroupes independants(gauche)ouapparies(milieu),etdesprotocolesdemesuresrepetees(droite).Lessujetssontrepre-sentesparlalettreSindiceeparlenodusujet. Pourlesmesuresrepetees, lavariablemesureeestindiqueeparlalettrexindiceeparlenodessai,lexposant representant lenodelacondition.A linverse, on pourrait sinteresser aux eets dapprentissage dune t ache, soit en manipulantdirectement les conditions dexecution de la t ache, soit en regardant levolution des performances` adeuxinstantstemporelsdonnes.Danscecas,onutiliserapreferentiellementlesmemessujetsdans les deux conditions experimentales, et on parle alors de groupes apparies: les paires dobser-vations dans chacun des deux groupes ne sont plus independantes les unes des autres puisquellessontissuesdunmemesujet,etsontdonclieesentreelles(ellesdemeurentcependantindepen-dantesentrelessujets` alinterieurdunmemegroupe, ouentresujetsdierentsdanslesdeuxgroupes).Enn,uneautretechniquecourammentutiliseeconsiste` aeectuerplusieursmesuressurlememesujet,danschacunedesconditionsexperimentales:onparledanscecasdeprotocoledemesuresrepetees. La repartition des sujets et des repetitions est schematisee dans le tableau1.1(tableaudedroite).10Bienquecesdeuxdernierstypesdeprotocolesoientlesplusinteressants,enraisondeleur puissanceintrins`eque (se referer auxouvrages sur les plans dexperiences dej` acites) etdunombredesujets requis, il nest parfois pas possibledeles utiliser. Par exemple, lorsquelonetudieleetduneconsignedanslareussite` auntest, il semblediciledereutiliserlesmemessujetspuisqueceux-ciseraient biaisesparleurpremi`ereexperienceaveclematerielexperimental.Commeonlevoit,lechoixdunprotocoleexperimentaldependdansunegrandemesuredutypedet achequelonsouhaiteadministrerlorsdelexperience.Dautrepart,lexperimentateursinteressesouvent` aletudeconjointedeplusieursfacteurs,do` ulanecessitedadaptercesschemas elementairesaucasdeplusieursvariables,commenousallonslevoirdansleparagraphesuivant.1.5 FormalisationdesplansdexperiencesDans la conception et lanalyse de plan dexperiences en psychologie experimentale, on utilisequelquefoisunformalismeparticulierintroduitpar[17]. Lesvariablessontreprisessousunelettreunique,lalettreS etantreserveeaufacteursujet.Lenombredemodalitesoudeniveauxestindiqueenindicedelalettredesignantlefacteur,etondecritlastructurationduprotocoleexperimental ` a laidede relationsk-aires de croisement et dembotement. Les relationspeuventetredetypebinaire(lorsquilnyaque2variablesmisesenrelation),ternaire,etc.Onditqueles variables sont croiseesentre elles lorsque toutes les modalites(ouniveaux) des variables sontpresentees` achaquesujet, tandisquil yaunerelationdembotementlorsquonintroduitunfacteur de groupe, cest-` a-direque seule une partie des sujets est soumis ` aun sous-ensemble desmodalitesdelavariable.Onessaieleplussouventdavoirdesplansditsequilibres,cest-` a-diredanslesquelsil yaautantdobservations, oudindividus, danschacundesgroupesintroduitsparlefacteurdembotement3.Sans entrer plus loin dans les details de ce formalisme, on parle de plansquasi-complets([17])lorsque(i)touslesfacteurscroisesdeux` adeux sontcroisesouembotes,etque(ii)lesfacteurscroises deux ` a deux sont croises dans leur ensemble. Enn, lorsque le facteur sujet est croise avecunouplusieursfacteurs,ilsagitdunplandemesuresrepetees.Par exemple, unplanclassiquedegroupes independantsaveckconditions(i.e. onabienkgroupesdobservationsindependantes)seramodeliseparlarelationdembotement:Sn/k,lefacteurS etantlefacteursujet,etlefacteurGunfacteurdegroupe,` a2modalites(Gest appele le facteur embotant, S le facteur embote). Il y anksujets dans chaque groupe, n desi-gnantlenombretotaldesujetsparticipant` alexperience.Alinverse,unprotocoledanslequeltouslessujetssontconfrontes` atouteslesmodalitesidelaoulesvariable(s)independante(s)implique une relation de croisement : SnTi ; cest le cas dans les protocoles utilisant des groupesappariesoudesmesuresrepetees. Danslecasprecisdemesuresrepeteesavecplusieursessaispartraitementoucondition, onindiquegeneralementlenombredessais` alaidedunfacteur3Cestuneconditionsusante,maispasnecessaire.11supplementaire,parexemplelefacteur essai Ej` ajrepetitions.Onpeutcombinercesdeuxrelations, commedanslecaso` ulona` alafois2facteursdegroupementdontlesdierentesmodalitesdes deux variablessont presentees exclusivement ` aune partie des sujets. La structuredes donnees devient alors Sn/(kk

)< GkG

k >. Enn, on peut egalement avoir un seul facteurdegroupe, etuneautrevariabledontlesmodalitessontpresentees` alensembledessujetsdechaquegroupe.LeplandevientSn/k< Gk> Ti(cf.tableau1.2).A2B3s1,s2,s3 s4,s5,s6s7,s8,s9 s10,s11,s12s13,s14,s15 s16,s17,s18A2B3s1,s2,s3 s1,s2,s3s4,s5,s6 s4,s5,s6s7,s8,s9 s7,s8,s9Tab. 1.2: ExemplesdallocationdessujetsdansdesplansdexperienceavecdeuxfacteursAetBembotants (gauche) S3< A2B3> , et un facteur dembotement B associe avec un facteur decroisement A(droite)S6< B3> A2.LesfacteursAetBont2et3modalites(ouniveaux),respectivement.Linteretdecetteplanicationestdepermettredunepartdoptimiserlenombredesujetsnecessairespourletudevisee, et, dautrepart,desassurerquelepartitionnementdessourcesdevariation,i.e.leetdes dierents facteurs experimentaux, pourra etrecorrectementanalyse.Enparticulier, la derivationduplandexperiencepermettradedeterminerlessourcesdevariationdelavariabledependante etudiee.Parexemple,dansuneexperienceo` ulonpresente` ades participants des deuxsexes dierentes series dimages decontenuemotionnel variable(3modalites: neutre, aversif, agreable), onsouhaiteetudierleetducontenuemotionnel desimagessurlesparticipantsenfonctiondeleursexe. LeplandexperienceseformaliserasouslaformeS B, AdesignantlefacteursexeetBlefacteurtypedimage. Lesfacteurselementairesseront ainsi A, B, S(A) (sil y a une relationdembotement, le facteur elementaireest accompagne duoudes facteurs embotant(s)). Les termes dinteractiondordre1serontderives ` a partir des relations de croisement, soit ici AB, BS(A) ; les termes dinteraction dordre2 seront derives du croisement des facteurs elementaires et des termes dinteraction dordre 1 (iciil nyenapas), etainsi desuitepourlesinteractionsdordresuperieur.Ainsi, danslexemplepropose,onretrouve5sourcesdevariationpotentielles.Denombreuxplans experimentauxsont possibles, et chacunposs`edeses specicites tech-niques, ainsi que ses avantages et ses inconvenients sur le plande lanalyse. Onpeut citerlexemple classique duplanencarre latin qui permet deventiler plusieurs facteurs avec unnombrelimitedesujets.Danscetypedeplan,onpeutcroisertroisfacteursdeux` adeux,sansjamaislescroiserdansleurensemble, commelillustreletableau1.3: chacundesfacteursa3modalites ; on croise 2 des facteurs ensemble, puis on ventile les modalites du dernier facteur parpermutationcirculairepourchacundescroisementsdesdeuxpremiersfacteurs.Undernier exemplede plan, qui gure parmi lesplus interessants dans le domainede lexpe-rimentation,etquiseradeveloppedans lapartierelative` alanalysedevariance(cf. 4.3,p.70),est le plan factoriel . Ce plan, comme le precedent, utilise un croisement entre plusieurs facteurs,12B3A3a1b1c1 a1b2c2 a1b3c3a2b1c2 a2b2c3 a2b3c1a3b1c3 a3b2c1 a3b3c2Tab. 1.3:Exempledeplanencarrelatin.cequipermetdediminuerlaquantitedesujetsrequisdansuneexperience.1.6 Quel logiciel utiliser ?Denombreusessolutionslogiciellessontproposees` alheureactuellesurlemarche.Pourenciterquelques-unesparmi lesplusconnues: Sas, Spss, Statistica, Systat, Minitab, Spad,Statview, R. . .(cf. C,p.123).Chacundeceslogicielsposs`edesesspecicitesetsesdomainesde predilectionpour lanalyse des donnees : Spadest par exemple specialise dans lanalysefactorielle, Minitabdanslanalysedevariance, etc. Certainslogiciels sontegalement derivesdesautres (e.g. Systatressemblefortement` a Spss). Dautres ont despossibilites beaucoupplus etenduesetconstituentdeveritablesplateformesdanalysestatistique,commecestlecaspour StatisticaouSpss ; desurcrot, certainslogicielssonttr`esmodulablesdanslamesureo` udes extensions peuventetreajoutees ` ala basedulogiciel: cest lecas de SasouR.Enn, undernier crit`ere est ladisponibilite oule tarif de ces plateformes : sil est possibledacquerir certains de ces logiciels ` ades tarifs relativement accessibles (Statistica, Spad),dautres necessitentun veritableinvestissement (Sas par exemple),et ne sont generalementpasdestines ` a un usage etudiant. A linverse, certains logicielssont proposes en version devaluationenti`erementfonctionnelle(casde Spssparexemple), ousontdisponiblesgratuitement: cestlecasdeR. Cettederni`eresolutionestsansdoutelaplusinteressanteetlaplusavantageuse.Restsanscontestelundeslogicielslesplusprometteurs` alheureactuelledanslamesureo` usondeveloppement beneciedunecommunautegrandissantedecontributeurs issus ` alafoisdudomainedelarecherche, maisegalementdelacommunautedesstatisticiens. Parailleurs,ilsav`eretr`esutiletantsurleplandelanalyse, avecsesalgorithmestr`esperformants,quedupointdevuedesasouplesseetdeson elegancepourlessortiesgraphiques4.4Lensembledesgraphiquesgurantdanscedocumentont eterealisessousR.132 Analysedescriptive2.1 ObjetdelanalysedescriptiveLobjectif de lanalyse descriptive est de resumer la masse dinformations numeriques accumu-leesdanslecorpusdedonneesenunensemblesynthetiquedindicateursdescriptifs,etdorirunerepresentationgraphiquedes resultats qui permettedevoir rapidementleursprincipalescaracteristiques.Lesindicateursdescriptifslesplusutilisessont: lesindicateursdetendancecentrale,oudeposition(cf. 2.4.1), lesindicateursdedispersion,oudevariabilite(cf. 2.4.2), lesindicateursportantsurlaformedeladistributiondesobservations(cf. 2.4.3).Certainesetapesdecodageouderecodagedesdonneespeuventetreentreprisesauprealableandefaciliterletraitementdesdonneesetproduirelesinformationslespluspertinentes.Lensemble de ces etapes doit permettre ` a terme de situer un individu ou un echantillon parmilegroupeoulapopulationdereferencedanslecasdesdonneesunivariees,oudecomparerdesdistributionsdeectifs oudes observations danslecas dedonnees bivariees. Unprincipedebase ` a garder present ` a lesprit lors de lanalyse des donnees est de toujours proceder ` a lanalyseunivarieeavantlanalysebivarieeoumultivariee.2.2 Codageetrecodagedesdonnees2.2.1 Recueil etcodagedesdonneesLerecueil dedonneesconsisteenlarecuperationdesdonnees, sousformeinformatiqueleplussouvent, aucoursou` alasuitedelexperimentation. Selonletypedeprotocole(groupesindependants ou non, mesures repetees) et le nombre de variables etudiees, la quantite de donneespeutetrerelativementimportante. Pourmener` abienlesanalyses, il estsouventpratiquedecoderlesvariablesetlesindividus ` alaidedesymboles univoques (e.g.SEXE pour une variablequi serait lesexedusujet, DUREEpourunfacteur qui serait ladureedepresentationdunstimulus` alecran, S1ouI1pourlesujet/individuno1, etc.): lideeestdetrouverdesnomssusamment explicites pour que lon sache de quelle variable il sagit, et surtout deviter davoirdes noms devariables troplongs. Dautre part, il sav`ereegalement commode dutiliser soitdesvariablesindicatrices, cest-` a-diredesvariablesbooleennesvalant1lorsquelamodaliteestpresente et 0 sinon, soit des variables prenant pour modalites des valeurs enti`eres pour les niveauxdunfacteur, plut otquedeconserverlenomdesmodalites. Parexemple, si lonaunfacteur tempsdepresentation(dustimulusvisuel)` a3niveaux150, 250, 500ms, onpourrachoisirdelecodercomme:facteurTEMPS` a3niveaux(1:150,2:250et3:500ms).14Cetype decodage des variables et des individus seratr`es utile lors delaproductiondetableaux de resumes numeriques ou de graphiques illustratifs pendant la phase initiale danalysedesdonnees,maissurtoutlorsdutraitementdesdonneesdansunlogiciel statistiquecommerouStatistica. Eneet, laplupartdeslogiciels statistiquesutilisentegalementdesvariablesnommees, pour distinguer les observations issues duneconditionde celles liees ` auneautrecondition.Ilnefautpasoublier egalementlecasdesdonneesmanquantes,cest-` a-direlesobservationsqui nontpuetrerecueillies, soitpourdesraisonsmateriellessoitpourdescontraintesexperi-mentales (sujet absent, probl`eme denregistrement informatique, etc.).Il peut saverer judicieuxde coder ces valeurs manquantes ` a laide de symboles speciques qui permettront deviterde lestraitercommelesautres.Onpeutparexemplelescoderparlavaleur 99,oupartouteautrevaleurquinesoitpasliee` alavariabledependante.Oneviteraainsidecoderpar0lesvaleursmanquantesdanslecas o` ulavariablemesureeest par exempleunnombreditems resolus:cettevaleurappartientaudomainededenitiondelavariableetpourraitinuencerlescalculssubsequents (mediane,moyenne,etc.).2.2.2 RecodagepardiscretisationetderivationDautre part, les donnees sont souvent recodees pour les besoins de lanalyse. Cest le caspar exemple des reponses issues de questionnaires, ou plus generalement des variables qualitativesordinales. Danslecasparexempleo` ulonadierentesmodalitesdunevariableordinale, quisontordonneescommesuit: naimepas, aimepeu, aimemoyennement, aimeunpeu , aime beaucoup , on peut preferer les recoder en valeurs numeriques discr`etes de type :1, 2, 3, 4, 5. De meme, on peut eectuer linverse et passer de variables de type numerique ` a desvariables qualitatives (ordinales) en eectuant un regroupement par classes. Cest par exemple lecas, dans les analyses denquetes et de sondages, des variables de type age, qui sont des variablesnumeriques de rapport, etquelonpref`ere parfois traiterenclasses(e.g.laclassedes 20-25ans,celledes 26-30ans, etc.),car ce type de partitionapporte plus dinformations : on nattend, parexemple,pas de dierencesnotables entre les20-21ans ; enrevanche, onade bonnes raisons depenserquilyadesdierencesentrelespersonnes ageesde20ansetcelles ageesde28ans.Les donnees peuvent egalement etre recodees au cours de lanalyse, en derivantles valeursobservees : par exemple, ` apartir de deuxseries de scores obtenus lors de tests, onpourraetablirunenouvellevariablenumeriquequi estladierence(signee)desdeuxscores. Cetypederecodage nest pas limite ` aladerivationpar soustraction: onpeut egalement deriver leprotocole par moyennage (somme des scores divisee par le nombre de groupes), ou par dierenceabsolue(valeurabsoluedeladierencedesscoresdechaquegroupe). Enn,onpeuteectuerdes derivations par restriction, en se limitant ` a letude dun seul facteur lorsquil y en a plusieurs.152.2.3 RecodagepartransformationEnn, il estsouventutiledenormaliser(onditegalement standardiser)lesdonnees, ` alaidedunetransformationcentree-reduite1.Celle-ci consistesimplement` acentrerlesdonneesxiparrapport` aleurmoyenne x,et` alesreduireparrapport` alecart-typex:xi zi=xi xxLesscoresainsiobtenussexprimentalorsenpointsdecart-typeparrapport` alamoyenne,i.e.ondiradunsujetayantunscorez= +1, 61quilestsitue` a1,61pointsdecart-typeau-dessusde lamoyenne. Cecipermet bien evidemment de comparer des sujets issus de dierents groupesheterog`enesnayantpasforcementlesmemesmoyennesdegroupe.Dautrestransformationssontegalementfrequemmentutilisees: latransformationenloga-rithme(x x

=log(x)) ouenracinecarree(x x

= x). Cetypedetransformationageneralement pour but dattenuer les variations delavarianceenfonctiondes valeurs delamoyenne. Comme on le verra dans la partie relative ` a lanalyse inferentielle (cf. chapitres3 et 4),lespostulats debase des procedures de testconcernent ladistribution normale des observations(oudesresidus), ainsi quelhomogeneitedesvariances(homoscedasticite) entreles dierentsniveauxdunfacteur.2.3 Donneesnumeriquesetrepresentationsgraphiques2.3.1 DonneesnumeriquesettypedevariableSelonle type de variable consideree, onnutiliserapas forcement les memes formatsnumeriques pour la presentation des donnees. Par exemple, lorsque lon travaille sur des variablesqualitatives, il estfrequentdutiliserunedistributiondeectifs, qui pourrasexprimersoitenunitesdindividus,enfrequenceouenpourcentage.Pourlesvariablesquantitatives,onpourraprefererrepresenterlesvaleursobservees(i.e.distributiondesobservationsnumeriques).Enguisedillustration,onpeutconsidererlesdeuxexemplessuivants:1. Dans une enquete eectuee au sein dune promotion detudiants, on a releve les reponses ` aun questionnaire ` a choix multiples comportant 10questions portant sur leurs etudes ante-rieures, la situation professionnelle de leurs parents, leur interet general dans les discplinesenseignees,etc.2. Dans une experience de perception visuelle portant sur 20 sujets, on a releve leurs temps dereaction` alapparitiondunstimulus` alecranselondierentesconditionsdepresentationdelacible.1On trouve egalement lappellationscoresZ dans la litterature anglo-saxonne,du nom de la loide distributioncentree-reduitequiestuneloinormaledemoyennenulleetdecart-type1(cf. 3.2.1).16Danslepremiercas, lesquestionsduquestionnairesontassimilees` adesvariablesqualitatives(il sagit dunQ.C.M., onnedemandepasdereponsenumerique), et lesreponsesproposeesconstituent les dierentes modalitesde la variableconsidere. Dans ce cas,onpourra representerlafrequencerelativedesreponsesenfonctiondesmodalitesdelavariable:ilsagitalorsdunerepresentationdeseectifsouindividus.Danslesecondcas,cesontapriorilesvaleursqueprendlavariabledependanteenfonctiondesdierentsniveauxdufacteur presentationquisontlesplusinteressantes,etcelle-ci estunevariablenumeriquederapport, continue. Onauradoncunedistributiondesobservations(i.e. desvaleursobservees), qui pourraetreresumee` alaidedesmoyennesetecarts-typeparcondition.2.3.2 RepresentationsnumeriquesVariablequantitativediscr`eteLexempleclassiquedevariablequantitativediscr`eteestl agelorsquecelui-ci estarrondi ` alannee. Si londisposedunensembledobservationsdecetype, onlesorganisegeneralementsouslaformeduntableaudanslequel chaqueligneicorrespond` aunevaleurobservee, etonutilisedierentesrepresentationsdesdonneesencolonnes2: leseectifsni(i.e.lenombredefoiso` ulavaleurxia eteobservee) ; leseectifscumulesNi(onrajoute` achaqueligneleseectifsprecedents) ; lesfrequencesfi(i.e.leseectifsrapportes` aleectiftotal) ; lesfrequencescumuleesFi.Lusagedesfrequencespeutsavererutilelorsqueleectiftotalestimportant.VariablequantitativecontinueUnexempletypiquededonneesnumeriquescontinuesestuntempsdereactionexprimeenmillisecondes. La presentation des donnees suit le meme principe que dans le cas precedent, maislon peut utiliser des classespour regrouper les valeurs. Une classe sera denie par son amplitudedelimiteepardeuxbornes(inferieureetsuperieure),etsoncentre(milieudelintervalledenipar les bornes). Lorsquelamplitude des classes nest pas systematiquement lameme, il estpreferabledutiliserladensiteplut otqueleseectifs. Ladensiteestsimplementleectif delaclasserapporte` alamplitudedecelle-ci.Delasorte,leseectifsparclassessont normalisesetcomparablesentreeux.2Onpeutbienentenduintervertirlordredepresentationdesdonneeslignescolonnes172.3.3 RepresentationsgraphiquesUneoudeuxvariablesnumeriquesLorsquelonsouhaiterepresenterleseectifsobservessuruneseulevariablenumerique,onutilisera les diagrammesen b atonnets, pour une variable ` a valeurs discr`etes (cf. gure2.1, en bas` agauche),ouleshistogrammes,pourlesvariablescontinuesdontlesvaleursont eteregroupeesenclasses (cf. gure 2.1, enhaut ` agauche). Dans ce dernier cas, onprendragarde aufaitquesi lintervalle (oulalargeur) declasse nest pas constant, il est plus judicieuxdutiliserladensitequeleectif enordonnees. Cependant, laqualitedelestimationdunedistributionaumoyendunhistogrammeestfortementdependantedudecoupageenclasse(amplitudeetnombredeclasses) : si lonutilisedes classes damplitudetropimportante, onneverrapascertainsdetailscaracteristiquesdeladistributiondeseectifsouobservations,alorsquesilonutiliseunepartitiontropneonrisquedevoirapparatretropdedistorsions. Il yadoncuncompromis` atrouver,etdautressolutionsonteteproposees,commelutilisationdesmethodesdestimationfonctionnelle qui utilisentunparam`etredelissageavecdesfonctionsconstruitespointparpoint(noyaux)oudesbasesdefonctionsplines.Les graphes les plus souvent associes ` ala relationentre deuxvariables numeriques sontlesgraphes bivaries, lespointsgurantdanslegraphiqueayantpourcoordonneeslesvaleursrespectivesdesdeuxvariables.Remarque. Lorsquelenombredevariablesquantitativesdevientpluseleve(e.g. 5-10), desrepresentations speciques liees aux methodes danalyse factoriellesont couramment employees.Il sagit ici, dans le cas de variables numeriques, dugraphe des correlations et des graphesfactorielsdelAnalyseenComposantesPrincipales(A.C.P.).UneoudeuxvariablesqualitativesDanslecasduneoudedeuxvariable(s)qualitative(s), onpourrautiliserunouplusieursdiagrammesenbarres, encolonnesoucirculaires(i.e. camemberts, cf. gure2.1, enbas` adroite).Remarque. Danslecasdeplusieursvariablesqualitativesoudedeuxvariablesqualitativespossedantdenombreusesmodalites(e.g. 4), onutilisegeneralementlesmethodesfactorielles,commelAnalyseFactorielle des Correspondances (A.F.C.), qui permettent derepresenter ledegredeliaisonentrelesdeuxvariablesaumoyendungrapheplanpossedantunemetrique,commepourlegraphefactoriel delA.C.P. : ladistanceentrelespointstraduitgeneralementlintensite de lassociation (plus les individus sont eloignes, moins ils ont tendance ` a etre associes).18Fig. 2.1: Exemplesderepresentationsgraphiques. Enhaut: ` agauche, distributiondeectifs enfrequencesousformedhistogramme ; ` adroite, bote` amoustachespourlesdeuxmodalitesdunevariablequalitative. Enbas: ` agauche, diagrammeenbarredeladistributionbinomialedepara-m`etrep=0.33;` adroite,diagrammecirculaire(camembert)pourunevariablequalitativeordinale` a4modalites.(Donneestireesde[24])UnevariablequantitativeetunevariablequalitativeSuivantlenombredemodalitesdelavariablequalitative,onpourrautiliserdesrepresenta-tionssousformedediagrammesenbarresoucirculaires.Ilyenauraevidemmentautantquil19y a de modalites.Un autre graphe tr`es courant est labote` a moustaches (cf.gure2.1,enhaut` adroite), dans laquelle sont resumees les informations detendancecentrale (mediane et/oumoyenne)etdedispersion(intervalleinter-quartileouecart-type, etvaleursextremes). Cettederni`ererepresentationpresentelavantagedenenecessiterquunseulgraphe(lesmodalitesdelavariablequalitative etantrepresenteesenabscisses),etderesumer lensembledesindicateursdescriptifsservant` acaracteriserladistribution.2.4 IndicateursdescriptifsLorsquil sagitde resumer linformationcontenue dans les donnees recueillies,les principauxindicateursnumeriquesutilisessontlesindicateursdetendancecentrale, oudeposition, etlesindicateursdedispersion, oudevariabilite. Selonlanaturedelavariableconsideree, certainsdentreeuxsontplusappropriesquedautres,commenousallonslevoir.Cesdeuxindicateurspermettentdindiquercommentsecomportentlesobservations, en moyenne, etcommentcelles-cisedistribuent parrapport` acettevaleurcentrale.Onyadjointsouventune etudeplusne de la distribution des observations, qui permet de preciser la repartition des observations oueectifsauxextremitesdudomainedevariation(valeursfaiblesetelevees, valeursextremes),ainsiquelhomogeneitedelarepartitionparrapport` alavaleurmoyenne(valeurscentrales).2.4.1 TendancecentraleSelonletypededonneesrecueillies,dierentsindicateursdetendancecentralepeuvent etreutilises.Ilestclairquutiliserunemoyennearithmetiquesurdesvariablesqualitativesnauraitaucunsens(e.g.unevariabledetypecouleurdesyeux).ModeDanslecasdevariablesqualitativesnominales, parexemplelacouleurdescheveuxavec3modalitesblond, brun,roux, lemodeestlindiceleplusutile: il indiquelamodalitelaplusobservee, i.e. lavaleuroulaclasse(onparlealorsdeclassemodale)pourlaquelleleplusgrandnombredobservationsaeteobserve. Il estutilisableegalementdanslecasdevariablesnumeriques.MedianeetquantilageUtile ` a la fois pour les donnees qualitatives ordonnees (i.e. variables ordinales) et pour les don-neesquantitativesdiscr`etes,lamedianeestlavaleurquipartageleectifendeuxsous-eectifsegaux, i.e. 50%desobservationssetrouventdechaquec otedelavaleurmediane. Lavantage20delamedianeestquelleestrelativementpeusensibleauxvaleursextremes, etdemeuredonclindicateurdepositionleplusd`eledeladistributiondesobservations.Lemodedecalculap-prochedelamedianesefaitdemani`ereassezrapideencherchantlerangmedian(n/2danslecasdunnombre pairdobservations,n/2 +1/2danslecasdunnombre impair dobservations)auniveau des eectifscumules. Dans le cas des donnees continues, par interpolationlineaire,onpeut egalementcalculerunevaleurplusprecisedelamediane,` alaidedelaformulesuivante:xmed= x

med +_(n2 Nmed1)nmedh_avec x

meddesignant la limite inferieure de la classe mediane, Nmed1leectif cumule de la classeprecedantlaclassemediane,nmedleectifdelaclassemediane,ethlintervalledeclasse.MoyennesDans le cas de variables numeriques continues, on utilisera preferentiellement la moyenne, quiindique lecentredegravitedelensembledesvaleursobserveespourlavariable.Contrairementauxdeuxindicateurs depositionprecedents, il sagit bienl` adunevaleur dequantication,exprimeedanslamemeunitedemesurequelesvariablesobservees.Dans le cas dune moyenneequiponderee (i.e. tous les individus ont le meme poids), lamoyenne arithmetiqueestsimplement lasommedes valeursobserveesdiviseepar leectiftotaln: x =1nn

i=1xiLorsquedespoidspi(avecpi=ni/n>0)onteteattribuesauxindividus,il sutjustedepondererlamoyenne: x =n

i=1pixiavec,engeneral, ipi= 1.Contrairement ` a la mediane, la moyenne arithmetique est inuencee par les valeurs extremes,notammentdanslecasdepetitsechantillonsetlorsquelesdonneessontequipondereesouquelesvaleursextremesposs`edentdespoidsplusimportantsquelesvaleurscentrales.Onnoteraquedautres types demoyennepeuventetrecalcules, commelamoyennegeo-metrique(pourdesdonneessurdesrendements, oupourcentages)oulamoyenneharmonique(pour des donnees de variations temporelles, de type vitesse), mais la moyenne arithmetique de-meure lindicateur le plus adequat pour la majorite des donnees numeriques issues dun protocoleexperimental.212.4.2 DispersionEtendueLetendue estsimplement lecartseparant laplus petitevaleurobservee delalaplus grande,i.e. xmaxxmin. Cette valeur est utile pour caracteriser la variable mesuree, mais demeure natu-rellementsensibleauxvaleursextremes,etnere`eteparconsequentpasladispersionmoyennedesvaleursobserveesautourdunevaleurcentrale.Intervalleinter-quantilesDanslecasdesvariablesqualitatives, lamoyennenaaucunsens, pasplusquesesindica-teursdedispersionassociesvariance,ecart-type(cf. infra). Pourassocierunemesurededispersion` alavaleurcentraleindiquee par lamediane,onutiliselintervalleinter-quantile(IQ)qui representelintervalleincluantlamedianeetdanslequel sesituent50%desobservations.Lorsquonutilisedesquartiles, cestsimplementladierenceentreletroisi`emeetledeuxi`emequartile, i.e. IQ=Q3 Q2(pour des centiles, onaurait IQ=C75 C25). Rappellons quelavaleurdupremierquartileesttelleque25%desobservationssontsitueesavantelle, etdemani`eregenerale,onalarelation:P(x < x0) = q,x0designantlavaleurdufractilerechercheetqlaproportioncorrespondante(danslecasprecedent, q=0.25etx0estlavaleurdeQ1).LexamendelapositiondelamedianeparrapportauxbornesdelIQ(Q1etQ3,parexemple)permetdidentierles eventuellesasymetriesdansladistributiondeseectifs(cf.gure2.3).Ecarts`alamoyenneIl est possible de situer les observations par rapport ` a leur valeur moyenne ` a laidedes ecartssignes(xi x)etabsolus |xi x|.Lespremiers permettentdindiquer enoutre lapositionde lavariable observee par rapport ` a la moyenne (cf. gure 2.2), tandis que les seconds nindiquent quelampleurdelecart` alamoyenne.Maisonpeututilisercesdernierspour evaluerla distancemoyenne` alamoyenne,cest-` a-direlecartabsolumoyen(EAM):EAM=1nn

i=1|xi x|Varianceetecart-typeSilamoyenne re`etebienlavaleurcentraledunedistribution(sousreservequilnyaitpastropdevaleursextremes, cf. supra), ellenerenseignepassurladistributiondesobservationsautourdecettevaleurcentrale. Unexempleclassiqueestlecasdessalaires: soit10individus22Fig. 2.2:Representation schematiquedes ecarts` alamoyennepourunensembledobservations xi.Lamoyenne xestgureeparletraitvertical.dune societe,dont lessalairesrespectifs (eneuros) sont 3 100,2 500,2 800,3 200,4 000,2 500,3 000, 2 700, 3 000, 2 900, et 10 autres individus dune autre societe,dont les salaires sont 1 800,2 000, 1 900, 4 500, 6 000, 5 000, 1 600, 2 400, 2 500, 2 000 (tire de [4], p. 12). Si le salaire moyendeces deuxgroupes dindividusest identique(2 970euros), il est clair queles salaires dansladeuxi`emesocietesontbeaucoupplus variables, ou dispersesautour deleur valeurmoyenne,queceuxdelapremi`eresociete.Variance. Lavariancemesure ladispersiondes valeursobserveesautour delamoyenne. Plusprecisemment, la variance est la moyenne quadratique des ecarts ` a la moyenne, et sexprime souslaforme:V (x) =1nn

i=1(xi x)2encoreunefoisensupposantlequiponderationdesmesures(sinonadapterlaformuleavecdespoidspi).Contrairement` alaplupartdesindicesdescriptifs,lavariancenesexprimepasdanslunite de mesure, et est plus dicile ` ainterpreter par rapport auxdonnees observees. Enrevanche, elle presentecertaines proprietes interessantes enanalysede donnees. Elle permetdequantierla distancecarreemoyenne` alamoyenneenprenantlesecarts` alamoyenneelevesaucarre:lesecartssontainsisanssigne(commelEAM),eteleves` alapuissancedeux,quidonneplus dimportanceauxgrands ecarts(envertudesproprietesdelafonctionx x2).On pourra egalementutiliser la formule de calcul un peu plus pratique : V (x) =1n

i(xi)2 x2.Variancecorrigee. La variance corrigee, notee s2x et utilisee dans les procedures inferentielles,estcalculeedelamememani`eremaisledenominateurestalorsn 1. Ceci sejustieparlefaitquelonpeutmontrerquelavariancestandard(variancedelechantillondetaillen), ` aladierence de la moyenne3, est un mauvais estimateur de la variance de population, et lon enl`eve3sousreserve,commeonlavuquilnyatpastropdevaleursextremes23parconsequentundegredeliberteaudenominateur4.Commeonleverradanslapartierelative` alanalyseinferentielle(enparticulier danslesproceduresdanalysedevariance,cf. 4.2,4.3), onutiliseraalternativementcettenotationpourlavariance,etlesecartsquadratiques` alamoyenne(i.e.lenumerateur)associesauxdegresdeliberte(i.e.ledenominateur).Ilesteneetsouventpluscommodedetravailleraveclasommedes ecarts quadratiques ` a la moyenne, que lon retrouve souvent sous le terme SC ou SCE (sommedescarresdes ecarts)5,lorsquelonsinteresse` aladecompositiondessourcesdevariabilite(cf.4.2). Lesdegresdelibertes(dl), liesaunombredobservationsconsidere, sontprisencompteensuitedanslesexpressionsutilisantlesSC, etpermettentdeformerlesCM, ouCME(carremoyendes ecarts6),quireviennent` alexpressioninitialedelavariancecorrigee.Ecart-type. Lecart-type (x)7est simplement la racine carree de la variance et sexprime danslameme unite que lavariable mesuree. Dememe que lamoyenne, lecart-typeestlui aussi dansunecertainemesuresensibleauxvaleursextremes,contrairement` alintervalleinter-quartile.Ecart-type corrige. A limage de la variance corrigee, dans les procedures ` a visee inferentielle,onutiliseradepreferencelecart-typecorrigesx, qui estcalculeavecundenominateuregal ` an 1etquiestunestimateurnonbiaisedelecart-typedepopulation.CoecientdevariationOnutiliseegalementunautreindicateurdedispersionrelative, sansdimension, semblable` alecart-typemais ponderepar lamoyenne: lecoecient devariation. Il indiqueenfait lepourcentagedelavaleurmoyennequerepresentelecart-type.Ilsedenitsommesuit:cvx=x x100Il estnotammentutiledanslecaso` ulonsouhaitecomparerdeuxgroupesdobservations,4Oncorrigeenfaitlatendance` asous-estimerlavariancedepopulation` apartirdepetitsechantillons. Enfait, onpeutmontrerquelavariancecorrigeeestunestimateursansbiaisdelavariancecorrigeeparente, danslecasdunepopulationdetailleinnie. Il est` anoterquelaplupartdescalculatricescalculentpardefautunevariancenon-corrigee(variancedepopulation), tandisqueleslogicielscalculentunevariancecorrigee(variancedechantillon),commeparexempleExcel, Statistica,ouR.5letermecorrespondantdanslalitteratureanglo-saxoneestSS6letermecorrespondantdanslalitteratureanglo-saxoneestMS7Lutilisationdes notations encaract`ere grec est generalement reservee auxparam`etres de population, etlonpeut trouver des notations comme etypour lecart-type. Nous utliserons neanmoins lanotation(x)pourdesignerlecart-type(noncorrige)desobservationsindividuelles. Enfait, onpeutconsidererque, danslecadredelanalysedescriptive, onsecontentededecrireladistributiondesobservationsquelonassimile` aunepopulation,puisquilnyapasdeviseeinferentielle ;aucontraire, danslecadredesproceduresinferentielles, ontentedestimerlesvraisparam`etresdepopulation` alaidedunechantillon, etloncorrigeenconsequencelesindicateursdedispersionutilisespourlestimation.24dontlesmoyennessontsensiblementdierentesoudontlunitedemesurenestpas equivalente(e.g. comparer des mesures thermiques eectuees en France, enC, et dans les pays anglosaxons,en F, sans utiliser laconversion CF, oucomparer les performances globales de deuxgroupesdesujetsdichotomisesselonleurniveaudeQI).ExempledapplicationILes notes obtenues par 36 el`eves dans trois classes dierentes ont ete re-levees an de comparer lhomogeneite des syst`emes de notation (Source :donneesctives).Lagure2.3illustrelinuencedeladistributiondesvaleursobservees(ici, deseectifs)surlesdierentstypesdindicateursdepositionetdedispersion.Onare-presentelesnotesobtenuespar36el`evesdans3classes(chaquenotecorrespond` aunpointsurlegraphique,les el`evesayantobtenuunenoteidentique etant super-poses verticalement). Les trois distributions poss`edent une etendue identique de 15points (min=4/20, max=19/20) et des moyennes comparables (de haut en bas, 11.03,10.94et11.06,gureesentraitcontinu decouleur rouge).Les medianes(gurees entrait continudecouleur bleue) sontegalement relativement alignees sur lamemevaleur(10.0, 10.5et10.5respectivement, cf. tableau2.4.2). Parconsequent, dunepart, ces trois distributions ne peuvent etre dierenciees ` a partir des seuls indicateursdetendance centrale,et,dautre part,cesindicateurs de positionnerenseignent passurladistributiondesvaleursobserveesparrapport` aleursvaleursrespectives.xminQ1Q2Q3IQ xmax x xclasse1 4 8.75 10.00 14.00 5.25 19 11.03 3.77classe2 4 9.00 10.50 13.00 4 19 10.94 2.88classe3 4 6.75 10.50 15.25 8.5 19 11.06 4.75Tab.2.1:Resumes numeriques des notes de3 classes de36 el`eves (Q2= mediane, IQ =intervalleinter-quartile).Si lon regarde les indicateurs de dispersion intervalle inter-quartile (gure pardestirets bleusurlagure2.3) etecart-type(gurepar destiretsrouge) (cf.egalementtableau2.4.2), onconstateenrevanchequeceux-ci di`erententreles3classes.Lecart-typeestleplusimportantpourlaclasse3(3= 4.75,gure2.3,enbas), et le plus faible pour la classe 2 (3= 2.88, gure 2.3, milieu). Il en va de memede lintervalle inter-quartile : celui-ci est plus important pour la classe 3, puis pour lesclasses 1 et 2 (IQ1= 5.25, IQ2= 4, IQ3= 8.5). Letendue de la moitie des notes (i.e.18) autour de la valeur centrale est par consequent beaucoup plus importante pour laclasse3.Cesdeuxindicateursdedispersion ecart-typeetintervalleinter-quartilevontdans lememesensetsoulignentlheterogeneiteplus importantedelaclasse3 ; neanmoins, ce sont des indicateurs globaux de dispersion, et ils ne renseignent25Fig.2.3:Distributions univariees deectifs (notes de 36 el`eves pour 3 classes). En rougesontrepresenteeslamoyenne(traitcontinu) sonecart-type(tirets),etenbleulame-diane(traitcontinu),ainsiquelepremierettroisi`emequartile(tirets).passur ledegrede symetriedeladistributiondes notesautour delavaleurcentrale(moyenne ou mediane puisquici elles sont assez proches) qui pourrait expliquer cettevariabilite.On pourrait pour celasinteresser aux ecarts` ala moyenne, mais onpeutegalement utiliser le positionnement des premier (Q1) et troisi`eme (Q3) quartilespoursavoircommentserepartissentlesobservations.Onconstateainsiquepourlaclasse2, Q1est plusprochedelamedianequeQ3: 25%desnotessontdanslatranche 9-10.5,et 25 % dans la tranche 10.5-13,ce qui traduit une relative asymetrie26dansladistributiondesnotes. Il envadememepourlaclasse1qui presenteelleaussi un prol asymetrique (|Q2Q1| < |Q3Q2|). On retrouve cette asymetrie danslagure2.3, contrairement` alaclasse3pourlaquellelesnotesserepartissentplusuniformement de part et dautre des valeurs centrales. Ainsi, bien que la distributiondesnotesdelaclasse2soitlaplus ressereeautourdesvaleurscentrales, cestegalementuneclassequipresenteuneleg`ereasymetrie.Enconclusion, si lesnotationsmoyennes, ainsi quelesnoteslesplusbassesetlesplushautes, semblentcomparablespourcestroisclasses, onnotecependantlapresencedunevariabiliteplusimportantedanslaclasse3, etuneleg`ereasymetrienegativedesnotesdanslesclasses1et2.2.4.3 FormedeladistributiondesobservationsComparaisondesindicateursdetendancecentraleLorsquelestroisindicateursdepositionmode, medianeetmoyennesont` apeupr`es alignessurlamemevaleuroulamemeclasse, celaindiquegeneralementunedistributionrelativement symetrique des observations (cf.gure2.4).Le cas echeant, celasigne une certaineasymetriedeladistribution(cf.gure2.3).Danscecas,lamediane etanttoujourssitueeentrelemodeet lamoyenne(lorsqueladistributionest unimodaleuniquement), lapositiondelamoyenne par rapport au mode permet de determiner le sens de lasymetrie : lorsque lon a mode16%).11Onappelle variable de confusion ce type de variable qui a tendance ` a annuler ouaccentuer la relationstatistiqueentredeuxvariables.32Fig. 2.6:Exemplesdecorrelation. (Adaptede[9],p.160)Liaisonentre1variablequalitativeet1variablequantitativeEnpresencedunevariablenumeriqueet dunevariablequalitative(e.g. variabledegrou-pement), onpeutestimerlapartdevarianceexpliqueeparlapriseencomptedelavariablequalitativedans lavariabiliteobserveedesscores.Lindice2( etacarre)estcalculecommelesimplerapportentrelavarianceentrelesgroupes(varianceinter)etlavariance` alinterieurdesgroupes(varianceintra):2=VinterVintra33Lavarianceinter correspondenfait` alavariancedesmoyennes degroupe.Lavarianceintracorrespond ` a la moyenne des variances ` a linterieur des groupes. Si onprend lexemplede scoresobserves chez des enfants classes selon 3 groupes d age, on peut calculer la part de variance entrelesscoresquiestexpliqueeparlapriseencomptedufacteurdegroupe.Crit`eres de decision. Les crit`eres de decisionsont les memes que pour le coecient dedeterminationR2: 0 2< 0.04:2faible,lapartdevarianceexpliqueeparlavariablepeut etreconsidereecommenegligeable ; 0.04 2 0.16:2intermediaire,lapartdevarianceexpliqueeparlavariablepeut etreconsidereecommeintermediaire ; 2> 0.16: 2important, lapart de varianceexpliqueepar lavariable peut etre considereecommeimportante(>16%).343 Analyseinferentielle3.1 Deladescription`alinference3.1.1 Schemageneral delademarcheinferentielleLadescriptiondesdonneesrecueillieslorsduneexperimentation(ouissuesdunedemarchedobservation) aetedecritedans lechapitreprecedent. Unequestionquelonpeut seposerest: peut-ongeneraliser lesresultatsobservessurlechantillonetudie` alapopulationparentedont ilestissu1,etqueforcementnous navons pasobservee ?Endautrestermes,oncherche ` ainfererau niveau de la population parente des resultats observes, e.g. leet dun facteur (ou unecaracteristiqueparticuli`eredeladistributiondesobservations),surun echantillonrepresentatifdecettepopulation.Par exemple, si nousavonsobservequungroupede20personnespresentedesscores, enmoyenne, pluseleves (e.g. 2points sur 20) quunautregroupedememetaille, peut-ondirequil eniradememe, enmoyenne, pour tous les individus presentant les memes caracteris-tiques, cest-` a-direque, auniveaudespopulationsparentes(i.e. lensembledesindividus), lesindividussimilaires` aceuxdupremiergroupereussissentenmoyennemieuxquelesindividussimilaires` aceuxdudeuxi`emegroupe.Lescaracteristiquesdistinguantlesdeuxgroupesdindi-viduspeuventetrevariees( age, sexe, niveaudaptitudedanstelleactivite, traitementassocie,etc.),maisconstituentunfacteurdeclassication:silonsinteresse` aleetdusexedelindi-vidusurlesperformancesmesurees,onauraapriorideuxpopulationsquisedistinguentparlefacteur sexe.Danslademarcheduchercheur, lobservationauniveaudelechantillondunedierenceentermesdeperformances(les20sujetsdesexefemininontmieuxreussiqueles20autres sujets de sexe masculin), cest-` a-diredun eetdu facteur sexe quantie par les indi-cateurs appropries (cf.2.5.1, p. 30), sera ainsi souvent accompagnee de la question de lexistencedunedierencesignicativedeperformancesentrelesfemmesetleshommesauniveaudelapopulationparente(onparleradeet parent) ` alaquelleonrepondrapar untest dinferencestatistiqueapproprie, et une estimationprobabiliste du domaine de variationde ceteet parentaumoyenduneproceduredequanticationadaptee.3.1.2 FormalisationOncherche enfait ` a decrire les param`etres de la population parente ` a laide dunsous-ensemble decettepopulation,lechantillon.Cesparam`etres depopulationsontestimes` apartir1Onrappelleque lechantillona eteselectionnegr ace` aune methodedechantillonnagealeatoiredans lapopu-lationparente(oulapopulationdereference).35desindicateursdescriptifs,quiconstituentcequelonappelledesstatistiques2.Commeonlavudanslechapitreprecedent(cf. 2.4.1, p.21,et2.4.2,p.22),lesindicateursdepositioncomme lamoyenneet les indicateurs dedispersionvariance et ecart-type sontutilisespour decrirelesobservationsdun echantillontiredune populationplus vaste,nonobservee(lapopulationparente). Danslademarcheinferentielle, onutilisedoncdepreferencecetypedindicateursdechantillon(etlesproprietescaracteristiquesdeleursdistributions), ` alinstardelademarchedescriptiveo` ulontravailleplut otsurlesobservations.Mais,ilestbienentendupossibledetravailleravecdautresstatistiques, commelesproportions, lesmedianes,lescoecientsdecorrelation,etc.Lors de lanalysedescriptive, onsituaitvolontiers un individu parmi ladistribution (connue)deseectifs,ouuneobservationparmilensembledesvaleursobserveesdelavariablequantita-tive mesuree (cf. egalement3.2.2, p. 40). Ici, on sinteresse toujours aux distributions, mais cettefois-ci on travaillera sur les distributions parentes (la plupart du temps inconnues) : ce nest plusuneobservationquelonvatenterdesituerdansladistributiondesobservations(echantillon),maisunemoyennedechantillon, i.e. unestatistique, dansladistributionparenteestimee. Onneraisonneraalorsplusentermesdeectifsoudefrequencesobservees, maisentermespro-babilistes: endautrestermes,oncherchera` aevaluerlaprobabilitequelastatistiquecalculeesesituedansuncertainintervalledevaleursdelavariablemesuree,oudemani`ereequivalenteau-del` adunecertainevaleurdereference.3.2 Distributiondeprobabilites3.2.1 Distributiondechantillonnagedelamoyenneetloi normaleLaloi normale,ouloi deLaplace-Gauss, estunedesloislesplusutiliseesenstatistique, enraisondesproprietesdeconvergenceenloi desdierentesdistributionsdeprobabilitesetsur-toutdu theor`emedechantillonnagede lamoyenne, que nous presentons rapidement dans lepragraphe suivant. En fait, il y a tr`es peu de variables en biologie ou en psychologie qui se distri-buent normalement, mais certains developpements mathematiques ont permis de montrer que ladistributiondesmoyennestendverslanormalite,etlapproximationparlaloinormaledevientacceptablelorsquelontravailleavecdesdonneesmoyennees.Dememe, lesautresstatistiquespotentiellementutilisables(variances,proportions,coecientdecorrelation,. . .)poss`edentdesproprietesconnuesdupointdevuedeleursdistributions.2Lescaracteristiquesprincipalesdes statistiquessont lexactitude,laconsistanceet laprecision(serefererauxouvragesspecialisespourdeplusamplesdeveloppementssurlesujet).36DistributiondechantillonnagedelamoyenneCest encesensquil est preferabledetravailler avecles indicateursdechantillonsplut otquelesobservations, carceux-ci ontgeneralementdesdistributionsconnues: si lonestime` aplusieursrepriseslamoyennedun echantillondetaillesusammentgrande(e.g.n 1000),etquelonconstruitlhistogrammedecesmoyennes, laformedecethistogrammeseralamemequecelledelaloi normale, etcequelquesoitlaformedesdistributionsdesobservationsini-tialesdelechantillon(cf. pourillustrationlagure3.1): cestsurceprincipededistributiondechantillonnage, ici delamoyenne, quereposenttouslestestsstatistiques. Lamoyennedeladistributiondechantillonnagedelastatistiqueconsidereeestainsilamoyennedesmoyennesdelensembledesechantillonsquelonpeutformer3, etonpeutmontrerquelleestegale` alamoyenne de lapopulationparente, do` usont tiresces echantillons.Onmontre egalementquelavariance de la distribution dechantillonnage est egale ` a2n NnN1, 2representant la variance delapopulationparente. Lorsque leectifNde la populationest tr`es superieur ` acelui de lechan-tillon n considere, le rapportNnN1tend vers 1, et la variance de la distribution dechantillonnagevaut2n4.Onpeutdoncestimerlesparam`etresdune populationparente,autraversdeladistributiondechantillonnage, ` a laide des indicateurs de lechantillon (moyenne x et variance corrigee s2, quipermet destimer la variance de population), sans avoir ` a lechantillonner de mani`ere exhaustive.Ladistributiondechantillonnagerepresentealorsladistributiondeprobabilitedelastatistiqueconsideree5.Ceci vautegalementpourdenombreusesautresstatistiquesdontladistributioncaracteris-tiqueest connue(e.g. distributiondu2pour les proportions, distributiondu FdeFisher-Snedecorpourlesvariances)outendverslaloinormale,souscertainesconditions.3ApartirdunepopulationdeectifN,ilestpossibledeconstituerCnNechantillonsdetaillen(Ckndesignantlenombrebinomial).4Onremarqueraalorsquelavariancedeladistributiondechantillonnagedelamoyenneestinferieure` acelledelapopulationparente:ladistributiondechantillonnageestplus resserreeautourdelamoyenne.5Intuitivement, on peut toucher du doigt cette notion en considerant un grand nombre de lancers successifsdunde` a6facesbienequilibre. Ladistributiondesfrequencesobserveesestapproximativementrectangulaire,puisque P(X= x) = 1/6, avec x = {1, 2, 3, 4, 5, 6} : on a pratiquement autant de chances de tomber sur lune des6 faces. Si maintenant on eectue un grand nombre de lancers successifs de 4 des, la distribution dechantillonnagede lamoyenne des points obtenus constitue un histogrammesymetrique et de formepyramidale, centre autour delavaleurmoyenne3:celasexpliquesimplementparlefaitquelaprobabilitedobtenirdesvaleursprochesde3est beaucoup plus grande que les probabilitesdobtenir des valeurs faiblesou elevees (i.e.extremes), en raisondescombinaisonspossibles` apartirde4desquirealisentcetev`enement.Or,plusonaugmenteralenombrededes` alancer (e.g. 16 des, 50 des) un grand nombre de fois, plus la distribution observee se rapprochera dune distributionsymetrique, enformedecloche, centreautourdelavaleurmoyenne: onpeutmontrermathematiquementquecette distribution est celle dune variable aleatoire se distribuant selon une loi normale de moyenne et de variance2/n.37Fig.3.1:Principe de la distribution dechantillonnage de la moyenne. La distribution des moyennesdelensembledesechantillonstiresdunepopulation(` agauche)suit unedistributionnormale(` adroite).Loi normaleLadistributionnormaleestunefonctioncontinue` adeuxparam`etres: lamoyenneetlavariance2deladistribution,etestdeniecommesuit:f(x) =12e(x)222(x IR)Sonaspectestceluidunecourbeencloche, symetrique.Elleestcentreesurlamoyenne,etsalargeur` ami-hauteurestegale` adeuxecarts-type. Lagure3.2presentedeuxexemplesde38distributionsuivantuneloinormaledemememoyenne(4),maisdontlavariancepassede1(` agauche)` a3.06(` adroite). Cetriplementdelavariancesetraduitparun evasementdeladistribution autour de sa valeur moyenne et un epaississement des queues de la distribution.Fig.3.2:Exemplesdedistributionsnormales.Agauche,distributionnormaledeparam`etres = 4et2= 12;` adroite,distributionnormaledeparam`etres = 4et2= 1.752Etantdonnequilexisteuneinnitededistributionsnormales,puisquelesdeuxparam`etres et 2peuvent prendre toutes les valeurs possibles sur IR , il sav`ere peu commode de travaillerdirectementsurcettedistribution(` amoinsdepossederunlogiciel donnantlesvaleursdef(x)en fonction de ses param`etres, pour un x donne), qui nest dailleurs pas tabulee. On utilise alorsladistributionnormalecentree-reduitez(x), quiestunedistributionnormaledemoyenne0etdevariance1(cf. gure3.3), etpourlaquelleondisposedunetabledecertainesvaleursdelafonction de repartition6. Cela permet de connatre la valeur de la fonction de repartition pour unz0donne,i.e.P(z< z0)(pardenitiondelafonctionderepartition),cest-` a-direlaproportiondobservationssitueesouslacourbejusquaupointdabscissez0.Rappelonsquelatransformationcentree-reduitedesdonneesestcalculeecommesuit:zi=xi xEn fait, on centre les donnees par rapport ` a la moyenne, et on les reduit par rapport ` a lecart-type.Delasorte,toutevaleurcentree-reduitezisexprimeenpointdecart-typeparrapport` a6Lafonctionderepartitionpeutetre grossi`erementvuecommelanaloguedeladistributiondeseectifscumulesconstruitedanslecasdunechantillon39lamoyenne.Ilestalorsevidentquunevaleurzipositiveindiquequelavaleurestsuperieure` alamoyenne,et,reciproquement,unevaleurzinegativeindiquequelavaleurestinferieure` alamoyenne.Fig.3.3:Loinormalecentree-reduite N(0; 12)3.2.2 CalculelementairedeprobabilitesLorsquelonconnatladistributiondelapopulationparente(i.e. sesparam`etres, moyenneetvariance), cequiestrarementlecasenpratique,onpeutcalculerlaproportiondindividusoudobservationsqui sontsituesparrapport` aunevaleurdereference, oudansunintervalledonne.Silonprendcommeexempleladistibutiontheoriquedelatailledesindividus(desexemasculin,fran cais,etdans latranche d age20-35ans),celle-cisuitune loinormaledemoyenne170 et decart-type 10. On peut donc evaluer la probabilite quun individu choisi au hasard parmilapopulationenti`eremesuremoinsde185cm, ouplusde198cm, ouaitunetaillecompriseentre174et186cm.Puisquen principe on ne dispose pas des tables de la distribution correspondante N(170; 102),onutiliselaloi normalecentree-reduite N(0; 12), dontlatableestdisponibledansnimportequelmanuel(cf.AnnexeB,p.113).Ainsi,laprobabilitequunindividuchoisiauhasardparmilapopulationenti`eremesuremoinsde185cmestde0.933(P(X< 185)= P(Z 0(ouH1: < 0).Leplussouvent, onprend0=0, maisonpeutxerunevaleurautrequecelle-ci pourlamoyennedereference.Deuxechantillons. Danslecasduntestoriente, i.e. unilateral, surdeuxechantillons, ontestelhypoth`ese nulle quau niveau de la populationparente, la moyenne de la populationdontestissulechantillon1nestpasdierentedecelledontestissulechantillon2,cest-` a-direqueles deux echantillons observes sont issus de la meme population parente, ou de deux populationsayantlesmemescaracteristiques. Lhypoth`esenulleH0` atester estainsi : H0: 1=2, ouendautrestermesH0: 1 2=0, quelonpeutegalement exprimercommeH0: =0,avec representant ladierence entre les moyennes auniveau de la populationparente, oueetparent (i.e. lequivalentdedobsauniveaudesechantillons). Lhypoth`esealternativeestquelapopulationparentedontestissulechantillon1estsuperieure(resp.inferieure)` acelledontestissulechantillon2:H1: 1> 2(resp.H1: 1< 2)2.Dans le cadre dun test non oriente, i.e. bilateral, on fera lhypoth`ese que les moyennes parentesne di`erent pas (sans preciser le sens de cettedierence), cequi se traduit par lhypoth`ese nulleH0: 1= 2et lhypoth`esealternativeH1: 1 =2. Demani`eregenerale, onpeutegalement reformulerlhypoth`esenullecommeH0: 12= 0ouH0: = 0.1Demani`ereequivalente,celarevient` atesterH0: 0= 0,ouH0: = 0danslecaso` u0= 0.2Aveclanotation= 1 2pourleetparent,onformulebienevidemment> 0ou< 0.51Testdhypoth`esePourdeuxechantillonsindependants3deectifsn1etn2, demoyennesX1etX2etdeva-riancess21ets22,onutiliseraletesttdeStudent reposantsurlecalculsuivant:tobs=X1X2s X1 X2o` us X1 X2=_[(n11)s21+(n21)s22(n1+n2)](n1+n22)n1n2representelerreur-typedeladierenceentrelesdeux moyennes parentes. Cette erreur-type prend en compte les ecarts-type des deux echantillonsponderesparleurseectifsrespectifs ; ellepeutegalementetrecalculee` alaidedelavariancecombinee,oucommune,s2c=SC1+SC21+2,commes X1 X2=s2cn1+s2cn2.DanslecasdelacomparaisondunemoyenneX1` aunemoyennedereference, onchoisiraX2= 0,etlestimedelavarianceserasimplementsX1.Lorsque les echantillons poss`edent le meme eectif n, et en utilisant dobs=X1X2, la formulesereduit` a:tobs=dobs_s21+s22nCette valeur est ` acomparer ` alavaleur critique de ladistributiondut de Student avec= n1+n22 degres de liberte (cf. Annexe B, p. 114), au seuil = 0.05 (cas dun test bilateral).Sil sav`erequelavaleurdetobsestsuperieure` alavaleurcritiquet0.05,, oncompareratobs` alavaleurcritiqueauseuilsuivant0.01,puis eventuellementauseuilsuivant0.001.Siletestestoriente(H1: 1> 2ouH1: 1< 2),leseuilretenuseraunilateral.Lorsqueletest est signicatif, selonquelhypoth`esealternativeetait ounonorientee, onconcluera au seuil unilateral ou bilateral respectivement. Dans le cas o` u le test est non signicatif(i.e.tobs< t,),onconclueradanslesdeuxcasauseuilbilateral4.TestapproximatifdeWelch Lorsque les variances ne sont pas homog`enes, un test t corrigeletestapproximatif deWelchpeut etreeectueencalculantlavaleurdetestsuivante:tobsW=X1X2_s21n1+s22n23Lindependance signie quil ny a pas de correlationentre les deux echantillons du point de vue de la variablemesuree.4Ilest` anoterquelestestsbilaterauxsontbeaucoupplusrobustesauxviolationsdesconditionsdapplicationdutest(normaliteetegalitedesvariances),notammentpourdegrandsechantillonsetdesplans equilibres.52et enlacomparant auxmemes valeurs critiques deladistributiondut deStudent, avec=_s21n1+s22n2_2_s21n1_2n11+_s22n2_2n21degresdelibertes.Lorsquelenombrededegresdelibertenestpasunevaleurenti`ere, onutliserasavaleurenti`ere approchee par valeur inferieure. On notera que dans ce cas, lestime des variances parentesnest pas un melange des variancesintra des deux echantillons comme dans lecas precedent(variancecommune),maislesconsid`erentisolement.EchantillonsappariesLorsque les echantillons sont apparies (eectifn), lavariabilitese decomposeenun termedevariabilitelieeautraitement,etuntermedevariabilitelieeauxindividus,maiscettefois-cilespairesdobservationsnesontpasindependantes.Lavaleurdetestpourlhypoth`esenulleseradoncderivee` apartirdeladierenceentrechaquepaireindividu/traitement,etonprendraaunumerateur lamoyenne des dierences,qui est equivalente` aladierencedesmoyennes dans cecasdegure5,soit:tobs=X1X2_s2dnLa variance estimee, s2d, est la variance corrigee de lechantillon derive par dierence, et lerreur-typedeladierencedesmoyennes estsimplement laracinecarreedurapportdecettevarianceet de la taille de lechantillon (les deux groupes etant supposes de memes eectifs). On se ram`eneenfait` alasituationdecomparaisondune moyenne empirique (moyenne desdierences)` aunemoyennetheoriquenulle.Dans lecas degroupes apparies, onapporteuneinformationsupplementairepar rapportaucasdesgroupesindependants.Lappariementsous-entendquelesdonneesnesontpasinde-pendantesdeux` adeux, etsontdonccorreleesdansunecertainemesure, cequi permetdeneconserverquunesourcedevariabilite(celleduprotocolederivepardierence), contrairementaucas desgroupesindependants. Onsereduitenfait ` aunesituation` aunseul echantillon.Enlabsencedecettecorrelation, lesdeuxtestssontstrictementidentiques. Eneet, danslecasdegroupes independants, lerreur-type de ladierence estimeedes moyennes degroupes est_s21+s22n,lorsque leseectifsdes deux groupes sont egaux(n1= n2= n). Danslecasdegroupesapparies,lerreur-typedeladierenceestimeedesmoyennesdegroupesreposesurlavariances2dduprotocolederivepardierence, etonpeutmontrerquecelle-ci sexprimesouslaformes2d= s21+s222s1s2 (en supposant legalite des eectifs), designant la correlation parente entrelesdeuxgroupes.Lerreur-type pourlesgroupesapparies,_s21+s222s1s2n,seradoncinferieure ` a5Le lecteur pourraverier quelamoyennedes dierences

i(x1ix2i)nest enfait egale ` aladierence desmoyennes x1 x2.Ontrouve souventlanotationdj pourrepresenterlesdierencesentrevaleursappariees,etlavaleurrepriseaunumerateurdelastatitsiquedetestestalorsdj.53celle pour les groupes independants, ce qui permet daugmenter la valeur du tobsdans le premiercas(onprendencomptelaconnaissancedelarelationentrelesdeuxgroupes)6.4.1.2 IntervallesdeconanceDanslecasdelacomparaisondun echantillon` aunepopulationdereference,lintervalledeconance` a95%pourlamoyennepeut etrecalcule` alaidedelaformule:X t,s XEn presence deux echantillons independants de variances homog`enes, lintervalle de conancepour1ou2seracalcule` alaidedelavariancecombinees2c,commesuit(ici1):X1t,s2cn1Dans ce dernier cas, si onnepeut pas rejetter H0, onconclue que les deuxechantillonsproviennentdelamemepopulationoudepopulationsdememescaracteristiques, ayantpourestimedelamoyenneparentelamoyenne combineeXc=n1X1+n2X2n1=n2;onpeutalorscalculerunintervalledeconancepourcettemoyenneparentecommesuit:Xct,s2cn1 +n2Enn, pour des echantillons apparies, lintervalle de conance ` a 95 % pour la moyenne parentedesdierencesdpeut etrecalcule` alaidedelaformule:X t,sdExempledapplicationIILorsduneexperimentationmedicale, onareleveletempsdesommeilde10patients sous leet dedeuxmedicaments. Chaquesujet aprissuccessivementlunetlautredesdeuxmedicaments. Cesdonneesonteterecueillies pour tester lhypoth`esequelemedicament m2est plusecacequelemedicamentm1(Source:[25]).Dans unpremier temps, onisole les variables independantes (oufacteurs) deletude : lavariablesujet S(n=10), et lavariablemedicament M, ` a2modalites6Onverieaisementquedanslecas = 0,lerreur-typeestidentiquepourlesdeuxtypesdegroupes.54(m1:premier medicament,m2:secondmedicament).Lavariabledependante estletempsdesommeil(enheure).LefacteurM2estlefacteursystematiqueprincipal7.Chaque sujet prenant successivement les deux medicaments, on est donc en presencedun protocole de groupes apparies. Il ny a donc pas independance entre les mesurespourlesdeuxcaract`erespourunindividu,maisil yabienindependanceentrelesindividus.i1 i2 i3 i4 i5 i6 i7 i8 i9 i10m1 5.7 3.4 4.8 3.8 4.9 8.4 8.7 5.8 5 7m2 6.9 5.8 6.1 5.1 4.9 9.4 10.5 6.6 9.6 8.4Tab.4.1: Temps de sommeil observes pour deux groupes apparies (n=10, individus notesi1` ai10)Lexamendesdonnees(cf. tableau4.1.2)indiquequelesvaleursobserveespourles deuxgroupes sedistribuent demani`erehomog`eneautour deleur moyenne, ilnesemblepasyavoirdevaleursatypiques, etlamedianeestrelativementprochedelamoyenne, dansles deuxcas. Lesetenduesdesdeuxgroupesm1et m2sontcomparables(5.3et5.6respectivement). Lesmoyennesapparaissentdoncetredesindicateursd`elesdelatendancecentrale.Dautre part, le groupe ayant re cu lepremier medicament (m1)dort en moyennemoins quelegroupeayantre culesecondmedicament (m2) : x1=5.751(ouH1: t0.005,9= 3.250Letestestdoncsignicatifauseuilunilateral0.005,etlonrejettelhypoth`esenulleH0duneabsencededierenceentrelesmoyennesdespopulationsparentes.On peut donc dire, en toute generalite, que le type de medicament utilise inuenceletempsdesommeil desindividusdememescaracteristiques quelesindividusdelechantillon: lesindividusdormentenmoyennepluslongtempsavecledeuxi`ememedicament.Remarque. Onpourraitmodierleg`erementlesdonnees, enconsiderantquelesgroupessontindependants, cest-` a-direquecenesontpaslesmemessujets` aquilonadministresuccessivementlesdeuxmedicaments.Onseraitamenedanscecas,pour les memes hypoth`eses H0et H1, ` aeectuer untest t sur des echantillonsindependants. Leprincipeeststrictementlememe, exceptelestimedelavariancequi melangelesdeuxvariancesdesdeuxechantillons, puisquecettefois-ci ondoitprendreencomptelefaitquelesobservationssonttoutesindependantes.Laformuledecalcul dutestalorslerapportentreladierencedesmoyennes(dobs) et lestime de la variance parente, qui est calcule comme_s21n1+s22n2, soit_s21+s22npuisque les eectifs des deux groupes sont egaux. Cette valeur de tobs sera ` a comparer56auxvaleurscritiquesdeladistributiondutdeStudentauseuil 0.05/2pour =n1 +n22 = 18dl.Onaainsitobs=dobs_s21+s22n=1.58_3.20+4.0110= 1.86 < t0.025,18= 2.101Letestestdoncnonsignicatif auseuil bilateral 0.05, etlonnepeutpasrejetterlhypoth`esenulle H0dune absencede dierenceentre lesmoyennes des populationsparentes. Onnepourraitpasconclurequelespopulationsparentesdontsontissuslesdeux echantillonssontdierentesdupointdevuedeleurscaracteristiques.Onvoit quelepassagedunesituationappariee` aunesituationindependantediminuelavaleurdut, cest-` a-direlimportancedeleetdutraitement. Eneet,dans le dernier cas (echantillons independants), onnapas utilise le fait que lesmesures etaient appariees, et de ce fait, on perd de linformation (cf.4.1.1, p. 53). Demani`ereplusgenerale, celaillustreegalementlefaitquelesprotocolesdemesuresapparieessont,enr`eglegenerale(voirdiscussionpp.61-63dans[9]),pluspuissantsquelesprotocolesutilisantdes groupesindependants, etquilestpreferable,lorsquecelaestpossible,deconstruiredesexperiencesutilisantdesgroupesapparies.4.1.3 Alternativesnon-parametriquesNousavonsexposelesconditionsdapplicationdutesttdeStudentpourdeux echantillons,laplusimportantedentreellesetantlhomoscedasticite. Lorsquecettehypoth`esenepeutetreacceptee, il convientdemployerdes proceduresdetest nenecessitant aucuneestimationdesparam`etresdevariancedelapopulationparente:cesontlestestsnon-parametriques.Dans lessituations ` aunoudeuxechantillons independants, onutiliseraletest deMann-Whitney, qui est enfait untest reposant sur les rangs plut ot quesur les valeurs prises parlavariable. Laproceduredecalcul consiste` aremplacerlesdonneesparleursrangsrespectifs,sanssepreoccuperdufacteurdeclassement(facteurdegroupe).Lorsquelontravailleavecdesdonneestransformeesenrangs,uncasepineuxseposeencasdex-quo:onremplacealorslerangcorrespondantparlavaleurmoyennedurangconcerneetdurangsuivant.Unevaleurdetestpeutetrecalculee` apartirdeceux-ci, etlaprocedureinferentielleestensuitecomparable` acellesdecritesprecedemment:lavaleurobserveedelastatistiquedetestest` acomparerauxvaleurscritiquesdeladistributiondu UdeMann-Whitney(cf.AnnexeB,p.118).Lavaleurdetestestcalculeecommesuit:U= n1n2 +n1(n1 + 1)2R1o` u n1et n2designent les eectifs des deux echantillons, avec n1< n29, et R1la somme des rangs9Dans le cas o` u n1> n2, on utilise la statistique U

= n1n2 +n2(n2+1)2R2, o` u R2designe la somme des rangsdelechantillon2.OnnoteraquelesdeuxstatistiquessontlieesparlarelationU

= n1n2 U.57de lechantillon1. Cettevaleur est ` a comparer aux valeurs critiques de la distribution du U avecn1etn2degresdeliberte,auseuil = 0.05.Pourdesechantillonsapparies, lorsquelesobservationsderiveespardierencenesedistri-buentpasnormalement,onutiliseraletestdeWilcoxon, quireposeegalementsurlesdonneestransformees en rangs. La procedure de calcul est relativement simple : on range par ordre crois-santles valeurs absoluesdes observationsderivees par dierence, puisonassignelesignedechacunedesdierencesaurangcorrespondant. Letraitementdesex-quosefaitdelamememani`ere que pour le test de Mann-Whitney. On somme ensuite chacun des rangs des deux signeseton forme lesdeux statistiques de testT+etT10.Pour un testbilateral,onrejetera H0si T+ouTestinferieure` alavaleurcritiqueT,ndontlestablessontdisponiblesdanslesouvragesspecialises(cf. egalementAnnexeB,p.119,ou[26],[7]).ExempledapplicationIIIOn dispose de deux echantillons detudiants de sexe masculin et feminin,dont ona relevela taille.On se demande si les taillesobservees peuventetre considerees comme dierentes entre les deux groupes (Source : [26]).Ilapparatqueleseectifsdesdeuxgroupessontfaiblesetinegaux(cf.tableau4.1.3). Onnemetpasenuvredeproceduredetestparametrique, etonpref`ereutiliserunestatistiquederangs, qui nepresumeriensurlesdistributionsparentes(sicenestquellesont` apeupr`eslamemeformeetdesindicateursdedispersion` apeupr`escomparables).Lhypoth`esenulleseraH0: 1= 2(pasdedierenceentrelesdeuxechantillonsdupointdevuedelataille), etlhypoth`esealternative, nonorientee,H1: 1 = 2.g1 193 188 185 183 180 178 170g2 175 173 168 165 163Tab.4.2:Tailles observees (en cm) pour deux groupes detudiants de sexe masculin (g1,n1= 7)etfeminin(g2,n2= 5).LavaleurduUdeMann-Whitneyestdonneeparlaformule:U= n1n2 +n1(n1 + 1)2R1= (7)(5) +(7)(8)230 = 33 > U0.05,(5,7)= 30Letestestsignicatifauseuilbilateral0.05,donconrejetteH0.10CesdeuxvaleurssontlieesparlarelationT+=n(n+1)2 T, doncil sutdecalculeruneseuledesdeuxsommes.584.1.4 AutrescomparaisonsComparaisondemedianesLes medianes de deux echantillons peuvent etrecomparees ` apartir de lapositiondes valeursdes echantillons par rapport ` a la mediane de toutes les observations (test des medianes). Lorsquela taille de lechantillon est grande, on pourra utiliser un test du 2` a = n1 degres de liberte ;lecas echeant,onutiliseraletestexactdeFisher.Lelecteurinteressepourrasereporter` a[26]pourledetaildesproceduresdetest.ComparaisondevariancesLetestleplussimplepourcomparerdeuxvariancespourdeuxechantillonsdistribuesnor-malement, deectifs n1et n2et de variances s21et s22, est le testde Hartleyqui est comparable ` auntestFdeFisher-Snedecor enprenantcommevaleurdetestleplusgranddesdeuxrapportsdes variances. Lhypoth`ese nulle est legalitedes variances parentes (H0: 21= 22). La valeur detest,danslecaso` uleseectifsn1etn2sont egaux,estdonclasuivante:F= max(s21s22, s22s21)etelleest` acomparerauxvaleurscritiquesdeladistributionduFavec(1, 2) = (n11, n21)degresdeliberte. Il estimportantdebienrespecterlordredesdegresdeliberte1aunumerateur et 2au denominateur , en fonction de la statistique retenue, avant de consulter lavaleur critique dans les tables du Fde Fisher-Snedecor. On remarquera, apr`es consultation de latable, que lhypoth`ese degalite des variances ne sera rejetee que dans des cas assez extremes :parexemple,pour2groupesde20sujets,lavaleurdetestdoit etresuperieure` a2.12(auseuil = 0.05) !LorsqueletestnepermetpasderejeterH0, onpeutalorsformerlavariancecombinee, ouvariancecommune, s2c=SC1+SC21+2qui estle meilleur estimateurdes variancesparentes (cf. surles echantillonsindependants, p.52).Il est egalement possible dutiliser le test deBartlett, que lon retrouve en analyse de variance(cf. partie suivante, p. 61) puisquil peut etre utilise pour tester legalite de plus de deux variances.Lavaleurdetestpourkechantillonsestcalculeecommesuit:B= ln(s2c)_k

i=1i_k

i=1iln(s2i)o` ui= ni1avecnileectifdui-`eme echantillon.Lavariancecombinee s2cestcellepresenteedansleparagrapheprecedent. Lorsquil yaplusdedeuxgroupesdobservations(e.g. cas delANOVA),ellesexprimesouslaformegenerale:s2c= ki=1 (ni1)s2i/(n k),ouenutilisant59lessommesdesecartsquadratiques, s2c= ki=1SCi/

ki=1i. EnnormalisantcettestatistiqueparlefacteurdecorrectionCcalculecommesuit:C= 1 +13(k 1)_k

i=11i1

ki=1i_lastatistiqueBc=BCpeutetrecompareeauxvaleurscritiquesdeladistributiondu2aveck 1dl.Lorsquelaconditiondenormalite nest pas veriee, il est deconseille dutiliser le test F,et letest deBartlett neconstituepasnonplusunealternativetr`es ableetant donneleurssensibilitesrespectivesauxdeviations` alanormalite. Enparticulier, si lesdonneesnesuiventpas une distribution normale mais que les variances sont egales, le test de Bartlett tend ` a indiquerincorrectementlapresencedheteroscedasticite.Endernierlieu, letest deLevene dhomogeneitedesvariances peutegalementetreutiliselorsque laconditiondenormalite nest pas veriable. Ce test est leg`erement moins sensiblequeletestdeBartlettauxdeviationsparrapport` alanormalite11. Il sapparente` auntesttcalcule sur les dierences en valeurs absolues entre les observations dans chaque echantillon et lesmoyennesrespectivesdechacundes echantillons.Lavaleurdetestpourkechantillons(eectiftotaln)estcalculee` alaidedelaformule:W=(n k)

ki=1ni( zi z)2(k 1)

ki=1

nij=1ni(zij zi)2o` u les zij= |xij xi| representent les ecarts absolus des observations ` a la moyenne du groupe i, ziindiquent lesmoyennes des groupeset zlamoyenne generale.Lavaleur calculeeest` acomparer` a la distribution du Fde Fisher-Snedecor avec (1, 2) = (k 1, nk) degres de liberte, au seuil = 0.05ComparaisonsurlesindicateursdedistributionetautresindicateursdescriptifsIlestegalementpossibledecomparerlesindicateurslies` alaformedeladistribution(coef-cientsdesymetrieetdaplatissement), ainsi quelesproportions, lescoecientsdevariation,etc.Lelecteurinteressepourraconsulter[26].11Enfait, onpeutmontrerquecetestest` alafoisplusrobusteetpluspuissantdanslamesureo` u(i)il nedetecterapas incorrectement lheteroscedasticite lorsqueles observations secartent delanormaliteet quelesvariancessontenrealiteegales(robustesse), et(ii)il detecteralheteroscedasticitelorsquelesvariancessontenrealiteinegales(puissance).604.2 Analysedevariancedordre14.2.1 PrincipegeneralCettepartieestconsacree` aletudedessituationsexperimentalesdanslesquellesleetdunfacteur(variablequalitative)quantieparunememevariabledependanteest etudieautraversde k echantillons (k 2) independants. Le plan correspondant est Sn/k< Gk>, o` u G designe lefacteurdeclassication` akmodalites.Onappellecetype danalyselanalysedelavariance,ouanalyse de variance (ANOVA). En cela, elle constitue une extension ` a la section precedente danslaquelleonsinteressait` alacomparaisondedeuxechantillonsindependants(cf.section4.1, p.50). Danslecasparticuliero` uk=2(2groupesdobservations),lesdeuxtechniquesdanalysefournissentlememeresultat12. Cetypedanalyseseramisenuvrelorsque, parexemple, onetudieleetdutempsdepresentationdunecible` alecran(facteurT` a3niveaux,t1=20ms,t2=80ms,t3=150ms)surletempsdereactionsimplepourdetectercetteciblechez15sujetsrepartisen3groupesindependants (leplanseraitainsiS5< T3>).4.2.2 TypesdANOVAOndistinguetroistypesdANOVA: lestypesI, IIetIII. LetypeIestqualiedemod`ele` aeets xes, les niveauxdechacundes facteursetant determines deliberemment (i.e. xes)parlexperimentateur.Cestlecasdanslaplupartdesprotocolesexperimentaux,etcestceluiquenousdevelopperonsdanscechapitre.Aucoursdelanalyse,onchercheraprincipalement` adeterminer si les moyennes di`erent entre elles dans leur globalite, et, lorsque cest le cas, quellessontlespairesdemoyennesquisontsignicativementdierentes.LetypeIIestappelemod`ele` aeetsaleatoires, etdanscetypedemod`elelesniveauxdufacteurdetudesontdeterminesdemani`erealeatoire. Onsinteressealorsprincipalement` alavariabililteentrelesechantillonspar rapport ` alavariabilite` alinterieur dunechantillon. Enn, letypeIII est unmod`ele ` aeetsxesetaleatoires,quelonrencontreuniquement danslesANOVA` aplusieurs crit`eresdeclassicationoufacteurs(cf4.3,p.70).Lechoixduplanexperimental revetici touteso