150
Tests statistiques M1 IMSV Etienne Birmel´ e

M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Embed Size (px)

Citation preview

Page 1: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Tests statistiques

M1 IMSVEtienne Birmele

Page 2: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I. TESTS STATISTIQUES :PRINCIPE

Page 3: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test

Definition

Un test statistique est une procedure de decision entre deux hypothesesconcernant un ou plusieurs echantillons.

Exemple : On considere deux series de personnes soumises les unes a unmedicament, les autres a un placebo. On mesure les tensions arterielles dans lesdeux groupes.Au vu des resultats, le medicament a-t-il un effet sur la tension ?

Page 4: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Hypotheses

Definition

L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.

Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.

Page 5: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Hypotheses

Definition

L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.

Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.

Attention

I Les deux hypotheses ne sont pas symetriques. H1 est choisie uniquementpar defaut si H0 n’est pas consideree comme credible.

I Le choix de H0 et de H1 est en general impose par le test qu’on utilise etne releve donc pas de l’utilisateur.

Page 6: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Soit µ1 et µ2 les moyennes de tension des deux populations correspondant a laprise de medicament ou de placebo. Une maniere de demontrer que lemedicament modifie la tension est de montrer que µ2 est different de µ1.

Les hypotheses deviennent alors { H0 : les moyennes des deux populations sontegales } et { H0 : les moyennes des deux populations sont differentes } . Onl’ecrit succintement sous la forme :

H0 : µ1 = µ2

H1 : µ1 6= µ2

Page 7: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Page 8: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Page 9: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Page 10: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Attention

Les moyennes x1 et x2 des echantillons resultent d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des echantillons ne peut en aucun cas suffire !

Page 11: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Ecriture des hypotheses

Attention

Les moyennes x1 et x2 des echantillons resultent d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des echantillons ne peut en aucun cas suffire !

Les signes =, 6=, > et ≤ dans l’ecriture succinte des hypotheses necorrespondent pas a l’egalite ou aux inegalites au sens mathematique du terme.Il s’agit d’une facon d’ecrire :

H0 : Il est credible de penser que µ1 = µ2

H1 : µ1 est significativement different de µ2

Page 12: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Statistique

La statistique de test S est une fonction qui resume l’information surl’echantillon qu’on veut tester. On la choisit de facon a pouvoir calculer sa loisous H0.

I S est une variable aleatoire, definie independemment des donneesobservees. La valeur que prend cette variable aleatoire pour les donneesobservees sera appelee statistique observee et notee Sobs dans la suite.

I Suivant le type de statistique choisi, le test sera parametrique ounon-parametrique.

Page 13: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Region de rejet - Lateralite

Definition

La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs

appartient a I.

Definir une procedure de test peut donc se faire en definissant

1. une statistique

2. une region de rejet pour cette statistique

Exemple : Les test medicaux figurant sur une prise de sang, comme le taux defer.

H0 : La ferritine est entre 20 et 300µg/L

H1 : La ferritine est trop haute ou trop basse

Page 14: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Region de rejet - Lateralite

Definition

La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs

appartient a I.

La forme de la region de rejet definit la lateralite du test :

I test multilateral : On veut rejetter H0 si Sobs est trop grand ou trop petit,sans a priori. La region de rejet est alors de la forme ]−∞, a] ∪ [b,+∞[.

I test unilateral a droite : On veut rejetter H0 seulement si Sobs est tropgrand. La region de rejet est alors de la forme [a,+∞[.

I test unilateral a gauche : On veut rejetter H0 seulement si Sobs est troppetit. La region de rejet est alors de la forme ]−∞, b].

Page 15: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemples

On considere toujours des medicaments reduisant la tension arterielle. Quellessont les hypotheses pour repondre aux questions suivantes ?

I Comparaison entre deux medicaments en vente

H0 : µ1 = µ2

H1 : µ1 6= µ2

I Interet d’un nouveau medicament plus cher que l’existant.

H0 : µnew ≥ µold

H1 : µnew < µold

I Interet d’un nouveau medicament moins cher que l’existant.

H0 : µnew ≤ µold

H1 : µnew > µold

Page 16: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemples

On considere toujours des medicaments reduisant la tension arterielle.

I Comparaison entre deux medicaments en vente

H0 : µ1 = µ2

H1 : µ1 6= µ2

I Interet d’un nouveau medicament plus cher que l’existant.

H0 : µnew ≥ µold

H1 : µnew < µold

I Interet d’un nouveau medicament moins cher que l’existant.

H0 : µnew ≤ µold

H1 : µnew > µold

Page 17: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est unilateral a droite, la probabilite critique est P(S > Sobs).

Sobs

Page 18: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est unilateral a gauche, la probabilite critique est P(S < Sobs).

Sobs

Page 19: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est bilateral et que la loi de la statistique est symetrique parrapport a 0, la probabilite critique est P(|S | > |Sobs |).

Sobs

Page 20: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Risque de premiere espece ou confiance

Definition

Le risque de premiere espece α est la probabilite sous H0 de la region de rejet.En d’autres termes, il s’agit de la proabilite avec laquelle on accepte de deciderH1 si la verite est H0.

α = PH0(H1)

La quantite 1− α est la confiance du test.

En d’autres termes, une proportion α des situations dans lesquelles la verite estH0 verront une decision en faveur de H1.

α est la probabilite avec laquelle on accepte de se tromper quand la verite estH0

Page 21: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Acceptation

Seuil

5%

Sobs

Page 22: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Rejet

Seuil

5%

Sobs

Page 23: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.

I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Avantage

Cette methode permet de se rendre compte a quel point on est sur de sadecision : la position de la p-valeur par rapport a α ne depend pas de l’echelledes donnees, contrairement a Sobs et au(x) seuil(s) de la region de rejet.

Exemple : Si on a fixe α = 0.05, une p-valeur de 3.10−4 est clairement un rejet,alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer aumoment de l’interpretation.

Page 24: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Risque de premiere espece ou confiance

I Hormis dans des cas de tests multiples non abordes dans ce cours, α variegeneralement entre 0, 01 et 0, 05.

I Dans le cas de variables continues, on peut choisir une valeur arbitraire deα et obtenir une region de rejet presentant exactement le risque α.

I Dans le cas de variables discretes, le nombre de regions de rejet, et doncde risques, possibles est fini ou denombrable. Dans ce cas, on fixe unrisque, dit risque nominal, par exemple de 5%. On cherche alors la plusgrande region ne depassant pas ce risque, qui devient la region de rejet. Leveritable risque, dit risque reel, peut alors etre recalcule.

Page 25: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Risque de deuxieme espece ou puissance

Definition

Le risque de deuxieme espece β est la probabilite d’accepter H0 alors que laverite est H1.

β = PH1(H0)

La quantite 1− β est la puissance du test.

VeriteH0 H1

DecisionH0 1-α βH1 α 1-β

Page 26: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Choix de α et β

H0 H1

S

αβ

Si l’echantillon reste inchange, une diminution de α entraıne une augmentationde β et inversement. Autrement dit, si on decide de reduire le nombre de fauxpositifs, on augmente forcement le nombre de faux negatifs.La seule maniere d’ameliorer les deux criteres est d’augmenter la taille del’echantillon.

Page 27: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Choix de α et β

H0 H1

S

αβ

Si l’echantillon reste inchange, une diminution de α entraıne une augmentationde β et inversement. Autrement dit, si on decide de reduire le nombre de fauxpositifs, on augmente forcement le nombre de faux negatifs.La seule maniere d’ameliorer les deux criteres est d’augmenter la taille del’echantillon.

Page 28: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Courbe de puissance

I Pour determiner la puissance, il faut connaıtre la lois de S sous H1, ce quin’est generalement pas le cas.

I On recourt alors a des courbes de puissance qui sont des courbes pourlaquelle la puissance est calculee pour des valeurs donnees des parametresdu probleme ou de la taille de l’echantillon.On ne sait pas ou se situe la situation reelle sur cette courbe mais on y litla probabilite de detecter H1 en fonction de son ’eloignement’ de H0.

Exemple : Courbe de puissance d’un test de Student bilateral sur 100 individusen fonction de mu[2]−mu[1] (en supposant que σ1 = σ2 = 1).

0.0 0.5 1.0 1.5

0.0

1.0

Page 29: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Principe du test

Les etapes d’un test sont toujours realisees dans l’ordre suivant :

1) Choix du risque α

2) Choix du type de test et de sa lateralite si besoin

3) Calcul de la statistique de test

4) Calcul de la p-valeur

5) Conclusion

En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier despartie 3) et 4). Par contre, les choix liees aux etapes 1) et 2) ainsi quel’interpretation finale ne peuvent etre faits par le logiciel.

Page 30: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Remarques sur les tests

I Le resultat d’un test comprend toujours une dose d’incertitude : ONNE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !

I La probabilite critique permet d’avoir une vision plus fine que sa simplecomparaison avec α. En effet, plus elle est petite, plus l’evenement observeest surprenant sous H0. Ainsi, pour α = 0.5, des probabilites critiques de10−6 et de 0.35 impliquent le rejet de H0 mais avec des degres decertitude different concernant la decision.

Page 31: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Tests parametriques et non parametriques

Definition : test parametrique

Un test parametrique est un test pour lequel on fait une hypothese sur la formedes donnees sous H0 (normale, Poisson, ...). Les hypotheses du test concernantalors les parametres gouvernant cette loi.

Exemple : On suppose que la tension sous medicament suit une loi N (µ1, σ1)et celle sous placebo suit une loi N (µ2, σ2).

H0 : µ1 = µ2

H1 : µ1 6= µ2

S =x1 − x2

σ√

1n

+ 1m

ou σ =

√(n − 1)σ1

2 + (m − 1)σ22

n + m − 2

La loi de S sous H0 est connue (loi de Student)

Page 32: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Tests parametriques et non parametriques

Definition : test non-parametrique

Un test non parametrique est un test ne necessitant pas d’hypothese sur laforme des donnees. Les donnees sont alors remplacees par des statistiques nedependant pas des moyennes/variances des donnees initiales (tables decontingence, statistique d’ordre ...).

Exemple : on classe les tensions de tous les individus par ordre croissant et onregarde comment sont classes les personnes sont medicaments. On obtient parexemple

M M P M M P M P P M P P

S est alors la somme des rangs des individus sous medicaments. On peutdeterminer sa loi sous H0.

Page 33: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Tests parametriques et non parametriques

Lequel choisir ?

I Les tests parametriques, quand leur utilisation est justifiee, sont en generalplus puissants que les tests non-parametriques.

I Les tests parametriques reposent cependant sur l’hypothese forte quel’echantillon considere est tire suivant une distribution appartenant a unefamille donnee. Il est possible de s’en affranchir pour des echantillonssuffisament grands en utilisant des theoremes asymptotiques tels le TCL.Lese tests non-parametriques sont cependant a preferer dans de nombreuxcas pratiques pour lesquels les tests parametriques ne peuvent etre utilisessans violer les postulats dont ils dependent (notamment les echantillonstrop petits).

I Les donnees sont parfois recuperes sous forme de rangs et non de donneesbrutes. Seuls les tests non-parametriques sont alors applicables.

Page 34: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Tests parametriques et non parametriques

Efficacite relative asymptotique

On fixe une confiance 1− α , une puissance 1− β. Soit Hk une suited’hyptoheses alternatives (se rapprochant de H0) et n1k et n2k les taillesd’echantillons necessaires pour que T1 et T2 aient la puissance β sousl’hypothese H‖. Sous certaines conditions de regularite, le quotient n2k

n1ktend

vers une constante, l’ARE, quand k tend vers l’infini.

Un ARE de 2 signifie que pour detecter la meme difference, il fautasymptotiquement des echantillons deux fois plus grands pour T2 que pour T1

pour obtenir la meme puissance, impliquant que T1 est plus ’efficace’. Cettemesure est asymptotique mais en pratique, l’efficacite pour des petitsechantillons se revele souvent proche de l’efficacite asymptotique.

Considerons l’exemple ou T1 est le test du signe pour H0 : m = 0 et T2 le testt pour H0 : µ = 0, dans le cas de distributions symetriques. On peut montrerque l’ARE est inferieure est de 2

π< 1 pour des distributions normales mais

superieure a 1 pour d’autres ditributions comme les double exponentielle ou lesdistributions de Laplace.

Meme en cas de validite des tests parametriques, les tests non-parametriquespeuvent donc etre concurrentiels, d’autant plus que la puissance de calcul desordianteurs actuels permet maintenant leur utilisation sur de grandsechantillons.

Page 35: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

II. TESTS DE COMPARAISONDE MEDIANES

Page 36: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.1 Un echantillon : Test de Student

Page 37: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test parametrique d’egalite de la moyenne avec une valeur predefinie : Testde Student

Donnees

Un echantillon x = (x1, . . . , xn), une valeur µ0

Question

La moyenne µ de la population dont x est issu est-elle significativementdifferente de µ0.

Postulat

La loi de la population est une loi normale ou x est suffisamment grand pourappliquer le TCL.

Page 38: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test parametrique d’egalite de la moyenne : Test de Student

Formulation

H0 : µ = µ0

H1 : µ 6= µ0

Ce test peut etre mene de maniere unilaterale.

Statistique

La statistique de Student est definie par

t =µ− µ0

σ/√n

Sous H0, t suit une loi de Student a n − 1 degres de liberte.

Sous R

t.test en utilisant les parametres x pour l’echantillon et mu pour la valeurde µ0.

Page 39: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.2 Un echantillon : Test du signe

Page 40: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test non-parametrique d’egalite de la mediane avec une valeur predefinie :Test du signe

Donnees

Un echantillon x = (x1, . . . ,xn), une valeur m0

Question

La mediane m de la population dont x est issu est-elle significativementdifferente de m0.

Postulat

Aucun

Page 41: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du signe

Formulation

H0 : m = m0

H1 : m 6= m0

Ce test peut etre mene de maniere unilaterale.

Statistique

On associe un signe + aux valeurs superieures a m0 et un signe − aux valeursinferieures a m0, et on note N+ le nombre de +.Sous H0, chaque valeur de l’echantillon a une probabilite 1

2d’etre superieure a

m0. N+ suit donc une loi binimiale B(n, 12).

Page 42: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du signe

Cas d’egalite

Il est possible que certaines valeurs de l’echantillon soient egales a m0.Plusieurs strategies sont possibles, les principales etant a) d’ignorer ces valeurs ;b) de les affecter par tirage au sort equiprobable ; c) de leur affecter le signeminoritaire afin d’obtenir un test conservatif.

Approximation normale

Pour les grands echantillons (n>30), on peut utiliser la statistique

Z =N+ − 1

2n

12

√n

qui suit une loi normale centree reduite.

Une correction de continuite peut s’averer necessaire dans ce cas.

Page 43: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

Le nombre d’observations de sanglier par an et par poste d’observation a unemediane de 50 lorsque la population est normale. L’echantillon suivantrepresente les observations de l’annee. A-t-il une mediane significativementdifferente de 50 ?

> betes <- c(29,12,62,64,43,21,35,89,8,32,47,61)

On applique un test du signe bilateral a un niveau de 5% :

H0 : m = 50

H1 : m 6= 50

> Npos <- sum(betes>50)

> Nneg <- sum(betes<50)

Sous H0, N+ ∼ B(12, 0.5) et cette loi est symetrique. La p-valeur vaut donc2P(N+ ≤ 4)

> 2* pbinom(4,12,.5,lower.tail=TRUE)

[1] 0.3876953

On accepte H0 : il n’y pas de raison de penser que la population a un niveauanormal.

Page 44: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple, suite

On suppose maintenant que les donnees de cinquante postes d’observationssont collectees et que 15 d’entre eux ont donnee lieu a 50 observations ou plus.On applique toujours un test du signe bilateral a un niveau de 5% :

H0 : m = 50

H1 : m 6= 50

Le nombre d’observation nous permet de faire une approximation normale.

> Zobs <- (15-25)/(sqrt(50)/2)

> 2*pnorm(Zobs,0,1)

[1] 0.004677735

Cette fois, on rejette H0 a un niveau de 5% : la population souffre d’uneanomalie.

Page 45: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Variantes

Test d’equiprobabilite de deux evenements

La procedure est exactement la meme, un des evenements correspondant ausigne −, l’autre au signe +.

Test d’un quantile

Soit qα le quantile d’ordre α de l’echantillon et q une valeur fixee. On peutgeneraliser le test du signe au probleme

H0 : qα = q

H1 : qα 6= q

Il suffit pour cela d’assigner un signe − aux valeurs inferieures a q , un signe +aux valeurs superieures a q et de considerer le nombre de signe − qui suit sousH0 une loi binomiale B(n, q).

Page 46: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Variantes

Test d’equiprobabilite de deux evenements

La procedure est exactement la meme, un des evenements correspondant ausigne −, l’autre au signe +.

Test d’un quantile

Soit qα le quantile d’ordre α de l’echantillon et q une valeur fixee. On peutgeneraliser le test du signe au probleme

H0 : qα = q

H1 : qα 6= q

Il suffit pour cela d’assigner un signe − aux valeurs inferieures a q , un signe +aux valeurs superieures a q et de considerer le nombre de signe − qui suit sousH0 une loi binomiale B(n, q).

Page 47: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Variantes

Test du signe pour une tendance : test de Cox et Stuart

I Tendance a la hausse ou a la baisse dans un echantillon d’observationsindependantes ordonnees ?

H0 : Pas de tendance

H1 : Tendance significative

I Dans le cas d’un echantillon pair n = 2m, les differences(xm+1 − x1, . . . , x2m − xm) sont calculees et leur signe est garde enmemoire. Pour n = 2m + 1, on procede de meme en eliminant la valeurxm+1. Sous H0, le nombre de signes − suit une loi B(m, 1

2.

I Test unilateral : hausse (ou baisse) uniquement.

I Moins puissant que les tests lies au modele lineaire, mais sans postulatd’evolution lineaire.

Page 48: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.3 Un echantillon : Test des rangs signes de Wilcoxon

Page 49: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Statistique du rang

Definition : rang

Soit X un vecteur aleatoire. Le rang Ri de la variable Xi est l’ordre de cettederniere quand on reordonne X par ordre croissant.

Exemple :X = (15, 6, 23, 17, 8), R = (3, 1, 5, 4, 2)

sous R

La fonction rank donne l’echantillon des rangsLa fonction order donne la place dans l’echantillon du minimum, puis de ladeuxieme plus petite valeur, ...

> x <- c(15,6,23,17,8)

> rank(x)

[1] 3 1 5 4 2

> order(x)

[1] 2 5 1 4 3

> x[order(x)]

[1] 6 8 15 17 23

Page 50: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Cas absolument continu

Si la loi des Xi est absolument continue, la probabilite d’avoir des ex-aequosest nulle.

Proposition

Pour tout k , 1 ≤ i1 < . . . < ik ≤ n et 1 ≤ j1 < . . . < jk = n),

P((Ri1 , . . . ,Rik ) = (j1, . . . , jk )

)=

(n − k)!

n!

Proposition

E(Ri) = n+12

et VarRi = n2−112

Page 51: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit X un vecteur aleatoire dont les coordonnees sont iid. Soit t le nombre devariables prenant la meme valeur que Xi . L’ordre Ri de Xi est la moyennearithmetique des ordres des t variables concernees quand on reordonne X parordre croissant.

Exemple : Pour X = (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

Page 52: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Cas des ex-aequo

Definition : rang avec ex-aequos

Soit X un vecteur aleatoire dont les coordonnees sont iid. Soit t le nombre devariables prenant la meme valeur que Xi . L’ordre Ri de Xi est la moyennearithmetique des ordres des t variables concernees quand on reordonne X parordre croissant.

Exemple : Pour X = (9, 7, 5, 7, 4, 5, 5), R = (7, 5.5, 3, 5.5, 1, 3, 3).

Soit tl le nombre de valeurs ayant le l ime rang (dans l’exemple, t1 = 1, t2 = 3,t3 = 2, t4 = 1) et T =

∑l t

2l (tl − 1).

Proposition

E(Ri) = n+12

et VarRi = n2−112− E(T)

12n

Page 53: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test des rangs signes de Wilcoxon

Donnees

Un echantillon x = (x1, . . . ,xn), une valeur m0

Question

La mediane m de la population dont x est issu est-elle significativementdifferente de m0 ?

Postulat

Le test necessite de faire l’hypothese d’une distribution symetrique.Ce postulat implique que mediane et moyenne sont confondues.

Page 54: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test des rangs signes de Wilcoxon

Formulation

H0 : m = m0

H1 : m 6= m0

Ce test peut etre mene de maniere unilaterale.

Sous R

Fonction wilcox.test

Page 55: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test des rangs signes de Wilcoxon

Statistique

On pose D = X−m0 puis on calcule les rangs R du vecteurs|D| = (|D1|, . . . , |Dn |. Les statistiques d’interet sont alors S+ =

∑i,Di>0 Ri et

S− =∑

i,Di<0 Ri .

Exemple :Si Xt = (1, 5, 10, 12, 0, 8) et m0 = 7, Dt = (−6,−2, 3, 5,−7, 1) etRt = (5, 2, 3, 4, 6, 1). Une autre maniere de l’ecrire est de reordonner D suivantles valeurs absolues croissantes, c’est-a-dire 1,−2, 3, 5,−6,−7.On obtient donc S+ = 1 + 3 + 4 = 8 et S− = 2 + 5 + 6 = 13.

Page 56: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test des rangs signes de Wilcoxon

On a toujours S+ + S− = n(n+1)2

, s’interesser a l’une des variables suffit donc.Le test s’ecrit alors (dans le cas bilateral)

H0 : ES+ = ES− =n(n + 1)

4

H1 : ES+ 6= n(n + 1)

4

Proposition

Sous l’hypothese H0 et en supposant que de X est absolument continue (pasd’ex-aequos),

VarS+ =n(n + 1)(2n + 1)

24et P(S+ = k =

ckn2n

)

ou ckn est le coefficient de tk dans∏n

k=1(1 + tk ).

Page 57: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Approximation pour les grands echantillons

Dans le cas de grands echantillons (n > 20), l’utilisation du TCL permetd’utiliser la statistique

Z =S+ − n(n+1)

4√n(n+1)(2n+1)

24

dont la loi peut etre approchee par une loi normale centree reduite.

Page 58: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Cas des ex-aequos

I d le nombre de valeurs egales a m0

I tl introduits precedemment

Pour des grands echantillons, l’approximation normale peut alors etre utilisee enremplacant la variance par

n(n + 1)(2n + 1)

24− d(d + 1)(2d + 1)

24−∑l

t3l − tl48

Page 59: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple (P. Sprent)

Reprenons l’exemple du nombre d’animaux observes, un total de 35 postesayant ete pris en compte

21 17 43 81 32 102 7 43 39 11 67 23142 117 44 39 82 93 28 145 0 17 77 5350 60 9 14 40 19 101 104 33 2 22

Page 60: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple (P. Sprent)

L’echantillon modifie devient0 3 −6 −7 −7 −10 10 −11 −11 −17 17 −18−22 −27 27 −28 −29 −31 31 32 −33 −33 −36 −39−41 43 −43 −48 −50 51 52 54 67 92 95

La statistique S+ vaut alors 293, d = 1 et il y 7 paires d’ex-aequo donc∑l

t3l −tl48

= 7 8−248

.La p-valeur est de 0.61. H0 est accepte.

Page 61: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.4 Tests parametriques pour deux echantillons :Fisher-Snedecor et Student

Page 62: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test d’egalite des variances : test de Fisher

Hypotheses

On dispose de deux echantillons d’ecart-types respectifs σ1 et σ2. On sedemande s’il est raisonnable de penser que les deux echantillons ont ete tiressuivant des lois de meme ecart-type ou si ils sont significativement differents.

H0 : σ1 = σ2

H1 : σ1 6= σ2

Statistique

F = σ12

σ22 suit une loi de Fisher Fn1,n2 sous H0.

Lateralite - Region de rejet

Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.

Sous R

var.test

Page 63: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Hypotheses

On dispose de deux echantillons de moyennes respectives µ1 et µ2 etd’ecart-type respectifs σ1 et σ2. On se demande s’il est raisonnable de penserque les deux echantillons ont ete tires suivant des lois de meme esperance ou sileurs moyennes sont significativement differentes.

H0 : µ1 = µ2

H1 : µ1 6= µ2

Page 64: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Statistique

La valeur de la statistique peut prendre quatre expressions differentes suivantsles criteres suivants :

appariement les echantillons sont apparies ou non.

egalite des variances les variances sont significativement differentes(heteroscedasticite) ou pas (homoscedasticite).

Toutes ces statistiques reposent en fait sur le meme principe qui est dedependre essentiellement de la difference µ1 − µ2, normalisee par une quantitepermettant d’obtenir une variable de loi de Student sous H0.Par exemple, dans le cas d’echantillons non apparies, de variance nonsignificativement differentes, et de taille respectives n et m,

t =µ1 − µ2

σ√

1n

+ 1m

ou

σ =

√(n − 1)σ1

2 + (m − 1)σ22

n + m − 2

Page 65: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Lateralite - Region de rejet

Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.

Sous R

t.test en utilisant les parametres x et y pour les deux echantillons,alternative pour le lateralite, paired pour l’appariement ou non desechantillons et var.equal pour l’egalite des variances.

Page 66: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> var.test(x,y)

F test to compare two variances

data: x and y

F = 1.1054, num df = 99, denom df = 99, p-value = 0.6192

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.7437349 1.6428291

sample estimates:

ratio of variances

1.105364

>

Page 67: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)

Two Sample t-test

data: x and y

t = -0.51623, df = 198, p-value = 0.6063

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.7230104 0.4230104

sample estimates:

mean of x mean of y

4.93 5.08

Page 68: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.5 Test non-parametrique pour deux echantillons :Test de Wilcoxon-Mann-Whitney

Page 69: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Appariement

Deux echantillons x = (x1, . . . , xn) et y = (y1, . . . , yn) sont apparies si ilscorrespondent a des mesures prises sur les memes individus dans des conditionsdifferentes.

Tester l’egalite de leurs medianes revient alors a considerer l’echantillon desdifferences x−y et a tester si la mediane de cet echantillon est bien nulle ⇒test du signe ou des rangs signes de Wilcoxon.

On suppose par la suite que les deux echantillons sont non apparies.

Page 70: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Wilcoxon-Mann-Whitney

Donnees

Deux echantillons x = (x1, . . . ,xn1) et y = (y1, . . . ,yn2).

Question

La mediane m1 de la population dont x est issu est-elle significativementdifferente de la mediane m2 de la population dont y est issu ?

Postulat

Le test necessite de faire l’hypothese que les distributions sont identiques a unetranslation pres.

Page 71: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Wilcoxon-Mann-Whitney

Formulation

H0 : m1 = m2

H1 : m1 6= m2

Ce test peut etre mene de maniere unilaterale.

Sous R

Fonction wilcox.test

Page 72: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Wilcoxon-Mann-Whitney

Statistique

On ordonne l’echantillon obtenu en concatenant les deux echantillons d’interet.On note Si la somme des rangs de l’echantillon i . L’idee est que sous H0, S1 etS2 devraient etre proche l’un de l’autre et de (n1+n2)(n1+n2+1)

2.

L’approche de Wilcoxon considere S1 ou S2 comme statistique. Celle deMann-Whitney considere l’une des statistiques Ui = Si − ni (ni+1)

2.

Les lois des Si et Ui peuvent etre calculees explicitement pour des ni petits etsont tabulees dans les logiciels de statistique.

Page 73: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Wilcoxon-Mann-Whitney

Exemple : x = (4,6,2), y = (1,3,8,9)L’appartenance aux echantillons dans l’echantillon concatene ordonne est(y,x,y,x,x,y,y).On a alors Sx = 2 + 4 + 5 = 11 et Ux = 11− 3×4

2= 5

U1 peut etre calcule en prenant chacune des valeurs de l’echantillon 2 et enregardant combien de valeurs de l’echantillon 1 lui sont superieures, puis ensommant les resultats obtenus.

Page 74: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Approximation pour les grands echantillons

Soit U = min(U1,U2).Pour n1 et n2 tous deux superieurs a 20, il est raisonnable de considerer que

Z =U + 1

2− 1

2n1n2√

(n1 + n2)(n1 + n2 + 1)/12

suit une loi normale centree reduite.

Cas d’ex-aequos

Les rangs des ex-aequos sont remplaces par leurs rangs moyens comme dans lechapitre precedent. Si le nombre d’ex-aequos est tres faible, ils peuvent etrenegliges. Sinon, il faut modifier l’approximation pour les grands echantillons enretranchant au terme sous la racine du denominateur la quantite∑

(t3l − tl)

n1n2

12(n1 + n2)(n1 + n2 − 1)

Page 75: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Autre possibilite : generalisation du test du signe

Soit m0 la mediane de l’echantillon concatene. On dresse le tableau de variationEchantillon 1 Echantillon 2

> m0 a1 a2

< m0 n1 − a1 n2 − a2

et on applique un test d’independance entre les variables Echantillon et Etreinferieur a m0 (cf chapitres suivants).

I Avantage : pas de postulat

I Inconvenient : manque de puissance

Page 76: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.6 Comparaison parametrique de trois echantillons non apparies ou plus :ANOVA

Page 77: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

ANOVA a un facteur

Donnees

k echantillons x1 = (x1,1, . . . ,x1,n1) et xk = (xk,1, . . . ,xk,nk).

Question

Les medianes µ1, . . . , µk des populations dont sont issues les echantillonssont-elles toutes egales ?

Postulat

Les distributions sont normales de variances identiques.

Page 78: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

ANOVA a un facteur

Formulation

H0 : µ1 = µ2 = . . . = µk

H1 : Au moins une moyenne differe

Sous R

Fonction aov

Page 79: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

ANOVA a un facteur

Decomposition de la variance

p∑j=1

nj∑i=1

(xij − x)2 =

p∑j=1

(xj − x)2 +

p∑j=1

nj∑i=1

(xij − xj )2 (1)

SCT = SCE + SCR (2)

Carres moyens : CMT = SCTn−1

, CME = SCEp−1

, CMR = SCRn−p

.

Statistique

F = CMECMR

. Souc H0, F suit une loi Fisher(p − 1,n − p).

Page 80: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.7 Comparaison non-parametrique de trois echantillons non apparies ouplus :

Test de Kruskal-Wallis

Page 81: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kruskal-Wallis

Donnees

k echantillons x1 = (x1,1, . . . ,x1,n1) et xk = (xk,1, . . . ,xk,nk).

Question

Les medianes m1, . . . ,mk des populations dont sont issues les echantillonssont-elles toutes egales ?

Postulat

Les distributions sont identiques a des translations pres.

Page 82: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kruskal-Wallis

Formulation

H0 : m1 = m2 = . . . = mk

H1 : Au moins une mediane differe

Sous R

Fonction kruskal.test

Page 83: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kruskal-Wallis

Statistique

I xij la j eme observation de l’echantillon i et Rij son rang dans l’union detous les echantillons.

I ni la taille de l’echantillon i et Ri. =∑

1≤i≤niRij .

I La statistique est

FKW =12

n(n + 1)

k∑i=1

ni(Ri. −n + 1

2)2

=12

n(n + 1)

k∑i=1

R2i.

ni− 3(n + 1)

FKW a une loi qui peut etre calculee exactement pour les petits echantillons etqui suit asymptotiquement une loi du χ2 a k − 1 ddl pour de grandsechantillons.

Page 84: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

I.8 Comparaison de trois echantillons apparies ou plus :Test de Friedman

Page 85: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Friedman

Donnees

k echantillons apparies x1 = (x1,1, . . . ,x1,n) et xk = (xk,1, . . . ,xk,n).

Question

Les medianes m1, . . . ,mk des populations dont sont issues les echantillonssont-elles toutes egales ?

Postulat

Les distributions sont identiques a des translations pres.

Page 86: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Friedman

Formulation

H0 : m1 = m2 = . . . = mk

H1 : Au moins une mediane differe

Sous R

Fonction friedman.test

Page 87: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Friedman

Statistique

I X = ((xij )) une matrice de taille k × n contenant les observations.

I Rij le rang de xij dans sa colonne, c’est-a-dire parmi toutes les j eme

observations.

I La statistique est

SF =12n

k(k + 1)

k∑i=1

(Ri. −k + 1

2)2

=12

nk(k + 1)

k∑i=1

R2i. − 3n(k + 1)

SF a une loi qui peut etre calculee exactement pour les petits echantillons et quisuit asymptotiquement une loi du χ2 a k − 1 ddl pour de grands echantillons.

Page 88: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

III. COMPARER PLUSIEURS VARIABLES

Page 89: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Question

On considere un couple de variables (X ,Y ). Que peut-on dire de la facon dontX evolue suivant les valeurs de Y ?

Variable quantitative vs variable qualitative

Cela revient a comparer les echantillons de valeurs de X correspondant auxdifferentes valeurs de Y . On utilise donc les tests du chapitre precedent pourcomparer les moyennes/medianes.

Page 90: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

III.3 Deux variables quantitatives :Tests de correlation

Page 91: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation de Pearson

corr(x,y) =cov(x,y)

sxsy

> x

[1] 0.78567941 0.05432453 0.89717001 0.91937463 0.22518722 0.73888938

[7] 0.76829641 0.36158277 0.31026795 0.40520112

> y

[1] 0.079708449 0.726701520 0.006416492 0.704536224 0.227744839 0.320827909

[7] 0.339496034 0.671403866 0.079917410 0.682257054

> z

[1] 0.2384315 0.8917615 0.2553335 0.7994183 0.3156023 0.5391647 0.6285664

[8] 0.7197179 0.2830458 0.9801462

> cor(x,y)

[1] -0.3106941

> cor(y,z)

[1] 0.9549087

Page 92: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation des rangs de Spearman

ρ = corr(r(x), r(y))

ou r(x) designe l’echantillon des rangs tire de x.

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="spearman")

[1] -0.2484848

> cor(y,z,method="spearman")

[1] 0.9515152

Page 93: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation des rangs de Kendall

I Soit nc le nombre de concordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi < yj ;

I Soit nd le nombre de discordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi > yj ;

Le coefficient de Kendall est alors

τ =nc − nd

n(n − 1)/2

> rank(x)

[1] 8 1 9 10 2 6 7 4 3 5

> rank(y)

[1] 2 10 1 9 4 5 6 7 3 8

> rank(z)

[1] 1 9 2 8 4 5 6 7 3 10

> cor(x,y,method="kendall")

[1] -0.2

> cor(y,z,method="kendall")

[1] 0.8666667

Page 94: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Independance de deux variables qualitatives : test des coefficients decorrelation

Interpretation

Ces trois coefficients sont compris entre −1 et 1 et valent 0 pour des variablesindependantes.Une valeur significativement positive indique une correlation positive (Yaugmente quand X augmente).Une valeur significativement negative indique une correlation negative (Yaugmente quand X augmente).

Page 95: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Independance de deux variables qualitatives : test des coefficients decorrelation

Formulation

H0 : corr(x,y) = 0 ou ρ = 0 ou τ = 0

H1 : corr(x,y) 6= 0 ou ρ 6= 0 ou τ 6= 0

Lateralite

Le test peut etre mene de facon unilaterale pour ne detecter qu’une correlationpositive ou qu’une correlation negative.

Sous R

cor.test

Page 96: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Principe des tests

Test de Pearson

Sous H0, a condition que le couple (X ,Y ) suive une loi normale bivariee ouque l’effectif soit suffisamment important,

S =corr(x , y)√1−corr(x ,y)2

n−2

suit une loi du χ2 a n − 2 ddl,

Tests non paramtrique

Les lois correspondantes sont tabulees.

Page 97: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple 1 (P. Sprent)

7 declinaisons d’un meme produit ont ete evalues par des panels deconsommateurs francais et allemands. Les rangs obtenus pour les 7 produitssont les suivants. On se demande s’il y a une concardance entre les classements.

F 1 2 3 4 5 6 7D 3 4 1 5 2 7 6

Spearman : ρ = 0.57, p-valeur de 0.2.Kendall : 15 concardances, 6 discordances, τ = 0.48, p-valeur de 0.43.

Page 98: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple 2

Le tableau suivant donne le taux d’ensoleillement (en heures/an) et depluviometrie (en mm/an) en dix villes situes sur un axe nord-sud. Peut-onparler d’une tendance monotone de croissance de l’ensoleillement le long de cetaxe ? De diminution de la pluviometrie ?

Lille Amiens Paris Auxerre Dijon Lyon Orange Marseille Bastia Ajaccio1617 1608 1630 1710 1789 1932 2596 2851 2533 2726686 675 641 637 744 843 722 555 835 640

Les tests de correlation peuvent etre une alternative plus puissante au test deCox-Stuart pour la detection de tendance. On peut par exemple caracteriserchaque ville par sa latitude.

Page 99: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Plus de deux variables

I Kendall a introduit un coefficient de concordance si il y a plus de deuxvariables. Il n’est cependant plus possible de faire la difference entreconcordance et discordance, mais seulement entre homogeneite etheterogeneite.

I Pour k variables et des echantillons de taille n avec Rij designant le rangde l’individu i pour la variable j , ce coefficient vaut

W =12

k2n(n2 − 1)

n∑i=1

(Ri• −k(n + 1)

2)2

avec Ri• = sumjRij .

I k(n − 1)W correspond a la statistique de Friedman et suit donc une loi duχ2 a n − 1 degres de liberte.

Page 100: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Plus de deux variables

Tester l’independance de plus de trois variables revient en fait a faire un test deFriedman en changeant les hypotheses :

H0 : Les variables sont independantes

= les rangs sont distribuees au hasard

H1 : Les variables ne sont pas independantes

= il y a concordance entre les rangs

Page 101: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

X1 X2 X3 X4

2 13 1 124 9 3 87 6 4 48 6 6 5

12 2 9 1

La p-valeur de Friedman est de 0.97. H0 est donc tres claiement accepte : eneffet, les sommes des rangs par ligne sont tres proches.

Pourtant, on peut voir que X1,X3 et X2,X4 sont concordantes et de rangsrespectifs inverses (ou presque). Cette situation est indetectable par un test deconcordance.

Page 102: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

III.2 Deux variables qualitatives :Tests de Fisher et du χ2 d’independance

Page 103: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Table de contingence

I X et Y sont qualitatives : pas de coefficient de correlation possible

I Leur valeurs sont regroupees en respectivement r et s ensembles.

I Le tableau a r lignes et s colonnes contenant les effectifs est appele tablede contingence.

I Les sommes par lignes et colonnes donnent les effectifs marginaux. Lasomme globale donne l’effectif total.

Exemple :Guerison Non-guerison

Traitement 7 3Placebo 3 6

Page 104: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Sommes marginales fixees : le test exact de Fisher

Formulation

H0 : X et Y sont independantes

H1 : X et Y ne sont pas independantes

Postulats

Les sommes marginales sont fixees.

Page 105: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Sommes marginales fixees : le test exact de Fisher

Procedure

Considerons l’exemple d’une table 2× 2 avec une repartitiona bc d

.

Fisher a etabli des formules d’enumeration du nombre de repartition possibledes a + b + c + d elements de facon a ce que les sommes par ligne valent biena + b et c + d et les sommes par colonnes a + c et b + d . Sous une hypothesed’equiprobabilite de ces repartitions, la probabilite de la table de contingenceprecedente est

(a + b)!(a + c)!(b + c)!(b + d)!

(a + b + c + d)!a!b!c!d !

Ces formules peuvent etre etendues a des tailles de tables plus grandes et sontcalculables de maniere efficace algorithmiquement.

Page 106: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Sommes marginales libres : le test du χ2 d’independance ou χ2 de Pearson

Dans le cas de grands echantillons, il n’est plus necessaire de supposer lessommes marginales fixees.

Formulation

H0 : X et Y sont independantes

H1 : X et Y ne sont pas independantes

Postulats

L’echantillon est grand.

Page 107: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Sommes marginales libres : le test du χ2 d’independance ou χ2 de Pearson

Procedure

On note nij l’entree de la table dans la cellule i × j , ni• la somme des effectifsde la ligne i et n•j la somme des efectifs de lacolonne j .Sous hypothese d’independance,

P(X ∈ Ii ,Y ∈ Jj ) = P(X ∈ Ii)P(Y ∈ Jj )

ce qui se traduit, si on remplace les probabilites par leurs estimateurs, par uneegalite attendue entre nij et eij =

ni•n•jN

, ou N est l’effectif total.

La statistique

T =∑i,j

(nij − eij )2

eij=∑i,j

n2ij

eij−N

suit une loi du χ2 a (r − 1)(s − 1) degres de liberte sous H0.

Page 108: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

Des cultures cellulaires de souches differentes sont soumises a desrayonnements radioactifs et la proportion de cellules mortes est relevee.

A B C Dray. α 23 34 17 78ray. β 58 64 56 86ray. γ 45 37 43 79

temoin 04 06 02 03

I valeur de la statistique de 23.6

I nombre de degres de liberte de 9

I p-valeur de 4.9 10−3. Les souches reagissent differemment auxrayonnements.

Page 109: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Fisher ou χ2 ?

I Asymptotiquement, ils sont equivalents en terme de puissance.

I Le test de Fisher est beaucoup plus couteux algorithmiquement : le test duχ2 lui est generalement prefere, hormis dans le cas des tables 2× 2 avecdes effectifs assez reduits.

I Avoir des sommes marginales fixes (Fisher) est en general non conforme al’experience. Dans un test medical Cas/Controles par exemple, le nombrede cas et de controles est fixe mais le nombre de patients repondantfavorablement ne l’est pas.

I Attention : la loi du χ2 est une approximation, elle est donc d’une validitedouteuse quand les effectifs sont faibles.

Page 110: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

IV. AUTRES TESTS

Page 111: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

IV.1. Adequation a une loi

Page 112: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du chi-deux d’adequation

Formulation

Soit (X1, . . . ,Xn) un echantillon et F0 une distribution donnee. On cherche adeterminer si l’echantillon est tire suivant F0. Pour cela, on considere lafonction de repartition

Fn(t) =1

n

n∑i=1

IXi<t

H0 : Fn = F0

H1 : Fn 6= F0

Postulats

Pas de postulat particulier.

Page 113: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du chi-deux d’adequation

I Partition de l’ensemble des valeurs possibles de X en un nombre finid’intervalles I1, . . . , Ik , Ik = [ak−1, ak ].

I Pour tout 1 ≤ i ≤ k : πi = F0(ai)− F0(ai−1.

I Soit Ui le nombre de mesures parmi n faisant partie de l’intervale Ii . Usuit une loi multinomiale

P(U1 = m1, . . . ,Uk = mk ) =n!

m1! . . .mk !πm1

1 . . . πmkk

I Pris separement, chaque Ui suit une loi binomiale B(n, πi). Pour nsuffisamment grand, le TCL implique que Ui−nπi√

nπisuit une loi normale

centree reduite.

Page 114: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du chi-deux d’adequation

Statistique

X 2n =

k∑i=1

(Ui − nπi)2

nπi

Sous H0, pour n assez grand, X 2n suit une loi du chi-deux a (k − 1) degres de

liberte, notee χ2(k−1).

Si Xn est proche de 0 , les effectifs observes (Ui) sont proches des effectifsattendus (nπi) et H0 est accepte. Si Xn est eleve, il existe des intervalles pourlequel la difference entre l’observation et l’attendu est grande, et H0 est rejetee.La p-valeur du test est pv = 1− Fχ2

(k−1)(X 2

n ).

Remarque ; Cette loi est definie comme celle suivie par la somme des carres dek − 1 lois normales centrees reduites. Le passage a k − 1 alors qu’il y a ktermes dans la sommation vient du fait que les Ui ne sont pas independantspuisque

∑Ui = n.

Page 115: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

On a mesure le poids de 25 barils de lessive censes faire 1kg , on se demande siils suivent une loi normale d’ecart-type 25g comme prevu. Les poids engrammes sont les suivants :

X = (947, 965, 970, 976, 978, 980, 986, 989, 996, 996, 997, 999, 1000,

1002, 1003, 1006, 1008, 1008, 1010, 1013, 1018, 1023, 1025, 1027, 1030)

On decoupe R en intervalle I1 =]−∞, 980], I2 =]980, 1000], I3 =]1000, 1020],I4 =]1020,+∞[.Les probabilites associees sous H0 sont π1 = 0.21, π2 = 0.28, π3 = 0.21,π4 = 0.28.

Intervalle I1 I2 I3 I4Attendu 5.3 7.2 7.2 5.3Observe 6 7 8 4

La statistique associee vaut 4 et la p-valeur associee vaut 0.26 : H0 estacceptee.

Page 116: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Remarques

I Si les intervalles sont choisis trop petits, les Ui sont la plupart du tempsegaux a 0 ou 1 et meme pour n grand, l’approximation asymptotique serevele fausse. En pratique, on recommande de choisir les intervalles telsque nπi ≥ 5.

I En fait, le test du chi-deux d’adequation teste la veracite de l’hypothese

H ′0 : πXi = πi , ∀i

ou πXi est la probabilite sous la loi de X de tomber dans Ii . C’est donc

une hypothese moins forte que H0 : il est possible que H0 soit fausse maisque H ′0 soit vraie.En decidant de rejeter H0 si H ′0 est fausse, on fait donc un choixconservatif.

I Dans le cas d’une variable X qualitative, il est possible de mener ce test enordonnant de facon arbitraire les valeurs possibles.

Page 117: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Autre exemple

L’equilibre de Hardy-Weinberg regit la repartition des alleles non-sexuels dansune population homogene avec union aleatoires et non-consanguines : si il estverifie, P(AA) = p2

A, P(Aa) = 2pA(1− pA) et P(aa) = (1− pA)2 ou pA est lafrequence de l’allele A dans la population.

On veut tester si equilibre vrai avec pA = 0.2 et une population de taillen = 100.

Genotype AA Aa aaAttendu 4 32 64Observe 7 19 74

On obtient une statistique de χ2 = (7−4)2

4+ (32−19)2

19+ (74−64)2

64= 9.09 et une

p-valeur de 0.01. L’hypothese H0 est rejetee. Soit la frequence de l’allele n’estpas de 0.2, soit l’equilibre de Hardy-Weinberg n’est pas respecte.

Page 118: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kolmogorov-Smirnov

Formulation

Soit (X1, . . . ,Xn) un echantillon et F0 une distribution continue donnee. Oncherche a determiner si l’echantillon est tire suivant F0. Pour cela, on considerela fonction de repartition

Fn(t) =1

n

n∑i=1

IXi<t

H0 : Fn = F0

H1 : Fn 6= F0

Postulat

La distribution candidate est continue.

Page 119: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kolmogorov-Smirnov

Le principe est de choisir comme statistique une distance entre fonctions quel’on applique a Fn et F0.Les choix possibles sont

Kolmogorov-SmirnovDn = supt∈R|Fn(t)− F0(t)|

Cramer-Von Mises

Cn =

∫R(Fn(t)− F0(t))2dF0(t)

Andersen-Darling

An =

∫R

(Fn(t)− F0(t))2

F0(t)(1− F0(t))dF0(t)

ω2 Generalisation des 2 precedents.

ω2n =

∫R(Fn(t)− F0(t))2ξ(F0(t))dF0(t)

avec ξ une fonction positive sur ]0, 1[.

Les trois autres tests sont similaires a celui de Kolmogorov-Smirnov d’un pointde vue de l’utilisation et de l’interpretation mais techniquement pluscompliques.

Page 120: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kolmogorov-Smirnov

Le maximum de la fonction |Fn − F0| est forcement pris sur l’un des sauts deFn . Si X(i) correspond a la ieme valeur de l’echantillon range par ordrecroissant, determiner la statistique Dn revient donc a calculer | i

n−X(i)| et

| i−1n−X(i)| pour tout i et a prendre le maximum de ces 2n valeurs.

La loi sous H0 de Dn est calculee :

I exactement par des algorithmes pour n petit.

I par approximation asymptotique pour n grand :

P(√nDn ≤ x) ∼ K (x) = 2

+∞∑k=1

(−1)k−1e−2k2x2

La p-valeur du test est donc obtenue par pv = 1−K (√nDn).

Page 121: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de Kolmogorov-Smirnov

Les test de type Kolmogorov-Smirnov peut etre rendu unilateral : on teste si ladistribution de l’echantillon est globalement plus ’basse’ que la distribution dereference, auquel cas on s’interesse au fait que Fn − F0 est positive et onchoisit comme statistique max(Fn(t)− F0(t)) ;ou a l’inverse on teste si la distribution de l’echantillon est globalement plus’basse’ que la distribution de reference, auquel cas on s’interesse au fait queFn − F0 est negative et on choisit comme statistique max(F0(t)− Fn(t)).

Dans ce cas, K est remplace par K ∗ definie par K ∗(x) = 1− e−x2

dansl’approximation asymptotique.

Page 122: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple

On a mesure le poids de 20 barils de lessive censes faire 1kg , on se demande sisuivent une loi normale d’ecart-type 25g comme prevu. Les poids en grammessonts le suivants :

X = (947, 965, 970, 976, 978, 986, 989, 996, 997, 1000,

1002, 1008, 1010, 1013, 1018, 1023, 1025, 1030) (3)

On calcule Dn , qui vaut 0.111. La p-valeur asymptotique est1−K (

√200.111) = 0.97.

Page 123: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

IV.2 Test d’appartenance a une famille de lois

Page 124: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test d’appartenance a une famille de lois

Le principe du test du χ2 peut etre generalisee pour tester l’appartenance a unefamille de loi, autrement dit savoir si Fn appartient a une famille de fonctionsde repartition F0 = {F (x , θ) : θ ∈ Θ}.Le principe reste la meme, y compris la statistique

X 2n (θ) =

k∑i=1

(Ui − nπi(θ))2

nπi(θ)

La seule difference etant qu’il faut donner une valeur au parametre θ a traversl’utilisation d’un estimateur θ. Il y a plusieurs possibilites :

1. θ = argminθ∈ΘX2n (θ)

2. θ = argminθ∈Θ

∑ki=1

(Ui−nπi (θ))2

Ui. On parle de statistique du χ2 modifie

dans ce cas.

3. θ est l’estimateur du maximum de vraisemblance pour la distributionmultinomiale, c’est-a-dire la valeur maximisant la log-vraisemblancel(θ) =

∑ki=1 Ui lnπi(θ) + C .

Page 125: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test d’appartenance a une famille de lois

Proposition

Sous les conditions

1. 0 < πi(θ) < 1 pour tout i et tout θ ;

2. les πi(θ) sont de classe C2 ;

3. la matrice des derivees partielles[ dπi (θ)

θj

]1≤i≤k,1≤j≤s

est de rang s ;

et pour chacun des estimateurs precedents, X 2n (θ) suit asymptotiquement une

loi du χ2 a k − s − 1 degres de liberte.

On peut donc appliquer le test du χ2 comme precedemment, en otant autantde degres de liberte que de dimensions dans Θ et en calculant la statistique al’aide d’un des estimateurs cites plus haut.

Page 126: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de normalite : le test de Shapiro-Wilk

On considere un vecteurx dont on se demande s’il a ete tire suivant une loinormale.

Droite de Henry

Soit Φ la fonction de repartition de la loi normale centree reduite. SiX ∼ N (µ, σ2),

P(X < xi) = Φ(xi − µσ

)

En definissant ti = Φ−1(P(X < xi), les points (xi , ti) devraient sont doncalignes si la loi est normale.

Remarque : Cette methode permet d’estimer la moyenne et la variance de la loisi elle est bien normale.

Page 127: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test de normalite : le test de Shapiro-Wilk

Formulation

H0 : La loi de l’echantillon est normale

H1 : La loi n’est pas normale

Principe

Le test de Shapiro-Wilk consiste a considerer le rapport entre l’estimation de lavariance suivant la droite d’Henry et l’estimation de la variance par l’estimateurhabituel.

W =(∑n

i=1 aixi)2∑n

i=1(xi − x)2

ou les ai sont des constantes tabulees.Si la distribution est bien normale, ce rapport doit etre proche de 1.

Page 128: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

IV.3 Test du rapport de vraisemblance

Page 129: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Modeles emboıtes

On considere deux modeles M1 et M2 pour decrire le meme processus. M1

est emboıte dans M2 s’il correspond a un cas particulier de M2.

Exemple :

M1 Y = α+ βX + ε

M2 Y = α+ βX + γZ + δW + ε

La question qui se pose est de savoir si la modele M2 decrit mieux les donneesque le modele M1

Page 130: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Test du rapport de vraisemblance

Formulation

H0 : M2 n’apporte pas une meilleure description que M1

H1 : M2 est significativement meilleur

Principe

On calcule les maximum des vraisemblances L1 et L2 correspondant aux deuxmodeles. Le second est forcement le plus grand car les modeles sont emboıtes.Soit p le nombre de parametres introduits en plus dans le modele M2 (p = 2dans l’exemple). La statistique

X = −2 log(L1

L2)

suit alors une loi du χ2 a p degres de liberte.

Remarque : Ce test peut aussi s’appliquer sur des modeles non emboıtes maisla loi de la statistique doit alors etre determinee en fonction des modeles enquestion.

Page 131: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De
Page 132: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De
Page 133: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

V. BOOTSTRAP

Page 134: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

V.1. Principe du bootstrap

Page 135: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Principe

Probleme

On dispose d’un echantillon qu’on veut utiliser pour estimer un parametre oufaire un test mais la loi sous-jacente n’est pas connue.

Exemple : L’echantillon est trop petit pour utiliser un test parametrique basesur le TCL.

Idee

On va creer un ensemble d’echantillons semblables a l’echantillon de base, etqui vont servir de population de reference consideree comme representative dela loi inconnue.

Page 136: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Distribution empirique

Considerons une loi de distribution P et un echantillon X = (X1, . . . ,Xn) devaleurs independantes tirees suivant cette loi.La distribution empirique liee a l’echantillon est

P(x) =n∑

i=1

IXi (x)

I P es la meilleur approximation de P en-dehors de toute hypothese sur laforme de P

I Pour tout intervalle I , P(I ) tend vers P(I ) quand n tend vers l’infini, enraison de la loi des grands nombres appliquee a IA.

I Idee du bootstrap : approximer P par P .

Page 137: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Echantillons bootstrap

Definition

Un echantillon bootstrap X(b) est un n-echantillon tire suivant la distributionP . En d’autres termes, X(b) est obtenu en tirant n fois uniformement avecremise dans l’echantillon X .

Exemple :

X = (2, 5, 6, 9, 3, 5)

X(1) = (9, 5, 5, 6, 9, 2)

X(2) = (5, 3, 5, 5, 2, 6)

...

Page 138: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Vue d’ensemble

Monde reel

loi P

echantillon X = (X1, . . . ,Xn)

statistique d’interet θ = s(X)

Monde du bootstrap

loi P

echantillon X∗ = (X ∗1 , . . . ,X∗n )

statistique d’interet θ∗ = s(X∗)

Page 139: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Methode de Monte-Carlo pour la probabilite d’un evenement

I on approche P(θ ∈ A) par P(θ∗ ∈ A)

I la loi de P(θ∗ n’est pas forcement accessible

I on utilise la methode de Monte-Carlo pour estimer P(θ∗ ∈ A) :

1. on tire B echantillons bootstrap et on determine les statistiquesθ∗(1), . . . , θ∗(B).

2. P(θ∗ ∈ A) = 1B

∑nb=1 IA(θ∗(b))

Page 140: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

V.2 Application a la qualite d’un estimateur

Page 141: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Application 1 : Estimation de l’erreur standard

Une estimation de l’ecart-type de la statistique d’interet est√(s(X∗b)− s∗)2

B − 1

ou B est le nombre d’echantillons bootstrap, X∗b est le beme echantillon et

s∗ =∑

i s(X∗b)

B.

I Pas besoin d’hypothese de forme de loi

I Applicable a tout estimateur, par exemple a la mediane

Page 142: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

> library(boot)

> x <- c(52, 10, 40, 104, 50, 27, 146, 31, 46)

> mean(x)

[1] 56.22222

> bb <- boot(data = x, statistic = function(x, index) mean(x[index]),

+ R = 1000)

> bb

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:

boot(data = x, statistic = function(x, index) mean(x[index]),

R = 1000)

Bootstrap Statistics :

original bias std. error

t1* 56.22222 -0.3728889 13.03125

Page 143: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

> plot(bb)

Histogram of t

t*

Den

sity

20 60

0.00

0.02

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

−3 0 340

80

Quantiles of Standard Normal

t*

Page 144: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Application 2 : Estimation du biais

I On peut estimer le biais de l’estimateur par s∗ − s(X)

I Une estimation corrigee du biais est donc 2s(X)− s∗

I Attention : la variance de l’estimateur corrige du biais est plus grande.Si le biais est faible par rapport a l’erreur standard, il n’est pas necessairede le corriger.Si le biais est trop grand, l’estimateur choisi n’est peut-etre pas pertinent.

Page 145: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Application 3 : Intervalle de confiance

L’echantillon (s(X∗1), . . . , s(X∗B ) est un echantillon tire suivant la loiempirique de X . On peut donc l’utiliser pour construire un intervalle deconfiance de niveau 1− α de l’estimateur.Pour cela, on pose I = [a, b], avec

I a quantile d’ordre α2

et b quantile d’ordre 1− α2

dans l’echantillonbootstrap.

I a et b determines par la methode BCa (convergence plus rapide vers leveritable intervalle de confiance mais temps de calcul plus long).

Page 146: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

V.3 Application aux tests

Page 147: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Principe

I Considerons un test (parametrique ou non parametrique) de statistique sdont la loi sous H0 ne peut etre determinee. Un test parametrique pourlequel l’echantillon n’est pas assez grand en est un exemple.

I Le bootstrap peut etre utilise pour simuler la loi de s sous H0

I la p-valeur est alors la proportion de valeurs bootstrap de la statistique quisont plus extremes que la valeur observee.

Exemple : Pour un test unilateral a droite, la p-valeur est #{b,s(X∗b)>s(X)}B

.

I La difficulte est de bien choisir la maniere d’effectuer le bootstrap pourechantillonner suivant H0.

Page 148: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple : Independance de deux variables

I On considere deux variables X et Y testees sur les memes individus et onveut tester leur independance.

I On veut simuler des echantillons semblables sous H0, c’est-a-cire avec desechantillons independants : chaque couple d’echantillons bootstrap estcompose d’un echantillon bootstrap X∗b et d’un echantillon bootstrapY∗b tires indepedemment l’un de l’autre.

I On applique la statistique adaptee (chi-deux, correlation, ...) et on endeduit une p-valeur associee.

Page 149: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple : Egalite de deux distributions

I On considere deux echantillons X et Y de tailles nX et nY dont on veuttester l’egalite des distributions.

I On definit l’echantillon concatene Z = (X,Y) dans lequel on tire desechantillons bootstrap Z∗b .

I On definit X∗b comme les nX premiers elements de Z∗b et Y∗b comme lesnY derniers.

I On applique un test base sur toute statistique de comparaison de deuxvecteurs (egalite de moyenne, de variance, . . .).

Page 150: M1 IMSV Etienne Birmel e - math-info.univ-paris5.frebirmele/depots/Enseignements/Tests.pdf · Tests statistiques M1 IMSV Etienne Birmel e. I. TESTS STATISTIQUES :PRINCIPE. Test De

Exemple : Comparaison de deux moyennes

I On considere deux echantillons X et Y et veut tester si leurs moyennesµX et µY sont egales.

I On ne peut pas echantillonner X∗b dans X et Y∗b dans Y car on cherchea simuler sous H0 et X et Y ont des moyennes differentes.

I On definit l’echantillon concatene Z = (X,Y), X′ = X−X + Z etY′ = Y−Y + Z.

I On echantillonne (X′∗b)1≤i≤B a partir de X′ et (Y′∗b)1≤i≤B a partir deY′

I On calcule la statistique de Student pour les couples (X′∗b ,Y′∗b) et pourla statistique de Student observe et on en deduit une p-valeur.