4

Click here to load reader

Test du Chi2

Embed Size (px)

DESCRIPTION

Un document concernant le test paramétrique dit du chi (khi) deux.

Citation preview

Page 1: Test du Chi2

Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

Le test du 2

Table des matièresObjectif du test...............................................................................................................................................1Comparaison entre une distribution observée et une distribution théorique..................................................1

Principe......................................................................................................................................................1Calculs.......................................................................................................................................................1Exemple.....................................................................................................................................................2

Test de la liaison entre deux variables quantitatives......................................................................................2Principe......................................................................................................................................................2Le calcul du ..............................................................................................................................................2Test de l'hypothèse....................................................................................................................................3

Les outils pour effectuer le test ?...................................................................................................................3Avec un tableur.........................................................................................................................................3Avec le logiciel R......................................................................................................................................4

Table du .........................................................................................................................................................4Statut de la fiche : en cours............................................................................................................................4

NB : La lettre grecque peut aussi se noter indifféremment « khi » ou « chi ».

Objectif du testCe test paramétrique est utiliser pour cerner le lien pouvant exister entre deux variables qualitatives.

Rappel : Une variable aléatoire qualitative concernant une propriété peut être à deux classes (pile/face, oui/non, gagne/perd), mais également comporter plusieurs classes (couleurs, équipe, vote pour/contre/sans opinion etc...). Si l'on peut utiliser la comparaison de pourcentages pour les variables qualitatives à deux classes ou variables dichotomiques, ces techniques ne sont pas adaptées lorsque les effectifs d’une population se distribue en plusieurs classes. Il faut alors utiliser les tests liés non pas à la distribution de l’écart réduit, mais à la distribution dite du 2 .

Comparaison entre une distribution observée et une distribution théorique

PrincipeOn cherche à savoir si la distribution des individus d'un échantillon dans plusieurs classes s'éloigne d'une distribution théorique.

Hypothèse nulle : on suppose que l'échantillon a été prélevé dans une population dont la distribution en k classes obéit à la distribution théorique. Autrement dit, on suppose que les différences observées entre la distribution théorique et la distribution observée sont dues au hasard de l'échantillonnage.

CalculsPour comparer une distribution observée à une distribution théorique d’un caractère qualitatif à k

classes, il faut calculer la quantité (dite « le KHI deux ») :

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 1

Page 2: Test du Chi2

Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

2=∑i=1

i=k nio−ni

t 2

nit (1)

où nio est le nombre d'individus de l'échantillon appartenant à la classe i et ni

t le nombre d'individus appartenant à la classe i dans la distribution théorique.

On cherche ensuite la probabilité correspondante dans la table de ² pour le nombre de degrés de liberté ddl=k−1 . Si cette probabilité est supérieure à 5% (0,05), la différence est considéré comme n’étant pas significative. Si cette probabilité est inférieure ou égale à 5%, alors la différence entre la distribution observée et la distribution théorique est significative, et la probabilité mesure son degré de signification. On rejette alors l’hypothèse nulle qui suppose que l’échantillon est prélevé d’une population suivant la distribution théorique.

ExempleOn cherche à savoir si un dé n'est pas « pipé » : un dé est pipé si la distribution des n tirages

effectués en six classes (correspondant aux six faces du dé) obéit à la distribution théorique (n/6,n/6,n/6,n/6,n/6,n/6).

Test de la liaison entre deux variables quantitatives

PrincipeLa comparaison de deux ou plusieurs échantillons se pose ici en terme de comparaison de

distributions des effectifs de ces échantillons. La question associée est la suivante : est-il raisonnable de penser que les deux échantillons proviennent de la même population ? Répondre à cette question est également un moyen d’étudier la dépendance ou l’indépendance de deux variables qualitatives. Par exemple, on peut considérer la variable « couleur des cheveux » (blonds, bruns, noirs, roux) à 4 classes, et étudier la distribution de ce caractère dans trois échantillons respectivement composés de personnes aux yeux bleus, verts/gris et marrons (variable qualitative « couleur des yeux » à trois classes). Le test de comparaison des distributions de couleurs de cheveux dans ces deux échantillons permettra d’établir s’il est raisonnable que ces échantillons proviennent de la même population. Autrement dit, si cette dernière hypothèse est rejetée, il sera raisonnable de considérer qu’il existe un lien entre la couleur des yeux et la couleur des cheveux.Hypothèse nulle : on suppose que les deux échantillons ont été prélevés dans la même population.. Autrement dit, on suppose que les différences observées entre les deux distributions observées dans les échantillons sont dues au hasard de l'échantillonnage. Autrement cette hypothèse suppose qu'il n'existe pas de lien entre les deux variables qualitatives considérées.

Le calcul du 2

Pour éprouver l’indépendance de deux variables qualitatives V1 et V2 l’une à k classes, l’autre à r classes, on fait d’abord l’hypothèse que ces deux variables sont indépendantes (hypothèse nulle) et puis on calcule ensuite les effectifs théoriques associés à cette hypothèse d’indépendance.

Pour cela on dresse le tableau des contingences existant entre les deux variables qualitatives nommées ici V1 et V2 :

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 2

Page 3: Test du Chi2

Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

V2 classe 1 V2 classe 2 ... V2 classe j ... V2 classe r TotalV1 classe 1 n1,1

o n1,2o n1, j

o n1, ro TL1

V1 classe 2 n2,1o TL2

...V1 classe i ni ,1

o ni , jo TLi

...V1 classe k nk ,1

o nk , ro TLk

Total TC1 TC2 TC j TCr TG

Tableau 1: Tableau de contingence entre les variables V1 et V2En effet, si les effectifs se distribuent de façon indépendante dans les différentes classes des deux variables considérées, alors ces effectifs théoriques ni , j

t sont données par la relation suivante :

ni , jt =

TC j⋅TLiTG

(2)

où TG représente l'effectif total et TC j et TLi les totaux respectifs de la colonne j et de la ligne i.

On calcule ensuite la valeur du 2 :

2=∑i=1

i=k

∑j=1

j=k ni , jo −ni , j

t 2

ni , jt (3)

Test de l'hypothèseSi, pour le risque considéré et le nombre de degrés de liberté considérés (

ddl=k−1⋅r−1 ) la valeur du 2 dépasse une valeur limite appellée ici lim ¿2 alors la

liaison sera considérée comme significative car la distribution des effectifs est trop éloignée de la distribution attendue considérant l'hypothèse nulle. On dira donc qu'il existe une liaison significative entre les deux variables.

La valeur de lim ¿2 est donnée par la table de la distribution du 2 pour le risque et pour le

nombre de degrés de liberté k−1⋅ r−1 considérés. On utilise usuellement un risque égal à 5% (0,05).

Les outils pour effectuer le test ?

Avec un tableurIl est très simple d'effectuer le test avec un tableur. Par exemple, le tableur d'OpenOffice propose

la fonction TEST.KHIDEUX qui propose de calculer la valeur du risque (probabilité) à partir de deux plages de données : le tableau des données observées et celui des effectifs théoriques. Il est donc nécessaire d'appliquer l'équation (2) ci-dessus permettant de calculer les effectifs théoriques. La fonction LOI.KHIDEUX permet d'obtenir la probabilité (ou p) associée à une valeur de 2 et à un nombre de degrés de liberté donné.

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 3

Page 4: Test du Chi2

Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

Avec le logiciel RLe logiciel R propose une fonction permettant de réaliser sans problème ce test.

Table du 2

NB : Cette table a été calculée avec la fonction KHIDEUX.INVERSE d'un tableur

Statut de la fiche : en cours de construction...

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 4

ddl 0,5 0,3 0,2 0,1 0,05 0,025 0,01 0,0011 0,455 1,074 1,642 2,706 3,841 5,024 6,635 10,8272 1,386 2,408 3,219 4,605 5,991 7,378 9,210 13,8153 2,366 3,665 4,642 6,251 7,815 9,348 11,345 16,2664 3,357 4,878 5,989 7,779 9,488 11,143 13,277 18,4665 4,351 6,064 7,289 9,236 11,070 12,832 15,086 20,5156 5,348 7,231 8,558 10,645 12,592 14,449 16,812 22,4577 6,346 8,383 9,803 12,017 14,067 16,013 18,475 24,3218 7,344 9,524 11,030 13,362 15,507 17,535 20,090 26,1249 8,343 10,656 12,242 14,684 16,919 19,023 21,666 27,877

10 9,342 11,781 13,442 15,987 18,307 20,483 23,209 29,58811 10,341 12,899 14,631 17,275 19,675 21,920 24,725 31,26412 11,340 14,011 15,812 18,549 21,026 23,337 26,217 32,90913 12,340 15,119 16,985 19,812 22,362 24,736 27,688 34,52714 13,339 16,222 18,151 21,064 23,685 26,119 29,141 36,12415 14,339 17,322 19,311 22,307 24,996 27,488 30,578 37,69816 15,338 18,418 20,465 23,542 26,296 28,845 32,000 39,25217 16,338 19,511 21,615 24,769 27,587 30,191 33,409 40,79118 17,338 20,601 22,760 25,989 28,869 31,526 34,805 42,31219 18,338 21,689 23,900 27,204 30,144 32,852 36,191 43,81920 19,337 22,775 25,038 28,412 31,410 34,170 37,566 45,31421 20,337 23,858 26,171 29,615 32,671 35,479 38,932 46,79622 21,337 24,939 27,301 30,813 33,924 36,781 40,289 48,26823 22,337 26,018 28,429 32,007 35,172 38,076 41,638 49,72824 23,337 27,096 29,553 33,196 36,415 39,364 42,980 51,17925 24,337 28,172 30,675 34,382 37,652 40,646 44,314 52,61926 25,336 29,246 31,795 35,563 38,885 41,923 45,642 54,05127 26,336 30,319 32,912 36,741 40,113 43,195 46,963 55,47528 27,336 31,391 34,027 37,916 41,337 44,461 48,278 56,89229 28,336 32,461 35,139 39,087 42,557 45,722 49,588 58,30130 29,336 33,530 36,250 40,256 43,773 46,979 50,892 59,702500 499,334 516,087 526,401 540,930 553,127 563,851 576,493 603,446