19
Indépendance & Khi-deux ² Mots clés : Indépendance, écart à l’indépendance, tableau observé, tableau calculé, effectifs d’indépendance, distance entre tableaux, contributions absolues, contributions relatives, Khi-deux, ddl par ligne, ddl par colonne, ddl du ², Phi-deux, V de Kramer, coefficient de contingence.

Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Embed Size (px)

Citation preview

Page 1: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Indépendance & Khi-deux ²

Mots clés : Indépendance, écart à l’indépendance, tableau observé, tableau calculé, effectifs d’indépendance, distance entre tableaux, contributions absolues, contributions relatives, Khi-deux, ddl par ligne, ddl par colonne, ddl du ², Phi-deux, V de Kramer, coefficient de contingence.

Page 2: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Généralités :

• Parfois nous nous posons des questions du genre :

• Est-ce que le niveau d’études atteint dépend du milieu social ?

• Est-ce que la mémorisation des mots d’un texte dépend de la longueur des mots ?

• Est-ce que l’impact d’une campagne publicitaire dépend du média choisi ?

• Est-ce que le cours du pétrole dépend de celui de l’euro ?

• Est-ce que le cours de l’euro dépend de celui du pétrole ?

• Est-ce que le loisir préféré des étudiants dépend de leur sexe ?

• Toutes ces questions mettent en jeu deux variables. Ces deux variables sont observées sur la même population.

Page 3: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Généralités :

• Exemple : Considérons une population d’étudiants du DEUG SHS et associons à chaque étudiant un couple d’observations (loisir préféré ; sexe).

• Sur cette (même) population on observe deux variables :

– Variable X : loisir préféré : nominale à 3 modalités : Cinéma, Sport et Musique.

– Variable Y : sexe : nominale à 2 modalités : Garçon, et Fille.

• On obtient une série double (une série de 12 couples)

• X M S C C S S M C S M S SY G G F F F F G F F G F F

Page 4: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Distribution conjointe : Tableau de contingence (tri croisé)

• On a organisé cette série double en tableaux de contingence donnant la distribution conjointe (des effectifs et des fréquences) du couple (X, Y).

• A partir du tableau de contingence on a déduit les distributions marginales.

C S M C S M

G 0 1 3 4 G 0/12 1/12 3/12 1/3

F 3 5 0 8 F 3/12 5/12 0/12 2/3

3 6 3 12 3/12 6/12 3/12 1

Page 5: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Tableau de contingence : tentatives de reconstruction !

• On a vu aussi qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence.

• Ceci soulève le problème de la “liaison entre les deux variables”

C S M C S M G 1 2 1 4 G 0 1 3 4 F 2 4 2 8 F 3 5 0 8 3 6 3 12 3 6 3 12 C S M C S M

G 1 1 2 4 G 2 0 2 4 F 2 5 1 8 F 1 6 1 8 3 6 3 12 3 6 3 12

Page 6: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Tableau de contingence :Comparaison de deux tableaux

• Comparons le tableau de contingence observé avec l’un des tableaux reconstitué par tâtonnement.

C S M C S M G 1 2 1 4 G 0 1 3 4 F 2 4 2 8 F 3 5 0 8 3 6 3 12 3 6 3 12

Tableau reconstitué Tableau observé

Page 7: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Comparons ces deux tableaux en analysant les distributions conditionnelles (les loisirs préférés selon le sexe)

Garçons Garçons

C S M C S M

ni 1 2 1 4 ni 0 1 3 4

fi 0,25 0,5 0,25 1 fi 0 0,25 0,75 1

Filles Filles

C S M C S M

ni 2 4 2 8 ni 3 5 0 8

fi 0,25 0,5 0,25 1 fi 0,375 0,625 0 1

Page 8: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Comparaison des distributions conditionnelles

• On remarque que pour l’un des tableaux les distributions conditionnelles des fréquences sont les mêmes et en plus elles sont identiques à la distribution marginale.

• Définition : Deux variables sont indépendantes si leurs distributions conditionnelles des fréquences sont les mêmes

C S M C S M

G 0,25 0,5 0,25 1 G 0 0,25 0,75 1

F 0,25 0,5 0,25 1 F 0,375 0,625 0 1

0,25 0,5 0,25 1 0,25 0,5 0,25 1

Page 9: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Indépendance et effectifs :

• On démontre que cette définition de l’indépendance se traduit par la relation suivante entre effectifs : effectif conjoint = quotient du produit des effectifs marginaux par l’effectif total.Exemple : 1=(4x3)/12 ; 4=(8x6)/12

• On voit immédiatement que X et Y ne sont pas indépendantes dans le tableau de droite car 5=(8x6)/12

C S M C S M

G 1 2 1 4 G 0 1 3 4

F 2 4 2 8 F 3 5 0 8

3 6 3 12 3 6 3 12

Page 10: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Ecart à l’indépendance :

• Dans notre exemple (tableau de droite) les variables ne sont pas indépendantes. On se propose de mettre en oeuvre un indice qui mesure l’écart à l’indépendance en calculant la distance entre les deux tableaux :

• Le tableau observé : obtenu à partir de la série double

• Le tableau calculé : obtenu en calculant les effectifs (d’indépendance) correspondant au cas où l’on suppose que les deux variables sont indépendantes (modèle d’indépendance).

C S M C S M

G 1 2 1 4 G 0 1 3 4

F 2 4 2 8 F 3 5 0 8

3 6 3 12 3 6 3 12

Page 11: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• On dresse le tableau des écarts en retranchant les effectifs calculés aux effectifs observés.

• Tableau calculé Tableau observé

C S M C S M

G 1 2 1 G 0 1 3

F 2 4 2 F 3 5 0

C S M C S M

G 0-1 1-2 3-1 G -1 -1 2

F 3-2 5-4 0-2 F 1 1 -2

Page 12: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• On remarque que les totaux par ligne et par colonne de ces écarts sont nuls.

• Ceci est vrai pour tout tableau calculé.Pourquoi ?

C S M

G -1 -1 2 0

F 1 1 -2 0

0 0 0

Page 13: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• On calcule le carré de ces écarts.

C S M C S M

G (-1)² (-1)² (2)² G 1 1 4

F (1)² (1)² (-2)² F 1 1 4

Page 14: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• On calcule les contributions absolues : c’est le rapport des carrés des écarts par les effectifs calculés.

• Tableau des carrés des écarts Tableau calculé

C S M C S M

G 1 1 4 G 1 2 1

F 1 1 4 F 2 4 2

C S M

G 1 0,5 4

F 0,5 0,25 2

Page 15: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• Le khi-deux est la somme de toutes ces contributions absolues.

• Tableau des carrés des écarts Tableau calculé

C S M C S M

G 1 1 4 G 1 2 1

F 1 1 4 F 2 4 2

C S M

G 1 0,5 4 5,5

F 0,5 0,25 2 2,75

1,5 0,75 6 8,25

Page 16: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Calcul du khi-deux:

• Le pourcentage des contributions absolues par rapport au khi-deux donne les contributions relatives.

C S M C S M

G 1/8,25 0,5/8,25 4/8,25 5,5/8,25 G 12,12%

6,06%

48,48%

66,67%

F 0,5/8,25 0,25/8,25 2/8,25 2,75/8,25 F 6,06%

3,03%

24,24%

33,33%

1,5/8,25 0,75/8,25 6/8,25 8,25/8,25 18,18%

9,1% 72,72%

100%

Page 17: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Le Phi-deux : ²

• Remarque 1 : Le Khi-deux dépend du nombre total (effectif total n) des observations. La même technique appliquée aux fréquences permet d’éliminer cet “effet de n”. On obtient le Phi-deux (²). Il existe une relation simple entre le Khi-deux et le Phi-deux : le Phi-deux est égal au quotient du Khi-deux par n. Dans l’exemple on a : ²=8,25/12=0,6875

22

n

Page 18: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Degré de liberté : ddl

• On a vu qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence mais pour chaque ligne et chaque colonne la dernière “case” est imposée par la contrainte du total (marginal)

• Définition : On appelle degré de liberté par ligne le nombre de colonnes (de modalités) diminué de 1. On note ddll. Exemple 3-1=2

On appelle degré de liberté par colonne le nombre de lignes (de modalités) diminué de 1. On note ddlc. Exemple 2-1=1 On appelle degré de liberté du khi-deux le produit ddll x ddlc. On note ddl. Exemple (3-1)x( 2-1)=2x1=2

C S M G choix 1 choix 2 ?? 4 F ?? ?? ?? 8 3 6 3 12

Page 19: Indépendance & Khi-deux ² Mots clés : Indépendance, écart à lindépendance, tableau observé, tableau calculé, effectifs dindépendance, distance entre tableaux,

Le V de Kramer : V• Remarque 2 : Le Phi-deux ne dépend plus du nombre

total (effectif total n) des observations, mais dépend encore de la dimension du tableau de contingence (nombre de lignes et de colonnes). Pour éliminer cet “effet dimension” on calcule le V de Kramer en calculant la racine carrée du rapport du ² par le plus petit des deux degrés de liberté (ddll, ddlc).

• Dans l’exemple on a : V=racine carrée de (Dans l’exemple on a : V=racine carrée de (²/1) = racine carrée de ( 0,6875)=0,829

• On montre que : 0 V 1

Vn d d

d

2 2

où Min(ddll ; ddlc)