Comprendre la variation Inférence statistique. zNous avons vu que bien souvent, nous fondons notre opinion ou prenons des décisions à partir déchantillons

Comprendre la variation

Inférence statistique


Nous avons vu que bien souvent, nous fondons notre opinion ou prenons des décisions à partir d’échantillons.

Si l’échantillon est représentatif et précis pour mesurer la caractéristique de la population,alors notre décision sera ‘bonne’.

L’inférence statistique consiste à utiliser des méthodes sur les données de l’échantillon que nous avons observées pour ensuite généraliser nos conclusions à l’ensemble de la population.

En d’autres termes, l’inférence nous permet d’estimer ou de déterminer quelles sont les valeurs possibles dans la populations pour s’assurer que notre jugement ou décision ne serait pas modifié si nous avions les résultats pour toute la population (resensement).

Facteurs qui influencent la précision de l’inférence

Représentativité de l’échantillon – méthode d’échantillonnage

Taille de l’échantillon


Estimation et inférence pour la proportion p (pourcentage) d’une population

Estimation et inférence pour la moyenne µ d’une population

Estimation et inférence pour la différence entre 2 proportions .

Inférence pour une proportion p

Exemple: Sur un échantillon de 125 étudiants d ’un collège interrogés pour savoir s ’ils ont l ’intention de voter aux prochaines élections de leur association, 45 ont répondu positivement.

Estimer, de façon ponctuelle, la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections.

0,36 125

45 p


Quelle est la précision de cet estimé?Quelle est l’influence de la taille de

l’échantillon?Est-ce que nous sommes ‘certains’

que cette proportion est nettement inférieure à 50 %?


Pour répondre à ces questions, nous avons besoin de la distribution (estimé des résultats de plusieurs échantillons)de la statistique qui nous intéresse. Suppose la normalité des données Utilise les méthodes de simulation de Monté-

CarloLa distribution nous permet ensuite de

construire l’intervalle de confiance

Estimation par intervalle de confiance

Pour estimer la proportion p d ’individus possédant la caractéristique à l ’étude dans la

population, ou la moyenne , on utilise un intervalle de confiance au niveau (1- ).

L ’estimation par intervalle de confiance consiste à établir un intervalle de valeurs qui nous permet d ’affirmer, avec un certain niveau de confiance ou de certitude prédéterminé (en général: 90%, 95% ou 99%), que la vraie valeur du paramètre dans la population se trouve dans cet intervalle.

Intervalle de confiance pour p

la proportion p d ’individus possédant la caractéristique à l ’étude dans la population

Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

;n échantillol' dans succès" de" proportion p

Intervalle de confiance pour estimer une proportion p

(suite)

De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie proportion p du caractère à l ’étude dans la population, est donnée par:

; - 1 ] z Z z- P[ que, est tel normale, loi la de tablela danslu , z

/2/2

/2

] n

)p-(1pz p ;

n

)p-(1pz - p [ p /2/2

;n échantillol' dans succès" de" proportion poù

. 1,96 z alors 5%, si /2

Exemple (suite) :Par conséquent, un intervalle de confiance

de 95% de certitude pour la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections nous est donné par:

] 125

0,36x0,641,96 0,36 ;

125

0,36x0,641,96 - 0,36 [ p

,444]0 ; 0,276 [ p

Exemple (suite) :Comment rapporterait-on les résultats

de ce sondage dans le journal étudiant de ce collège?

36% des étudiants du collège ont l ’intention d ’exercer leur droit de vote aux prochaines élections de l ’association étudiante. La marge d ’erreur est de 8,4% avec un niveau de confiance de 95% (ou avec un degré de certitude de 95% ou 19 fois sur 20).

Remarques:Cette formule est approximative et s ’applique

uniquement pour les grands échantillons.Si je prends tous les échantillons aléatoires

possibles de taille n et que je calcule pour chacun un intervalle de confiance au niveau de 95%, 95% d’entre eux incluront la vraie proportion p de la population, et donc 5% ne l ’incluront pas.

La quantité est appelé marge d ’erreur ou précision, au niveau de confiance 95% (19 fois sur 20).

n

)p-(1p96,1

Marge d ’erreur au niveau 95%

p (%)

100 300 500 1000 3000 1000010 5,9 3,4 2,6 1,9 1,1 0,620 7,8 4,5 3,5 2,5 1,4 0,830 9,0 5,2 4,0 2,8 1,6 0,940 9,6 5,5 4,3 3,0 1,8 1,050 9,8 5,7 4,4 3,1 1,8 1,060 9,6 5,5 4,3 3,0 1,8 1,070 9,0 5,2 4,0 2,8 1,6 0,980 7,8 4,5 3,5 2,5 1,4 0,8

taille de l'échantillon n

Marge d'erreur ou précision (en %) selon la taille de l'échantillon n et la valeur de p au niveau 95%

Marge d ’erreur au niveau 90%

p (%)

100 300 500 1000 3000 1000010 4,9 2,8 2,2 1,6 0,9 0,520 6,6 3,8 2,9 2,1 1,2 0,730 7,5 4,4 3,4 2,4 1,4 0,840 8,1 4,7 3,6 2,5 1,5 0,850 8,2 4,7 3,7 2,6 1,5 0,860 8,1 4,7 3,6 2,5 1,5 0,870 7,5 4,4 3,4 2,4 1,4 0,880 6,6 3,8 2,9 2,1 1,2 0,790 4,9 2,8 2,2 1,6 0,9 0,5

taille de l'échantillon n

Marge d'erreur ou précision (en %) selon la taille de l'échantillon n et la valeur de p au niveau 90%

Calcul de la taille n pour assurer une marge d ’erreur maximale

Si nous voulons estimer la proportion p au niveau de confiance (1-) avec une marge d ’erreur maximale notée e, alors nous avons la relation suivante pour le calcul de la taille n de l ’échantillon:

2e

z n e

n2

z

n

0,5x0,5z

n

)p-(1pz

2

/2/2/2/2

Intervalle de confiance pour

On estime le coût moyen du panier d’épicerie avec

Puisque cette estimé est une statistique obtenue à partir d’un échantillon, on peut obtenir sa distribution: On suppose la normalité On simule la distribution (Monté-Carlo)

;n échantillol' de moyenne x

Intervalle de confiance pour estimer la moyenne

De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie moyenne de la population, est donnée par:

] n

z x ;

n

z - x [ /2/2

;n échantillol' de moyenne xoù

. - 1 ] z Z z- P[ que, est tel normale, loi la de tablela danslu , z

/2/2

/2

; population la dans étudel' à variablela de écart type

Remarques:

Cette formule est approximative et s ’applique uniquement pour les grands échantillons (sauf si la caractéristique a une distribution normale et que l ’écart type est connu la formule est exacte).

Lorsque l ’écart type est inconnu, on utilise une estimation de et on remplace la valeur de Z0,025=1,96 pour une valeur légèrement supérieure lu dans une table de la loi de Student qui dépend de la taille de l ’échantillon.

Remarques: (suite)

Interprétation d’un intervalle de confiance au niveau 95% pour la moyenne d ’une caractéristique dans la population:Si je prends tous les échantillons aléatoires de taille n et que je calcule pour chacun un intervalle de confiance de 95%, 95% d’entre eux incluront la vraie moyenne de la population, et donc 5% ne l ’incluront pas.

Intervalle de confiance pour Exemple

Afin de connaître le coût hebdomadaire moyen du panier d ’épicerie pour une famille de 4 personnes résidant à Sherbrooke, on prélève un échantillon de 50 de ces familles et on note le montant de leur épicerie de cette semaine. On obtient un montant moyen de 155$ avec une estimation de l ’écart type de 15$.

Exemple (suite) :Estimer le coût actuel moyen du panier d ’épicerie

d ’une famille de 4 personnes résidant à Sherbrooke à l ’aide d ’un intervalle de confiance de 95% de certitude (on suppose l ’écart type connu à 15$):

En affirmant que le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke est dans l ’intervalle [150,84$; 159,16$], je suis 95% certain d ’avoir raison.

] 50

15 x 1,96 155 ;

50

15 x 1,96 - 155 [

] 59,16$1 ; 150,84$ [

Estimation et inférence entre 2 proportions

Exemple: La compagnie qui effectue du marketing

direct en ligne désire améliorer son taux de réponse pour une de ces campagnes de promotion.

On vous a confié le mandat de planifier ces tests et de déterminer si la nouvelle campagne est plus efficace que l’ancienne.

Comment allez-vous procéder?


Soit p1 le taux de réponse de la campagne actuelle et p2 le taux de réponse de la nouvelle campagne.

En termes mathématiques, nous voulons déterminer si nous avons une évidence statistique nous permettant de conclure que la différence entre p1 et p2 est significativement différente , i.e p1 p2


Nous estimerons p1 et p2 à partir de statistiques calculées sur des échantillons.

Nous savons que toutes les statistiques ont une distribution échantillonnale.

Nous devons donc estimer quelle est la variation possible de

21 pp


La distribution de Sera construite en supposant le ‘statue

quo’,i.e p1 = p2 =p. Sous cette hypothèse, notre

estimé de la proportion de la population est donc obtenu en combinant les résultats des deux échantillons:

21 pp 2 1

2 2 1 1

n n

p n p np

L’intervalle de confiance pour la différence sera obtenu, en supposant la distribution normale ,par

Ou par simulation de Monté-Carlo

] )11

)(1(z p-p( ; )11

)(1(z - p-p( [ p-p21

/22)121

/22)121 nnpp

nnpp

Documents

Comprendre la variation Inférence statistique. zNous avons vu que bien souvent, nous fondons notre opinion ou prenons des décisions à partir déchantillons