44
Stage nouveau programme de Stage nouveau programme de seconde seconde 16/04/10 16/04/10 Applications de Applications de l’étude des l’étude des fluctuations fluctuations d’échantillonnage dans d’échantillonnage dans le nouveau programme le nouveau programme de seconde de seconde

Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

  • Upload
    enya

  • View
    45

  • Download
    0

Embed Size (px)

DESCRIPTION

Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde. Stage nouveau programme de seconde 16/04/10. – Partie 1 – Étude de la fluctuation d’échantillonnage. p. n tirages avec remise. X nombre de boules rouges. Un minimum de « théorie ». - PowerPoint PPT Presentation

Citation preview

Page 1: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Stage nouveau programme de secondeStage nouveau programme de seconde

16/04/1016/04/10

Applications de l’étude des Applications de l’étude des fluctuations fluctuations

d’échantillonnage dans le d’échantillonnage dans le nouveau programme de nouveau programme de

secondeseconde

Page 2: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

– – Partie 1 – Partie 1 – Étude de la fluctuation Étude de la fluctuation

d’échantillonnaged’échantillonnage

Page 3: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Un minimum de « théorie »Un minimum de « théorie »

pn tirages avec remise.

X nombre de boules rouges

Page 4: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

correspondant à la fréquence des

boules rouges a pour moyenne

et pour écart type

Xn

F 1

pXEn

FE )(1)(

npp

pnpn

Xn

F)1(

)1(1)(1)(

X suit la loi binomiale de moyenneE(X) = np et d’écart type )1( ppn

Page 5: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Pour n « assez grand » la loi binomiale est proche d’une loi normale et F suit approximativement la loi normale de moyenne p et d’écart type

npp )1(

Pour une loi normale, environ 95 % des observations se font dans un intervalle de rayon 2 écarts types autour de la moyenne.

Page 6: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Intervalle de fluctuation de 95 % des observations :

[ p – 2 ; p + 2 ]n

pp )1( n

pp )1(

On peut majorer cet intervalle :

d’où

Intervalle de fluctuation de plus de 95 % des observations :

[ p – ; p + ]

41)1( pp

nnpp 1)1(

2

n1

n1

Page 7: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Observations par simulation

Fréquences f1, f2, ..., f50 obtenues sur les 50 échantillons

Distribution d’échantillonnage

Échantillon n° 1 : f 1 = 0,61...

Population :p = 0,6 Échantillon n° 50 : f50 = 0,51

0,400,450,500,550,600,650,700,750,80

0 10 20 30 40 50 0 5 10 15 20

0,940,950,960,970,980,99

1

0 200 400 600 800 1000

Roue 1 Roue 2 Roue 3

Roue 1 Roue 2 Roue 3

Observation_theorie_Echantillonnage.xls

Page 8: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Quels obstacles, quelles questions ?

· Bien distinguer population et échantillon(s).· Définition de « échantillon ».· Intérêt de certaines « images mentales » comme l’urne (de Bernoulli) ou la roulette.· Nécessité d’expérimenter, physiquement et par simulation.· La définition de l’intervalle de fluctuation s’énonce en termes de probabilité.· Bien retenir qu’il y a un seul intervalle de fluctuation au seuil de 95 %. Il est centré sur p.· La formule de l’intervalle de fluctuation au seuil de 95 % n’est pas à faire apprendre aux élèves de seconde.

Page 9: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

– – Partie 2 – Partie 2 – Prendre une décision à Prendre une décision à partir d’un échantillonpartir d’un échantillon

Page 10: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Un minimum de « théorie »Un minimum de « théorie »

p = p0 ?

échantillonf connu

Page 11: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

On fait l’hypothèse que la proportion de boules rouges dans l’urne est p = p0 .

Si l’hypothèse est vraie, on sait que la probabilité qu’un échantillon aléatoire de taille n fournisse une fréquence dans l’intervalle (de

fluctuation) [ p0 –  , p0 +  ]

est environ (ou supérieure à) 0,95.

n1

n1

Page 12: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

On prélève un échantillon aléatoire de taille n dans l’urne sur lequel on observe une fréquence f de boules rouges. On suit la règle de décision suivante :– Si f appartient à [ p0 –  , p0 +  ], on accepte l’hypothèse p = p0 au seuil de 5 %.

– Si f n’appartient pas à [ p0 –  , p0 +  ],

on rejette l’hypothèse p = p0 au seuil de 5 %.

n1

n1

n1

n1

Page 13: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Lorsqu’on, rejette l’hypothèse, le risque (la probabilité) de se tromper est de 5 %. il y a en effet environ 5 % des cas où la fréquence observée est en-dehors de l’intervalle de fluctuation, alors que H0 est vraie.En revanche, lorsqu’on accepte H0, on ne connait pas le risque d’erreur. En effet, celui-ci dépend de la nature de l’hypothèse H1 alternative à H0.

Page 14: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Comparaison des lois binomiales de paramètres n = 20, p = 1/3 et p = 0,6

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

distribution sous H0 distribution sous H1

Page 15: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Quels obstacles, quelles questions ?

· Les situations les plus simples sont celles où on rejette l’hypothèse : notion de « différence significative » ou de « preuve statistique » Dans ce cas, un raisonnement rigoureux est possible fondé sur la probabilité correspondant à l’intervalle de fluctuation.· Il y a deux risques d’erreur. Ne pas faire croire qu’il n’y en a qu’un.

Page 16: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

=ALEA() + 0.3=ENT(ALEA() + 0.3) donne 0 dans 70% des cas0 dans 70% des cas et 1 dans 30% des cas1 dans 30% des cas

=ALEA()

30%70%

?

1,30,30 1

Simulation avec les TICESimulation avec les TICE

Page 17: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’activité :l’affaire Castaneda contre Partida

En Novembre 1976 dans un comté du sud du Texas, Rodrigo Partida était condamné à huit ans de prison. Il attaqua ce jugement au motif que la désignation des jurés de ce comté était discriminante à l’égard des Américains d’origine mexicaine. Alors que 79,1% de la population de comté était d’origine mexicaine, sur les 870 personnes convoqués pour être jurés lors d’une certaine période de référence, il n’y eût que 339 personnes d’origine mexicaine.

Page 18: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Partie A : Simulation de la désignation d’un juré..• On rappelle que la fonction Random de la calculatrice

génère un nombre aléatoire entre 0 et 1. Sur le tableur, on obtient la même fonction avec ALEA().

• Expliquer pourquoi on peut simuler la désignation d’un juré de ce comté sur la cellule A1 à l’aide de la formule =ENT( ALEA() + 0,791). On pourra s’aider de schémas pour représenter des intervalles.

Page 19: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Une réponse d’élève

Page 20: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

L’ensemble de la simulation

• ..\Castaneda v Partida.xls

Page 21: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

La prise de décision: Y a-t-il eu discrimination ? Quelques réponses d’élèves...

Ici, la simulation n’avait pas du tout été exploitée...

Les élèves n’ont pas toujours l’habitude de synthétiser des données en mathématiques...

Page 22: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Ici, en revanche l’exploitation de la simulation est satisfaisante, mais ce qui manquait avec l’ancien programme, était le seuil à partir de laquelle la fréquence observée est significativement « éloignée » de la probabilité...

Page 23: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

• Cette copie est particulièrement satisfaisante; l’élève synthétise bien l’ensemble des paramètres (taille de l’échantillon et écart entre la fréquence observée et 0,791).

• Il est aussi intéressant de noter que naturellement, cette élève utilise le terme de probabilités qui ne figurait pas à son programme...

Page 24: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’activité :l’affaire Hazelwood

En 1964, afin de lutter contre les discriminations dont étaient victimes les minorités ethniques, des lois furent promulguées aux Etats-Unis (Civil Rights Act) stipulant qu’en cas de suspicion de discriminations raciales à l’embauche, le prévenu serait coupable à l’issue du procès s’il ne pouvait prouver son innocence.Le gouvernement américain attaqua en justice le réseau d’établissements scolaires de Hazelwood Independent School District (situé dans le comté de Saint Louis) au motif que parmi les 405 enseignants recrutés lors des années 1972 à 1974, il n’y eût que 15 enseignants noirs alors que dans l’ensemble du comté le taux d’enseignants noirs recrutés durant la même période fut de 15,4%.

Page 25: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

• Utiliser votre cours de statistique, des simulations, des graphiques pour accréditer, à partir des chiffres ci-dessus, la thèse de la discrimination.

• ..\Hazelwood.xls

Page 26: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

• Pour réfuter la thèse de la discrimination, les avocats d’Hazelwood ont contesté la pertinence des chiffres cités par l’accusation. Le taux d’enseignants noirs recrutés dans ce comté était, selon eux, faussé par les modalités particulières de recrutement dans la ville même de Saint Louis. En effet, durant cette même période, une politique dite de « discrimination positive » visait à essayer de recruter 50% de noirs parmi les nouveaux enseignants dans la ville de Saint-Louis. Ainsi, en ne prenant en compte que les enseignants Noirs recrutés dans le comté de Saint Louis en dehors de la ville de Saint Louis, ce taux n’était plus que 5,7%.

• Peut-on à partir de ce nouveau chiffre condamner le réseau d’établissements scolaires d’Hazelwood ?

• ..\Hazelwood.xls

Page 27: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Comment évaluer ?

• « [...] S’agissant de la fluctuation d’échantillonnage, l’objectif est de faire réfléchir les élèves à la conception et à la mise en œuvre d’une simulation et de les sensibiliser aux notions d’intervalle de fluctuation, d’intervalles de confiance et à l’utilisation qui peut en être faite. Aussi, semble-t-il prématuré d’exiger dans des contrôles écrits une autonomie totale des élèves [...] on prendrait en effet le risque de restitutions par cœur pour compenser une assimilation naissante et encore fragile.

• C’est pourquoi, l’évaluation [...] devrait être majoritairement être réalisée sous forme de comptes-rendus de travaux pratiques ou de devoir à la maison.

• [...] Ces modalités d’évaluations mobilisent davantage les capacités de recherche, d’expérimentation et d’initiative. »

• Source: document ressources pour la classe de seconde probabilités et statistiques

Page 28: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

• « [...] Par ailleurs, concernant tout particulièrement ce chapitre, la place de l’oral gagnerait à être développée tant cette forme de communication facilite, par le questionnement interactif [...] l’explicitation de certains raisonnements statistiques délicats à consigner à l’écrit. Dans ce cadre, on peut envisager de proposer des situations dont l’étude est réalisée en classe et dont le compte rendu rédigé à la maison, est suivi d’un exposé en classe ou bien d’échanges avec le professeur permettant d’approfondir certaines argumentations ou démarches imparfaitement restituées à l’écrit afin de les améliorer. ».

• Source: document ressources pour la classe de seconde probabilités et statistiques

Page 29: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’évaluation :sex-ratio

1. La probabilité habituelle de naissance d’un garçon est p = 0,512. Quelle est la probabilité de naissance d’une fille ?

2. Donner la bonne réponse (on ne demande pas de justifier). Si l’on prélève des échantillons aléatoires de taille n dans une population où la fréquence étudiée est p = 0,512 , dans plus de 95 % des cas, la fréquence f observée sur l’échantillon sera comprise dans l’intervalle :

Page 30: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde
Page 31: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’évaluation :les méfaits du tabac (1ère partie)

À l’hôpital Bellevue, en 1952, la fréquence des « grands fumeurs » (plus de 15 cigarettes par jour) parmi les malades est 44 %. Parmi les 1 357 malades soignés pour un cancer du poumon, 806 sont de grands fumeurs.1. Calculer, à 10 – 2 près, les bornes p – et p +  , de l’intervalle de fluctuation à 95 % des fréquences des échantillons aléatoires de taille n = 1 357, lorsqu’on suppose que la proportion de grands fumeurs est p = 0,44. 2. Calculer la fréquence f des grands fumeurs parmi les 1 357 malades atteints de cancer du poumon.3. Est-il « raisonnable » de penser que la différence entre f et p est uniquement due au hasard ? Expliquer.

n1

n1

Page 32: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

– – Partie 3 – Partie 3 – Estimer une proportion Estimer une proportion

inconnueinconnue

Page 33: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Un minimum de « théorie »Un minimum de « théorie »

p = ?

échantillonf connu

Page 34: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

On ignore la proportion p de boules rouges dans l’urne.On sait que, sous certaines conditions, la probabilité qu’un échantillon aléatoire de taille n fournisse une fréquence f comprise dans

l’intervalle [ p –  , p +  ] est supérieure à 0,95.

Or : .n

fpn

fn

pfn

p1111

n1

n1

Page 35: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

On en déduit que, pour plus de 95 % des échantillons aléatoires de taille n, la fréquence inconnue p appartient à l’intervalle

[ f – , f + ] calculé à partir de

l’échantillon.On adopte la procédure d’estimation suivante : on prélève UN échantillon aléatoire de taille n pour lequel on obtient UNE fréquence f et on estime que p est compris dans l’intervalle de

confiance [ f – , f + ]

avec un niveau de confiance de 0,95.

n1

n1

n1

n1

Page 36: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Quels obstacles, quelles questions ?

· L’intervalle de confiance ne correspond pas à une probabilité. On a un seul intervalle centré sur f obtenu après l’expérience aléatoire du tirage dans l’urne. Il n’y a plus de hasard : p est, ou non, dans l’intervalle de confiance.· Ne pas confondre (malgré la symétrie dangereuse de la formule) intervalle de fluctuation et intervalle de confiance.Il y a autant d’intervalles de confiance que d’échantillons. Ils sont centrés sur la fréquence f de l’échantillon.Réserver le mot « confiance » à l’intervalle de confiance. Utiliser plutôt « niveau » de confiance, ou « coefficient » de confiance et préférer « seuil » ou « probabilité » dans le cas de l’intervalle de fluctuation.

Page 37: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’activité :Sondages électoraux

Obama.ods

Page 38: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’activité: estimation de pi par la méthode de Monte-Carlo

• Dans le repère orthonormal (O;I;J) l’aire du carré OIKJ vaut 1.

• On va utiliser la méthode de Monte Carlo pour approcher l’aire du quart de disque c’est-à-dire Pi/4.

• En multipliant par quatre on retrouvera Pi.

Page 39: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Algorithme en langage naturel

VARIABLE

disque: compte le nombre de points situés à l’intérieur du quart de disquen: nombre de points placés aléatoirementx :abscisse d’un point au hasard dans le carréy :ordonnée d’un point au hasard dans le carré

TRAITEMENT

Pour i de 1 à nx prend une valeur aléatoire dans [0 ;1]

y prend une valeur aléatoire dans [0 ;1]

Si x²+y² <1 alors disque prend la valeur disque +1

SORTIE

Afficher (disque /n)

Algorithme en Scilab

Page 40: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Visualisation des résultats avec Scilab

Les premières décimales de Pi sont 3,1 4 1 5 9 2 6 5 3 5Que j’aime à faire apprendre un nombre utile aux sages...

Page 41: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

• On pose

• On pose la fréquence observée de points situés

dans le quart de disque. • Alors en plaçant n points aléatoirement avec n assez

grand, p est compris dans

avec un niveau de confiance de 0,95.

aire du quart de disque

aire du carrép

obsf

obs obs

1 1f - ;f +

n n

Page 42: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Quelle précision ?• L’intervalle de confiance a une longueur

de 2. • Mais, p vaut donc on doit multiplier

l’intervalle de confiance par 4 pour estimer • On n’observe donc seulement 3 décimales au

niveau de confiance de 0,95• Mais, les élèves reconnaissent facilement

3,14. Cela contribue aussi à valider la démarche à leurs yeux.

410

4

Page 43: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Exemple d’évaluation :les méfaits du tabac (2e partie)

Lors d’un sondage aléatoire effectué aux États-Unis en 1995, sur 737 fumeurs quotidiens, seuls 295 estimèrent courir un risque de cancer supérieur à celui des non fumeurs de leur âge (source : Journal of the American Medical Association 1999).1. Calculer la fréquence f des fumeurs interrogés pensant prendre un risque.2. Estimer la proportion p de fumeurs aux États-Unis pensant prendre un risque en utilisant l’intervalle de confiance au niveau 95 %, [ f –   ; f + ].

737

1

737

1

Page 44: Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde

Merci de votre attention !