Statistique et probabilités. En classe de seconde

Preview:

Citation preview

Statistique et probabilitésStatistique et probabilités

En classe de secondeEn classe de seconde

échantillonéchantillon : liste de résultats de n expériences identiques et indépendantes.

fluctuation d’échantillonnagefluctuation d’échantillonnage : les distributions des fréquences varient d’un

échantillon à l’autre d’une même expérience.

L’ampleur des fluctuations des L’ampleur des fluctuations des distributions de fréquences calculées distributions de fréquences calculées

sur des échantillons de taille sur des échantillons de taille n n diminue diminue lorsque lorsque n n augmente.augmente.

distribution des fréquencesdistribution des fréquences associée à un échantillon : liste des fréquences des différentes issues de cette expérience.

Simuler une expérience, c’est choisir un choisir un modèlemodèle de cette expérience puis simuler simuler ce modèlece modèle, pour produire une liste de produire une liste de

résultatsrésultats assimilable à un échantillonéchantillon de cette expérience.

La simulation permet de disposer disposer d’échantillons de grande tailled’échantillons de grande taille et

d’observer des phénomènesappelant une explication dans le champ des

mathématiques.

SimulationSimulation

En 1En 1èreère L : L :

enseignement obligatoire au enseignement obligatoire au choixchoix

Expérience aléatoireExpérience aléatoire

EventualitésEventualités

EvénementsEvénements

Probabilité d’un événement, Probabilité d’un événement,

de l’événement contraire.de l’événement contraire.

PP((AABB)) + P + P((AABB)) = P = P((AA)) + P + P((BB))

EquiprobabilitéEquiprobabilité

Loi de probabilitéLoi de probabilité

La simulation de l’expérience et le phénomène de stabilisation des stabilisation des fréquencesfréquences observées lorsque le

nombre d’épreuves augmente, permet de postuler l’existence d’un modèle l’existence d’un modèle probabilisteprobabiliste, caractérisé par une loi loi

de probabilitéde probabilité.

Enoncé vulgarisé de la loi des Enoncé vulgarisé de la loi des grands nombresgrands nombres

Pour une expérience aléatoireexpérience aléatoire donnée, dans le modèle défini par une loi de loi de

probabilité probabilité PP, les distributions de fréquences obtenues sur des séries de taille n sont très proches de P quand n

est grand.

En Terminale L : En Terminale L :

enseignement de spécialitéenseignement de spécialité

ProbabilitésProbabilités

Arbres pondérésArbres pondérés

Conditionnement par un événement Conditionnement par un événement de probabilité non nullede probabilité non nulle

Indépendance de deux événementsIndépendance de deux événements

Formule des probabilités totalesFormule des probabilités totales

Epreuve de Bernoulli et loi binomialeEpreuve de Bernoulli et loi binomiale

Tableaux et arbresTableaux et arbres

Différentes représentations Différentes représentations pour un même ensemblepour un même ensemble

Une enquête de marketing portant sur Une enquête de marketing portant sur le choix entre deux abonnements A et le choix entre deux abonnements A et

B lors de l’achat d’un téléphone B lors de l’achat d’un téléphone portable et le statut de l’acheteur portable et le statut de l’acheteur

(salarié ou non salarié) a conduit au (salarié ou non salarié) a conduit au recueil des données de 9321 nouveaux recueil des données de 9321 nouveaux acheteurs, consignées dans le tableau acheteurs, consignées dans le tableau

suivant:suivant:

Effectifs A B

Salarié 4 956 1 835

Non salarié

1 862 668

EffectifsEffectifs A B Total

Salarié 4 956 1 835 6 7916 791

Non salarié

1 862 668 2 5302 530

Total 6 8186 818 2 5032 503 9 321

A

B

NS

S

NS

S

6 6 818818

2 2 503503

668668

1 1 835835

1 1 862862

4 4 956956

S

NS

B

A

B

A

6 6 791791

2 2 530530

668668

1 1 862862

1 1 835835

4 4 956956

Chaque représentation (tableau ou Chaque représentation (tableau ou arbre) contient toute l’information et arbre) contient toute l’information et

permet de reconstituer n’importe permet de reconstituer n’importe laquelle des autreslaquelle des autres

Fréquences des Fréquences des événementsévénements

FréquencesFréquences A B Total

Salarié 0,531 0,197 0,7280,728

Non salarié 0,20 0,072 0,2720,272

Total 0,7310,731 0,2690,269 1

NotationsNotations : f (A)= 0,728

f (S) = 0,272

f (A et S) = 0,531 etc……

Fréquences Fréquences conditionnellesconditionnelles

A B Total

Salarié 0,7270,727 0,7330,733 0,7280,728

Non salarié 0,2730,273 0,2670,267 0,2720,272

Total 11 11 11

NotationsNotations : f A (S) = 0,727

f A (NS) = 0,273 etc……

Fréquences Fréquences conditionnellesconditionnelles A B Total

Salarié 0,7290,729 0,2810,281 11

Non salarié 0,7360,736 0,2640,264 11

Total 0,7310,731 0,2690,269 1

NotationsNotations : f S (A ) = 0,729

f NS (A ) = 0,736 etc……

Comment reconstituer un Comment reconstituer un tableau de fréquences à partir tableau de fréquences à partir

d’un autre ?d’un autre ?

et

A

SASA f

ff

SASA Afff et

SBSAS et et fff

NS

NS

A

B

S

S

f f ((AA))

f f ((BB))

ffAA((NSNS))

ffAA((SS))

ffBB((NSNS))

ffBB((SS))

f f ((AA )) ffAA((SS ) =) =f f ((AASS ))

S

NS

A

f f ((SS))

f f ((NSNS))

ffSS((BB))

ffSS((AA))

ffNSNS((BB))

ffNSNS((AA))A

f f ((SS)) ffS S ((AA) ) ==f f ((AASS))

B

B

AP

SAPSPP A

,0ALorsque

Définition

:

APSPSAP A

NS

NS

A

B

S

S

PP((AA))

PP((BB))

PPAA((NSNS))

PPAA((SS))

PPBB((NSNS))

PPBB((SS))

P P ((A A )) PPA A ((S S ) =) =P P ((AAS S ))

Arbre pondéréArbre pondéré

Indépendance de deux Indépendance de deux événementsévénements

Dans l’exemple étudié,Dans l’exemple étudié,

ffA A ((SS)) = 0,726 = 0,726

ff ((SS)) = 0,728 = 0,728 ff AA ((SS)) ff ((SS))

Existence d’un lien de causalité ?Existence d’un lien de causalité ?

Dans une urne il y a des pièces Dans une urne il y a des pièces indiscernables au toucher, de 1 ou 2 euros indiscernables au toucher, de 1 ou 2 euros

((EE11 ou ou EE22), 30 sont françaises, 70 non ), 30 sont françaises, 70 non françaises (françaises (FF ou ou NFNF). ).

Il y a 60 pièces de 1 euro, dont Il y a 60 pièces de 1 euro, dont kk sont sont françaises, et 40 pièces de 2 euros, dont 30 – françaises, et 40 pièces de 2 euros, dont 30 – kk sont françaises. sont françaises.

Est-il possible que le fait de Est-il possible que le fait de savoir que la savoir que la pièce extraite est une pièce de 1 europièce extraite est une pièce de 1 euro, , ne modifie pas la probabilité que la pièce ne modifie pas la probabilité que la pièce

extraite soit française ?extraite soit française ?

On choisit une pièce au hasard.On choisit une pièce au hasard.

E1 E2 Total

F k 30 − k 30

NF 60 − k 10 + k 70

Total 60 40 100

NF

NF

E1

E2

F

0,6

0,4F

60

k

60

1k

-

40

30

k

40

10 k

? 1

relation la vérifiée soit que possible il-Est

FPFPE

1810030

10030

kk

k

60

0

si seulement et si

si seulement et si 1

et

6FPFPE

LorsqueLorsque kk = 18, = 18, savoir qu’il s’agit d’une pièce savoir qu’il s’agit d’une pièce de 1 euro ne modifie pas la probabilité qu’elle de 1 euro ne modifie pas la probabilité qu’elle soit française.soit française.

11

1

ou

EPFPEFP

FPFPE

Evénements indépendants

La notion d’indépendance entre deux La notion d’indépendance entre deux événements est une événements est une propriété propriété

numérique à l’intérieur du modèle numérique à l’intérieur du modèle probabilisteprobabiliste..

Dans l’exemple précédent, supposons que le nombre total de pièces soit K.

n1 : nombre de pièces de 1 euro,

nF : nombre de pièces françaises

nF,1 : nombre de pièces françaises de 1 euro

Kn

n

n , FF1E FPFP

1

1

11 nnn , FFK:dire-à-estc'

Lorsque Lorsque KK est un nombre premier, est un nombre premier,

(par exemple K = 101 au lieu de K = 100)

si K nF,1 =nF n1, alors

soit nF = K (toutes les pièces sont françaises)

soit n1 = K (toutes les pièces sont de 1 euro)

Si nF = K

E1 E2 Total

F nF,1 K nF,1 K

NF 0 0 0

Total nF,1 K nF,1 K

FPFPE 1

Si n1 = K

E1 E2 Total

F n F,1 0 n F,1

NFK n F,1

0 K n F,1

Total K 0 K

FPFPE 1

StatistiqueStatistique

Adéquation d’une série de Adéquation d’une série de données à une loi équirépartiedonnées à une loi équirépartie

En 1En 1èreère L L

L’L’équiprobabilité équiprobabilité : une hypothèse : une hypothèse parmi d’autres pour proposer un parmi d’autres pour proposer un

modèlemodèle

Modèles issus d’une Modèles issus d’une observation observation expérimentaleexpérimentale

Objectif: Objectif:

sensibiliser les élèves au problème sensibiliser les élèves au problème de la validation d’un modèlede la validation d’un modèle

Exemple : Exemple :

lancé d’un dé à 6 faces.lancé d’un dé à 6 faces.

Les Les résultatsrésultats obtenus dans obtenus dans des conditions normales des conditions normales

d’utilisation de ce dé sont-ils d’utilisation de ce dé sont-ils compatibles avec le modèle compatibles avec le modèle

d’équiprobabilitéd’équiprobabilité sur sur l’ensemble {1, 2, 3, 4, 5, 6} ?l’ensemble {1, 2, 3, 4, 5, 6} ?

On dispose d’un On dispose d’un échantillon de taille échantillon de taille nn de cette épreuve aléatoirede cette épreuve aléatoire..

Cet échantillon peut-il être considéré Cet échantillon peut-il être considéré comme un échantillon de taille comme un échantillon de taille nn de la de la loi équirépartie sur l’ensemble {1, 2, 3, loi équirépartie sur l’ensemble {1, 2, 3,

4, 5, 6} ?4, 5, 6} ?

On lance On lance nn fois de suite ce dé. fois de suite ce dé.

Critère de compatibilité entre une distribution Critère de compatibilité entre une distribution de fréquences et la loi équirépartie.de fréquences et la loi équirépartie.

2

6

2

2

2

12

6

1

6

1

6

1....

fffd

Distance entre une distribution de Distance entre une distribution de fréquences {fréquences {ff11, , ff22, .., , .., ff66} et la loi } et la loi

équirépartie sur {1, 2, .., 6}équirépartie sur {1, 2, .., 6}

Les Les donnéesdonnées seront considérées comme seront considérées comme incompatibles avec la loi équirépartieincompatibles avec la loi équirépartie si si d d obsobs

22 est supérieur à une valeur seuil à définir.est supérieur à une valeur seuil à définir.

d d 22 est soumiseest soumise àà la fluctuation la fluctuation d’échantillonnaged’échantillonnage

On simule N échantillons de On simule N échantillons de nn tirages tirages équiprobables dans {1, 2, 3, 4, 5, 6}. équiprobables dans {1, 2, 3, 4, 5, 6}.

Série de N valeurs de Série de N valeurs de d d 22 dans le modèle dans le modèle équiréparti. équiréparti.

Le Le 99èmeème décile décile de cette série, noté D de cette série, noté D99 : la plus : la plus petite valeur de la série telle que au moins petite valeur de la série telle que au moins 90% des valeurs soient dans l’intervalle [0; 90% des valeurs soient dans l’intervalle [0;

DD99]]

Prendre Prendre DD99 comme seuil de compatibilité comme seuil de compatibilité c’est adopter la règle de décision :c’est adopter la règle de décision :

si si ddobsobs2 2 > D> D99 : refuser l’hypothèse : refuser l’hypothèse

d’équiprobabilité d’équiprobabilité

si si ddobsobs22 D D99 : ne pas refuser : ne pas refuser

l’hypothèse d’équiprobabilitél’hypothèse d’équiprobabilité

En fait, la seule décision qu’on puisse prendre En fait, la seule décision qu’on puisse prendre c’est de refuser l’hypothèse d’équiprobabilité.c’est de refuser l’hypothèse d’équiprobabilité.

Ne pas la refuser ne revient pas à la validerNe pas la refuser ne revient pas à la valider..

Le Le risque d’erreurrisque d’erreur vient de ce que vient de ce que ddobsobs22 peut peut

être supérieur à Dêtre supérieur à D99 même si le dé est même si le dé est équilibré. (fluctuation d’échantillonnage)équilibré. (fluctuation d’échantillonnage)

Les données simulées qui aboutissent à Les données simulées qui aboutissent à ce seuil de décision indiquent que cette ce seuil de décision indiquent que cette

situation se produit dans 10% des situation se produit dans 10% des échantillons d’une loi équirépartie.échantillons d’une loi équirépartie.

la marge d’erreur est 10%.la marge d’erreur est 10%.

Prendre le 99Prendre le 99èmeème centile comme seuil centile comme seuil décisionnel conduit au risque d’erreur de 1%. décisionnel conduit au risque d’erreur de 1%.

Prendre le Prendre le 1919èmeème vingtile vingtile, noté V, noté V1919 (la plus (la plus petite valeur de la série telle que au moins petite valeur de la série telle que au moins 95% des valeurs soient dans l’intervalle [0; 95% des valeurs soient dans l’intervalle [0; VV1919]) comme seuil décisionnel conduit au ]) comme seuil décisionnel conduit au

risque d’erreur de 5%.risque d’erreur de 5%.

Abaisser le seuil de risque revient à relever le Abaisser le seuil de risque revient à relever le seuil entre petites et grandes valeurs de seuil entre petites et grandes valeurs de dd² . ² .

On peut être amené à refuser l’hypothèse On peut être amené à refuser l’hypothèse d’équiprobabilité au seuil de 10% et à ne pas la d’équiprobabilité au seuil de 10% et à ne pas la

refuser au seuil de 5% ou de 1%.refuser au seuil de 5% ou de 1%.

1 2 3 4 5 6

0,215

0,155

0,207

0,115

0,17 0,13

008102 ,obsd

Expérience

0 0,002 0,004 0,006 0,008 0,01 0,012 0,014 0,016 0,018 0,02

008102 ,obsdD9 V19

Dans ce cas, au vu des résultats Dans ce cas, au vu des résultats expérimentaux, et en appliquant la règle expérimentaux, et en appliquant la règle décisionnelle choisie :décisionnelle choisie :

au seuil de risque de 10% , l’hypothèse au seuil de risque de 10% , l’hypothèse d’équiprobabilité doit être refusée;d’équiprobabilité doit être refusée;

au seuil de risque de 5%, on peut la au seuil de risque de 5%, on peut la maintenir. maintenir. Elle n’est pas, pour autant, Elle n’est pas, pour autant, validée.validée.

192

9 VD obsd

Formule des probabilités Formule des probabilités totalestotales

SAPSAPAP

SPAPSPAPAP

,SPSP

SS

00 etLorsque

f (A) = x f (A et S) = y

f (B) = 1- x f (B et S) = 0,728 - y

Fréquences Fréquences conditionnellesconditionnelles

A B Total

Salarié 0,7270,727 0,7330,733 0,7280,728

Non salarié 0,2730,273 0,2670,267 0,2720,272

Total 11 11 11

y=x0,727

0,728 – y = (1-x)0,733et

Recommended