44
Statistique II 1 e année bachelor, 2010-11 Chapitre 2 L’estimation 1 / 44 Chapitre 2 : L’ESTIMATION 3.1 Intervalle de confiance : connu 3.2 Intervalle de confiance : inconnu 3.3 Taille d’échantillon minimale 3.4 Les estimateurs

Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 1 / 44

Chapitre 2 : L’ESTIMATION

3.1 Intervalle de confiance : connu

3.2 Intervalle de confiance : inconnu3.3 Taille d’échantillon minimale3.4 Les estimateurs

Page 2: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 2 / 44

Chapitre 2 : L’ESTIMATION

3.1 Intervalle de confiance : connu

3.2 Intervalle de confiance : inconnu3.3 Taille d’échantillon minimale3.4 Les estimateurs

Page 3: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 3 / 44

Bases (1) Les statistiques d’échantillon sont de estimateurs ponctuels des

paramètres de la population. Nous allons nous concentrer sur deux statistiques :

o la moyenne d’échantillon x comme estimateur de la moyennede la population

o la proportion d’échantillon p comme estimateur de laproportion de la population p

Malgré qu’il s’agisse d’estimateurs non-biaisés, on ne peuts’attendre à ce qu’une estimation ponctuelle particulière soitexactement égale à la valeur du paramètre de la populationcorrespondante.

x marge d’erreur p p marge d’erreur

Page 4: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 4 / 44

Bases (2)

Le calcul de la marge d’erreur est basé sur la distributiond’échantillonnage de la statistique d’échantillon.

L’aspect pertinent de la distribution d’échantillonnage est l’écarttype de la population .

Normalement, n’est pas connu. Toutefois, nous commençons par supposer que est connu. Ceci peut être le cas p.ex. dans des applications de contrôle de

qualité lorsque le processus de production est supposéfonctionner correctement, ainsi qu’on connaît l’écart type« normal ».

Page 5: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 5 / 44

La moyenne (1) Nous avons vu que la distribution d’échantillonnage de x suit

une loi normale avec une moyenne de et un écart type(appelé « erreur type » dans ce contexte) de x n (si

0.05n N ).

Par conséquent, la variable Z x n suit une loi normalecentrée réduite.

Les tables de probabilité de la loi normale centrée réduitemontrent que 95% des valeurs d’une telle variable sont contenuesdans l’intervalle [1.96, 1.96], car 1 0.05 2 0.975 1.96 z z .

Donc 95% des valeurs de x se situent dans l’intervalle[ 1.96 x , 1.96 x ]

On dit que cet intervalle est établi à un seuil de confiance de95%, ou que c’est un intervalle de confiance à 95%.

Page 6: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 6 / 44

La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

mais des seuils de 90% et de 99% sont aussi fréquemmentutilisés.o 90% : z0.95 1.645 intervalle [ 1.645 x , 1.645 x ]o 99% : z0.995 2.576 intervalle [ 2.576 x , 2.576 x ]

Si le seuil de confiance est écrit comme (1 ), ainsi que lesaires de probabilité dans les tables de la distribution normalecentrée réduite (version des tables statistiques sur le site web ducours ; Table 1 du manuel de Anderson et al. !) sont donnéespar 1 ( 2) , alors l’intervalle de confiance peut aussi être défini

comme : 1 2 x z n .

On appelle le « seuil de signification » (pour une raison quideviendra claire lorsqu’on présentera les tests d’hypothèses).

Page 7: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 7 / 44

La moyenne (3)

Excel : =LOI.NORMALE.STANDARD.INVERSE (1α2) donnela valeur z12 de la distribution normale centrée réduite.

Si la population suit une loi normale, l’intervalle de confianceest exact. Autrement, il est approximatif et dépend de ladistribution de la population ainsi que de la taille de l’échantillon(via le théorème centrale limite). En pratique, un échantillon detaille 30 est habituellement considéré suffisant.

Page 8: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 8 / 44

seuil de confiance

90% 0.1 0.05 1.645

95% 0.05 0.025 1.96

99% 0.01 0.005 2.576

2z 2

La moyenne : tableau récapitulatif

Valeurs de 1 2z pour les seuils de confiance les plusfréquemment utilisés

1- 2z

Page 9: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 9 / 44

Exemple Statville (1)

Rappel :o n 30 (individus sélectionnés aléatoirement)o x 51814 (revenu moyen dans l’échantillon)o 4000 (supposons pour l’instant que le syndic

connaisse ce chiffre)

Donc l’erreur type x est égale à 4000 30 730.3

Par conséquent, 95% des valeurs de x se situent dans l’intervalle[ 1431, 1431].

Page 10: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 10 / 44

Exemple Statville (2)

= 730.3x

1431 1431

Page 11: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 11 / 44

ExempleStatville (3)

5% des cas serontcomme 3x (càd l’inter-valle de 95% ne con-tient pas ) !

1431

14311431

730.3

14311431

0.95 2 * 1.96*730.3 1431 xz

Page 12: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 12 / 44

Chapitre 2 : L’ESTIMATION

3.1 Intervalle de confiance : connu

3.2 Intervalle de confiance : inconnu3.3 Taille d’échantillon minimale3.4 Les estimateurs

Page 13: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 13 / 44

Bases

Normalement, ni ni ne sont connus, et on doit se baser surl’échantillon pour estimer ces deux paramètres.

L’écart type de l’échantillon, s, est alors utilisé commeestimateur de l’écart type de la population, .

Lorsque l’estimation est basé sur s plutôt que , les intervalles deconfiance se construisent non pas à partir d’une distribution deprobabilité normale mais à parti d’une distribution de probabilitédite distribution du t de Student.

La distribution de Student est une famille de distributionscentrées symétriquement autour de zéro et fonction d’unparamètre appelé degré de liberté. Quand le degré de libertétend vers l’infini, la distribution de Student converge vers unedistribution normale centrée réduite.

Page 14: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 14 / 44

La distribution du t de Student (1)

1

2 2

11 2 1

2

nnt

f tn nn

, où 1

0

n un u e du

fonction gamma

Page 15: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 15 / 44

La distribution du t de Student (2)

Page 16: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 16 / 44

La distributiondu t de Student (3) 2

Page 17: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 17 / 44

Mister Student La distribution du t de Student fut découvert par William Gosset

(1876-1937), qui écrivit sous le pseudonyme « Student » ensuivant la marque de son calepin The Student’s ScienceNotebook puisque son employeur, la brasserie Guinness deDublin, ne voulait pas qu’il révèle son identité.

Son problème consista à tirer des conclusionsinférentielles suro la qualité d’une livraison de houblon à partir

de l’analyse d’un échantillon aléatoire(coûteux et donc petit), et sur

o le contenu en saccharine de fûts de malt (oùla précision était cruciale puisqu’on risquait depayer plus en impôt si le contenu alcooliquerésultant dépassait un certain plafond).

Page 18: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 18 / 44

La moyenne (1) Nous avons vu que la distribution d’échantillonnage de x suit une

loi normale avec une moyenne de et un erreur type de

x n (si 0.05n N ), ainsi qu’une proportion 1 desvaleurs de x se situent dans l’intervalle de confiance

1 2x z n .

L’intervalle de confiance correspondant quand est inconnuest donné par 1

2nx t s n , où

→ 12

nt est la valeur t fournissant un aire égale à 2 dans la

queue supérieure de la distribution de Student avec n 1degrés de liberté, et

→ 2

1ix x

sn

.

Page 19: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 19 / 44

La moyenne (2) Les degrés de liberté (n 1) correspondent au nombre

d’informations indépendantes qui entrent dans le calcul de 2ix x : Seules (n 1) des valeurs ix x sont

indépendantes, car si l’on connaît (n 1) valeurs, la dernièrevaleur peut être obtenue en utilisant la condition selon laquelle 0ix x .

Résumé :

t

Page 20: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 20 / 44

La moyenne (3)

Si est inconnu mais on sait que la population suit une loinormale, l’intervalle de confiance est exact et peut être utiliséquelle que soit la taille de l’échantillon.

Si la population ne suit pas une loi normale, l’intervalle deconfiance est approximatif et dépend de la distribution de lapopulation ainsi que de la taille de l’échantillon (via le théorèmecentrale limite). En pratique, un échantillon de taille 30 estconsidéré suffisant, sauf si la distribution de la population estfortement asymétrique ou contient des valeurs extrêmes.

Page 21: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 21 / 44

Une proportion

Dans le chapitre 3.1, nous avons vu queo la distribution d’échantillonnage d’une proportion p peut être

approchée par une distribution de probabilité normale lorsquenp 5 et n(1p) 5, et que

o l’erreur type de p est donné par 1p p p n .

Puisque p n’est pas connu, on ne connaît pas p . Ainsi, p estsubstitué à p, et l’intervalle de confiance est donnée par

1 2 1p z p p n

Page 22: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 22 / 44

Distribution d’échantillonnage d’uneproportion

Page 23: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 23 / 44

Exemple Statville Rappel :

→ n 30 (individus sélectionnés aléatoirement)→ x 51844 (revenu moyen dans l’échantillon)→ s 3348 (écart type de l’échantillon)

Donc l’intervalle de confiance de 95% est donné par

290.025 3348 30 51844 2.045 * 611.3 50594,53094x t

→ Interprétation : Etant donné l’échantillon, la probabilité que lavraie moyenne soit couverte par l’intervalle [50594, 53094]est égale à 95%.

Excel : =LOI.STUDENT.INVERSE(α;n 1) donne lesprobabilités de la distribution de Student

Page 24: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 24 / 44

Intervalle de confiance : interprétation (1)

Interprétation correcte d’un intervalle de confiance de 95% :Si l’on prenait plusieurs échantillons et dans chaque cas oncalcule l’intervalle de confiance, alors l’intervalle contiendrait lamoyenne dans 95% des cas.

Exemple d’interprétation impréciseo « Ce sondage a été réalisé par l'institut gfs. Au total, 1220

personnes représentatives ont été interrogées dans toute laSuisse. La marge d'erreur est d'environ 2%. »

o Il aurait fallu écrire: « La marge d’erreur est d’environ ± 2points de pourcentage avec une probabilité de 95% ».

Page 25: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 25 / 44

Intervalle de confiance : interprétation (2) Autres exemples :

o Interprétation imprécise : « Ce sondage a été réalisé parl’Institut MIS, auprès de 1002 citoyens vaudois, âgés de 18 à74 ans, représentatifs de la population. La proportion de oui estde 39%. Marge d’erreur: plus ou moins 3%. »

o Interprétation correcte : « Les résultats sont basés sur unsondage téléphonique portant sur 1003 adultes âgés de 18 ansou plus. La proportion de réponses positives est de 74%. Pourl’échantillon entier on peut admettre avec 95% de confianceque la marge d’erreur d’échantillonnage est de ± 3 points depourcentage. En plus de la variation d’échantillonnage, il estpossible que la formulation des questions ainsi que des aspectspratiques des méthodes de sondage introduisent certains biaisaux résultats émanant de sondages. »

Page 26: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 26 / 44

Chapitre 2 : L’ESTIMATION

3.1 Intervalle de confiance : connu

3.2 Intervalle de confiance : inconnu3.3 Taille d’échantillon minimale3.4 Les estimateurs

Page 27: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 27 / 44

La moyenne : connu

Comment choisir la taille de l’échantillon afin d’obtenir unecertaine marge d’erreur ?

Intervalle de confiance de la moyenne, avec

connu 1 2x zn

.

Soit M la marge d’erreur souhaitée : 1 2M zn

o donc 1 2zn

M ,

o et la taille de l’échantillon minimale est donc donnée par

2 21 2

2

zn

M

Page 28: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 28 / 44

La moyenne : inconnu

Si l’on ignore (le cas le plus fréquent), on ne peut pas se basersur l’écart type de l’échantillon s si la question de la taille del’échantillon est posée avant que l’étude soit conduite.

On peut donc choisir une des procédures suivanteso Utiliser une estimation de obtenue antérieurement.o Utiliser une étude pilote pour sélectionner un échantillon

préliminaire, dont s peut servir de valeur initiale pour .o Utiliser l’intuition pour estimer . Une règle pratique parfois

adoptée est de prendre un quart de l’étendue des données(intervalle entre les valeurs minimale et maximale) commeapproximation de .

Page 29: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 29 / 44

Une proportion (1)

Intervalle de confiance d’une proportion

1 2

1p pp z

n

.

Soit M la marge d’erreur souhaitée :

1 2

1p pM z

n

La taille de l’échantillon minimale est donc donnée par

2

1 22

1z p pn

M

Puisque p n’est pas connu avant la sélection de l’échantillon, ilfaut trouver une valeur préalable p* de p , ainsi que

2 * *1 2

2

1z p pn

M

Page 30: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 30 / 44

Une proportion (2)

Pour trouver la valeur préalable p*, on peut choisir une desprocédures suivanteso Utiliser une estimation de p obtenue antérieurement.o Utiliser une étudie pilote pour sélectionner un échantillon

préliminaire, dont p peut servir de valeur initiale pour p*.o Utiliser l’intuition pour estimer p*.o Utiliser la valeur p* 0.5.

Page 31: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 31 / 44

Exemple Statville (1)

Le syndic a obtenu un budget pour interroger un nouveléchantillon d’individus

Il veut un échantillon qui lui fournit une estimation du revenumoyen à 500 francs près, et du taux de participation àl’assemblée communale p à 5% près, avec un seuil deconfiance de 99% ( 0.01).

Quelle devrait être la taille minimale de son nouvel échantillon ?

Il prend l’écart type du revenu (s = 3348) et la proportion departicipants (p = 0.63) observés dans son premier échantilloncomme estimations de et de p (« valeurs préalables »)

Page 32: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 32 / 44

Exemple Statville (2)

Taille de l’échantillon pour estimer :

2 22 2 2 21 2 0.995

2 2 2

3348 2.576 * 3348298

500 500

z zn

M

Taille de l’échantillon pour estimer p :

→ 2 * * 2

1 22 2

1 2.576 * 0.63 * 0.37618

0.05

z p pn

M

Le syndic aurait besoin d’une augmentation considérable de sonbudget.

Page 33: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 33 / 44

Chapitre 2 : L’ESTIMATION

3.1 Intervalle de confiance : connu

3.2 Intervalle de confiance : inconnu3.3 Taille d’échantillon minimale3.4 Les estimateurs

Page 34: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 34 / 44

Dérivation d’un estimateur

Il existe deux méthodes principales de dériver un estimateur :1. La méthode des moments : On choisit comme estimateur

d’un moment de population le moment correspondant dansl’échantillon. C’est ce que nous avons vu jusqu’à présent.

2. La méthode du maximum de vraisemblance : On choisitcomme estimateur la fonction qui maximise la probabilité desdonnées observées, sous l’hypothèse que ces donnéessuivent une certaine distribution statistique. Implique des hypothèses fortes sur la nature de la

population.

Page 35: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 35 / 44

Maximum de vraisemblance (1) On cherche à estimer la valeur d’un paramètre de la population

(moyenne, variance,…) à partir d’un échantillon aléatoire simple. On suppose que, pour un donné, la densité de probabilité

f(x) de la variable aléatoire continue X soit connue. ( !)o Puisque X est continu, la probabilité d’un échantillon de

valeurs particulières P(Cn) P(x1, x2, …, xn) est nulle.o Le raisonnement porte alors sur l’intervalle des valeurs de

l’échantillon Cn : 1 1 1 2 2 2, ,...,n n n nC x X x h x X x h x X x h .

o Si h est très petit, *i i i iP x X x h h f x .

o Cn étant un échantillon aléatoire, on peut alors écrire: 1 2* * * ... * *n n

n n nP C h f x f x f x h L C , où

o nL C est appelée la fonction de vraisemblance.

Page 36: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 36 / 44

Maximum de vraisemblance (2)

Si les valeurs de l’échantillon Cn se sont produites, c’est qu’il estvraisemblable que l’échantillon Cn soit représentatif de lapopulation. On cherche donc l’estimateur de qui maximise lavraisemblance de cet échantillon particulier.

Avec 1 2| * * ... *n nL C f x f x f x , on cherche la valeur 1 2

ˆ , ,..., ng x x x qui maximise L, où

o ̂ est l’estimation du maximum de vraisemblance de , eto la variable aléatoire correspondante 1 2, ,...,n nT g X X X est

l’estimateur du maximum de vraisemblance de .

Page 37: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 37 / 44

Maximum de vraisemblance : exemple (1)

Soit X une variable aléatoire qui suit une distribution normaled’espérance inconnue, ,X .

Alors : 21 1

exp22

xf x

La vraisemblance est donc :

221

1 1| exp

22

n n

n ii

L C x

Cette fonction est à son maximum quand 21

n

ii

x

est à son

minimum.

Page 38: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 38 / 44

Maximum de vraisemblance : exemple (2)

2 2

2 2 2

1 1 1 1

1 1 1 1n n n n

i i i n ii i i i

x x x x s xn n n n

Donc 21

n

ii

x

est à son minimum pour1

1ˆn

ii

xn

.

L’estimateur du maximum de vraisemblance de est donc lamoyenne d’échantillon x (que l’écart type soit connu ouinconnu, puisqu’il n’intervient pas dans la démonstration).

Dans ce cas particulier, l’estimateur de maximum devraisemblance est le même que l’estimateur de la méthodedes moments. x

Page 39: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 39 / 44

Propriétés désirées des estimateurs

Qu’est-ce qui caractérise un « bon » estimateur ?

Pour que Tn soit un bon estimateur de , il faut qu’il y ait uneprobabilité élevée pour que Tn prenne une valeur proche de .

Cela est réalisé, en particulier, lorsque Tn remplit les deuxconditions suivantes :o E(Tn) (absence de biais)o

nT faible (précision, erreur type faible)

Certains estimateurs sont biaisés dans des échantillons finis, telque E(Tn) , mais asymptotiquement non-biaisés, tel que

lim nnE T

.

Page 40: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 40 / 44

Précision des estimateurs

Page 41: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 41 / 44

Biais et précision

Page 42: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 42 / 44

Le choix entre absence de biais et précision Si un estimateur est non-biaisé, il est clair qu’il est alors d’autant

meilleur que son erreur type est faible. Un estimateur biaisé mais à faible erreur type n’est pas

forcément moins « bon » qu’un estimateur non-biaisé maisimprécis.

Afin de trancher entre minimisation de biais et maximisation deprécision, dans les cas où il y a conflit entre ces deux critères, oncherche souvent à minimiser l’erreur quadratique moyenne (oufonction de risque), qui est définie par

22 2n nT n T nR E T E T .

Si l’erreur quadratique moyenne tend vers zéro quand n tendvers l’infini, on parle d’un estimateur « convergent ».

Page 43: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 43 / 44

Exemple d’un estimateur biaisé (1)

Variance d’un échantillon : 22 2

1

1 1n

ii

nE s E x x

n n

Si l’on choisit s2 comme estimateur de 2, on a donc que

2

2 2 2 2 21biais

ns E s

n n

.

Le biais vaut 2 n , ce qui signifie que la variance d’échantillonnon corrigée sous-estime systématiquement la variance de lapopulation.

Toutefois, quand la taille de l’échantillon n augmente, ce biaistend vers zéro. s2 est donc un estimateur asymptotiquementnon-biaisé de 2.

Page 44: Chapitre 2 : L’ESTIMATION · Statistique II 1e année bachelor, 2010-11 Chapitre 2 L’estimation 6 / 44 La moyenne (2) Le seuil de confiance de 95% est la valeur la plus courante,

Statistique II1e année bachelor, 2010-11

Chapitre 2L’estimation 44 / 44

Exemple d’un estimateur biaisé (2)

On appelle variance corrigée 2 2

1corrn

s sn

La variance corrigée est un estimateur sans biais de la variancede la population.

On peut montrer que l’erreur type de la variance corrigée tendvers zéro quand n tend vers l’infini.

Puisque c’est un estimateur non-biaisé dont l’erreur type tendvers zéro dans des grands échantillons, il s’agit aussi d’unestimateur convergent: il converge en probabilité vers 2.

On peut montrer aussi queo x est un estimateur non-biaisé et convergent de , et queo p est un estimateur non-biaisé et convergent de p.