Upload
phungtram
View
214
Download
0
Embed Size (px)
Citation preview
L'estimation
1. Concrètement ... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais
plus exactement, disons 7,1 cm. C'est peut-être un peu moins ou un peu plus, cela n'a pas d'importance.
C'était un nombre assez précis, avec une virgule, pas une dizaine ou une quinzaine de centimètres, non
quelque chose de plus précis. Voilà un bien beau résultat... Mais comment a t-on fait pour l'obtenir? Certainement pas en mesurant
toutes les françaises : pour ce que je sais, ni mon épouse, ni mes filles, ni ma belle mère, ni ma sœ ur, n'ont
reçu la visite d'un quelconque "mesureur". D'ailleurs je ne connais pas beaucoup de gens qui ont été
mesurés. Je ne suis d'ailleurs pas sûr qu'il y a trente ans il y ait eu une opération générale de mesurage. Il
est bien plus raisonnable de penser que les résultats annoncés ne proviennent pas de l'ensemble des
françaises, mais seulement de quelques-unes d'entre elles. Ce qu'en langage statistique on appelle un
échantillon. Mais dès lors se pose immédiatement la question de la validité des valeurs annoncées maintenant et il y a
trente ans.Examinons comment cela a pu se passer. Si toute la population n'est pas concernée, il a fallu
définir un protocole pour sélectionner un échantillon "représentatif". Chacun connat les liens entre
milieu social, nutrition et taille (liens eux-mêmes mis en évidence par d'autres enquêtes). La constitution
d'un tel échantillon a nécessairement été réalisée selon un ensemble de règles strictes. Nous laisserons cela aux enquêteurs spécialistes. Avant de définir ces règles, il leur a fallu toutefois se poser une première série de questions importantes :
quel doit être le nombre d'individus de l'échantillon ? ce nombre influe t'il sur la précision du résultat
obtenu ? de quelle façon ? Laissons cela aussi de côté pour l'instant. Nous supposerons donc que l'enquêteur soit parvenu à définir
une "taille d'échantillon idéale". Il réalise donc la collecte de données. Comment le statisticien peut-il utiliser les valeurs recueillies pour
approcher la taille moyenne des femmes dans la population ? Il semble assez naturel de penser qu'il fera
dans un premier temps la moyenne des tailles des individus de l'échantillon. Et voilà de nouveaux problèmes : tout d'abord ce calcul est-il une bonne façon d'estimer la moyenne
cherchée? Est-il la meilleure façon de faire cette estimation ou ne donne t'il qu'une simple idée du
résultat sur la population? En second lieu on ne peut ignorer que le résultat de ce calcul dépend de l'échantillon choisi : il y a de
grandes chances que d'un échantillon à l'autre les valeurs trouvées soient un peu (ou très) différentes. Enfin, il semble raisonnable de penser qu'avec un échantillon de plus grande taille on aurait pu (mais pas
à coup sûr) obtenir une meilleure approximation de ce que l'on cherche.Tout ce que nous avons dit
jusqu'à présent relève d'interrogations de bon sens. On pourrait sans doute y ajouter une question plus
préoccupante encore : une telle estimation a t'elle un sens, une véritable valeur scientifique? Répondre à ces questions avec un peu d'objectivité demande de définir des outils qui nous y aideront.
2. Formalisation La première idée est que la taille d'un individu varie dans toutes les populations du monde. On sait en
gros qu'il s'agit d'un réel positif. On peut donc considérer la taille comme une variable aléatoire à
valeurs dans . Cette variable aléatoire suit une loi de probabilité que l'on ne connat pas. On peut supposer
raisonnablement qu'elle admet une espérance et une variance. C'est justement cette espérance que nous
voudrions approcher à partir de l'échantillon. On a constitué un échantillon de individus , . . . , sur lequel on recueille tailles , . . . , . Avec les notations précédentes, on a (qui se traduit en français par : la taille de l'individu est . Plutôt que de dire que l'on applique la variable à chaque individu de l'échantillon, on préfèrera dire que
la taille de la première femme de l'échantillon, c'est la valeur que prend une variable aléatoire de
même loi que (et donc de même espérance et de même variance). On recommence aux toutes les
femmes de l'échantillon . Imaginons par exemple que l'on ait rangé l'échantillon par ordre alphabétique : sera la variable qui
donnera la taille de la première personne de la liste ainsi ordonnée, celle de la deuxième personne, et
ainsi de suite. Si l'on prend un autre échantillon de même taille, après rangement par ordre alphabétique, on appliquera
à nouveau les variables , . . . , . Pour tous les échantillons de personnes et tous les rangements
possibles, on aura toujours une valeur pour , pour , . . ., pour . En fait pour chacun des échantillons de n individus possibles, chaque variable prendra une valeur dans et ce indépendamment de ce que les autres variables ont pris comme valeurs. Ces n variables aléatoires sont indépendantes et de même loi. Pour estimer la moyenne des tailles sur la population, on a effectué la moyenne des tailles recueillies sur
un échantillon (c'est-à-dire des nombres , , . . . , , et donc on a calculé
. . .
Comme nous l'avons remarqué, ce nombre varie avec les échantillons; il peut donc être considéré comme
la valeur prise par une certaine variable aléatoire qui correspond à la moyenne arithmétique des
variables , . . . , . On note cette variable. On aura
. . .
Nous retrouvons moyenne empirique (ou expérimentale) sur un échantillon de taille . On a donc approché la valeur de l'espérance de la variable par la valeur que prend la variable sur
l'échantillon.
Nous savons que si , Or les variables sont indépendantes. Donc si
On sait que
Là encore le résultat ne dépend pas de la loi de probabilité de la variable X.En résumé on a
La loi faible des grands nombres dit alors que 0, "| $ | %& '((() 0
Donc la probabilité que la moyenne empirique soit aussi proche que l'on veut de l'espérance cherchée
tend vers 1 quand devient infiniment grand (en fait "grand" suffira le plus souvent).
Tout cela légitime l'utilisation de pour faire une approximation de . Reste à savoir ce qu'elle est l'erreur que l'on commet quand on fait cette approximation à partir d'un
échantillon. Ce sera le problème de l'intervalle de confiance plus loin.
3) Le problème de l'estimation Généralisons la situation précédente. Considérons un caractère quantitatif étudié sur une population.
La valeur de ce caractère pour chaque individu de cette population peut être représentée par une
variable aléatoire.
Supposons que nous connaissions la forme de la loi suivie par cette variable. En pratique il s'agira d'une
loi usuelle comme la loi binomiale, la loi de Poisson, la loi géométrique, la loi normale...
Toutes ces lois sont données par des paramètres : nombres de répétitions de l'épreuve, probabilités du
succès, moyenne, variance...
Le plus souvent il y a un ou deux paramètres, parfois trois comme dans la loi hypergéométrique.
On connaît le type de loi que suit la variable aléatoire, mais on ne connaît pas les paramètres. Le
problème revient à en estimer la meilleure valeur possible au vue des données recueillies à partir
d'observations faites sur un ou plusieurs échantillons extraits de cette population.
En pratique, on dispose des données obtenues à partir de observations, c'est-à-dire sur un échantillon
de individus extraits de cette population.
On a donc un -uplet , … , qui correspond aux valeurs prises par la variable pour les individus
de l'échantillon.
On peut considérer ce n-uplet comme la réalisation d'un vecteur aléatoire , … où , … , sont variables aléatoires de même loi que . En pratique, dans le protocole appliqué pour la constitution de l'échantillon, on peut faire en sorte que
ces variables soient indépendantes.
On cherche à estimer un des paramètres de la loi suivie par à partir des résultats obtenus pour
l'échantillon. Quelle que soit la façon dont on procède pour réaliser cette estimation, ce que nous
obtiendrons dépend des valeurs de l'échantillon. Si nous avions eu d'autres valeurs, notre estimation
aurait sans doute été différente.
On peut donc dire que l'estimation est elle-même une variable aléatoire fonction des variables , … , .
4) Mise en œuvre sur en exemple Supposons qu'un certain caractère quantitatif dans une population puisse être représenté par une
variable aléatoire dont on sait quelle suit une loi normale de moyenne et de variance
inconnues. Cette situation est très fréquente : de très nombreux phénomènes ont des distributions très
proches de celle d'une loi normale.
Sur cette population que nous considèrerons comme suffisamment grande pour qu'il soit irréaliste de
calculer directement la moyenne et la variance, on extrait en échantillon de individus.
On peut penser au moins dans un premier temps que la moyenne et la variance calculées à partir de cet
échantillon sont des estimations (correctes ?) de la moyenne et de la variance de la population.
A chaque échantillon de taille , on peut associer sa moyenne arithmétique : on définit ainsi une variable
aléatoire que l'on note + qui est la moyenne empirique déjà rencontrée.
On peut de la même façon associer à chaque échantillon sa variance. On définit une variable aléatoire que
l'on peut noter . On aura
1 -
.$
L'estimation que nous ferons de la variance dépend bien entendu des valeurs que prendront et
obtenus à partir de l'échantillon. C'est donc ure variable aléatoire, fonction des variables et
Une telle variable est appelée un estimateur de V.
Les différentes valeurs que peut prendre cet estimateur sont appelées des estimations de V
5) Définitions On se place dans un espace probabilisé Ω, 0, "
Soit θ un paramètre inconnu d'une variable aléatoire dont on connaît la forme de la loi de probabilité.
On extrait un échantillon de taille n de la population. Soit , … , les différentes valeurs prises par sur
cet échantillon.
Ces valeurs peuvent être considérées comme les réalisations de variables aléatoires indépendantes, , … , munies de la même loi que .
Définition
On dit que , … , est un $ échantillon de variables indépendantes et de même loi que . Un estimateur de θ à partir d'un échantillon de taille sera alors une variable aléatoire que l'on note 12 fonction du vecteur aléatoire , … , En pratique on sera amené à considérer la limite d'une telle variable quand n tend vers l'infini.
On élargit la notion d'estimateur à la suite de variables 12.
Définition
Soit , … , est un $ échantillon de variables indépendantes et de même loi que . On appelle estimateur d'un paramètre θ une suite de variables aléatoires 12 fonctions de , … . Par abus de langage, on assimile souvent l'estimateur (qu'est la suite) avec la variable 12
Si 12 0, … on dit que 32 0 , … , qui correspond à la valeur numérique que prend la
variable 12 pour les données obtenues à partir de l'échantillon est une estimation de θ.
Devant en problème concret comme celui d'estimer la moyenne d'une certaine caractéristique
quantitative sur une population à partir des données fournies par un échantillon, la question pas toujours
simple à trancher est celle du meilleur estimateur : la moyenne, la médiane, ou tout autre chose.
Cette question demande au préalable de savoir quel sens on donne au mot "meilleur".
Certaines réflexions de bon sens permettent souvent d'écarter de mauvais candidats.
Par exemple pour le problème précédent, si l'on prend 0, …
on possède en candidat crédible puisque l'on sait que :
Or c'est justement que l'on veut estimer.
Par contre, par exemple, 0, … , 4 ne semble pas au moins en moyenne être un bon
candidat car 4 4
quantité qui tend vers l'infini quand tend vers l'infini sauf si 0.
6) Qualités d'un estimateur
a) Estimateur sans biais
On attend d'un "bon" estimateur qu'en moyenne il nous donne une bonne estimation, au moins quand la
taille de l'échantillon devient grande. Autrement dit si θ est le paramètre à estimer et 0 l'estimateur de θ,
on voudrait bien que 0 3 ou au moins que lim%&0 3. Dans le premier cas, on dit que 0 est un estimateur sans biais de θ, et dans le second cas on dit que 0 est
un estimateur asymptotiquement sans biais.
Remarquons qu'un estimateur sans biais est automatiquement un estimateur asymptotiquement sans
biais. En effet si , 0 3 alors lim%&0 3. La variable est un estimation sans biais de la moyenne d'une caractéristique sur une population.
Précisons ce qu'est le biais d'un estimateur biaisé.
Définition
On appelle biais de l'estimateur 0 la différence 8 0 $ 3. Précisons immédiatement que même si l'on recherche d'abord des estimations sans biais, l'absence de
biais n'est pas automatiquement synonyme de qualité et un estimateur biaisé n'est pas forcément un
mauvais estimateur.
b) Estimateur convergent
Il serait souhaitable également que les estimations qu'il nous donne soit d'autant plus proche de ce que
l'on cherche à estimer que devient grand.
Ce que nous avons formulé dans le 1) par 0, lim%& "| $ | 9 1
Plus généralement on sera amené à écrire pour un estimateur 0 : 0, lim%& "|0 $ | 9 1
Montrons qu'un estimateur sans biais dont la variance tend vers 0 quand tend vers l'infini remplit bien
cette propriété.
Si 0 est un estimateur sans biais de θ, alors , 0 3
D'après l'inégalité de Bienaymé-Tchebychev, on a pour tout réel α strictement positif:
"|0 $ | ; < 0
Si lim%&0 0 alors
lim%& "|0 $ | ; 0
Or 0 3 donc lim%& "|0 $ 3| 9 1
On montre qu'un estimateur asymptotiquement sans biais, dont la variance tend vers 0 quand tend
vers l'infini remplit également à cette propriété.
En pratique nous garderons cette dernière caractérisation pour définir un estimateur convergent.
On donnera la définition suivante :
Définition
Un estimateur 0 convergent est en estimateur asymptotiquement sans biais tel que
lim%&0 0.
Par exemple, si la variable admet une variance , est un estimateur convergent de la moyenne . On a vu que est un estimateur sans biais et que
. Donc lim%& lim%&
0 Ce qui prouve que est un estimateur convergent.
Remarquons que ce résultat correspond à la loi faible des grands nombres.
7) Risque quadratique Considérons un estimateur sans biais. On a 0 3. Or 0 K0 $ 0L
Donc dans le cas d'un estimateur sans biais 0 0 $ 3
Que vaut 0 $ 3dans le cas général? 0 $ 3 0 $ 203 3 0 $ 230 3 0 0 $ 230 3 0 0 $ 3 0 80
Pour un estimateur convergent asymptotiquement sans biais, on aura :
lim%& 0 $ 3 lim%&0 80
Si l'estimateur est simplement asymptotiquement sans biais, alors on retrouve la formule vue pour un
estimateur sans biais que lim%& 0 $ 3 lim%&0
Réciproquement si QR%& 0 $ 3 0 alors on a QR%&0 80 0 Comme il s'agit de la somme de nombres positifs, en a QR%&0 QR%&80 0.
L'estimateur est donc convergent.
Définition On appelle risque quadratique de l'estimateur 0 le réel positif S0 0 $ 3 si la variable 0 admet une variance.
Théorème On a S0 0 80
En conclusion, il existe des estimateurs sans biais ou asymptotiquement sans biais : pour ceux-là il y a on
a bien entendu lim%& 80 0
On a alors lim%& S0 lim%& 0
Rien n'oblige comme nous le verrons sur des exemples à ce que de tels estimateurs soient convergents : il
existe des estimateurs asymptotiquement sans biais non convergents.
Réciproquement rien n'empêche d'imaginer des estimateurs biaisés tels que QR%&0 0. L'idéal est bien sûr d'avoir un estimateur convergent, mais nous ne pouvons pas toujours être sûr de son
existence.
8) Exemples d'estimateurs convergents Nous avons vu que si la variable admet une espérance et une variance, l'estimateur est un
estimateur convergent. On en déduit immédiatement deux résultats classiques :
a) Estimation du paramètre d'une variable de Bernoulli
Soit T UV. On sait que V et que V1 $ V. On considère par exemple la population française. On veut estimer le nombre de personnes de plus de 60
ans.
On appelle V la proportion inconnue d'individus remplissant cette condition. Si on appelle la variable
aléatoire qui à tout individu associe le nombre 0 s'il a moins de 60 ans et 1 sinon. Il s'agit d'une variable
de Bernoulli de paramètre V. On a V.
Si l'on extrait au hasard un échantillon de personnes dans la population française, la variable aléatoire est appliquée à chaque individu de l'échantillon et retourne valeurs qui sont des 0 ou des 1.
On est dans la situation décrite plus haut. On sait alors que est un estimateur convergent de donc
de V. Remarquons que 4 représente le nombre de "succès", c'est-à-dire le nombre de personnes
de plus de 60 ans sur un échantillon de taille et donc représente le pourcentage de personnes de
plus de 60 ans sur un échantillon de taille , ce que l'on appellera la fréquence. Pour un échantillon donné
dans lesquel les variables , … , prennent les valeurs , … , (qui sont des 0 ou des 1), on note
souvent
W 4
Ce que dit la convergence de c'est que W est une approximation "non biaisé" de V, mais aussi que plus
le nombre grandit plus la probabilité que W soit éloignée de la valeur réelle de V est petite.
b) Estimateur du paramètres d'une loi de Poisson
Nous sommes dans la même situation que précédemment.
La loi de Poisson modélise habituellement les évènements rares.
Si suit une loi de Poisson de paramètres λ, alors X. Si l'on prend un échantillon de taille , l'estimateur est un estimateur convergent de λ.
c) Estimateur du paramètre d'une loi géométrique
Si suit une loi géométrique de paramètre V, on sait que
1V
Une urne contient des boules blanches et des boules noires dans une proportion inconnue.
On procède au tirage avec remise d'une boule et l'on note le numéro de la première boule blanche
obtenue.
Si est la variable correspondant à ce numéro, on sait que suit une loi géométrique dont le paramètre
correspond à la proportion exacte de boules blanches dans l'urne. On répète cette expérience fois, on
obtient une série de valeurs , … , qui sont les valeurs prises par sur chacune des expériences. On
obtient donc un échantillon de taille auquel on associe variables aléatoires de même loi que:
, … , . On sait alors que l'estimateur est un estimateur convergent de Y. On en déduira une
estimation de V à partir d'un échantillon.
9) La variance empirique En reprenant les mêmes notations que dans les parties a) et b), on peut donc considérer que l'on prendra
comme estimateur de l'espérance de la variable la moyenne empirique . La variance empirique est-il un estimateur de ? Ou plutôt puisque a priori tout peut être
considéré comme un estimateur possible, quelles sont les qualités de cet estimateur ?
On a
1 -
.$
On calcule . On a
Z1 -
.$ [ 1 -
.$
Or $
Et et
Donc
On a également $ . Or et , donc . Donc
1 -
.$ ] ^
1 $ $ $ $ 1
La variance empirique n'est pas un estimateur sans biais. Son biais est égal à
8 $
Remarquons toutefois que lim%& . La variance empirique est donc un estimateur asymptotiquement sans biais.
Si l'on prend
_ $ 1
On a
_ K $ 1 L $ 1 $ 1 $ 1
Donc la variable _ est un estimateur sans biais de la variance.
C'est celui que l'on utilisera.
10) Intervalle de confiance Reprenons le problème évoqué plus haut d'une urne contenant des boules noires et blanches. On ne
connaît pas le nombre total de boules, ni la proportion de chaque catégorie. Soit V la proportion inconnue
de boules blanches.
On procède à une série de tirages avec remise jusqu'à ce que l'on obtienne une boule blanche. La variable correspond au nombre de boules tirées suit une loi géométrique de paramètre V. Son espérance est 1V On recommence 100 fois cette opération. On obtient 100 résultats correspondant aux valeurs prises par
100 variables aléatoires indépendantes , … , aa de même loi que .
On sait que aa 1100 - aa
.est un estimateur sans biais de .
On sait également que si aa est la variance empirique calculée sur cet échantillon, la variable _aa
donnée par la formule
_aa 10099 aa
est un estimateur sans biais de la variance . On a trouvé sur l'échantillon des 100 valeurs une moyenne caa 3,55 avec un écart-type de 2,78.
On a donc une variance de 2,78 qui nous permettra d'estimer la variance par la formule :
2.78 h 10099 i 7.806
Donc on estime l'écart type par √7.806 i 2.79
On cherche α tel que " $ l < aa < l ; 0,95
On a
" $ l < aa < l " m $ l $ \√100 < aa $
\√100 < l $ \√100 o
" m$ 10l < √100 aa $ < 10l o
D'après le théorème central limite, on a
" m$ 10l < √100 aa $ < 10l o i p ]10l ^ $ p ]$ 10l ^
Donc
" m$ 10l < √100 aa $ < 10l o i 2p ]10l ^ $ 1
On est donc ramené à chercher α tel que :
2p ]10l ^ $ 1 ; 0,95
Et donc
p ]10l ^ ; 0,975
Or p1,96 0,975
Par croissance de la fonction ϕ, on en déduit : 10l ; 1,96
Et donc l ; 0,196
Si l'on prend pour estimation de σ la valeur 2.79, on trouve l ; 0.196 h 2.79
Donc l ; 0.55
On peut donc affirmer qu'au moins 95% des échantillons de taille 100 ont une moyenne empirique
comprise entre $ 0,55 et 0,55. Nous avons donc moins 5% de chances de nous tromper en affirmant que 3,55 est dans cet intervalle.
Dans ce cas on aura $ 0,55 < 3,55 < 0,55
donc 3 < < 4,1.
L'intervalle [3;4,1] est appelé intervalle de confiance de s au seuil de 95% ou au risque de 5%.
On a alors
3 < 1V < 4.1
Donc 14.1 < V < 13
Donc 0,24 < V < 0.33
On peut estimer que le pourcentage de boules blanches dans l'urne se situe entre 24% et 33% avec un
risque d'erreur de moins de 5%.
Comment améliorer la précision ?
Une façon d'améliorer l'encadrement est d'augmenter √100 c'est-à-dire la taille de l'échantillon.
Si par exemple nous avions eu les mêmes résultats sur 1000 répétitions de l'expérience, on aurait alors
" $ l < aaa < l " m $ l $ \√1000 < aa $
\√1000 < l $ \√1000 o
" m$ 10√10l < √1000 aa $ < 10√10l o
En appliquant encore le théorème central limite, on aura
2p m10√10l o $ 1 ; 0,95
C'est-à-dire :
10√10l ; 1,96
Et donc
l ; 1,9610√10
Donc avec σ i 2,79 on aurait
l ; 1.9610√10 2.79
Soit l ; 0,17
L'intervalle de confiance aurait été alors [3,55-0,17;3,55+0,17].
Ce qui donne
13.72 < V < 13.38
Et donc 0,268 < V < 0.296
Nous prenons un risque inférieur à 5% en disant que la proportion de boules blanches est comprise entre
26,8% et 29,6%.
11. Influence de la taille des échantillon L'écart entre les deux valeurs extrêmes de V est de 0,028. Que devrait être la taille de l'échantillon pour que cet écart soit inférieur ou égal 0,01 ?
Cet écart se calcule par 13.55 $ l $ 13.55 l
On veut donc que 13.55 $ l $ 13.55 l < 0,01
Ce qui donne 3.55 l $ 3.55 $ l < 0,013.55 $ l3.55 l
Ou encore 2 l < $0.01l 0.126025
Donc 2 l 0.01l $ 0.126025 < 0 l < 0.063 ou l ; $200.06
On ne conserve que la valeur positive. On prend donc l < 0,063
Si est la taille cherchée nous savons en reprenant les mêmes calculs que ceux faits pour 100 et 1000
que :
l ; 1.96√ 2.79
Il suffit donc de prendre 1.96√ 2.79 < 0.063
Ce qui donne ; 7534.24
Et donc ; 7535
Nous aurions pu trouver un ordre de grandeur de avec l'inégalité de Bienaymé Tchebychev.
On veut en effet que dans plus que 95% des échantillons de taille , on ait | $ 3.55| < 0.063
On sait que
"| $ 3.55| ; 0.063 < 2.790.063
On veut donc que "| $ 3.55| < 0.063 ; 0.95
Et donc que "| $ 3.55| < 0.063 < 0.05
Il suffit que prendre 2.790.063 < 0.05
Ce qui donne ; 39224.5
Donc ; 39225
La précision est nettement moins bonne que celle obtenue par le théorème central limite.