L'estimation - · PDF fileL'estimation 1. Concrètement ... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais

L'estimation

1. Concrètement ... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais

plus exactement, disons 7,1 cm. C'est peut-être un peu moins ou un peu plus, cela n'a pas d'importance.

C'était un nombre assez précis, avec une virgule, pas une dizaine ou une quinzaine de centimètres, non

quelque chose de plus précis. Voilà un bien beau résultat... Mais comment a t-on fait pour l'obtenir? Certainement pas en mesurant

toutes les françaises : pour ce que je sais, ni mon épouse, ni mes filles, ni ma belle mère, ni ma sœ ur, n'ont

reçu la visite d'un quelconque "mesureur". D'ailleurs je ne connais pas beaucoup de gens qui ont été

mesurés. Je ne suis d'ailleurs pas sûr qu'il y a trente ans il y ait eu une opération générale de mesurage. Il

est bien plus raisonnable de penser que les résultats annoncés ne proviennent pas de l'ensemble des

françaises, mais seulement de quelques-unes d'entre elles. Ce qu'en langage statistique on appelle un

échantillon. Mais dès lors se pose immédiatement la question de la validité des valeurs annoncées maintenant et il y a

trente ans.Examinons comment cela a pu se passer. Si toute la population n'est pas concernée, il a fallu

définir un protocole pour sélectionner un échantillon "représentatif". Chacun connat les liens entre

milieu social, nutrition et taille (liens eux-mêmes mis en évidence par d'autres enquêtes). La constitution

d'un tel échantillon a nécessairement été réalisée selon un ensemble de règles strictes. Nous laisserons cela aux enquêteurs spécialistes. Avant de définir ces règles, il leur a fallu toutefois se poser une première série de questions importantes :

quel doit être le nombre d'individus de l'échantillon ? ce nombre influe t'il sur la précision du résultat

obtenu ? de quelle façon ? Laissons cela aussi de côté pour l'instant. Nous supposerons donc que l'enquêteur soit parvenu à définir

une "taille d'échantillon idéale". Il réalise donc la collecte de données. Comment le statisticien peut-il utiliser les valeurs recueillies pour

approcher la taille moyenne des femmes dans la population ? Il semble assez naturel de penser qu'il fera

dans un premier temps la moyenne des tailles des individus de l'échantillon. Et voilà de nouveaux problèmes : tout d'abord ce calcul est-il une bonne façon d'estimer la moyenne

cherchée? Est-il la meilleure façon de faire cette estimation ou ne donne t'il qu'une simple idée du

résultat sur la population? En second lieu on ne peut ignorer que le résultat de ce calcul dépend de l'échantillon choisi : il y a de

grandes chances que d'un échantillon à l'autre les valeurs trouvées soient un peu (ou très) différentes. Enfin, il semble raisonnable de penser qu'avec un échantillon de plus grande taille on aurait pu (mais pas

à coup sûr) obtenir une meilleure approximation de ce que l'on cherche.Tout ce que nous avons dit

jusqu'à présent relève d'interrogations de bon sens. On pourrait sans doute y ajouter une question plus

préoccupante encore : une telle estimation a t'elle un sens, une véritable valeur scientifique? Répondre à ces questions avec un peu d'objectivité demande de définir des outils qui nous y aideront.

2. Formalisation La première idée est que la taille d'un individu varie dans toutes les populations du monde. On sait en

gros qu'il s'agit d'un réel positif. On peut donc considérer la taille comme une variable aléatoire à

valeurs dans . Cette variable aléatoire suit une loi de probabilité que l'on ne connat pas. On peut supposer

raisonnablement qu'elle admet une espérance et une variance. C'est justement cette espérance que nous

voudrions approcher à partir de l'échantillon. On a constitué un échantillon de individus , . . . , sur lequel on recueille tailles , . . . , . Avec les notations précédentes, on a (qui se traduit en français par : la taille de l'individu est . Plutôt que de dire que l'on applique la variable à chaque individu de l'échantillon, on préfèrera dire que

la taille de la première femme de l'échantillon, c'est la valeur que prend une variable aléatoire de

même loi que (et donc de même espérance et de même variance). On recommence aux toutes les

femmes de l'échantillon . Imaginons par exemple que l'on ait rangé l'échantillon par ordre alphabétique : sera la variable qui

donnera la taille de la première personne de la liste ainsi ordonnée, celle de la deuxième personne, et

ainsi de suite. Si l'on prend un autre échantillon de même taille, après rangement par ordre alphabétique, on appliquera

à nouveau les variables , . . . , . Pour tous les échantillons de personnes et tous les rangements

possibles, on aura toujours une valeur pour , pour , . . ., pour . En fait pour chacun des échantillons de n individus possibles, chaque variable prendra une valeur dans et ce indépendamment de ce que les autres variables ont pris comme valeurs. Ces n variables aléatoires sont indépendantes et de même loi. Pour estimer la moyenne des tailles sur la population, on a effectué la moyenne des tailles recueillies sur

un échantillon (c'est-à-dire des nombres , , . . . , , et donc on a calculé

. . .

Comme nous l'avons remarqué, ce nombre varie avec les échantillons; il peut donc être considéré comme

la valeur prise par une certaine variable aléatoire qui correspond à la moyenne arithmétique des

variables , . . . , . On note cette variable. On aura

. . .

Nous retrouvons moyenne empirique (ou expérimentale) sur un échantillon de taille . On a donc approché la valeur de l'espérance de la variable par la valeur que prend la variable sur

l'échantillon.

Nous savons que si , Or les variables sont indépendantes. Donc si

On sait que

Là encore le résultat ne dépend pas de la loi de probabilité de la variable X.En résumé on a

La loi faible des grands nombres dit alors que 0, "| $ | %& '((() 0

Donc la probabilité que la moyenne empirique soit aussi proche que l'on veut de l'espérance cherchée

tend vers 1 quand devient infiniment grand (en fait "grand" suffira le plus souvent).

Tout cela légitime l'utilisation de pour faire une approximation de . Reste à savoir ce qu'elle est l'erreur que l'on commet quand on fait cette approximation à partir d'un

échantillon. Ce sera le problème de l'intervalle de confiance plus loin.

3) Le problème de l'estimation Généralisons la situation précédente. Considérons un caractère quantitatif étudié sur une population.

La valeur de ce caractère pour chaque individu de cette population peut être représentée par une

variable aléatoire.

Supposons que nous connaissions la forme de la loi suivie par cette variable. En pratique il s'agira d'une

loi usuelle comme la loi binomiale, la loi de Poisson, la loi géométrique, la loi normale...

Toutes ces lois sont données par des paramètres : nombres de répétitions de l'épreuve, probabilités du

succès, moyenne, variance...

Le plus souvent il y a un ou deux paramètres, parfois trois comme dans la loi hypergéométrique.

On connaît le type de loi que suit la variable aléatoire, mais on ne connaît pas les paramètres. Le

problème revient à en estimer la meilleure valeur possible au vue des données recueillies à partir

d'observations faites sur un ou plusieurs échantillons extraits de cette population.

En pratique, on dispose des données obtenues à partir de observations, c'est-à-dire sur un échantillon

de individus extraits de cette population.

On a donc un -uplet , … , qui correspond aux valeurs prises par la variable pour les individus

de l'échantillon.

On peut considérer ce n-uplet comme la réalisation d'un vecteur aléatoire , … où , … , sont variables aléatoires de même loi que . En pratique, dans le protocole appliqué pour la constitution de l'échantillon, on peut faire en sorte que

ces variables soient indépendantes.

On cherche à estimer un des paramètres de la loi suivie par à partir des résultats obtenus pour

l'échantillon. Quelle que soit la façon dont on procède pour réaliser cette estimation, ce que nous

obtiendrons dépend des valeurs de l'échantillon. Si nous avions eu d'autres valeurs, notre estimation

aurait sans doute été différente.

On peut donc dire que l'estimation est elle-même une variable aléatoire fonction des variables , … , .

4) Mise en œuvre sur en exemple Supposons qu'un certain caractère quantitatif dans une population puisse être représenté par une

variable aléatoire dont on sait quelle suit une loi normale de moyenne et de variance

inconnues. Cette situation est très fréquente : de très nombreux phénomènes ont des distributions très

proches de celle d'une loi normale.

Sur cette population que nous considèrerons comme suffisamment grande pour qu'il soit irréaliste de

calculer directement la moyenne et la variance, on extrait en échantillon de individus.

On peut penser au moins dans un premier temps que la moyenne et la variance calculées à partir de cet

échantillon sont des estimations (correctes ?) de la moyenne et de la variance de la population.

A chaque échantillon de taille , on peut associer sa moyenne arithmétique : on définit ainsi une variable

aléatoire que l'on note + qui est la moyenne empirique déjà rencontrée.

On peut de la même façon associer à chaque échantillon sa variance. On définit une variable aléatoire que

l'on peut noter . On aura

1 -

.$

L'estimation que nous ferons de la variance dépend bien entendu des valeurs que prendront et

obtenus à partir de l'échantillon. C'est donc ure variable aléatoire, fonction des variables et

Une telle variable est appelée un estimateur de V.

Les différentes valeurs que peut prendre cet estimateur sont appelées des estimations de V

5) Définitions On se place dans un espace probabilisé Ω, 0, "

Soit θ un paramètre inconnu d'une variable aléatoire dont on connaît la forme de la loi de probabilité.

On extrait un échantillon de taille n de la population. Soit , … , les différentes valeurs prises par sur

cet échantillon.

Ces valeurs peuvent être considérées comme les réalisations de variables aléatoires indépendantes, , … , munies de la même loi que .

Définition

On dit que , … , est un $ échantillon de variables indépendantes et de même loi que . Un estimateur de θ à partir d'un échantillon de taille sera alors une variable aléatoire que l'on note 12 fonction du vecteur aléatoire , … , En pratique on sera amené à considérer la limite d'une telle variable quand n tend vers l'infini.

On élargit la notion d'estimateur à la suite de variables 12.

Définition

Soit , … , est un $ échantillon de variables indépendantes et de même loi que . On appelle estimateur d'un paramètre θ une suite de variables aléatoires 12 fonctions de , … . Par abus de langage, on assimile souvent l'estimateur (qu'est la suite) avec la variable 12

Si 12 0, … on dit que 32 0 , … , qui correspond à la valeur numérique que prend la

variable 12 pour les données obtenues à partir de l'échantillon est une estimation de θ.

Devant en problème concret comme celui d'estimer la moyenne d'une certaine caractéristique

quantitative sur une population à partir des données fournies par un échantillon, la question pas toujours

simple à trancher est celle du meilleur estimateur : la moyenne, la médiane, ou tout autre chose.

Cette question demande au préalable de savoir quel sens on donne au mot "meilleur".

Certaines réflexions de bon sens permettent souvent d'écarter de mauvais candidats.

Par exemple pour le problème précédent, si l'on prend 0, …

on possède en candidat crédible puisque l'on sait que :

Or c'est justement que l'on veut estimer.

Par contre, par exemple, 0, … , 4 ne semble pas au moins en moyenne être un bon

candidat car 4 4

quantité qui tend vers l'infini quand tend vers l'infini sauf si 0.

6) Qualités d'un estimateur

a) Estimateur sans biais

On attend d'un "bon" estimateur qu'en moyenne il nous donne une bonne estimation, au moins quand la

taille de l'échantillon devient grande. Autrement dit si θ est le paramètre à estimer et 0 l'estimateur de θ,

on voudrait bien que 0 3 ou au moins que lim%&0 3. Dans le premier cas, on dit que 0 est un estimateur sans biais de θ, et dans le second cas on dit que 0 est

un estimateur asymptotiquement sans biais.

Remarquons qu'un estimateur sans biais est automatiquement un estimateur asymptotiquement sans

biais. En effet si , 0 3 alors lim%&0 3. La variable est un estimation sans biais de la moyenne d'une caractéristique sur une population.

Précisons ce qu'est le biais d'un estimateur biaisé.

Définition

On appelle biais de l'estimateur 0 la différence 8 0 $ 3. Précisons immédiatement que même si l'on recherche d'abord des estimations sans biais, l'absence de

biais n'est pas automatiquement synonyme de qualité et un estimateur biaisé n'est pas forcément un

mauvais estimateur.

b) Estimateur convergent

Il serait souhaitable également que les estimations qu'il nous donne soit d'autant plus proche de ce que

l'on cherche à estimer que devient grand.

Ce que nous avons formulé dans le 1) par 0, lim%& "| $ | 9 1

Plus généralement on sera amené à écrire pour un estimateur 0 : 0, lim%& "|0 $ | 9 1

Montrons qu'un estimateur sans biais dont la variance tend vers 0 quand tend vers l'infini remplit bien

cette propriété.

Si 0 est un estimateur sans biais de θ, alors , 0 3

D'après l'inégalité de Bienaymé-Tchebychev, on a pour tout réel α strictement positif:

"|0 $ | ; < 0

Si lim%&0 0 alors

lim%& "|0 $ | ; 0

Or 0 3 donc lim%& "|0 $ 3| 9 1

On montre qu'un estimateur asymptotiquement sans biais, dont la variance tend vers 0 quand tend

vers l'infini remplit également à cette propriété.

En pratique nous garderons cette dernière caractérisation pour définir un estimateur convergent.

On donnera la définition suivante :

Définition

Un estimateur 0 convergent est en estimateur asymptotiquement sans biais tel que

lim%&0 0.

Par exemple, si la variable admet une variance , est un estimateur convergent de la moyenne . On a vu que est un estimateur sans biais et que

. Donc lim%& lim%&

0 Ce qui prouve que est un estimateur convergent.

Remarquons que ce résultat correspond à la loi faible des grands nombres.

7) Risque quadratique Considérons un estimateur sans biais. On a 0 3. Or 0 K0 $ 0L

Donc dans le cas d'un estimateur sans biais 0 0 $ 3

Que vaut 0 $ 3dans le cas général? 0 $ 3 0 $ 203 3 0 $ 230 3 0 0 $ 230 3 0 0 $ 3 0 80

Pour un estimateur convergent asymptotiquement sans biais, on aura :

lim%& 0 $ 3 lim%&0 80

Si l'estimateur est simplement asymptotiquement sans biais, alors on retrouve la formule vue pour un

estimateur sans biais que lim%& 0 $ 3 lim%&0

Réciproquement si QR%& 0 $ 3 0 alors on a QR%&0 80 0 Comme il s'agit de la somme de nombres positifs, en a QR%&0 QR%&80 0.

L'estimateur est donc convergent.

Définition On appelle risque quadratique de l'estimateur 0 le réel positif S0 0 $ 3 si la variable 0 admet une variance.

Théorème On a S0 0 80

En conclusion, il existe des estimateurs sans biais ou asymptotiquement sans biais : pour ceux-là il y a on

a bien entendu lim%& 80 0

On a alors lim%& S0 lim%& 0

Rien n'oblige comme nous le verrons sur des exemples à ce que de tels estimateurs soient convergents : il

existe des estimateurs asymptotiquement sans biais non convergents.

Réciproquement rien n'empêche d'imaginer des estimateurs biaisés tels que QR%&0 0. L'idéal est bien sûr d'avoir un estimateur convergent, mais nous ne pouvons pas toujours être sûr de son

existence.

8) Exemples d'estimateurs convergents Nous avons vu que si la variable admet une espérance et une variance, l'estimateur est un

estimateur convergent. On en déduit immédiatement deux résultats classiques :

a) Estimation du paramètre d'une variable de Bernoulli

Soit T UV. On sait que V et que V1 $ V. On considère par exemple la population française. On veut estimer le nombre de personnes de plus de 60

ans.

On appelle V la proportion inconnue d'individus remplissant cette condition. Si on appelle la variable

aléatoire qui à tout individu associe le nombre 0 s'il a moins de 60 ans et 1 sinon. Il s'agit d'une variable

de Bernoulli de paramètre V. On a V.

Si l'on extrait au hasard un échantillon de personnes dans la population française, la variable aléatoire est appliquée à chaque individu de l'échantillon et retourne valeurs qui sont des 0 ou des 1.

On est dans la situation décrite plus haut. On sait alors que est un estimateur convergent de donc

de V. Remarquons que 4 représente le nombre de "succès", c'est-à-dire le nombre de personnes

de plus de 60 ans sur un échantillon de taille et donc représente le pourcentage de personnes de

plus de 60 ans sur un échantillon de taille , ce que l'on appellera la fréquence. Pour un échantillon donné

dans lesquel les variables , … , prennent les valeurs , … , (qui sont des 0 ou des 1), on note

souvent

W 4

Ce que dit la convergence de c'est que W est une approximation "non biaisé" de V, mais aussi que plus

le nombre grandit plus la probabilité que W soit éloignée de la valeur réelle de V est petite.

b) Estimateur du paramètres d'une loi de Poisson

Nous sommes dans la même situation que précédemment.

La loi de Poisson modélise habituellement les évènements rares.

Si suit une loi de Poisson de paramètres λ, alors X. Si l'on prend un échantillon de taille , l'estimateur est un estimateur convergent de λ.

c) Estimateur du paramètre d'une loi géométrique

Si suit une loi géométrique de paramètre V, on sait que

1V

Une urne contient des boules blanches et des boules noires dans une proportion inconnue.

On procède au tirage avec remise d'une boule et l'on note le numéro de la première boule blanche

obtenue.

Si est la variable correspondant à ce numéro, on sait que suit une loi géométrique dont le paramètre

correspond à la proportion exacte de boules blanches dans l'urne. On répète cette expérience fois, on

obtient une série de valeurs , … , qui sont les valeurs prises par sur chacune des expériences. On

obtient donc un échantillon de taille auquel on associe variables aléatoires de même loi que:

, … , . On sait alors que l'estimateur est un estimateur convergent de Y. On en déduira une

estimation de V à partir d'un échantillon.

9) La variance empirique En reprenant les mêmes notations que dans les parties a) et b), on peut donc considérer que l'on prendra

comme estimateur de l'espérance de la variable la moyenne empirique . La variance empirique est-il un estimateur de ? Ou plutôt puisque a priori tout peut être

considéré comme un estimateur possible, quelles sont les qualités de cet estimateur ?

On a

1 -

.$

On calcule . On a

Z1 -

.$ [ 1 -

.$

Or $

Et et

Donc

On a également $ . Or et , donc . Donc

1 -

.$ ] ^

1 $ $ $ $ 1

La variance empirique n'est pas un estimateur sans biais. Son biais est égal à

8 $

Remarquons toutefois que lim%& . La variance empirique est donc un estimateur asymptotiquement sans biais.

Si l'on prend

_ $ 1

On a

_ K $ 1 L $ 1 $ 1 $ 1

Donc la variable _ est un estimateur sans biais de la variance.

C'est celui que l'on utilisera.

10) Intervalle de confiance Reprenons le problème évoqué plus haut d'une urne contenant des boules noires et blanches. On ne

connaît pas le nombre total de boules, ni la proportion de chaque catégorie. Soit V la proportion inconnue

de boules blanches.

On procède à une série de tirages avec remise jusqu'à ce que l'on obtienne une boule blanche. La variable correspond au nombre de boules tirées suit une loi géométrique de paramètre V. Son espérance est 1V On recommence 100 fois cette opération. On obtient 100 résultats correspondant aux valeurs prises par

100 variables aléatoires indépendantes , … , aa de même loi que .

On sait que aa 1100 - aa

.est un estimateur sans biais de .

On sait également que si aa est la variance empirique calculée sur cet échantillon, la variable _aa

donnée par la formule

_aa 10099 aa

est un estimateur sans biais de la variance . On a trouvé sur l'échantillon des 100 valeurs une moyenne caa 3,55 avec un écart-type de 2,78.

On a donc une variance de 2,78 qui nous permettra d'estimer la variance par la formule :

2.78 h 10099 i 7.806

Donc on estime l'écart type par √7.806 i 2.79

On cherche α tel que " $ l < aa < l ; 0,95

On a

" $ l < aa < l " m $ l $ \√100 < aa $

\√100 < l $ \√100 o

" m$ 10l < √100 aa $ < 10l o

D'après le théorème central limite, on a

" m$ 10l < √100 aa $ < 10l o i p ]10l ^ $ p ]$ 10l ^

Donc

" m$ 10l < √100 aa $ < 10l o i 2p ]10l ^ $ 1

On est donc ramené à chercher α tel que :

2p ]10l ^ $ 1 ; 0,95

Et donc

p ]10l ^ ; 0,975

Or p1,96 0,975

Par croissance de la fonction ϕ, on en déduit : 10l ; 1,96

Et donc l ; 0,196

Si l'on prend pour estimation de σ la valeur 2.79, on trouve l ; 0.196 h 2.79

Donc l ; 0.55

On peut donc affirmer qu'au moins 95% des échantillons de taille 100 ont une moyenne empirique

comprise entre $ 0,55 et 0,55. Nous avons donc moins 5% de chances de nous tromper en affirmant que 3,55 est dans cet intervalle.

Dans ce cas on aura $ 0,55 < 3,55 < 0,55

donc 3 < < 4,1.

L'intervalle [3;4,1] est appelé intervalle de confiance de s au seuil de 95% ou au risque de 5%.

On a alors

3 < 1V < 4.1

Donc 14.1 < V < 13

Donc 0,24 < V < 0.33

On peut estimer que le pourcentage de boules blanches dans l'urne se situe entre 24% et 33% avec un

risque d'erreur de moins de 5%.

Comment améliorer la précision ?

Une façon d'améliorer l'encadrement est d'augmenter √100 c'est-à-dire la taille de l'échantillon.

Si par exemple nous avions eu les mêmes résultats sur 1000 répétitions de l'expérience, on aurait alors

" $ l < aaa < l " m $ l $ \√1000 < aa $

\√1000 < l $ \√1000 o

" m$ 10√10l < √1000 aa $ < 10√10l o

En appliquant encore le théorème central limite, on aura

2p m10√10l o $ 1 ; 0,95

C'est-à-dire :

10√10l ; 1,96

Et donc

l ; 1,9610√10

Donc avec σ i 2,79 on aurait

l ; 1.9610√10 2.79

Soit l ; 0,17

L'intervalle de confiance aurait été alors [3,55-0,17;3,55+0,17].

Ce qui donne

13.72 < V < 13.38

Et donc 0,268 < V < 0.296

Nous prenons un risque inférieur à 5% en disant que la proportion de boules blanches est comprise entre

26,8% et 29,6%.

11. Influence de la taille des échantillon L'écart entre les deux valeurs extrêmes de V est de 0,028. Que devrait être la taille de l'échantillon pour que cet écart soit inférieur ou égal 0,01 ?

Cet écart se calcule par 13.55 $ l $ 13.55 l

On veut donc que 13.55 $ l $ 13.55 l < 0,01

Ce qui donne 3.55 l $ 3.55 $ l < 0,013.55 $ l3.55 l

Ou encore 2 l < $0.01l 0.126025

Donc 2 l 0.01l $ 0.126025 < 0 l < 0.063 ou l ; $200.06

On ne conserve que la valeur positive. On prend donc l < 0,063

Si est la taille cherchée nous savons en reprenant les mêmes calculs que ceux faits pour 100 et 1000

que :

l ; 1.96√ 2.79

Il suffit donc de prendre 1.96√ 2.79 < 0.063

Ce qui donne ; 7534.24

Et donc ; 7535

Nous aurions pu trouver un ordre de grandeur de avec l'inégalité de Bienaymé Tchebychev.

On veut en effet que dans plus que 95% des échantillons de taille , on ait | $ 3.55| < 0.063

On sait que

"| $ 3.55| ; 0.063 < 2.790.063

On veut donc que "| $ 3.55| < 0.063 ; 0.95

Et donc que "| $ 3.55| < 0.063 < 0.05

Il suffit que prendre 2.790.063 < 0.05

Ce qui donne ; 39224.5

Donc ; 39225

La précision est nettement moins bonne que celle obtenue par le théorème central limite.

Documents

L'estimation - · PDF fileL'estimation 1. Concrètement ... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais