32
Notes de cours sur les méthodes de régression Support du cours pour les M1 EURIA Année 2015-2016 1 Introduction aux méthodes de régression L’objectif général de la régression est d’expliquer une variable Y , dite réponse, variable exogène ou variable à expliquer, en fonction de p variables X 1 , ..., X p , dites variables explicatives ou endogènes. On dispose d’observations de ces variables sur n individus, c’est à dire d’un tableau de données de la forme : y 1 x 1,1 x 1,2 ... x 1,p y 2 x 2,1 x 2,2 ... x 2,p . . . . . . . . . . . . . . . y n x n,1 x n,2 ... x n,p Table 1 – Lignes : individus, Colonnes : variables La première colonne est la variable à prédire à partir des variables explicatives données dans les p dernières colonnes. Les méthodes de régression sont couramment utilisées en actuariat. Deux exemples seront plus précisément étudiés dans le cadre de ce cours : Assurance dommage : les modèles de régression sont couramment utilisés pour prévoir la prime pure d’un assuré en fonction de son profil. On cherche par exemple à prédire le nombre et les montants des sinistres d’un assuré au cours d’une année en fonction de son sexe, son âge, son métier (CSP), la région où il vit, etc afin d’adapter au mieux la tarification au profil de l’assuré... Tables de mortalité : les tables de mortalités décrivent la démographie d’une population donnée, typiquement le nombre N x,t de survivants qui ont l’âge x l’année t. Les modèles de régression sont couramment utilisés pour prévoir l’évolution future de la population et réaliser des tables de mortalité prospectives. Ces tables prospectives sont utilisées pour de nombreux calculs actuariels en assurance vie. Triangles de liquidation des sinistres : en assurance dommages, selon les branches considérées, les sinistres relatifs à un contrat sont constatés et payés plus ou moins longtemps après leur survenance (jusqu’à 10 ans). On résume généralement les données disponibles dans un "triangle des sinistres" qui décrivent les montant des sinistres survenus l’année i et réglés l’année comptable i + j . La réglementation prudentielle impose aux compagnies d’assurance d’estimer la charge future des sinistres afin de provisionner de quoi faire face à leurs engagements futurs ; la modélisation des triangles de sinistre avec des modèles de régression permet de réaliser ces estimations. Ces différentes variables peuvent être quantitatives à valeurs continues (ex : âge, température, montant...) quantitatives à valeurs discrètes, par exemple à valeurs binaires (ex : présence/absence d’une maladie) ou entières (ex : nombre de sinistres) qualitatives (ex : CSP, région, sexe). 1

Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Notes de cours sur les méthodes de régression

Support du cours pour les M1 EURIA

Année 2015-2016

1 Introduction aux méthodes de régression

L’objectif général de la régression est d’expliquer une variable Y , dite réponse, variable exogène ouvariable à expliquer, en fonction de p variables X1, ..., Xp, dites variables explicatives ou endogènes. Ondispose d’observations de ces variables sur n individus, c’est à dire d’un tableau de données de la forme :

y1 x1,1 x1,2 . . . x1,p

y2 x2,1 x2,2 . . . x2,p

......

......

...yn xn,1 xn,2 . . . xn,p

Table 1 – Lignes : individus, Colonnes : variables

La première colonne est la variable à prédire à partir des variables explicatives données dans les pdernières colonnes.

Les méthodes de régression sont couramment utilisées en actuariat. Deux exemples seront plusprécisément étudiés dans le cadre de ce cours :– Assurance dommage : les modèles de régression sont couramment utilisés pour prévoir la prime

pure d’un assuré en fonction de son profil. On cherche par exemple à prédire le nombre et lesmontants des sinistres d’un assuré au cours d’une année en fonction de son sexe, son âge, son métier(CSP), la région où il vit, etc afin d’adapter au mieux la tarification au profil de l’assuré...

– Tables de mortalité : les tables de mortalités décrivent la démographie d’une population donnée,typiquement le nombre Nx,t de survivants qui ont l’âge x l’année t. Les modèles de régression sontcouramment utilisés pour prévoir l’évolution future de la population et réaliser des tables de mortalitéprospectives. Ces tables prospectives sont utilisées pour de nombreux calculs actuariels en assurancevie.

– Triangles de liquidation des sinistres : en assurance dommages, selon les branches considérées,les sinistres relatifs à un contrat sont constatés et payés plus ou moins longtemps après leursurvenance (jusqu’à 10 ans). On résume généralement les données disponibles dans un "triangle dessinistres" qui décrivent les montant des sinistres survenus l’année i et réglés l’année comptable i+ j.La réglementation prudentielle impose aux compagnies d’assurance d’estimer la charge future dessinistres afin de provisionner de quoi faire face à leurs engagements futurs ; la modélisation destriangles de sinistre avec des modèles de régression permet de réaliser ces estimations.

Ces différentes variables peuvent être– quantitatives à valeurs continues (ex : âge, température, montant...)– quantitatives à valeurs discrètes, par exemple à valeurs binaires (ex : présence/absence d’une

maladie) ou entières (ex : nombre de sinistres)– qualitatives (ex : CSP, région, sexe).

1

Page 2: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

La nature des variables conditionne fortement la méthode de régression utilisée :– dans le chapitre 4, toutes les variables sont supposées être quantitatives continues et on introduira la

régression linéaire multiple qui est une généralisation de la régression linéaire simple étudiéeen L3

– dans le chapitre 5, on supposera toujours que la variable à expliquer est quantitative continue, maison autorisera certaines variables explicatives à être qualitatives ou quantitatives discrètes et onintroduira l’analyse de la variance et l’analyse de la covariance

– enfin, les modèles linéaires généralisés (GLM), abordés dans le chapitre 6, permettent degénéraliser les modèles de régression linéaire lorsque la variable à expliquer est qualitative ou discrète.

Les chapitres 2 et 3 sont des rappels des cours de L3 et sont des pré-requis de ce cours. Le chapitre 2rappelle certaines notions essentielles du cours de statistique : estimation, intervalle de confiance, teststatistique, méthode du maximum de vraisemblance,... Le chapitre 3 rappelle certaines propriétés desvecteurs gaussiens et des projections orthogonales. Ce sont les principaux outils mathématiques utilisésdans les démonstrations des chapitres 4 et 5.

2 Introduction à la statistique inférentielle

Pour plus de détails, on pourra consulter les ouvrages suivants :Husson F. et Pagès J. (2005), Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, PressesUniversitaires de Rennes.Knight, K. (1999), Mathematical Statistics, Chapman and Hall.Pagès J. (2005), Statistiques générales pour utilisateurs. 1 - Méthodologie, Presses Universitaires deRennes.Saporta, G. (2006), Probabilités, analyses des données et statistiques, Editions Technip, 2e édition.

2.1 Introduction

Les exemples ci-dessous serviront à illustrer ce chapitre :– Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000

thermomètres. Afin de tester la qualité des thermomètres, le client en choisit 20 au hasard et lesplonge dans un liquide à 20 degrés. Il obtient les résultats suivants :20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu’ils donnent la bonne températureen moyenne ? Avec quelle précision ?

– Exemple 2 : sondage. Afin d’estimer les intentions de vote lors du deuxième tour d’une électionprésidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensentvoter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de votedans la population française ? Avec quelle précision le sondage effectué permet t’il d’estimer lepourcentage d’intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec unecertaine confiance, que à la date du sondage le candidat A est en tête ?

– Exemple 3 : efficacité d’un médicament en médecine. Afin d’étudier l’effet d’un nouveaumédicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12patients avant et après traitement. Les valeurs suivantes ont été obtenues :

Avant 200 174 198 170 179 182 193 209 185 155 169 210Après 191 170 177 167 159 151 176 183 159 145 146 177

Peut-on conclure que ce médicament réduit la tension artérielle ?

2

Page 3: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

2.2 Modélisation

On dispose donc de n observations notées (x1, ..., xn) ∈ Rn (cf exemples ci-dessus). On va supposer tout

d’abord que ces observations sont une réalisation d’une expérience aléatoire, c’est à dire qu’il existe desvariables aléatoires réelles (v.a.r.) (X1, ..., Xn) définies sur un espace probabilisé (Ω,F ,P) telles que(x1, ..., xn) = (X1(ω), ..., Xn(ω)) avec ω ∈ Ω.Ceci permet de modéliser l’aléatoire qui est généralement présente dans le recueil des données. Parexemple, dans les exemples introduits ci-dessus :– Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un

grand nombre d’individus. Si on recommence l’expérience, il y a de fortes chances qu’on choisissed’autres individus et qu’on obtienne des résultats différents : le résultat de l’expérience est donc bien"aléatoire".

– Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes àdes erreurs expérimentales. Ceci rajoute de l’incertitude aux résultats obtenus.

On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1, ..., Xn). Dans le cadre de cechapitre, on supposera que ce sont des variables aléatoires indépendantes et identiquementdistribuées (i.i.d). Il s’agit du cadre le plus simple, mais cette hypothèse n’est pas toujours réaliste :– Lorsqu’on considère des phénomènes indexés par le temps (cf cours M2 sur les séries temporelles),

l’hypothèse d’indépendance n’est généralement pas vérifiée. Par exemple, si (x1, x2, ..., xn) désigne lecours d’un produit financier pendant n jours successifs, alors on ne peut généralement pas supposéeque les observations successives xi et xi+1 proviennent de variables aléatoires indépendantes.

– Lorsque l’on cherche à prédire une variable (variable à expliquer) à partir d’autres variables (variablesexplicatives), on suppose généralement que la loi de la variable à expliquer dépend des variablesexplicatives. L’hypothèse “identiquement distribuée” n’est plus vérifiée. Ce sera la cas dans lesmodèles de régression étudiés dans les chapitres suivants.

Définition. On appelle n-échantillon d’une loi de probabilité P une suite (X1, ..., Xn) de v.a. i.i.d. quisuivent le loi de probabilité P. On notera X1, ..., Xn ∼iid P

On va ensuite supposer, dans ce chapitre, que la loi de probabilité commune de X1, X2, ..., Xn est unloi de probabilité qui dépend d’un paramètre inconnu θ ∈ Θ avec Θ ⊂ R

k (“statistique paramétrique”par opposition à “statistique non paramétrique”). On notera alors

X1, ..., Xn ∼iid Pθ

Par exemple, on supposera souvent que

X1, ..., Xn ∼iid N (µ, σ2)

avec N (µ, σ2) la loi normale d’espérance µ et de variance σ2. On parle alors d’échantillon gaussien. Leparamètre inconnu est θ = (µ, σ) ∈ R× R

+∗.On cherche alors à estimer θ à partir des observations disponibles (x1, ..., xn).

Définition. Soit (X1, ..., Xn) un n-échantillon d’une loi Pθ. Un estimateur du paramètre inconnu θest une variable aléatoire T = g(X1, ..., Xn) qui s’exprime en fonction de (X1, ..., Xn). Une estimationde θ est alors la valeur numérique prise par cette statistique sur une réalisation particulière (x1, ..., xn),c’est à dire la quantité t = g(x1, ..., xn).

Exemple et définition. Prenons l’exemple 1 sur la qualité des thermomètres. On suppose à nouveauque (x1, ..., xn) est une réalisation d’un échantillon (X1, ..., Xn). La qualité des thermomètres estpartiellement décrite par les paramètres inconnus µ = E[Xi] (si les thermomètres sont de bonne qualité,alors ils devraient fournir la bonne température en moyenne, c’est à dire qu’on devrait avoir µ = 20) et

3

Page 4: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

σ2 = var[Xi] (qui renseigne sur la dispersion de mesures autour de la valeur moyenne : si σ = 0 alorstous les thermomètres donnent la même valeur µ alors que si σ est grand, les thermomètres indiquentdes températures très différentes et sont donc de mauvaise qualité).– Un estimateur usuel de µ est alors la moyenne empirique définie par

X =X1 + ...+Xn

n

– Un estimateur usuel de σ2 est la variance empirique définie par

S2 =

∑ni=1 X

2i

n− X2 =

1

n

n∑

i=1

(Xi − X)2

Les estimations correspondantes sont notées x = x1+...+xn

n et s2 =∑n

i=1 x2i

n − x2. Ici on obtientx = 20.08o et s = 0.2657o. Les thermomètres semblent donc indiquer une température légèrementsupérieur à 200, mais on peut se demander si cette différence est significative étant donné la faible taillede l’échantillon (20 thermomètres seulement) et la forte variabilité entre les thermomètres. Lesintervalles de confiances et les test statistiques vus dans la suite de ce cours permettront de répondre àcette question.

Exemple et définition. Prenons l’exemple 2 du sondage sur les intentions de vote lors d’une électionavec deux candidats (notés A et B). Le paramètre inconnu est la proportion π d’intentions de vote enfaveur de B dans la population totale. Pour estimer cette quantité, on sonde 1000 personnes choisies auhasard, et on code les résultats de la manière suivante :– xi = 0 si la ième personne sondée pense voter pour A– xi = 1 si la ième personne sondée pense voter pour BOn suppose que (x1, ..., xn) est une réalisation d’un échantillon (X1, ..., Xn) d’une loi de Bernoulli et leparamètre inconnu θ = π = P[Xi = 1] est le paramètre de cette loi de Bernoulli. L’expérience aléatoireconsiste ici à choisir les 1000 personnes au hasard et de manière indépendante dans la "populationtotale". Un estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence(X1, ..., Xn), c’est à dire :

F =cardi ∈ 1...n|Xi = 1

n=

∑ni=1 Xi

n

On retrouve un cas particulier de l’exemple précédent puisque π = E[Xi] et F est la moyenne empiriquede l’échantillon. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur ducandidat B (i.e. 480 "1" dans la série (x1, ..., xn)). Une estimation de π est alors

f =cardi ∈ 1...n|xi = 1

n=

∑ni=1 xi

n= 0.48

Remarque. Dans la suite du cours, les variables aléatoires (par exemple Xi, F , S) sont notées avecdes lettres majuscules, les observations (xi) et les estimations (f , s) avec des lettres minuscules. Lesparamètres inconnus sont notés avec des lettres grecques (par exemple π, µ, σ).

2.3 La méthode du maximum de vraisemblance

La fonction de vraisemblance définie ci-dessous joue un rôle fondamental en statistique.

Définition. Si la loi de probabilité du vecteur aléatoire (X1, ..., Xn) admet une densité f(x1, ..., xn; θ)par rapport à une mesure dominante, alors on appelle fonction de vraisemblance la fonction de θdéfinie par

L(θ;x1, ..., xn) = f(x1, ..., xn; θ)

4

Page 5: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Dans le cas des échantillons i.i.d., la loi de probabilité jointe de (X1, ..., Xn) admet une densité (parrapport à la mesure produit) dès que la loi marginale de Xi admet une densité f(xi; θ) et on a alors

L(θ;x1, ..., xn) =

n∏

i=1

f(xi; θ)

En pratique :– Lorsque les Xi sont des variables aléatoires discrètes, alors on considère la densité par rapport à la

mesure de comptage et f(xi; θ) = Pθ[Xi = xi]. L(θ;x1, ..., xn) s’interprète alors directement comme laprobabilité ou "vraisemblance" d’observer (x1, ..., xn) lorsque θ est la vraie valeur du paramètre.

– La plupart des lois usuelles pour les variables aléatoires continues (loi normale, loi log-normale, loigamma,...) sont définies par leurs densités f(xi; θ) par-rapport à la mesure de Lebesgue et la fonctionde vraisemblance s’exprime à partir de ces densités.

On appelle fonction de log-vraisemblance la quantité :

l(θ;x1, ..., xn) = ln(L(θ;x1, ..., xn))

La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation (x1, ..., xn) d’unéchantillon de loi Pθ, à prendre comme estimation t de θ une valeur de θ (si elle existe...) qui rendmaximale la fonction de vraisemblance

θ → L(θ;x1, ..., xn)

On notera t = h(x1, ..., xn) = argmaxθ∈ΘL(θ;x1, ..., xn). L’estimateur du maximum devraisemblance (EMV) est alors l’estimateur T = h(X1, ..., Xn).

Remarque. En pratique, on travaille souvent avec la fonction de log-vraisemblance qui est plus simpleà manipuler (le passage au log permet de transformer le produit en somme). Pour certaines lois usuelles(loi de Bernoulli, loi de Poisson, loi Exponentielle, loi normale) , une étude de fonction (calcul desdérivés premières et éventuellement seconde, tableau de variation,...) permet de trouver le maximum del. Lorsque ce n’est pas possible, une méthode d’optimisation numérique est utilisée. Avec R, on peut parexemple utiliser la fonction fitdistr du package MASS.

Exemple. Si (X1, ..., Xn) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alors

1− π si xi = 0

Pπ(Xi = xi) =

π si xi = 1

Ceci se réécrit sous la forme

Pπ(Xi = xi) = πxi(1− π)1−xi pour xi ∈ 0, 1

Soit (x1, ..., xn) ∈ 0, 1n une réalisation de (X1, ..., Xn). La vraisemblance est donnée par

L(π;x1, ..., xn) =

n∏

i=1

Pπ(Xi = xi)

=

n∏

i=1

πxi(1− π)1−xi

= π∑n

i=1 xi(1− π)n−∑n

i=1 xi

On en déduit que

l(π;x1, ..., xn) = ln(π)n∑

i=1

xi + ln(1− π)(n−n∑

i=1

xi)

5

Page 6: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

puis que(

∂l(π;x1, ..., xn)

∂π

)

=

∑ni=1 xi

π(1 − π)− n

1− π

Donc, en étudiant le signe de la dérivée, on en déduit que la fonction de vraisemblance atteint son

maximum en∑n

i=1 xi

n . L’EMV est donc F =∑n

i=1 Xi

n . On retrouve l’estimateur usuel définiprécédemment.

Exemple. On considère les températures journalières (en degré Celsius )à Brest au cours de l’été 2008données dans le tableau ci-dessous :16.4 ; 14.25 ; 14.5 ; 11.8 ; 13.65 ; 12.2 ; 11.6 ; 13.2 ; 16.9 ; 17.1 ; 16.75 ; 15.2 ; 12.5 ; 12.45 ; 13.65 ; 12.15 ;13.45 ; 15.1 ; 16.4 ; 16.5 ; 18.25 ; 17.2 ; 12.95 ; 15.25 ; 16.8 ; 14.35 ; 16.9 ; 18.3 ; 17.75 ; 15.85 ; 16.1 ; 16 ;14.4 ; 14.35 ; 16 ; 14.65 ; 14.2 ; 15.05 ; 15.75 ; 16.7 ; 16.05 ; 14.9 ; 15.9 ; 14.5 ; 18.9 ; 16.8 ; 15.2 ; 15.55 ;16.95 ; 15.6 ; 15.05 ; 15.5 ; 19.1 ; 20.8 ; 18.15 ; 17.4 ; 18.45 ; 17.45 ; 17.6 ; 19.25 ; 17.95 ; 17.4 ; 17.95 ;17.1 ; 16.4 ; 17.95 ; 19.4 ; 17.05 ; 17.35 ; 15.4 ; 17.15 ; 15.8 ; 15.6 ; 15.9 ; 15.5 ; 13.25 ; 15.6 ; 15.2 ; 16.95 ;16.25 ; 15.35 ; 16.9 ; 16.05 ; 14.55 ; 16.9 ; 16.35 ; 16.95 ; 16.3 ; 16.05 ; 16.35 ; 17.85 ; 16.65

1. Réaliser un histogramme de ces observations (on utilisera des classes de largeur 1 degré et lelogiciel R).

2. On suppose dans la suite de l’exercice que ces observations sont une réalisation de n variablesaléatoires (X1, ..., Xn) i.i.d. de loi N (µ, σ2). Cette hypothèse vous semble-t-elle réaliste ?

3. Quel est l’estimateur du maximum de vraisemblance de θ = (µ, σ) ?

4. Application numérique. Calculer les estimations correspondantes sur les données detempérature journalière à Brest, puis représenter sur la figure de la question 1. la densitécorrespondante (attention à l’échelle !). Commentez.

5. Vérifier que vous retrouvez les résultats précédents avec la fonction fisdistr de R et tester d’autreslois usuelles (loi gamma, loi log-normale,...).

Solution partielle : 3. Calcul de la fonction de vraisemblance. Soit (X1, ..., Xn) un n-échantillon d’uneloi normale de moyenne µ et écart-type σ, alors la densité de la v.a. Xi est donnée, pour xi ∈ R, par :

fθ(xi) =1√2πσ

exp

(

− (xi − µ)2

2σ2

)

avec θ = (µ, σ). Donc, la fonction de vraisemblance est donnée, pour (x1, ..., xn) ∈ Rn une réalisation de

(X1, ..., Xn), par :

L(θ;x1, ..., xn) =

n∏

i=1

fθ(xi)

=

n∏

i=1

1√2πσ

exp

(

− (xi − µ)2

2σ2

)

=1

(2π)n/2σnexp

(

−∑n

i=1(xi − µ)2

2σ2

)

L’étude des points critiques montre que cette fonction atteint son maximum pour µ = x et σ = s. Pourla loi normale, les estimateurs du maximum de vraisemblance de µ et σ2 coïncident avec les estimateursusuels de l’espérance et de la variance.4. Application numérique : x = 15.9679o et s = 1.7846o.Graphique : cf Figure 1

2.4 Propriétés des estimateurs

On peut toujours définir une infinité d’estimateurs pour un paramètre inconnu donné, et en pratique oncherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de définir ce qu’est un bonestimateur.

6

Page 7: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

10 12 14 16 18 20 220

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Figure 1 – Histogramme des températures et densité de la loi normale ajustée

2.4.1 Biais d’un estimateur

Définition. On appelle biais de l’estimateur T la quantité

biais(T ) = E(T )− θ

On dit que l’estimateur T est sans biais lorsque biais(T ) = 0, c’est à dire lorsque E[T ] = θ. Le biaisreprésente "l’erreur moyenne" qui est faite lorsqu’on utilise T pour estimer θ.

Proposition. Si (X1, ..., Xn) est un n-échantillon d’une loi de moyenne E[Xi] = µ, alors X est unestimateur sans biais de µ. En particulier, si (X1, ..., Xn) est un n-échantillon de Bernoulli deparamètre π alors F est un estimateur sans biais de π.Si on suppose en outre que σ2 < ∞ alors E[S2] = n−1

n σ2.S2 est donc un estimateur biaisé de σ2, et on préfère parfois utilisé l’estimateur corrigé

S2corr =

n

n− 1S2 =

1

n− 1

n∑

i=1

(Xi − X)2

qui est un estimateur sans biais de σ2.

Remarque. De nombreux logiciels statistiques (Excel, R, ...) calculent par défaut l’estimateur sansbiais de la variance S2

corr défini ci-dessus.

Démonstration. Si (X1, ..., Xn) est un n-échantillon d’une loi d’espérance µ alors

E[X ] = E[X1 + ...+Xn

n]

=E[X1] + ...+ E[Xn]

n= µ

On suppose que σ2 < ∞. Par définition,

S2 =1

n

n∑

i=1

(Xi − X)2

7

Page 8: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

et de la décomposition (Xi − X) = (Xi − µ)− (X − µ), on déduit que :

S2 =1

n

n∑

i=1

(Xi − µ)2 − 2(X − µ)(Xi − µ) + (X − µ)2

=1

n

n∑

i=1

(Xi − µ)2 − 2(X − µ)1

n

n∑

i=1

(Xi − µ) + (X − µ)2

=1

n

n∑

i=1

(Xi − µ)2 − (X − µ)2

Donc

E[S2] = E[1

n

n∑

i=1

(Xi − µ)2 − (X − µ)2]

=1

n

n∑

i=1

E[(Xi − µ)2]− E[(X − µ)2]

= σ2 − E[(X − µ)2]

Il reste à calculer

E[(X − µ)2] = var(X)

= var(1

n

n∑

i=1

Xi)

=1

n2var(

n∑

i=1

Xi)

=1

n2

n∑

i=1

var(Xi)

=σ2

n

Finalement,

E[S2] =n− 1

nσ2

2.4.2 Erreur quadratique moyenne d’un estimateur

On mesure généralement la précision d’un estimateur par son erreur quadratique moyenne.

Définition. L’erreur quadratique moyenne (EQM) de l’estimateur T définie par

EQM(T ) = E[(T − θ)2]

L’EQM représente l’espérance du carré de l’écart entre l’estimateur et le paramètre inconnu : plusl’EQM est faible, plus l’estimateur est précis.

Remarque. On montre facilement que

E[(T − θ)2] = var(T ) + E[(T − θ)]2

c’est à dire que l’erreur quadratique moyenne est égale à la variance de l’estimateur plus le biais del’estimateur au carré. Lorsque l’estimateur est non-biaisé, l’EQM coïncide avec la variance : parmi deuxestimateurs sans biais, le plus précis est donc celui de variance minimale (cf Figure 2.4.2 : le meilleurestimateur est celui de droite). Cette formule est également utile en pratique pour calculer l’EQM desestimateurs usuels.

8

Page 9: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

0 1 20

0.5

1

1.5

2

β0

β 1

0 1 20

0.5

1

1.5

2

β0

β 1

0 1 20

0.5

1

1.5

2

β0

β 1

Figure 2 – Plusieurs réalisations de trois estimateurs différents. La vraie valeur du paramètre est le“centre” de la cible (point de coordonnés (1, 1)). Le premier estimateur (figure de gauche) est biaisé (on“vise” systématiquement trop en bas et à gauche), alors que les deuxième (figure du milieu) et troisièmeestimateurs (figure de droite) sont non-biaisés. La variance du deuxième estimateur est plus forte quecelle du troisième estimateur.

Proposition. Si (X1, ..., Xn) est un n-échantillon d’une loi de moyenne µ et de variance σ2 < ∞, alors

EQM(X) = var(X) =σ2

n

En particulier, si (X1, ..., Xn) est un échantillon de Bernoulli de paramètre π alors

EQM(F ) = var(F ) =π(1− π)

n

Si de plus µ4 = E[(Xi − µ)4] < ∞, alors

EQM(S2corr) = var(S2

corr) =µ4

n− n− 3

n(n− 1)σ4

Démonstration. (partielle)Soit (X1, ..., Xn) un échantillon d’une loi de moyenne µ et de variance σ < ∞. On a vu que X est unestimateur sans biais de µ et donc

EQM(X) = var(X)

= var(X1 + ...+Xn

n)

=var(X1) + ...+ var(Xn)

n2

=σ2

n

Le calcul de var(S2corr) est plus délicat...

2.4.3 L’information de Fisher

Définition. On appelle quantité d’information de Fisher apportée par un n-échantillon sur leparamètre θ la quantité suivante (si elle existe)

In(θ) = E[

(

∂l(θ;X1, ..., Xn)

∂θ

)2

]

9

Page 10: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

En pratique, il est souvent plus facile d’utiliser l’une des deux formules données dans la propositionsuivante pour calculer l’information de Fisher.

Proposition. Sous des conditions générales (cf remarque ci-dessous), on a :

In(θ) = var(

(

∂l(θ;X1, ..., Xn)

∂θ

)

)

In(θ) = −E[

(

∂2l(θ;X1, ..., Xn)

∂θ2

)

]

Démonstration. On se place dans le cas des variables continues. La preuve dans le cas discret estsimilaire en remplaçant les signes

par des signes∑

. On part de la relation :

Rn

L(θ;x1, ..., xn)dx1...dxn = 1 (2.1)

qui vient du fait que L(θ;x1, ..., xn) est la loi de probabilité d’un n-échantillon (X1, ..., Xn) de la loi Pθ.Notons que, plus généralement, si g : Rn → R, on a

E[g(X1, ..., Xn)] =

Rn

g(x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

Ensuite, par définition de l, on a

∂L(θ;X1, ..., Xn)

∂θ= L(θ;X1, ..., Xn)

∂l(θ;X1, ..., Xn)

∂θ(2.2)

En dérivant (2.1) par rapport à θ, et en supposant qu’on puisse intervertir les signes∫

et ∂, on obtient

0 =∂

∂θ

Rn

L(θ;x1, ..., xn)dx1...dxn

=

Rn

∂θL(θ;x1, ..., xn)dx1...dxn

En intégrant (2.2), on obtient alors que

Rn

L(θ;X1, ..., Xn)∂l(θ;X1, ..., Xn)

∂θdx1...dxn = 0 (2.3)

Par ailleurs, d’après la remarque précédente, on a

Rn

L(θ;X1, ..., Xn)∂l(θ;X1, ..., Xn)

∂θdx1...dxn = E[

∂l(θ;X1, ..., Xn)

∂θ]

On a donc E[∂l(θ;X1,...,Xn)∂θ ] = 0 puis

In(θ) = E[

(

∂l(θ;X1, ..., Xn)

∂θ

)2

]

puisque la v.a. ∂l(θ;X1,...,Xn)∂θ est centrée.

En dérivant (2.3) par rapport à θ, on obtient

Rn

L(θ;X1, ..., Xn)∂2l(θ;X1, ..., Xn)

∂θ2+

Rn

∂θL(θ;X1, ..., Xn)

∂θl(θ;X1, ..., Xn) = 0

Puis, en utilisant à nouveau l’égalité ∂L(θ;X1,...,Xn)∂θ = L(θ;X1, ..., Xn)

∂l(θ;X1,...,Xn)∂θ , on obtient la

deuxième égalité de la proposition.

10

Page 11: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Remarque. 1. La proposition précédente s’applique lorsque la vraisemblance est deux fois dérivablepar rapport à θ (pour tout x) et qu’il est possible d’intervertir les signes ∂ et

. Ces hypothèsessont vérifiées par les lois usuelles dès que le support de la loi, c’est à dire l’ensembleAθ = x|f(x; θ) ≥ 0 , ne dépend pas de θ. Un exemple classique pour lequel le support de la loidépend de θ est la cas où les Xi suivent une loi uniforme sur [0, θ]. On vérifie alors que lesformules de la proposition précédente ne sont pas vérifiées (cf Exercice 2.8).

2. En utilisant la définition de la log-vraisemblance dans le cas des échantillons i.i.d., il est facile devérifier que l(θ;x1, ..., xn) =

∑ni=1 l(θ;xi). On en déduit aisément que, si la proposition précédente

s’applique, alors In(θ) = nI1(θ)

Exemple. Si (X1, ..., Xn) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alors

l(π;x1, ..., xn) = ln(π)

n∑

i=1

xi + ln(1− π)(n−n∑

i=1

xi)

Donc(

∂l(π;x1, ..., xn)

∂π

)

=

∑ni=1 xi

v+

∑ni=1 xi − n

1− π

=

∑ni=1 xi

π(1− π)− n

1− π

On en déduit que E[(

∂l(π;x1,...,xn)∂π

)

] = 0 et donc que E[(

∂l(π;x1,...,xn)∂π

)

] = var((

∂l(π;x1,...,xn)∂π

)

), puis que

l’information de Fisher est donnée par

In(π) = var(

∑ni=1 Xi

π(1− π)− n

π)

=n

π(1− π)

En dérivant un seconde fois, on obtient

∂2

∂p2l(π;x1, ..., xn) =

n∑

i=1

xi1− 2p

π2(1− π)2+

n

(1− π)2

puis

E[∂2

∂π2l(π;x1, ..., xn)] = − n

π(1− π)

On retrouve bien le même résultat.

Le théorème suivant est fondamental en statistique inférentielle.

Théorème. (Borne de Fréchet-Darmois-Cramer-Rao (FDCR))Sous des conditions générales (cf remarque ci-dessous), si T est une estimateur sans biais de θ alors :

var(T ) ≥ 1

In(θ)

Plus généralement, si T est un estimateur sans biais de g(θ), alors :

var(T ) ≥ (h′(θ))2

In(θ)

11

Page 12: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Démonstration. On se place toujours dans le cas des variables continues.On utilise l’inégalité de Cauchy-Schwartz :

cov(T,∂

∂θl(θ))2 ≤ var(T )var(

∂θl(θ))

Ensuite, cov(T, ∂∂θ l(θ)) = E[T ∂

∂θ l(θ)] car ∂∂θ l(θ) est centrée. Donc

cov(T,∂

∂θl(θ)) =

Rn

T (x1, ..., xn)∂

∂θl(θ;x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

=

Rn

T (x1, ..., xn)∂

∂θL(θ;x1, ..., xn)dx1...dxn

=∂

∂θ

Rn

T (x1, ..., xn)L(θ;x1, ..., xn)dx1...dxn

=∂

∂θE[T ]

= g′(θ)

Remarque. A nouveau le théorème précédent s’applique lorsqu’on peut dériver la vraisemblance deuxfois par rapport à θ (pour tout x) et intervertir les signes ∂ et

. Ces conditions sont généralementvérifiées lorsque le support de la loi ne dépend pas de θ.

Le théorème de FDCR donne une borne inférieure pour la variance d’un estimateur sans biais. On diraqu’un estimateur sans biais est efficace lorsque sa variance est égale à la borne de FDCR. Plus laquantité d’information apportée par l’échantillon est grande, plus borne de FDCR est petite.Par ailleurs, si il existe un estimateur efficace, alors il est unique p.s. En effet, soit T1 et T2 deuxestimateurs efficaces de θ. T1 et T2 sont donc sans biais et leurs variances sont égales à la borne deFDCR V . Considérons l’estimateur T3 =

T1+T2

2 . T3 est un estimateur sans biais de θ de variance

var(T3) =V2 (1 + cor(T1, T2)). Comme var(T3) ≥ V , on en déduit que cor(T1, T2) = 1 puis que

T1 = T2 p.s.

Exemple. Si (X1, ..., Xn) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alorsl’information de Fisher est donnée par

In(π) =n

π(1 − π)

Le théorème de FDCR nous dit tout estimateur sans biais aura une variance supérieure à π(1−π)n . Or,

nous avons vu que F = 1n (X1 + ...+Xn) est un estimateur sans biais de π et que sa variance est égale

In(π)−1. On en déduit qu’il s’agit de l’unique estimateur efficace de π, et donc le meilleur (en un

certain sens...)

2.4.4 Propriétés asymptotiques

On notera dans ce paragraphe Tn un estimateur de θ basé sur un échantillon de taille n (X1, ..., Xn). Unbon estimateur doit avoir de bonnes "propriétés asymptotiques", c’est à dire des propriétés deconvergence lorsque n → ∞. En particulier, on préférera des estimateurs qui sont convergents (ou“consistants”).

Définition. Tn est un estimateur convergent de θ lorsque Tn converge p.s. vers θ lorsque n → ∞.

Proposition. Si (X1, ..., Xn) est un n-échantillon d’une loi d’espérance µ et de variance σ2 < ∞ alors

Xn =X1 + ...+Xn

n

12

Page 13: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

est un estimateur convergent de µ. En particulier, si (X1, ..., Xn) est un échantillon de Bernoulli deparamètre π alors

Fn =X1 + ...+Xn

n

est un estimateur convergent de π.Si de plus µ4 = E[(Xi − µ)4] < ∞ alors

S2n =

X21 + ...+X2

n

n− X2

et

S2n,corr =

n

n− 1S2 =

1

n− 1

n∑

i=1

(Xi − X)2

sont des estimateurs convergents de σ2.

Démonstration. Applications directes de la loi des grands nombres (LGN).

De nombreux estimateurs vérifient un TCL, c’est à dire sont tels que

√n(Tn − θ)

L→ N (0, σ2(θ))

lorsque n → ∞. Ce type de comportement asymptotique est couramment utilisé pour construire desintervalles de confiance ou réaliser des tests (cf paragraphes suivants) et est donc particulièrementsouhaitable. On parlera de "normalité asymptotique".

Proposition. Soit (X1, ..., Xn) est un échantillon d’une loi de moyenne µ et de variance σ2 < ∞ alors

√n(Xn − µ)

L→ N (0, σ2)

lorsque n → ∞. En particulier, si (X1, ..., Xn) est un échantillon de Bernoulli de paramètre π etFn = X1+...+Xn

n , alors√n(Fn − π)

L→ N (0, π(1 − π))

lorsque n → ∞.

Démonstration. utilisation directe du théorème central limite (TCL).

La proposition suivante établit que sous des conditions générales, l’EMV a de bonnes propriétésasymptotiques.

Proposition. Sous des hypothèses générales (cf rq ci-dessous), l’EMV est convergent etasymptotiquement gaussien et la variance asymptotique est donnée par l’inverse de l’information deFisher √

n(Tn − θ)L→ N (0,

1

I1(θ))

Remarque. 1. On peut donc en déduire, sous certaines réserves, que pour n grand E[Tn] ≈ θ etvar(Tn) ≈ 1

In(θ). Un tel estimateur est dit "asymptotiquement efficace". Toutes ces bonnes

propriétés (convergence, normalité asympotitque avec variance asymptotique connue, efficacitéasymptotique) justifient l’utilisation de la méthode du maximum de vraisemblance comme méthoded’estimation par défaut en statistique.

2. Pour que le théorème précédent s’applique, il faut pouvoir dériver la vraisemblance trois fois parrapport à θ (pour tout x), pouvoir intervertir les signes ∂ et

et que Θ soit un ensemble ouvert.Ces conditions sont généralement vérifiées lorsque le support de la loi ne dépend pas de θ.

13

Page 14: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

2.5 Estimation par intervalle de confiance

Dans les paragraphes précédents, des méthodes permettant d’estimer la valeur d’un paramètre inconnu θà partir d’observations ont été proposées. Ces méthodes fournissent seulement une valeur ("estimationponctuelle"), mais ne permettent pas de quantifier la précision de cette estimation. Pour cela, onutilise généralement des intervalles de confiance qui peuvent s’interpréter comme des marges d’erreur.

2.5.1 Construction d’intervalles de confiance pour la moyenne d’un échantillon Gaussienlorsque la variance est connue

On suppose dans ce paragraphe que X1, ..., Xn est un n-échantillon d’une loi N(µ, σ2). On cherche àestimer µ, supposé inconnu, mais on suppose que l’écart-type σ est connu. Ceci est rarement le cas enpratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur laconstruction d’intervalles de confiance la moyenne d’un échantillon sous des hypothèses plus réalistesdans la suite de ce cours.Avec les hypothèses ci-dessus, on peut montrer que X ∼ N (µ, σ2

n ) puis que√n X−µ

σ ∼ N (0, 1) et donc

P [uα/2 ≤ √nX − µ

σ≤ u1−α/2] = 1− α

avec uα le quantile d’ordre α de la loi N (0, 1), ce qui se récrit

P [X + uα/2σ√n≤ µ ≤ X + u1−α/2

σ√n] = 1− α

L’intervalle [X + uα/2σ√n; X + u1−α/2

σ√n] est un intervalle aléatoire (puisque les bornes dépendent des

variables aléatoires X1, ..., Xn) qui contient la vraie valeur du paramètre µ avec une probabilité 1− α.Un tel intervalle est appelé intervalle de confiance au niveau de confiance 1− α pour µ.En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques oudes logiciels adaptés (R, Matlab, SAS, Excel...)

Définition : l’intervalle aléatoire [a(X1, ..., Xn); b(X1, ..., Xn)] est appelé intervalle de confiance auniveau de confiance 1− α pour θ si P [a(X1, ..., Xn) ≤ θ ≤ b(X1, ..., Xn)]] = 1− α.

2.5.2 Construction d’intervalles de confiance pour un échantillon quelconque

Lorsque la taille de l’échantillon n est suffisamment grande, on peut construire des intervalles deconfiance pour la moyenne µ en utilisant les propriétés asymptotiques de X et S2 données ci-dessus.Plus précisément, soit (X1, ..., Xn) un n-échantillon d’une loi vérifiant var(Xi) = σ2 < +∞. Pour "ngrand", d’après le TCL, on a :

√nX − µ

σ≈ N (0, 1)

Cette approximation est valable même si l’échantillon n’est pas gaussien et permet de faire desintervalles de confiance lorsque σ est connu. Lorsque σ est inconnu, on peut utiliser le fait que S2 est unestimateur convergent de σ2, et donc pour "n grand", on a

S ≈ σ

Finalement, on en déduit que pour "n grand" :

√nX − µ

S≈ N (0, 1)

Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemme de Slutsky : on peut

montrer que, sous les conditions d’application du TCL,√n X−µ

S converge en loi vers une loi N (0, 1).En pratique, on suppose généralement que cette approximation est valide dès que n ≥ 30 ( !). On aalors :

14

Page 15: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

P [uα/2 ≤ √nX − µ

S≤ u1−α/2] ≈ 1− α

puis

P [X + uα/2S√n≤ µ ≤ X + u1−α/2

S√n] ≈ 1− α

L’intervalle [X + uα/2S√n; X + u1−α/2

S√n] est appelé "intervalle de confiance asymptotique" au

niveau de confiance 1− α pour µ.

Exemple. On reprend les données de température à Brest (cf paragraphe 2.3).

1. Donner un intervalle de confiance à 95% pour la température moyenne, discuter la validité deshypothèses sur lesquelles repose la construction de cet intervalle.

2. Une agence de voyage prétend que la température moyenne à Brest en été est de 19o. Qu’enpensez-vous ?

2.5.3 Construction d’intervalles de confiance pour une proportion

Il est également possible de construire des intervalles de confiance pour une proportion lorsque n estgrand. Soit X1, ..., Xn un n-échantillon d’une loi de Bernoulli de paramètre π. D’après le TCL, on saitque pour n “grand” :

√n

F − π√

π(1− π)≈ N(0, 1)

Comme F est un estimateur consistent de π, pour n “grand”, on peut remplacer le dénominateur parF (1− F ) (de manière plus formelle, on peut utiliser le lemme de Studsky), et on a alors :

√n

F − π√

F (1− F )≈ N(0, 1) (2.4)

puis

P [uα/2 ≤ √n

F − π√

F (1− F )≤ u1−α/2] ≈ 1− α

et enfin

P [F + uα/2

F (1− F )√n

≤ π ≤ F + u1−α/2

F (1− F )√n

] ≈ 1− α

Donc [F + uα/2

√F (1−F )√

n;F + u1−α/2

√F (1−F )√

n] est un intervalle de confiance asymptotique au niveau de

confiance 1− α pour π.

Remarque. En pratique, on suppose généralement que l’approximation (2.4) est valable dès quenπ ≥ 5 et n(1− π) ≥ 5. Comme π est inconnu en pratique, on vérifie a posteriori si les conditions sont

vérifiées pour les bornes de l’intervalle de confiance, c’est à dire n(F − uα/2

√F (1−F )√

n) ≥ 5 et

n(1− F − u1−α/2

√F (1−F )√

n) ≥ 5. Si ces conditions ne sont pas vérifiées, il est possible de construire des

intervalles de confiance en utilisant la loi exacte de F (on sait que nF suit une loi Binomiale).

Exemple. On reprend l’exemple du sondage.

1. Donner un intervalle de confiance à 95% pour les intentions de vote.

2. Combien de personne faudrait-il sonder pour être certain d’obtenir un intervalle de confiance à95% dont la largeur est inférieur à 0.1% ?

15

Page 16: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

2.6 Tests statistiques

2.6.1 Généralité sur les tests

Un test statistique permet de vérifier si certaines hypothèses faites sur la valeur des paramètres sontréalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester deshypothèses de la forme

H0 : θ ∈ Θ0 contre l’hypothèse alternative H1 : θ /∈ Θ0

avec Θ0 ⊂ Θ un sous ensemble de Θ.On distingue usuellement deux types d’erreurs :– L’erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle risque

de première espèce α la probabilité de choisir H1 alors que H0 est vraie.– L’erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle

risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse.En pratique, on fixe généralement α (valeurs courantes : 5% ou 1%) et H0 joue donc un rôle plusimportant que H1. 1− β est appelé la puissance du test : pour un risque de première espèce α fixé,on cherche à construire le test dont la puissance est la plus grande !

2.6.2 Tests pour une moyenne

On dispose d’un n-échantillon (X1, ..., Xn) d’une loi d’espérance inconnue µ = E[Xi] et on veut testerl’hypothèse simple :

H0 : µ = µ0 contre l’hypothèse alternative H1 : µ 6= µ0

avec µ0 une valeur fixée.– Premier cas : supposons que (X1, ..., Xn) ∼iid N (µ, σ2) avec σ connue (cf paragraphe sur les

intervalles de confiance). On a alors :

√nX − µ

σ∼ N (0, 1)

Donc, si H0 est vraie, on a µ = µ0 et

PH0 [uα/2 ≤ √nX − µ0

σ≤ u1−α/2] = 1− α

On adopte alors la règle de décision suivante :

– On accepte H0 si√n X−µ0

σ ∈ [uα/2, u1−α/2].– On refuse H0 sinon.Remarque. 1. On accepte donc H0 lorsque ,

X ∈ [µ0 + uα/2σ√n, µ0 + u1−α/2

σ√n]

c’est à dire lorsque X est “suffisamment proche” de µ0. La règle de décision est construite pourque le risque de première espèce soit bien égal à α.

2. Lorsqu’on fait un test avec un logiciel de statistique (R, SAS, Excel,...), le résultat est donnésous la forme d’une "p-value" (ou "degré de signification"). Pour le test précédent, cettep-value est définie par

pv = P[|Z| > |√nx− µ0

σ|]

avec Z une variable gaussienne centrée-réduite et x la moyenne observée sur l’échantillon. Onvérifie aisément qu’on accepte H0 avec un risque de première espèce α si et seulement sipv > alpha. La p-value est souvent interprétée comme une "mesure" de la vraisemblance del’hypothèse H0 : une p-value faible indique que l’hypothèse H0 est peu vraisemblable.

16

Page 17: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

– Deuxième cas : on ne suppose plus que l’échantillon est gaussien ni que la variance σ2 est connue.Par contre, on suppose que n est suffisamment grand (n ≥ 30 ?) pour que l’approximation

√nX − µ

S≈ N(0, 1)

soit valable. Alors, si H0 est vraie, on a µ = µ0 et

PH0 [uα/2 ≤ √nX − µ0

S≤ u1−α/2] = 1− α

On adopte alors la règle de décision suivante :

– On accepte H0 si√n X−µ0

S ∈ [uα/2, u1−α/2].– On refuse H0 sinon.Remarque. Ici la p-value du test est donnée par

pv = P[|Z| > |√nx− µ0

s|]

avec Z une variable gaussienne centrée-réduite et x (resp. s) la moyenne (resp. l’écart-type) empiriquecalculée sur l’échantillon

Exemple. Une agence de voyage prétend que la température moyenne à Brest en été est de 22o. Cetteaffirmation est-elle en accord avec les températures observés pendant l’été 2008 (cf chapitre 2.3) ?Quelle est la p-value du test ?

2.6.3 Test pour une proportion

On dispose d’un n-échantillon (X1, ..., Xn) d’une loi de Bernoulli de paramètre π inconnu, et on veuttester l’hypothèse simple

H0 : π = π0 contre l’hypothèse alternative H1 : π 6= π0

On a vu que pour n "grand" (cf paragraphe sur les intervalles de confiance, on suppose généralementque cette approximation est valable lorsque nπ ≥ 5 et n(1− π) ≥ 5), on a

√n

F − π√

π(1− π)≈ N(0, 1)

Donc, si H0 est vraie, on a π = π0 et

PH0 [uα/2 ≤ √n

F − π0√

π0(1 − π0)≤ u1−α/2] ≈ 1− α

On adopte alors la règle de décision suivante :– On accepte H0 si

√n F−π0√

π0(1−π0)∈ [uα/2, u1−α/2].

– On refuse H0 sinon.

Exemple. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection présidentielle, uninstitut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour lecandidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on en déduire quelcandidat va gagner l’élection ?

2.7 Exercices sur le chapitre 2

Exercice 2.1. Lors du contrôle d’un chaîne de médicaments, on s’intéresse au nombre de comprimésdéfectueux dans un lot. Les tests effectués sur 20 lots choisis au hasard ont donné les résultats suivants :

1,0,0,3,2,0,5,2,0,0,1,2,1,3,0,1,0,0,2,7

17

Page 18: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

On supposera que ces observations proviennent d’un échantillon d’une loi de probabilité inconnue,d’espérance mathématique µ et de variance σ2.a. On considère les quatre estimateurs suivants pour µ :– T1 = X1

– T2 =X1+X2

2

– T3 =X1+X2

3

– X = X1+X2+...+Xn

nQue représentent Xi et n dans la définition des estimateurs ? Quelles hypothèses sont faites surX1, X2, ..., Xn ?Calculer le biais, la variance et l’erreur quadratique moyenne de ces 4 estimateurs. Quel est le meilleurestimateur ? Quelle est l’estimation correspondante ?b. Proposer un estimateur de σ2 et calculer l’estimation correspondante.c. Proposer un estimateur de la proportion de lots qui contiennent au moins un comprimé défectueux etcalculer l’estimation correspondante.

Exercice 2.2. Existe-t-il un estimateur sans biais du paramètre θ = 1π pour un échantillon de taille 1

d’une loi de Bernoulli de paramètre π ?

Exercice 2.3. Soit (X1, ..., Xn) n variables aléatoires i.i.d. d’une loi de moyenne µ et de variance σ2.a. Donner une condition nécessaire et suffisante sur les constantes réelles a1, ..., an pour que

∑ni=1 aiXi

soit un estimateur sans biais de µ.b. Parmi tous les estimateurs de µ de la forme

∑ni=1 aiXi, quel est celui de variance minimale ? Quel

est le biais de cet estimateur ?c. Parmi tous les estimateurs de µ de la forme

∑ni=1 aiXi, quel est celui dont l’erreur quadratique

moyenne est minimale ?d. Parmi les estimateurs sans biais de µ de la forme

∑ni=1 aiXi, quel est celui de variance minimale ?

Exercice 2.4. Soit (X1, ..., Xn) n variables aléatoires i.i.d. qui suivent une loi normale d’espérance 0 etde variance σ2. On considère l’estimateur suivant pour σ2 : T = 1

n

∑ni=1 X

2i

a. Calculer le biais, la variance et l’erreur quadratique moyenne de cet estimateur.b. Etudier les propriétés asymptotiques de l’estimateur (convergence, normalité asymptotique).

Exercice 2.5. On a observé les durées de vie (en heure) de 30 composants électroniques. Les résultatssuivants ont été obtenus : 0.1 ; 7.4 ; 1.0 ; 7.9 ; 2.1 ; 1.8 ; 17.9 ; 9.3 ; 6.5 ; 3.3 ; 5.6 ; 7.7 ; 0.1 ; 24.3 ; 8.1 ;10.0 ; 11.9 ; 1.6 ; 2.7 ; 0.5 ; 5.8 ; 42.5 ; 5.1 ; 2.0 ; 0.2 ; 15.0 ; 3.5 ; 6.4 ; 0.6 ; 3.3On admettra que

∑30i=1 xi = 223.5 et

∑30i=1 x

2i = 3826.8.

Première partie. On suppose dans cette première partie que la durée de vie des composantsélectroniques suit une loi exponentielle de paramètre inconnu θ > 0. On rappelle que la densité de cetteloi est donnée par :

fθ(x) =1

θexp(−x

θ)

a. Construire un estimateur de θ en utilisant la méthode des moments et donner l’estimationcorrespondante.b. Calculer l’estimateur du maximum de vraisemblance Tn de θ ainsi que l’estimation correspondante.c. Calculer le biais et l’erreur quadratique moyenne de Tn. Cet estimateur est-il efficace ?d. Etudier les propriétés asymptotiques de Tn (convergence, normalité asymptotique). En déduire unintervalle de confiance asymptotique à 95% pour θ.e. Calculer la fonction de répartition de la loi exponentielle, puis en déduire un estimateur de laprobabilité que la durée de vie d’un composant soit supérieure à une durée quelconque t ≥ 0. En déduireune estimation de la probabilité que la durée de vie d’un composant soit supérieure à 20h, 30h et 40h etcomparer ces résultats avec les fréquences empiriques calculées à partir des données. Quel est le meilleurestimateur ?f. Tracer sur un même graphique la densité de la loi exponentielle ajustée et un histogramme décrivantla répartition des durées de vie observées (on utilisera un découpage en classes de largeur 3). Discuter laqualité de l’ajustement.

18

Page 19: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Deuxième partie. On suppose maintenant que la durée de vie des composants électroniques suit uneloi dont la densité de probabilité est donnée par :

fθ(x) =

xθ2 exp(−x

θ ) si x ≥ 00 sinon

(2.5)

avec θ > 0 un paramètre inconnu.a. Calculs préliminaires. On pose, pour n ≥ 0,

Jn(θ) =

∫ +∞

0

xnexp(−x

θ)

1. Montrer, à l’aide d’une intégration par partie, que pour n ≥ 0 Jn+1(θ) = (n+ 1)θJn(θ). Endéduire que Jn(θ) = θn+1n!

2. En déduire que fθ définit bien une densité, puis que si que est une variable aléatoire dont la loiadmet la densité fθ alors E[X ] = 2θ et var(X) = 2θ2

3. Construire un estimateur de θ en utilisant la méthode des moments.

b. Calculer l’estimateur du maximum de vraisemblance Tn de θ, ainsi que l’estimation correspondante.c. Calculer le biais et l’erreur quadratique moyenne de Tn. Cet estimateur est-il efficace ?d. Etudier les propriétés asymptotiques de Tn. En déduire un intervalle de confiance asymptotique à95% pour θ.

Exercice 2.6. Il y a en France 17800 passages à niveau, et on a relevé le nombre d’accidents mortels(hors suicide) sur ces passages entre 1985 et 1997. Les nombres observés sont les suivants :– 1985 : 3– 1988 : 2– 1991,1993,1995,1997 : 1On suppose que le nombre d’accidents X au cours d’une année suit une loi de poisson de paramètreθ > 0 inconnu. On a alors, pour k ≥ 0,

P [X = k; θ] =θkexp(−θ)

k!

On admettra que E[X ] = θ et var(X) = θ.a. Calculer l’estimateur du maximum de vraisemblance de θ, puis une estimation de θ basée sur lesobservations.b. Calculer le biais et l’erreur quadratique moyenne de l’estimateur de la question a., puis étudier sespropriétés asymptotiques. Cet estimateur est-il efficace ?c. Donner un intervalle de confiance asymptotique à 95% pour θ.

Exercice 2.7. Soit (X1, ..., Xn) un n-échantillon d’une variable aléatoire normale de moyenne µ etd’écart type σ. On rappelle que la densité de Xi est donnée par

fθ(x) =1

σ√2π

exp(− (x− µ)2

2σ2)

avec θ = (µ, σ).Première partie. On suppose dans cette partie que σ est connu et µ inconnu.a. Calculer l’estimateur du maximum de vraisemblance de µ ainsi que la quantité d’information deFisher apportée par l’échantillon sur ce paramètre. Comment varie cette quantité avec σ ? Commenter.b. L’estimateur de la question précédente est-il efficace ?Deuxième partie. On suppose dans cette partie que µ est connu et σ inconnu.a. Calculer l’estimateur du maximum de vraisemblance de σ ainsi que la quantité d’information deFisher apportée par l’échantillon sur ce paramètre.b. L’estimateur de la question précédente est-il efficace ?Troisième partie. On suppose dorénavant que µ et σ sont inconnus. Calculer l’estimateur dumaximum de vraisemblance correspondant.

19

Page 20: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Exercice 2.8. Soit (X1, ..., Xn) des variables aléatoires indépendantes et identiquement distribuées deloi uniforme sur l’intervalle [0, θ]. La densité de Xi est alors donnée par

f(x; θ) =

1θ si x ∈ [0, θ]0 sinon

a. Vérifier que f(.; θ) est bien une densité et montrer que l’espérance et la variance de cette loi sontdonnées par E[X ] = θ/2 et var(X) = θ2/12.b. Donner un estimateur Tn de θ par la méthode des moments.

1. Calculer le biais et la variance de cet estimateur.

2. Etudier les propriétés asymptotiques de θ (convergence, normalité asymptotique).

3. En déduire un intervalle de confiance asymptotique à 95% pour θ.

c. Montrer que Mn = max(X1, ..., Xn) est l’estimateur du maximum de vraisemblance de θ.

1. Montrer que FMn , la fonction de répartition de Mn, est

FMn(m) =(m

θ

)n

1l[0,θ](m) + 1l]θ,+∞[(m)

2. En déduire le biais et la variance de Mn ainsi qu’un estimateur sans biais de θ.

3. Montrer que pour tout ǫ > 0, P [Mn ≤ θ − ǫ] → 0 lorsque n → +∞ . En déduire queP [|Mn − θ| ≥ ǫ] → 0 lorsque n → +∞.

4. Montrer que pour x ≥ 0, P [n(θ −Mn) ≤ x] → 1− exp(

−xθ

)

lorsque n → +∞. En déduire quen(θ −Mn) converge en loi lorsque n → +∞ et donner la loi limite. Comparer avec la théorieclassique sur les propriétés asymptotiques de l’estimateur du maximum de vraisemblance vue encours.

5. Déduire de la question précédente un intervalle de confiance asymptotique à 95% pour θ

d. Quel est le meilleur estimateur de θ : Tn ou Mn ?e. On suppose maintenant que (X1, ..., Xn) sont des variables aléatoires indépendantes et identiquementdistribuées de loi uniforme sur l’intervalle [a, b] avec θ = (a, b) ∈ R

2 un paramètre inconnu. Quel estl’estimateur du maximum de vraisemblance de θ ? Donner également un estimateur de θ en utilisant laméthode des moments.

Exercice 2.9. Une entreprise envisage de s’implanter sur le marché espagnol pour vendre un nouvelapéritif de sa fabrication. Ce marché n’est intéressant que si la consommation moyenne par an et parhabitant est supérieure à 0.20 litre. Si cette consommation moyenne est comprise entre 0.20 litre et 0.40litre, elle exportera à partir de la France. Si la consommation moyenne dépasse 0.40 litre, elle envisagela création d’une unité de production en Espagne. Un enquête auprès de 400 personnes montre que, surcet échantillon, la consommation moyenne est de 0.23 litre pour un écart type de 0.2 litre. Quelledécision faut-il prendre ?

Exercice 2.10. Afin d’évaluer le nombre N d’individus d’une espèce animale vivant sur une île, onpropose d’adopter la méthode de capture-recapture. Pour cela, on capture 800 individus. Ces individus,qui correspondent à la proportion p du nombre total des individus vivant sur l’ile, sont marqués puisrelâchés. On recapture ultérieurement 1000 animaux parmi lesquels on dénombre 250 animaux marquéslors de la première capture.a. En utilisant les résultats obtenus lors de la deuxième capture, proposer une estimation de p ainsiqu’un intervalle de confiance à 95%.b. Ecrire la relation qui existe entre N et p et en déduire une estimation de N ainsi qu’un intervalle deconfiance à 95%

Exercice 2.11. Un fabricant de conserves de petits pois produit des boîtes dont l’étiquette annonce unpoids net égoutté de 560g. Il prélève un lot de 200 boites pour s’assurer qu’il n’aura pas d’ennui à l’issued’un contrôle éventuel. Il obtient une moyenne empirique de 555.7 et un écart type de 9.47 Réaliser untest afin de vérifier si les observations sont en accord avec le poids indiqué sur l’étiquette.

20

Page 21: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Exercice 2.12. Un laboratoire pharmaceutique affirme que son médicament est efficace à 90%. Sur 200personnes traitées, 160 sont guéries. L’affirmation du laboratoire vous semble t’elle justifiée ?

Exercice 2.13. Le pourcentage de grossesses multiples (jumeaux, triplés,...) en France en 1950, doncavant l’introduction des contraceptifs oraux était de 1.25%. En 1991, dans un échantillon de 1000grossesses de femmes ayant pris par le passé des contraceptifs oraux, 21 ont été multiples. La proportionobservée dans cet échantillon est-elle significativement supérieur à celle de 1950?

Exercice 2.14. Dans une usine, on cherche à savoir si un changement de l’environnement (musiquedans les ateliers) peut modifier le rendement. Ce dernier est mesuré ici par le nombre moyen de piècesproduites à l’heure par chaque ouvrier. On note, pour chacun des 30 ouvriers, le rendement avant etaprès l’introduction du changement. Les résultats sont donnés ci-dessous. Peut-on conclure que lechangement introduit apporte une augmentation sensible du rendement ?

Avant 45 36 47 40 45 35 36 50 50 40 40 30 45 30 45 40 50 40 50 40 55 30 40 40 28 35 40 35 38 50Après 48 40 53 40 46 30 40 60 60 40 40 35 50 40 50 45 50 40 45 35 50 35 45 35 35 40 45 37 35 50

Exercice 2.15. Sur 429 440 naissances, on a dénombré 221023 garçons. La proportion de garçonsest-elle compatible avec l’hypothèse d’équiprobabilité de naissance des garçons et des filles ?

Exercice 2.16. Soit (X1, ..., Xn) n variables aléatoires indépendantes et identiquement distribuéesd’une loi N (µ, σ2) avec σ = 10. On veut tester

H0 : µ = 2 contre H1 : µ = 3

a. On adopte la règle de décision suivante : on accepte H0 si X ≤ 2.5 et sinon on refuse H0. Calculerles risques de première et de seconde espèces, ainsi que la puissance du test lorsque n = 100.b. On adopte la règle de décision suivante : on accepte H0 si X ≤ k et sinon on refuse H0.

1. Calculer k de telle manière que le risque de premier espèce soit α = 5%.

2. Calculer le risque de seconde espèce et la puissance du test dans le cas n = 100.

3. Quelle devrait être la taille de l’échantillon pour que cette puissance soit supérieure à 0.95 ? 0.99 ?

Exercice 2.17. Télécharger des données historiques décrivant l’évolution du cours du CAC 40 sur unepériode relativement longue (au moins 5 ans), par exemple à l’adresse :http ://fr.finance.yahoo.com/

1. Importer les données sous R. On notera (xt)t∈1...,T cette série temporelle.

2. Réaliser une histogramme des données. Quelle loi usuelle pourrait permettre de décrire cettedistribution ? Ajuster cette loi à l’aide de la fonction fitdistr du package MASS et comparer ladensité correspondante à l’histogramme. Discuter.

3. Une hypothèse usuelle en finance est que la série temporelle définie par yt = log(xt)− log(xt−1)est une réalisation d’un échantillon i.i.d. gaussien. Discuter.

3 Vecteurs gaussiens

3.1 Définition et premières propriétés

Rappel sur les vecteurs aléatoires :– Un vecteur aléatoire de dimension n est un n-uplet X = (X1, ..., Xn)

′ de variables aléatoires réellesdéfinies sur un même espace probabilisé (la notation X ′ désigne la transposée de la matrice X).

– On supposera dans la suite du cours que les vecteurs aléatoires admettent une densitéf : Rn → [0,+∞[ par rapport à la mesure de Lebesgue c’est à dire que pour toutes fonctionsmesurables bornées g : Rn → R, on a

E[g(X1, ..., Xn)] =

Rn

g(x1, ..., xn)f(x1, ..., xn)dx1...dxn

21

Page 22: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

On peut alors montrer que la loi marginale de Xi admet aussi densité fXi par rapport à la mesurede Lebesgue sur R :

fXi(xi) =

Rn−1

f(x1, ..., xn)dx1...dxi−1dxi+1...dxn

et que les variables aléatoires X1, ..., Xn sont indépendantes si et seulement si

f(x1, ..., xn) =

n∏

i=1

fXi(xi) p.s.

– La fonction caractéristique de X est la fonction φX : Rn → R définie par

φX(t) = E[exp(i < t,X >)]

pour t ∈ Rn avec < .|. > le produit scalaire euclidien. Si X admet la densité f , alors

φX(t) =

Rn

exp(i < t, x >)f(x1, ..., xn)dx1...dxn

– On notera E[X ] = (E[X1], ..., E[Xn])′ l’espérance du vecteur aléatoire X (ou plus généralement

pour les matrices à coefficients aléatoires) et

var(X) = E[XX ′]− E[X ]E[X ]′ = E[(X − E[X ])(X − E[X ])′]

la matrice de variance-covariance de X . On a

var(X) =

var(X1) cov(X1, X2) · · · cov(X1, Xn)cov(X1, X2) var(X2) · · · cov(X2, Xn)

...... · · ·

...cov(X1, Xn) cov(X2, Xn) · · · var(Xn)

,avec cov(Xi, Xj) = E[XiXj ]− E[Xi]E[Xj ] la covariance entre Xi et Xj , et la règle de calculsuivante, pour A ∈ Mp,n(R),

var(AX) = Avar(X)A′

Définition. On dit que le vecteur aléatoire X = (X1, ..., Xn)′ est gaussien si sa densité est donnée par

f(x1, ..., xn) =1

(2π)n/2√

det(Σ)exp(−1

2(x− µ)′Σ−1(x− µ))

avec x = (x1, ..., xn)′, Σ ∈ Mn(R) une matrice symétrique définie positive et µ ∈ R

n. On noteraX ∼ N (µ,Σ).

Quelques cas particuliers– n = 1. Posons µ = (µ1) et Σ = (σ2

1). On obtient :

f(x1) =1

σ1

√2π

exp(− (x1 − µ1)2

2σ21

)

On retrouve donc la densité de la loi normale univariée de moyenne µ1 et variance σ21 .

– n = 2. Posons µ = (µ1, µ2)′. On peut écrire Σ sous la forme

Σ =

(

σ21 ρ1,2σ1σ2

ρ1,2σ1σ2 σ22

)

22

Page 23: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

avec σ1 > 0 et σ2 > 0. On a alors det(Σ) = σ21σ

22(1− ρ21,2) et Σ est une matrice définie positive si et

seulement si |ρ1,2| < 1. De plus,

Σ−1 =1

det(Σ)

(

σ22 −ρ1,2σ1σ2

−ρ1,2σ1σ2 σ21

)

On obtient donc

f(x1, x2) =1

2πσ1σ2

(1− ρ21,2)

exp

(

− 1

2(1− ρ21,2)

[

(

x1 − µ1

σ1

)2

− 2ρ1,2(x1 − µ1)(x2 − µ2)

σ1σ2+

(

x2 − µ2

σ2

)2])

Les lignes de niveau de f sont des ellipses.

– Σ matrice diagonale. On suppose Σ = diag(σ21 , ..., σ

2n). La densité se récrit alors

f(x1, ..., xn) =n∏

i=1

1

σi

√2π

exp(− (xi − µi)2

2σ2i

)

On en déduit que les variables aléatoires X1, ..., Xn sont indépendantes et que Xi ∼ N (µi, σ2i ) En

particulier, on a(X1, ..., Xn) ∼iid N (µ, σ2) ssi X = (X1, ..., Xn)

′ ∼ N (µ1n, σ2In)

Cette remarque est importante pour la suite du cours : elle permet de faire le lien entre les vecteursgaussiens et les échantillons gaussiens.

Proposition. X ∼ N (µ,Σ) si et seulement si sa fonction caractéristique est donnée par

φX(t) = exp(i < µ, t >)exp(−1/2t′Σt)

Remarque. Cette proposition aboutit à une définition plus générale des vecteurs gaussiens puisqu’estégalement valable lorsque Σ n’est pas inversible.

Proposition. Soit X ∼ N (µX ,ΣX) et C ∈ Rp×n, une matrice telle que le produit Y = CX soit bien

défini, alors Y ∼ N (µY ,ΣY ) avec µY = CµY et ΣY = CΣXC′

Démonstration. Utilisons les fonctions caractéristiques

φY (t) = E[exp(i < t, Y >)]

= E[exp(i < t, CX >)]

= E[exp(i < C′t,X >)]

= φX(C′t)

= exp(i < µX , C′t >)exp(−1/2(C′t)′ΣX(C′t))

= exp(i < µY , t >)exp(−1/2t′ΣY t)

avec µY = CµY et ΣY = CΣXC′.

Corollaire. Soit X ∼ N (µ,Σ) avec Σ =

σ21 σ1,2 . . . σ1,n

σ1,2 σ22 . . . σ2,n

......

. . ....

σ1,n . . . . . . σ2n

et µ = (µ1, ..., µn)′. Les lois

marginales sont des lois normales :Xi ∼ N (µi, σ

2i )

et on a µ = E[X ] et Σ = var(X).

23

Page 24: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Démonstration. – Prenons C = ei avec ei = (0, ..., 0, 1, 0, ..., 0) le ime vecteur ligne de la base canonique.En utilisant la proposition précédente, on obtient que Xi = CX ∼ N (µi, σ

2i ).

– Prenons C = ei + ej . En utilisant la proposition précédente, on obtient queXi +Xj = CX ∼ N (µi + µj , σ

2i + σ2

j + 2σi,j). En particulier, on a

var(Xi +Xj) = σ2i + σ2

j + 2σi,j

On en déduit que σi,j = cov(Xi, Xj) à l’aide de la formule

var(Xi +Xj) = var(Xi) + var(Xj) + 2cov(Xi, Xj)

puis on conclut aisément.

Corollaire. Si X = (X1, ..., Xn)′ est un vecteur gaussien, alors les variables aléatoires Xi et Xj sont

indépendantes si et seulement si cov(Xi, Xj) = 0.

Remarque. Si Xi et Xj sont des variables aléatoires indépendantes, alors on a toujourscov(Xi, Xj) = E[XiXj ]− E[Xi]E[Xj ] = 0 même si X n’est pas un vecteur gaussien. Par contre laréciproque est fausse en général. Un contre-exemple classique : prendre X ∼ N (0, σ2) et Y = X2. Onmontre facielement que cov(X,Y ) = 0 mais X et Y ne sont pas indépendantes !

Démonstration. X ∼ N (µ,Σ) et C =

(

eiej

)

. La proposition précédente implique que

CX =

(

Xi

Xj

)

∼ N((

µi

µj

)

,

(

σ2i σi,j

σi,j σ2j

))

Si on suppose que σi,j = cov(Xi, Xj) = 0, alors la densité fX1,X2 du couple (X1, X2) s’écrit sous la forme

fX1,X2(x1, x2) = fX1(x1)fX2(x2)

et les v.a. X1 et X2 sont indépendantes.

Corollaire. Si X = (X1, ..., Xn)′ est un vecteur gaussien, alors les assertions suivantes sont

équivalentes :– (X1, ..., Xp) est indépendant de (Xp+1, ..., Xn)– cov(Xi, Xj) = 0 pour tout i ∈ 1, ..., p et j ∈ p+ 1, ..., n– La matrice de variance-covariance est de la forme var(X) =

(

Σ1 00 Σ2

)

avec Σ1 = var((X1, ..., Xp)′) et Σ2 = var((Xp+1, ..., Xn)

′).

Démonstration. Soit X ∼ N (µ,Σ) un vecteur gaussien.– Si (X1, ..., Xp) est indépendant de (Xp+1, ..., Xn), alors Σi,j = cov(Xi, Xj) = 0 si i ∈ 1, ..., p et

j ∈ p+ 1, ..., n et on a bien var(X) de la forme var(X) =

(

Σ1 00 Σ2

)

– Supposons que var(X) =

(

Σ1 00 Σ2

)

Notons u = (x1, ..., xp)′, v = (xp+1, ..., xn)

′, µu = (µ1, ..., µp)′,

µv = (µp+1, ..., µn)′. En utilisant la proposition précédente, on obtient que

fX1,...,Xp(u) =1

(2π)p/2√

(det(Σ1))exp(−1

2(u − µu)

′Σ−11 (u− µu))

fXp+1,...,Xn(v) =1

(2π)(n−p)/2√

(det(Σ2))exp(−1

2(v − µv)

′Σ−12 (u − µv))

24

Page 25: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

On vérifie ensuite aisément que

fX1,...,Xn(x1, ..., xn) = fX1,...,Xp(x1, ..., xp)fXp+1,...,Xn(xp+1, ..., xn)

ce qui implique que les vecteurs aléatoires (X1, ..., Xp) et (Xp+1, ..., Xn) sont indépendants.

Le corollaire ci-dessous est l’équivalent de la technique de centrage-réduction couramment utilisée pourla loi normale univariée : si X ∼ N (0, 1), alors µ+ σX ∼ N (µ, σ2). Cette transformation permet deramener l’étude de la loi normale N (µ, σ2) à celle de la loi normale centrée-réduite N (0, 1).

Corollaire. Soit X ∼ N (0, In), µ ∈ Rn et H ∈ Mn(R). Alors Y = µ+HX ∼ N (µ,Σ) avec Σ = HH ′.

Démonstration. D’après la proposition précédente, on a HX ∼ N (0,Σ). Il reste à montrer que siY ∼ N (0,Σ), alors Z = Y + µ ∼ N (µ,Σ).

φZ(t) = E[exp(i < t, Z >)]

= E[exp(i < t, Y + µ >)]

= exp(i < t, µ > E[exp(i < t, Y >)]

= exp(i < t, µ > φY (t)

= exp(i < µ, t >)exp(−1/2t′Σt)

Remarque. Le corollaire précédent est en particulier utilisé pour simuler des vecteurs gaussienspuisqu’il permet de simuler n’importe quel vecteur gaussien à partir d’un échantillon i.i.d. de la loinormale.

Corollaire. X est un vecteur gaussien si et seulement si pour tout vecteur a ∈ Rn la variable aléatoire

réelle a′X suit une loi normale.

Démonstration. Exercice

3.2 Lois du χ2, de Student et de Fisher

Les lois du χ2, de Student et de Fisher sont très couramment utilisées en statistique, en particulierlorsque l’inférence statistique porte sur des échantillons gaussiens. Comme pour la loi normale univariée,il n’existe pas d’expressions analytiques simples pour les fonctions de répartition et des tablesstatistiques ou des logiciels de statistique (R, SAS, Matlab, Excel,...) sont alors utilisés pour obtenir lesquantiles (qui seront utilisés dans la suite pour réaliser des tests ou calculer des intervalles de confiance).

Définition. On appelle loi du χ2 à n degrès de liberté la loi de X = U21 + U2

2 + ...+ U2n avec

(U1, U2, ..., Un) ∼iid N (0, 1). On notera X ∼ χ2n et χn,α le quantile d’ordre α d’une loi χ2

n.

Proposition. Si X ∼ χ2n alors E[X ] = n et var(X) = 2n.

Démonstration. exercice

Définition. On appelle loi de Student à n degrés de liberté la loi de

T =√n

U√X

avec U ∼ N (0, 1) et X ∼ χ2n une v.a. indépendante de U . On notera T ∼ T (n) et tn,α le quantile

d’ordre α de la loi Tn.

Proposition. Si T ∼ Tn , avec n > 2, alors E[T ] = 0 et var(T ) = nn−2 .

25

Page 26: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Démonstration. Admis

Définition. On appelle loi de Fisher à p et q degrés de liberté la loi de

F =

Xp

Yq

avec X ∼ χ2p et Y ∼ χ2

q deux v.a. indépendantes. On notera F ∼ Fp,q et fp,q,α le quantile d’ordre α dela loi Fp,q.

Proposition. fp,q,α = 1/fq,p,1−α

Démonstration. Si F ∼ Fp,q alors 1/F ∼ Fq,p.

3.3 Vecteurs gaussiens et projections orthogonales

Définition. Dans la suite du cours, si E désigne un sous-espace vectoriel (s.e.v.) de Rn, on notera πE

la projection orthogonale sur ce s.e.v. pour le produit scalaire euclidien noté < .|. >. Le normeeuclidienne sera notée ‖.‖.

Proposition. Soit (x1, ..., xp) une base de E (on confond les vecteurs et leurs coordonnées dans la basecanonique) et L la matrice définie par L = (x1|x2|...|xp) (L est la matrice à n lignes et p colonnes dontla ième colonne est le vecteur xi). Alors la matrice L′L est symétrique définie positive et L(L′L)−1L′

est la matrice de l’application linéaire πE dans la base canonique.

Démonstration. – On vérifie aisément que L′L est symétrique. Montrons qu’elle est définie positive.Soit y = (y1, ..., yp)

′. On a < y|(L′L)y >=< Ly|Ly >= ‖Ly‖2 ≥ 0. De plus, si < y|(L′L)y >= 0 alorsLy = 0 et donc y = (0, ..., 0) puisque (x1, ..., xp) est une base de E (et donc en particulier les vecteurssont libres).

– Pour montrer que A = L(L′L)−1L′ est la matrice de la projection orthogonale sur E, il suffit demontrer que, pour tout x ∈ R

n, on a Ax ∈ E et x−Ax ∈ E⊥. Par définition de A, on aimmédiatement Ax ∈ E. Pour montrer que x−Ax ∈ E⊥, il suffit de montrer que pour touti ∈ 1...p, on a

< x− L(L′L)−1L′x/xi >= 0

ou, de manière équivalente< L(L′L)−1L′x/xi >=< x/xi >

Or < L(L′L)−1L′x/xi >=< x/L(L′L)−1L′xi >. Il suffit ensuite de remarquer que xi = Lei, et on adonc < x/L(L′L)−1L′xi >=< x/L(L′L)−1L′Lei >=< x/Lei >=< x/xi > ⋄

Corollaire. A est la matrice d’une projection orthogonale sur un s.e.v. E si et seulement si A2 = A(matrice idempotente) et A′ = A (matrice symétrique). On a alors dim(E) = tr(A) = rang(A).

Démonstration. Soit A une matrice d’une projection orthogonale sur un s.e.v. E et (x1, ..., xp) une basede E. D’après la proposition précédente, on a alors A = L(L′L)−1L′ et on en déduit que A2 = A etA′ = A.Réciproquement, soit A une matrice symétrique et idempotente. Notons E = x ∈ R

n|Ax = x le sousespace propre associé à la valeur propre 1. Montrons que A est la matrice de la projection orthogonalesur E, c’est à dire qu’elle satisfait les deux propriétés ci-dessous :– ∀x ∈ R

n, Ax ∈ E . C’est une onséquence directe de A2 = A.– ∀x ∈ R

n, x−Ax ∈ E⊥. Soit y ∈ E, montrons que < y|A(x−Ax) >= 0. On a Ay = y et donc

< y|x−Ax >=< Ay|x−Ax >=< y|A(x−Ax) >= 0

.

26

Page 27: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Par définition, rang(A) = dim(Im(A)) = dim(E). De plus, A est symétrique donc diagonalisable dansune base orthonormée : A = P ′DP avec D une matrice diagonale et P ′P = I. D est aussi idempotenteet les valeurs propres sont donc égales à 0 ou 1. On a donc bien tr(D) = rang(D) puistr(A) = rang(A) = dim(Im(A)) = dim(E). ⋄

Le théorème de Cochran ci-dessous est fondamental pour la suite du cours.

Théorème. Soit E et F deux espaces orthogonaux de Rn et X ∼ N (µ, σ2In). Alors :

1. πE(X) et πF (X) sont des vecteurs gaussiens indépendants.

2. De plus‖πE(X)− πE(µ)‖2

σ2∝ χ2

dim(E)

Démonstration. 1. Soit A [resp. B] la matrice de πE [resp. πF ] dans la base canonique. Comme E et Fsont orthogonaux, on obtient que pour tout x, y ∈ R

n, < πE(x), πF (y) >= x′A′By = 0, et donc A′B = 0

Notons Y =

(

AXBX

)

= CX avec C =

(

AB

)

Y est un vecteur gaussien dont la matrice de variance-covariance est donnée par

σ2CInC′ = σ2

(

AA′ AB′

BA′ BB′

)

= σ2

(

A 00 B

)

On en déduit que AX = πE(X) et BX = πF (X) sont

indépendants.2. On peut se ramener au cas µ = 0 et σ = 1 puisque

‖πE(X)− πE(µ)‖2σ2

=

πE(X − µ

σ)

2

et X−µσ ∼ N (0, In). . Soit (u1, ..., up) une base orthonormée de E et L = (u1|u2|...|up). On a alors

πE(X) = L(L′L)−1L′X =∑

< X, ui > ui

et‖πE(X)‖2 =

< X, ui >2

Notons alors Y = L′X de telle manière que Yi =< X, ui >. On a Y ∼ N (0, L′L) avec L′L = Ip, et donc

Y1, ..., Yp ∼iid N (0, 1). Par définition de la loi du χ2, on en déduit que ‖πE(X)‖2 = ‖Y ‖2 ∼ χ2p

Corollaire. Soit X ∼ N (µ, σ2In). Si A est une matrice symétrique et idempotente de rang p, alors Aest la matrice associée à une projection orthogonale sur un s.e.v. de dimension p. On a donc‖AX−Aµ‖2

σ2 ∼ χ2p

3.4 Tests et intervalles de confiance pour les échantillons gaussiens

La proposition suivante est couramment utilisée pour faire des tests et des intervalles de confiance pourl’espérance et la variance d’échantillons gaussiens.

Proposition. Soit (X1, ..., Xn) ∼iid N (µ, σ2). Alors

1. X ∼ N (µ, σ2

n )

2. X et S2 sont indépendantes

3. nS2

σ2 ∼ χ2n−1

4.√n− 1 X−µ

S ∼ Tn−1

Démonstration. 1. Il suffit de remarquer que X = CX avec C = 1n (1, ..., 1) et

X = (X1, ..., Xn)′ ∼iid N (µu, σ2In) avec u = (1, ..., 1)′.

27

Page 28: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

2. Soit E le sous espace engendré par u. La matrice du projecteur πE est donnée par

A = u(u′u)−1u′ =1

n

1 . . . 1...

. . ....

1 . . . 1

Donc πE(X) = (X, ..., X)′. On en déduit que

πE⊥(X) = X − πE(X) = (X1 − X, ..., Xn − X)′

D’après le théorème de Cochran, πE(X) et πE⊥(X) sont indépendants, et donc X est indépendant

de S2 =‖πE⊥ (X)‖2

n .

3. Toujours d’après le théorème de Cochran, on a

‖πE⊥(X)− πE⊥(µu)‖2σ2

∝ χ2dim(E⊥)

avec πE⊥(µu) = 0, ‖πE⊥(X)‖2 = nS2, et dim(E⊥) = n− dim(E) = n− 1

4. D’après 1., on a U =√n X−µ

σ ∼ N (0, 1). D’après 2. et 3., nS2

σ2 ∼ χ2n−1 et est indépendant de U .

On conclut en utilisant la définition de la loi de Student.⋄

La proposition précédente permet de construire des intervalles de confiance pour l’espérance et lavariance d’un échantillon gaussien de taille quelconque et de variance inconnue. Supposons que(X1, ..., Xn) ∼iid N (µ, σ2).– Intervalle de confiance pour l’espérance d’un échantillon gaussien. D’après la proposition

précédente, on a√n− 1

X − µ

S∼ Tn−1

On en déduit que

P

(

tn−1,α/2 ≤√n− 1

X − µ

S≤ tn−1,1−α/2

)

= 1− α

puis que

P

(

X + tn−1,α/2S√n− 1

≤ µ ≤ X + tn−1,1−α/2S√n− 1

)

= 1− α

Finalement,[

X + tn−1,α/2S√n−1

; X + tn−1,1−α/2S√n−1

]

est un intervalle de confiance au niveau de

confiance 1− α pour µ.

– Intervalle de confiance pour la variance d’un échantillon gaussien. D’après la propositionprécédente, on a

nS2

σ2∼ χ2

n−1

On en déduit que

P

(

χn−1,α/2 ≤ nS2

σ2≤ χn−1,1−α/2

)

= 1− α

puis que

P

(

nS2

χn−1,1−α/2≤ σ2 ≤ n

S2

χn−1,α/2

)

= 1− α

Finalement,[

n S2

χn−1,1−α/2;n S2

χn−1,α/2

]

est un intervalle de confiance au niveau de confiance 1− α pourµ.

28

Page 29: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

De la même manière, on peut faire des tests sur la moyenne et la variance des échantillons gaussiens.

– Test sur l’espérance d’un échantillon gaussien. On veut tester l’hypothèse simpleH0 : µ = µ0 contre l’hypothèse alternative H1 : µ 6= µ0

On fixe ensuite un risque de première espèce α (risque de rejeter H0 alors que H0 est vraie). Onutilise la statistique de test :

T =√n− 1

X − µ0

S

Si H0 est vraie, alors T ∼ Tn−1 et

PH0 [tn−1,α/2 ≤ T ≤ tn−1,1−α/2] = 1− α

On adopte alors la règle de décision suivante :

– On accepte H0 si T =√n− 1 X−µ0

S ∈ [tn−1,α/2, tn−1,1−α/2].– On refuse H0 sinon.

– Test sur la variance d’un échantillon gaussien. On veut tester l’hypothèse simpleH0 : σ = σ0 contre l’hypothèse alternative H1 : σ 6= σ0

On utilise la statistique de test :

X = nS2

σ20

Si H0 est vraie, alors X ∼ χ2n−1 et

PH0

(

χn−1,α/2 ≤ X ≤ χn−1,1−α/2

)

= 1− α

On adopte alors la règle de décision suivante :

– On accepte H0 si X = nS2

σ20∈ [χn−1,α/2, χn−1,1−α/2].

– On refuse H0 sinon.

Exemple. On reprend l’exemple 1 du chapitre 2.

1. Donner un intervalle de confiance à 95% pour la moyenne et la variance des températures.

2. Le fabricant prétend que ses thermomètres fournissent la bonne température en moyenne avec unécart-type de 0.1o. Est-ce que ces affirmations sont justifiées ?

Exemple. On reprend l’exemple 3 du chapitre 2.

1. Donner un intervalle de confiance à 95% pour la tension artérielle moyenne avant puis aprèstraitement. Discuter.

2. Réaliser un test pour vérifier si le médicament a un effet sur la tension artérielle (on pourraconsidérer la série de données obtenue en calculant la différence entre la tension après et latension avant).

3.5 Exercices sur le chapitre 3

Pour certains des exercices ci-dessous, on pourra soit utiliser des tables statistiques soit des logicielsadaptés.

Exercice 3.1. On suppose que X suit une loi normale de moyenne m = 1 et d’écart type σ = 3.a. Calculer P [X ≤ 2], P [X ≤ 0] et P [−1 ≤ X ≤ 3].b. Trouver k tel que P [m− k ≤ X ≤ m+ k] = 0.95.c. Trouver k1 et k2 tels que P [k1 ≤ X ≤ k2] = 0.99.d. Trouver k tel que P [k ≤ X ] = 0.99.

Exercice 3.2. La taille moyenne des pygmées d’une tribu est de 1m40. On suppose en outre que lataille des pygmées de cette tribu suit une loi normale et que 10% des pygmés de cette tribu ont une taillesupérieure à 1m50. Quelle est l’écart type de la population ?

29

Page 30: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

Exercice 3.3. Soit X une variable aléatoire qui suit une loi normale de moyenne 0 et d’écart type σ.Calculer E[Xn] pour n ≥ 1.

Exercice 3.4. Soit X une variable aléatoire de loi N (0, 1) et U une variable aléatoire de loi uniformesur −1,+1, indépendante de X. On pose Y = UX.a. Déterminer la loi de Y .b. Calculer P [X + Y = 0].c. La variable aléatoire X + Y est-elle gaussienne ?d. Le couple (X,Y )′ est-il gaussien ?

Exercice 3.5. Soit

(

X1

X2

)

un couple gaussien de moyenne

(

00

)

et matrice de variance-covariance

V =

(

σ21 ρσ1σ2

ρσ1σ2 σ22

)

a. A quelle condition la matrice V est-elle symétrique et définie-positive ?b. Quelle est la loi de la variable aléatoire X1 ?c. Calculer cov(X1, X2) et cor(X1, X2).d. Soit (a, b) ∈ R

2 et Y = aX1 + bX2. Quelle est la loi de Y ?e. Calculer cov(X1, Y ) et cor(X1, Y )

f. Quelle est la loi du vecteur aléatoire

(

X1

Y

)

?

g. A quelle condition les variables aléatoires X1 et Y sont indépendantes ?

Exercice 3.6. Soient X et Y deux v.a. indépendantes de même loi N (0, 1) et (R,Θ) les coordonnéespolaire associées au couple (X,Y ). Montrer que les variables aléatoires R et Θ sont indépendantes etdéterminer leurs lois respectives.

Exercice 3.7. Soit E un sous-espace de Rn engendré par les vecteurs u1, . . . , ur linéairement

indépendants. Soit y un vecteur de Rn et πE(y) sa projection orthogonale sur E.

a. Donner la matrice des projecteurs orthogonaux sur E et sur son complémentaire dans Rn.

b. Donner la matrice des projecteurs orthogonaux sur le sous-espace engendré par un vecteur unitaire uet sur son complémentaire.c. Soit dans R

3 le sous-espace E engendré par u1 = e1 + e3 et u2 = e2 + e3, où e1, e2 et e3 sont lesvecteurs de base canonique de R

3. Soit X = (X1, X2, X3)′ un vecteur gaussien de loi N (0, σ2I).

Déterminer les lois du projeté πE(X) et de || πE(X) ||2.

Exercice 3.8. a. Soit X ∼ χ2p. Trouver a et b tels que P (a ≤ X ≤ b) = 0.95

b. Soit X ∼ χ21. Montrer, en utilisant la table de la loi N (0, 1), que P (X < 1.962) = 0.95

c. Soit X ∼ F20,15. Trouver a et b tels que P (a ≤ X ≤ b) = 0.95d. Soit X ∼ F1,500. Trouver a tel que P (X ≤ a) = 0.95. Vérifier que a ≈ 1.962. Justifier.e. Soit X ∼ T20. Trouver a et b tels que P (a ≤ X ≤ b) = 0.95f. Soit X ∼ T200. Trouver a tel que P (|X | ≤ a) = 0.95. Vérifier que a ≈ 1.962. Justifier.

Exercice 3.9. (Examen 2013-2014).Dans cet exercice, X, Y et Z sont trois variables aléatoires indépendantes qui suivent la loi N (0, 1).

1. Quelle est la loi de X2 + Y 2 ?

2. Quelle est la loi de√2 Z√

X2+Y 2?

3. Quelle est la loi de 2 Z2

X2+Y 2 ?

4. Quelle est la loi de X + Y ? Quelle est la loi de (X+Y )2

2 + Z2 ?

5. Quelle est la loi de X−Y√

(X+Y )2

2 +Z2?

Exercice 3.10. (Examen 2014-2015).Dans cet exercice, X = (X1, X2, X3, X4)

′ désigné un vecteur Gaussien de moyenne (0, 0, 0, 0)′ et dematrice de variance-covariance identité. On justifiera chaque réponse précisément.

30

Page 31: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

1. Quelle est la loi de (X1 −X2)2/2 + (X1 +X2)

2/2 ?

2. Quelle est la loi de (X1−X2)2

(X1+X2)2?

3. Quel est le projeté orthogonal πE(X) de X sur l’espace vectoriel engendré par les vecteurs(1, 1, 0, 0)′ et (0, 0, 1, 1)′.

4. Quelle est la loi de ‖πE(X)‖2 ? Quelle est la loi de ‖πE(X)‖2

‖X−πE(X)‖2 ?

Exercice 3.11. (sujet d’examen) Les données ci-dessous décrivent les températures annuellesmoyennes (en degré Celsius) à Brest au cours des 30 dernières années :

Année (xi) 1976 1977 1978 1979 1980 1981 1982 1983Température (yi) 11.08 10.73 10.71 10.51 10.54 11.01 11.25 11.31

Année (xi) 1984 1985 1986 1987 1988 1989 1990 1991Température (yi) 11.06 10.56 10.00 10.40 11.24 11.69 12.27 10.67

Année (xi) 1992 1993 1994 1995 1996 1997 1998 1999Température (yi) 11.14 10.90 11.71 11.95 10.84 11.97 11.46 11.91

Année (xi) 2000 2001 2002 2003 2004 2005Température (yi) 11.38 11.31 11.74 11.83 11.38 11.59

Valeurs numériques :∑n

i=1 xi = 59715,∑n

i=1 yi = 336.146,∑n

i=1 x2i = 118864955,

∑ni=1 y

2i = 3775.185,

∑ni=1 xiyi = 669179.3

Première partie.a. Réaliser un histogramme des observations à l’aide du logiciel R. On suppose dans la suite de cetexercice que ces observations proviennent d’un n-échantillon d’un loi N (m,σ2). Cette hypothèse vousparaît-elle être justifiée ?b. Calculer les températures moyennes à Brest sur les périodes 1976-1990 et 1991-2005. On donnerapour chaque estimation un intervalle de confiance à 95% et on commentera les résultats obtenus.

Deuxième partie. Soit (X1, ..., Xn) (resp. (Y1, ..., Yn)) n variables aléatoires indépendantes etidentiquement distribuées de loi N (m1, σ

2) (resp. N (m2, σ2)). On note X = 1

n

∑ni=1 Xi et

SX =√

1n

∑ni=1(Xi − X)2 (resp. Y = 1

n

∑ni=1 Yi et SY =

1n

∑ni=1(Yi − Y )2). On supposera également

que les n-uplets (X1, ..., Xn) et (Y1, ..., Yn) sont indépendants.

a. Montrer que X et Y suivent des lois normales dont on précisera les paramètres.b. Montrer que X − Y suit une loi normale dont on précisera les paramètres.

c. Montrer que nS2X

σ2 et nS2Y

σ2 suivent des lois du χ2 dont on précisera le degré de liberté. Justifierpourquoi ces deux variables aléatoires sont indépendantes entre elles et sont indépendantes de X et Y .

d. Montrer que nS2X+S2

Y

σ2 est indépendante de X − Y et suit une loi du χ2 dont on précisera le degré deliberté.e. Montrer que

T =√n− 1

X − Y − (m1 −m2)√

S2X + S2

Y

suit un loi de Student dont on précisera le degré de liberté.d. Utiliser ce résultat de la question pour construire un test permettant de tester l’hypothèseH0 : m1 = m2

e. Application numérique. Existe-t-il une différence significative entre les températures moyennes àBrest sur les périodes 1976-1990 et 1991-2005 ?

Exercice 3.12. (sujet d’examen)On s’intéresse aux résultats d’une expérience en chimie pour laquelle la qualité de chaque observationest différente mais connue. On choisit alors de modéliser les résultats de cette expérience en supposant

31

Page 32: Support du cours pour les M1 EURIA Année 2015-2016pagesperso.univ-brest.fr/~ailliot/doc_cours/M1EURIA/...Notes de cours sur les méthodes de régression Support du cours pour les

que les observations proviennent de n variables aléatoires indépendantes (X1, ..., Xn) telles queXi ∼ N (µ, σ2

i ) avec µ ∈ R et σi > 0. On supposera que les écart-types (σ1, ..., σn) sont connus (ilsmodélisent la qualité des différentes mesures) et on veut estimer le paramètre inconnu µ.

a. Dans cette question, on cherche à construire le meilleur estimateur possible de µ qui s’écrit sous laforme d’une somme pondérée

T =

n∑

i=1

piXi (3.1)

avec des poids fixés pi > 0.

1. Calculer E[T ]. A quelle condition sur les poids (p1, ..., pn) l’estimateur T est-il un estimateur sansbiais de µ ?

2. Calculer var(T ). Montrer que l’estimateur de µ de la forme (3.1) sans biais et de varianceminimale est obtenu avec les poids pi =

1Kσ2

iavec K =

∑ni=1

1σ2i.

3. Dans la suite, on prendra pi =1

Kσ2i. Quelles sont alors la variance et l’erreur quadratique

moyenne de T ?

b.Calculer l’estimateur du maximum de vraisemblance de µ. Cet estimateur est-il efficace ?c. On note Yi =

Xi

σi. Montrer que Y =t (Y1, ..., Yn) est un vecteur gaussien dont on précisera les

paramètres.

d. Déduire de la question précédente et du théorème de Cochran la loi de SC =∑n

i=1(Xi−T )2

σ2i

puis celle

de√

K(n− 1) T−µ√SC

. Quel résultat du cours retrouve-t-on lorsque σ1 = ... = σn = σ ?

f. Déduire de la question précédente un intervalle de confiance à 95% pour µ.

32