585
Statistique L. RouviLre [email protected] Avril 2017 L. RouviLre (Rennes 2) 1 / 287

Statistique - GitHub Pages

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistique - GitHub Pages

Statistique

L. Rouviè[email protected]

Avril 2017

L. Rouvière (Rennes 2) 1 / 287

Page 2: Statistique - GitHub Pages

Première partie I

Présentation de l’enseignement

L. Rouvière (Rennes 2) 2 / 287

Page 3: Statistique - GitHub Pages

1 Modèle de densité

2 Modèle de régression

3 Objectifs et plan du cours

L. Rouvière (Rennes 2) 3 / 287

Page 4: Statistique - GitHub Pages

Modèle

Qu’est-ce qu’un modèle?Mathématiquement, un modèle est un triplet (H ,A, P,P ∈ P) avec

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

A quoi sert un modèle?Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilitédu phénomène?

L. Rouvière (Rennes 2) 4 / 287

Page 5: Statistique - GitHub Pages

Modèle

Qu’est-ce qu’un modèle?Mathématiquement, un modèle est un triplet (H ,A, P,P ∈ P) avec

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

A quoi sert un modèle?Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilitédu phénomène?

L. Rouvière (Rennes 2) 4 / 287

Page 6: Statistique - GitHub Pages

Modèle

Qu’est-ce qu’un modèle?Mathématiquement, un modèle est un triplet (H ,A, P,P ∈ P) avec

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

A quoi sert un modèle?Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilitédu phénomène?

L. Rouvière (Rennes 2) 4 / 287

Page 7: Statistique - GitHub Pages

Modèle

Qu’est-ce qu’un modèle?Mathématiquement, un modèle est un triplet (H ,A, P,P ∈ P) avec

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

A quoi sert un modèle?Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilitédu phénomène?

L. Rouvière (Rennes 2) 4 / 287

Page 8: Statistique - GitHub Pages

Modèle

Qu’est-ce qu’un modèle?Mathématiquement, un modèle est un triplet (H ,A, P,P ∈ P) avec

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

A quoi sert un modèle?Expliquer, décrire les mécanismes du phénomène considéré.

Question : quel est le lien entre la définition mathématique et l’utilitédu phénomène?

L. Rouvière (Rennes 2) 4 / 287

Page 9: Statistique - GitHub Pages

1 Modèle de densité

2 Modèle de régression

3 Objectifs et plan du cours

L. Rouvière (Rennes 2) 5 / 287

Page 10: Statistique - GitHub Pages

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.

On traite n = 100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soit p0 la probabilité de guérison suite au traitement en question.

On est tentés de conclure p0 ≈ 0.72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable depréciser l’erreur susceptible d’être commise par cette estimation.

L. Rouvière (Rennes 2) 6 / 287

Page 11: Statistique - GitHub Pages

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.

On traite n = 100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soit p0 la probabilité de guérison suite au traitement en question.

On est tentés de conclure p0 ≈ 0.72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable depréciser l’erreur susceptible d’être commise par cette estimation.

L. Rouvière (Rennes 2) 6 / 287

Page 12: Statistique - GitHub Pages

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateurpendant 36 journées.

x = 5.22, S2n = 5.72.

05

1015

Diagramme en bâtons

Nb mails

frequen

ce

1 3 5 7 9 11

Histogramme

mails

Densi

ty

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée?

L. Rouvière (Rennes 2) 7 / 287

Page 13: Statistique - GitHub Pages

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateurpendant 36 journées.

x = 5.22, S2n = 5.72.

05

1015

Diagramme en bâtons

Nb mails

frequen

ce

1 3 5 7 9 11

Histogramme

mails

Densi

ty

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée?

L. Rouvière (Rennes 2) 7 / 287

Page 14: Statistique - GitHub Pages

Exemple 3

Durée de trajet domicile-travail.On dispose de n = 100 mesures : x = 25.1, S2

n = 14.46.

Histogramme

trajet

Dens

ity

20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si jepars de chez moi à 7h55?

L. Rouvière (Rennes 2) 8 / 287

Page 15: Statistique - GitHub Pages

Exemple 3

Durée de trajet domicile-travail.On dispose de n = 100 mesures : x = 25.1, S2

n = 14.46.

Histogramme

trajet

Dens

ity

20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

J’ai une réunion à 8h30, quelle est la probabilité que j’arrive en retard si jepars de chez moi à 7h55?

L. Rouvière (Rennes 2) 8 / 287

Page 16: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 9 / 287

Page 17: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 9 / 287

Page 18: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 9 / 287

Page 19: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénomènes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 10 / 287

Page 20: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénomènes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 10 / 287

Page 21: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénomènes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 10 / 287

Page 22: Statistique - GitHub Pages

Loi de probabilité

Loi de probabilitéEtant donnée P une probabilité sur (Ω,A) et X une variable aléatoireréelle définie sur Ω, on appelle loi de probabilité de X la mesure PX définiepar

PX (B) = P(X−1(B)) = P(X ∈ B) = P(ω ∈ Ω : X(ω) ∈ B) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition : FX (x) = P(X ≤ x).

sa densité : fx : R→ R+ telle que ∀B ∈ B(R)

PX (B) =

∫B

fX (x) dµ(x).

L. Rouvière (Rennes 2) 11 / 287

Page 23: Statistique - GitHub Pages

Loi de probabilité

Loi de probabilitéEtant donnée P une probabilité sur (Ω,A) et X une variable aléatoireréelle définie sur Ω, on appelle loi de probabilité de X la mesure PX définiepar

PX (B) = P(X−1(B)) = P(X ∈ B) = P(ω ∈ Ω : X(ω) ∈ B) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition : FX (x) = P(X ≤ x).

sa densité : fx : R→ R+ telle que ∀B ∈ B(R)

PX (B) =

∫B

fX (x) dµ(x).

L. Rouvière (Rennes 2) 11 / 287

Page 24: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de Bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes et demême loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 12 / 287

Page 25: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de Bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes et demême loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 12 / 287

Page 26: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de Bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes et demême loi (i.i.d.).

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 12 / 287

Page 27: Statistique - GitHub Pages

1 Modèle de densité

2 Modèle de régression

3 Objectifs et plan du cours

L. Rouvière (Rennes 2) 13 / 287

Page 28: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (Xi ,Yi), i = 1, . . . , n.

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 14 / 287

Page 29: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (Xi ,Yi), i = 1, . . . , n.

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 14 / 287

Page 30: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (Xi ,Yi), i = 1, . . . , n.

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 14 / 287

Page 31: Statistique - GitHub Pages

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pourreconstruire la loi des données P.

P

P

P

On distingue deux types d’erreurs :Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.Erreur d’approximation : erreur commise par le choix de P.

L. Rouvière (Rennes 2) 15 / 287

Page 32: Statistique - GitHub Pages

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pourreconstruire la loi des données P.

P

P

P

On distingue deux types d’erreurs :Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.Erreur d’approximation : erreur commise par le choix de P.

L. Rouvière (Rennes 2) 15 / 287

Page 33: Statistique - GitHub Pages

La modélisation

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .

3 Estimation : chercher dans le modèle une loi Pθ qui soit le plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifiersi l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

L. Rouvière (Rennes 2) 16 / 287

Page 34: Statistique - GitHub Pages

La modélisation

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .

3 Estimation : chercher dans le modèle une loi Pθ qui soit le plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifiersi l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

L. Rouvière (Rennes 2) 16 / 287

Page 35: Statistique - GitHub Pages

La modélisation

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .

3 Estimation : chercher dans le modèle une loi Pθ qui soit le plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifiersi l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

L. Rouvière (Rennes 2) 16 / 287

Page 36: Statistique - GitHub Pages

La modélisation

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .

3 Estimation : chercher dans le modèle une loi Pθ qui soit le plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

4 "Validation” de modèle : on revient en arrière et on tente de vérifiersi l’hypothèse de l’étape 2 est raisonnable (test d’adéquation, etc...)

L. Rouvière (Rennes 2) 16 / 287

Page 37: Statistique - GitHub Pages

1 Modèle de densité

2 Modèle de régression

3 Objectifs et plan du cours

L. Rouvière (Rennes 2) 17 / 287

Page 38: Statistique - GitHub Pages

Objectifs

1 Formaliser mathématiquement les étapes de modélisation etd’estimation.

2 Proposer des procédures automatiques permettant construire des"bons estimateurs”.

3 Mesurer la performance des estimateurs.

OutilsLes techniques permettant de répondre à ces 3 objectifs font appel à lathéorie des probabilités.

L. Rouvière (Rennes 2) 18 / 287

Page 39: Statistique - GitHub Pages

Objectifs

1 Formaliser mathématiquement les étapes de modélisation etd’estimation.

2 Proposer des procédures automatiques permettant construire des"bons estimateurs”.

3 Mesurer la performance des estimateurs.

OutilsLes techniques permettant de répondre à ces 3 objectifs font appel à lathéorie des probabilités.

L. Rouvière (Rennes 2) 18 / 287

Page 40: Statistique - GitHub Pages

Plan du cours

1 Notions de statistiques descriptives : indicateurs permettant desynthétiser l’information contenue dans un tableau de données : casunivariés (moyenne, médiane, variance...), bivariés (corrélation),multivariés (analyse en composante principale).

2 Modèle statistique et estimation : formulation mathématique duproblème de modélisation, construction et mesure de performance (àdistance finie et asymptotique) d’estimateurs.

3 Tests d’hypothèses : théorie de la décision, notions de risque,construction de tests (principe de Neyman-Pearson).

4 Le modèle de régression linéaire : adaptation des outils développésdans les chapitres précédents pour répondre à un problème derégression.

L. Rouvière (Rennes 2) 19 / 287

Page 41: Statistique - GitHub Pages

Plan du cours

1 Notions de statistiques descriptives : indicateurs permettant desynthétiser l’information contenue dans un tableau de données : casunivariés (moyenne, médiane, variance...), bivariés (corrélation),multivariés (analyse en composante principale).

2 Modèle statistique et estimation : formulation mathématique duproblème de modélisation, construction et mesure de performance (àdistance finie et asymptotique) d’estimateurs.

3 Tests d’hypothèses : théorie de la décision, notions de risque,construction de tests (principe de Neyman-Pearson).

4 Le modèle de régression linéaire : adaptation des outils développésdans les chapitres précédents pour répondre à un problème derégression.

L. Rouvière (Rennes 2) 19 / 287

Page 42: Statistique - GitHub Pages

Plan du cours

1 Notions de statistiques descriptives : indicateurs permettant desynthétiser l’information contenue dans un tableau de données : casunivariés (moyenne, médiane, variance...), bivariés (corrélation),multivariés (analyse en composante principale).

2 Modèle statistique et estimation : formulation mathématique duproblème de modélisation, construction et mesure de performance (àdistance finie et asymptotique) d’estimateurs.

3 Tests d’hypothèses : théorie de la décision, notions de risque,construction de tests (principe de Neyman-Pearson).

4 Le modèle de régression linéaire : adaptation des outils développésdans les chapitres précédents pour répondre à un problème derégression.

L. Rouvière (Rennes 2) 19 / 287

Page 43: Statistique - GitHub Pages

Plan du cours

1 Notions de statistiques descriptives : indicateurs permettant desynthétiser l’information contenue dans un tableau de données : casunivariés (moyenne, médiane, variance...), bivariés (corrélation),multivariés (analyse en composante principale).

2 Modèle statistique et estimation : formulation mathématique duproblème de modélisation, construction et mesure de performance (àdistance finie et asymptotique) d’estimateurs.

3 Tests d’hypothèses : théorie de la décision, notions de risque,construction de tests (principe de Neyman-Pearson).

4 Le modèle de régression linéaire : adaptation des outils développésdans les chapitres précédents pour répondre à un problème derégression.

L. Rouvière (Rennes 2) 19 / 287

Page 44: Statistique - GitHub Pages

Deuxième partie II

Statistiques descriptives

L. Rouvière (Rennes 2) 20 / 287

Page 45: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 21 / 287

Page 46: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 22 / 287

Page 47: Statistique - GitHub Pages

Vocabulaire (voir Saporta : Probabilités, analyse desdonnées et statistique)

Population : ensemble d’objets de même nature.

Individu : élément de cette population.

Variable : caractéristique étudiée sur la population.

Echantillon : sous ensemble de la population dont les individusferont l’objet de l’étude

L. Rouvière (Rennes 2) 23 / 287

Page 48: Statistique - GitHub Pages

Un exemple

On s’intéresse aux performances de décathloniens de haut niveaudans les 10 disciplines qui composent ce sport.On dispose des performances de n = 41 athlètes réalisées au coursdes JO et au décastar :

X100m Longueur Poids Hauteur X400m X110mH Disque PercheSebrle 10.85 7.84 16.36 2.12 48.36 14.05 48.72 5.0Clay 10.44 7.96 15.23 2.06 49.19 14.13 50.11 4.9Karpov 10.50 7.81 15.93 2.09 46.81 13.97 51.65 4.6Macey 10.89 7.47 15.73 2.15 48.97 14.56 48.34 4.4Warners 10.62 7.74 14.48 1.97 47.97 14.01 43.73 4.9

Javelot X1500m Classement Points CompetitionSebrle 70.52 280.01 1 8893 OlympicGClay 69.71 282.00 2 8820 OlympicGKarpov 55.54 278.11 3 8725 OlympicGMacey 58.46 265.42 4 8414 OlympicGWarners 55.39 278.05 5 8343 OlympicG

L. Rouvière (Rennes 2) 24 / 287

Page 49: Statistique - GitHub Pages

Population : ensemble des décathloniens de haut niveau.

Individu : un décathlonien de haut niveau.

Variables : performances dans chacune des 10 disciplines.

Echantillon : les décathloniens ayant participé au JO ou au décastar.

L. Rouvière (Rennes 2) 25 / 287

Page 50: Statistique - GitHub Pages

La statistique exploratoire

But : synthétiser, résumer, structurer l’information contenue dans untableau de données.

Comment? : représentations sous forme de tableaux, de graphiques,d’indicateurs numériques.

Exemple : calcul de la longueur moyenne sautée dans l’épreuve desaut en longueur...

L. Rouvière (Rennes 2) 26 / 287

Page 51: Statistique - GitHub Pages

La statistique inférentielle

But : étendre les propriétés constatées sur l’échantillon à lapopulation toute entière.

Comment? : les méthodes font généralement appel à la théorie desprobabilités (construction d’intervalles de confiance, de testsd’hypothèses).

Exemple : peut-on dire que les performances des athlètes sontmeilleurs aux JO qu’au décastar?

L. Rouvière (Rennes 2) 27 / 287

Page 52: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 28 / 287

Page 53: Statistique - GitHub Pages

Typologie des variables

Les méthodes diffèrent selon le type de variables :quantitative : additionner les modalités à un sens.

continue : la variable prend ses valeurs dans un intervalle de R (taille,poids, saut en longueur...) ;discrète : nombre fini ou dénombrable de valeurs (nombre depersonnes dans une file d’attente à un moment donnée, classement dudécathlon...).

qualitative : additionner les modalités n’a pas de sens.ordinale : relation d’ordre entre les modalités (type de mention à unexamen) ;nominale : sinon (type de traitement subi, CSP).

L. Rouvière (Rennes 2) 29 / 287

Page 54: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 30 / 287

Page 55: Statistique - GitHub Pages

Mesures de tendance centrale

On note x1, . . . , xn n observations d’une variable quantitative X .

moyenne : x = 1n∑n

i=1 xi .

médiane : "valeur qui coupe l’échantillon en 2". On la définit à partirde la fonction de répartition empirique

Fn(x) =1n

n∑i=1

1xi≤x.

médiane : plus petite valeur M telle que Fn(x) ≥ 0.5 :

M = infx : Fn(x) ≥ 0.5.

quantile d’ordre α : plus petite valeur qα telle que Fn(x) ≥ α :

qα = infx : Fn(x) ≥ α.

L. Rouvière (Rennes 2) 31 / 287

Page 56: Statistique - GitHub Pages

Mesures de tendance centrale

On note x1, . . . , xn n observations d’une variable quantitative X .

moyenne : x = 1n∑n

i=1 xi .

médiane : "valeur qui coupe l’échantillon en 2". On la définit à partirde la fonction de répartition empirique

Fn(x) =1n

n∑i=1

1xi≤x.

médiane : plus petite valeur M telle que Fn(x) ≥ 0.5 :

M = infx : Fn(x) ≥ 0.5.

quantile d’ordre α : plus petite valeur qα telle que Fn(x) ≥ α :

qα = infx : Fn(x) ≥ α.

L. Rouvière (Rennes 2) 31 / 287

Page 57: Statistique - GitHub Pages

Mesures de tendance centrale

On note x1, . . . , xn n observations d’une variable quantitative X .

moyenne : x = 1n∑n

i=1 xi .

médiane : "valeur qui coupe l’échantillon en 2". On la définit à partirde la fonction de répartition empirique

Fn(x) =1n

n∑i=1

1xi≤x.

médiane : plus petite valeur M telle que Fn(x) ≥ 0.5 :

M = infx : Fn(x) ≥ 0.5.

quantile d’ordre α : plus petite valeur qα telle que Fn(x) ≥ α :

qα = infx : Fn(x) ≥ α.

L. Rouvière (Rennes 2) 31 / 287

Page 58: Statistique - GitHub Pages

Mesures de tendance centrale

On note x1, . . . , xn n observations d’une variable quantitative X .

moyenne : x = 1n∑n

i=1 xi .

médiane : "valeur qui coupe l’échantillon en 2". On la définit à partirde la fonction de répartition empirique

Fn(x) =1n

n∑i=1

1xi≤x.

médiane : plus petite valeur M telle que Fn(x) ≥ 0.5 :

M = infx : Fn(x) ≥ 0.5.

quantile d’ordre α : plus petite valeur qα telle que Fn(x) ≥ α :

qα = infx : Fn(x) ≥ α.

L. Rouvière (Rennes 2) 31 / 287

Page 59: Statistique - GitHub Pages

Exemple

x1 x2 x3 x4 x5 x6

4 2 2 8 7 9

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x

)

M = 4, q0.25 = 2, q5/6 = 8.

L. Rouvière (Rennes 2) 32 / 287

Page 60: Statistique - GitHub Pages

Exemple

x1 x2 x3 x4 x5 x6

4 2 2 8 7 9

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x

)

M = 4, q0.25 = 2, q5/6 = 8.

L. Rouvière (Rennes 2) 32 / 287

Page 61: Statistique - GitHub Pages

Mesurer la tendance centrale n’est pas suffisant :x1 x2 x3 x4 x5 x M

10 10 10 10 10 10 1015 10 5 12 8 10 10

1 2 3 4 5

68

1012

14

Index

Variance :

S2n =

1n

n∑i=1

(xi − x)2 =1n

n∑i=1

x2i − x2.

série 1 : S2n = 0, série 2

S2n = 1

5 (52 + 02 + ...) = 11.6.

Conclusion : les observations de la

série 2 sont plus dispersées autour de

leur moyenne.

L. Rouvière (Rennes 2) 33 / 287

Page 62: Statistique - GitHub Pages

Mesurer la tendance centrale n’est pas suffisant :x1 x2 x3 x4 x5 x M

10 10 10 10 10 10 1015 10 5 12 8 10 10

1 2 3 4 5

68

1012

14

Index

Variance :

S2n =

1n

n∑i=1

(xi − x)2 =1n

n∑i=1

x2i − x2.

série 1 : S2n = 0, série 2

S2n = 1

5 (52 + 02 + ...) = 11.6.

Conclusion : les observations de la

série 2 sont plus dispersées autour de

leur moyenne.

L. Rouvière (Rennes 2) 33 / 287

Page 63: Statistique - GitHub Pages

Mesurer la tendance centrale n’est pas suffisant :x1 x2 x3 x4 x5 x M

10 10 10 10 10 10 1015 10 5 12 8 10 10

1 2 3 4 5

68

1012

14

Index

Variance :

S2n =

1n

n∑i=1

(xi − x)2 =1n

n∑i=1

x2i − x2.

série 1 : S2n = 0, série 2

S2n = 1

5 (52 + 02 + ...) = 11.6.

Conclusion : les observations de la

série 2 sont plus dispersées autour de

leur moyenne.

L. Rouvière (Rennes 2) 33 / 287

Page 64: Statistique - GitHub Pages

Boxplotx1 x2 x3 x4 x5 x M

10 10 10 10 10 10 1015 10 5 12 8 10 10

serie 1 serie 2

68

1012

14

L. Rouvière (Rennes 2) 34 / 287

Page 65: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 35 / 287

Page 66: Statistique - GitHub Pages

On observe 2 variables quantitatives X et Y sur un échantillon de nindividus. Les observations sont notées (xi , yi), i = 1, . . . , n.

Problème : mesurer la relation entre X et Y .

Exemple :

13 14 15 16

3840

4244

4648

5052

Poids

Disque

48 49 50 51 524.2

4.44.6

4.85.0

5.25.4

400m

Perch

e

L. Rouvière (Rennes 2) 36 / 287

Page 67: Statistique - GitHub Pages

Mesure d’une relation linéaire

Définitioncovariance entre X et Y :

cov(X ,Y) =1n

n∑i=1

(xi − x)(yi − y) =1n

n∑i=1

xiyi − x y.

corrélation entre X et Y :

ρ(X ,Y) =cov(X ,Y)

σ(X)σ(Y).

Propriété−1 ≤ ρ(X ,Y) ≤ 1 et |ρ(X ,Y)| = 1 si et seulement si il existe a et b telsque yi = axi + b.Si |ρ(X ,Y)| ≈ 1 on dit que X et Y sont corrélées et si |ρ(X ,Y)| ≈ 0 ondit qu’elles sont non corrélées.

Exemple : ρ(Poids,Disque) = 0.62 et ρ(400m, perche) = −0.08.

L. Rouvière (Rennes 2) 37 / 287

Page 68: Statistique - GitHub Pages

Mesure d’une relation linéaire

Définitioncovariance entre X et Y :

cov(X ,Y) =1n

n∑i=1

(xi − x)(yi − y) =1n

n∑i=1

xiyi − x y.

corrélation entre X et Y :

ρ(X ,Y) =cov(X ,Y)

σ(X)σ(Y).

Propriété−1 ≤ ρ(X ,Y) ≤ 1 et |ρ(X ,Y)| = 1 si et seulement si il existe a et b telsque yi = axi + b.Si |ρ(X ,Y)| ≈ 1 on dit que X et Y sont corrélées et si |ρ(X ,Y)| ≈ 0 ondit qu’elles sont non corrélées.

Exemple : ρ(Poids,Disque) = 0.62 et ρ(400m, perche) = −0.08.

L. Rouvière (Rennes 2) 37 / 287

Page 69: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 38 / 287

Page 70: Statistique - GitHub Pages

Lorsque l’on cherche à étudier plus de deux variables simultanément,les choses se compliquent...

Sur l’exemple du décathlon, on a n = 41 individus et p = 10variables.

Questions :peut-on regrouper certains individus selon leur performance? Onpourrait calculer les n(n − 1)/2 = 820 distances entre individus...difficile à analyser.

peut-on indentifier des groupes de variables (des disciplines pourlesquelles certains individus pourraient être très performants ou non)?Une idée : utiliser la matrice des corrélations.

L. Rouvière (Rennes 2) 39 / 287

Page 71: Statistique - GitHub Pages

Lorsque l’on cherche à étudier plus de deux variables simultanément,les choses se compliquent...

Sur l’exemple du décathlon, on a n = 41 individus et p = 10variables.

Questions :peut-on regrouper certains individus selon leur performance? Onpourrait calculer les n(n − 1)/2 = 820 distances entre individus...difficile à analyser.

peut-on indentifier des groupes de variables (des disciplines pourlesquelles certains individus pourraient être très performants ou non)?Une idée : utiliser la matrice des corrélations.

L. Rouvière (Rennes 2) 39 / 287

Page 72: Statistique - GitHub Pages

Lorsque l’on cherche à étudier plus de deux variables simultanément,les choses se compliquent...

Sur l’exemple du décathlon, on a n = 41 individus et p = 10variables.

Questions :peut-on regrouper certains individus selon leur performance? Onpourrait calculer les n(n − 1)/2 = 820 distances entre individus...difficile à analyser.

peut-on indentifier des groupes de variables (des disciplines pourlesquelles certains individus pourraient être très performants ou non)?Une idée : utiliser la matrice des corrélations.

L. Rouvière (Rennes 2) 39 / 287

Page 73: Statistique - GitHub Pages

Un exemple

X100m Longueur Poids Hauteur X400m X110mH Disque Perche Javelot X1500mX100m 1.00 -0.60 -0.36 -0.25 0.52 0.58 -0.22 -0.08 -0.16 -0.06Longueur -0.60 1.00 0.18 0.29 -0.60 -0.51 0.19 0.20 0.12 -0.03Poids -0.36 0.18 1.00 0.49 -0.14 -0.25 0.62 0.06 0.37 0.12Hauteur -0.25 0.29 0.49 1.00 -0.19 -0.28 0.37 -0.16 0.17 -0.04X400m 0.52 -0.60 -0.14 -0.19 1.00 0.55 -0.12 -0.08 0.00 0.41X110mH 0.58 -0.51 -0.25 -0.28 0.55 1.00 -0.33 0.00 0.01 0.04Disque -0.22 0.19 0.62 0.37 -0.12 -0.33 1.00 -0.15 0.16 0.26Perche -0.08 0.20 0.06 -0.16 -0.08 0.00 -0.15 1.00 -0.03 0.25Javelot -0.16 0.12 0.37 0.17 0.00 0.01 0.16 -0.03 1.00 -0.18X1500m -0.06 -0.03 0.12 -0.04 0.41 0.04 0.26 0.25 -0.18 1.00

On mesure les corrélations deux à deux mais difficile d’obtenir uneinformation plus globale...

L. Rouvière (Rennes 2) 40 / 287

Page 74: Statistique - GitHub Pages

Un exemple

X100m Longueur Poids Hauteur X400m X110mH Disque Perche Javelot X1500mX100m 1.00 -0.60 -0.36 -0.25 0.52 0.58 -0.22 -0.08 -0.16 -0.06Longueur -0.60 1.00 0.18 0.29 -0.60 -0.51 0.19 0.20 0.12 -0.03Poids -0.36 0.18 1.00 0.49 -0.14 -0.25 0.62 0.06 0.37 0.12Hauteur -0.25 0.29 0.49 1.00 -0.19 -0.28 0.37 -0.16 0.17 -0.04X400m 0.52 -0.60 -0.14 -0.19 1.00 0.55 -0.12 -0.08 0.00 0.41X110mH 0.58 -0.51 -0.25 -0.28 0.55 1.00 -0.33 0.00 0.01 0.04Disque -0.22 0.19 0.62 0.37 -0.12 -0.33 1.00 -0.15 0.16 0.26Perche -0.08 0.20 0.06 -0.16 -0.08 0.00 -0.15 1.00 -0.03 0.25Javelot -0.16 0.12 0.37 0.17 0.00 0.01 0.16 -0.03 1.00 -0.18X1500m -0.06 -0.03 0.12 -0.04 0.41 0.04 0.26 0.25 -0.18 1.00

On mesure les corrélations deux à deux mais difficile d’obtenir uneinformation plus globale...

L. Rouvière (Rennes 2) 40 / 287

Page 75: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 41 / 287

Page 76: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 42 / 287

Page 77: Statistique - GitHub Pages

Projecteurs

Soit E un espace vectoriel de dimension finie n muni d’un produitscalaire 〈., .〉 et F un sous-espace vectoriel de E de dimension p.

DéfinitionUn projecteur p : E → E est une application linéaire qui vérifie p p = p.

L. Rouvière (Rennes 2) 43 / 287

Page 78: Statistique - GitHub Pages

Projection orthogonale

Projection orthogonalePF est la projection orthogonale sur F si

∀u ∈ E, PF (u) ∈ F ;

∀u ∈ E, u − PF (u) ∈ F⊥.

F

u − PF (u)

PF (u)

u

L. Rouvière (Rennes 2) 44 / 287

Page 79: Statistique - GitHub Pages

Propriétés1 Soient (u, v) ∈ E2. Le projeté orthogonal de u sur F = vect(v) est

donné par

PF (u) =〈u, v〉‖v‖2

v .

2 Soit F un sev de E de dimension p et B = (v1, . . . , vp) une baseorthogonale de F , alors

PF (u) =〈u, v1〉

‖v1‖2

v1 + . . . +〈u, vp〉

‖vp‖2

vp .

Soient F et G 2 sev orthogonaux de E. Alors

PF⊕

G = PF + PG .

L. Rouvière (Rennes 2) 45 / 287

Page 80: Statistique - GitHub Pages

Propriétés1 Soient (u, v) ∈ E2. Le projeté orthogonal de u sur F = vect(v) est

donné par

PF (u) =〈u, v〉‖v‖2

v .

2 Soit F un sev de E de dimension p et B = (v1, . . . , vp) une baseorthogonale de F , alors

PF (u) =〈u, v1〉

‖v1‖2

v1 + . . . +〈u, vp〉

‖vp‖2

vp .

Soient F et G 2 sev orthogonaux de E. Alors

PF⊕

G = PF + PG .

L. Rouvière (Rennes 2) 45 / 287

Page 81: Statistique - GitHub Pages

Propriétés1 Soient (u, v) ∈ E2. Le projeté orthogonal de u sur F = vect(v) est

donné par

PF (u) =〈u, v〉‖v‖2

v .

2 Soit F un sev de E de dimension p et B = (v1, . . . , vp) une baseorthogonale de F , alors

PF (u) =〈u, v1〉

‖v1‖2

v1 + . . . +〈u, vp〉

‖vp‖2

vp .

Soient F et G 2 sev orthogonaux de E. Alors

PF⊕

G = PF + PG .

L. Rouvière (Rennes 2) 45 / 287

Page 82: Statistique - GitHub Pages

Valeurs propres - Vecteurs propres

DéfinitionSoit A une matrice n × n.

v ∈ E est un vecteur propre de A si et seulement si il existe λ ∈ R telque Av = λv (λ est appelé valeur propre de A ).

L’ensemble des vecteurs propres de A associé à la valeur propre λest appelé espace propre Eλ :

Eλ = ker(A − λI).

Propriétéλ est valeur propre de A si est seulement si det(A − λI) = 0.

L. Rouvière (Rennes 2) 46 / 287

Page 83: Statistique - GitHub Pages

Valeurs propres - Vecteurs propres

DéfinitionSoit A une matrice n × n.

v ∈ E est un vecteur propre de A si et seulement si il existe λ ∈ R telque Av = λv (λ est appelé valeur propre de A ).

L’ensemble des vecteurs propres de A associé à la valeur propre λest appelé espace propre Eλ :

Eλ = ker(A − λI).

Propriétéλ est valeur propre de A si est seulement si det(A − λI) = 0.

L. Rouvière (Rennes 2) 46 / 287

Page 84: Statistique - GitHub Pages

Diagonalisation

DéfinitionA est diagonalisable si il existe une matrice P inversible et une matrice Ddiagonale telles que A = P−1DP.

PropriétéSoit A une matrice admettant pour valeurs propres λ1, . . . , λk . La matriceA est diagonalisable si et seulement si la somme des dimensions dessous-espaces propres est égale à n, c’est-à-dire

k∑j=1

dim(Eλj ) = n.

L. Rouvière (Rennes 2) 47 / 287

Page 85: Statistique - GitHub Pages

Diagonalisation

DéfinitionA est diagonalisable si il existe une matrice P inversible et une matrice Ddiagonale telles que A = P−1DP.

PropriétéSoit A une matrice admettant pour valeurs propres λ1, . . . , λk . La matriceA est diagonalisable si et seulement si la somme des dimensions dessous-espaces propres est égale à n, c’est-à-dire

k∑j=1

dim(Eλj ) = n.

L. Rouvière (Rennes 2) 47 / 287

Page 86: Statistique - GitHub Pages

Diagonalisation de matrices semi-définie positive

PropriétéSoit A une matrice symétrique semi-définie positive. Alors

1 A est diagonalisable ;2 Les valeurs propres de A sont ≥ 0 ;3 Les espaces propres de A sont deux à deux orthogonaux.

PropriétéSoit X une matrice n × p. Alors

1 la matrice X ′X = Σ de dimension p × p est semi-définie positive.2 la matrice XX ′ = A de dimension n × n est semi-définie positive.3 Σ et A ont les mêmes valeurs propres non nulles.

L. Rouvière (Rennes 2) 48 / 287

Page 87: Statistique - GitHub Pages

Diagonalisation de matrices semi-définie positive

PropriétéSoit A une matrice symétrique semi-définie positive. Alors

1 A est diagonalisable ;2 Les valeurs propres de A sont ≥ 0 ;3 Les espaces propres de A sont deux à deux orthogonaux.

PropriétéSoit X une matrice n × p. Alors

1 la matrice X ′X = Σ de dimension p × p est semi-définie positive.2 la matrice XX ′ = A de dimension n × n est semi-définie positive.3 Σ et A ont les mêmes valeurs propres non nulles.

L. Rouvière (Rennes 2) 48 / 287

Page 88: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 49 / 287

Page 89: Statistique - GitHub Pages

Notations

Tableau des données

X =

X1 . . . Xp

e1 x1,1 . . . x1,p...

......

en xn,1 . . . xn,p

ei = (xi,1, . . . , xi,p)′ l’individu i et Xj = (x1,j , . . . , xn,j)

′ la variable j.ei ∈ R

p , la représentation de l’ensemble des individus est un nuagede points dans Rp , appelé nuage des individus, N .Xj ∈ R

n, la représentation de l’ensemble des variables est un nuagede points dans Rn, appelé nuage des variables,M.

Si l’œil était capable de visualiser dans Rn et Rp , il n’y aurait pas deproblème...

L. Rouvière (Rennes 2) 50 / 287

Page 90: Statistique - GitHub Pages

Notations

Tableau des données

X =

X1 . . . Xp

e1 x1,1 . . . x1,p...

......

en xn,1 . . . xn,p

ei = (xi,1, . . . , xi,p)′ l’individu i et Xj = (x1,j , . . . , xn,j)

′ la variable j.ei ∈ R

p , la représentation de l’ensemble des individus est un nuagede points dans Rp , appelé nuage des individus, N .Xj ∈ R

n, la représentation de l’ensemble des variables est un nuagede points dans Rn, appelé nuage des variables,M.

Si l’œil était capable de visualiser dans Rn et Rp , il n’y aurait pas deproblème...

L. Rouvière (Rennes 2) 50 / 287

Page 91: Statistique - GitHub Pages

Notations

Tableau des données

X =

X1 . . . Xp

e1 x1,1 . . . x1,p...

......

en xn,1 . . . xn,p

ei = (xi,1, . . . , xi,p)′ l’individu i et Xj = (x1,j , . . . , xn,j)

′ la variable j.ei ∈ R

p , la représentation de l’ensemble des individus est un nuagede points dans Rp , appelé nuage des individus, N .Xj ∈ R

n, la représentation de l’ensemble des variables est un nuagede points dans Rn, appelé nuage des variables,M.

Si l’œil était capable de visualiser dans Rn et Rp , il n’y aurait pas deproblème...

L. Rouvière (Rennes 2) 50 / 287

Page 92: Statistique - GitHub Pages

Notations

Tableau des données

X =

X1 . . . Xp

e1 x1,1 . . . x1,p...

......

en xn,1 . . . xn,p

ei = (xi,1, . . . , xi,p)′ l’individu i et Xj = (x1,j , . . . , xn,j)

′ la variable j.ei ∈ R

p , la représentation de l’ensemble des individus est un nuagede points dans Rp , appelé nuage des individus, N .Xj ∈ R

n, la représentation de l’ensemble des variables est un nuagede points dans Rn, appelé nuage des variables,M.

Si l’œil était capable de visualiser dans Rn et Rp , il n’y aurait pas deproblème...

L. Rouvière (Rennes 2) 50 / 287

Page 93: Statistique - GitHub Pages

ObjectifsDéterminer un sous-espace de dimension réduite qui soit"compréhensible" par l’œil sur lequel projeter le nuage.

Un exemple “jouet”

Ménage Revenu nb pièces nb enfants

A 10 000 1 1B 10 000 2 1C 10 000 2 3D 10 000 1 3E 70 000 2 2

L. Rouvière (Rennes 2) 51 / 287

Page 94: Statistique - GitHub Pages

ObjectifsDéterminer un sous-espace de dimension réduite qui soit"compréhensible" par l’œil sur lequel projeter le nuage.

Un exemple “jouet”

Ménage Revenu nb pièces nb enfants

A 10 000 1 1B 10 000 2 1C 10 000 2 3D 10 000 1 3E 70 000 2 2

L. Rouvière (Rennes 2) 51 / 287

Page 95: Statistique - GitHub Pages

Diverses représentations

piecesenfants

revenu

A

B

D

C

E

1.0 1.5 2.0 2.5 3.0

10

00

03

00

00

50

00

07

00

00

enfants

re

ve

nu

1.0 1.5 2.0 2.5 3.0

1.0

1.2

1.4

1.6

1.8

2.0

enfants

pie

ce

s

AB

CD

E

A D

CEB

L. Rouvière (Rennes 2) 52 / 287

Page 96: Statistique - GitHub Pages

Fonction PCA

On obtient sur R avec la fonction PCA : res <- PCA(D)

−1 0 1 2

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Individuals factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

A B

CD

E

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

revenupieces

enfants

Le plan de projection est ici défini par P = vect(u1, u2) avec u1 = X1 + X2

et u2 = X3.

L. Rouvière (Rennes 2) 53 / 287

Page 97: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 54 / 287

Page 98: Statistique - GitHub Pages

Notations

On se place dans l’espace Rp muni de la distance euclidienne :

< ei , ej >=∑p

k=1 xi,k xj,k

‖ei‖2 =

∑pk=1 e2

i,k

d(ei , ej)2 =

∑pk=1(xi,k − xj,k )2 = ‖ei − ej‖

2

Centrage des données :

Soit G = 1n∑n

i=1 ei = (X1, . . . , Xp)′ le centre de gravité du nuage desindividus.

Pour simplifier l’écriture de la méthode, on centre le nuage :

eci =

xi,1 − X1

...

xi,p − Xp

et Nc = ec1 , . . . , e

cn .

L. Rouvière (Rennes 2) 55 / 287

Page 99: Statistique - GitHub Pages

Notations

On se place dans l’espace Rp muni de la distance euclidienne :

< ei , ej >=∑p

k=1 xi,k xj,k

‖ei‖2 =

∑pk=1 e2

i,k

d(ei , ej)2 =

∑pk=1(xi,k − xj,k )2 = ‖ei − ej‖

2

Centrage des données :

Soit G = 1n∑n

i=1 ei = (X1, . . . , Xp)′ le centre de gravité du nuage desindividus.

Pour simplifier l’écriture de la méthode, on centre le nuage :

eci =

xi,1 − X1

...

xi,p − Xp

et Nc = ec1 , . . . , e

cn .

L. Rouvière (Rennes 2) 55 / 287

Page 100: Statistique - GitHub Pages

IdéeChercher à projeter les observations dans un sous-espace F visible àl’œil qui "restitue au mieux" l’information contenue dans le tableau.

L’inertieOn appelle inertie totale du nuage de points N

I(N) =1n

n∑i=1

d(ei ,G)2 =1n

n∑i=1

‖ei − G‖2 =1n

n∑i=1

‖eci ‖

2 = I(Nc).

On appelle inertie portée par un sous espace F du nuage de pointsN

IF (N) =1n

n∑i=1

‖PF (eci )‖2,

où PF (.) est la projection orthogonale sur F .

L. Rouvière (Rennes 2) 56 / 287

Page 101: Statistique - GitHub Pages

IdéeChercher à projeter les observations dans un sous-espace F visible àl’œil qui "restitue au mieux" l’information contenue dans le tableau.

L’inertieOn appelle inertie totale du nuage de points N

I(N) =1n

n∑i=1

d(ei ,G)2 =1n

n∑i=1

‖ei − G‖2 =1n

n∑i=1

‖eci ‖

2 = I(Nc).

On appelle inertie portée par un sous espace F du nuage de pointsN

IF (N) =1n

n∑i=1

‖PF (eci )‖2,

où PF (.) est la projection orthogonale sur F .

L. Rouvière (Rennes 2) 56 / 287

Page 102: Statistique - GitHub Pages

IdéeChercher à projeter les observations dans un sous-espace F visible àl’œil qui "restitue au mieux" l’information contenue dans le tableau.

L’inertieOn appelle inertie totale du nuage de points N

I(N) =1n

n∑i=1

d(ei ,G)2 =1n

n∑i=1

‖ei − G‖2 =1n

n∑i=1

‖eci ‖

2 = I(Nc).

On appelle inertie portée par un sous espace F du nuage de pointsN

IF (N) =1n

n∑i=1

‖PF (eci )‖2,

où PF (.) est la projection orthogonale sur F .

L. Rouvière (Rennes 2) 56 / 287

Page 103: Statistique - GitHub Pages

Une remarque importante

L’ACP permet de prendre en compte une pondération différente desindividus : pi poids de l’individu i tel que

∑ni=1 pi = 1.

L’inertie est alors définie par I(N) =∑n

i=1 pid(ei ,G)2.

Dans ce cours, on supposera que tous les individus ont le mêmepoids : pi = 1/n, i = 1, . . . , n.

L. Rouvière (Rennes 2) 57 / 287

Page 104: Statistique - GitHub Pages

Il est facile de voir que IF (N) ≤ I(N) : projeter fait perdre de l’inertie.

ObjectifTrouver le sous espace F qui minimise cette perte d’inertie, ou encoretrouver le sous espace F tel que

IF (N) soit maximale.

Un "léger" problème1 Les variables ne sont généralement pas à la même échelle.2 L’inertie est donc généralement "portée" par un sous groupe de

variables.3 Sur l’exemple, la variable revenu porte à elle seule la quasi totalité de

l’inertie...

L. Rouvière (Rennes 2) 58 / 287

Page 105: Statistique - GitHub Pages

Il est facile de voir que IF (N) ≤ I(N) : projeter fait perdre de l’inertie.

ObjectifTrouver le sous espace F qui minimise cette perte d’inertie, ou encoretrouver le sous espace F tel que

IF (N) soit maximale.

Un "léger" problème1 Les variables ne sont généralement pas à la même échelle.2 L’inertie est donc généralement "portée" par un sous groupe de

variables.3 Sur l’exemple, la variable revenu porte à elle seule la quasi totalité de

l’inertie...

L. Rouvière (Rennes 2) 58 / 287

Page 106: Statistique - GitHub Pages

Il est facile de voir que IF (N) ≤ I(N) : projeter fait perdre de l’inertie.

ObjectifTrouver le sous espace F qui minimise cette perte d’inertie, ou encoretrouver le sous espace F tel que

IF (N) soit maximale.

Un "léger" problème1 Les variables ne sont généralement pas à la même échelle.2 L’inertie est donc généralement "portée" par un sous groupe de

variables.3 Sur l’exemple, la variable revenu porte à elle seule la quasi totalité de

l’inertie...

L. Rouvière (Rennes 2) 58 / 287

Page 107: Statistique - GitHub Pages

−10000 0 10000 20000 30000 40000 50000 60000

−30

000

−20

000

−10

000

010

000

2000

030

000

Individuals factor map (PCA)

Dim 1 (100%)

Dim

2 (

0%)

ABCD E

0 5000 10000 15000 20000 25000

−10

000

−50

000

5000

1000

0

Variables factor map (PCA)

Dim 1 (100%)

Dim

2 (

0%)

revenupiecesenfants

Pour pallier à cette difficulté, on réduit les données initiales :

X =

X1 . . . Xp

e1 x11 . . . x1p...

......

...

en xn1 . . . xnp

avec xij =xij − Xj

σjet σj = σ(Xj).

Avec un léger abus, on note xij = xij .L. Rouvière (Rennes 2) 59 / 287

Page 108: Statistique - GitHub Pages

−10000 0 10000 20000 30000 40000 50000 60000

−30

000

−20

000

−10

000

010

000

2000

030

000

Individuals factor map (PCA)

Dim 1 (100%)

Dim

2 (

0%)

ABCD E

0 5000 10000 15000 20000 25000

−10

000

−50

000

5000

1000

0

Variables factor map (PCA)

Dim 1 (100%)

Dim

2 (

0%)

revenupiecesenfants

Pour pallier à cette difficulté, on réduit les données initiales :

X =

X1 . . . Xp

e1 x11 . . . x1p...

......

...

en xn1 . . . xnp

avec xij =xij − Xj

σjet σj = σ(Xj).

Avec un léger abus, on note xij = xij .L. Rouvière (Rennes 2) 59 / 287

Page 109: Statistique - GitHub Pages

Centrage et réduction

On rappelle querevenu pieces enfants

A 10000 1 1B 10000 2 1C 10000 2 3D 10000 1 3E 70000 2 2µ 22000.0 1.6 2.0σ 24 000 0.4898979 0.8944272

On obtient après centrage et réductionrevenu pieces enfants

A -0.5 -1.2247449 -1.118034B -0.5 0.8164966 -1.118034C -0.5 0.8164966 1.118034D -0.5 -1.2247449 1.118034E 2.0 0.8164966 0.000000µ 0 0 0σ 1 1 1

L. Rouvière (Rennes 2) 60 / 287

Page 110: Statistique - GitHub Pages

Centrage et réduction

On rappelle querevenu pieces enfants

A 10000 1 1B 10000 2 1C 10000 2 3D 10000 1 3E 70000 2 2µ 22000.0 1.6 2.0σ 24 000 0.4898979 0.8944272

On obtient après centrage et réductionrevenu pieces enfants

A -0.5 -1.2247449 -1.118034B -0.5 0.8164966 -1.118034C -0.5 0.8164966 1.118034D -0.5 -1.2247449 1.118034E 2.0 0.8164966 0.000000µ 0 0 0σ 1 1 1

L. Rouvière (Rennes 2) 60 / 287

Page 111: Statistique - GitHub Pages

"Meilleur" sous-espace de dimension 1

Il s’agit de chercher une droite vectorielle ∆1 dirigée par un vecteurunitaire u1 ∈ R

p telle que I∆1(N) soit maximale.

Propriété

I∆1(N) = 1n∑n

i=1 < ei , u1 >2= 1

n C ′1C1 où

C1 = (< e1, u1 >, . . . , < en, u1 >)′ = Xu1.

Le problème mathématiqueChercher u1 unitaire qui maximise I∆1(N) revient à résoudre le problèmed’optimisation suivant :

maximiser1n

u′1X ′Xu1 sous la contrainte ‖u1‖ = 1.

L. Rouvière (Rennes 2) 61 / 287

Page 112: Statistique - GitHub Pages

"Meilleur" sous-espace de dimension 1

Il s’agit de chercher une droite vectorielle ∆1 dirigée par un vecteurunitaire u1 ∈ R

p telle que I∆1(N) soit maximale.

Propriété

I∆1(N) = 1n∑n

i=1 < ei , u1 >2= 1

n C ′1C1 où

C1 = (< e1, u1 >, . . . , < en, u1 >)′ = Xu1.

Le problème mathématiqueChercher u1 unitaire qui maximise I∆1(N) revient à résoudre le problèmed’optimisation suivant :

maximiser1n

u′1X ′Xu1 sous la contrainte ‖u1‖ = 1.

L. Rouvière (Rennes 2) 61 / 287

Page 113: Statistique - GitHub Pages

"Meilleur" sous-espace de dimension 1

Il s’agit de chercher une droite vectorielle ∆1 dirigée par un vecteurunitaire u1 ∈ R

p telle que I∆1(N) soit maximale.

Propriété

I∆1(N) = 1n∑n

i=1 < ei , u1 >2= 1

n C ′1C1 où

C1 = (< e1, u1 >, . . . , < en, u1 >)′ = Xu1.

Le problème mathématiqueChercher u1 unitaire qui maximise I∆1(N) revient à résoudre le problèmed’optimisation suivant :

maximiser1n

u′1X ′Xu1 sous la contrainte ‖u1‖ = 1.

L. Rouvière (Rennes 2) 61 / 287

Page 114: Statistique - GitHub Pages

PropriétéUn vecteur propre unitaire u1 rendant l’inertie I∆1(N) maximale est unvecteur propre normé associé à la plus grande valeur propre λ1 de lamatrice Σ = 1

n X ′X .

Remarques

La matrice d’inertie Σ = 1n X ′X étant symétrique et définie positive,

elle est diagonalisable et toutes ses valeurs propres sont positives ounulles.

u1 est appelé premier axe factoriel.

L. Rouvière (Rennes 2) 62 / 287

Page 115: Statistique - GitHub Pages

PropriétéUn vecteur propre unitaire u1 rendant l’inertie I∆1(N) maximale est unvecteur propre normé associé à la plus grande valeur propre λ1 de lamatrice Σ = 1

n X ′X .

Remarques

La matrice d’inertie Σ = 1n X ′X étant symétrique et définie positive,

elle est diagonalisable et toutes ses valeurs propres sont positives ounulles.

u1 est appelé premier axe factoriel.

L. Rouvière (Rennes 2) 62 / 287

Page 116: Statistique - GitHub Pages

Exemple

Sur l’exemple "jouet", on a

1n

X ′X =

1.0000000 0.4082483 0.000000e + 000.4082483 1.0000000 3.144186e − 180.0000000 0.0000000 1.000000e + 00

D’où

$values[1] 1.4082483 1.0000000 0.5917517

$vectors[,1] [,2] [,3]

[1,] 0.7071068 0 0.7071068[2,] 0.7071068 0 -0.7071068[3,] 0.0000000 1 0.0000000

On obtient les coordonnées des indi-vidus sur le premier axe> X%*%u1 #coordonnées des individus sur les axes

[,1]A -1.2195788B 0.2237969C 0.2237969D -1.2195788E 1.9915638

L. Rouvière (Rennes 2) 63 / 287

Page 117: Statistique - GitHub Pages

Exemple

Sur l’exemple "jouet", on a

1n

X ′X =

1.0000000 0.4082483 0.000000e + 000.4082483 1.0000000 3.144186e − 180.0000000 0.0000000 1.000000e + 00

D’où

$values[1] 1.4082483 1.0000000 0.5917517

$vectors[,1] [,2] [,3]

[1,] 0.7071068 0 0.7071068[2,] 0.7071068 0 -0.7071068[3,] 0.0000000 1 0.0000000

On obtient les coordonnées des indi-vidus sur le premier axe> X%*%u1 #coordonnées des individus sur les axes

[,1]A -1.2195788B 0.2237969C 0.2237969D -1.2195788E 1.9915638

L. Rouvière (Rennes 2) 63 / 287

Page 118: Statistique - GitHub Pages

Second axe : première approche

ProblèmeTrouver une droite vectorielle ∆2 dirigée par un vecteur normé u2 telle que

I∆2(N) = u′2Σu2 maximale‖u2‖

2 = u′2u2 = 1< u2, u1 >= u′2u1 = 0

SolutionUn vecteur unitaire u2 solution du problème précédent est un vecteurpropre normé associé à la deuxième plus grande valeur propre λ2 de lamatrice Σ = 1

n X ′X .

L. Rouvière (Rennes 2) 64 / 287

Page 119: Statistique - GitHub Pages

QuestionLe plan vect(u1, u2) est il le meilleur sous espace de dimension 2 en termede maximisation d’inertie projetée?

RéponseLa réponse est oui ! On déduit ainsi qu’un sous-espace de dimensionq < p qui maximise l’inertie projetée est donné par vect(u1, . . . , uq) où uj

est un vecteur normé associé à la jème plus grande valeur propre λj deΣ = 1

n X ′X .

Conclusion : chercher les axes factoriels revient à diagonaliserΣ = 1

n X ′X .

L. Rouvière (Rennes 2) 65 / 287

Page 120: Statistique - GitHub Pages

QuestionLe plan vect(u1, u2) est il le meilleur sous espace de dimension 2 en termede maximisation d’inertie projetée?

RéponseLa réponse est oui ! On déduit ainsi qu’un sous-espace de dimensionq < p qui maximise l’inertie projetée est donné par vect(u1, . . . , uq) où uj

est un vecteur normé associé à la jème plus grande valeur propre λj deΣ = 1

n X ′X .

Conclusion : chercher les axes factoriels revient à diagonaliserΣ = 1

n X ′X .

L. Rouvière (Rennes 2) 65 / 287

Page 121: Statistique - GitHub Pages

QuestionLe plan vect(u1, u2) est il le meilleur sous espace de dimension 2 en termede maximisation d’inertie projetée?

RéponseLa réponse est oui ! On déduit ainsi qu’un sous-espace de dimensionq < p qui maximise l’inertie projetée est donné par vect(u1, . . . , uq) où uj

est un vecteur normé associé à la jème plus grande valeur propre λj deΣ = 1

n X ′X .

Conclusion : chercher les axes factoriels revient à diagonaliserΣ = 1

n X ′X .

L. Rouvière (Rennes 2) 65 / 287

Page 122: Statistique - GitHub Pages

ACP ≈ changement de baseBase canonique Base u1, . . . , up

X =

X1 . . . Xp

x11 . . . x1p...

......

xn1 . . . xnp

X =

C1 . . . Cp

c11 . . . c1p...

......

cn1 . . . cnp

Propriété

1 Cj = Xuj =∑p

k=1 ukjXk

2 Cj centrée et V(Cj) = 1n ‖Cj‖

2 = λj = I∆j (N).3 ρ(Cj ,Ck ) = 0 pour k , j.

ConclusionL’ACP normée remplace les variables d’origines Xj par de nouvelles variables Cj appelées

composantes principales, de variance maximale, non corrélées deux à deux et qui s’expriment

comme combinaison linéaire des variables d’origine.

L. Rouvière (Rennes 2) 66 / 287

Page 123: Statistique - GitHub Pages

ACP ≈ changement de baseBase canonique Base u1, . . . , up

X =

X1 . . . Xp

x11 . . . x1p...

......

xn1 . . . xnp

X =

C1 . . . Cp

c11 . . . c1p...

......

cn1 . . . cnp

Propriété

1 Cj = Xuj =∑p

k=1 ukjXk

2 Cj centrée et V(Cj) = 1n ‖Cj‖

2 = λj = I∆j (N).3 ρ(Cj ,Ck ) = 0 pour k , j.

ConclusionL’ACP normée remplace les variables d’origines Xj par de nouvelles variables Cj appelées

composantes principales, de variance maximale, non corrélées deux à deux et qui s’expriment

comme combinaison linéaire des variables d’origine.

L. Rouvière (Rennes 2) 66 / 287

Page 124: Statistique - GitHub Pages

ACP ≈ changement de baseBase canonique Base u1, . . . , up

X =

X1 . . . Xp

x11 . . . x1p...

......

xn1 . . . xnp

X =

C1 . . . Cp

c11 . . . c1p...

......

cn1 . . . cnp

Propriété

1 Cj = Xuj =∑p

k=1 ukjXk

2 Cj centrée et V(Cj) = 1n ‖Cj‖

2 = λj = I∆j (N).3 ρ(Cj ,Ck ) = 0 pour k , j.

ConclusionL’ACP normée remplace les variables d’origines Xj par de nouvelles variables Cj appelées

composantes principales, de variance maximale, non corrélées deux à deux et qui s’expriment

comme combinaison linéaire des variables d’origine.

L. Rouvière (Rennes 2) 66 / 287

Page 125: Statistique - GitHub Pages

ACP ≈ changement de baseBase canonique Base u1, . . . , up

X =

X1 . . . Xp

x11 . . . x1p...

......

xn1 . . . xnp

X =

C1 . . . Cp

c11 . . . c1p...

......

cn1 . . . cnp

Propriété

1 Cj = Xuj =∑p

k=1 ukjXk

2 Cj centrée et V(Cj) = 1n ‖Cj‖

2 = λj = I∆j (N).3 ρ(Cj ,Ck ) = 0 pour k , j.

ConclusionL’ACP normée remplace les variables d’origines Xj par de nouvelles variables Cj appelées

composantes principales, de variance maximale, non corrélées deux à deux et qui s’expriment

comme combinaison linéaire des variables d’origine.

L. Rouvière (Rennes 2) 66 / 287

Page 126: Statistique - GitHub Pages

ACP ≈ changement de baseBase canonique Base u1, . . . , up

X =

X1 . . . Xp

x11 . . . x1p...

......

xn1 . . . xnp

X =

C1 . . . Cp

c11 . . . c1p...

......

cn1 . . . cnp

Propriété

1 Cj = Xuj =∑p

k=1 ukjXk

2 Cj centrée et V(Cj) = 1n ‖Cj‖

2 = λj = I∆j (N).3 ρ(Cj ,Ck ) = 0 pour k , j.

ConclusionL’ACP normée remplace les variables d’origines Xj par de nouvelles variables Cj appelées

composantes principales, de variance maximale, non corrélées deux à deux et qui s’expriment

comme combinaison linéaire des variables d’origine.

L. Rouvière (Rennes 2) 66 / 287

Page 127: Statistique - GitHub Pages

Premier bilan

Calculer les axes factoriels n’est pas difficile. Il reste néanmoins plusieursproblèmes à régler pour mener l’analyse :

1 Comment choisir le sous-espace? (Ou encore, combien d’axesfactoriels doit-on retenir ?)

2 Comment mesurer la qualité de représentation d’un individu sur lesous-espace choisi ?

3 Comment interpréter les axes?

L. Rouvière (Rennes 2) 67 / 287

Page 128: Statistique - GitHub Pages

Premier bilan

Calculer les axes factoriels n’est pas difficile. Il reste néanmoins plusieursproblèmes à régler pour mener l’analyse :

1 Comment choisir le sous-espace? (Ou encore, combien d’axesfactoriels doit-on retenir ?)

2 Comment mesurer la qualité de représentation d’un individu sur lesous-espace choisi ?

3 Comment interpréter les axes?

L. Rouvière (Rennes 2) 67 / 287

Page 129: Statistique - GitHub Pages

Premier bilan

Calculer les axes factoriels n’est pas difficile. Il reste néanmoins plusieursproblèmes à régler pour mener l’analyse :

1 Comment choisir le sous-espace? (Ou encore, combien d’axesfactoriels doit-on retenir ?)

2 Comment mesurer la qualité de représentation d’un individu sur lesous-espace choisi ?

3 Comment interpréter les axes?

L. Rouvière (Rennes 2) 67 / 287

Page 130: Statistique - GitHub Pages

Propriétés1 I(N) = tr(Σ) =

∑pj=1 λj .

2 I∆j (N) = λj .3 L’inertie est additive : si on note Fk le sous espace de Rp engendré

par les k premiers vecteurs propres associés aux k plus grandesvaleurs propres de Σ, alors

IFk (N) =k∑

j=1

λj .

DéfinitionsLa contribution à l’inertie de l’axe ∆k est λk .

La contribution relative à l’inertie de l’axe ∆k est λk/∑p

j=1 λj .

La contribution relative à l’inertie du plan (∆j ,∆k ) est(λj + λk )/

∑pj=1 λj .

L. Rouvière (Rennes 2) 68 / 287

Page 131: Statistique - GitHub Pages

Propriétés1 I(N) = tr(Σ) =

∑pj=1 λj .

2 I∆j (N) = λj .3 L’inertie est additive : si on note Fk le sous espace de Rp engendré

par les k premiers vecteurs propres associés aux k plus grandesvaleurs propres de Σ, alors

IFk (N) =k∑

j=1

λj .

DéfinitionsLa contribution à l’inertie de l’axe ∆k est λk .

La contribution relative à l’inertie de l’axe ∆k est λk/∑p

j=1 λj .

La contribution relative à l’inertie du plan (∆j ,∆k ) est(λj + λk )/

∑pj=1 λj .

L. Rouvière (Rennes 2) 68 / 287

Page 132: Statistique - GitHub Pages

Propriétés1 I(N) = tr(Σ) =

∑pj=1 λj .

2 I∆j (N) = λj .3 L’inertie est additive : si on note Fk le sous espace de Rp engendré

par les k premiers vecteurs propres associés aux k plus grandesvaleurs propres de Σ, alors

IFk (N) =k∑

j=1

λj .

DéfinitionsLa contribution à l’inertie de l’axe ∆k est λk .

La contribution relative à l’inertie de l’axe ∆k est λk/∑p

j=1 λj .

La contribution relative à l’inertie du plan (∆j ,∆k ) est(λj + λk )/

∑pj=1 λj .

L. Rouvière (Rennes 2) 68 / 287

Page 133: Statistique - GitHub Pages

Propriétés1 I(N) = tr(Σ) =

∑pj=1 λj .

2 I∆j (N) = λj .3 L’inertie est additive : si on note Fk le sous espace de Rp engendré

par les k premiers vecteurs propres associés aux k plus grandesvaleurs propres de Σ, alors

IFk (N) =k∑

j=1

λj .

DéfinitionsLa contribution à l’inertie de l’axe ∆k est λk .

La contribution relative à l’inertie de l’axe ∆k est λk/∑p

j=1 λj .

La contribution relative à l’inertie du plan (∆j ,∆k ) est(λj + λk )/

∑pj=1 λj .

L. Rouvière (Rennes 2) 68 / 287

Page 134: Statistique - GitHub Pages

Choix du nombre d’axes

HélasIl n’existe pas de méthodes "universelles" permettant de choisir le nombred’axes.

Les critères sont le plus souvent empiriques :

Pourcentage d’inertie reconstitué par le sous-espace sélectionné.

Etudier la décroissance des valeurs propres (critère dit "du coude").

L. Rouvière (Rennes 2) 69 / 287

Page 135: Statistique - GitHub Pages

Choix du nombre d’axes

HélasIl n’existe pas de méthodes "universelles" permettant de choisir le nombred’axes.

Les critères sont le plus souvent empiriques :

Pourcentage d’inertie reconstitué par le sous-espace sélectionné.

Etudier la décroissance des valeurs propres (critère dit "du coude").

L. Rouvière (Rennes 2) 69 / 287

Page 136: Statistique - GitHub Pages

Exemple du décathlon

Dim 1 Dim 3 Dim 5 Dim 7 Dim 9

05

1015

2025

30 eigenvalue percentage cumulative percentageof variance of variance

comp 1 3.27 32.72 32.72comp 2 1.74 17.37 50.09comp 3 1.40 14.05 64.14comp 4 1.06 10.57 74.71comp 5 0.68 6.85 81.56comp 6 0.60 5.99 87.55comp 7 0.45 4.51 92.06comp 8 0.40 3.97 96.03comp 9 0.21 2.15 98.18comp 10 0.18 1.82 100.00

Il semble que retenir 4 axes puisse être un choix intéressant.

L. Rouvière (Rennes 2) 70 / 287

Page 137: Statistique - GitHub Pages

Exemple du décathlon

Dim 1 Dim 3 Dim 5 Dim 7 Dim 9

05

1015

2025

30 eigenvalue percentage cumulative percentageof variance of variance

comp 1 3.27 32.72 32.72comp 2 1.74 17.37 50.09comp 3 1.40 14.05 64.14comp 4 1.06 10.57 74.71comp 5 0.68 6.85 81.56comp 6 0.60 5.99 87.55comp 7 0.45 4.51 92.06comp 8 0.40 3.97 96.03comp 9 0.21 2.15 98.18comp 10 0.18 1.82 100.00

Il semble que retenir 4 axes puisse être un choix intéressant.

L. Rouvière (Rennes 2) 70 / 287

Page 138: Statistique - GitHub Pages

Questions1 Quels individus ont le plus contribué à la formation des axes

factoriels?2 Quels individus sont bien représentés par les axes factoriels?

Solutions1 Comme I∆j (N) = 1

n C ′j Cj = 1n∑n

i=1 c2ij = λj , on mesure la contribution

de l’individu i à l’axe j par

CRj(i) =c2

ij

nλj.

2 Un individu ei sera bien représenté par un axe ∆j si il est "proche" deson projeté sur ∆j , ou encore si le cosinus de l’angle θij = (ei , uj) estproche de 1 ou −1.

L. Rouvière (Rennes 2) 71 / 287

Page 139: Statistique - GitHub Pages

Questions1 Quels individus ont le plus contribué à la formation des axes

factoriels?2 Quels individus sont bien représentés par les axes factoriels?

Solutions1 Comme I∆j (N) = 1

n C ′j Cj = 1n∑n

i=1 c2ij = λj , on mesure la contribution

de l’individu i à l’axe j par

CRj(i) =c2

ij

nλj.

2 Un individu ei sera bien représenté par un axe ∆j si il est "proche" deson projeté sur ∆j , ou encore si le cosinus de l’angle θij = (ei , uj) estproche de 1 ou −1.

L. Rouvière (Rennes 2) 71 / 287

Page 140: Statistique - GitHub Pages

Questions1 Quels individus ont le plus contribué à la formation des axes

factoriels?2 Quels individus sont bien représentés par les axes factoriels?

Solutions1 Comme I∆j (N) = 1

n C ′j Cj = 1n∑n

i=1 c2ij = λj , on mesure la contribution

de l’individu i à l’axe j par

CRj(i) =c2

ij

nλj.

2 Un individu ei sera bien représenté par un axe ∆j si il est "proche" deson projeté sur ∆j , ou encore si le cosinus de l’angle θij = (ei , uj) estproche de 1 ou −1.

L. Rouvière (Rennes 2) 71 / 287

Page 141: Statistique - GitHub Pages

Solutions (suite)La qualité de représentation de l’individu ei sur l’axe uj est ainsi mesuréepar

qltj(i) = cos2 θij =‖P∆j (ei)‖

2

‖ei‖2

.

De même la qualité de représentation de ei sur le plan F = (∆j ,∆k ) estmesurée par

qltF (i) =‖PF (ei)‖

2

‖ei‖2

.

PropriétésLe cosinus carré étant additif sur des sous-espaces orthogonaux, ondéduit

qltF (i) =‖P∆j (ei)‖

2 + ‖P∆k (ei)‖2

‖ei‖2

.

L. Rouvière (Rennes 2) 72 / 287

Page 142: Statistique - GitHub Pages

Solutions (suite)La qualité de représentation de l’individu ei sur l’axe uj est ainsi mesuréepar

qltj(i) = cos2 θij =‖P∆j (ei)‖

2

‖ei‖2

.

De même la qualité de représentation de ei sur le plan F = (∆j ,∆k ) estmesurée par

qltF (i) =‖PF (ei)‖

2

‖ei‖2

.

PropriétésLe cosinus carré étant additif sur des sous-espaces orthogonaux, ondéduit

qltF (i) =‖P∆j (ei)‖

2 + ‖P∆k (ei)‖2

‖ei‖2

.

L. Rouvière (Rennes 2) 72 / 287

Page 143: Statistique - GitHub Pages

Solutions (suite)La qualité de représentation de l’individu ei sur l’axe uj est ainsi mesuréepar

qltj(i) = cos2 θij =‖P∆j (ei)‖

2

‖ei‖2

.

De même la qualité de représentation de ei sur le plan F = (∆j ,∆k ) estmesurée par

qltF (i) =‖PF (ei)‖

2

‖ei‖2

.

PropriétésLe cosinus carré étant additif sur des sous-espaces orthogonaux, ondéduit

qltF (i) =‖P∆j (ei)‖

2 + ‖P∆k (ei)‖2

‖ei‖2

.

L. Rouvière (Rennes 2) 72 / 287

Page 144: Statistique - GitHub Pages

Exemple

−1 0 1 2

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Individuals factor map (PCA)

Dim 1 (46.94%)

Dim

2 (3

3.33

%)

A B

CD

E

> res$ind$contribDim.1 Dim.2 Dim.3

A 21.1237244 2.500000e+01 8.876276B 0.7113098 2.500000e+01 29.288690C 0.7113098 2.500000e+01 29.288690D 21.1237244 2.500000e+01 8.876276E 56.3299316 3.081488e-31 23.670068

> res$ind$cos2Dim.1 Dim.2 Dim.3

A 0.49579081 4.166667e-01 0.08754252B 0.02311617 5.769231e-01 0.39996075C 0.02311617 5.769231e-01 0.39996075D 0.49579081 4.166667e-01 0.08754252E 0.84992711 3.301594e-33 0.15007289

L. Rouvière (Rennes 2) 73 / 287

Page 145: Statistique - GitHub Pages

Exemple

−4 −2 0 2 4

−4−2

02

4

Individuals factor map (PCA)

Dim 1 (32.72%)

Dim

2 (1

7.37

%)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

SchoenbeckBarras

Smith

Averyanov

OjaniemiSmirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLENMARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNONDecastarOlympicG

> res.pca$ind$contrib[1:5,1:2]Dim.1 Dim.2

Sebrle 12.157506 2.619234357Clay 11.451090 0.983545343Karpov 15.910981 0.002245949Macey 3.718536 1.523786399Warners 3.505038 4.565322740

> res.pca$ind$cos2[1:5,1:2]Dim.1 Dim.2

Sebrle 0.6954102 7.954314e-02Clay 0.7112052 3.243204e-02Karpov 0.8517553 6.383365e-05Macey 0.4230486 9.203950e-02Warners 0.5299437 3.664716e-01

Comment interpréter les positions des individus?

L. Rouvière (Rennes 2) 74 / 287

Page 146: Statistique - GitHub Pages

Exemple

−4 −2 0 2 4

−4−2

02

4

Individuals factor map (PCA)

Dim 1 (32.72%)

Dim

2 (1

7.37

%)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

SchoenbeckBarras

Smith

Averyanov

OjaniemiSmirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLENMARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNONDecastarOlympicG

> res.pca$ind$contrib[1:5,1:2]Dim.1 Dim.2

Sebrle 12.157506 2.619234357Clay 11.451090 0.983545343Karpov 15.910981 0.002245949Macey 3.718536 1.523786399Warners 3.505038 4.565322740

> res.pca$ind$cos2[1:5,1:2]Dim.1 Dim.2

Sebrle 0.6954102 7.954314e-02Clay 0.7112052 3.243204e-02Karpov 0.8517553 6.383365e-05Macey 0.4230486 9.203950e-02Warners 0.5299437 3.664716e-01

Comment interpréter les positions des individus?

L. Rouvière (Rennes 2) 74 / 287

Page 147: Statistique - GitHub Pages

1 Introduction

2 La statistique exploratoireEtude d’une variableEtude de deux variablesEtude de plus de deux variables

3 L’analyse en composantes principalesQuelques rappels d’algèbre linéaireIntroduction à l’ACP - Réduction de la dimensionAnalyse du nuage des individus

Recherche des axes factorielsContributions et qualités de représentation

Analyse du nuage des variables

L. Rouvière (Rennes 2) 75 / 287

Page 148: Statistique - GitHub Pages

L’analyse duale

On s’intéresse maintenant au nuage des variables X1, . . . ,Xp,Xj ∈ R

n.

Pour prendre en compte les poids des individus, on munit Rn de lamétrique P = diag(p1, . . . , pn) (on mène l’analyse avec pi = 1/n)

Conséquence1 ‖Xj‖P = 1 et cos(Xj ,Xk ) = ρ(Xj ,Xk ).2 Les variables Xj se trouvent sur la sphère unité de Rn.3 La projection des Xj sur des plans passant par l’origine se trouveront

à l’intérieur du cercle unité de R2 (que nous appellerons cercle descorrélations).

On souhaite transposer l’analyse du nuage des individus à celui desvariables (on parle d’analyse duale).

L. Rouvière (Rennes 2) 76 / 287

Page 149: Statistique - GitHub Pages

L’analyse duale

On s’intéresse maintenant au nuage des variables X1, . . . ,Xp,Xj ∈ R

n.

Pour prendre en compte les poids des individus, on munit Rn de lamétrique P = diag(p1, . . . , pn) (on mène l’analyse avec pi = 1/n)

Conséquence1 ‖Xj‖P = 1 et cos(Xj ,Xk ) = ρ(Xj ,Xk ).2 Les variables Xj se trouvent sur la sphère unité de Rn.3 La projection des Xj sur des plans passant par l’origine se trouveront

à l’intérieur du cercle unité de R2 (que nous appellerons cercle descorrélations).

On souhaite transposer l’analyse du nuage des individus à celui desvariables (on parle d’analyse duale).

L. Rouvière (Rennes 2) 76 / 287

Page 150: Statistique - GitHub Pages

L’analyse duale

On s’intéresse maintenant au nuage des variables X1, . . . ,Xp,Xj ∈ R

n.

Pour prendre en compte les poids des individus, on munit Rn de lamétrique P = diag(p1, . . . , pn) (on mène l’analyse avec pi = 1/n)

Conséquence1 ‖Xj‖P = 1 et cos(Xj ,Xk ) = ρ(Xj ,Xk ).2 Les variables Xj se trouvent sur la sphère unité de Rn.3 La projection des Xj sur des plans passant par l’origine se trouveront

à l’intérieur du cercle unité de R2 (que nous appellerons cercle descorrélations).

On souhaite transposer l’analyse du nuage des individus à celui desvariables (on parle d’analyse duale).

L. Rouvière (Rennes 2) 76 / 287

Page 151: Statistique - GitHub Pages

L’analyse duale

On s’intéresse maintenant au nuage des variables X1, . . . ,Xp,Xj ∈ R

n.

Pour prendre en compte les poids des individus, on munit Rn de lamétrique P = diag(p1, . . . , pn) (on mène l’analyse avec pi = 1/n)

Conséquence1 ‖Xj‖P = 1 et cos(Xj ,Xk ) = ρ(Xj ,Xk ).2 Les variables Xj se trouvent sur la sphère unité de Rn.3 La projection des Xj sur des plans passant par l’origine se trouveront

à l’intérieur du cercle unité de R2 (que nous appellerons cercle descorrélations).

On souhaite transposer l’analyse du nuage des individus à celui desvariables (on parle d’analyse duale).

L. Rouvière (Rennes 2) 76 / 287

Page 152: Statistique - GitHub Pages

Bonheur...Les axes factoriels de Rn (ceux du nuage des variables) se déduisentde ceux de Rp (ceux du nuage des individus).

Les taux d’inerties sont identiques pour des axes du même rang dansles deux analyses.

Propriétés

1 I(N) = I(M) = trace(

1n X ′X

)= p, les deux dernières égalités

viennent du fait que la matrice des données est centrée-réduite.2 Chercher un vecteur v1 de Rn unitaire qui maximise Ivect v1(M) revient

à résoudre le problème

maximiser1n

v′1XX ′v1 sous la contrainte ‖v1‖P = 1

3 La solution est donnée par un vecteur propre normé de 1n XX ′ associé

à la plus grande valeur propre de 1n XX ′.

L. Rouvière (Rennes 2) 77 / 287

Page 153: Statistique - GitHub Pages

Bonheur...Les axes factoriels de Rn (ceux du nuage des variables) se déduisentde ceux de Rp (ceux du nuage des individus).

Les taux d’inerties sont identiques pour des axes du même rang dansles deux analyses.

Propriétés

1 I(N) = I(M) = trace(

1n X ′X

)= p, les deux dernières égalités

viennent du fait que la matrice des données est centrée-réduite.2 Chercher un vecteur v1 de Rn unitaire qui maximise Ivect v1(M) revient

à résoudre le problème

maximiser1n

v′1XX ′v1 sous la contrainte ‖v1‖P = 1

3 La solution est donnée par un vecteur propre normé de 1n XX ′ associé

à la plus grande valeur propre de 1n XX ′.

L. Rouvière (Rennes 2) 77 / 287

Page 154: Statistique - GitHub Pages

Propriétés

vj = 1√λj

Xuj et uj = 1√λj

X ′Pvj ;

Coordonnées du projeté de Xj projeté ième axe :1 dij =< Xj , vi >P =⇒ Dj = X ′Pvj

2 Dj = 1√λj

X ′PCj et Cj = 1√λj

XDj .

L. Rouvière (Rennes 2) 78 / 287

Page 155: Statistique - GitHub Pages

Propriétés

vj = 1√λj

Xuj et uj = 1√λj

X ′Pvj ;

Coordonnées du projeté de Xj projeté ième axe :1 dij =< Xj , vi >P =⇒ Dj = X ′Pvj

2 Dj = 1√λj

X ′PCj et Cj = 1√λj

XDj .

L. Rouvière (Rennes 2) 78 / 287

Page 156: Statistique - GitHub Pages

PROPRIETE

dij = ρ(Xj ,Ci)

ConséquenceSi dij est grand (proche de 1 ce qui signifie que la projection de lavariable est proche du cercle des corrélations), cela signifie que :

la jème variable est fortement corrélée à la ième composante principale.les individus qui possèdent une coordonnée élevée sur l’axe i serontparmi ceux possédant une forte valeur de la variable j.

Cette propriété permet de faire le lien entre la représentation dunuage des variables et celle du nuage des individus sur un planfactoriel.

L. Rouvière (Rennes 2) 79 / 287

Page 157: Statistique - GitHub Pages

PROPRIETE

dij = ρ(Xj ,Ci)

ConséquenceSi dij est grand (proche de 1 ce qui signifie que la projection de lavariable est proche du cercle des corrélations), cela signifie que :

la jème variable est fortement corrélée à la ième composante principale.les individus qui possèdent une coordonnée élevée sur l’axe i serontparmi ceux possédant une forte valeur de la variable j.

Cette propriété permet de faire le lien entre la représentation dunuage des variables et celle du nuage des individus sur un planfactoriel.

L. Rouvière (Rennes 2) 79 / 287

Page 158: Statistique - GitHub Pages

−1 0 1 2

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Individuals factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

A B

CD

E

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

revenupieces

enfants

InterprétationsL’axe 1 oppose les individus possédant des revenus élevés et vivantdans de grands appartements à des individus plus pauvres et vivantdans des appartements plus petits.

L’axe 2 les grandes familles aux petites.

L. Rouvière (Rennes 2) 80 / 287

Page 159: Statistique - GitHub Pages

−1 0 1 2

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Individuals factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

A B

CD

E

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (46.94%)

Dim

2 (

33.3

3%)

revenupieces

enfants

InterprétationsL’axe 1 oppose les individus possédant des revenus élevés et vivantdans de grands appartements à des individus plus pauvres et vivantdans des appartements plus petits.

L’axe 2 les grandes familles aux petites.

L. Rouvière (Rennes 2) 80 / 287

Page 160: Statistique - GitHub Pages

Contributions et représentation des variables

Contribution de la variable j à l’axe i : d2ij /λi car

Ivi (M) =

p∑j=1

(< Xj , vi >P)2 =

p∑j=1

d2ij = λi .

Qualité de représentation de la variable Xj sur l’axe i :

cos2(Xj , vi) =< Xj , vi >2p= d2

ij .

Corrélations entre variables : ρ(Xj ,Xk ) = cos(Xj ,Xk ). Donc, sur lecercle des corrélations, deux variable bien représentées

proches sont fortement corrélées ;qui s’opposent sont négativement corrélées ;orthogonales sont non corrélées.

L. Rouvière (Rennes 2) 81 / 287

Page 161: Statistique - GitHub Pages

Contributions et représentation des variables

Contribution de la variable j à l’axe i : d2ij /λi car

Ivi (M) =

p∑j=1

(< Xj , vi >P)2 =

p∑j=1

d2ij = λi .

Qualité de représentation de la variable Xj sur l’axe i :

cos2(Xj , vi) =< Xj , vi >2p= d2

ij .

Corrélations entre variables : ρ(Xj ,Xk ) = cos(Xj ,Xk ). Donc, sur lecercle des corrélations, deux variable bien représentées

proches sont fortement corrélées ;qui s’opposent sont négativement corrélées ;orthogonales sont non corrélées.

L. Rouvière (Rennes 2) 81 / 287

Page 162: Statistique - GitHub Pages

Contributions et représentation des variables

Contribution de la variable j à l’axe i : d2ij /λi car

Ivi (M) =

p∑j=1

(< Xj , vi >P)2 =

p∑j=1

d2ij = λi .

Qualité de représentation de la variable Xj sur l’axe i :

cos2(Xj , vi) =< Xj , vi >2p= d2

ij .

Corrélations entre variables : ρ(Xj ,Xk ) = cos(Xj ,Xk ). Donc, sur lecercle des corrélations, deux variable bien représentées

proches sont fortement corrélées ;qui s’opposent sont négativement corrélées ;orthogonales sont non corrélées.

L. Rouvière (Rennes 2) 81 / 287

Page 163: Statistique - GitHub Pages

Variables et individus supplémentaires

Certaines analyses peuvent être menées en retirant des variables ou desindividus pour construire les axes de l’ACP :

individus aberrants pouvant "trop" contribuer à l’inertie ;

variables ayant été construites à partir d’autres variables déjàutilisées dans l’analyse. Les variables classement et points surl’exemple du décathlon.

Une fois l’ACP réalisée, il peut néanmoins être intéressant de visualisercomment ces individus ou variables se situent par rapport aux autres.

L. Rouvière (Rennes 2) 82 / 287

Page 164: Statistique - GitHub Pages

Variables et individus supplémentaires

La méthode est simple. Il suffit de

1 faire subir à ces nouveaux éléments les mêmes transformationsqu’aux autres (centrage et réduction) ;

2 projeter ces nouveaux éléments sur les axes factoriels du nuage desindividus ou des variables.

L. Rouvière (Rennes 2) 83 / 287

Page 165: Statistique - GitHub Pages

Retour à l’exemple du décathlon

On fait l’ACP du jeu de données en utilisant les 41 individus et les 10variables correspondant aux disciplines du decathlon. les variablesclassement, points et competition sont mises en supplémentaire.

On fait l’analyse des 4 premiers axes.

L. Rouvière (Rennes 2) 84 / 287

Page 166: Statistique - GitHub Pages

Premier plan factoriel

−4 −2 0 2 4

−4

−2

02

4

Individuals factor map (PCA)

Dim 1 (32.72%)

Dim

2 (

17.3

7%)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

SchoenbeckBarras

Smith

Averyanov

OjaniemiSmirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLENMARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNONDecastarOlympicG

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (32.72%)

Dim

2 (

17.3

7%)

X100m

Longueur

Poids

Hauteur

X400m

X110mH

Disque

Perche

Javelot

X1500m

ClassementPoints

L. Rouvière (Rennes 2) 85 / 287

Page 167: Statistique - GitHub Pages

Second plan factoriel

−2 −1 0 1 2 3

−2

−1

01

2

Individuals factor map (PCA)

Dim 3 (14.05%)

Dim

4 (

10.5

7%)

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

OjaniemiSmirnov

Qi

Drews

Parkhomenko

TerekGomezTuri

Lorenzo

Karlivans Korkizoglou

Uldal

Casarsa

SEBRLE

CLAY

KARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKYMcMULLEN

MARTINEAU

HERNU

BARRAS

NOOL

BOURGUIGNON

DecastarOlympicG

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 3 (14.05%)

Dim

4 (

10.5

7%)

X100m

Longueur

Poids

Hauteur

X400m

X110mH

Disque

Perche

Javelot

X1500mClassement

Points

L. Rouvière (Rennes 2) 86 / 287

Page 168: Statistique - GitHub Pages

Troisième partie III

Théorie de l’estimation

L. Rouvière (Rennes 2) 87 / 287

Page 169: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 88 / 287

Page 170: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 89 / 287

Page 171: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 90 / 287

Page 172: Statistique - GitHub Pages

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.

On traite n = 100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soit p0 la probabilité de guérison suite au traitement en question.

On est tentés de conclure p0 ≈ 72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable depréciser l’erreur susceptible d’être commise par cette estimation.

L. Rouvière (Rennes 2) 91 / 287

Page 173: Statistique - GitHub Pages

Exemple 1

On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.

On traite n = 100 patients atteints de la pathologie.

A l’issue de l’étude, 72 patients sont guéris.

Soit p0 la probabilité de guérison suite au traitement en question.

On est tentés de conclure p0 ≈ 72.

Un tel résultat n’a cependant guère d’intêret si on n’est pas capable depréciser l’erreur susceptible d’être commise par cette estimation.

L. Rouvière (Rennes 2) 91 / 287

Page 174: Statistique - GitHub Pages

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateurpendant 36 journées.

x = 5.22, S2n = 5.72.

05

1015

Diagramme en bâtons

Nb mails

frequen

ce

1 3 5 7 9 11

Histogramme

mails

Densi

ty

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée?

L. Rouvière (Rennes 2) 92 / 287

Page 175: Statistique - GitHub Pages

Exemple 2

On s’intéresse au nombre de mails reçus par jour par un utilisateurpendant 36 journées.

x = 5.22, S2n = 5.72.

05

1015

Diagramme en bâtons

Nb mails

frequen

ce

1 3 5 7 9 11

Histogramme

mails

Densi

ty

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Quelle est la probabilité de recevoir plus de 5 mails dans une journée?

L. Rouvière (Rennes 2) 92 / 287

Page 176: Statistique - GitHub Pages

Exemple 3

Temps mis pour venir de son domicile à Supelec.On dispose de n = 100 mesures : x = 25.1, S2

n = 14.46.

Histogramme

trajet

Dens

ity

20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

J’ai un devoir à 8h30, quelle est la probabilité que j’arrive en retard si jepars de chez moi à 7h55?

L. Rouvière (Rennes 2) 93 / 287

Page 177: Statistique - GitHub Pages

Exemple 3

Temps mis pour venir de son domicile à Supelec.On dispose de n = 100 mesures : x = 25.1, S2

n = 14.46.

Histogramme

trajet

Dens

ity

20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

J’ai un devoir à 8h30, quelle est la probabilité que j’arrive en retard si jepars de chez moi à 7h55?

L. Rouvière (Rennes 2) 93 / 287

Page 178: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 94 / 287

Page 179: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 94 / 287

Page 180: Statistique - GitHub Pages

ProblèmeNécessité de se dégager des observations x1, . . . , xn pour répondre àde telles questions.

Si on mesure la durée du trajet pendant 100 nouveaux jours, on peuten effet penser que les nouvelles observations ne seront pasexactement les mêmes que les anciennes.

IdéeConsidérer que les n valeurs observées x1, . . . , xn sont des réalisations devariables aléatoires X1, . . . ,Xn.

AttentionXi est une variable aléatoire et xi est une réalisation de cette variable,c’est-à-dire un nombre !

L. Rouvière (Rennes 2) 94 / 287

Page 181: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes.

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 95 / 287

Page 182: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes.

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 95 / 287

Page 183: Statistique - GitHub Pages

Un modèle pour l’exemple 1

On note xi = 1 si le ième patient a guéri, 0 sinon.

On peut supposer que xi est la réalisation d’une variable aléatoire Xi

de loi de bernoulli de paramètre p0.

Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sontau même stade de la pathologie), il est alors raisonnable de supposerque les variables aléatoires X1, . . . ,Xn sont indépendantes.

On dit que X1, . . . ,Xn est un n-échantillon de variables aléatoiresindépendantes de même loi B(p0).

L. Rouvière (Rennes 2) 95 / 287

Page 184: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 96 / 287

Page 185: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 97 / 287

Page 186: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 97 / 287

Page 187: Statistique - GitHub Pages

Variables aléatoires

DéfinitionUne variable aléatoire réelle est une application

X : (Ω,A)→ (R,B(R))

telle que∀B ∈ B(R),X−1(B) ∈ A.

Lors de la modélisation statistique, l’espace Ω n’est généralementjamais caractérisé.

Il contient tous les "phénoménes" pouvant expliquer les sourcesd’aléa (qui ne sont pas explicables...).

En pratique, l’espace d’arrivée est généralement suffisant.

L. Rouvière (Rennes 2) 97 / 287

Page 188: Statistique - GitHub Pages

Loi de probabilité

Loi de probabilitéEtant donnée P une probabilité sur (Ω,A) et X une variable aléatoireréelle définie sur Ω, on appelle loi de probabilité de X la mesure PX définiepar

PX (B) = P(X−1(A ′)) = P(X ∈ B) = P(ω ∈ Ω : X(ω) ∈ B) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition : FX (x) = P(X ≤ x).

sa densité : fx : R→ R+ telle que ∀B ∈ B(R)

PX (B) =

∫B

fX (x) dx.

L. Rouvière (Rennes 2) 98 / 287

Page 189: Statistique - GitHub Pages

Loi de probabilité

Loi de probabilitéEtant donnée P une probabilité sur (Ω,A) et X une variable aléatoireréelle définie sur Ω, on appelle loi de probabilité de X la mesure PX définiepar

PX (B) = P(X−1(A ′)) = P(X ∈ B) = P(ω ∈ Ω : X(ω) ∈ B) ∀B ∈ B(R).

Une loi de probabilité est caractérisée par

sa fonction de répartition : FX (x) = P(X ≤ x).

sa densité : fx : R→ R+ telle que ∀B ∈ B(R)

PX (B) =

∫B

fX (x) dx.

L. Rouvière (Rennes 2) 98 / 287

Page 190: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 99 / 287

Page 191: Statistique - GitHub Pages

Définitions

ModèleOn appelle modèle statistique tout triplet (H ,A,P) où

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

Le problème du statisticienn variables aléatoires i.i.d. X1, . . . ,Xn de loi P.

Trouver une famille de lois P susceptible de contenir P.

Trouver dans P une loi qui soit la plus proche de P

L. Rouvière (Rennes 2) 100 / 287

Page 192: Statistique - GitHub Pages

Définitions

ModèleOn appelle modèle statistique tout triplet (H ,A,P) où

H est l’espace des observations (l’ensemble de tous les résultatspossibles de l’expérience) ;

A est une tribu sur H ;

P est une famille de probabilités définie sur (H ,A).

Le problème du statisticienn variables aléatoires i.i.d. X1, . . . ,Xn de loi P.

Trouver une famille de lois P susceptible de contenir P.

Trouver dans P une loi qui soit la plus proche de P

L. Rouvière (Rennes 2) 100 / 287

Page 193: Statistique - GitHub Pages

Exemples

H A P

Exemple 1 0, 1 P(0, 1) B(p), p ∈ 0, 1

Exemple 2 N P(N) P(λ), λ > 0

Exemple 3 R B(R) N(µ, σ2), µ ∈ R, σ ∈ R+

L. Rouvière (Rennes 2) 101 / 287

Page 194: Statistique - GitHub Pages

Paramétrique versus non paramétrique

DéfinitionSi P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres. Si θ 7→ Pθ est injective, le modèleest dit identifiable.

Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.

Exemple : modèle de densité

P = N(µ, σ2), (µ, σ2) ∈ R × R+ est un modèle paramétrique.

P = densités f 2 fois dérivables est un modèle non paramétrique.

Le problème sera d’estimer (µ, σ2) ou f à partir de l’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 102 / 287

Page 195: Statistique - GitHub Pages

Paramétrique versus non paramétrique

DéfinitionSi P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres. Si θ 7→ Pθ est injective, le modèleest dit identifiable.

Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.

Exemple : modèle de densité

P = N(µ, σ2), (µ, σ2) ∈ R × R+ est un modèle paramétrique.

P = densités f 2 fois dérivables est un modèle non paramétrique.

Le problème sera d’estimer (µ, σ2) ou f à partir de l’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 102 / 287

Page 196: Statistique - GitHub Pages

Paramétrique versus non paramétrique

DéfinitionSi P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres. Si θ 7→ Pθ est injective, le modèleest dit identifiable.

Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.

Exemple : modèle de densité

P = N(µ, σ2), (µ, σ2) ∈ R × R+ est un modèle paramétrique.

P = densités f 2 fois dérivables est un modèle non paramétrique.

Le problème sera d’estimer (µ, σ2) ou f à partir de l’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 102 / 287

Page 197: Statistique - GitHub Pages

Paramétrique versus non paramétrique

DéfinitionSi P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres. Si θ 7→ Pθ est injective, le modèleest dit identifiable.

Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.

Exemple : modèle de densité

P = N(µ, σ2), (µ, σ2) ∈ R × R+ est un modèle paramétrique.

P = densités f 2 fois dérivables est un modèle non paramétrique.

Le problème sera d’estimer (µ, σ2) ou f à partir de l’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 102 / 287

Page 198: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 103 / 287

Page 199: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 103 / 287

Page 200: Statistique - GitHub Pages

Modèle de régression

On cherche à expliquer une variable Y par p variables explicativesX1, . . . ,Xp . On dispose d’un n échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

Modèle linéaire (paramétrique)On pose

Y = β0 + β1X1 + . . . + βpXp + ε où ε ∼ N(0, σ2).

Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).

Un modèle non paramétriqueOn pose

Y = m(X1, . . . ,Xp) + ε

où m : Rp → R est une fonction continue.

Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 103 / 287

Page 201: Statistique - GitHub Pages

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pourreconstruire la loi des données P.

P

P

P

On distingue deux types d’erreurs :Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.Erreur d’approximation : erreur commise par le choix de P.

L. Rouvière (Rennes 2) 104 / 287

Page 202: Statistique - GitHub Pages

2 types d’erreur

Poser un modèle revient à choisir une famille de loi candidates pourreconstruire la loi des données P.

P

P

P

On distingue deux types d’erreurs :Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.Erreur d’approximation : erreur commise par le choix de P.

L. Rouvière (Rennes 2) 104 / 287

Page 203: Statistique - GitHub Pages

Objectifs

Etant donné un modèle (H ,A,P) :

trouver des procédures (automatiques) permettant de sélectionnerune loi P dans P à partir d’un n-échantillon X1, . . . ,Xn.

Etudier les performances des lois choisies.

Dans la suite, on va considérer uniquement des modèlesparamétriques P = Pθ, θ ∈ Θ avec Θ de dimension finie(typiquement Rp).

Choisir une loi reviendra donc à choisir un paramètre θ à partir del’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 105 / 287

Page 204: Statistique - GitHub Pages

Objectifs

Etant donné un modèle (H ,A,P) :

trouver des procédures (automatiques) permettant de sélectionnerune loi P dans P à partir d’un n-échantillon X1, . . . ,Xn.

Etudier les performances des lois choisies.

Dans la suite, on va considérer uniquement des modèlesparamétriques P = Pθ, θ ∈ Θ avec Θ de dimension finie(typiquement Rp).

Choisir une loi reviendra donc à choisir un paramètre θ à partir del’échantillon X1, . . . ,Xn.

L. Rouvière (Rennes 2) 105 / 287

Page 205: Statistique - GitHub Pages

Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munisdes tribus P(Ω) ou B(Rd).

Dans la suite, on se donne un modèleM = (H ,P = Pθ, θ ∈ Θ).

EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ0 , pour θ0 ∈ Θ.

NotationsL’échantillon définit un vecteur aléatoire (X1, . . . ,Xn) ayant comme loiP⊗nθ0

.

On noteMn = (Hn, P⊗n, θ ∈ Θ) le modèle produit.

Le modèleMn correspond à un ensemble de lois sur Hn contenantP⊗nθ0

L. Rouvière (Rennes 2) 106 / 287

Page 206: Statistique - GitHub Pages

Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munisdes tribus P(Ω) ou B(Rd).

Dans la suite, on se donne un modèleM = (H ,P = Pθ, θ ∈ Θ).

EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ0 , pour θ0 ∈ Θ.

NotationsL’échantillon définit un vecteur aléatoire (X1, . . . ,Xn) ayant comme loiP⊗nθ0

.

On noteMn = (Hn, P⊗n, θ ∈ Θ) le modèle produit.

Le modèleMn correspond à un ensemble de lois sur Hn contenantP⊗nθ0

L. Rouvière (Rennes 2) 106 / 287

Page 207: Statistique - GitHub Pages

Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munisdes tribus P(Ω) ou B(Rd).

Dans la suite, on se donne un modèleM = (H ,P = Pθ, θ ∈ Θ).

EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ0 , pour θ0 ∈ Θ.

NotationsL’échantillon définit un vecteur aléatoire (X1, . . . ,Xn) ayant comme loiP⊗nθ0

.

On noteMn = (Hn, P⊗n, θ ∈ Θ) le modèle produit.

Le modèleMn correspond à un ensemble de lois sur Hn contenantP⊗nθ0

L. Rouvière (Rennes 2) 106 / 287

Page 208: Statistique - GitHub Pages

La démarche statistique

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .Ce qui nous amène à définir le modèleMn = (Hn, P⊗n

θ , θ ∈ Θ).

3 Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

L. Rouvière (Rennes 2) 107 / 287

Page 209: Statistique - GitHub Pages

La démarche statistique

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .Ce qui nous amène à définir le modèleMn = (Hn, P⊗n

θ , θ ∈ Θ).

3 Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

L. Rouvière (Rennes 2) 107 / 287

Page 210: Statistique - GitHub Pages

La démarche statistique

1 On récolte n observations (n valeurs) x1, . . . , xn qui sont le résultatsde n expériences aléatoires indépendantes.

2 Modélisation : on suppose que les n valeurs sont des réalisations den variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ0 .Ce qui nous amène à définir le modèleMn = (Hn, P⊗n

θ , θ ∈ Θ).

3 Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ0 =⇒ chercher un estimateur θ de θ0.

L. Rouvière (Rennes 2) 107 / 287

Page 211: Statistique - GitHub Pages

Estimateurs

DéfinitionsUne statistique est une application mesurable définie sur Hn.

Un estimateur (de θ0) est une fonction mesurable de (X1, . . . ,Xn)indépendante de θ à valeurs dans un sur-ensemble de Θ.

Exemple 1

Les variables aléatoires θ1 = X1 et θ2 = Xn = 1n∑n

i=1 Xi sont desestimateurs de p0.

Remarque

Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.Démarche :

1 Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2 A la fin, calculer l’estimation θ(x1, . . . , xn) (fait par le logiciel).

L. Rouvière (Rennes 2) 108 / 287

Page 212: Statistique - GitHub Pages

Estimateurs

DéfinitionsUne statistique est une application mesurable définie sur Hn.

Un estimateur (de θ0) est une fonction mesurable de (X1, . . . ,Xn)indépendante de θ à valeurs dans un sur-ensemble de Θ.

Exemple 1

Les variables aléatoires θ1 = X1 et θ2 = Xn = 1n∑n

i=1 Xi sont desestimateurs de p0.

Remarque

Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.Démarche :

1 Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2 A la fin, calculer l’estimation θ(x1, . . . , xn) (fait par le logiciel).

L. Rouvière (Rennes 2) 108 / 287

Page 213: Statistique - GitHub Pages

Estimateurs

DéfinitionsUne statistique est une application mesurable définie sur Hn.

Un estimateur (de θ0) est une fonction mesurable de (X1, . . . ,Xn)indépendante de θ à valeurs dans un sur-ensemble de Θ.

Exemple 1

Les variables aléatoires θ1 = X1 et θ2 = Xn = 1n∑n

i=1 Xi sont desestimateurs de p0.

Remarque

Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.Démarche :

1 Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2 A la fin, calculer l’estimation θ(x1, . . . , xn) (fait par le logiciel).

L. Rouvière (Rennes 2) 108 / 287

Page 214: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 109 / 287

Page 215: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 110 / 287

Page 216: Statistique - GitHub Pages

Un estimateur θ = θ(X1, . . . ,Xn) est une variable aléatoire. Il va doncposséder une loi.

0.00.1

0.20.3

0.4

θ

0.00.1

0.20.3

0.4θ

Un moyen de mesure la qualité de θ est de regarder sa "valeurmoyenne" et de la comparer à θ.

L. Rouvière (Rennes 2) 111 / 287

Page 217: Statistique - GitHub Pages

Biais d’un estimateur

On désigne par Eθ l’espérance sous la loi Pθ :

Eθ(θ) = Eθ(θ(X1, . . . ,Xn)) =

∫Hn

θ(x)Pθ dx

où x = (x1, . . . , xn).

Soit θ un estimateur d’ordre 1.1 Le biais de θ en θ est Eθ(θ) − θ.2 θ est sans biais lorsque son biais est nul en chaque θ ∈ Θ.3 θ est asymptotiquement sans biais si pour chaque θ ∈ Θ,

limn→∞ Eθ(θ) = θ.

Exemple 1

Les estimateurs θ1 et θ2 sont sans biais.

L. Rouvière (Rennes 2) 111 / 287

Page 218: Statistique - GitHub Pages

Biais d’un estimateur

On désigne par Eθ l’espérance sous la loi Pθ :

Eθ(θ) = Eθ(θ(X1, . . . ,Xn)) =

∫Hn

θ(x)Pθ dx

où x = (x1, . . . , xn).

Soit θ un estimateur d’ordre 1.1 Le biais de θ en θ est Eθ(θ) − θ.2 θ est sans biais lorsque son biais est nul en chaque θ ∈ Θ.3 θ est asymptotiquement sans biais si pour chaque θ ∈ Θ,

limn→∞ Eθ(θ) = θ.

Exemple 1

Les estimateurs θ1 et θ2 sont sans biais.

L. Rouvière (Rennes 2) 111 / 287

Page 219: Statistique - GitHub Pages

Biais d’un estimateur

On désigne par Eθ l’espérance sous la loi Pθ :

Eθ(θ) = Eθ(θ(X1, . . . ,Xn)) =

∫Hn

θ(x)Pθ dx

où x = (x1, . . . , xn).

Soit θ un estimateur d’ordre 1.1 Le biais de θ en θ est Eθ(θ) − θ.2 θ est sans biais lorsque son biais est nul en chaque θ ∈ Θ.3 θ est asymptotiquement sans biais si pour chaque θ ∈ Θ,

limn→∞ Eθ(θ) = θ.

Exemple 1

Les estimateurs θ1 et θ2 sont sans biais.

L. Rouvière (Rennes 2) 111 / 287

Page 220: Statistique - GitHub Pages

Mesurer le biais n’est pas suffisant.

Il faut également mesurer la dispersion des estimateurs.

0.00

0.05

0.10

0.15

θ

0.00.2

0.40.6

0.81.0

θ

L. Rouvière (Rennes 2) 112 / 287

Page 221: Statistique - GitHub Pages

Risque quadratique

Définitions

Soit θ un estimateur d’ordre 2.1 Le risque quadratique de θ sous Pθ est

R(θ, θ) = Eθ‖θ − θ‖2

2 Soit θ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ′ si

R(θ, θ) ≤ R(θ, θ′) ∀θ ∈ Θ.

Exemple 1

θ2 est préférable à θ1.

L. Rouvière (Rennes 2) 113 / 287

Page 222: Statistique - GitHub Pages

Risque quadratique

Définitions

Soit θ un estimateur d’ordre 2.1 Le risque quadratique de θ sous Pθ est

R(θ, θ) = Eθ‖θ − θ‖2

2 Soit θ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ′ si

R(θ, θ) ≤ R(θ, θ′) ∀θ ∈ Θ.

Exemple 1

θ2 est préférable à θ1.

L. Rouvière (Rennes 2) 113 / 287

Page 223: Statistique - GitHub Pages

Estimateur VUMSB

Propriété décomposition biais variance1 Si θ est d’ordre 2, on a la décomposition

R(θ, θ) = ‖Eθ(θ) − θ‖2 + Eθ‖θ − Eθθ‖2.

2 Si θ ∈ R, on obtient

R(θ, θ) = b(θ)2 + V(θ).

Définition

Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2.

Exemple

θ2 est VUMSB.

L. Rouvière (Rennes 2) 114 / 287

Page 224: Statistique - GitHub Pages

Estimateur VUMSB

Propriété décomposition biais variance1 Si θ est d’ordre 2, on a la décomposition

R(θ, θ) = ‖Eθ(θ) − θ‖2 + Eθ‖θ − Eθθ‖2.

2 Si θ ∈ R, on obtient

R(θ, θ) = b(θ)2 + V(θ).

Définition

Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2.

Exemple

θ2 est VUMSB.

L. Rouvière (Rennes 2) 114 / 287

Page 225: Statistique - GitHub Pages

Estimateur VUMSB

Propriété décomposition biais variance1 Si θ est d’ordre 2, on a la décomposition

R(θ, θ) = ‖Eθ(θ) − θ‖2 + Eθ‖θ − Eθθ‖2.

2 Si θ ∈ R, on obtient

R(θ, θ) = b(θ)2 + V(θ).

Définition

Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2.

Exemple

θ2 est VUMSB.

L. Rouvière (Rennes 2) 114 / 287

Page 226: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 115 / 287

Page 227: Statistique - GitHub Pages

Consistance

On dit que l’estimateur θ est consistant (ou convergent) si θPθ→ θ ∀θ ∈ Θ,

c’est-à-dire∀θ ∈ Θ,∀ε > 0 lim

n→∞Pθ(‖θ − θ‖ > ε) = 0.

Soit (vn)n une suite de réels positifs telle que vn → ∞. On dit que θ estasymptotiquent normal, de vitesse vn si ∀θ ∈ Θ

vn(θ − θ)L→ N(0,Σθ)

où Σθ est une matrice symétrique définie positive.

L. Rouvière (Rennes 2) 116 / 287

Page 228: Statistique - GitHub Pages

Consistance

On dit que l’estimateur θ est consistant (ou convergent) si θPθ→ θ ∀θ ∈ Θ,

c’est-à-dire∀θ ∈ Θ,∀ε > 0 lim

n→∞Pθ(‖θ − θ‖ > ε) = 0.

Soit (vn)n une suite de réels positifs telle que vn → ∞. On dit que θ estasymptotiquent normal, de vitesse vn si ∀θ ∈ Θ

vn(θ − θ)L→ N(0,Σθ)

où Σθ est une matrice symétrique définie positive.

L. Rouvière (Rennes 2) 116 / 287

Page 229: Statistique - GitHub Pages

Outils

La loi des grands nombres et le théorème central limite sont souventutilisés pour montrer la consistance et la normalité asymptotique.

Loi des grands nombres

Soit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd . Alors

Xnp.s.→ µ. Si de plus Xi est d’ordre 2, on a Xn

L2→ µ.

TCLSoit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd et dematrice de variance covariance Σ, alors

√n(Xn − µ)

L→ N(0,Σ).

Exemple 1

θ2 est consistant et asymptotiquement normal (avec la vitesse√

n).

L. Rouvière (Rennes 2) 117 / 287

Page 230: Statistique - GitHub Pages

Outils

La loi des grands nombres et le théorème central limite sont souventutilisés pour montrer la consistance et la normalité asymptotique.

Loi des grands nombres

Soit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd . Alors

Xnp.s.→ µ. Si de plus Xi est d’ordre 2, on a Xn

L2→ µ.

TCLSoit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd et dematrice de variance covariance Σ, alors

√n(Xn − µ)

L→ N(0,Σ).

Exemple 1

θ2 est consistant et asymptotiquement normal (avec la vitesse√

n).

L. Rouvière (Rennes 2) 117 / 287

Page 231: Statistique - GitHub Pages

Outils

La loi des grands nombres et le théorème central limite sont souventutilisés pour montrer la consistance et la normalité asymptotique.

Loi des grands nombres

Soit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd . Alors

Xnp.s.→ µ. Si de plus Xi est d’ordre 2, on a Xn

L2→ µ.

TCLSoit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ Rd et dematrice de variance covariance Σ, alors

√n(Xn − µ)

L→ N(0,Σ).

Exemple 1

θ2 est consistant et asymptotiquement normal (avec la vitesse√

n).

L. Rouvière (Rennes 2) 117 / 287

Page 232: Statistique - GitHub Pages

Delta méthode

X1, . . . ,Xn n échantillon i.i.d. de loi exponentielle de paramètre λ > 0.λ = 1/Xn estimateur de λ asymptotiquement normal?

Delta méthode

Si vn(θ − θ)L→ X ∼ N(0,Σ) et si h : Rd → Rm admet des dérivées

partielles au point θ, alors

vn(h(θ) − h(θ))L→ DhθX

où Dhθ est la matrice m × d de terme (Dhθ)ij = ∂hi∂θj

(θ).

On obtient grâce à la delta-méthode :√

[1

Xn− λ

]L→ N(0, 1).

L. Rouvière (Rennes 2) 118 / 287

Page 233: Statistique - GitHub Pages

Delta méthode

X1, . . . ,Xn n échantillon i.i.d. de loi exponentielle de paramètre λ > 0.λ = 1/Xn estimateur de λ asymptotiquement normal?

Delta méthode

Si vn(θ − θ)L→ X ∼ N(0,Σ) et si h : Rd → Rm admet des dérivées

partielles au point θ, alors

vn(h(θ) − h(θ))L→ DhθX

où Dhθ est la matrice m × d de terme (Dhθ)ij = ∂hi∂θj

(θ).

On obtient grâce à la delta-méthode :√

[1

Xn− λ

]L→ N(0, 1).

L. Rouvière (Rennes 2) 118 / 287

Page 234: Statistique - GitHub Pages

Delta méthode

X1, . . . ,Xn n échantillon i.i.d. de loi exponentielle de paramètre λ > 0.λ = 1/Xn estimateur de λ asymptotiquement normal?

Delta méthode

Si vn(θ − θ)L→ X ∼ N(0,Σ) et si h : Rd → Rm admet des dérivées

partielles au point θ, alors

vn(h(θ) − h(θ))L→ DhθX

où Dhθ est la matrice m × d de terme (Dhθ)ij = ∂hi∂θj

(θ).

On obtient grâce à la delta-méthode :√

[1

Xn− λ

]L→ N(0, 1).

L. Rouvière (Rennes 2) 118 / 287

Page 235: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 119 / 287

Page 236: Statistique - GitHub Pages

modèle (H , Pθ, θ ∈ Θ).

n échantillon X1, . . . ,Xn i.i.d. de loi Pθ.

IdéeTrouver le paramètre θ ∈ Θ tel que les moments empiriques coïncidentavec les moments théoriques :

mj =1n

n∑i=1

X ji ≈ mj(θ0) = Eθ0(X j

i ), j = 1, . . . , p.

Si p = 1 la méthode revient à résoudre l’équation en θ :

1n

n∑i=1

Xi = Eθ(X1).

L. Rouvière (Rennes 2) 120 / 287

Page 237: Statistique - GitHub Pages

modèle (H , Pθ, θ ∈ Θ).

n échantillon X1, . . . ,Xn i.i.d. de loi Pθ.

IdéeTrouver le paramètre θ ∈ Θ tel que les moments empiriques coïncidentavec les moments théoriques :

mj =1n

n∑i=1

X ji ≈ mj(θ0) = Eθ0(X j

i ), j = 1, . . . , p.

Si p = 1 la méthode revient à résoudre l’équation en θ :

1n

n∑i=1

Xi = Eθ(X1).

L. Rouvière (Rennes 2) 120 / 287

Page 238: Statistique - GitHub Pages

modèle (H , Pθ, θ ∈ Θ).

n échantillon X1, . . . ,Xn i.i.d. de loi Pθ.

IdéeTrouver le paramètre θ ∈ Θ tel que les moments empiriques coïncidentavec les moments théoriques :

mj =1n

n∑i=1

X ji ≈ mj(θ0) = Eθ0(X j

i ), j = 1, . . . , p.

Si p = 1 la méthode revient à résoudre l’équation en θ :

1n

n∑i=1

Xi = Eθ(X1).

L. Rouvière (Rennes 2) 120 / 287

Page 239: Statistique - GitHub Pages

L’estimateur des moments

L’estimateur des moments est défini comme la solution du système à péquations :

m1(θ) = m1...

mp(θ) = mp

Si

M : Θ→ L

θ 7→ (m1(θ), . . . ,mp(θ))

est une bijection. Alors l’estimateur des moments existe et est unique.

L. Rouvière (Rennes 2) 121 / 287

Page 240: Statistique - GitHub Pages

L’estimateur des moments

L’estimateur des moments est défini comme la solution du système à péquations :

m1(θ) = m1...

mp(θ) = mp

Si

M : Θ→ L

θ 7→ (m1(θ), . . . ,mp(θ))

est une bijection. Alors l’estimateur des moments existe et est unique.

L. Rouvière (Rennes 2) 121 / 287

Page 241: Statistique - GitHub Pages

Exemple

Pour le modèle gaussien Pθ = N(µ, σ2), il est facile de voir quel’estimateur des moments θ = (µ, σ2) est

µ =1n

n∑i=1

Xi et σ2 =1n

n∑i=1

X2i − µ

2.

L. Rouvière (Rennes 2) 122 / 287

Page 242: Statistique - GitHub Pages

Propriété

RappelSi Pθ est d’ordre p, la LFGN et le TCL assure la consistance et lanormalité asymptotique des moments empiriques.

Théorème

Soit θ l’estimateur des moments.1 Si Pθ admet un moment d’ordre p fini et si M est un

homéomorphisme alors θ est consistant.2 Si Pθ admet un moment d’ordre 2p fini et si M est un

difféoéomorphisme alors

√n(θ − θ)

L→ N(0,Vθ)

où Vθ = DM−1θ Σθ (DM−1

θ )′ et Σθ = V(X1,X21 , . . . ,X

p1 ).

L. Rouvière (Rennes 2) 123 / 287

Page 243: Statistique - GitHub Pages

Propriété

RappelSi Pθ est d’ordre p, la LFGN et le TCL assure la consistance et lanormalité asymptotique des moments empiriques.

Théorème

Soit θ l’estimateur des moments.1 Si Pθ admet un moment d’ordre p fini et si M est un

homéomorphisme alors θ est consistant.2 Si Pθ admet un moment d’ordre 2p fini et si M est un

difféoéomorphisme alors

√n(θ − θ)

L→ N(0,Vθ)

où Vθ = DM−1θ Σθ (DM−1

θ )′ et Σθ = V(X1,X21 , . . . ,X

p1 ).

L. Rouvière (Rennes 2) 123 / 287

Page 244: Statistique - GitHub Pages

Propriété

RappelSi Pθ est d’ordre p, la LFGN et le TCL assure la consistance et lanormalité asymptotique des moments empiriques.

Théorème

Soit θ l’estimateur des moments.1 Si Pθ admet un moment d’ordre p fini et si M est un

homéomorphisme alors θ est consistant.2 Si Pθ admet un moment d’ordre 2p fini et si M est un

difféoéomorphisme alors

√n(θ − θ)

L→ N(0,Vθ)

où Vθ = DM−1θ Σθ (DM−1

θ )′ et Σθ = V(X1,X21 , . . . ,X

p1 ).

L. Rouvière (Rennes 2) 123 / 287

Page 245: Statistique - GitHub Pages

Retour à l’exemple 1

X1, . . . ,Xn i.i.d. X1 ∼ B(p).

x1, . . . , xn réalisations de X1, . . . ,Xn.

Idée1 La quantité L(x1, . . . , xn; p) = Pp(X1 = x1, . . . ,Xn = xn) peut être vue

comme une mesure de la probabilité d’observer les données dont ondispose.

2 Choisir le paramètre p qui maximise cette probabilité.

L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).

L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".

L. Rouvière (Rennes 2) 124 / 287

Page 246: Statistique - GitHub Pages

Retour à l’exemple 1

X1, . . . ,Xn i.i.d. X1 ∼ B(p).

x1, . . . , xn réalisations de X1, . . . ,Xn.

Idée1 La quantité L(x1, . . . , xn; p) = Pp(X1 = x1, . . . ,Xn = xn) peut être vue

comme une mesure de la probabilité d’observer les données dont ondispose.

2 Choisir le paramètre p qui maximise cette probabilité.

L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).

L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".

L. Rouvière (Rennes 2) 124 / 287

Page 247: Statistique - GitHub Pages

Retour à l’exemple 1

X1, . . . ,Xn i.i.d. X1 ∼ B(p).

x1, . . . , xn réalisations de X1, . . . ,Xn.

Idée1 La quantité L(x1, . . . , xn; p) = Pp(X1 = x1, . . . ,Xn = xn) peut être vue

comme une mesure de la probabilité d’observer les données dont ondispose.

2 Choisir le paramètre p qui maximise cette probabilité.

L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).

L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".

L. Rouvière (Rennes 2) 124 / 287

Page 248: Statistique - GitHub Pages

Vraisemblance

Cas discretLa vraisemblance du paramètre θ pour la réalisation (x1, . . . , xn) estl’application L : Hn ×Θ définie par

L(x1, . . . , xn; θ) = P⊗nθ (x1, . . . , xn) =

n∏i=1

Pθ(xi).

Cas absolument continuSoit f(., θ) la densité associé à Pθ. La vraisemblance du paramètre θ pourla réalisation (x1, . . . , xn) est l’application L : Hn ×Θ définie par

L(x1, . . . , xn; θ) =n∏

i=1

f(xi , θ).

L. Rouvière (Rennes 2) 125 / 287

Page 249: Statistique - GitHub Pages

Vraisemblance

Cas discretLa vraisemblance du paramètre θ pour la réalisation (x1, . . . , xn) estl’application L : Hn ×Θ définie par

L(x1, . . . , xn; θ) = P⊗nθ (x1, . . . , xn) =

n∏i=1

Pθ(xi).

Cas absolument continuSoit f(., θ) la densité associé à Pθ. La vraisemblance du paramètre θ pourla réalisation (x1, . . . , xn) est l’application L : Hn ×Θ définie par

L(x1, . . . , xn; θ) =n∏

i=1

f(xi , θ).

L. Rouvière (Rennes 2) 125 / 287

Page 250: Statistique - GitHub Pages

L’estimateur du maximum de vraisemblance

DéfinitionUn estimateur du maximum de vraisemblance (EMV) est unestatistique g qui maximise la vraisemblance, c’est-à-dire∀(x1, . . . , xn) ∈ Hn

L(x1, . . . , xn; g(x1, . . . , xn)) = supθ∈Θ

L(x1, . . . , xn; θ).

L’EMV s’écrit donc θ = g(X1, . . . ,Xn).

Pour le modèle gaussien Pθ = N(µ, σ2), L’EMV est

µ =1n

n∑i=1

Xi et σ2 =1n

n∑i=1

X2i − µ

2.

Il coïncide avec l’estimateur des moments.

L. Rouvière (Rennes 2) 126 / 287

Page 251: Statistique - GitHub Pages

L’estimateur du maximum de vraisemblance

DéfinitionUn estimateur du maximum de vraisemblance (EMV) est unestatistique g qui maximise la vraisemblance, c’est-à-dire∀(x1, . . . , xn) ∈ Hn

L(x1, . . . , xn; g(x1, . . . , xn)) = supθ∈Θ

L(x1, . . . , xn; θ).

L’EMV s’écrit donc θ = g(X1, . . . ,Xn).

Pour le modèle gaussien Pθ = N(µ, σ2), L’EMV est

µ =1n

n∑i=1

Xi et σ2 =1n

n∑i=1

X2i − µ

2.

Il coïncide avec l’estimateur des moments.

L. Rouvière (Rennes 2) 126 / 287

Page 252: Statistique - GitHub Pages

Propriétés de l’EMV

Invariance

Soit ψ : Θ→ Rk et θ l’EMV de θ. Alors l’emv de ψ(θ) est ψ(θ).

ConsistanceOn suppose que Pθ admet une densité f(x, θ), que Θ est un ouvert et queθ 7→ f(x, θ) est différentiable. Alors l’EMV θ est consistant.

L. Rouvière (Rennes 2) 127 / 287

Page 253: Statistique - GitHub Pages

Propriétés de l’EMV

Invariance

Soit ψ : Θ→ Rk et θ l’EMV de θ. Alors l’emv de ψ(θ) est ψ(θ).

ConsistanceOn suppose que Pθ admet une densité f(x, θ), que Θ est un ouvert et queθ 7→ f(x, θ) est différentiable. Alors l’EMV θ est consistant.

L. Rouvière (Rennes 2) 127 / 287

Page 254: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 128 / 287

Page 255: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 129 / 287

Page 256: Statistique - GitHub Pages

On se place dans le cas où θ est réel.

Objectif : montrer que sous certaines hypothèses de régularité l’EMV estasymptotiquement VUMSB :

1 θ est asymptotiquement sans biais.

2 il existe une fonction r(n, θ) telle que pour tout estimateur T sans biais de θ,on a V(T) ≥ r(n, θ).

3 la variance asymptotique de l’EMV vaut r(n, θ).

L. Rouvière (Rennes 2) 130 / 287

Page 257: Statistique - GitHub Pages

L’information de Fisher

SoitM = (H , Pθ, θ ∈ Θ) un modèle. On suppose dans cette partie que :

Θ est un ouvert.

Pθ admet une densité f(x, θ) (par rapport à la mesure de Lebesgueou à la mesure de comptage) et que f est deux fois dérivable parrapport à θ.

∀h ∈ L1(Pθ) on a

∂θ

∫h(x)f(x, θ) dx =

∫h(x)

∂θf(x, θ) dx.

On appelle information de Fisher du modèleM au point θ :

I(θ) = Eθ

( ∂∂θ log(f(X , θ))

)2 .L. Rouvière (Rennes 2) 131 / 287

Page 258: Statistique - GitHub Pages

Fonction de score :

S(x, θ) =∂

∂θlog(f(x, θ)).

Propriété

I(θ) = −Eθ

[∂2

∂θ2log(f(X , θ))

].

I(θ) ≥ 0 et I(θ) = 0⇔ f(x, θ) = f(θ).

I(θ) mesure en quelque sorte le pouvoir de discrimination du modèle entredeux valeurs proches du paramètre θ :

I(θ) grand : il sera "facile" d’identifier quel modèle est le meilleur.

I(θ) petit : l’identification sera plus difficile.

L. Rouvière (Rennes 2) 132 / 287

Page 259: Statistique - GitHub Pages

Fonction de score :

S(x, θ) =∂

∂θlog(f(x, θ)).

Propriété

I(θ) = −Eθ

[∂2

∂θ2log(f(X , θ))

].

I(θ) ≥ 0 et I(θ) = 0⇔ f(x, θ) = f(θ).

I(θ) mesure en quelque sorte le pouvoir de discrimination du modèle entredeux valeurs proches du paramètre θ :

I(θ) grand : il sera "facile" d’identifier quel modèle est le meilleur.

I(θ) petit : l’identification sera plus difficile.

L. Rouvière (Rennes 2) 132 / 287

Page 260: Statistique - GitHub Pages

Modèle produit

Propriété d’additivitéSi X1 et X2 sont deux variables i.i.d. de loi Pθ, alors

I(X1,X2)(θ) = IX1(θ) + IX2(θ) = 2IX1(θ).

CorollaireL’information de Fisher du modèle produitMn au point θ vautIn(θ) = nI(θ).

Sur l’exemple 1, on a In(p) = np(1−p)

.

L. Rouvière (Rennes 2) 133 / 287

Page 261: Statistique - GitHub Pages

Modèle produit

Propriété d’additivitéSi X1 et X2 sont deux variables i.i.d. de loi Pθ, alors

I(X1,X2)(θ) = IX1(θ) + IX2(θ) = 2IX1(θ).

CorollaireL’information de Fisher du modèle produitMn au point θ vautIn(θ) = nI(θ).

Sur l’exemple 1, on a In(p) = np(1−p)

.

L. Rouvière (Rennes 2) 133 / 287

Page 262: Statistique - GitHub Pages

Modèle produit

Propriété d’additivitéSi X1 et X2 sont deux variables i.i.d. de loi Pθ, alors

I(X1,X2)(θ) = IX1(θ) + IX2(θ) = 2IX1(θ).

CorollaireL’information de Fisher du modèle produitMn au point θ vautIn(θ) = nI(θ).

Sur l’exemple 1, on a In(p) = np(1−p)

.

L. Rouvière (Rennes 2) 133 / 287

Page 263: Statistique - GitHub Pages

Borne de Cramer-Rao

ThéorèmeSoit T = T(X1, . . . ,Xn) un estimateur sans biais de θ. Alors

V(T) ≥1

In(θ).

1 La quantité 1In(θ)

est appelée borne de Cramer-Rao.

2 Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB.

3 Si T est un estimateur sans biais de g(θ) avec g dérivable, alors

V(T) ≥(g′(θ))2

In(θ).

Exemple 1

p = X est VUMSB.

L. Rouvière (Rennes 2) 134 / 287

Page 264: Statistique - GitHub Pages

Borne de Cramer-Rao

ThéorèmeSoit T = T(X1, . . . ,Xn) un estimateur sans biais de θ. Alors

V(T) ≥1

In(θ).

1 La quantité 1In(θ)

est appelée borne de Cramer-Rao.

2 Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB.

3 Si T est un estimateur sans biais de g(θ) avec g dérivable, alors

V(T) ≥(g′(θ))2

In(θ).

Exemple 1

p = X est VUMSB.

L. Rouvière (Rennes 2) 134 / 287

Page 265: Statistique - GitHub Pages

Borne de Cramer-Rao

ThéorèmeSoit T = T(X1, . . . ,Xn) un estimateur sans biais de θ. Alors

V(T) ≥1

In(θ).

1 La quantité 1In(θ)

est appelée borne de Cramer-Rao.

2 Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB.

3 Si T est un estimateur sans biais de g(θ) avec g dérivable, alors

V(T) ≥(g′(θ))2

In(θ).

Exemple 1

p = X est VUMSB.

L. Rouvière (Rennes 2) 134 / 287

Page 266: Statistique - GitHub Pages

Efficacité asymptotique de l’EMV

Théorème

Sous certaines conditions de régularité sur la densité f(x, θ), l’EMV θn estasymptotiquement gaussien et

√n(θn − θ)

L→ N

(0,

1I(θ)

).

θn est asymptotiquement sans biais.

θn est asymptotiquement efficace.

θn converge vers θ en moyenne quadratique.

L. Rouvière (Rennes 2) 135 / 287

Page 267: Statistique - GitHub Pages

Efficacité asymptotique de l’EMV

Théorème

Sous certaines conditions de régularité sur la densité f(x, θ), l’EMV θn estasymptotiquement gaussien et

√n(θn − θ)

L→ N

(0,

1I(θ)

).

θn est asymptotiquement sans biais.

θn est asymptotiquement efficace.

θn converge vers θ en moyenne quadratique.

L. Rouvière (Rennes 2) 135 / 287

Page 268: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 136 / 287

Page 269: Statistique - GitHub Pages

BCR en dimension p

On se place dans un modèle de densitésM = (H , Pθ, θ ∈ Rp), où

Pθ ∼ f(., θ) ;

On note θ = (θ1, . . . , θp)′ un estimateur du paramètre θ = (θ1, . . . , θp)′

de matrice de variance covariance Σθ.

DéfinitionLa matrice d’information de Fisher au point θ du modèle ci-dessus est lamatrice de dimension p × p définie par

I(θ)i,j =Eθ

[∂

∂θilog(f(X , θ))

∂θjlog(f(X , θ))

]= − Eθ

[∂2

∂θi∂θjlog(f(X , θ))

].

L. Rouvière (Rennes 2) 137 / 287

Page 270: Statistique - GitHub Pages

Théorème

La borne de Cramer-Rao du modèle précédent est 1n I(θ)−1. C’est-à-dire

que pour tout estimateur sans biais θ de θ, on a

Σθ ≥1n

I(θ)−1

(l’inégalité est à prendre au sens des matrices sdp).

L. Rouvière (Rennes 2) 138 / 287

Page 271: Statistique - GitHub Pages

Un exemple : le modèle gaussien

Pour le modèle gaussien Pθ = N(µ, σ2), la matrice d’information de Fisherest donnée par :

I(θ) =

( 1σ2 00 1

2σ4

).

La borne de Cramer-Rao vaut

BCR =

σ2

n 00 2σ4

n

.

L. Rouvière (Rennes 2) 139 / 287

Page 272: Statistique - GitHub Pages

Un exemple : le modèle gaussien

Pour le modèle gaussien Pθ = N(µ, σ2), la matrice d’information de Fisherest donnée par :

I(θ) =

( 1σ2 00 1

2σ4

).

La borne de Cramer-Rao vaut

BCR =

σ2

n 00 2σ4

n

.

L. Rouvière (Rennes 2) 139 / 287

Page 273: Statistique - GitHub Pages

Question : l’estimateur θ = (X ,S2) est-il efficace?

Rappel : Corollaire de Cochran

Soit X1, . . . ,Xn un échantillon i.i.d. de loi N(µ, σ2). Alors :1 X ∼ N(µ, σ2/n) ;2 X et σ2 sont indépendantes ;3 (nσ2)/σ2 ∼ χ2

(n−1).

On déduit

Σθ =

σ2

n 00 2σ4

n−1 .

θ est (presque) efficace.

L. Rouvière (Rennes 2) 140 / 287

Page 274: Statistique - GitHub Pages

Question : l’estimateur θ = (X ,S2) est-il efficace?

Rappel : Corollaire de Cochran

Soit X1, . . . ,Xn un échantillon i.i.d. de loi N(µ, σ2). Alors :1 X ∼ N(µ, σ2/n) ;2 X et σ2 sont indépendantes ;3 (nσ2)/σ2 ∼ χ2

(n−1).

On déduit

Σθ =

σ2

n 00 2σ4

n−1 .

θ est (presque) efficace.

L. Rouvière (Rennes 2) 140 / 287

Page 275: Statistique - GitHub Pages

Efficacité asymptotique de l’emv

ThérorèmeOn se place dans un modèle de densité (H , f(., θ), θ ∈ Θ). Souscertaines hypothèses de régularité sur la densité f , l’emv θ de θ est

consistant ;

asymptotiquement normal :

√n(θ − θ)

L→ N(0, I(θ)−1).

Retour au modèle gaussien

L’emv est donné par θ = (X , σ2). On obtient par Cochran

√n(θ − θ) ∼ N

(0,

(σ2 00 2σ4 n−1

n

))L→ N(0, I(θ)−1).

L. Rouvière (Rennes 2) 141 / 287

Page 276: Statistique - GitHub Pages

Efficacité asymptotique de l’emv

ThérorèmeOn se place dans un modèle de densité (H , f(., θ), θ ∈ Θ). Souscertaines hypothèses de régularité sur la densité f , l’emv θ de θ est

consistant ;

asymptotiquement normal :

√n(θ − θ)

L→ N(0, I(θ)−1).

Retour au modèle gaussien

L’emv est donné par θ = (X , σ2). On obtient par Cochran

√n(θ − θ) ∼ N

(0,

(σ2 00 2σ4 n−1

n

))L→ N(0, I(θ)−1).

L. Rouvière (Rennes 2) 141 / 287

Page 277: Statistique - GitHub Pages

1 IntroductionQuelques exemplesRappels sur les variables aléatoiresModèle statistique

2 Qualités d’un estimateurBiais, variance et risque quadratiqueCritère de performance asymptotique2 méthodes d’estimation

La méthode des momentsLa méthode du maximum de vraisemblance

3 Information de Fisher et Borne de Cramer RaoDimension 1Dimension p

4 Estimation par intervalle de confiance

L. Rouvière (Rennes 2) 142 / 287

Page 278: Statistique - GitHub Pages

Motivations

Donner une seule valeur pour estimer un paramètre peut se révélertrop ambitieux.

Exemple 1 : le taux de guérison du traitement est de 72% (alors qu’onne l’a testé que sur 100 patients).

Il peut parfois être plus raisonnable de donner une réponse dans legenre, le taux de guérison se trouve dans l’intervalle [70%, 74%] avecune confiance de 90%.

L. Rouvière (Rennes 2) 143 / 287

Page 279: Statistique - GitHub Pages

Motivations

Donner une seule valeur pour estimer un paramètre peut se révélertrop ambitieux.

Exemple 1 : le taux de guérison du traitement est de 72% (alors qu’onne l’a testé que sur 100 patients).

Il peut parfois être plus raisonnable de donner une réponse dans legenre, le taux de guérison se trouve dans l’intervalle [70%, 74%] avecune confiance de 90%.

L. Rouvière (Rennes 2) 143 / 287

Page 280: Statistique - GitHub Pages

Intervalle de confiance

X1, . . . ,Xn n échantillon i.i.d. de loi Pθ0 .

DéfinitionSoit α ∈]0, 1[. On appelle intervalle de confiance pour θ0 tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions mesurables telles que∀θ ∈ Θ :

Pθ(θ ∈ [An,Bn]) = 1 − α.

Si limn→∞ Pθ(θ ∈ [An,Bn]) = 1 − α, on dit que [An,Bn] est un intervalle deconfiance asymptotique pour θ0 au niveau 1 − α.

Remarque importanteLes quantités An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sontaléatoires !

Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).

L. Rouvière (Rennes 2) 144 / 287

Page 281: Statistique - GitHub Pages

Intervalle de confiance

X1, . . . ,Xn n échantillon i.i.d. de loi Pθ0 .

DéfinitionSoit α ∈]0, 1[. On appelle intervalle de confiance pour θ0 tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions mesurables telles que∀θ ∈ Θ :

Pθ(θ ∈ [An,Bn]) = 1 − α.

Si limn→∞ Pθ(θ ∈ [An,Bn]) = 1 − α, on dit que [An,Bn] est un intervalle deconfiance asymptotique pour θ0 au niveau 1 − α.

Remarque importanteLes quantités An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sontaléatoires !

Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).

L. Rouvière (Rennes 2) 144 / 287

Page 282: Statistique - GitHub Pages

Intervalle de confiance

X1, . . . ,Xn n échantillon i.i.d. de loi Pθ0 .

DéfinitionSoit α ∈]0, 1[. On appelle intervalle de confiance pour θ0 tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions mesurables telles que∀θ ∈ Θ :

Pθ(θ ∈ [An,Bn]) = 1 − α.

Si limn→∞ Pθ(θ ∈ [An,Bn]) = 1 − α, on dit que [An,Bn] est un intervalle deconfiance asymptotique pour θ0 au niveau 1 − α.

Remarque importanteLes quantités An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sontaléatoires !

Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).

L. Rouvière (Rennes 2) 144 / 287

Page 283: Statistique - GitHub Pages

Intervalle de confiance

X1, . . . ,Xn n échantillon i.i.d. de loi Pθ0 .

DéfinitionSoit α ∈]0, 1[. On appelle intervalle de confiance pour θ0 tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions mesurables telles que∀θ ∈ Θ :

Pθ(θ ∈ [An,Bn]) = 1 − α.

Si limn→∞ Pθ(θ ∈ [An,Bn]) = 1 − α, on dit que [An,Bn] est un intervalle deconfiance asymptotique pour θ0 au niveau 1 − α.

Remarque importanteLes quantités An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sontaléatoires !

Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).

L. Rouvière (Rennes 2) 144 / 287

Page 284: Statistique - GitHub Pages

Construction d’un IC

Inégalité de Bienaymé Tchebytchev.

Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.

Méthode1 se donner un niveau 1 − α.

2 trouver un estimateur θn de θ dont on connait la loi afin de construire unefonction pivotable.

L. Rouvière (Rennes 2) 145 / 287

Page 285: Statistique - GitHub Pages

Construction d’un IC

Inégalité de Bienaymé Tchebytchev.

Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.

Méthode1 se donner un niveau 1 − α.

2 trouver un estimateur θn de θ dont on connait la loi afin de construire unefonction pivotable.

L. Rouvière (Rennes 2) 145 / 287

Page 286: Statistique - GitHub Pages

Construction d’un IC

Inégalité de Bienaymé Tchebytchev.

Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.

Méthode1 se donner un niveau 1 − α.

2 trouver un estimateur θn de θ dont on connait la loi afin de construire unefonction pivotable.

L. Rouvière (Rennes 2) 145 / 287

Page 287: Statistique - GitHub Pages

IC pour l’espérance d’une gaussienne

Exemple1 On considère le modèle gaussien P = N(µ, 4), µ ∈ R et on cherche

un intervalle de confiance de niveau 95% pour µ.2 On pose µ = 1

n∑n

i=1 Xi . On a

√n

2(µ − µ) ∼ N(0, 1).

3 On déduit

IC95%(µ) =

[µ − q0.975

2√

n; µ + q0.975

2√

n

].

L. Rouvière (Rennes 2) 146 / 287

Page 288: Statistique - GitHub Pages

IC pour l’espérance d’une gaussienne

Exemple1 On considère le modèle gaussien P = N(µ, 4), µ ∈ R et on cherche

un intervalle de confiance de niveau 95% pour µ.2 On pose µ = 1

n∑n

i=1 Xi . On a

√n

2(µ − µ) ∼ N(0, 1).

3 On déduit

IC95%(µ) =

[µ − q0.975

2√

n; µ + q0.975

2√

n

].

L. Rouvière (Rennes 2) 146 / 287

Page 289: Statistique - GitHub Pages

IC pour l’espérance d’une gaussienne

Exemple1 On considère le modèle gaussien P = N(µ, 4), µ ∈ R et on cherche

un intervalle de confiance de niveau 95% pour µ.2 On pose µ = 1

n∑n

i=1 Xi . On a

√n

2(µ − µ) ∼ N(0, 1).

3 On déduit

IC95%(µ) =

[µ − q0.975

2√

n; µ + q0.975

2√

n

].

L. Rouvière (Rennes 2) 146 / 287

Page 290: Statistique - GitHub Pages

Exemples

1 Pθ = N(µ0, σ2) avec σ2 connu :

IC1−α(µ0) =

[X − q1−α/2

σ√

n, X + q1−α/2

σ√

n

].

2 Pθ = N(µ0, σ2) avec σ2 inconnu :

IC1−α(µ0) =

[X − t1−α/2

Sn√

n, X + t1−α/2

Sn√

n

].

3 Pθ d’espérance µ0 et de variance σ2 inconnue :

ICasympt1−α (µ0) =

[X − t1−α/2

Sn√

n, X + t1−α/2

Sn√

n

].

L. Rouvière (Rennes 2) 147 / 287

Page 291: Statistique - GitHub Pages

IC pour une proportion

Soit X1, . . . ,Xn i.i.d. de loi B(p0).

On pose p = 1n∑n

i=1 Xi . On a d’après le TCL

√n√

p0(1 − p0)(p − p0)

L→ N(0, 1).

On pose

IC1−α(p0) =

p − q1−α2

√p0(1 − p0)

n; p + q1−α2

√p0(1 − p0)

n

.Prolème : l’IC dépend de p0 et n’est donc pas calculable.

L. Rouvière (Rennes 2) 148 / 287

Page 292: Statistique - GitHub Pages

IC pour une proportion

Soit X1, . . . ,Xn i.i.d. de loi B(p0).

On pose p = 1n∑n

i=1 Xi . On a d’après le TCL

√n√

p0(1 − p0)(p − p0)

L→ N(0, 1).

On pose

IC1−α(p0) =

p − q1−α2

√p0(1 − p0)

n; p + q1−α2

√p0(1 − p0)

n

.Prolème : l’IC dépend de p0 et n’est donc pas calculable.

L. Rouvière (Rennes 2) 148 / 287

Page 293: Statistique - GitHub Pages

IC pour une proportion

Soit X1, . . . ,Xn i.i.d. de loi B(p0).

On pose p = 1n∑n

i=1 Xi . On a d’après le TCL

√n√

p0(1 − p0)(p − p0)

L→ N(0, 1).

On pose

IC1−α(p0) =

p − q1−α2

√p0(1 − p0)

n; p + q1−α2

√p0(1 − p0)

n

.Prolème : l’IC dépend de p0 et n’est donc pas calculable.

L. Rouvière (Rennes 2) 148 / 287

Page 294: Statistique - GitHub Pages

On peut montrer que√

n√p(1 − p)

(p − p0)L→ N(0, 1),

et en déduire l’intervalle de confiance asymptotique

IC1−α(p0) =

p − q1−α2

√p(1 − p)

n; p + q1−α2

√p(1 − p)

n

.

L. Rouvière (Rennes 2) 149 / 287

Page 295: Statistique - GitHub Pages

Exemple sur R : IC pour une moyenne

On s’intéresse au poids moyen d’adultes atteint d’une pathologie. Ondispose de n = 50 observations.

> poids[1:5][1] 85 80 80 60 83> t.test(poids,conf.level=0.95)

One Sample t-test

data: poidst = 60.6608, df = 49, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 095 percent confidence interval:70.00451 74.80165sample estimates:mean of x72.40308

L. Rouvière (Rennes 2) 150 / 287

Page 296: Statistique - GitHub Pages

Exemple sur R : IC pour une proportion

On effectue un sondage électoral sur n = 500 personnes concernantle second tour d’une élection

> sondage[1:5][1] B A A B ALevels: A B> binom.test(sum(sondage=="A"),500,conf.level=0.90)

Exact binomial test

data: sum(sondage == "A") and 500number of successes = 218, number of trials = 500, p-value = 0.004792alternative hypothesis: true probability of success is not equal to 0.590 percent confidence interval:0.3988760 0.4736887sample estimates:probability of success

0.436

L. Rouvière (Rennes 2) 151 / 287

Page 297: Statistique - GitHub Pages

Quatrième partie IV

Tests d’hypothèses

L. Rouvière (Rennes 2) 152 / 287

Page 298: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 153 / 287

Page 299: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 154 / 287

Page 300: Statistique - GitHub Pages

Exemple 1 : test de conformité

On s’intéresse à la longueur de pièces fabriquées par une machine.

"En théorie" la longueur moyenne de ces pièces doit être de 150cm.

On décide de mesurer 49 pièces choisies au hasard. La valeurmoyenne des mesures est de 149.9.

Peut-on dire que la machine est toujours bien réglée?

L. Rouvière (Rennes 2) 155 / 287

Page 301: Statistique - GitHub Pages

Exemple 1 : test de conformité

On s’intéresse à la longueur de pièces fabriquées par une machine.

"En théorie" la longueur moyenne de ces pièces doit être de 150cm.

On décide de mesurer 49 pièces choisies au hasard. La valeurmoyenne des mesures est de 149.9.

Peut-on dire que la machine est toujours bien réglée?

L. Rouvière (Rennes 2) 155 / 287

Page 302: Statistique - GitHub Pages

Exemples 2-3

Un médicamment couramment utilisé est connu pour guérir 60% despatients.

Un nouveau traitement est expérimenté sur 80 patients.

On observe 60 guérisons.

Doit-on remplacer l’ancien traitement par le nouveau?

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

L. Rouvière (Rennes 2) 156 / 287

Page 303: Statistique - GitHub Pages

Exemples 2-3

Un médicamment couramment utilisé est connu pour guérir 60% despatients.

Un nouveau traitement est expérimenté sur 80 patients.

On observe 60 guérisons.

Doit-on remplacer l’ancien traitement par le nouveau?

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

L. Rouvière (Rennes 2) 156 / 287

Page 304: Statistique - GitHub Pages

Exemples 2-3

Un médicamment couramment utilisé est connu pour guérir 60% despatients.

Un nouveau traitement est expérimenté sur 80 patients.

On observe 60 guérisons.

Doit-on remplacer l’ancien traitement par le nouveau?

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

L. Rouvière (Rennes 2) 156 / 287

Page 305: Statistique - GitHub Pages

Exemple 4

On s’intéresse au nombre de garçons dans des familles de 4enfants :

Nb de garçons 0 1 2 3 4 Total

Effectifs 3 30 39 23 5 100

Est-ce que la variable aléatoire nombre de garçons suit une loiBinomiale B(4, p) ?

L. Rouvière (Rennes 2) 157 / 287

Page 306: Statistique - GitHub Pages

Exemple 4

On s’intéresse au nombre de garçons dans des familles de 4enfants :

Nb de garçons 0 1 2 3 4 Total

Effectifs 3 30 39 23 5 100

Est-ce que la variable aléatoire nombre de garçons suit une loiBinomiale B(4, p) ?

L. Rouvière (Rennes 2) 157 / 287

Page 307: Statistique - GitHub Pages

Exemple 5

Le titanic a emporté à son bord :

325 passagers en première classe

285 passagers en deuxième classe

706 passagers en troisième classse

885 membres d’équipage.

Parmi les survivants on compte :

203 passagers en première classe

118 passagers en deuxième classe

178 passagers en troisième classe

212 membres d’équipage.

Existe-t-il un lien entre le fait d’avoir survécu et la classe d’appartenance?

L. Rouvière (Rennes 2) 158 / 287

Page 308: Statistique - GitHub Pages

Exemple 5

Le titanic a emporté à son bord :

325 passagers en première classe

285 passagers en deuxième classe

706 passagers en troisième classse

885 membres d’équipage.

Parmi les survivants on compte :

203 passagers en première classe

118 passagers en deuxième classe

178 passagers en troisième classe

212 membres d’équipage.

Existe-t-il un lien entre le fait d’avoir survécu et la classe d’appartenance?

L. Rouvière (Rennes 2) 158 / 287

Page 309: Statistique - GitHub Pages

Exemple 5

Le titanic a emporté à son bord :

325 passagers en première classe

285 passagers en deuxième classe

706 passagers en troisième classse

885 membres d’équipage.

Parmi les survivants on compte :

203 passagers en première classe

118 passagers en deuxième classe

178 passagers en troisième classe

212 membres d’équipage.

Existe-t-il un lien entre le fait d’avoir survécu et la classe d’appartenance?

L. Rouvière (Rennes 2) 158 / 287

Page 310: Statistique - GitHub Pages

Problématique de test

Ici, il ne s’agit plus d’estimer un paramètre à partir d’un échantillonmais de prendre une décision à l’aide de cet échantillon.

Répondre aux questions posées revient à choisir une hypothèseparmi deux (on les notera H0 et H1).

Un test statistique permet de réaliser un tel choix.

L. Rouvière (Rennes 2) 159 / 287

Page 311: Statistique - GitHub Pages

H0 H1

Exemple 1 µ = 150 µ , 150

Exemple 2 p = 0.6 p ≥ 0.6

Exemple 3 pF = pH pF , pH

Exemple 4 X ∼ B(4, p) X / B(4, p)

Exemple 5 S y C S 6y C

L. Rouvière (Rennes 2) 160 / 287

Page 312: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 161 / 287

Page 313: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 162 / 287

Page 314: Statistique - GitHub Pages

Hypothèse nulle et hypothèse alternative

Modèle statistique (H , Pθ, θ ∈ Θ).

Hypothèse nulle⇒ H0 : θ ∈ Θ0.

Hypothèse alternative⇒ H1 : θ ∈ Θ1.

Si Θ = θ l’hypothèse est dite simple, sinon elle est dite multiple.

A partir de n observations x = (x1, . . . , xn), prendre une décision :

accepter H0.

rejeter H0 au profit de H1.

L. Rouvière (Rennes 2) 163 / 287

Page 315: Statistique - GitHub Pages

Hypothèse nulle et hypothèse alternative

Modèle statistique (H , Pθ, θ ∈ Θ).

Hypothèse nulle⇒ H0 : θ ∈ Θ0.

Hypothèse alternative⇒ H1 : θ ∈ Θ1.

Si Θ = θ l’hypothèse est dite simple, sinon elle est dite multiple.

A partir de n observations x = (x1, . . . , xn), prendre une décision :

accepter H0.

rejeter H0 au profit de H1.

L. Rouvière (Rennes 2) 163 / 287

Page 316: Statistique - GitHub Pages

Fonction de test

DéfinitionOn appelle fonction de test toute statistique ϕ : Hn → 0, 1

L’ensemble ϕ−1(1) noté RH0 est la région de rejet ou régioncritique du test.

L’ensemble ϕ−1(0) noté AH0 est la région d’acceptation du test.

ExemplePθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

L. Rouvière (Rennes 2) 164 / 287

Page 317: Statistique - GitHub Pages

Fonction de test

DéfinitionOn appelle fonction de test toute statistique ϕ : Hn → 0, 1

L’ensemble ϕ−1(1) noté RH0 est la région de rejet ou régioncritique du test.

L’ensemble ϕ−1(0) noté AH0 est la région d’acceptation du test.

ExemplePθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

L. Rouvière (Rennes 2) 164 / 287

Page 318: Statistique - GitHub Pages

Fonction de test

DéfinitionOn appelle fonction de test toute statistique ϕ : Hn → 0, 1

L’ensemble ϕ−1(1) noté RH0 est la région de rejet ou régioncritique du test.

L’ensemble ϕ−1(0) noté AH0 est la région d’acceptation du test.

ExemplePθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

L. Rouvière (Rennes 2) 164 / 287

Page 319: Statistique - GitHub Pages

Erreurs de décision

RéalitéH0 H1

H0 OK erreur de deuxième espèceDécision

H1 erreur de première espèce OK

Le risque de première espèce d’un test ϕ est la fonction

α : Θ0 → [0, 1]

θ0 7→ Pθ0(RH0)

Le risque de deuxième espèce d’un test ϕ est la fonction

β : Θ1 → [0, 1]

θ1 7→ Pθ1(AH0)

L. Rouvière (Rennes 2) 165 / 287

Page 320: Statistique - GitHub Pages

Erreurs de décision

RéalitéH0 H1

H0 OK erreur de deuxième espèceDécision

H1 erreur de première espèce OK

Le risque de première espèce d’un test ϕ est la fonction

α : Θ0 → [0, 1]

θ0 7→ Pθ0(RH0)

Le risque de deuxième espèce d’un test ϕ est la fonction

β : Θ1 → [0, 1]

θ1 7→ Pθ1(AH0)

L. Rouvière (Rennes 2) 165 / 287

Page 321: Statistique - GitHub Pages

Erreurs de décision

RéalitéH0 H1

H0 OK erreur de deuxième espèceDécision

H1 erreur de première espèce OK

Le risque de première espèce d’un test ϕ est la fonction

α : Θ0 → [0, 1]

θ0 7→ Pθ0(RH0)

Le risque de deuxième espèce d’un test ϕ est la fonction

β : Θ1 → [0, 1]

θ1 7→ Pθ1(AH0)

L. Rouvière (Rennes 2) 165 / 287

Page 322: Statistique - GitHub Pages

Exemple

Pθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

Risque de première espèce :

α = PH0(x ∈ Rn : x > s0) = PH0(Xn > s0) = 1 − F3,0.1(s0)

Risque de deuxième espèce :

β = PH1(x ∈ Rn : x ≤ s0) = F3.5,0.1(s0).

L. Rouvière (Rennes 2) 166 / 287

Page 323: Statistique - GitHub Pages

Exemple

Pθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

Risque de première espèce :

α = PH0(x ∈ Rn : x > s0) = PH0(Xn > s0) = 1 − F3,0.1(s0)

Risque de deuxième espèce :

β = PH1(x ∈ Rn : x ≤ s0) = F3.5,0.1(s0).

L. Rouvière (Rennes 2) 166 / 287

Page 324: Statistique - GitHub Pages

Exemple

Pθ = N(µ, 1), n = 10.

H0 : µ = 3 contre H1 : µ = 3.5.

RH0 = x ∈ Rn : x > s0.

AH0 = x ∈ Rn : x ≤ s0.

Risque de première espèce :

α = PH0(x ∈ Rn : x > s0) = PH0(Xn > s0) = 1 − F3,0.1(s0)

Risque de deuxième espèce :

β = PH1(x ∈ Rn : x ≤ s0) = F3.5,0.1(s0).

L. Rouvière (Rennes 2) 166 / 287

Page 325: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 167 / 287

Page 326: Statistique - GitHub Pages

Une idéeChoisir les ensembles RH0 et AH0 qui minimisent les risques α et β.

Si AH0 = Hn alors RH0 = ∅, α = 0 et β = 1.

Si AH0 = ∅ alors RH0 = Hn, α = 1 et β = 0.

Les risques α et β varient généralement en sens inverse.

2.0 2.5 3.0 3.5 4.0 4.5

0.00.2

0.40.6

0.81.0

s

alphabeta

L. Rouvière (Rennes 2) 168 / 287

Page 327: Statistique - GitHub Pages

Une idéeChoisir les ensembles RH0 et AH0 qui minimisent les risques α et β.

Si AH0 = Hn alors RH0 = ∅, α = 0 et β = 1.

Si AH0 = ∅ alors RH0 = Hn, α = 1 et β = 0.

Les risques α et β varient généralement en sens inverse.

2.0 2.5 3.0 3.5 4.0 4.5

0.00.2

0.40.6

0.81.0

s

alphabeta

L. Rouvière (Rennes 2) 168 / 287

Page 328: Statistique - GitHub Pages

Le principe de Neyman et Pearson

Neyman et Pearson (1933) proposent de traiter les risques de façonnon symétrique.

On fixe tout d’abord le risque maximal de première espèceα = supθ0∈Θ0

α(θ0). Ce risque maximal est appelé niveau du test.

La procédure de Neyman et Pearson consiste à chercher dans l’ensembledes tests de niveau α un test optimal (dans le sens où son risque dedeuxième espèce sera minimum).

L. Rouvière (Rennes 2) 169 / 287

Page 329: Statistique - GitHub Pages

Le principe de Neyman et Pearson

Neyman et Pearson (1933) proposent de traiter les risques de façonnon symétrique.

On fixe tout d’abord le risque maximal de première espèceα = supθ0∈Θ0

α(θ0). Ce risque maximal est appelé niveau du test.

La procédure de Neyman et Pearson consiste à chercher dans l’ensembledes tests de niveau α un test optimal (dans le sens où son risque dedeuxième espèce sera minimum).

L. Rouvière (Rennes 2) 169 / 287

Page 330: Statistique - GitHub Pages

Pθ = N(µ, 1), n = 10, H0 = 3 contre H1 = 3.5Sous H0 : Xn ∼ N(3, 1

n ).

ϕ(x1, . . . , xn) = 1xn>s

2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Den

sité

α = 5%

β = PH1 (Xn ≤ 3.52) ' 0.525.

ϕ(x1, . . . , xn) = 1s0≤xn≤s1

2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Den

sité

0.5α = 2.5%0.5α = 2.5%

β = PH1 (2.38 ≤ Xn ≤ 3.62) ' 0.648.

L. Rouvière (Rennes 2) 170 / 287

Page 331: Statistique - GitHub Pages

En pratique

La construction d’un test de niveau α se compose des étapes suivantes :1 Détermination des hypothèses H0 et H1 à partir du problème posé.

2 Détermination d’une statistique de test et de la forme de lafonction de test.

3 Détermination précise des constantes intervenant dans la fonctionde test de sorte que le niveau du test soit α.

4 Conclusion au vu de l’observation.

L. Rouvière (Rennes 2) 171 / 287

Page 332: Statistique - GitHub Pages

Dissymétrie des hypothèses...

H0 et H1 ne jouent pas des roles symétriques.

En pratique le seul risque controlé est le risque de première espèce(fixé à α), H0 est ainsi l’hypothèse à privilégier, il faut en tenir comptedans le choix des hypothèses.

Exemple1 Mise en circulation d’un nouveau médicament :

H0 : pN = pA contre H1 : pN > pA .

2 Procés d’assise⇒ H0 : "innocent" contre H1 : "coupable".

L. Rouvière (Rennes 2) 172 / 287

Page 333: Statistique - GitHub Pages

Dissymétrie des hypothèses...

H0 et H1 ne jouent pas des roles symétriques.

En pratique le seul risque controlé est le risque de première espèce(fixé à α), H0 est ainsi l’hypothèse à privilégier, il faut en tenir comptedans le choix des hypothèses.

Exemple1 Mise en circulation d’un nouveau médicament :

H0 : pN = pA contre H1 : pN > pA .

2 Procés d’assise⇒ H0 : "innocent" contre H1 : "coupable".

L. Rouvière (Rennes 2) 172 / 287

Page 334: Statistique - GitHub Pages

Dissymétrie des hypothèses...

H0 et H1 ne jouent pas des roles symétriques.

En pratique le seul risque controlé est le risque de première espèce(fixé à α), H0 est ainsi l’hypothèse à privilégier, il faut en tenir comptedans le choix des hypothèses.

Exemple1 Mise en circulation d’un nouveau médicament :

H0 : pN = pA contre H1 : pN > pA .

2 Procés d’assise⇒ H0 : "innocent" contre H1 : "coupable".

L. Rouvière (Rennes 2) 172 / 287

Page 335: Statistique - GitHub Pages

Dissymétrie des hypothèses...

H0 et H1 ne jouent pas des roles symétriques.

En pratique le seul risque controlé est le risque de première espèce(fixé à α), H0 est ainsi l’hypothèse à privilégier, il faut en tenir comptedans le choix des hypothèses.

Exemple1 Mise en circulation d’un nouveau médicament :

H0 : pN = pA contre H1 : pN > pA .

2 Procés d’assise⇒ H0 : "innocent" contre H1 : "coupable".

L. Rouvière (Rennes 2) 172 / 287

Page 336: Statistique - GitHub Pages

Dissymétrie des hypothèses...

H0 et H1 ne jouent pas des roles symétriques.

En pratique le seul risque controlé est le risque de première espèce(fixé à α), H0 est ainsi l’hypothèse à privilégier, il faut en tenir comptedans le choix des hypothèses.

Exemple1 Mise en circulation d’un nouveau médicament :

H0 : pN = pA contre H1 : pN > pA .

2 Procés d’assise⇒ H0 : "innocent" contre H1 : "coupable".

L. Rouvière (Rennes 2) 172 / 287

Page 337: Statistique - GitHub Pages

H0 doit être l’hypothèse à privilégier.

Le choix de H1 intervient dans le choix de la fonction de test (ouencore sur la forme de la zone de rejet du test)

H0 : µ = µ0 vs H1 : µ , µ0

2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Den

sité

0.5α = 2.5%0.5α = 2.5%

RH0 = ] −∞, x1[∪]x2,∞[

H0 : µ = µ0 vs H1 : µ > µ0

2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Den

sité

α = 5%

RH0 = ]x,∞[

L. Rouvière (Rennes 2) 173 / 287

Page 338: Statistique - GitHub Pages

Accepter-rejeter les hypothèses?

Sur l’exemple précédent, on voit que la décision est prise en étudiantla loi d’une statistique de test sous H0.

Pour décider, on regarde si la valeur observée tobs de la statistique detest T tombe dans une zone "raisonnable" sous l’hypothèse nulle H0.

ConclusionSi tobs ∈ AH0 , on dit qu’on accepte l’hypothèse H0 au niveau α.

Si tobs ∈ RH0 , on dit qu’on rejette l’hypothèse H0 au profit de H1 auniveau α.

L. Rouvière (Rennes 2) 174 / 287

Page 339: Statistique - GitHub Pages

Accepter-rejeter les hypothèses?

Sur l’exemple précédent, on voit que la décision est prise en étudiantla loi d’une statistique de test sous H0.

Pour décider, on regarde si la valeur observée tobs de la statistique detest T tombe dans une zone "raisonnable" sous l’hypothèse nulle H0.

ConclusionSi tobs ∈ AH0 , on dit qu’on accepte l’hypothèse H0 au niveau α.

Si tobs ∈ RH0 , on dit qu’on rejette l’hypothèse H0 au profit de H1 auniveau α.

L. Rouvière (Rennes 2) 174 / 287

Page 340: Statistique - GitHub Pages

Accepter-rejeter les hypothèses?

Sur l’exemple précédent, on voit que la décision est prise en étudiantla loi d’une statistique de test sous H0.

Pour décider, on regarde si la valeur observée tobs de la statistique detest T tombe dans une zone "raisonnable" sous l’hypothèse nulle H0.

ConclusionSi tobs ∈ AH0 , on dit qu’on accepte l’hypothèse H0 au niveau α.

Si tobs ∈ RH0 , on dit qu’on rejette l’hypothèse H0 au profit de H1 auniveau α.

L. Rouvière (Rennes 2) 174 / 287

Page 341: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 175 / 287

Page 342: Statistique - GitHub Pages

Définitions

On appelle puissance d’un test la probabilité de rejeter H0 alorsqu’elle est effectivement fausse, c’est-à-dire

η : Θ1 → [0, 1]

θ1 7→ Pθ1(RH0) = 1 − β(θ1).

Soit ϕ1 et ϕ2 deux tests de niveau α. ϕ1 est dit uniformément pluspuissant (UPP) que ϕ2 si

∀θ1 ∈ Θ1 ηϕ1(θ1) ≥ ηϕ2(θ1).

Un test ϕ est dit UPP parmi les tests de niveau α si il est de niveau αet si il est UPP que tout test de niveau α.

L. Rouvière (Rennes 2) 176 / 287

Page 343: Statistique - GitHub Pages

Définitions

On appelle puissance d’un test la probabilité de rejeter H0 alorsqu’elle est effectivement fausse, c’est-à-dire

η : Θ1 → [0, 1]

θ1 7→ Pθ1(RH0) = 1 − β(θ1).

Soit ϕ1 et ϕ2 deux tests de niveau α. ϕ1 est dit uniformément pluspuissant (UPP) que ϕ2 si

∀θ1 ∈ Θ1 ηϕ1(θ1) ≥ ηϕ2(θ1).

Un test ϕ est dit UPP parmi les tests de niveau α si il est de niveau αet si il est UPP que tout test de niveau α.

L. Rouvière (Rennes 2) 176 / 287

Page 344: Statistique - GitHub Pages

Définitions

On appelle puissance d’un test la probabilité de rejeter H0 alorsqu’elle est effectivement fausse, c’est-à-dire

η : Θ1 → [0, 1]

θ1 7→ Pθ1(RH0) = 1 − β(θ1).

Soit ϕ1 et ϕ2 deux tests de niveau α. ϕ1 est dit uniformément pluspuissant (UPP) que ϕ2 si

∀θ1 ∈ Θ1 ηϕ1(θ1) ≥ ηϕ2(θ1).

Un test ϕ est dit UPP parmi les tests de niveau α si il est de niveau αet si il est UPP que tout test de niveau α.

L. Rouvière (Rennes 2) 176 / 287

Page 345: Statistique - GitHub Pages

Un test ϕ de niveau α est dit sans biais si pour tout θ1 ∈ Θ1 on aηϕ(θ1) ≥ α.

ExempleX ∼ N(µ, 1), H0 : µ = 3,H1 : µ > 3, α = 0.05.

RH0 = x : x > q0.95,3,1.

η(µ) = 1 − Fµ,1(q0.95,3,1)pour µ > 3.

2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.1

0.2

0.3

0.4

0.5

0.6

θ

α

Le test est sans biais.

L. Rouvière (Rennes 2) 177 / 287

Page 346: Statistique - GitHub Pages

Un test ϕ de niveau α est dit sans biais si pour tout θ1 ∈ Θ1 on aηϕ(θ1) ≥ α.

ExempleX ∼ N(µ, 1), H0 : µ = 3,H1 : µ > 3, α = 0.05.

RH0 = x : x > q0.95,3,1.

η(µ) = 1 − Fµ,1(q0.95,3,1)pour µ > 3.

2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.1

0.2

0.3

0.4

0.5

0.6

θ

α

Le test est sans biais.

L. Rouvière (Rennes 2) 177 / 287

Page 347: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 178 / 287

Page 348: Statistique - GitHub Pages

Test sur la moyenne d’une loi gaussienne

X1, . . . ,Xn i.i.d. de loi N(µ, 1) avec n = 10. On souhaite testerH0 : µ = 3 contre H1 : µ , 3 au niveau α = 5%.

Statistique de test :

T =√

n(Xn − µ) ∼ N(0, 1).

Sous H0 :T =

√n(Xn − 3) ∼ N(0, 1).

On déduit

RH0 =] −∞, q0.025[∪]q0.975,+∞[=] −∞,−1.96[∪]1.96,+∞[.

On rejette H0 au niveau 5% si Tobs ∈ RH0 .

L. Rouvière (Rennes 2) 179 / 287

Page 349: Statistique - GitHub Pages

Test sur la moyenne d’une loi gaussienne

X1, . . . ,Xn i.i.d. de loi N(µ, 1) avec n = 10. On souhaite testerH0 : µ = 3 contre H1 : µ , 3 au niveau α = 5%.

Statistique de test :

T =√

n(Xn − µ) ∼ N(0, 1).

Sous H0 :T =

√n(Xn − 3) ∼ N(0, 1).

On déduit

RH0 =] −∞, q0.025[∪]q0.975,+∞[=] −∞,−1.96[∪]1.96,+∞[.

On rejette H0 au niveau 5% si Tobs ∈ RH0 .

L. Rouvière (Rennes 2) 179 / 287

Page 350: Statistique - GitHub Pages

Test sur la moyenne d’une loi gaussienne

X1, . . . ,Xn i.i.d. de loi N(µ, 1) avec n = 10. On souhaite testerH0 : µ = 3 contre H1 : µ , 3 au niveau α = 5%.

Statistique de test :

T =√

n(Xn − µ) ∼ N(0, 1).

Sous H0 :T =

√n(Xn − 3) ∼ N(0, 1).

On déduit

RH0 =] −∞, q0.025[∪]q0.975,+∞[=] −∞,−1.96[∪]1.96,+∞[.

On rejette H0 au niveau 5% si Tobs ∈ RH0 .

L. Rouvière (Rennes 2) 179 / 287

Page 351: Statistique - GitHub Pages

Test sur la moyenne d’une loi gaussienne

X1, . . . ,Xn i.i.d. de loi N(µ, 1) avec n = 10. On souhaite testerH0 : µ = 3 contre H1 : µ , 3 au niveau α = 5%.

Statistique de test :

T =√

n(Xn − µ) ∼ N(0, 1).

Sous H0 :T =

√n(Xn − 3) ∼ N(0, 1).

On déduit

RH0 =] −∞, q0.025[∪]q0.975,+∞[=] −∞,−1.96[∪]1.96,+∞[.

On rejette H0 au niveau 5% si Tobs ∈ RH0 .

L. Rouvière (Rennes 2) 179 / 287

Page 352: Statistique - GitHub Pages

Tests sur une moyenne - échantillons gaussiens

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec σ2 connu.

H0 H1 Stat de test RH0 Propriétés

µ = µ0 µ > µ0√

n Xn−µ0σ

x : x > q1−α UPPµ = µ0 µ , µ0

√n Xn−µ0

σx : x < qα/2 ou x > q1−α/2 UPPSB

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec σ2 inconnu.

H0 H1 Stat de test RH0 Propriétés

µ = µ0 µ > µ0√

n Xn−µ0Sn

x : x > t1−α UPP

µ = µ0 µ , µ0√

n Xn−µ0Sn

x : x < tα/2 ou x > t1−α/2 UPPSB

L. Rouvière (Rennes 2) 180 / 287

Page 353: Statistique - GitHub Pages

Tests sur une moyenne - échantillons gaussiens

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec σ2 connu.

H0 H1 Stat de test RH0 Propriétés

µ = µ0 µ > µ0√

n Xn−µ0σ

x : x > q1−α UPPµ = µ0 µ , µ0

√n Xn−µ0

σx : x < qα/2 ou x > q1−α/2 UPPSB

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec σ2 inconnu.

H0 H1 Stat de test RH0 Propriétés

µ = µ0 µ > µ0√

n Xn−µ0Sn

x : x > t1−α UPP

µ = µ0 µ , µ0√

n Xn−µ0Sn

x : x < tα/2 ou x > t1−α/2 UPPSB

L. Rouvière (Rennes 2) 180 / 287

Page 354: Statistique - GitHub Pages

Tests sur une variance - échantillons gaussiens

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec µ connu.

H0 H1 Stat de test RH0 Propriétés

σ2 = σ20 σ2 > σ2

0∑n

i=1(Xi−µ)2

σ20

x : x > χ21−α(n) "UPP"

σ2 = σ20 σ2 , σ2

0∑n

i=1(Xi−µ)2

σ20

x : x < χ2α/2(n) ou x > χ2

1−α/2(n) "UPPSB"

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec µ inconnu.

H0 H1 Stat de test RH0 Propriétés

σ2 = σ20 σ2 > σ2

0∑n

i=1(Xi−X)2

σ20

x : x > χ21−α(n − 1) "UPP"

σ2 = σ20 σ2 , σ2

0∑n

i=1(Xi−X)2

σ20

x : x < χ2α/2(n − 1) ou "UPPSB"

x > χ21−α/2(n − 1)

L. Rouvière (Rennes 2) 181 / 287

Page 355: Statistique - GitHub Pages

Tests sur une variance - échantillons gaussiens

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec µ connu.

H0 H1 Stat de test RH0 Propriétés

σ2 = σ20 σ2 > σ2

0∑n

i=1(Xi−µ)2

σ20

x : x > χ21−α(n) "UPP"

σ2 = σ20 σ2 , σ2

0∑n

i=1(Xi−µ)2

σ20

x : x < χ2α/2(n) ou x > χ2

1−α/2(n) "UPPSB"

X1, . . . ,Xn i.i.d de loi N(µ, σ2) avec µ inconnu.

H0 H1 Stat de test RH0 Propriétés

σ2 = σ20 σ2 > σ2

0∑n

i=1(Xi−X)2

σ20

x : x > χ21−α(n − 1) "UPP"

σ2 = σ20 σ2 , σ2

0∑n

i=1(Xi−X)2

σ20

x : x < χ2α/2(n − 1) ou "UPPSB"

x > χ21−α/2(n − 1)

L. Rouvière (Rennes 2) 181 / 287

Page 356: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 182 / 287

Page 357: Statistique - GitHub Pages

Exemple

On dispose de n1 = 13 observations du poids de poulpes femelles etn2 = 15 observations du poids de poulpes males.

On souhaite vérifier si le sexe a une influence sur le poids.

ModélisationXi v.a. correspondant au poids du ième poulpe femelle, Xi ∼ N(µ1, σ

21).

Yi v.a. correspondant au poids du ième poulpe male, Yi ∼ N(µ2, σ22).

On souhaiter tester les hypothèses H0 : µ1 = µ2 contre H1 : µ1 , µ2.

L. Rouvière (Rennes 2) 183 / 287

Page 358: Statistique - GitHub Pages

Exemple

On dispose de n1 = 13 observations du poids de poulpes femelles etn2 = 15 observations du poids de poulpes males.

On souhaite vérifier si le sexe a une influence sur le poids.

ModélisationXi v.a. correspondant au poids du ième poulpe femelle, Xi ∼ N(µ1, σ

21).

Yi v.a. correspondant au poids du ième poulpe male, Yi ∼ N(µ2, σ22).

On souhaiter tester les hypothèses H0 : µ1 = µ2 contre H1 : µ1 , µ2.

L. Rouvière (Rennes 2) 183 / 287

Page 359: Statistique - GitHub Pages

Exemple

On dispose de n1 = 13 observations du poids de poulpes femelles etn2 = 15 observations du poids de poulpes males.

On souhaite vérifier si le sexe a une influence sur le poids.

ModélisationXi v.a. correspondant au poids du ième poulpe femelle, Xi ∼ N(µ1, σ

21).

Yi v.a. correspondant au poids du ième poulpe male, Yi ∼ N(µ2, σ22).

On souhaiter tester les hypothèses H0 : µ1 = µ2 contre H1 : µ1 , µ2.

L. Rouvière (Rennes 2) 183 / 287

Page 360: Statistique - GitHub Pages

Les statistiques de test

σi connus σi inconnusσ1 = σ2 σ1 , σ2 σ1 = σ2 σ1 , σ2

Stat de test X−Y

σ√

1n1

+ 1n2

X−Y√σ2

1n1

+σ2

2n2

X−Y

S√

1n1

+ 1n2

X−Y√S2

1n1

+S2

2n2

Lois sous H0 N(0, 1) N(0, 1) T (n1 + n2 − 2) ' N(0, 1)

L. Rouvière (Rennes 2) 184 / 287

Page 361: Statistique - GitHub Pages

Test de comparaison de variances

H0 : σ1 = σ2 contre H1 : σ1 , σ2. On note

σ21 = 1

n1

∑n1i=1(Xi − µ1)2 et σ2

2 = 1n2

∑n2i=1(Yi − µ2)2

S21 = 1

n1−1

∑n1i=1(Xi − X)2 et S2

2 = 1n2

∑n2i=1(Yi − Y)2

µ1 et µ2 connus

Sous H0 la statistiqueσ2

1

σ22

suit une loi de Fisher F (n1, n2).

µ1 et µ2 inconnus

Sous H0 la statistiqueS2

1

S22

suit une loi de Fisher F (n1 − 1, n2 − 1).

L. Rouvière (Rennes 2) 185 / 287

Page 362: Statistique - GitHub Pages

Test de comparaison de variances

H0 : σ1 = σ2 contre H1 : σ1 , σ2. On note

σ21 = 1

n1

∑n1i=1(Xi − µ1)2 et σ2

2 = 1n2

∑n2i=1(Yi − µ2)2

S21 = 1

n1−1

∑n1i=1(Xi − X)2 et S2

2 = 1n2

∑n2i=1(Yi − Y)2

µ1 et µ2 connus

Sous H0 la statistiqueσ2

1

σ22

suit une loi de Fisher F (n1, n2).

µ1 et µ2 inconnus

Sous H0 la statistiqueS2

1

S22

suit une loi de Fisher F (n1 − 1, n2 − 1).

L. Rouvière (Rennes 2) 185 / 287

Page 363: Statistique - GitHub Pages

Test de comparaison de variances

H0 : σ1 = σ2 contre H1 : σ1 , σ2. On note

σ21 = 1

n1

∑n1i=1(Xi − µ1)2 et σ2

2 = 1n2

∑n2i=1(Yi − µ2)2

S21 = 1

n1−1

∑n1i=1(Xi − X)2 et S2

2 = 1n2

∑n2i=1(Yi − Y)2

µ1 et µ2 connus

Sous H0 la statistiqueσ2

1

σ22

suit une loi de Fisher F (n1, n2).

µ1 et µ2 inconnus

Sous H0 la statistiqueS2

1

S22

suit une loi de Fisher F (n1 − 1, n2 − 1).

L. Rouvière (Rennes 2) 185 / 287

Page 364: Statistique - GitHub Pages

Exemple des pouples avec R

Test d’égalité des variances.

> var.test(Poids~Sexe,conf.level=0.95,data=poulpes)

F test to compare two variances

data: Poids by SexeF = 0.2883, num df = 12, denom df = 14, p-value = 0.03713alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.0945296 0.9244467sample estimates:ratio of variances

0.2883299

La fonction ne renvoie pas la décision mais une p-value (valeur-p enfrançais) également appelée probabilité critique.

L. Rouvière (Rennes 2) 186 / 287

Page 365: Statistique - GitHub Pages

Exemple des pouples avec R

Test d’égalité des variances.

> var.test(Poids~Sexe,conf.level=0.95,data=poulpes)

F test to compare two variances

data: Poids by SexeF = 0.2883, num df = 12, denom df = 14, p-value = 0.03713alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.0945296 0.9244467sample estimates:ratio of variances

0.2883299

La fonction ne renvoie pas la décision mais une p-value (valeur-p enfrançais) également appelée probabilité critique.

L. Rouvière (Rennes 2) 186 / 287

Page 366: Statistique - GitHub Pages

Probabilité critique

DéfinitionLa probabilité critique est la probabilité que sous H0 la statistique de testprenne une valeur au moins aussi extrême que celle observée.

Calcul de la pcOn note T la statistique de test et tobs la valeur observée.

Si la région de rejet est unilatérale, par exemple x : x > c alorspc = PH0(T > tobs).

Si la région de rejet est bilatérale, par exemple x : x > c1 ou x < c2

alors

pc =

2PH0(T > tobs) si tobs > M2PH0(T < tobs) si tobs < M

L. Rouvière (Rennes 2) 187 / 287

Page 367: Statistique - GitHub Pages

Probabilité critique

DéfinitionLa probabilité critique est la probabilité que sous H0 la statistique de testprenne une valeur au moins aussi extrême que celle observée.

Calcul de la pcOn note T la statistique de test et tobs la valeur observée.

Si la région de rejet est unilatérale, par exemple x : x > c alorspc = PH0(T > tobs).

Si la région de rejet est bilatérale, par exemple x : x > c1 ou x < c2

alors

pc =

2PH0(T > tobs) si tobs > M2PH0(T < tobs) si tobs < M

L. Rouvière (Rennes 2) 187 / 287

Page 368: Statistique - GitHub Pages

Probabilité critique

DéfinitionLa probabilité critique est la probabilité que sous H0 la statistique de testprenne une valeur au moins aussi extrême que celle observée.

Calcul de la pcOn note T la statistique de test et tobs la valeur observée.

Si la région de rejet est unilatérale, par exemple x : x > c alorspc = PH0(T > tobs).

Si la région de rejet est bilatérale, par exemple x : x > c1 ou x < c2

alors

pc =

2PH0(T > tobs) si tobs > M2PH0(T < tobs) si tobs < M

L. Rouvière (Rennes 2) 187 / 287

Page 369: Statistique - GitHub Pages

Interprétation de la probabilité critique

La probabilté critique correspond au niveau de test minimum pourlequel on rejette H0. Ainsi,

si pc ≥ α l’hypothèse nulle est acceptée au niveau α.si pc < α l’hypothèse nulle est rejetée au niveau α.

En pratique...Les logiciels ne renvoient généralement pas la conclusion du testmais la valeur de la probabilité critique.

La décision est prise en comparant cette valeur au niveau fixé parl’utilisateur.

L. Rouvière (Rennes 2) 188 / 287

Page 370: Statistique - GitHub Pages

Interprétation de la probabilité critique

La probabilté critique correspond au niveau de test minimum pourlequel on rejette H0. Ainsi,

si pc ≥ α l’hypothèse nulle est acceptée au niveau α.si pc < α l’hypothèse nulle est rejetée au niveau α.

En pratique...Les logiciels ne renvoient généralement pas la conclusion du testmais la valeur de la probabilité critique.

La décision est prise en comparant cette valeur au niveau fixé parl’utilisateur.

L. Rouvière (Rennes 2) 188 / 287

Page 371: Statistique - GitHub Pages

Interprétation de la probabilité critique

La probabilté critique correspond au niveau de test minimum pourlequel on rejette H0. Ainsi,

si pc ≥ α l’hypothèse nulle est acceptée au niveau α.si pc < α l’hypothèse nulle est rejetée au niveau α.

En pratique...Les logiciels ne renvoient généralement pas la conclusion du testmais la valeur de la probabilité critique.

La décision est prise en comparant cette valeur au niveau fixé parl’utilisateur.

L. Rouvière (Rennes 2) 188 / 287

Page 372: Statistique - GitHub Pages

Exemple pour un test unilatéral

H0 : µ = µ0 vs H1 : µ > µ0.

α = 0.05.

T ∼ N(0, 1) sous H0.

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Zone de rejet

De

nsité

so

us H

0

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Probabilité critique

De

nsité

so

us H

0

Tobs

Conclusion : pc > α donc H0 est acceptée au niveau 5%.

L. Rouvière (Rennes 2) 189 / 287

Page 373: Statistique - GitHub Pages

Exemple pour un test unilatéral

H0 : µ = µ0 vs H1 : µ > µ0.

α = 0.05.

T ∼ N(0, 1) sous H0.

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Zone de rejet

De

nsité

so

us H

0

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Probabilité critique

De

nsité

so

us H

0

Tobs

Conclusion : pc > α donc H0 est acceptée au niveau 5%.

L. Rouvière (Rennes 2) 189 / 287

Page 374: Statistique - GitHub Pages

Exemple pour un test bilatéral

Test d’égalité des variancespour les poulpes.

H0 : σ1 = σ2 vsH1 : σ1 , σ2.

α = 0.05.

T ∼ F (12, 14) sous H0.

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Zone de rejet

De

nsité

so

us H

0

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Probabilité critique

De

nsité

so

us H

0Tobs

pc ≤ α donc H0 est rejetée au profit de H1. On conclut que la variance dela variable poids diffère selon le sexe.

L. Rouvière (Rennes 2) 190 / 287

Page 375: Statistique - GitHub Pages

Exemple pour un test bilatéral

Test d’égalité des variancespour les poulpes.

H0 : σ1 = σ2 vsH1 : σ1 , σ2.

α = 0.05.

T ∼ F (12, 14) sous H0.

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Zone de rejet

De

nsité

so

us H

0

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Probabilité critique

De

nsité

so

us H

0Tobs

pc ≤ α donc H0 est rejetée au profit de H1. On conclut que la variance dela variable poids diffère selon le sexe.

L. Rouvière (Rennes 2) 190 / 287

Page 376: Statistique - GitHub Pages

Comparaison du poids moyen des poulpes

Pour comparer la poids moyen des poulpes, on fait ainsi un testd’égalité de moyenne avec variances inégales.Sur R, on obtient

> t.test(Poids~Sexe,alternative="two.sided",conf.level=0.95,var.equal=FALSE,data=poulpes)

Welch Two Sample t-test

data: Poids by Sexet = -3.7496, df = 22.021, p-value = 0.001107alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:-2010.624 -578.607sample estimates:mean in group Femelle mean in group Male

1405.385 2700.000

Au seuil α = 5%, on conlut que le poids des poulpes est différent selon lesexe.

L. Rouvière (Rennes 2) 191 / 287

Page 377: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 192 / 287

Page 378: Statistique - GitHub Pages

QuestionQue se passe-t-il si les paramètres que l’on souhaite tester ne sont pasgaussiens?

Une réponseDans le cas où la paramètre à tester correspond à l’espérance d’unevariable aléatoire, on utilise souvent l’approximation gaussienne via leTCL.

Nous illustrons cette approche à travers des exemples de tests deproportions.

L. Rouvière (Rennes 2) 193 / 287

Page 379: Statistique - GitHub Pages

QuestionQue se passe-t-il si les paramètres que l’on souhaite tester ne sont pasgaussiens?

Une réponseDans le cas où la paramètre à tester correspond à l’espérance d’unevariable aléatoire, on utilise souvent l’approximation gaussienne via leTCL.

Nous illustrons cette approche à travers des exemples de tests deproportions.

L. Rouvière (Rennes 2) 193 / 287

Page 380: Statistique - GitHub Pages

Test sur le paramètre d’une loi de Bernoulli

X1, . . . ,Xn i.i.d de loi de Bernoulli p0.

H0 : p = p0 contre H1 : p , p0.

TCL :√

np − p√p(1 − p)

L→ N(0, 1).

Sous H0, on fait l’approximation :

Tn =√

np − p0√

p0(1 − p0)∼ N(0, 1).

On déduit RH0 =] −∞,−q1−α/2[∪]q1−α/2,+∞[.

L. Rouvière (Rennes 2) 194 / 287

Page 381: Statistique - GitHub Pages

Test sur le paramètre d’une loi de Bernoulli

X1, . . . ,Xn i.i.d de loi de Bernoulli p0.

H0 : p = p0 contre H1 : p , p0.

TCL :√

np − p√p(1 − p)

L→ N(0, 1).

Sous H0, on fait l’approximation :

Tn =√

np − p0√

p0(1 − p0)∼ N(0, 1).

On déduit RH0 =] −∞,−q1−α/2[∪]q1−α/2,+∞[.

L. Rouvière (Rennes 2) 194 / 287

Page 382: Statistique - GitHub Pages

Test sur le paramètre d’une loi de Bernoulli

X1, . . . ,Xn i.i.d de loi de Bernoulli p0.

H0 : p = p0 contre H1 : p , p0.

TCL :√

np − p√p(1 − p)

L→ N(0, 1).

Sous H0, on fait l’approximation :

Tn =√

np − p0√

p0(1 − p0)∼ N(0, 1).

On déduit RH0 =] −∞,−q1−α/2[∪]q1−α/2,+∞[.

L. Rouvière (Rennes 2) 194 / 287

Page 383: Statistique - GitHub Pages

Exemple

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

Modélisation : on note p la probabilité de recruter une femme et Xi

la va qui prend pour valeur 1 si la ième personne recrutée est unefemme, 0 sinon.H0 : p = 0.5 contre H1 : p , 0.5 au niveau α = 0.05.Sous H0, la statistique

T =√

100p − 0.5√

0.5(1 − 0.5)

suit (approximativement) une loi N(0, 1).RH0 =] −∞,−1.96[∪]1.96,+∞[.Tobs = 2 ∈ RH0 , on rejette H0 au niveau 0.05 (pc = 0.0455).

L. Rouvière (Rennes 2) 195 / 287

Page 384: Statistique - GitHub Pages

Exemple

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

Modélisation : on note p la probabilité de recruter une femme et Xi

la va qui prend pour valeur 1 si la ième personne recrutée est unefemme, 0 sinon.H0 : p = 0.5 contre H1 : p , 0.5 au niveau α = 0.05.Sous H0, la statistique

T =√

100p − 0.5√

0.5(1 − 0.5)

suit (approximativement) une loi N(0, 1).RH0 =] −∞,−1.96[∪]1.96,+∞[.Tobs = 2 ∈ RH0 , on rejette H0 au niveau 0.05 (pc = 0.0455).

L. Rouvière (Rennes 2) 195 / 287

Page 385: Statistique - GitHub Pages

Exemple

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

Modélisation : on note p la probabilité de recruter une femme et Xi

la va qui prend pour valeur 1 si la ième personne recrutée est unefemme, 0 sinon.H0 : p = 0.5 contre H1 : p , 0.5 au niveau α = 0.05.Sous H0, la statistique

T =√

100p − 0.5√

0.5(1 − 0.5)

suit (approximativement) une loi N(0, 1).RH0 =] −∞,−1.96[∪]1.96,+∞[.Tobs = 2 ∈ RH0 , on rejette H0 au niveau 0.05 (pc = 0.0455).

L. Rouvière (Rennes 2) 195 / 287

Page 386: Statistique - GitHub Pages

Exemple

Une entreprise emploie 40 hommes et 60 femmes.

Peut-on affirmer que les recruteurs sont sexistes?

Modélisation : on note p la probabilité de recruter une femme et Xi

la va qui prend pour valeur 1 si la ième personne recrutée est unefemme, 0 sinon.H0 : p = 0.5 contre H1 : p , 0.5 au niveau α = 0.05.Sous H0, la statistique

T =√

100p − 0.5√

0.5(1 − 0.5)

suit (approximativement) une loi N(0, 1).RH0 =] −∞,−1.96[∪]1.96,+∞[.Tobs = 2 ∈ RH0 , on rejette H0 au niveau 0.05 (pc = 0.0455).

L. Rouvière (Rennes 2) 195 / 287

Page 387: Statistique - GitHub Pages

Test de comparaison de deux proportions

X1, . . . ,Xn1 i.i.d de loi B(p1).

Y1, . . . ,Yn1 i.i.d de loi B(p2).

H0 : p1 = p2 contre H1 : p1 , p2.

On note p = n1p1+n2p2n1+n2

et sous H0 on approche la loi de

T =p1 − p2√

p(1 − p)( 1n1

+ 1n2

)

par la loi N(0, 1).

On rejettera donc H0 si

tobs ∈ RH0 =] −∞,−q1−α/2[∪]q1−α/2,+∞[.

L. Rouvière (Rennes 2) 196 / 287

Page 388: Statistique - GitHub Pages

Test de comparaison de deux proportions

X1, . . . ,Xn1 i.i.d de loi B(p1).

Y1, . . . ,Yn1 i.i.d de loi B(p2).

H0 : p1 = p2 contre H1 : p1 , p2.

On note p = n1p1+n2p2n1+n2

et sous H0 on approche la loi de

T =p1 − p2√

p(1 − p)( 1n1

+ 1n2

)

par la loi N(0, 1).

On rejettera donc H0 si

tobs ∈ RH0 =] −∞,−q1−α/2[∪]q1−α/2,+∞[.

L. Rouvière (Rennes 2) 196 / 287

Page 389: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 197 / 287

Page 390: Statistique - GitHub Pages

Motivations

A un âge donné, on a pu observer que parmi les bébés nonprématurés : 50% marchent, 12% ont une ébauche de marche et38% ne marchent pas.

Pour le même âge, sur 80 prématurés, on a observé que 35marchent, 4 ont une ébauche de marche et 41 ne marchent pas.

Les bébés prématurés développent-ils la marche de la même manière queles bébés non-prématurés?

Exemple du nombre de garçons qui suit une loi Binomiale?

Dépendance entre le fait d’avoir survécu et la classe d’appartenancepour les passagers du Titanic.

L. Rouvière (Rennes 2) 198 / 287

Page 391: Statistique - GitHub Pages

Motivations

A un âge donné, on a pu observer que parmi les bébés nonprématurés : 50% marchent, 12% ont une ébauche de marche et38% ne marchent pas.

Pour le même âge, sur 80 prématurés, on a observé que 35marchent, 4 ont une ébauche de marche et 41 ne marchent pas.

Les bébés prématurés développent-ils la marche de la même manière queles bébés non-prématurés?

Exemple du nombre de garçons qui suit une loi Binomiale?

Dépendance entre le fait d’avoir survécu et la classe d’appartenancepour les passagers du Titanic.

L. Rouvière (Rennes 2) 198 / 287

Page 392: Statistique - GitHub Pages

Tests non paramétriques

On peut répondre à ces questions à l’aide de tests statistiques.

Ici, le problème est de confronter la loi d’une variable à une autre loi,ou encore de tester l’indépendance entre deux variables.

Les hypothèses ne vont plus porter sur les paramètres de lois deprobabilités, c’est pourquoi on parle de tests non paramétriques.

L. Rouvière (Rennes 2) 199 / 287

Page 393: Statistique - GitHub Pages

Tests non paramétriques

On peut répondre à ces questions à l’aide de tests statistiques.

Ici, le problème est de confronter la loi d’une variable à une autre loi,ou encore de tester l’indépendance entre deux variables.

Les hypothèses ne vont plus porter sur les paramètres de lois deprobabilités, c’est pourquoi on parle de tests non paramétriques.

L. Rouvière (Rennes 2) 199 / 287

Page 394: Statistique - GitHub Pages

Tests non paramétriques

On peut répondre à ces questions à l’aide de tests statistiques.

Ici, le problème est de confronter la loi d’une variable à une autre loi,ou encore de tester l’indépendance entre deux variables.

Les hypothèses ne vont plus porter sur les paramètres de lois deprobabilités, c’est pourquoi on parle de tests non paramétriques.

L. Rouvière (Rennes 2) 199 / 287

Page 395: Statistique - GitHub Pages

La distance du χ2

Soit X1, . . . ,Xn n va réelles de loi P. On note Pn = 1n∑n

i=1 δXi .

Soit (O1, . . . ,Om) une partition de R, on note pk = P(X1 ∈ Ok ).

Soit Nk =∑n

i=1 1Xi∈Ok .

DéfinitionLa distance du χ2 entre P et Pn est définie par

D(Pn,P) =m∑

k=1

(Nk − npk )2

npk.

ThéorèmeLorsque n → ∞, on a

D(Pn,P)L→ χ2(m − 1).

L. Rouvière (Rennes 2) 200 / 287

Page 396: Statistique - GitHub Pages

La distance du χ2

Soit X1, . . . ,Xn n va réelles de loi P. On note Pn = 1n∑n

i=1 δXi .

Soit (O1, . . . ,Om) une partition de R, on note pk = P(X1 ∈ Ok ).

Soit Nk =∑n

i=1 1Xi∈Ok .

DéfinitionLa distance du χ2 entre P et Pn est définie par

D(Pn,P) =m∑

k=1

(Nk − npk )2

npk.

ThéorèmeLorsque n → ∞, on a

D(Pn,P)L→ χ2(m − 1).

L. Rouvière (Rennes 2) 200 / 287

Page 397: Statistique - GitHub Pages

La distance du χ2

Soit X1, . . . ,Xn n va réelles de loi P. On note Pn = 1n∑n

i=1 δXi .

Soit (O1, . . . ,Om) une partition de R, on note pk = P(X1 ∈ Ok ).

Soit Nk =∑n

i=1 1Xi∈Ok .

DéfinitionLa distance du χ2 entre P et Pn est définie par

D(Pn,P) =m∑

k=1

(Nk − npk )2

npk.

ThéorèmeLorsque n → ∞, on a

D(Pn,P)L→ χ2(m − 1).

L. Rouvière (Rennes 2) 200 / 287

Page 398: Statistique - GitHub Pages

Remarques

D(Pn,P) est une sorte de distance entre la loi empirique Pn et la loithéorique P.

Elle est construite en comparant les effectifs observés Nk auxeffectifs théoriques npk .

Utile pour tester des hypothèses du genre H0 : P = P0 contre H1 : P , P0.En effet,

Sous H0, Dn aura tendance à ne pas prendre de trop grande valeurs

puisque Nk/np.s.→ pk (LFGN).

Sous H1, Dn prendra de fortes valeurs puisque Dnp.s.→ ∞.

L. Rouvière (Rennes 2) 201 / 287

Page 399: Statistique - GitHub Pages

Remarques

D(Pn,P) est une sorte de distance entre la loi empirique Pn et la loithéorique P.

Elle est construite en comparant les effectifs observés Nk auxeffectifs théoriques npk .

Utile pour tester des hypothèses du genre H0 : P = P0 contre H1 : P , P0.En effet,

Sous H0, Dn aura tendance à ne pas prendre de trop grande valeurs

puisque Nk/np.s.→ pk (LFGN).

Sous H1, Dn prendra de fortes valeurs puisque Dnp.s.→ ∞.

L. Rouvière (Rennes 2) 201 / 287

Page 400: Statistique - GitHub Pages

Remarques

D(Pn,P) est une sorte de distance entre la loi empirique Pn et la loithéorique P.

Elle est construite en comparant les effectifs observés Nk auxeffectifs théoriques npk .

Utile pour tester des hypothèses du genre H0 : P = P0 contre H1 : P , P0.En effet,

Sous H0, Dn aura tendance à ne pas prendre de trop grande valeurs

puisque Nk/np.s.→ pk (LFGN).

Sous H1, Dn prendra de fortes valeurs puisque Dnp.s.→ ∞.

L. Rouvière (Rennes 2) 201 / 287

Page 401: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 202 / 287

Page 402: Statistique - GitHub Pages

Le test d’adéquation du χ2

H0 : P = P0 contre H1 : P , P0.Sous H0 la statistique D(Pn,P0)

approx∼ χ2(m − 1).

RH0 =]χ21−α(m − 1),+∞[.

0 5 10 15 20

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Zone de rejet

Dens

ité ch

i2(6)

χ1−α2

RemarqueLe test étant asymptotique, il est recommandé de l’appliquer pour n > 30et np0

k > 5.

L. Rouvière (Rennes 2) 203 / 287

Page 403: Statistique - GitHub Pages

Le test d’adéquation du χ2

H0 : P = P0 contre H1 : P , P0.Sous H0 la statistique D(Pn,P0)

approx∼ χ2(m − 1).

RH0 =]χ21−α(m − 1),+∞[.

0 5 10 15 20

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Zone de rejet

Dens

ité ch

i2(6)

χ1−α2

RemarqueLe test étant asymptotique, il est recommandé de l’appliquer pour n > 30et np0

k > 5.

L. Rouvière (Rennes 2) 203 / 287

Page 404: Statistique - GitHub Pages

Exemple

X : "Marche à l’âge donné" pour les prématurés. 3 modalités (oui,ébauche, non).

H0 : X ∼ P0 contre H1 : X / P0 avec P0(oui) = 0.5,P0(ébauche) = 0.12, P0(non) = 0.38. Risque α = 0.05.

Sous H0 la statistique

Dn =3∑

k=1

(Nk − npk )2

npk

approx∼ χ2(2).

RH0 =]5.991,+∞[.

L. Rouvière (Rennes 2) 204 / 287

Page 405: Statistique - GitHub Pages

Exemple

X : "Marche à l’âge donné" pour les prématurés. 3 modalités (oui,ébauche, non).

H0 : X ∼ P0 contre H1 : X / P0 avec P0(oui) = 0.5,P0(ébauche) = 0.12, P0(non) = 0.38. Risque α = 0.05.

Sous H0 la statistique

Dn =3∑

k=1

(Nk − npk )2

npk

approx∼ χ2(2).

RH0 =]5.991,+∞[.

L. Rouvière (Rennes 2) 204 / 287

Page 406: Statistique - GitHub Pages

Exemple

X : "Marche à l’âge donné" pour les prématurés. 3 modalités (oui,ébauche, non).

H0 : X ∼ P0 contre H1 : X / P0 avec P0(oui) = 0.5,P0(ébauche) = 0.12, P0(non) = 0.38. Risque α = 0.05.

Sous H0 la statistique

Dn =3∑

k=1

(Nk − npk )2

npk

approx∼ χ2(2).

RH0 =]5.991,+∞[.

L. Rouvière (Rennes 2) 204 / 287

Page 407: Statistique - GitHub Pages

oui ébauche non Total

obs 35 4 41 80théo 40 9.6 30.4 80écart 0.625 3.267 3.696 7.588

Dobs ∈ RH0 , on rejette H0 au risque 5%(pc = 1 − Fχ2

2(7.588) = 0.0225).

Sur R, on peut réaliser le test avec les commandes

> x <- c(35,4,41)> p0 <- c(0.5,0.12,0.38)> chisq.test(x,p=p0)

Chi-squared test for given probabilities

data: xX-squared = 7.5877, df = 2, p-value = 0.02251

L. Rouvière (Rennes 2) 205 / 287

Page 408: Statistique - GitHub Pages

oui ébauche non Total

obs 35 4 41 80théo 40 9.6 30.4 80écart 0.625 3.267 3.696 7.588

Dobs ∈ RH0 , on rejette H0 au risque 5%(pc = 1 − Fχ2

2(7.588) = 0.0225).

Sur R, on peut réaliser le test avec les commandes

> x <- c(35,4,41)> p0 <- c(0.5,0.12,0.38)> chisq.test(x,p=p0)

Chi-squared test for given probabilities

data: xX-squared = 7.5877, df = 2, p-value = 0.02251

L. Rouvière (Rennes 2) 205 / 287

Page 409: Statistique - GitHub Pages

oui ébauche non Total

obs 35 4 41 80théo 40 9.6 30.4 80écart 0.625 3.267 3.696 7.588

Dobs ∈ RH0 , on rejette H0 au risque 5%(pc = 1 − Fχ2

2(7.588) = 0.0225).

Sur R, on peut réaliser le test avec les commandes

> x <- c(35,4,41)> p0 <- c(0.5,0.12,0.38)> chisq.test(x,p=p0)

Chi-squared test for given probabilities

data: xX-squared = 7.5877, df = 2, p-value = 0.02251

L. Rouvière (Rennes 2) 205 / 287

Page 410: Statistique - GitHub Pages

Compléments

PropriétéSi la loi P0 dépend de r paramètres, alors ces paramètres sont estimés

(MV par exemple) et dans ce cas, sous H0 D(Pn,P0)L→ χ2

m−r−1.

Exemple du nombre de garçonsH0 : X ∼ B(4, p) contre H1 : X / B(4, p).

Estimateur de p : p = 0.4925.

0 1 2 3 4 Total

obs 3 30 39 23 5 100théo 6.63 25.7 37.48 24.2 5.8 100

Dobs = 2.95 <]7.81,+∞[. On accepte H0 au risque 5%.

L. Rouvière (Rennes 2) 206 / 287

Page 411: Statistique - GitHub Pages

Compléments

PropriétéSi la loi P0 dépend de r paramètres, alors ces paramètres sont estimés

(MV par exemple) et dans ce cas, sous H0 D(Pn,P0)L→ χ2

m−r−1.

Exemple du nombre de garçonsH0 : X ∼ B(4, p) contre H1 : X / B(4, p).

Estimateur de p : p = 0.4925.

0 1 2 3 4 Total

obs 3 30 39 23 5 100théo 6.63 25.7 37.48 24.2 5.8 100

Dobs = 2.95 <]7.81,+∞[. On accepte H0 au risque 5%.

L. Rouvière (Rennes 2) 206 / 287

Page 412: Statistique - GitHub Pages

Compléments

PropriétéSi la loi P0 dépend de r paramètres, alors ces paramètres sont estimés

(MV par exemple) et dans ce cas, sous H0 D(Pn,P0)L→ χ2

m−r−1.

Exemple du nombre de garçonsH0 : X ∼ B(4, p) contre H1 : X / B(4, p).

Estimateur de p : p = 0.4925.

0 1 2 3 4 Total

obs 3 30 39 23 5 100théo 6.63 25.7 37.48 24.2 5.8 100

Dobs = 2.95 <]7.81,+∞[. On accepte H0 au risque 5%.

L. Rouvière (Rennes 2) 206 / 287

Page 413: Statistique - GitHub Pages

Compléments

PropriétéSi la loi P0 dépend de r paramètres, alors ces paramètres sont estimés

(MV par exemple) et dans ce cas, sous H0 D(Pn,P0)L→ χ2

m−r−1.

Exemple du nombre de garçonsH0 : X ∼ B(4, p) contre H1 : X / B(4, p).

Estimateur de p : p = 0.4925.

0 1 2 3 4 Total

obs 3 30 39 23 5 100théo 6.63 25.7 37.48 24.2 5.8 100

Dobs = 2.95 <]7.81,+∞[. On accepte H0 au risque 5%.

L. Rouvière (Rennes 2) 206 / 287

Page 414: Statistique - GitHub Pages

1 Introduction

2 Tests paramétriquesVocabulaireLe principe de Neyman-PearsonPuissance de test - Test UPPExemplesComparaison de deux échantillons gaussiensCas non gaussien

3 Une introduction aux tests non paramétriquesLe test du χ2 d’adéquationLe test du χ2 d’indépendance

L. Rouvière (Rennes 2) 207 / 287

Page 415: Statistique - GitHub Pages

Notations

Soient X et Y deux variables aléatoires à valeurs dans E et F . Onsouhaite tester au niveau α les hypothèses H0 : "X et Y sontindépendantes" contre H1 : "X et Y ne sont pas indépendantes".On se donne (E1, . . . ,EI) et (F1, . . . ,FJ) deux partitions de E et F .On dispose de n mesures du couple (X ,Y) et on désigne par Nij

l’effectif observé dans la classe Ei × Fj .

F1 . . . Fj . . . FJ Total

E1 N11 . . . N1j . . . N1J N1•...

...

Ei Ni1 . . . Nij . . . NiJ Ni•...

...

EI NI1 . . . NIj . . . NIJ NI•

Total N•1 . . . N•j . . . N•J n

L. Rouvière (Rennes 2) 208 / 287

Page 416: Statistique - GitHub Pages

Notations

Soient X et Y deux variables aléatoires à valeurs dans E et F . Onsouhaite tester au niveau α les hypothèses H0 : "X et Y sontindépendantes" contre H1 : "X et Y ne sont pas indépendantes".On se donne (E1, . . . ,EI) et (F1, . . . ,FJ) deux partitions de E et F .On dispose de n mesures du couple (X ,Y) et on désigne par Nij

l’effectif observé dans la classe Ei × Fj .

F1 . . . Fj . . . FJ Total

E1 N11 . . . N1j . . . N1J N1•...

...

Ei Ni1 . . . Nij . . . NiJ Ni•...

...

EI NI1 . . . NIj . . . NIJ NI•

Total N•1 . . . N•j . . . N•J n

L. Rouvière (Rennes 2) 208 / 287

Page 417: Statistique - GitHub Pages

Notations

Soient X et Y deux variables aléatoires à valeurs dans E et F . Onsouhaite tester au niveau α les hypothèses H0 : "X et Y sontindépendantes" contre H1 : "X et Y ne sont pas indépendantes".On se donne (E1, . . . ,EI) et (F1, . . . ,FJ) deux partitions de E et F .On dispose de n mesures du couple (X ,Y) et on désigne par Nij

l’effectif observé dans la classe Ei × Fj .

F1 . . . Fj . . . FJ Total

E1 N11 . . . N1j . . . N1J N1•...

...

Ei Ni1 . . . Nij . . . NiJ Ni•...

...

EI NI1 . . . NIj . . . NIJ NI•

Total N•1 . . . N•j . . . N•J n

L. Rouvière (Rennes 2) 208 / 287

Page 418: Statistique - GitHub Pages

Notations

Soient X et Y deux variables aléatoires à valeurs dans E et F . Onsouhaite tester au niveau α les hypothèses H0 : "X et Y sontindépendantes" contre H1 : "X et Y ne sont pas indépendantes".On se donne (E1, . . . ,EI) et (F1, . . . ,FJ) deux partitions de E et F .On dispose de n mesures du couple (X ,Y) et on désigne par Nij

l’effectif observé dans la classe Ei × Fj .

F1 . . . Fj . . . FJ Total

E1 N11 . . . N1j . . . N1J N1•...

...

Ei Ni1 . . . Nij . . . NiJ Ni•...

...

EI NI1 . . . NIj . . . NIJ NI•

Total N•1 . . . N•j . . . N•J n

L. Rouvière (Rennes 2) 208 / 287

Page 419: Statistique - GitHub Pages

Le test

PropriétéSous H0 la statistique

Xn =I∑

i=1

J∑j=1

(NI•N•J

n − Nij

)2

NI•N•Jn

converge en loi vers la loi χ2(I−1)(J−1)

.

Au niveau α, on rejettera l’hypothèse H0 si Xobs est supérieure auquantile d’ordre 1 − α de la loi du χ2

(I−1)(J−1).

Le test étant asymptotique, il faudra s’assurer en pratique que n > 30et NI•N•J

n > 5.

L. Rouvière (Rennes 2) 209 / 287

Page 420: Statistique - GitHub Pages

Le test

PropriétéSous H0 la statistique

Xn =I∑

i=1

J∑j=1

(NI•N•J

n − Nij

)2

NI•N•Jn

converge en loi vers la loi χ2(I−1)(J−1)

.

Au niveau α, on rejettera l’hypothèse H0 si Xobs est supérieure auquantile d’ordre 1 − α de la loi du χ2

(I−1)(J−1).

Le test étant asymptotique, il faudra s’assurer en pratique que n > 30et NI•N•J

n > 5.

L. Rouvière (Rennes 2) 209 / 287

Page 421: Statistique - GitHub Pages

Le test

PropriétéSous H0 la statistique

Xn =I∑

i=1

J∑j=1

(NI•N•J

n − Nij

)2

NI•N•Jn

converge en loi vers la loi χ2(I−1)(J−1)

.

Au niveau α, on rejettera l’hypothèse H0 si Xobs est supérieure auquantile d’ordre 1 − α de la loi du χ2

(I−1)(J−1).

Le test étant asymptotique, il faudra s’assurer en pratique que n > 30et NI•N•J

n > 5.

L. Rouvière (Rennes 2) 209 / 287

Page 422: Statistique - GitHub Pages

L’exemple du Titanic

X : survécu ou pas, Y : classe.

H0 : "X et Y sont indépendantes" contre H1 : "X et Y ne sont pasindépendantes".

Effectifs observés1 2 3 E Total

oui 203 118 178 212 711non 122 167 528 673 1490

Total 325 285 706 885 2201

Effectifs Théoriques1 2 3 E Total

oui 105 92 228 286 711non 220 192 478 599 1490

Total 325 285 706 885 2201

Xobs = 190.4011 > 0.352 = χ20.95(3), l’hypothèse nulle est donc

(clairement !) rejetée au niveau α.

L. Rouvière (Rennes 2) 210 / 287

Page 423: Statistique - GitHub Pages

L’exemple du Titanic

X : survécu ou pas, Y : classe.

H0 : "X et Y sont indépendantes" contre H1 : "X et Y ne sont pasindépendantes".

Effectifs observés1 2 3 E Total

oui 203 118 178 212 711non 122 167 528 673 1490

Total 325 285 706 885 2201

Effectifs Théoriques1 2 3 E Total

oui 105 92 228 286 711non 220 192 478 599 1490

Total 325 285 706 885 2201

Xobs = 190.4011 > 0.352 = χ20.95(3), l’hypothèse nulle est donc

(clairement !) rejetée au niveau α.

L. Rouvière (Rennes 2) 210 / 287

Page 424: Statistique - GitHub Pages

L’exemple du Titanic

X : survécu ou pas, Y : classe.

H0 : "X et Y sont indépendantes" contre H1 : "X et Y ne sont pasindépendantes".

Effectifs observés1 2 3 E Total

oui 203 118 178 212 711non 122 167 528 673 1490

Total 325 285 706 885 2201

Effectifs Théoriques1 2 3 E Total

oui 105 92 228 286 711non 220 192 478 599 1490

Total 325 285 706 885 2201

Xobs = 190.4011 > 0.352 = χ20.95(3), l’hypothèse nulle est donc

(clairement !) rejetée au niveau α.

L. Rouvière (Rennes 2) 210 / 287

Page 425: Statistique - GitHub Pages

L’exemple du Titanic

X : survécu ou pas, Y : classe.

H0 : "X et Y sont indépendantes" contre H1 : "X et Y ne sont pasindépendantes".

Effectifs observés1 2 3 E Total

oui 203 118 178 212 711non 122 167 528 673 1490

Total 325 285 706 885 2201

Effectifs Théoriques1 2 3 E Total

oui 105 92 228 286 711non 220 192 478 599 1490

Total 325 285 706 885 2201

Xobs = 190.4011 > 0.352 = χ20.95(3), l’hypothèse nulle est donc

(clairement !) rejetée au niveau α.

L. Rouvière (Rennes 2) 210 / 287

Page 426: Statistique - GitHub Pages

Cinquième partie V

Le modèle de régression linéaire

L. Rouvière (Rennes 2) 211 / 287

Page 427: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 212 / 287

Page 428: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 213 / 287

Page 429: Statistique - GitHub Pages

Le problème de régression

On cherche à expliquer une variable Y par p variables X1, . . . ,Xp .

Il s’agit de trouver une fonction m : Rp → R telle queY ≈ m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y = m(X1, . . . ,Xp) + ε.

Modèle de régressionPoser un modèle de régression revient à supposer que la fonction mappartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure"fonction dansM à l’aide d’un n-échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 214 / 287

Page 430: Statistique - GitHub Pages

Le problème de régression

On cherche à expliquer une variable Y par p variables X1, . . . ,Xp .

Il s’agit de trouver une fonction m : Rp → R telle queY ≈ m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y = m(X1, . . . ,Xp) + ε.

Modèle de régressionPoser un modèle de régression revient à supposer que la fonction mappartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure"fonction dansM à l’aide d’un n-échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 214 / 287

Page 431: Statistique - GitHub Pages

Le problème de régression

On cherche à expliquer une variable Y par p variables X1, . . . ,Xp .

Il s’agit de trouver une fonction m : Rp → R telle queY ≈ m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y = m(X1, . . . ,Xp) + ε.

Modèle de régressionPoser un modèle de régression revient à supposer que la fonction mappartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure"fonction dansM à l’aide d’un n-échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 214 / 287

Page 432: Statistique - GitHub Pages

Le problème de régression

On cherche à expliquer une variable Y par p variables X1, . . . ,Xp .

Il s’agit de trouver une fonction m : Rp → R telle queY ≈ m(X1, . . . ,Xp).

Sauf cas (très) particulier, le lien n’est jamais "parfait"

Y = m(X1, . . . ,Xp) + ε.

Modèle de régressionPoser un modèle de régression revient à supposer que la fonction mappartient à un certain espaceM.

Le problème du statisticien sera alors de trouver la "meilleure"fonction dansM à l’aide d’un n-échantillon i.i.d. (X1,Y1), . . . , (Xn,Yn).

L. Rouvière (Rennes 2) 214 / 287

Page 433: Statistique - GitHub Pages

Exemple de modèles

Modèle non paramétriqueL’espaceM est de dimension infinie.

Exemple : On pose Y = m(X1, . . . ,Xp) + ε où m appartient àl’espace des fonctions continues.

Modèle paramétriqueL’espaceM est de dimension finie.

Exemple : on suppose que la fonction m est linéaire

Y = β0 + β1X1 + . . . + βpXp + ε.

Le problème est alors d’estimer β = (β0, β1, . . . , βp) à l’aide de(X1,Y1), . . . , (Xn,Yn).

C’est le modèle de régression linéaire.

L. Rouvière (Rennes 2) 215 / 287

Page 434: Statistique - GitHub Pages

Exemple de modèles

Modèle non paramétriqueL’espaceM est de dimension infinie.

Exemple : On pose Y = m(X1, . . . ,Xp) + ε où m appartient àl’espace des fonctions continues.

Modèle paramétriqueL’espaceM est de dimension finie.

Exemple : on suppose que la fonction m est linéaire

Y = β0 + β1X1 + . . . + βpXp + ε.

Le problème est alors d’estimer β = (β0, β1, . . . , βp) à l’aide de(X1,Y1), . . . , (Xn,Yn).

C’est le modèle de régression linéaire.

L. Rouvière (Rennes 2) 215 / 287

Page 435: Statistique - GitHub Pages

Exemple

On cherche à expliquer ou à prédire la concentration en ozone.

On dispose de n = 112 observations de la concentration en ozoneainsi que de 12 autres variables susceptibles d’expliquer cetteconcentration :

Température relevée à différents moments de la journée.Indice de nébulosité relevé à différents moments de la journée.Direction du vent.Pluie.

QuestionComment expliquer (modéliser) la concentration en ozone à l’aide detoutes ces variables?

L. Rouvière (Rennes 2) 216 / 287

Page 436: Statistique - GitHub Pages

Exemple

On cherche à expliquer ou à prédire la concentration en ozone.

On dispose de n = 112 observations de la concentration en ozoneainsi que de 12 autres variables susceptibles d’expliquer cetteconcentration :

Température relevée à différents moments de la journée.Indice de nébulosité relevé à différents moments de la journée.Direction du vent.Pluie.

QuestionComment expliquer (modéliser) la concentration en ozone à l’aide detoutes ces variables?

L. Rouvière (Rennes 2) 216 / 287

Page 437: Statistique - GitHub Pages

Ozone en fonction de la température à 12h?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

L. Rouvière (Rennes 2) 217 / 287

Page 438: Statistique - GitHub Pages

Ozone en fonction de la température à 12h?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

4060

8010

012

014

016

0

T12

maxO

3

L. Rouvière (Rennes 2) 217 / 287

Page 439: Statistique - GitHub Pages

Ozone en fonction de la température à 12h?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

4060

8010

012

014

016

0

T12

maxO

3

L. Rouvière (Rennes 2) 217 / 287

Page 440: Statistique - GitHub Pages

Ozone en fonction de la température à 12h?

MaxO3 87 82 92 114 94 80 . . .

T12 18.5 18.4 17.6 19.7 20.5 19.8 . . .

15 20 25 30

4060

8010

012

014

016

0

T12

maxO

3

Comment ajuster le nuage de points?

L. Rouvière (Rennes 2) 217 / 287

Page 441: Statistique - GitHub Pages

Ozone en fonction du vent?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

L. Rouvière (Rennes 2) 218 / 287

Page 442: Statistique - GitHub Pages

Ozone en fonction du vent?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

Est Nord Ouest Sud

4060

8010

012

014

016

0

vent

maxO

3

L. Rouvière (Rennes 2) 218 / 287

Page 443: Statistique - GitHub Pages

Ozone en fonction du vent?

MaxO3 87 82 92 114 94 80 . . .

Vent Nord Nord Est Nord Ouest Ouest . . .

Est Nord Ouest Sud

4060

8010

012

014

016

0

vent

maxO

3

MaxO3 ≈ α11Vent=est + . . . + α41Vent=sud .

αj =???

L. Rouvière (Rennes 2) 218 / 287

Page 444: Statistique - GitHub Pages

Ozone en fonction de la température à 12h et du vent?

T12

maxO

3

50

100

150

15 20 25 30

Est

Nord

Ouest

15 20 25 30

50

100

150

Sud

maxO3 ≈

β01 + β11T12 si vent=est

......

β04 + β14T12 si vent=ouest

L. Rouvière (Rennes 2) 219 / 287

Page 445: Statistique - GitHub Pages

Ozone en fonction de la température à 12h et du vent?

T12

maxO

3

50

100

150

15 20 25 30

Est

Nord

Ouest

15 20 25 30

50

100

150

Sud

maxO3 ≈

β01 + β11T12 si vent=est

......

β04 + β14T12 si vent=ouest

L. Rouvière (Rennes 2) 219 / 287

Page 446: Statistique - GitHub Pages

Autre modélisation

Généralisation

maxO3 ≈ β0 + β1V1 + . . . + β12V12

QuestionsComment calculer (ou plutôt estimer) les paramètres βj ?

Le modèle avec les 12 variables est-il "meilleur" que des modèlesavec moins de variables?

Comment trouver le "meilleur" sous-groupe de variables?

L. Rouvière (Rennes 2) 220 / 287

Page 447: Statistique - GitHub Pages

Autre modélisation

Généralisation

maxO3 ≈ β0 + β1V1 + . . . + β12V12

QuestionsComment calculer (ou plutôt estimer) les paramètres βj ?

Le modèle avec les 12 variables est-il "meilleur" que des modèlesavec moins de variables?

Comment trouver le "meilleur" sous-groupe de variables?

L. Rouvière (Rennes 2) 220 / 287

Page 448: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 221 / 287

Page 449: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 222 / 287

Page 450: Statistique - GitHub Pages

Ajustement linéaire d’un nuage de points

Notationsn observations y1, . . . , yn de la variable à expliquer (maxO3).

n observations x1, . . . , xn de la variable explicative (T12).

L. Rouvière (Rennes 2) 223 / 287

Page 451: Statistique - GitHub Pages

Ajustement linéaire d’un nuage de points

Notationsn observations y1, . . . , yn de la variable à expliquer (maxO3).

n observations x1, . . . , xn de la variable explicative (T12).

0.2 0.4 0.6 0.8

1.52.0

2.5

X

Y

L. Rouvière (Rennes 2) 223 / 287

Page 452: Statistique - GitHub Pages

Ajustement linéaire d’un nuage de points

Notationsn observations y1, . . . , yn de la variable à expliquer (maxO3).

n observations x1, . . . , xn de la variable explicative (T12).

0.2 0.4 0.6 0.8

1.52.0

2.5

X

Y

L. Rouvière (Rennes 2) 223 / 287

Page 453: Statistique - GitHub Pages

Ajustement linéaire d’un nuage de points

Notationsn observations y1, . . . , yn de la variable à expliquer (maxO3).

n observations x1, . . . , xn de la variable explicative (T12).

0.2 0.4 0.6 0.8

1.52.0

2.5

X

Y

ProblèmeTrouver la droite qui ajuste "au mieux" le nuage de points (xi , yi)i=1,...,n.

L. Rouvière (Rennes 2) 223 / 287

Page 454: Statistique - GitHub Pages

On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.

Toutes les observations mesurées ne se trouvent pas sur une droite :

yi = β0 + β1xi + εi .

L. Rouvière (Rennes 2) 224 / 287

Page 455: Statistique - GitHub Pages

On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.

Toutes les observations mesurées ne se trouvent pas sur une droite :

yi = β0 + β1xi + εi .

0.2 0.4 0.6 0.8

1.52.0

2.5

X

Y

droite de régressionrésidus : εi

L. Rouvière (Rennes 2) 224 / 287

Page 456: Statistique - GitHub Pages

On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.

Toutes les observations mesurées ne se trouvent pas sur une droite :

yi = β0 + β1xi + εi .

0.2 0.4 0.6 0.8

1.52.0

2.5

X

Y

droite de régressionrésidus : εi

IdéeChercher à minimiser les erreurs ou les bruits εi .

L. Rouvière (Rennes 2) 224 / 287

Page 457: Statistique - GitHub Pages

Le critère des moindres carrés

Critère des MCOn cherche (β0, β1) qui minimisent

n∑i=1

ε2i =

n∑i=1

(yi − β0 − β1xi)2.

SolutionLa solution est donnée par :

β0 = y − β1x et β1 =

∑ni=1(yi − y)(xi − x)∑n

i=1(xi − x)2

à condition que tous les xi ne soient pas égaux.

L. Rouvière (Rennes 2) 225 / 287

Page 458: Statistique - GitHub Pages

Le critère des moindres carrés

Critère des MCOn cherche (β0, β1) qui minimisent

n∑i=1

ε2i =

n∑i=1

(yi − β0 − β1xi)2.

SolutionLa solution est donnée par :

β0 = y − β1x et β1 =

∑ni=1(yi − y)(xi − x)∑n

i=1(xi − x)2

à condition que tous les xi ne soient pas égaux.

L. Rouvière (Rennes 2) 225 / 287

Page 459: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 226 / 287

Page 460: Statistique - GitHub Pages

Début de modélisation statistique

L’idée sous-jacente est que la variable Y est liée à X par une relationlinéaire ou quasi-linéaire.

Sur les observations, la linéarité n’est généralement pas "parfaite".

Hypothèse : cet "écart" à la linéarité est la conséquence dephénomène que l’on ne peut contrôler de manière déterministe(phénomènes aléatoires).

Les erreurs εi , i = 1, . . . , n sont des variables aléatoires.

L. Rouvière (Rennes 2) 227 / 287

Page 461: Statistique - GitHub Pages

Début de modélisation statistique

L’idée sous-jacente est que la variable Y est liée à X par une relationlinéaire ou quasi-linéaire.

Sur les observations, la linéarité n’est généralement pas "parfaite".

Hypothèse : cet "écart" à la linéarité est la conséquence dephénomène que l’on ne peut contrôler de manière déterministe(phénomènes aléatoires).

Les erreurs εi , i = 1, . . . , n sont des variables aléatoires.

L. Rouvière (Rennes 2) 227 / 287

Page 462: Statistique - GitHub Pages

Début de modélisation statistique

L’idée sous-jacente est que la variable Y est liée à X par une relationlinéaire ou quasi-linéaire.

Sur les observations, la linéarité n’est généralement pas "parfaite".

Hypothèse : cet "écart" à la linéarité est la conséquence dephénomène que l’on ne peut contrôler de manière déterministe(phénomènes aléatoires).

Les erreurs εi , i = 1, . . . , n sont des variables aléatoires.

L. Rouvière (Rennes 2) 227 / 287

Page 463: Statistique - GitHub Pages

Le modèle de régression linéaire (V1)

Yi = β0 + β1xi + εi , i = 1, . . . , n

avec

ε1, . . . εn n variables aléatoires indépendantes.

ConséquenceY1, . . . ,Yn sont n variables aléatoires indépendantes.Qu’en est-il pour les xi ?

quantités déterministes?quantités aléatoires?

L’étude des proriétés statistiques du modèle linéaire est quasimentidentique selon la nature des xi , nous les supposerons déterministesdans la suite.

L. Rouvière (Rennes 2) 228 / 287

Page 464: Statistique - GitHub Pages

Le modèle de régression linéaire (V1)

Yi = β0 + β1xi + εi , i = 1, . . . , n

avec

ε1, . . . εn n variables aléatoires indépendantes.

ConséquenceY1, . . . ,Yn sont n variables aléatoires indépendantes.Qu’en est-il pour les xi ?

quantités déterministes?quantités aléatoires?

L’étude des proriétés statistiques du modèle linéaire est quasimentidentique selon la nature des xi , nous les supposerons déterministesdans la suite.

L. Rouvière (Rennes 2) 228 / 287

Page 465: Statistique - GitHub Pages

Le modèle de régression linéaire (V1)

Yi = β0 + β1xi + εi , i = 1, . . . , n

avec

ε1, . . . εn n variables aléatoires indépendantes.

ConséquenceY1, . . . ,Yn sont n variables aléatoires indépendantes.Qu’en est-il pour les xi ?

quantités déterministes?quantités aléatoires?

L’étude des proriétés statistiques du modèle linéaire est quasimentidentique selon la nature des xi , nous les supposerons déterministesdans la suite.

L. Rouvière (Rennes 2) 228 / 287

Page 466: Statistique - GitHub Pages

Le modèle de régression linéaire (V1)

Yi = β0 + β1xi + εi , i = 1, . . . , n

avec

ε1, . . . εn n variables aléatoires indépendantes.

ConséquenceY1, . . . ,Yn sont n variables aléatoires indépendantes.Qu’en est-il pour les xi ?

quantités déterministes?quantités aléatoires?

L’étude des proriétés statistiques du modèle linéaire est quasimentidentique selon la nature des xi , nous les supposerons déterministesdans la suite.

L. Rouvière (Rennes 2) 228 / 287

Page 467: Statistique - GitHub Pages

Premières propriétés

Rappels

β0 = Y − β1x et β1 =

∑ni=1(Yi − Y)(xi − x)∑n

i=1(xi − x)2

PropriétésSous les hypothèses :

1 H1 : E(εi) = 0 pour i = 1, . . . , n.2 H2 : V(εi) = σ2 pour i = 1, . . . , n.

on a1 β0 et β1 sont des estimateurs sans biais.2 Les variances sont données par

V(β0) = σ2

∑ni=1 x2

i

n∑n

i=1(xi − x)2et V(β1) =

σ2∑ni=1(xi − x)2

.

L. Rouvière (Rennes 2) 229 / 287

Page 468: Statistique - GitHub Pages

Premières propriétés

Rappels

β0 = Y − β1x et β1 =

∑ni=1(Yi − Y)(xi − x)∑n

i=1(xi − x)2

PropriétésSous les hypothèses :

1 H1 : E(εi) = 0 pour i = 1, . . . , n.2 H2 : V(εi) = σ2 pour i = 1, . . . , n.

on a1 β0 et β1 sont des estimateurs sans biais.2 Les variances sont données par

V(β0) = σ2

∑ni=1 x2

i

n∑n

i=1(xi − x)2et V(β1) =

σ2∑ni=1(xi − x)2

.

L. Rouvière (Rennes 2) 229 / 287

Page 469: Statistique - GitHub Pages

Premières propriétés

Rappels

β0 = Y − β1x et β1 =

∑ni=1(Yi − Y)(xi − x)∑n

i=1(xi − x)2

PropriétésSous les hypothèses :

1 H1 : E(εi) = 0 pour i = 1, . . . , n.2 H2 : V(εi) = σ2 pour i = 1, . . . , n.

on a1 β0 et β1 sont des estimateurs sans biais.2 Les variances sont données par

V(β0) = σ2

∑ni=1 x2

i

n∑n

i=1(xi − x)2et V(β1) =

σ2∑ni=1(xi − x)2

.

L. Rouvière (Rennes 2) 229 / 287

Page 470: Statistique - GitHub Pages

Résidus

Vocabulaire

Yi = β0 + β1xi : valeur ajustée de Yi par le modèle.

εi = Yi − Yi résidu.

Etant donné xn+1 une nouvelle valeur de la variable X , cherche àestimer yn+1 = β0 + β1xn+1.

Un estimateur naturel est la prévision associée à cette nouvelleobservation Yn+1 :

Yn+1 = β0 + β1xn+1.

L. Rouvière (Rennes 2) 230 / 287

Page 471: Statistique - GitHub Pages

Résidus

Vocabulaire

Yi = β0 + β1xi : valeur ajustée de Yi par le modèle.

εi = Yi − Yi résidu.

Etant donné xn+1 une nouvelle valeur de la variable X , cherche àestimer yn+1 = β0 + β1xn+1.

Un estimateur naturel est la prévision associée à cette nouvelleobservation Yn+1 :

Yn+1 = β0 + β1xn+1.

L. Rouvière (Rennes 2) 230 / 287

Page 472: Statistique - GitHub Pages

Résidus

Vocabulaire

Yi = β0 + β1xi : valeur ajustée de Yi par le modèle.

εi = Yi − Yi résidu.

Etant donné xn+1 une nouvelle valeur de la variable X , cherche àestimer yn+1 = β0 + β1xn+1.

Un estimateur naturel est la prévision associée à cette nouvelleobservation Yn+1 :

Yn+1 = β0 + β1xn+1.

L. Rouvière (Rennes 2) 230 / 287

Page 473: Statistique - GitHub Pages

0.2 0.4 0.6 0.8

1.5

2.0

2.5

X

Y

xi

Yi

εi

Yi

xn+1

Yn+1

L. Rouvière (Rennes 2) 231 / 287

Page 474: Statistique - GitHub Pages

PropriétéOn a

V(Yn+1) = σ2(1n

+(xn+1 − x)2∑n

i=1(xi − x)2

).

La variance de la prévision est d’autant plus faible que :

σ2 est petit (on pouvait s’y attendre...).

xn+1 est proche du centre de gravité des xi (plus difficile de bienprédire vers les extrêmes).

Questions1 Comment mesurer la qualité du modèle?2 Comment tester la valeur des coefficients du modèle?3 Peut-on obtenir des intervalles de confiance pour les paramètres βj

ou pour la prévision Yn+1 ?

L. Rouvière (Rennes 2) 232 / 287

Page 475: Statistique - GitHub Pages

PropriétéOn a

V(Yn+1) = σ2(1n

+(xn+1 − x)2∑n

i=1(xi − x)2

).

La variance de la prévision est d’autant plus faible que :

σ2 est petit (on pouvait s’y attendre...).

xn+1 est proche du centre de gravité des xi (plus difficile de bienprédire vers les extrêmes).

Questions1 Comment mesurer la qualité du modèle?2 Comment tester la valeur des coefficients du modèle?3 Peut-on obtenir des intervalles de confiance pour les paramètres βj

ou pour la prévision Yn+1 ?

L. Rouvière (Rennes 2) 232 / 287

Page 476: Statistique - GitHub Pages

PropriétéOn a

V(Yn+1) = σ2(1n

+(xn+1 − x)2∑n

i=1(xi − x)2

).

La variance de la prévision est d’autant plus faible que :

σ2 est petit (on pouvait s’y attendre...).

xn+1 est proche du centre de gravité des xi (plus difficile de bienprédire vers les extrêmes).

Questions1 Comment mesurer la qualité du modèle?2 Comment tester la valeur des coefficients du modèle?3 Peut-on obtenir des intervalles de confiance pour les paramètres βj

ou pour la prévision Yn+1 ?

L. Rouvière (Rennes 2) 232 / 287

Page 477: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 233 / 287

Page 478: Statistique - GitHub Pages

La loi normale

DéfinitionUne v.a.r X suit une loi normale de paramètres µ ∈ R et σ2 > 0 admetpour densité

f(x) =1√

2πσexp

(−

(x − µ)2

2σ2

).

Propriétés

E[X ] = µ et V[X ] = σ2.

Si X ∼ N(µ, σ2) alorsX − µσ∼ N(0, 1).

L. Rouvière (Rennes 2) 234 / 287

Page 479: Statistique - GitHub Pages

La loi normale

DéfinitionUne v.a.r X suit une loi normale de paramètres µ ∈ R et σ2 > 0 admetpour densité

f(x) =1√

2πσexp

(−

(x − µ)2

2σ2

).

Propriétés

E[X ] = µ et V[X ] = σ2.

Si X ∼ N(µ, σ2) alorsX − µσ∼ N(0, 1).

L. Rouvière (Rennes 2) 234 / 287

Page 480: Statistique - GitHub Pages

Loi du χ2

DéfinitionSoit X1, . . . ,Xn n variables aléatoires réelles indépendantes de loiN(0, 1). La variable Y = X2

1 + . . . + X2n suit une loi du Chi-Deux à n

degrés de liberté. Elle est notée χ2(n).

E[Y ] = n et V[Y ] = 2n.

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15 20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

L. Rouvière (Rennes 2) 235 / 287

Page 481: Statistique - GitHub Pages

Loi de Student

DéfinitionSoient X et Y deux v.a.r. indépendantes de loi N(0, 1) et χ2(n). Alorsla v.a.r.

T =X√

Y/n

suit une loi de student à n degrés de liberté. On note T (x).

E[T ] = 0 et V[T ] = n/(n − 2).

Lorsque n est grand la loi de student à n degrés de liberté peut êtreapprochée par la loi N(0, 1).

L. Rouvière (Rennes 2) 236 / 287

Page 482: Statistique - GitHub Pages

−4 −2 0 2 4

0.00.1

0.20.3

0.4

−4 −2 0 2 4

0.00.1

0.20.3

0.4

−4 −2 0 2 4

0.00.1

0.20.3

0.4

−4 −2 0 2 4

0.00.1

0.20.3

0.4

Densités des lois de student à 2, 5, 10 et 100 degrés de liberté (bleu) etdensité de la loi N(0, 1) (rouge).

L. Rouvière (Rennes 2) 237 / 287

Page 483: Statistique - GitHub Pages

Loi de Fisher

DéfinitionSoient X et Y deux v.a.r indépendantes de lois χ2(m) et χ2(n). Alorsla v.a.r

F =X/mY/m

suit une loi de Ficher à m et n degrés de liberté. On note F (m, n).

Si F ∼ F (m, n) alors 1/F ∼ F (n,m).

0 2 4 6 8 10

0.00.1

0.20.3

0.40.5

0 2 4 6 8 10

0.00.1

0.20.3

0.40.5

0.6

Figure – Densités F (5, 2) et F (10, 4)

L. Rouvière (Rennes 2) 238 / 287

Page 484: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 239 / 287

Page 485: Statistique - GitHub Pages

Hypothèse de normalité

Pour pouvoir faire de l’inférence, il nous faut mettre une loi sur lavariable à expliquer.

H2 : les variables aléatoires εi suivent une loi N(0, σ2).

Remarque

Cette hypothèse revient à supposer que Yi ∼ N(β0 + β1xi , σ2). Elle nous

amène donc à considérer le modèle paramètrique(R, N(β0 + β1xi , σ

2), (β0, β1) ∈ R2).

L. Rouvière (Rennes 2) 240 / 287

Page 486: Statistique - GitHub Pages

Hypothèse de normalité

Pour pouvoir faire de l’inférence, il nous faut mettre une loi sur lavariable à expliquer.

H2 : les variables aléatoires εi suivent une loi N(0, σ2).

Remarque

Cette hypothèse revient à supposer que Yi ∼ N(β0 + β1xi , σ2). Elle nous

amène donc à considérer le modèle paramètrique(R, N(β0 + β1xi , σ

2), (β0, β1) ∈ R2).

L. Rouvière (Rennes 2) 240 / 287

Page 487: Statistique - GitHub Pages

Hypothèse de normalité

Pour pouvoir faire de l’inférence, il nous faut mettre une loi sur lavariable à expliquer.

H2 : les variables aléatoires εi suivent une loi N(0, σ2).

Remarque

Cette hypothèse revient à supposer que Yi ∼ N(β0 + β1xi , σ2). Elle nous

amène donc à considérer le modèle paramètrique(R, N(β0 + β1xi , σ

2), (β0, β1) ∈ R2).

L. Rouvière (Rennes 2) 240 / 287

Page 488: Statistique - GitHub Pages

Lois des estimateurs

σ2 connu1 β0 ∼ N(β0, σ

2β0

) et β1 ∼ N(β1, σ2β1

)

σ2 inconnu

On pose σ2 = 1n−2

∑ni=1 ε

2i = ‖ε‖2

n−2 . On a

1 (n − 2) σ2

σ2 ∼ χ2(n−2)

.

2 (β0, β1) et σ2 sont indépendants.

3 β0−β0σβ0∼ Tn−2.

4 β1−β1σβ1∼ Tn−2.

Il est alors "facile" de construire des intervalles de confiance sur lesparamètres ainsi que des tests d’hypothèses du genre H0 : βj = 0 contreH1 : βj , 0.

L. Rouvière (Rennes 2) 241 / 287

Page 489: Statistique - GitHub Pages

Lois des estimateurs

σ2 connu1 β0 ∼ N(β0, σ

2β0

) et β1 ∼ N(β1, σ2β1

)

σ2 inconnu

On pose σ2 = 1n−2

∑ni=1 ε

2i = ‖ε‖2

n−2 . On a

1 (n − 2) σ2

σ2 ∼ χ2(n−2)

.

2 (β0, β1) et σ2 sont indépendants.

3 β0−β0σβ0∼ Tn−2.

4 β1−β1σβ1∼ Tn−2.

Il est alors "facile" de construire des intervalles de confiance sur lesparamètres ainsi que des tests d’hypothèses du genre H0 : βj = 0 contreH1 : βj , 0.

L. Rouvière (Rennes 2) 241 / 287

Page 490: Statistique - GitHub Pages

Lois des estimateurs

σ2 connu1 β0 ∼ N(β0, σ

2β0

) et β1 ∼ N(β1, σ2β1

)

σ2 inconnu

On pose σ2 = 1n−2

∑ni=1 ε

2i = ‖ε‖2

n−2 . On a

1 (n − 2) σ2

σ2 ∼ χ2(n−2)

.

2 (β0, β1) et σ2 sont indépendants.

3 β0−β0σβ0∼ Tn−2.

4 β1−β1σβ1∼ Tn−2.

Il est alors "facile" de construire des intervalles de confiance sur lesparamètres ainsi que des tests d’hypothèses du genre H0 : βj = 0 contreH1 : βj , 0.

L. Rouvière (Rennes 2) 241 / 287

Page 491: Statistique - GitHub Pages

Lois des estimateurs

σ2 connu1 β0 ∼ N(β0, σ

2β0

) et β1 ∼ N(β1, σ2β1

)

σ2 inconnu

On pose σ2 = 1n−2

∑ni=1 ε

2i = ‖ε‖2

n−2 . On a

1 (n − 2) σ2

σ2 ∼ χ2(n−2)

.

2 (β0, β1) et σ2 sont indépendants.

3 β0−β0σβ0∼ Tn−2.

4 β1−β1σβ1∼ Tn−2.

Il est alors "facile" de construire des intervalles de confiance sur lesparamètres ainsi que des tests d’hypothèses du genre H0 : βj = 0 contreH1 : βj , 0.

L. Rouvière (Rennes 2) 241 / 287

Page 492: Statistique - GitHub Pages

Lois des estimateurs

σ2 connu1 β0 ∼ N(β0, σ

2β0

) et β1 ∼ N(β1, σ2β1

)

σ2 inconnu

On pose σ2 = 1n−2

∑ni=1 ε

2i = ‖ε‖2

n−2 . On a

1 (n − 2) σ2

σ2 ∼ χ2(n−2)

.

2 (β0, β1) et σ2 sont indépendants.

3 β0−β0σβ0∼ Tn−2.

4 β1−β1σβ1∼ Tn−2.

Il est alors "facile" de construire des intervalles de confiance sur lesparamètres ainsi que des tests d’hypothèses du genre H0 : βj = 0 contreH1 : βj , 0.

L. Rouvière (Rennes 2) 241 / 287

Page 493: Statistique - GitHub Pages

Exemple de l’ozone

> reg.simple <- lm(maxO3~T12,data=donnees)> summary(reg.simple)

Call:lm(formula = maxO3 ~ T12, data = donnees)

Residuals:Min 1Q Median 3Q Max

-38.0789 -12.7352 0.2567 11.0029 44.6714

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -27.4196 9.0335 -3.035 0.003 **T12 5.4687 0.4125 13.258 <2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.57 on 110 degrees of freedomMultiple R-squared: 0.6151,Adjusted R-squared: 0.6116F-statistic: 175.8 on 1 and 110 DF, p-value: < 2.2e-16

L. Rouvière (Rennes 2) 242 / 287

Page 494: Statistique - GitHub Pages

Intervalle de confiance de prévision

IC pour Yn+1Yn+1−

+ tn−2(1 − α/2)σ

√1 +

1n

+(xn+1 − x)2∑n

i=1(xi − x)2

.

L. Rouvière (Rennes 2) 243 / 287

Page 495: Statistique - GitHub Pages

Intervalle de confiance de prévision

IC pour Yn+1Yn+1−

+ tn−2(1 − α/2)σ

√1 +

1n

+(xn+1 − x)2∑n

i=1(xi − x)2

.

15 20 25 30

4060

80100

120140

160

T12

maxO

3

Droite de régressionIntervalle de prévision

L. Rouvière (Rennes 2) 243 / 287

Page 496: Statistique - GitHub Pages

Intervalle de confiance de prévision

IC pour Yn+1Yn+1−

+ tn−2(1 − α/2)σ

√1 +

1n

+(xn+1 − x)2∑n

i=1(xi − x)2

.

−50 0 50 100

−200

0200

400600

T12

maxO

3

Droite de régressionIntervalle de prévision

L. Rouvière (Rennes 2) 243 / 287

Page 497: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 244 / 287

Page 498: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 245 / 287

Page 499: Statistique - GitHub Pages

Introduction

La température à 12h n’est pas la seule variable permettantd’expliquer ou de prédire la concentration en ozone.

D’autres variables doivent être prise en compte (nébulosité, force etdirection du vent...).

Nécessité d’étendre le modèle linéaire à plus d’une variableexplicative.

L. Rouvière (Rennes 2) 246 / 287

Page 500: Statistique - GitHub Pages

Notations

Y : variable (aléatoire) à expliquer à valeurs dans R.

X1, . . . ,Xp : p variables explicatives à valeurs dans R.

n observations (x1,Y1), . . . , (xn,Yn) avec xi = (xi1, . . . , xip).

Le modèle de régression linaire multipleLe modèle s’écrit :

Yi = β0 + β1xi1 + . . . + βpxip + εi

où les erreurs aléatoires εi sont i.i.d. de loi N(0, σ2).

L. Rouvière (Rennes 2) 247 / 287

Page 501: Statistique - GitHub Pages

Notations

Y : variable (aléatoire) à expliquer à valeurs dans R.

X1, . . . ,Xp : p variables explicatives à valeurs dans R.

n observations (x1,Y1), . . . , (xn,Yn) avec xi = (xi1, . . . , xip).

Le modèle de régression linaire multipleLe modèle s’écrit :

Yi = β0 + β1xi1 + . . . + βpxip + εi

où les erreurs aléatoires εi sont i.i.d. de loi N(0, σ2).

L. Rouvière (Rennes 2) 247 / 287

Page 502: Statistique - GitHub Pages

Ecriture matricielle

On note

Y =

Y1...

Yn

, X =

1 x11 . . . x1p...

......

1 xn1 . . . xnp

, β =

β0...

βp

, ε =

ε1...

εn

Ecriture matricielleLe modèle se réécrit

Y = Xβ + ε

où ε ∼ N(0, σ2In).

L. Rouvière (Rennes 2) 248 / 287

Page 503: Statistique - GitHub Pages

Ecriture matricielle

On note

Y =

Y1...

Yn

, X =

1 x11 . . . x1p...

......

1 xn1 . . . xnp

, β =

β0...

βp

, ε =

ε1...

εn

Ecriture matricielleLe modèle se réécrit

Y = Xβ + ε

où ε ∼ N(0, σ2In).

L. Rouvière (Rennes 2) 248 / 287

Page 504: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 249 / 287

Page 505: Statistique - GitHub Pages

Estimateurs des moindres carrés

Définition

On appelle estimateur des moindres carrés β de β la statistiquesuivante :

β = argminβ0,...,βp

n∑i=1

(Yi − β0 − β1xi1 − . . . βpxip)2 = argminβ∈Rp+1

‖Y − Xβ‖2.

On note F (X) le s.e.v. de Rn de dimension p + 1 engendré par lesp + 1 colonnes de X.

Chercher l’estimateur des moindres carrés revient à minimiser ladistance entre Y ∈ Rn et F (X).

L. Rouvière (Rennes 2) 250 / 287

Page 506: Statistique - GitHub Pages

Représentation géométrique

F (X)

Y

Y = Xβ

L. Rouvière (Rennes 2) 251 / 287

Page 507: Statistique - GitHub Pages

Expression de l’estimateur des moindres carrés

On déduit que Xβ est le projeté orthogonal de Y sur F (X) :

Xβ = PF (X)(Y) = X(X′X)−1X′Y.

ThéorèmeSi la matrice X est de plein rang, l’estimateur des MC est donné par :

β = (X′X)−1X′Y.

L. Rouvière (Rennes 2) 252 / 287

Page 508: Statistique - GitHub Pages

Expression de l’estimateur des moindres carrés

On déduit que Xβ est le projeté orthogonal de Y sur F (X) :

Xβ = PF (X)(Y) = X(X′X)−1X′Y.

ThéorèmeSi la matrice X est de plein rang, l’estimateur des MC est donné par :

β = (X′X)−1X′Y.

L. Rouvière (Rennes 2) 252 / 287

Page 509: Statistique - GitHub Pages

Expression de l’estimateur des moindres carrés

On déduit que Xβ est le projeté orthogonal de Y sur F (X) :

Xβ = PF (X)(Y) = X(X′X)−1X′Y.

ThéorèmeSi la matrice X est de plein rang, l’estimateur des MC est donné par :

β = (X′X)−1X′Y.

L. Rouvière (Rennes 2) 252 / 287

Page 510: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 253 / 287

Page 511: Statistique - GitHub Pages

Propriété1 β est un estimateur sans biais de β.2 La matrice de variance-covariance de β est donnée par

V(β) = σ2(X′X)−1.

3 β est VUMSB.

Remarque

La log-vraisemblance du modèle (Rn, N(x′i β, σ2)⊗n, β ∈ Rp+1) est

donnée par

L(y1, . . . , yn; β) =n2

log(σ2) −n2

log(2π) −1

2σ2‖Y − Xβ‖2.

Conclusion : l’estimateur du maximum de vraisemblance βMV coïncideavec l’estimateur des moindres carrés β.

L. Rouvière (Rennes 2) 254 / 287

Page 512: Statistique - GitHub Pages

Propriété1 β est un estimateur sans biais de β.2 La matrice de variance-covariance de β est donnée par

V(β) = σ2(X′X)−1.

3 β est VUMSB.

Remarque

La log-vraisemblance du modèle (Rn, N(x′i β, σ2)⊗n, β ∈ Rp+1) est

donnée par

L(y1, . . . , yn; β) =n2

log(σ2) −n2

log(2π) −1

2σ2‖Y − Xβ‖2.

Conclusion : l’estimateur du maximum de vraisemblance βMV coïncideavec l’estimateur des moindres carrés β.

L. Rouvière (Rennes 2) 254 / 287

Page 513: Statistique - GitHub Pages

Propriété1 β est un estimateur sans biais de β.2 La matrice de variance-covariance de β est donnée par

V(β) = σ2(X′X)−1.

3 β est VUMSB.

Remarque

La log-vraisemblance du modèle (Rn, N(x′i β, σ2)⊗n, β ∈ Rp+1) est

donnée par

L(y1, . . . , yn; β) =n2

log(σ2) −n2

log(2π) −1

2σ2‖Y − Xβ‖2.

Conclusion : l’estimateur du maximum de vraisemblance βMV coïncideavec l’estimateur des moindres carrés β.

L. Rouvière (Rennes 2) 254 / 287

Page 514: Statistique - GitHub Pages

Loi des estimateurs

Soit ε = Y − Y le vecteur des résidus et σ2 l’estimateur de σ2 définipar

σ2 =‖ε‖2

n − (p + 1).

Proposition1 β est un vecteur gaussien d’espérance β et de matrice de

variance-covariance σ2(X′X)−1.

2 (n − (p + 1)) σ2

σ2 ∼ χ2n−(p+1)

.

3 β et σ2 sont indépendantes.

L. Rouvière (Rennes 2) 255 / 287

Page 515: Statistique - GitHub Pages

Loi des estimateurs

Soit ε = Y − Y le vecteur des résidus et σ2 l’estimateur de σ2 définipar

σ2 =‖ε‖2

n − (p + 1).

Proposition1 β est un vecteur gaussien d’espérance β et de matrice de

variance-covariance σ2(X′X)−1.

2 (n − (p + 1)) σ2

σ2 ∼ χ2n−(p+1)

.

3 β et σ2 sont indépendantes.

L. Rouvière (Rennes 2) 255 / 287

Page 516: Statistique - GitHub Pages

Loi des estimateurs

Soit ε = Y − Y le vecteur des résidus et σ2 l’estimateur de σ2 définipar

σ2 =‖ε‖2

n − (p + 1).

Proposition1 β est un vecteur gaussien d’espérance β et de matrice de

variance-covariance σ2(X′X)−1.

2 (n − (p + 1)) σ2

σ2 ∼ χ2n−(p+1)

.

3 β et σ2 sont indépendantes.

L. Rouvière (Rennes 2) 255 / 287

Page 517: Statistique - GitHub Pages

Intervalles de confiance et tests

Corollaire

On note σ2j = σ2[X′X]−1

jj pour j = 0, . . . , p. On a

∀j = 0, . . . , p,βj − βj

σj∼ T (n − (p + 1)).

On déduit de ce corollaire :

des intervalles de confiance de niveau 1 − α pour βj .

des procédures de test pour des hypothèses du genre H0 : βj = 0contre H1 : βj , 0.

L. Rouvière (Rennes 2) 256 / 287

Page 518: Statistique - GitHub Pages

Intervalles de confiance et tests

Corollaire

On note σ2j = σ2[X′X]−1

jj pour j = 0, . . . , p. On a

∀j = 0, . . . , p,βj − βj

σj∼ T (n − (p + 1)).

On déduit de ce corollaire :

des intervalles de confiance de niveau 1 − α pour βj .

des procédures de test pour des hypothèses du genre H0 : βj = 0contre H1 : βj , 0.

L. Rouvière (Rennes 2) 256 / 287

Page 519: Statistique - GitHub Pages

Prévision

On dispose d’une nouvelle observation xn+1 = (xn+1,1, . . . , xn+1,p) eton souhaite prédire la valeur yn+1 = x′n+1β associée à cette nouvelleobservation.

Un estimateur (naturel) de yn+1 est yn+1 = x′n+1β.

Un intervalle de confiance de niveau 1 − α pour yn+1 est donné par[yn+1

+ tn−(p+1)(α/2)σ√

x′n+1(X′X)−1xn+1 + 1].

L. Rouvière (Rennes 2) 257 / 287

Page 520: Statistique - GitHub Pages

Prévision

On dispose d’une nouvelle observation xn+1 = (xn+1,1, . . . , xn+1,p) eton souhaite prédire la valeur yn+1 = x′n+1β associée à cette nouvelleobservation.

Un estimateur (naturel) de yn+1 est yn+1 = x′n+1β.

Un intervalle de confiance de niveau 1 − α pour yn+1 est donné par[yn+1

+ tn−(p+1)(α/2)σ√

x′n+1(X′X)−1xn+1 + 1].

L. Rouvière (Rennes 2) 257 / 287

Page 521: Statistique - GitHub Pages

Prévision

On dispose d’une nouvelle observation xn+1 = (xn+1,1, . . . , xn+1,p) eton souhaite prédire la valeur yn+1 = x′n+1β associée à cette nouvelleobservation.

Un estimateur (naturel) de yn+1 est yn+1 = x′n+1β.

Un intervalle de confiance de niveau 1 − α pour yn+1 est donné par[yn+1

+ tn−(p+1)(α/2)σ√

x′n+1(X′X)−1xn+1 + 1].

L. Rouvière (Rennes 2) 257 / 287

Page 522: Statistique - GitHub Pages

Exemple de l’ozone

On considère le modèle de régression multiple :

MaxO3 = β0 + β1T12 + β2T15 + β3N12 + β4V12 + β5MaxO3v + ε.

> reg.multi <- lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)> summary(reg.multi)

Call:lm(formula = maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3v, data = donnees)

Residuals:Min 1Q Median 3Q Max

-54.216 -9.446 -0.896 8.007 41.186

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.04498 13.01591 0.234 0.8155T12 2.47747 1.09257 2.268 0.0254 *T15 0.63177 0.96382 0.655 0.5136Ne12 -1.83560 0.89439 -2.052 0.0426 *Vx12 1.33295 0.58168 2.292 0.0239 *maxO3v 0.34215 0.05989 5.713 1.03e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 14.58 on 106 degrees of freedomMultiple R-squared: 0.7444,Adjusted R-squared: 0.7324F-statistic: 61.75 on 5 and 106 DF, p-value: < 2.2e-16

L. Rouvière (Rennes 2) 258 / 287

Page 523: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 259 / 287

Page 524: Statistique - GitHub Pages

Questions

Le modèle linéaire repose sur certaines hypothèses (normalité deserreurs par exemple), comment les vérifier?

A partir de p variables explicatives, il est possible de construire (aumoins) 2p modèles linéaires, comment choisir le "meilleur"sous-ensemble de variables à inclure dans le modèle?

L. Rouvière (Rennes 2) 260 / 287

Page 525: Statistique - GitHub Pages

Questions

Le modèle linéaire repose sur certaines hypothèses (normalité deserreurs par exemple), comment les vérifier?

A partir de p variables explicatives, il est possible de construire (aumoins) 2p modèles linéaires, comment choisir le "meilleur"sous-ensemble de variables à inclure dans le modèle?

L. Rouvière (Rennes 2) 260 / 287

Page 526: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 261 / 287

Page 527: Statistique - GitHub Pages

Analyse des résidus

Le modèle linéaire

Y = Xβ + ε, ε ∼ N(0, σ2In).

Les erreurs ε sont inconnues. On les estime par εi = Yi − Yi .

Propriété

E(εi) = 0 et V(εi) = σ2(I − PF (X)).

ConséquenceUn moyen de vérifier l’hypothèse de normalité des erreurs est decomparer la distribution des résidus studentisés

εi

σ√

1 − hii

à la distribution gaussienne centrée réduite.

L. Rouvière (Rennes 2) 262 / 287

Page 528: Statistique - GitHub Pages

Analyse des résidus

Le modèle linéaire

Y = Xβ + ε, ε ∼ N(0, σ2In).

Les erreurs ε sont inconnues. On les estime par εi = Yi − Yi .

Propriété

E(εi) = 0 et V(εi) = σ2(I − PF (X)).

ConséquenceUn moyen de vérifier l’hypothèse de normalité des erreurs est decomparer la distribution des résidus studentisés

εi

σ√

1 − hii

à la distribution gaussienne centrée réduite.

L. Rouvière (Rennes 2) 262 / 287

Page 529: Statistique - GitHub Pages

Analyse des résidus

Le modèle linéaire

Y = Xβ + ε, ε ∼ N(0, σ2In).

Les erreurs ε sont inconnues. On les estime par εi = Yi − Yi .

Propriété

E(εi) = 0 et V(εi) = σ2(I − PF (X)).

ConséquenceUn moyen de vérifier l’hypothèse de normalité des erreurs est decomparer la distribution des résidus studentisés

εi

σ√

1 − hii

à la distribution gaussienne centrée réduite.

L. Rouvière (Rennes 2) 262 / 287

Page 530: Statistique - GitHub Pages

Tracé d’un index plot

0 20 40 60 80 100

−4−2

02

Index

Résid

us st

uden

tisés

58

3452

79

18

L’analyse de ce type de graphique est généralement accomgné d’un testd’adéquation des résidus à la loi normale (test de Shapiro-Wilks parexemple).

L. Rouvière (Rennes 2) 263 / 287

Page 531: Statistique - GitHub Pages

Tracé d’un index plot

0 20 40 60 80 100

−4−2

02

Index

Résid

us st

uden

tisés

58

3452

79

18

L’analyse de ce type de graphique est généralement accomgné d’un testd’adéquation des résidus à la loi normale (test de Shapiro-Wilks parexemple).

L. Rouvière (Rennes 2) 263 / 287

Page 532: Statistique - GitHub Pages

Le coefficient de détermination R2

Equation d’analyse de la varianceOn a d’après Pythagore :

‖Y − y1‖2 = ‖Y − y1‖2 + ‖ε‖2

SCT = SCE + SCR

Coefficient de détermination R2

R2 =V. expliquée par le modèle

V. totale=‖Y − y1‖2

‖Y − y1‖2=

SCESCT

.

0 ≤ R2 ≤ 1.

Si R2 = 1, la variabilité est entièrement expliquée par le modèle.

Si R2 = 0, la variabilité se trouve dans la résiduelle (ce qui n’est pastrès bon...).

L. Rouvière (Rennes 2) 264 / 287

Page 533: Statistique - GitHub Pages

Le coefficient de détermination R2

Equation d’analyse de la varianceOn a d’après Pythagore :

‖Y − y1‖2 = ‖Y − y1‖2 + ‖ε‖2

SCT = SCE + SCR

Coefficient de détermination R2

R2 =V. expliquée par le modèle

V. totale=‖Y − y1‖2

‖Y − y1‖2=

SCESCT

.

0 ≤ R2 ≤ 1.

Si R2 = 1, la variabilité est entièrement expliquée par le modèle.

Si R2 = 0, la variabilité se trouve dans la résiduelle (ce qui n’est pastrès bon...).

L. Rouvière (Rennes 2) 264 / 287

Page 534: Statistique - GitHub Pages

Le coefficient de détermination R2

Equation d’analyse de la varianceOn a d’après Pythagore :

‖Y − y1‖2 = ‖Y − y1‖2 + ‖ε‖2

SCT = SCE + SCR

Coefficient de détermination R2

R2 =V. expliquée par le modèle

V. totale=‖Y − y1‖2

‖Y − y1‖2=

SCESCT

.

0 ≤ R2 ≤ 1.

Si R2 = 1, la variabilité est entièrement expliquée par le modèle.

Si R2 = 0, la variabilité se trouve dans la résiduelle (ce qui n’est pastrès bon...).

L. Rouvière (Rennes 2) 264 / 287

Page 535: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 265 / 287

Page 536: Statistique - GitHub Pages

Le test de Fisher global

Modèle

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2).

Hypothèses

H0 : β1 = . . . = βp = 0 contre H1 : ∃j ∈ 1, . . . , pβj , 0.

Sous H0,

F =R2

1 − R2

n − (p + 1)

p∼ Fp,n−(p+1).

On rejette H0 si Fobs > Fp,n−(p+1)(1 − α).

L. Rouvière (Rennes 2) 266 / 287

Page 537: Statistique - GitHub Pages

Le test de Fisher global

Modèle

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2).

Hypothèses

H0 : β1 = . . . = βp = 0 contre H1 : ∃j ∈ 1, . . . , pβj , 0.

Sous H0,

F =R2

1 − R2

n − (p + 1)

p∼ Fp,n−(p+1).

On rejette H0 si Fobs > Fp,n−(p+1)(1 − α).

L. Rouvière (Rennes 2) 266 / 287

Page 538: Statistique - GitHub Pages

Le test de Fisher global

Modèle

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2).

Hypothèses

H0 : β1 = . . . = βp = 0 contre H1 : ∃j ∈ 1, . . . , pβj , 0.

Sous H0,

F =R2

1 − R2

n − (p + 1)

p∼ Fp,n−(p+1).

On rejette H0 si Fobs > Fp,n−(p+1)(1 − α).

L. Rouvière (Rennes 2) 266 / 287

Page 539: Statistique - GitHub Pages

Généralisation

On souhaite tester le modèleM1

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2)

contre le modèleM0

Yi = βqxiq + . . . + βpxip + εi , εi ∼ N(0, σ2).

Cela revient à tester si les q premiers coefficients deM1 sont nuls

H0 : β0 = . . . = βq−1 = 0 contre H1 : ∃j ∈ 0, . . . , q − 1βj , 0.

On parle de test entre modèles emboités carM0 est un cas particulier deM1.

L. Rouvière (Rennes 2) 267 / 287

Page 540: Statistique - GitHub Pages

Généralisation

On souhaite tester le modèleM1

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2)

contre le modèleM0

Yi = βqxiq + . . . + βpxip + εi , εi ∼ N(0, σ2).

Cela revient à tester si les q premiers coefficients deM1 sont nuls

H0 : β0 = . . . = βq−1 = 0 contre H1 : ∃j ∈ 0, . . . , q − 1βj , 0.

On parle de test entre modèles emboités carM0 est un cas particulier deM1.

L. Rouvière (Rennes 2) 267 / 287

Page 541: Statistique - GitHub Pages

Généralisation

On souhaite tester le modèleM1

Yi = β0 + β1xi1 + . . . + βpxip + εi , εi ∼ N(0, σ2)

contre le modèleM0

Yi = βqxiq + . . . + βpxip + εi , εi ∼ N(0, σ2).

Cela revient à tester si les q premiers coefficients deM1 sont nuls

H0 : β0 = . . . = βq−1 = 0 contre H1 : ∃j ∈ 0, . . . , q − 1βj , 0.

On parle de test entre modèles emboités carM0 est un cas particulier deM1.

L. Rouvière (Rennes 2) 267 / 287

Page 542: Statistique - GitHub Pages

Statistique de test

IdéeOn note :

F (X) le s.e.v de dimension p + 1 engendré par les colonnes de X etY la projection de Y sur F .

F0(X) le s.e.v de dimension p − q + 1 engendré par les p − q + 1colonnes de X et Y0 la projection de Y sur F0.

F0(X) ⊂ F (X), l’idée consiste à regarder si Y0 est "proche" de Y :

si Y0 ≈ Y, on choisira le modèleM0 (on acceptera H0).Sinon, on choisira le modèleM1 (on rejettera H0).

L. Rouvière (Rennes 2) 268 / 287

Page 543: Statistique - GitHub Pages

Statistique de test

IdéeOn note :

F (X) le s.e.v de dimension p + 1 engendré par les colonnes de X etY la projection de Y sur F .

F0(X) le s.e.v de dimension p − q + 1 engendré par les p − q + 1colonnes de X et Y0 la projection de Y sur F0.

F0(X) ⊂ F (X), l’idée consiste à regarder si Y0 est "proche" de Y :

si Y0 ≈ Y, on choisira le modèleM0 (on acceptera H0).Sinon, on choisira le modèleM1 (on rejettera H0).

L. Rouvière (Rennes 2) 268 / 287

Page 544: Statistique - GitHub Pages

Statistique de test

IdéeOn note :

F (X) le s.e.v de dimension p + 1 engendré par les colonnes de X etY la projection de Y sur F .

F0(X) le s.e.v de dimension p − q + 1 engendré par les p − q + 1colonnes de X et Y0 la projection de Y sur F0.

F0(X) ⊂ F (X), l’idée consiste à regarder si Y0 est "proche" de Y :

si Y0 ≈ Y, on choisira le modèleM0 (on acceptera H0).Sinon, on choisira le modèleM1 (on rejettera H0).

L. Rouvière (Rennes 2) 268 / 287

Page 545: Statistique - GitHub Pages

Statistique de test

IdéeOn note :

F (X) le s.e.v de dimension p + 1 engendré par les colonnes de X etY la projection de Y sur F .

F0(X) le s.e.v de dimension p − q + 1 engendré par les p − q + 1colonnes de X et Y0 la projection de Y sur F0.

F0(X) ⊂ F (X), l’idée consiste à regarder si Y0 est "proche" de Y :

si Y0 ≈ Y, on choisira le modèleM0 (on acceptera H0).Sinon, on choisira le modèleM1 (on rejettera H0).

L. Rouvière (Rennes 2) 268 / 287

Page 546: Statistique - GitHub Pages

Y

Y

F (X)

F0(X)

Y0

L. Rouvière (Rennes 2) 269 / 287

Page 547: Statistique - GitHub Pages

Le test

Cochran...Sous H0,

F =‖Y0 − Y‖

2/q

‖Y − Y‖2/(n − (p + 1))∼ Fq,n−(p+1).

On rejette H0 si Fobs > Fq,n−(p+1)(1 − α).

L. Rouvière (Rennes 2) 270 / 287

Page 548: Statistique - GitHub Pages

Le test

Cochran...Sous H0,

F =‖Y0 − Y‖

2/q

‖Y − Y‖2/(n − (p + 1))∼ Fq,n−(p+1).

On rejette H0 si Fobs > Fq,n−(p+1)(1 − α).

L. Rouvière (Rennes 2) 270 / 287

Page 549: Statistique - GitHub Pages

Exemple

On considère le modèle

MaxO3 = β0 + β1T12 + β2T15 + β3N12 + β4V12 + β5MaxO3v + ε

et on teste H0 : β2 = β3 = β4 = 0 contre H1 : ∃j ∈ 2, 3, 4 : βj , 0.

> reg0 <- lm(maxO3~T12+maxO3v,data=donnees)> reg1 <- lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)> anova(reg0,reg1)Analysis of Variance Table

Model 1: maxO3 ~ T12 + maxO3vModel 2: maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3vRes.Df RSS Df Sum of Sq F Pr(>F)

1 109 263482 106 22540 3 3808.4 5.97 0.000844 ***

pc = 0.000844 > 0.05, on rejette H0 et on conserve le modèle à 5variables par rapport au modèle à 2 variables.

L. Rouvière (Rennes 2) 271 / 287

Page 550: Statistique - GitHub Pages

Exemple

On considère le modèle

MaxO3 = β0 + β1T12 + β2T15 + β3N12 + β4V12 + β5MaxO3v + ε

et on teste H0 : β2 = β3 = β4 = 0 contre H1 : ∃j ∈ 2, 3, 4 : βj , 0.

> reg0 <- lm(maxO3~T12+maxO3v,data=donnees)> reg1 <- lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)> anova(reg0,reg1)Analysis of Variance Table

Model 1: maxO3 ~ T12 + maxO3vModel 2: maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3vRes.Df RSS Df Sum of Sq F Pr(>F)

1 109 263482 106 22540 3 3808.4 5.97 0.000844 ***

pc = 0.000844 > 0.05, on rejette H0 et on conserve le modèle à 5variables par rapport au modèle à 2 variables.

L. Rouvière (Rennes 2) 271 / 287

Page 551: Statistique - GitHub Pages

Exemple

On considère le modèle

MaxO3 = β0 + β1T12 + β2T15 + β3N12 + β4V12 + β5MaxO3v + ε

et on teste H0 : β2 = β3 = β4 = 0 contre H1 : ∃j ∈ 2, 3, 4 : βj , 0.

> reg0 <- lm(maxO3~T12+maxO3v,data=donnees)> reg1 <- lm(maxO3~T12+T15+Ne12+Vx12+maxO3v,data=donnees)> anova(reg0,reg1)Analysis of Variance Table

Model 1: maxO3 ~ T12 + maxO3vModel 2: maxO3 ~ T12 + T15 + Ne12 + Vx12 + maxO3vRes.Df RSS Df Sum of Sq F Pr(>F)

1 109 263482 106 22540 3 3808.4 5.97 0.000844 ***

pc = 0.000844 > 0.05, on rejette H0 et on conserve le modèle à 5variables par rapport au modèle à 2 variables.

L. Rouvière (Rennes 2) 271 / 287

Page 552: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 272 / 287

Page 553: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 273 / 287

Page 554: Statistique - GitHub Pages

Motivations

Jusqu’à présent, les variables explicatives étaient quantitatives.

Comment généraliser le modèle linéaire à des variables explicativesqualitatives.

ExempleComment expliquer la variable maxO3 par la variable vent (ou pluie)?

L. Rouvière (Rennes 2) 274 / 287

Page 555: Statistique - GitHub Pages

Motivations

Jusqu’à présent, les variables explicatives étaient quantitatives.

Comment généraliser le modèle linéaire à des variables explicativesqualitatives.

ExempleComment expliquer la variable maxO3 par la variable vent (ou pluie)?

L. Rouvière (Rennes 2) 274 / 287

Page 556: Statistique - GitHub Pages

Le modèle

Y variable à expliquer (quantitative) et X variable explicative(qualitative) à J modalités, niveaux ou facteurs.

On dispose de n observations. Soit nj le nombre d’individus pourlesquels on a observé la jème modalité de X .

On ordonne les individus selon les modalités de X :Y Y11 . . . Y1n1 Y21 . . . . . . YJ,nJ

X M1 . . . M1 M2 . . . . . . MJ

Ecriture 1Le modèle d’ANOVA à un facteur s’écrit

Yij = αj + εij , i = 1, . . . , nj , j = 1, . . . J,

avec εij i.i.d. et de loi N(0, σ2).

L. Rouvière (Rennes 2) 275 / 287

Page 557: Statistique - GitHub Pages

Le modèle

Y variable à expliquer (quantitative) et X variable explicative(qualitative) à J modalités, niveaux ou facteurs.

On dispose de n observations. Soit nj le nombre d’individus pourlesquels on a observé la jème modalité de X .

On ordonne les individus selon les modalités de X :Y Y11 . . . Y1n1 Y21 . . . . . . YJ,nJ

X M1 . . . M1 M2 . . . . . . MJ

Ecriture 1Le modèle d’ANOVA à un facteur s’écrit

Yij = αj + εij , i = 1, . . . , nj , j = 1, . . . J,

avec εij i.i.d. et de loi N(0, σ2).

L. Rouvière (Rennes 2) 275 / 287

Page 558: Statistique - GitHub Pages

Ecriture matricielle

n observations (x1,Y1), . . . , (xn,Yn) et on écrit le modèle

Yi = β11xi=M1 + β21xi=M2 + . . . + βJ1xi=MJ + εi

où εi i.i.d. de loi N(0, σ2).Si on note

Y =

Y1...

Yn

, X =

1x1=M1 . . . 1x1=MJ

......

1xn=M1 . . . 1xn=MJ

, β =

β1...

βJ

, ε =

ε1...

εn

.On a alors l’écriture matricielle

Y = Xβ + ε.

Il s’agit d’un modèle de régression multiple pour une matrice Xparticulière.

Tout ce qui a été vu dans les sections précédentes (estimation, tests,résidus...) peut s’appliquer à ce nouveau modèle.

L. Rouvière (Rennes 2) 276 / 287

Page 559: Statistique - GitHub Pages

Ecriture matricielle

n observations (x1,Y1), . . . , (xn,Yn) et on écrit le modèle

Yi = β11xi=M1 + β21xi=M2 + . . . + βJ1xi=MJ + εi

où εi i.i.d. de loi N(0, σ2).Si on note

Y =

Y1...

Yn

, X =

1x1=M1 . . . 1x1=MJ

......

1xn=M1 . . . 1xn=MJ

, β =

β1...

βJ

, ε =

ε1...

εn

.On a alors l’écriture matricielle

Y = Xβ + ε.

Il s’agit d’un modèle de régression multiple pour une matrice Xparticulière.

Tout ce qui a été vu dans les sections précédentes (estimation, tests,résidus...) peut s’appliquer à ce nouveau modèle.

L. Rouvière (Rennes 2) 276 / 287

Page 560: Statistique - GitHub Pages

Ecriture matricielle

n observations (x1,Y1), . . . , (xn,Yn) et on écrit le modèle

Yi = β11xi=M1 + β21xi=M2 + . . . + βJ1xi=MJ + εi

où εi i.i.d. de loi N(0, σ2).Si on note

Y =

Y1...

Yn

, X =

1x1=M1 . . . 1x1=MJ

......

1xn=M1 . . . 1xn=MJ

, β =

β1...

βJ

, ε =

ε1...

εn

.On a alors l’écriture matricielle

Y = Xβ + ε.

Il s’agit d’un modèle de régression multiple pour une matrice Xparticulière.

Tout ce qui a été vu dans les sections précédentes (estimation, tests,résidus...) peut s’appliquer à ce nouveau modèle.

L. Rouvière (Rennes 2) 276 / 287

Page 561: Statistique - GitHub Pages

Ecriture matricielle

n observations (x1,Y1), . . . , (xn,Yn) et on écrit le modèle

Yi = β11xi=M1 + β21xi=M2 + . . . + βJ1xi=MJ + εi

où εi i.i.d. de loi N(0, σ2).Si on note

Y =

Y1...

Yn

, X =

1x1=M1 . . . 1x1=MJ

......

1xn=M1 . . . 1xn=MJ

, β =

β1...

βJ

, ε =

ε1...

εn

.On a alors l’écriture matricielle

Y = Xβ + ε.

Il s’agit d’un modèle de régression multiple pour une matrice Xparticulière.

Tout ce qui a été vu dans les sections précédentes (estimation, tests,résidus...) peut s’appliquer à ce nouveau modèle.

L. Rouvière (Rennes 2) 276 / 287

Page 562: Statistique - GitHub Pages

Un exemple

> reg <- lm(maxO3~vent,data=donnees)> regCall:lm(formula = maxO3 ~ vent, data = donnees)Coefficients:(Intercept) ventNord ventOuest ventSud

105.600 -19.471 -20.900 -3.076

Remarque importanteLa fonction renvoie une estimation pour une constante et pasd’estimation pour la modalité Est.

Le modèle ajusté est le suivant :

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi

muni de la contrainte β1 = 0.

Une telle écriture est moins intuitive mais donne lieu à d’importantesgénéralisations.

L. Rouvière (Rennes 2) 277 / 287

Page 563: Statistique - GitHub Pages

Un exemple

> reg <- lm(maxO3~vent,data=donnees)> regCall:lm(formula = maxO3 ~ vent, data = donnees)Coefficients:(Intercept) ventNord ventOuest ventSud

105.600 -19.471 -20.900 -3.076

Remarque importanteLa fonction renvoie une estimation pour une constante et pasd’estimation pour la modalité Est.

Le modèle ajusté est le suivant :

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi

muni de la contrainte β1 = 0.

Une telle écriture est moins intuitive mais donne lieu à d’importantesgénéralisations.

L. Rouvière (Rennes 2) 277 / 287

Page 564: Statistique - GitHub Pages

Un exemple

> reg <- lm(maxO3~vent,data=donnees)> regCall:lm(formula = maxO3 ~ vent, data = donnees)Coefficients:(Intercept) ventNord ventOuest ventSud

105.600 -19.471 -20.900 -3.076

Remarque importanteLa fonction renvoie une estimation pour une constante et pasd’estimation pour la modalité Est.

Le modèle ajusté est le suivant :

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi

muni de la contrainte β1 = 0.

Une telle écriture est moins intuitive mais donne lieu à d’importantesgénéralisations.

L. Rouvière (Rennes 2) 277 / 287

Page 565: Statistique - GitHub Pages

Un exemple

> reg <- lm(maxO3~vent,data=donnees)> regCall:lm(formula = maxO3 ~ vent, data = donnees)Coefficients:(Intercept) ventNord ventOuest ventSud

105.600 -19.471 -20.900 -3.076

Remarque importanteLa fonction renvoie une estimation pour une constante et pasd’estimation pour la modalité Est.

Le modèle ajusté est le suivant :

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi

muni de la contrainte β1 = 0.

Une telle écriture est moins intuitive mais donne lieu à d’importantesgénéralisations.

L. Rouvière (Rennes 2) 277 / 287

Page 566: Statistique - GitHub Pages

Test de "significativité" du facteur

On souhaite savoir si la variable X à une influence sur Y : la directiondu vent a-t-elle un influence sur la concentration en ozone?On teste donc H0 : β1 = . . . = β4 = 0 contreH1 : ∃j ∈ 1, . . . , 4 : βj , 0 pour le modèle

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi .

Il suffit de reprendre le test de Fisher vu dans la partie précédente.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.69 3.3881 0.02074 *Residuals 108 80606 746.35

pc = 0.02074 < 0.05, on rejette H0. On peut conclure au risque α = 5%que la direction du vent à une influcence sur la concentration en ozone.

L. Rouvière (Rennes 2) 278 / 287

Page 567: Statistique - GitHub Pages

Test de "significativité" du facteur

On souhaite savoir si la variable X à une influence sur Y : la directiondu vent a-t-elle un influence sur la concentration en ozone?On teste donc H0 : β1 = . . . = β4 = 0 contreH1 : ∃j ∈ 1, . . . , 4 : βj , 0 pour le modèle

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi .

Il suffit de reprendre le test de Fisher vu dans la partie précédente.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.69 3.3881 0.02074 *Residuals 108 80606 746.35

pc = 0.02074 < 0.05, on rejette H0. On peut conclure au risque α = 5%que la direction du vent à une influcence sur la concentration en ozone.

L. Rouvière (Rennes 2) 278 / 287

Page 568: Statistique - GitHub Pages

Test de "significativité" du facteur

On souhaite savoir si la variable X à une influence sur Y : la directiondu vent a-t-elle un influence sur la concentration en ozone?On teste donc H0 : β1 = . . . = β4 = 0 contreH1 : ∃j ∈ 1, . . . , 4 : βj , 0 pour le modèle

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi .

Il suffit de reprendre le test de Fisher vu dans la partie précédente.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.69 3.3881 0.02074 *Residuals 108 80606 746.35

pc = 0.02074 < 0.05, on rejette H0. On peut conclure au risque α = 5%que la direction du vent à une influcence sur la concentration en ozone.

L. Rouvière (Rennes 2) 278 / 287

Page 569: Statistique - GitHub Pages

Test de "significativité" du facteur

On souhaite savoir si la variable X à une influence sur Y : la directiondu vent a-t-elle un influence sur la concentration en ozone?On teste donc H0 : β1 = . . . = β4 = 0 contreH1 : ∃j ∈ 1, . . . , 4 : βj , 0 pour le modèle

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi .

Il suffit de reprendre le test de Fisher vu dans la partie précédente.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.69 3.3881 0.02074 *Residuals 108 80606 746.35

pc = 0.02074 < 0.05, on rejette H0. On peut conclure au risque α = 5%que la direction du vent à une influcence sur la concentration en ozone.

L. Rouvière (Rennes 2) 278 / 287

Page 570: Statistique - GitHub Pages

Test de "significativité" du facteur

On souhaite savoir si la variable X à une influence sur Y : la directiondu vent a-t-elle un influence sur la concentration en ozone?On teste donc H0 : β1 = . . . = β4 = 0 contreH1 : ∃j ∈ 1, . . . , 4 : βj , 0 pour le modèle

Yi = β0 + β11xi=Est + β21xi=Nord + β31xi=Ouest + β41xi=Sud + εi .

Il suffit de reprendre le test de Fisher vu dans la partie précédente.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.69 3.3881 0.02074 *Residuals 108 80606 746.35

pc = 0.02074 < 0.05, on rejette H0. On peut conclure au risque α = 5%que la direction du vent à une influcence sur la concentration en ozone.

L. Rouvière (Rennes 2) 278 / 287

Page 571: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 279 / 287

Page 572: Statistique - GitHub Pages

Un exemple

On souhaite expliquer maxO3 par la direction du vent et la pluie.

On dipose de n observations (xi ,Yi) et on écrit le modèle

Yi = β0 + β11xi1=Est + β21xi1=Nord + β31xi1=Ouest +β41xi1=Sud

+β51xi2=pluie+β61xi2=Sec + ε

muni des contraintes β1 = 0 et β5 = 0.

> reg <- lm(maxO3~vent+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ vent + pluie, data = donnees)

Coefficients:(Intercept) ventNord ventOuest ventSud pluieSec

85.123 -16.333 -12.709 -2.101 25.597

L. Rouvière (Rennes 2) 280 / 287

Page 573: Statistique - GitHub Pages

Un exemple

On souhaite expliquer maxO3 par la direction du vent et la pluie.

On dipose de n observations (xi ,Yi) et on écrit le modèle

Yi = β0 + β11xi1=Est + β21xi1=Nord + β31xi1=Ouest +β41xi1=Sud

+β51xi2=pluie+β61xi2=Sec + ε

muni des contraintes β1 = 0 et β5 = 0.

> reg <- lm(maxO3~vent+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ vent + pluie, data = donnees)

Coefficients:(Intercept) ventNord ventOuest ventSud pluieSec

85.123 -16.333 -12.709 -2.101 25.597

L. Rouvière (Rennes 2) 280 / 287

Page 574: Statistique - GitHub Pages

Test de signicativité des facteurs

Une fois de plus, c’est le test de Fisher qui nous permet de tester lasignificativité des variables explicatives dans le modèle.

On réalise les deux tests de Fisher pour les hypothèses :

H0 : β1 = . . . = β4 = 0 contre H1 : ∃j ∈ 1, . . . , 4 : βj , 0.

H0 : β5 = β6 = 0 contre H1 : ∃j ∈ 5, 6 : βj , 0.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.7 4.1984 0.007514 **pluie 1 16159 16159.4 26.8295 1.052e-06 ***Residuals 107 64446 602.3

L. Rouvière (Rennes 2) 281 / 287

Page 575: Statistique - GitHub Pages

Test de signicativité des facteurs

Une fois de plus, c’est le test de Fisher qui nous permet de tester lasignificativité des variables explicatives dans le modèle.

On réalise les deux tests de Fisher pour les hypothèses :

H0 : β1 = . . . = β4 = 0 contre H1 : ∃j ∈ 1, . . . , 4 : βj , 0.

H0 : β5 = β6 = 0 contre H1 : ∃j ∈ 5, 6 : βj , 0.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.7 4.1984 0.007514 **pluie 1 16159 16159.4 26.8295 1.052e-06 ***Residuals 107 64446 602.3

L. Rouvière (Rennes 2) 281 / 287

Page 576: Statistique - GitHub Pages

Test de signicativité des facteurs

Une fois de plus, c’est le test de Fisher qui nous permet de tester lasignificativité des variables explicatives dans le modèle.

On réalise les deux tests de Fisher pour les hypothèses :

H0 : β1 = . . . = β4 = 0 contre H1 : ∃j ∈ 1, . . . , 4 : βj , 0.

H0 : β5 = β6 = 0 contre H1 : ∃j ∈ 5, 6 : βj , 0.

> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

vent 3 7586 2528.7 4.1984 0.007514 **pluie 1 16159 16159.4 26.8295 1.052e-06 ***Residuals 107 64446 602.3

L. Rouvière (Rennes 2) 281 / 287

Page 577: Statistique - GitHub Pages

Conclusion

Les variables expliquatives quantitatives et qualitatives ont ététraitées séparément dans ce chapitre.Bien évidemment, en pratique il convient de les traiter ensemble (ilsuffit d’écrire correctement la partie quantitative et la partie qualitativedu modèle).

Exemple

maxO3 = β0 + β1T12 + β2Ne15 + β31pluie + β41sec + ε

muni de la contrainte β3 = 0.

> reg <- lm(maxO3~T12+Ne15+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ T12 + Ne15 + pluie, data = donnees)

Coefficients:(Intercept) T12 Ne15 pluieSec

-5.978 4.594 -1.613 8.413

L. Rouvière (Rennes 2) 282 / 287

Page 578: Statistique - GitHub Pages

Conclusion

Les variables expliquatives quantitatives et qualitatives ont ététraitées séparément dans ce chapitre.Bien évidemment, en pratique il convient de les traiter ensemble (ilsuffit d’écrire correctement la partie quantitative et la partie qualitativedu modèle).

Exemple

maxO3 = β0 + β1T12 + β2Ne15 + β31pluie + β41sec + ε

muni de la contrainte β3 = 0.

> reg <- lm(maxO3~T12+Ne15+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ T12 + Ne15 + pluie, data = donnees)

Coefficients:(Intercept) T12 Ne15 pluieSec

-5.978 4.594 -1.613 8.413

L. Rouvière (Rennes 2) 282 / 287

Page 579: Statistique - GitHub Pages

Conclusion

Les variables expliquatives quantitatives et qualitatives ont ététraitées séparément dans ce chapitre.Bien évidemment, en pratique il convient de les traiter ensemble (ilsuffit d’écrire correctement la partie quantitative et la partie qualitativedu modèle).

Exemple

maxO3 = β0 + β1T12 + β2Ne15 + β31pluie + β41sec + ε

muni de la contrainte β3 = 0.

> reg <- lm(maxO3~T12+Ne15+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ T12 + Ne15 + pluie, data = donnees)

Coefficients:(Intercept) T12 Ne15 pluieSec

-5.978 4.594 -1.613 8.413

L. Rouvière (Rennes 2) 282 / 287

Page 580: Statistique - GitHub Pages

Conclusion

Les variables expliquatives quantitatives et qualitatives ont ététraitées séparément dans ce chapitre.Bien évidemment, en pratique il convient de les traiter ensemble (ilsuffit d’écrire correctement la partie quantitative et la partie qualitativedu modèle).

Exemple

maxO3 = β0 + β1T12 + β2Ne15 + β31pluie + β41sec + ε

muni de la contrainte β3 = 0.

> reg <- lm(maxO3~T12+Ne15+pluie,data=donnees)> reg

Call:lm(formula = maxO3 ~ T12 + Ne15 + pluie, data = donnees)

Coefficients:(Intercept) T12 Ne15 pluieSec

-5.978 4.594 -1.613 8.413

L. Rouvière (Rennes 2) 282 / 287

Page 581: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 283 / 287

Page 582: Statistique - GitHub Pages

Un exemple de sélection de variables

> reg <- lm(maxO3~.,data=donnees)> anova(reg)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

T9 1 43138 43138 205.0160 < 2.2e-16 ***T12 1 11125 11125 52.8706 9.165e-11 ***T15 1 876 876 4.1619 0.0440614 *Ne9 1 3244 3244 15.4170 0.0001613 ***Ne12 1 232 232 1.1035 0.2961089Ne15 1 5 5 0.0248 0.8752847Vx9 1 2217 2217 10.5355 0.0016079 **Vx12 1 1 1 0.0049 0.9443039Vx15 1 67 67 0.3186 0.5737491maxO3v 1 6460 6460 30.6993 2.584e-07 ***vent 3 234 78 0.3709 0.7741473pluie 1 183 183 0.8694 0.3534399Residuals 97 20410 210---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

L. Rouvière (Rennes 2) 284 / 287

Page 583: Statistique - GitHub Pages

Méthode pas à pas

> reg1 <- step(reg,direction="backward")> anova(reg1)Analysis of Variance Table

Response: maxO3Df Sum Sq Mean Sq F value Pr(>F)

T12 1 54244 54244 276.777 < 2.2e-16 ***Ne9 1 3579 3579 18.260 4.193e-05 ***Vx9 1 2035 2035 10.385 0.001684 **maxO3v 1 7364 7364 37.572 1.499e-08 ***Residuals 107 20970 196---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

L. Rouvière (Rennes 2) 285 / 287

Page 584: Statistique - GitHub Pages

1 Introduction2 La régression linéaire simple

Ajustement par moindres carrésPropriétés des estimateursQuelques lois de probabilitésInférence statistique

3 La régression multipleNotations et modélisationEstimateur des moindres carrésPropriétés statistiques

4 Validation et choix de modèlesRésidus et coefficient de déterminationTests entre modèles emboités

5 Analyse de la varianceModèle à un facteurANOVA à deux facteursSélection de modèles

6 Bibliographie

L. Rouvière (Rennes 2) 286 / 287

Page 585: Statistique - GitHub Pages

Références I

L. Rouvière (Rennes 2) 287 / 287