108

Poly.pdf pdf

  • Upload
    vuthuan

  • View
    236

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Poly.pdf pdf

Statistiques 1

M1 BI-EEET-AETPF-NSA

Page 2: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

� 2 �

Page 3: Poly.pdf pdf

Table des matières

1 Statistiques descriptives 71.1 Statistiques descriptives : introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Objectif des statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.3 Typologie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.4 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Statistiques descriptives univariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.1 Synthèse de la distribution d'une série statistique . . . . . . . . . . . . . . . . . . . . . . . 81.2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.1 Cas de deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Notions d'échantillonnage 212.1 Pourquoi l'échantillon ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2 Comment constituer un échantillon ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3 Erreur d'échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Utilisation d'un modèle probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.6 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Rappels de probabilité 253.1 Ce qu'il faudra retenir de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Quelques dé�nitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.3 Réalisation d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.4 Domaine de dé�nition d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3 Caractéristiques d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Loi de probabilité ou distribution de probabilité . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Espérance et variance (écart-type) d'une variable aléatoire . . . . . . . . . . . . . . . . . . 30

3.4 Indépendance et covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 323.4.1 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4.2 Covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4.3 Coe�cient de corrélation linéaire de deux variables aléatoires . . . . . . . . . . . . . . . . 32

3.5 Modélisation mathématique : les lois classiques et le cas général . . . . . . . . . . . . . . . . . . . 333.5.1 Qu'est-ce qu'un modèle ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.5.2 Les distributions usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Estimation 394.1 Présentation de l'exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2 Démarche de l'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2.1 Formalisation de l'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2.2 Estimateur et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.3 Construction de l'intervalle de con�ance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.1 Qualité de l'estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.2 Méthodes d'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4 Quelques estimateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3

Page 4: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

4.4.1 Estimation de la moyenne, variance connue . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.2 Estimation de la moyenne, variance inconnue . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.3 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.4.4 Estimation d'une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5 Tests 515.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2 Démarche d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2.1 Formalisation d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.2.2 Tester sans modèle ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2.3 Principe d'un test paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.2.4 Que change l'hypothèse alternative ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.2.5 Risques d'erreur et puissance d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3 Principaux tests de comparaison à une valeur de référence à connaître . . . . . . . . . . . . . . . 595.3.1 Synthèse : comparaison d'une moyenne à une valeur de référence, variance connue . . . . 595.3.2 Exercice : comparaison d'une moyenne à une valeur de référence, variance inconnue . . . . 595.3.3 Comparaison d'une variance à une valeur de référence . . . . . . . . . . . . . . . . . . . . 61

5.4 Comparaison de deux populations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.4.1 Comparaison de deux moyennes, variances homogènes (méthode des lots) . . . . . . . . . 625.4.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.4.3 Que se passe-t-il lorsque les échantillons sont appariés ? (méthode des couples) . . . . . . 66

5.5 Autres tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.5.1 Test de comparaison d'une proportion à une valeur de référence . . . . . . . . . . . . . . . 675.5.2 Test d'ajustement du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.5.3 Test du chi-deux d'indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.6 Lien entre intervalles de con�ance et tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Analyse de la variance à un facteur 716.1 Présentation du problème et des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.1.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.1.3 La structure du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.1.4 Quelques statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

6.2 Exercice : Comparaison de la taille des oeufs chez les espèces esp1 et esp6 . . . . . . . . . . . . . 756.3 Modèle, estimation et véri�cation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806.3.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806.3.4 Véri�cation des hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.4.1 Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.4.2 Test des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 856.4.3 Coe�cient de détermination, estimation de la variance . . . . . . . . . . . . . . . . . . . . 87

6.5 Exercice : Choix des contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.6 Comparaison deux à deux, test multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.6.1 Intérêt de l'ANOVA par rapport au test de Student pour la comparaison de deux moyennes 916.6.2 Correction pour les tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7 Régression linéaire simple 957.1 Présentation du problème et des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.1.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.1.3 Quelques statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.2 Modèle, estimation et véri�cation des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 977.2.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977.2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.2.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 997.2.4 Véri�cation des hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

� 4 �

Page 5: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

7.3.1 Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1027.3.2 Coe�cient de détermination, estimation de la variance . . . . . . . . . . . . . . . . . . . . 103

7.4 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047.5 Synthèse : régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.6 Synthèse : étude du lien entre deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

� 5 �

Page 6: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

� 6 �

Page 7: Poly.pdf pdf

Chapitre 1

Statistiques descriptives

1.1 Statistiques descriptives : introduction

1.1.1 Les données

Un jardinier souhaite connaître les caractéristiques des gousses de quatre espèces di�érentes de plantesprésentes sur son terrain. Il ramasse 252 gousses et relève sur chacune d'elles sa masse, sa masse sèche, sa taille,son espèce et le nombre de graines de la gousse. Voici les données recueillies par le jardinier :

> head(mesures)

masse taille graines masse_sec espece

1 28.6 19.1 4 9.3 glycine blanche

2 20.6 14.8 3 7.7 glycine blanche

3 29.2 19.7 5 10.4 glycine blanche

4 32.0 21.1 7 11.5 glycine blanche

5 24.5 19.4 4 8.4 glycine blanche

6 29.0 19.5 4 10.3 glycine blanche

> str(mesures)

'data.frame': 252 obs. of 5 variables:

$ masse : num 28.6 20.6 29.2 32 24.5 29 28.9 18.2 7.9 15.5 ...

$ taille : num 19.1 14.8 19.7 21.1 19.4 19.5 18.9 14.6 10.2 14.6 ...

$ graines : num 4 3 5 7 4 4 4 2 1 2 ...

$ masse_sec: num 9.3 7.7 10.4 11.5 8.4 10.3 10.1 6.3 2.7 5.5 ...

$ espece : Factor w/ 4 levels "bignone","glycine blanche",..: 2 2 2 2 2 2 2 2 2 2 ...

Le jardinier cherche à caractériser dans leur ensemble les données qu'il a recueillies.

1.1.2 Objectif des statistiques descriptives

Les statistiques descriptives visent à étudier les caractéristiques d'un ensemble d'observations que l'on ap-pelle échantillon, par exemple les mesures obtenues lors d'une expérience scienti�que. C'est l'étape préliminaireà toute étude statistique. Il s'agit de prendre "contact" avec les observations, résumer l'information disponible,mettre en évidence d'éventuelles tendances dans les données, situer une observation (un individu) parmi l'en-semble des observations (les individus de l'échantillon) et ainsi identi�er d'éventuelles valeurs extrêmes et indi-vidus atypiques.

Chaque caractéristique observée dans l'échantillon est appelée variable.

L'analyse statistique descriptive comprend communément deux types de représentation :

1. des valeurs numériques résumant l'échantillon,

2. des graphiques permettant de visualiser rapidement les principales caractéristiques des données.

On décrit d'abord les données en étudiant chacune des variables séparément, on parle de statistiques des-criptives univariées (Section 1.2). On peut ensuite étudier deux variables simultanément, on met alors en ÷uvreles statistiques descriptives bivariées (Section 1.3). Il est possible d'analyser conjointement plus de deux va-riables, on fait alors appel aux outils de statistiques descriptives multivariées tels que l'Analyse en Composantesprincipales (ACP), l'Analyse des Correspondances Multiples (ACM), . . . (hors programme).

7

Page 8: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

1.1.3 Typologie des variables

Les outils graphiques et/ou numériques utilisés en statistique descriptive dépendent du type de données. Ondistingue deux types de variables :

• les variables quantitatives : une variable est dite quantitative quand toutes ses valeurs possibles sontnumériques. Une variable quantitative sera dite discrète si elle prend un nombre �ni (ou dénombrable)de valeurs (par exemple, les valeurs entières). Elle sera dite continue si elle prend toutes les valeurs d'unintervalle �ni ou in�ni.

• les variables qualitatives : une variable est dite qualitative lorsque ses valeurs possibles sont des ca-tégories et non des nombres. Les valeurs possibles d'une variable qualitative sont appelées modalités.On distingue deux types de variables qualitatives : les variables qualitatives nominales et les variablesqualitatives ordinales. Les variables qualitatives nominales sont des variables pour lesquelles il n'y apas d'ordre entre les modalités. Par exemple, le sexe est une variable à deux modalités possibles : fémi-nin ou masculin. Il n'y a pas d'ordre entre ces deux catégories : le sexe est bien une variable qualitativenominale. Les variables qualitatives ordinales sont des variables qui contiennent un ordre. Ce serait lecas par exemple du degré de satisfaction par rapport à un fournisseur, avec des modalités "très satisfait","satisfait", "insatisfait", "très insatisfait".

Remarque : Il arrive que les modalités d'une variable qualitative soient représentées par des chi�res. Parexemple, il peut arriver de renseigner le sexe de cette façon : 0 (féminin), 1 (masculin). Attention, dans cecas, ces chi�res ne sont pas interprétables en tant que valeurs numériques. Aussi, calculer une moyenne ou unevariance n'aurait aucun sens.

1.1.4 Exercice

1. Quelle est la taille de l'échantillon recueilli par le jardinier ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Combien y a-t-il de variables ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Quelle est leur nature : qualitative, quantitative discrète ou quantitative continue ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Statistiques descriptives univariées

1.2.1 Synthèse de la distribution d'une série statistique

Lorsqu'il s'agit de résumer l'information contenue dans les données recueillies, on utilise des graphiques etdes indicateurs numériques. Les principaux indicateurs utilisés sont :

• les indicateurs de tendance centrale ou indicateurs de position, qui informent sur l'ordre de gran-deur des valeurs constituant la série ainsi que les positions où semblent se concentrer les valeurs de cettesérie,

• les indicateurs de dispersion ou indicateurs de variabilité qui permettent de caractériser la répar-tition des observations les unes par rapport aux autres ou encore autour d'une valeur centrale.

Série statistique

On appelle série statistique la suite des valeurs prises par une variable sur les individus observés (i.e. lesindividus qui constituent l'échantillon). Si on note n le nombre d'individus observés, les valeurs de la variableX seront notées x1, x2, . . . , xn (xi, étant la valeur de la variable X observée sur le ieme individu).

Une série statistique correspondant à une variable qualitative est souvent livrée sous la forme d'un tableau,qui regroupe les e�ectifs des di�érentes modalités (tableau de contingence), éventuellement rapporté à l'ef-fectif total de l'échantillon observé (tableau de fréquences).

� 8 �

Page 9: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Voici les données du jardinier pour les espèces des gousses :

• sous forme de tableau de contingence

> table(mesures$espece)

bignone glycine blanche glycine violette laurier rose

70 54 56 72

• sous forme de tableau de fréquences

> prop.table(table(mesures$espece))

bignone glycine blanche glycine violette laurier rose

0.2777778 0.2142857 0.2222222 0.2857143

Une série statistique correspondant à une variable quantitative se présente di�cilement sous la forme d'untableau réunissant les données brutes ou d'un tableau des e�ectifs, sauf si un grand nombre d'observationspartagent la même valeur de la variable d'intérêt.

Sur les données recueillies par le jardinier, on voit par exemple que pour les masses des gousses observées ily a beaucoup de valeurs possibles alors que pour le nombre de graines par gousse, il y a 8 valeurs observées. Lasérie statistique correspondant au nombre de graines est facilement présentable sous forme de tableau, ce quin'est pas le cas pour la masse.

> mesures$masse

[1] 28.6 20.6 29.2 32.0 24.5 29.0 28.9 18.2 7.9 15.5 22.6 35.5 32.5 28.7 26.0 13.5 16.4

[18] 12.5 26.2 22.6 9.7 21.8 17.2 25.2 12.0 6.3 7.0 20.4 18.0 21.1 18.2 15.2 19.8 21.4

[35] 15.0 16.4 17.3 16.4 13.5 13.6 14.6 16.9 11.7 14.0 14.6 10.3 11.3 10.7 10.9 20.0 21.5

[52] 12.0 6.1 5.4 40.0 49.2 46.0 26.4 42.2 48.4 23.9 31.7 16.8 21.6 24.1 13.5 22.4 26.1

[69] 12.9 26.6 29.6 22.4 17.3 16.6 12.8 19.1 12.4 8.8 13.2 15.9 13.3 6.3 12.9 6.2 8.6

[86] 14.4 11.5 11.5 12.8 11.7 15.7 12.0 13.4 11.3 6.6 17.8 9.6 14.3 14.0 11.3 10.2 12.2

[103] 15.9 11.7 12.4 11.5 10.6 9.4 9.2 6.1 10.9 6.6 22.5 33.7 20.6 16.6 14.2 13.8 14.0

[120] 8.7 14.2 10.6 10.9 3.3 9.7 9.3 17.2 10.1 9.0 7.1 7.1 1.5 4.1 8.0 7.4 7.2

[137] 6.9 2.9 2.4 10.7 13.8 10.9 10.3 8.8 9.0 8.2 9.6 9.0 5.3 1.5 6.7 2.9 2.9

[154] 3.5 3.4 4.9 4.7 4.7 5.2 2.1 2.2 1.4 2.7 1.0 2.5 5.5 2.7 6.7 7.3 2.9

[171] 3.8 7.6 3.6 3.0 5.8 5.3 3.2 4.4 3.4 2.9 4.9 6.2 4.0 3.3 4.8 5.6 4.5

[188] 6.3 4.2 3.9 5.8 4.7 6.0 6.5 5.0 5.5 4.7 5.7 3.6 5.4 5.3 5.0 4.5 4.4

[205] 4.8 4.5 3.2 4.7 4.0 5.8 5.5 4.4 3.5 4.4 4.3 4.1 5.3 4.7 5.3 4.7 4.9

[222] 4.1 4.6 4.8 3.4 3.4 5.8 4.8 3.9 3.4 4.5 3.3 3.3 3.6 3.5 3.8 3.2 3.8

[239] 5.3 5.8 4.6 3.2 4.3 2.7 2.6 2.4 2.6 3.2 6.4 3.4 3.4 2.7

> mesures$graines

[1] 4 3 5 7 4 4 4 2 1 2 2 6 5 5 3 2 2 3 5 2 1 3 3 4 2 1 1 4 3 4 2 3 4 3 1 2 5 2 2 3 4 3 2

[44] 2 2 2 2 2 3 4 2 2 1 1 7 7 5 3 5 4 4 5 4 5 3 3 3 6 3 5 3 3 3 4 2 3 2 2 3 3 2 1 2 1 2 2

[87] 2 2 2 2 3 2 2 2 1 4 2 3 2 3 3 3 4 2 2 2 2 2 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

[130] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

[173] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

[216] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

> table(mesures$graines)

0 1 2 3 4 5 6 7

142 11 41 27 16 10 2 3

Variable qualitative

A) Tendance centrale

Mode

Le mode d'une série statistique est la valeur la plus fréquemment observée.

� 9 �

Page 10: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Remarques :

• Le mode est dé�ni pour tous les types de variables, quantitatives et qualitatives.

• Une distribution observée peut avoir plusieurs modes. Lorsqu'une distribution observée possède un seulmode, on parle de distribution unimodale. Lorsqu'une distribution observée possède deux modes, onparle de distribution bimodale.

B) Dispersion

Pour une variable qualitative, le tableau de contingence de la série statistique permet d'apprécier ladispersion des observations.

Variable quantitative

A) Tendance centrale

Mode

Lemode (valeur la plus observée de la série statistique) est également dé�ni pour les variables quantitatives.Si la variable est une variable discrète, le mode s'obtient facilement. Si la variable est une variable continue, ondé�nit une classe modale, c'est-à-dire un intervalle de valeurs où l'on retrouve le plus fréquemment des obser-vations.

Moyenne

La moyenne arithmétique d'une série statistique {xi, i = 1, . . . , n} est dé�nie par :

x =1

n

n∑i=1

xi

Quelques remarques :

• Une moyenne ne se calcule que si les valeurs observées sont numériques.

• Une série ne possède qu'une seule et unique moyenne.

• Une moyenne est rarement une valeur observée de la série.

• La moyenne est très sensible aux valeurs extrêmes.

E�et sur la moyenne d'un changement d'échelleOn dé�nit la série statistique y obtenue à partir de la série x comme suit : y = ax+ b. Exprimer lamoyenne de y (y) à partir de la moyenne de x (x).. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Justi�cation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 10 �

Page 11: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Médiane

La médiane d'une série statistique numérique est une valeur, notée x1/2, telle que dans la sérieordonnée correspondante, le nombre d'observations qui la précèdent est égal au nombre d'observa-tions qui la suivent.

Une façon usuelle de calculer la médiane d'une série statistique serait :

• on ordonne la série x(1), x(2), ..., x(n) tel que x(1) ≤ x(2) ≤ ... ≤ x(n)

• si n est impair,x1/2 = x(n+1

2 )

• si n est pair,

x1/2 =x(n2 ) + x(n2 +1)

2

Quantiles

La médiane est un cas particulier de ce que l'on appelle quantile ou encore fractile. Le quantiled'ordre p d'une série statistique numérique est la valeur xp telle qu'il y ait une proportion p desobservations qui soient inférieures ou égales à xp.

Pour calculer le quantile d'ordre p d'une série statistique, on peut utiliser une méthode similaire à celleprésentée précédemment pour la médiane. Les quantiles ne sont pas non plus forcément des données observéesde la série.

Exemples : les quartiles et les déciles.

B) Dispersion

Étendue

L'étendue d'une série statistique numérique est la di�érence entre la plus grande et la plus petitevaleur de cette série :

E = x(n) − x(1)

Remarque : ce paramètre est sensible à la présence de valeurs extrêmes.

Étendue inter-quartiles

L'étendue inter-quartiles d'une série statistique numérique est la di�érence entre le troisièmequantile et le premier quantile de cette série :

E = x3/4 − x1/4

Remarque : il correspond à la longueur de l'intervalle contenant les 50% des valeurs centrales de la séried'observations.

� 11 �

Page 12: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Variance

La variance d'une série statistique numérique permet de mesurer la dispersion des valeurs de lasérie autour de leur moyenne.

• La variance empirique est dé�nie par :

s2empx =

1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i − (x)2

• et la variance corrigée par :

s2x =

1

n− 1

n∑i=1

(xi − x)2 =1

n− 1

n∑i=1

x2i −

n

n− 1(x)2

Remarque : Les raisons pour lesquelles on utilise la variance corrigée plutôt que la variance empirique serontdonnées dans le chapitre consacré à l'estimation.

E�et sur la variance d'un changement d'échelleOn dé�nit la série statistique y obtenue à partir de la série x comme suit : y = ax+ b. Exprimer lavariance de y (s2

y) à partir de la moyenne de x (s2x).

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Justi�cation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Écart-type

L'écart-type est la racine carrée de la variance. De la même façon que précédemment, on dé�nit unécart-type empirique et un écart-type corrigé.

• L'écart-type empirique est dé�nie par :

sempx =√s2empx =

√√√√ 1

n

n∑i=1

(xi − x)2 =

√√√√ 1

n

n∑i=1

x2i − (x)2

• et l'écart-type corrigé par :

sx =√s2x =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 =

√√√√ 1

n− 1

n∑i=1

x2i −

n

n− 1(x)2

Remarque : L'écart-type a l'avantage de s'exprimer dans les mêmes unités que les observations. Il est doncplus facile à interpréter que la variance.

Coe�cient de variation

Le coe�cient de variation d'une série statistique numérique est dé�ni par :

CV =sxx

Remarques :

• Le coe�cient de variation permet d'apprécier la représentativité de la moyenne par rapport à l'ensembledes données ainsi que l'homogénéité de la distribution.

• Le coe�cient de variation est une quantité sans unité. C'est pourquoi il est utilisé pour comparer lesdispersions relatives de deux séries statistiques, lorsqu'elles sont exprimées dans des unités di�érentes.

� 12 �

Page 13: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Exercice

Les sorties R pour l'analyse descriptive numérique des données du jardinier sont fournies ci-dessous :

• pour les tailles des gousses

> library(pastecs)

> stat.desc(mesures$taille)

nbr.val nbr.null nbr.na min max range sum

252.0000000 0.0000000 0.0000000 4.8000000 27.0000000 22.2000000 3370.2000000

median mean SE.mean CI.mean.0.95 var std.dev coef.var

13.2000000 13.3738095 0.2308233 0.4545972 13.4264030 3.6642056 0.2739837

> summary(mesures$taille)

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.80 11.00 13.20 13.37 15.30 27.00

> var(mesures$taille)

[1] 13.4264

> sd(mesures$taille)

[1] 3.664206

• pour les masses des gousses

> stat.desc(mesures$masse)nbr.val nbr.null nbr.na min max range sum

252.0000000 0.0000000 0.0000000 1.0000000 49.2000000 48.2000000 2804.9000000median mean SE.mean CI.mean.0.95 var std.dev coef.var

8.4000000 11.1305556 0.5670451 1.1167727 81.0281065 9.0015613 0.8087253> summary(mesures$masse)

Min. 1st Qu. Median Mean 3rd Qu. Max.1.00 4.50 8.40 11.13 14.60 49.20

> var(mesures$masse)[1] 81.02811> sd(mesures$masse)[1] 9.001561

• pour le nombre de graines par gousse

> stat.desc(mesures$graines)nbr.val nbr.null nbr.na min max range sum

252.0000000 142.0000000 0.0000000 0.0000000 7.0000000 7.0000000 321.0000000median mean SE.mean CI.mean.0.95 var std.dev coef.var

0.0000000 1.2738095 0.1077315 0.2121728 2.9247297 1.7101841 1.3425744> summary(mesures$graines)

Min. 1st Qu. Median Mean 3rd Qu. Max.0.000 0.000 0.000 1.274 2.000 7.000

> var(mesures$graines)[1] 2.92473> sd(mesures$graines)[1] 1.710184

4 � Pour la taille des gousses :

(a) Retrouver les di�érents indicateurs de position et de dispersion dans les sorties R ci-dessus.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

(b) Commenter les résultats obtenus.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 13 �

Page 14: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

5 � Commenter les résultats obtenus sur les autres variables.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Le jardinier trouve une autre gousse dont les caractéristiques sont ajoutées à l'échantillon. Cette gousse estde taille 50mm. Voici les nouvelles statistiques descriptives sur la taille des gousses de l'échantillon.

> taille=c(mesures$taille,50)> summary(taille)

Min. 1st Qu. Median Mean 3rd Qu. Max.4.80 11.00 13.20 13.52 15.30 50.00

> var(taille)[1] 18.67541> sd(taille)[1] 4.321505

6 � Certaines statistiques descriptives sont modi�ées, d'autres pas. Commenter les changements impliqués par

l'ajout de cette nouvelle observation. On pourra ré�échir plus spéci�quement sur les cas de la médiane et

de la moyenne.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2 Représentations graphiques

Cas d'une variable qualitative

1. Diagramme en barres (ou diagramme en bâtons)Un diagramme en barres représente chaque modalité de la variable d'intérêt par une barreverticale dont la hauteur est proportionnelle à son e�ectif (ou à sa fréquence).

2. Diagramme circulaire (diagramme en secteurs ou diagramme "en camembert")Sur un tel diagramme, chaque modalité de la variable d'intérêt est représentée par une portiondu disque telle que l'angle au centre soit proportionnel à sa fréquence observée dans l'échan-tillon.

Exercice

Pour les données des espèces dont sont issues les gousses, nous obtenons le diagramme en barres et lediagramme circulaire ci-dessous :

# Diagramme en barre des effectifs

barplot(table(mesures$espece))

# Diagramme en barre des fréquences

barplot(prop.table(table(mesures$espece)))

# Diagramme circulaire

pie(table(mesures$espece))

� 14 �

Page 15: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Diagramme en bâtons des e�ectifs Diagramme en bâtons des fréquences

bignone glycine blanche glycine violette laurier rose

010

2030

4050

6070

bignone glycine blanche glycine violette laurier rose

0.00

0.05

0.10

0.15

0.20

0.25

Diagramme circulaire

bignoneglycine blanche

glycine violettelaurier rose

7 � Commenter les graphiques ainsi obtenus.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Cas d'une variable quantitative

On peut utiliser les outils graphiques propres aux variables qualitatives pour représenter une sériestatistique numérique lorsque l'on a au préalable regroupé les valeurs possibles de la variable étudiéeen intervalles (classes). Si la variable d'intérêt est continue, le diagramme en bâtons est remplacé parun histogramme.

• HistogrammeUn histogramme est constitué de rectangles juxtaposés dont la base correspond à l'amplitudede chaque classe et dont la surface est proportionnelle à l'e�ectif de cette classe. L'histogrammedonne une idée de l'allure globale de la distribution de la variable d'intérêt. Il montre l'étalementdes données et apporte ainsi des renseignements sur la dispersion et sur les valeurs extrêmes.

• Diagramme en boîte (ou boîte à moustache)Le diagramme en boîte est un graphique où sont représentées à la fois des caractéristiques deposition et des caractéristiques de dispersion de la série statistique. On y voit apparaître lamédiane, le premier et le troisième quartile, l'étendue inter-quartiles, ainsi que, s'il y en a, desvaleurs atypiques par rapport au reste de la distribution.

Exercice

On représente ci-dessous les distributions des variables masse, taille et graines du jeu de données récolté parle jardinier.

par(mfrow=c(1,2))

hist(mesures$taille)

hist(mesures$taille,freq=F)

� 15 �

Page 16: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Histogram of mesures$taille

mesures$taille

Fre

quen

cy

5 10 15 20 25

010

2030

4050

60Histogram of mesures$taille

mesures$tailleD

ensi

ty

5 10 15 20 25

0.00

0.02

0.04

0.06

0.08

0.10

0.12

hist(mesures$masse,freq=F)

prop.table(table(mesures$graines))

barplot(prop.table(table(mesures$graines)))

title(main="Distribution of mesures$graines")

Histogram of mesures$masse

mesures$masse

Den

sity

0 10 20 30 40 50

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

0.5

Distribution of mesures$graines

par(mfrow=c(1,3))

boxplot(mesures$taille)

title(main="Taille")

boxplot(mesures$masse)

title(main="Masse")

boxplot(mesures$graines)

title(main="Graines")

8 � Quelle est la di�érence entre les deux histogrammes proposés pour la distribution observée de la taille des

gousses ?

� 16 �

Page 17: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

510

1520

25

Taille

010

2030

4050

Masse

01

23

45

67

Graines

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 � Commenter les distributions observées des variables masse, taille et graines à partir de l'ensemble des

graphiques ci-dessus. Sont-elles unimodales/bimodales, symétriques/non symétriques ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Statistiques descriptives bivariées

Lorsqu'on étudie le comportement de deux variables sur un même ensemble d'individus, on est d'abordamené à s'interroger sur les liens qui existent entre elles d'un point de vue uniquement descriptif. Pour cela, ladémarche dépend du type des deux variables, mais nous ne verrons ici que le cas de deux variables quantitatives.

1.3.1 Cas de deux variables quantitatives

Représentation graphique

Quand les deux variables d'intérêt sont quantitatives, la représentation graphique utilisée est le nuage depoints. Ce type de graphique permet de donner une idée de la nature (tendance) de la relation entre les deuxvariables, s'il en existe une.

� 17 �

Page 18: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Représentation numérique

Le coe�cient de corrélation est utilisé pour décrire numériquement la liaison entredeux variables quantitatives. Il est dé�ni par :

r =sxysxsy

où sx et sy sont les écart-types des séries marginales pour les deux variables respective-ment et sxy est la covariance de la série bivariée, à savoir :

sxy =1

n

n∑i=1

(xi − x)(yi − y)

Interprétation :

• un coe�cient de corrélation prend ses valeurs entre -1 et 1,

• un coe�cient de corrélation négatif indique un lien linéaire négatif entre les deux variables, c'est-à-direune tendance, lorsque les valeurs de l'une augmentent à ce que les valeurs de l'autre diminuent,

• un coe�cient de corrélation positif indique un lien linéaire positif entre les deux variables, c'est-à-dire unetendance, lorsque les valeurs de l'une augmentent à ce que les valeurs de l'autre augmentent elles aussi,

• un coe�cient de corrélation proche de 1 en valeur absolue indique un lien très fort entre les deux variablesalors qu'un coe�cient de corrélation nul indique l'absence de lien linéaire entre les deux variables,

• un coe�cient de correlation proche de la valeur 0 n'indique pas nécessairement l'absence de lien entre lesdeux variables.

Exercice

Nous nous intéressons au lien éventuel entre la taille et la masse des gousses ramassées par le jardinier. Onreprésente le nuage de points des tailles des gousses en fonction de leur masse pour l'ensemble de l'échantillonpuis par espèce. On calcule également les coe�cients de corrélation correspondants.

par(mfrow=c(1,1))

plot(mesures$masse,mesures$taille,col=mesures$espece)

> cor(mesures$taille,mesures$masse)

[1] 0.7520708

0 10 20 30 40 50

510

1520

25

Mesures$masse

Mes

ures

$tai

lle

� 18 �

Page 19: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

10 � Commenter le graphique obtenu.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

bign=which(mesures$espece=="bignone")

gb=which(mesures$espece=="glycine blanche")

gv=which(mesures$espece=="glycine violette")

laurier=which(mesures$espece=="laurier rose")

par(mfrow=c(2,2))

plot(mesures$masse[bign],mesures$taille[bign])

title(main="Bignone")

plot(mesures$masse[gb],mesures$taille[gb])

title(main="glycine blanche")

plot(mesures$masse[gv],mesures$taille[gv])

title(main="glycine violette")

plot(mesures$masse[laurier],mesures$taille[laurier])

title(main="Laurier rose")

0 5 10 15 20 25 30 35

510

1520

mesures$masse[bign]

mes

ures

$tai

lle[b

ign]

Bignone

5 10 15 20 25 30 35

812

1620

mesures$masse[gb]

mes

ures

$tai

lle[g

b]

glycine blanche

10 20 30 40 50

1020

mesures$masse[gv]

mes

ures

$tai

lle[g

v]

glycine violette

3 4 5 6

1014

18

mesures$masse[laurier]

mes

ures

$tai

lle[la

urie

r]

Laurier rose

> cor(mesures$taille[bign],mesures$masse[bign])

[1] 0.9003257

> cor(mesures$taille[gb],mesures$masse[gb])

[1] 0.9734633

> cor(mesures$taille[gv],mesures$masse[gv])

[1] 0.9766664

> cor(mesures$taille[laurier],mesures$masse[laurier])

[1] 0.8407223

� 19 �

Page 20: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

11 � Commenter et interpréter l'allure des di�érents graphiques.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12 � Interpréter les valeurs des coe�cients de corrélation. Faire le lien avec les nuages de points représentés

ci-dessus.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 20 �

Page 21: Poly.pdf pdf

Chapitre 2

Notions d'échantillonnage

2.1 Pourquoi l'échantillon ?

Une étude statistique est réalisée à partir d'un échantillon, mais on souhaite généralement en tirer desconclusions au sujet d'un ensemble plus large d'individus que l'on appelle population. Cette population d'inté-rêt est généralement beaucoup trop grande pour pouvoir obtenir des informations sur l'intégralité des individusde la population, ou les mesures sont trop coûteuses, . . . d'où la nécessité de restreindre la collecte d'informationà un sous-ensemble de la population.

La pertinence des conclusions tirées au sujet de la population dépendent en premier lieu de la qualité del'échantillon choisi. L'échantillon doit avant tout être représentatif de la population d'intérêt, c'est-à-dire qu'ildoit avoir des caractéristiques presque identiques à celles de la population.

2.2 Comment constituer un échantillon ?

Il existe de nombreux moyens de réaliser un échantillon. Le plus souvent, les individus de l'échantillon sonttirés au hasard dans la population d'intérêt - on parle d'échantillonnage aléatoire - a�n d'éviter de biaisersystématiquement l'information collectée. Supposons que la population d'intérêt soit de taille N et que lescontraintes techniques et �nancières ne permettent de travailler que sur un échantillon de taille n, avec n < N .Tirer au hasard n individus parmi N ne mène pas à un échantillon unique. Il y a CnN échantillons di�érentspossibles selon cette méthode de tirage. Selon le tirage, les individus de l'échantillon, donc les observations dela caractéristique d'intérêt, sont di�érents. Cela implique que si l'on tire plusieurs échantillons selon la mêmeméthode d'échantillonnage dans une même population, on observera des di�érences entre les estimations duparamètre d'intérêt. On parle de �uctuation d'échantillonnage.

2.3 Erreur d'échantillonnage

D'autre part, s'agissant d'un sous-ensemble de la population, l'échantillon ne donne accès qu'à une connais-sance imparfaite de la population. Pour cette raison, l'estimation donnée par l'échantillon di�ère de la valeurde la population. Cette erreur est appelée erreur d'échantillonnage.

2.4 Utilisation d'un modèle probabiliste

Pour extrapoler à la population des caractéristiques observées sur un échantillon, évaluer l'incertitude asso-ciée aux estimations, on utilise un modèle probabiliste. Plus précisément, on associe à la population une loi deprobabilité, et l'échantillon est interprété comme la réalisation d'un tirage de variables aléatoires suivant la loide probabilité de la population. La notion de variable aléatoire et les lois de probabilité les plus courantes fontl'objet du chapitre suivant.

21

Page 22: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

2.5 Synthèse

SYNTHÈSE/VOCABULAIRE :

Population : l'ensemble sur lequel porte l'étude.

Individus ou unités statistiques : les éléments qui constituent la population.

Échantillon : sous-ensemble d'individus obtenus à partir de la population. L'objectif est d'obtenirune meilleure connaissance de la population à partir de l'étude du seul échantillon.

Caractère ou variable : caractéristique étudiée sur les individus d'une population.

2.6 Exercice

Pour chacun des énoncés, répondre aux questions suivantes :

• Dé�nir la population étudiée, l'individu statistique et l'échantillon.

• Quelle est (sont) la (les) variable(s) étudiée(s) et quel est leur type (qualitative, quantitative discrète ouquantitative continue) ?

• Quel est (sont) le(s) paramètre(s) d'intérêt ?

1. On s'intéresse à des hommes de 50 à 69 ans suivant un régime alimentaire particulier. Ce régime alimen-taire étant riche en matières grasses, les médecins souhaitent contrôler la cholestérolémie de ces patients.Ils se basent sur un échantillon de 375 personnes parmi ces hommes de 50 à 69 ans et ont mesuré leurtaux de cholestérol. Le taux de cholestérol moyen estimé sur ces 375 individus est de 199.33 mg/dl. Onconsidère qu'un taux de cholestérol est normal lorsqu'il est inférieur à 200 mg/dl.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Lors d'un sondage électoral, on interroge 1000 électeurs : 52% de ces électeurs interrogés a�rment qu'ilsvoteront pour le candidat A. On note πA la proportion des électeurs qui vote pour le candidat A dans lapopulation. On cherche à estimer πA.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Deux sociologues s'interrogent sur le temps passé quotidiennement devant la télévision par un adolescentfrançais. Après enquête sur un échantillon de 50 personnes, ils estiment à 3,2 heures le temps moyen passédevant la télévision.

� 22 �

Page 23: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Un psychologue s'intéresse au temps de réaction à un stimulus chez des enfants atteints d'une certainea�ection. Il étudie un échantillon prélevé au hasard de 16 enfants atteints par l'a�ection et mesure pourchacun d'entre eux son temps de réaction et observe sur cet échantillon un temps moyen de 1,1 secondes.Il s'interroge maintenant sur la variabilité des temps de réaction.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Dans un ruisseau, vit une population d'écrevisses dont l'e�ectif total T est inconnu. On se propose d'es-timer T . Pour cela, on pêche 512 écrevisses, on les marque d'un signe distinctif et on les rejette à l'eau.Dans le lac, la proportion d'écrevisses ainsi marquées est alors π = 512

T . On attend quelques jours, délaià partir duquel on suppose que les écrevisses (marquées et non marquées) se sont mélangées. On pêchealors 328 écrevisses parmi lequelles on retrouve 34 écrevisses marquées.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Deux sociologues se demandent si les adolescents de 15 ans d'aujourd'hui consacrent moins de temps àleurs devoirs qu'il y a 40 ans. Il y a 40 ans, une enquête indiquait que les adolescents de 15 ans consacraienten moyenne 8,5 heures par semaine à leurs devoirs à la maison. Les deux sociologues réalisent aujourd'huila même étude sur un échantillon de 200 adolescents de 15 ans. Ils observent que ceux-ci consacrent enmoyenne 7,1 heures par semaine à leurs devoirs avec un écart-type de 1,1 heure.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 23 �

Page 24: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

7. Une société souhaite mettre sur le marché un nouveau savon. Pour estimer le marché potentiel du nou-veau produit, un sondage est e�ectué pour mesurer la consommation moyenne de savon dans la populationconsidérée comme la cible privilégiée de ce produit (femmes actives de plus de trente cinq ans et de moinsde 60 ans). La consommation mensuelle moyenne ressort à 3,73 onces (l'unité de mesure internationaleutilisée par la société) sur un échantillon de quarante personnes, avec un écart-type calculé de 1,6 once.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. On cherche à estimer la probabilité d'occurence de certaines réactions allergiques à un médicament. Pourcela, on se base sur un échantillon de 1000 personnes, et on compte le nombre de personnes allergiquesdans l'échantillon.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 24 �

Page 25: Poly.pdf pdf

Chapitre 3

Rappels de probabilité

3.1 Ce qu'il faudra retenir de ce chapitre

Ce chapitre est théorique et ne donnera pas lieu à des exercices sur table en séance de TD.

Pourtant, toutes les notions qui y seront introduites auront leur importance pour la suite du module, enparticulier :

• les notions de variables aléatoires et de réalisation d'une variable aléatoire, qui seront fondamentales pourcomprendre le concept de modélisation et pour distinguer ce qui concerne la population et l'échantillonen théorie de l'estimation et en théorie des tests ;

• les principales lois de probabilité et surtout les lois normale, de Student, de Fisher et du Chi-deux car :

� la loi normale est très utilisée pour modéliser les phénomènes biologiques et la plupart des phénomènesdécrits dans les énoncés que nous regarderons en exercice,

� ces quatre lois sont très importantes pour comprendre la construction des intervalles de con�ance etdes tests statistiques au programme.

Il faut comprendre ce chapitre comme une boîte à outils pour la suite.

3.2 Quelques dé�nitions préliminaires

3.2.1 Expérience aléatoire

DEFINITION :Une expérience est dite aléatoire si on ne peut pas prévoir à l'avance son résultat, et si répétéeplusieurs fois dans des conditions identiques, elle peut donner lieu à des résultats di�érents.

Exemples :

• l'expérience qui consiste à jeter un dé et à regarder le numéro qui apparaît est l'exemple le plus classiqued'une expérience aléatoire. Quand on lance un dé, on ne sait pas à l'avance quel chi�re parmi 1, 2, 3, 4, 5, 6on va obtenir et si on lance le même dé plusieurs fois, on n'obtient pas le même résultat.

• d'autres exemples plus concrets en biologie :

� l'expérience qui consiste à mesurer le taux de cholestérol d'un patient

� l'expérience qui consiste à regarder si un patient traîté avec un nouveau médicament guérit ou pas

� l'expérience qui consiste à regarder, parmi 5 patients traîtés avec un nouveau médicament, combiende patients guérissent

25

Page 26: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

3.2.2 Variable aléatoire

DEFINITION :Une variable aléatoire X est le procédé qui relie l'expérience aléatoire à un nombre. X est lacaractéristique que l'on cherche à mesurer lors de l'expérience aléatoire. C'est quelque chose dont ilest impossible de connaître la valeur à l'avance.

Exemples :

• le résultat d'un lancer de dé est une variable aléatoire que l'on peut noter X

• le résultat de la mesure du taux de cholestérol sur le patient est une variable aléatoire que l'on peut noterY

• le résultat de la prise du nouveau médicament par le patient est une variable aléatoire que l'on peut noterZ

• le résultat du comptage des individus guéris est une variable aléatoire que l'on peut noter T

3.2.3 Réalisation d'une variable aléatoire

DEFINITION :Lorsqu'on e�ectue une expérience (aléatoire), la valeur obtenue pour la caractéristique (variablealéatoire) d'intérêt X s'appelle une réalisation ou une observation et est notée x.

Exemples :

• on lance le dé, on tombe sur 3 ; x = 3 est une réalisation de la variable aléatoire X

• on mesure le taux de cholestérol du patient : 2g/L ; y = 2 est une réalisation de la variable aléatoire Y

• on administre un nouveau médicament à un malade, il guérit ; z ="guéri" est une réalisation de la variablealéatoire Z

• on compte parmi les 5 patients le nombre de patients guéris, il y en a 3 ; t = 3 est une réalisation de lavariable aléatoire T

REMARQUE IMPORTANTE :Les variables aléatoires et réalisations correspondantes seront toujours notées avec la même lettre,avec pour convention que la variable aléatoire sera notée en majuscule et sa réalisation en minuscule.Par exemple, pour la variable aléatoire X, la réalisation sera notée x, pour une variable aléatoire Y ,la réalisation sera notée y, . . .

3.2.4 Domaine de dé�nition d'une variable aléatoire

Le domaine de dé�nition d'une variable aléatoire X est l'ensemble des valeurs que X peut prendreaprès réalisation de l'expérience (ensemble des valeurs possibles pour X). Le domaine de dé�nitionde X est noté DX .

Exemples :

• Le domaine de dé�nition de la variable aléatoire X résultat de l'expérience qui consiste à lancer une foisun dé est l'ensemble des valeurs 1, 2, 3, 4, 5, 6.

• Le domaine de dé�nition de la variable aléatoire Y résultat de la mesure du taux de cholestérol du patientest l'ensemble des réels positifs R+

• Le domaine de dé�nition de la variable aléatoire Z indiquant si oui ou non le patient est guéri est 'gué-ri','non guéri'

• Le domaine de dé�nition de la variable aléatoire T comptant le nombre de patients guéris est 0, 1, 2, 3, 4, 5

Remarque :

On voit à travers les di�érents exemples que le domaine de dé�nition est di�érent selon la nature de lavariable aléatoire étudiée (cf cours de statistique descriptive : variable aléatoire qualitative, quantitative discrète,

� 26 �

Page 27: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

quantitative continue). Pour une variable aléatoire qualitative, DX sera un ensemble discret correspondant àl'ensemble des modalités possibles de cette variable. Dans le cas d'une variable quantitative discrète, DX seraun ensemble �ni (1, 2, 3, 4, 5, 6 dans l'exemple du dé) ou in�ni dénombrable de valeurs (l'ensemble des entiersnaturels lorsque l'expérience est un comptage). Dans le cas d'une variable quantitative continue, DX sera unintervalle ouvert ou fermé (l'ensemble des réels, l'ensemble des réels positifs, l'ensemble des réels compris entre0 et 1).

3.3 Caractéristiques d'une variable aléatoire

3.3.1 Loi de probabilité ou distribution de probabilité

Une variable aléatoire peut être synthétisée par sa moyenne et sa variance, mais ces indicateurs ne su�sentpas à caractériser entièrement la variable aléatoire en question. En e�et deux variables aléatoires X et Y peuventavoir même espérance et même variance sans pour autant avoir le même comportement.

Pour caractériser une variable aléatoire, on a besoin de connaître la manière dont se répartissent les valeursdes di�érents individus de la population étudiée (y a-t-il des réalisations qui se produisent plus ou moins souventque d'autres ?). Cette répartition est appelée distribution de la variable aléatoire.

Cette distribution de probabilité s'écrit di�éremment selon que la variable aléatoire est discrète ou continue.

Distribution de probabilité d'une variable aléatoire discrète :

Soit J la taille du domaine de dé�nition de X, soient a1, a2, . . . , aJ les valeurs possibles de la variablealéatoire X discrète et soient pj = P (X = aj), j = 1, . . . , J l'ensemble des probabilités avec les-quelles X prend les valeurs de DX . Alors, sa distribution de probabilité est l'ensemble des couples :(aj , pj), j = 1, . . . , J .

Exemples :

• lancer d'un dé : la distribution de probabilité de la variable aléatoire X correspondant au résultat dulancer de dé est : (1; 1/6), (2; 1/6), (3; 1/6), (4; 1/6), (5; 1/6), (6; 1/6).

• guérison ou non du patient : la distribution de probabilité de la variable aléatoire Z indiquant si oui ounon le patient guérit est : ('guéri',p),('non guéri',1-p)

• la distribution de probabilité de la variable aléatoire T comptant le nombre de patients guéris pourraitêtre : (0; 0.1), (1; 0.2), (2; 0.1), (3; 0.3), (4; 0.1), (5; 0.2)

Propriété : on a la propriété suivante :

J∑j=1

pj = 1

On peut facilement représenter la distribution d'une variable aléatoire discrète avec un diagramme en bâtons,où en abscisse se trouvent les valeurs du domaine de dé�nition de X et où la hauteur des bâtons est donnée parles probabilités pj .

Distribution de probabilité d'une variable aléatoire continue :

La distribution de probabilité d'une variable aléatoire X, continue, est donnée par sa fonction dedensité. C'est l'équivalent en continu des (aj , pj) ci-dessus, adapté au domaine de dé�nition continud'une variable aléatoire continue. Une variable aléatoire continue prend une in�nité de valeurs etchaque valeur prise isolément a une probabilité presque nulle, donc il n'est pas possible de fournirdes couples (aj , pj) pour une telle variable. Il est plus simple de fournir une fonction qui reproduitl'allure du "diagramme en bâtons" indiquant la répartition des valeurs possibles de X ; une tellefonction est appelée fonction densité de la variable aléatoire X. La fonction densité de la variablealéatoire X est notée fX .

� 27 �

Page 28: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

0 1 2 3 4 5

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Figure 3.1 � Distribution de la variable aléatoire T comptant le nombre de patients guéris.

0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

y (g/L)

fY(y

)

Figure 3.2 � Distribution de la variable aléatoire Y mesurant le taux de cholestérol des patients.

PROPRIETE :On considère une variable aléatoire X continue, de densité fX . On a la propriété suivante :∫

DX

fX(x)dx = 1

(Ici, l'intégrale est l'équivalent en continu de la somme qu'on a écrite pour la variable aléatoirediscrète.) Graphiquement, cette intégrale calcule l'aire sous la courbe représentative de fX .

Remarque : toute fonction ne peut donc pas dé�nir une densité de probabilité :

• il faut qu'elle respecte la propriété ci-dessus

• il faut que ce soit une fonction à valeurs positives ou nulles

� 28 �

Page 29: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

3.3.2 Fonction de répartition

Comme la distribution de probabilité, la fonction de répartition d'une variable aléatoire quantitative lacaractérise entièrement.

DEFINITION :La fonction de répartition d'une variable aléatoire X est notée FX et elle est dé�nie comme suit :

FX(x) = P (X ≤ x) , x ∈ R

Exercice : sur le graphique ci-dessous, représenter FY (y0), où y0 est le point représenté par une croix.

0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

y (g/L)

fY(y

)

xy0

PROPRIETES D'UNE FONCTION DE REPARTITION :

• une fonction de répartition est dé�nie sur R et est à valeurs dans [0, 1] : c'est une proba-bilité !

• une fonction de répartition est une fonction croissante au sens large

• limx→−∞ FX(x) = 0 et limx→+∞ FX(x) = 1

• la probabilité pour qu'une variable aléatoire X prenne une valeur comprise entre a et b (aveca < b) peut se calculer à partir de la fonction de répartition de X :

P (a < X ≤ b) = FX(b)− FX(a)

• si la loi de X est symétrique par rapport à 0, alors, on aura pour x ∈ R FX(−x) = 1 −FX(x). Cette propriété sera importante pour comprendre certaines étapes de la constructiond'intervalles de con�ance et de tests.

• (pour la culture personnelle) dans le cas où X est une variable aléatoire continue, sa fonctiondensité fX et sa fonction de répartition FX sont étroitement liées puisque :

fX(x) = F ′X(x) , x ∈ R

et de façon équivalente, pour tout x ∈ R, on a :

FX(x) =

∫ x

−∞fX(x)dx

Exercice : reprenons l'exemple du lancer de dé :

� 29 �

Page 30: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

1. Quelles sont les valeurs de la fonction de répartition FX de la variable aléatoire X indiquant le résultat

du lancer de dé ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Représenter graphiquement la fonction FX .

3.3.3 Espérance et variance (écart-type) d'une variable aléatoire

On peut synthétiser le comportement d'une variable aléatoire par sa moyenne (son espérance) et sa variance.Encore une fois, moyenne et variance ne su�sent pas à caractériser entièrement le comportement d'une variablealéatoire.

Espérance

DEFINITION :

L'espérance (ou moyenne "théorique") d'une variable aléatoire est la valeur prise en moyenne parcette variable aléatoire, elle est donnée par :

• pour une variable aléatoire discrète :

E(X) = µ =

J∑j=1

ajpj =

J∑j=1

ajP (X = aj)

• pour une variable aléatoire continue :

E(X) = µ =

∫DX

xfX(x)dx

(cette expression n'est pas nécessairement à retenir, un tel calcul intégral ne sera jamais de-mandé)

� 30 �

Page 31: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

PROPRIETES DE L'ESPERANCE : (à retenir)

• espérance d'une constante : E(a) = a, a ∈ R

• changement d'échelle : E(aX) = aE(X) où X est une variable aléatoire quelconque et a ∈ R

• espérance d'une somme : si X1 et X2 sont deux variables aléatoires, alors E(X1 + X2) =E(X1) + E(X2)

• changement d'origine : E(a + X) = a + E(X). En particulier, cette propriété nous dit que :E(X − E(X)) = 0. L'opération qui consiste à retrancher à une variable aléatoire sa moyennethéorique est appelée centrage, et cette opération sera importante dans la construction desintervalles de con�ance et des tests où il est crucial de se ramener à des variables aléatoires demoyenne nulle.

Variance

La variance (ou sa racine carrée l'écart-type) exprime à quel point les valeurs prises par une variablealéatoire X sont dispersées autour de la moyenne théorique. Une grande variance indique une dispersion impor-tante. A l'inverse, une variance nulle révèle que X est en fait non aléatoire.

DEFINITION :

La variance (théorique) d'une variable aléatoire X est dé�nie par :

V (X) = σ2 = E[(X − E(X))2

]= E(X2)− E(X)2

Elle se calcule donc comme suit :

• pour une variable aléatoire discrète :

V (X) = σ2 =

J∑j=1

(aj − µ)2pj

• pour une variable aléatoire continue :

V (X) = σ2 =

∫DX

(x− µ)2fX(x)dx

PROPRIETES DE LA VARIANCE :

• variance d'une constante : V (a) = 0

• changement d'échelle : V (aX) = a2V (X)

• changement d'origine : V (a+X) = V (X)

• variance d'une somme : . . . demande de connaître les notions de variables aléatoires indépen-dantes et de covariance qui seront dé�nies dans la section suivante.

Centrage et réduction d'une variable aléatoire

DEFINITION :On considère une variable aléatoire X d'espérance µ et d'écart-type σ. Centrer-réduire X consiste àtravailler sur la variable aléatoire Y dé�nie par :

Y =X − µσ

.

Exercice :

1. Quelle est l'espérance de Y ?

E(Y ) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 31 �

Page 32: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

2. Quelle est la variance de Y ?

V (Y ) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Indépendance et covariance de deux variables aléatoires

Ce sont des concepts importants pour :

1. la construction théorique d'intervalles de con�ance et de tests

2. comprendre la démarche de modélisation par un modèle de régression linéaire simple (dernier chapitre auprogramme de ce premier module)

3.4.1 Variables aléatoires indépendantes

DEFINITION :Deux variables aléatoires X1 et X2 sont indépendantes lorsque le fait de connaître la valeur prisepar X1 n'apporte aucune information sur la valeur qui sera prise par X2 et réciproquement.

Par exemple, le poids d'une souris et la couleur de son pelage sont indépendants alors que le poids d'unesouris et sa taille ne le sont probablement pas.

Il y a des "moyens mathématiques" de caractériser, montrer, rigoureusement l'indépendance de deux va-riables aléatoires, mais l'objet du cours est plutôt de comprendre le concept d'indépendance.

La covariance et le coe�cient de corrélation linéaire permettent d'estimer la dépendance entre deux variablesaléatoires.

3.4.2 Covariance de deux variables aléatoires

DEFINITION :On considère deux variables aléatoires X1 etX2. La covariance entre X1 et X2 est dé�nie par :

cov(X1, X2) = E [(X1 − E(X1))(X2 − E(X2))] = E(X1X2)− E(X1)E(X2)

Remarque : Le calcul mathématique de la covariance demande de connaître la notion de distribution jointe.On n'ira donc pas plus loin que l'expression ci-dessus. Le plus important est de comprendre qu'il s'agit d'unemesure du degré de liaison entre deux variables.

PROPRIETES :

• Si deux variable aléatoire sont indépendantes, alors leur covariance est nulle. Mais la réciproqueest fausse !

• cov(X,X) = V (X)

• cov(aX + bY, cZ + dT ) = accov(X,Z) + adcov(X,T ) + bccov(Y,Z) + bdcov(Y, T )

• variance d'une somme

V (X1 +X2) = V (X1) + V (X2) + 2cov(X1, X2)

donc si X1 et X2 sont indépendantes, la variance de la somme se calcule comme la somme desvariances. Ce n'est valable que si X1 et X2 sont indépendantes !

3.4.3 Coe�cient de corrélation linéaire de deux variables aléatoires

DEFINITION :On considère deux variables aléatoires X1 etX2. Le coe�cient de corrélation linéaire entre X1 et X2

est dé�nie par :

ρ(X1, X2) =cov(X1, X2)

σ1σ2

� 32 �

Page 33: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Remarque : Le coe�cient de corrélation linéaire est un indice compris entre -1 et 1 qui caractérise le lienlinéaire entre deux variables aléatoires . . .

3.5 Modélisation mathématique : les lois classiques et le cas général

3.5.1 Qu'est-ce qu'un modèle ?

Le point de départ de toutes les études statistiques qui nous intéressent est une modélisation. On se donneun ensemble de lois et on considère que la loi régissant les observations se trouve dans cet ensemble. C'estl'ensemble des lois choisies que l'on appelle modèle.

Plus précisément en statistique, on a des données x1, x2, . . . , xn (celles de l'échantillon) pour répondre à desquestions concrètes sur une population dont l'échantillon est extrait. Pour répondre à ces questions, on va alorstoujours supposer que ces données sont la réalisation d'un échantillon de variables aléatoires X1, X2, . . . , Xn

indépendantes et identiquement distribuées selon une certaine loi. Un modèle, c'est donc dire la chose suivante :

Les données x1, x2, . . . , xn de l'échantillon sont les réalisations de variable aléatoire X1, X2, . . . , Xn

indépendantes et identiquement distribuées selon une certaine loi d'espérance µ0 et de variance σ20 .

3.5.2 Les distributions usuelles

Les distributions de probabilité utilisées en biologie et dans bien d'autres domaines ne prennent pas n'importequelle forme. Certaines distributions sont assez fréquentes.

On présente maintenant les principales familles de lois utilisées en biologie et dans ce module. Par famille delois, on entend des formes de distributions particulières pour des contextes d'expérience donnés. Chaque famillede loi est caractérisée par un ou deux paramètres. Selon la valeur de ces paramètres, la forme de la distributionpourra changer : certaines valeurs possibles de la variable aléatoire seront alors plus fréquentes que d'autres.

Lois discrètes usuelles

1. loi de Bernoulli

• dé�nition : c'est la loi utilisée lorsqu'on considère une expérience dont le résultat ne peut prendre quedeux valeurs, appelées par convention, succès ou échec : un candidat est reçu ou non à un examen,une pièce usinée est bonne ou défectueuse, guérison ou non d'un patient malade, . . . A une expériencede ce type est associée une variable aléatoire X prenant la valeur 1 pour le succès et la valeur 0 pourl'échec avec les probabilités respectives p et 1− p, où p ∈ [0, 1] :

X ∼ B(1, p)

• domaine de dé�nition : DX = {0, 1}• distribution : (1; p)(0; 1− p)• espérance p ; variance 1− p• quelques exemples :

p=0.2 p=0.5 p=0.7

x

P(X

=x)

0 1

0.0

0.4

0.8

x

P(X

=x)

0 1

0.0

0.4

0.8

x

P(X

=x)

0 1

0.0

0.4

0.8

� 33 �

Page 34: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

2. loi binomiale

• dé�nition : c'est la loi suivie par le résultat de plusieurs tirages aléatoires consécutifs et indépendantslorsqu'il n'y a que 2 possibilités mutuellement exclusives de résultat à chaque tirage et que la pro-babilité d'obtenir chacune est constante au cours de l'expérience. En d'autres termes, on réalise népreuves indépendantes de Bernoulli avec la même probabilité.Soit X la variable aléatoire qui compte le nombre de succès au cours des n épreuves. X suit une loibinomiale de paramètres n et p :

X ∼ B(n, p)

• domaine de dé�nition : DX = {0, 1, . . . , n} (le nombre �nal de succès est nécessairement un nombreentier compris entre 0 et n)

• distribution : (k; n!k!(n−k)!p

k(1− p)n−k)

• espérance np ; variance np(1− p)• quelques exemples :

n = 10 p = 0.5 n = 10 p = 0.2 n = 50 p = 0.2

x

P(X

=x)

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

P(X

=x)

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

P(X

=x)

0 4 8 12 17 220.

000.

050.

100.

15

3. loi de Poisson

• dé�nition : c'est une loi de probabilité discrète permettant de décrire le comportement d'un nombred'événements, d'un comptage. La loi de Poisson est dé�nie au moyen d'un paramètre λ. Soit X unevariable aléatoire suivant une loi de Poisson :

X ∼ P(λ),

• domaine de dé�nition : DX = N• distribution : (k; e−λ λ

k

k! )

• espérance λ ; variance λ

• quelques exemples :

λ = 1.5 λ = 10 λ = 50

x

P(X

=x)

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

P(X

=x)

0 4 8 13 19 25

0.00

0.05

0.10

0.15

x

P(X

=x)

20 31 42 53 64 75

0.00

0.02

0.04

0.06

� 34 �

Page 35: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Lois continues usuelles

1. loi normale Soit X ∼ N (µ, σ2)

• domaine de dé�nition : R

• E(X) = µ

• V (X) = σ2

• quelques exemples :

µ = −100 σ = 1 µ = 0 σ = 1 µ = 0 σ = 10

x

f(x)

−104 −100 −98 −96

0.0

0.1

0.2

0.3

0.4

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

−30 −10 10 30

0.00

0.02

0.04

pointillés : densité de N (0, 1)

2. loi du chi-carré

• dé�nition : X1, X2, . . . , Xn n variable aléatoire indépendantes de même loi N (0, 1). Alors la variablealéatoire U = X2

1 +X22 + . . .+X2

n suit une loi du χ2 à n degrés de liberté notée χ2(n)

• domaine de dé�nition : R+

• remarque : c'est la loi de l'estimateur de la variance dans le modèle normal

• quelques exemples :

ν = 2 ν = 10 ν = 30

x

f(x)

0 5 10 20 30

0.0

0.2

0.4

x

f(x)

0 5 10 20 30

0.00

0.04

0.08

x

f(x)

0 10 30 50

0.00

0.02

0.04

3. loi de Student

• dé�nition : soit X ∼ N (0, 1) et soit U ∼ χ2(ν), indépendantes, alors la variable aléatoire T =X/√

(U/ν) suit une loi de Student à ν degrés de liberté notée T (ν)

• domaine de dé�nition : R

• remarque : c'est la loi de l'estimateur de l'espérance dans le modèle normal lorsque la variance estinconnue

• quelques exemples :

� 35 �

Page 36: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

k = 1 k = 10 k = 30

x

f(x)

−4 −2 0 2 4

0.05

0.15

0.25

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

pointillés : densité de N (0, 1)

4. loi de Fisher

• dé�nition : soit U1 ∼ χ2(ν1) et soit U2 ∼ χ2(ν2), indépendantes, alors la variable aléatoire F =(U1/ν1)/(U2/ν2) suit une loi de Fisher à ν1 et ν2 degrés de liberté notée F(ν1, ν2)

• domaine de dé�nition : R+

• quelques exemples :

ν1 = 1 ν2 = 30 ν1 = 5 ν2 = 30 ν1 = 30 ν2 = 5

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

x

f(x)

0 1 2 3 4 5

0.0

0.2

0.4

0.6

x

f(x)

0 1 2 3 4 5

0.0

0.2

0.4

0.6

pointillés : densité de N (0, 1)

Exercice

Pour chacun des énoncés, écrire le modèle associé à l'expérience et indiquer le(s) paramètre(s) d'intérêt.

1. On s'intéresse à des hommes de 50 à 69 ans suivant un régime alimentaire particulier. Ce régime alimen-taire étant riche en matières grasses, les médecins souhaitent contrôler la cholestérolémie de ces patients.Ils se basent sur un échantillon de 375 personnes parmi ces hommes de 50 à 69 ans et ont mesuré leurtaux de cholestérol. Le taux de cholestérol moyen estimé sur ces 375 individus est de 199.33 mg/dl. Onconsidère qu'un taux de cholestérol est normal lorsqu'il est inférieur à 200 mg/dl.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Lors d'un sondage électoral, on interroge 1000 électeurs : 52% de ces électeurs interrogés a�rment qu'ilsvoteront pour le candidat A. On note πA la proportion des électeurs qui vote pour le candidat A dans la

� 36 �

Page 37: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

population. On cherche à estimer πA.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Deux sociologues s'interrogent sur le temps passé quotidiennement devant la télévision par un adolescentfrançais. Après enquête sur un échantillon de 50 personnes, ils estiment à 3,2 heures le temps moyen passédevant la télévision.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Un psychologue s'intéresse au temps de réaction à un stimulus chez des enfants atteints d'une certainea�ection. Il étudie un échantillon prélevé au hasard de 16 enfants atteints par l'a�ection et mesure pourchacun d'entre eux son temps de réaction et observe sur cet échantillon un temps moyen de 1,1 secondes.Il s'interroge maintenant sur la variabilité des temps de réaction.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Dans un ruisseau, vit une population d'écrevisses dont l'e�ectif total T est inconnu. On se propose d'es-timer T . Pour cela, on pêche 512 écrevisses, on les marque d'un signe distinctif et on les rejette à l'eau.Dans le lac, la proportion d'écrevisses ainsi marquées est alors π = 512

T . On attend quelques jours, délaià partir duquel on suppose que les écrevisses (marquées et non marquées) se sont mélangées. On pêchealors 328 écrevisses parmi lequelles on retrouve 34 écrevisses marquées.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 37 �

Page 38: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Deux sociologues se demandent si les adolescents de 15 ans d'aujourd'hui consacrent moins de temps àleurs devoirs qu'il y a 40 ans. Il y a 40 ans, une enquête indiquait que les adolescents de 15 ans consacraienten moyenne 8,5 heures par semaine à leurs devoirs à la maison. Les deux sociologues réalisent aujourd'huila même étude sur un échantillon de 200 adolescents de 15 ans. Ils observent que ceux-ci consacrent enmoyenne 7,1 heures par semaine à leurs devoirs avec un écart-type de 1,1 heure.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7. Une société souhaite mettre sur le marché un nouveau savon. Pour estimer le marché potentiel du nou-veau produit, un sondage est e�ectué pour mesurer la consommation moyenne de savon dans la populationconsidérée comme la cible privilégiée de ce produit (femmes actives de plus de trente cinq ans et de moinsde 60 ans). La consommation mensuelle moyenne ressort à 3,73 onces (l'unité de mesure internationaleutilisée par la société) sur un échantillon de quarante personnes, avec un écart-type calculé de 1,6 once.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. On cherche à estimer la probabilité d'occurence de certaines réactions allergiques à un médicament. Pourcela, on se base sur un échantillon de 1000 personnes, et on compte le nombre de personnes allergiquesdans l'échantillon.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 38 �

Page 39: Poly.pdf pdf

Chapitre 4

Estimation

4.1 Présentation de l'exemple

Dans le cadre du suivi d'un banc de sardines, on souhaite connaître la longueur moyenne des adultes dubanc de sardine. Pour ce faire, on échantillonne au hasard 30 poissons dont on mesure la longueur. On obtientles mesures suivantes, en cm :

> x

[1] 44.39 11.97 74.87 44.60 62.08 53.26 18.87 44.62 26.88 17.47

On peut décrire cet échantillon en utilisant des statistiques descriptives univariées :

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.76 17.70 27.26 28.45 39.42 56.69

9 � Pouvez-vous donner la longueur moyenne des sardines du banc ? Si oui quelle est sa valeur ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 � Pendant la semaine, on e�ectue chaque jour un nouvel échantillonnage de 10 sardines. On obtient lesvaleurs suivantes :

> summary(x2)

Min. 1st Qu. Median Mean 3rd Qu. Max.

3.95 15.18 31.06 31.07 37.58 73.83

> summary(x3)

Min. 1st Qu. Median Mean 3rd Qu. Max.

2.07 18.67 29.74 28.53 34.61 69.46

> summary(x4)

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.49 29.67 37.83 39.44 50.96 60.46

> summary(x5)

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.92 23.83 39.09 37.72 50.24 71.74

> summary(x6)

Min. 1st Qu. Median Mean 3rd Qu. Max.

9.27 30.43 36.45 44.56 58.59 89.85

> summary(x7)

Min. 1st Qu. Median Mean 3rd Qu. Max.

7.19 20.36 32.11 34.00 45.11 75.98

Comment interprétez-vous ces résultats ? Y a-t-il selon vous un problème dans l'échantillonnage ? . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

Page 40: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 � Selon vous peut-on calculer la longueur moyenne des sardines du banc ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12 � Quelle(s) est (sont) selon vous la (les) statistique(s) descriptive(s) liée(s) à la longeur moyenne de la

population ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Démarche de l'estimation

4.2.1 Formalisation de l'estimation

13 � Notons Xi la variable aléatoire représentant la longueur du i-ème poisson. Ecrire le modèle associé à l'ex-

périence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14 � D'après la problématique, quel est le paramètre d'intérêt ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Dans la suite de l'étude de l'exemple, nous considérons le premier jeu de données et supposonsque le paramètre de variance du modèle σ2 est connu et que sa valeur est σ2 = 18.

� 40 �

Page 41: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Le principe de l'estimation.

L'estimation permet de répondre à la question : Quelle est la valeur d'une caractéristique d'unevariable d'une population ? Dans l'exemple : Quelle est la valeur de la moyenne de la longueur despoissons du banc ?

• Déterminer le paramètre à estimerDe manière générique, on nomme souvent ce paramètre θ. Ce paramètre est inconnu et nepourrait être accessible que si l'on échantillonnait la population entière.Ex : la moyenne théorique du banc de poisson

• Échantillonner n individus et mesurer sur ces individus la variable d'intérêt. On nomme cesmesures les observations que l'on note x1, x2, ..., xn.Ex : xi, la longueur du ième poisson.

• Proposer un modèle décrivant le processus de tirage des observations. Le modèle représentel'ensemble des hypothèses invoquées pour lier les données au paramètre à estimer θ.Ex : x1, ..., xn sont les réalisations de X1, ..., Xn, n variables aléatoires (v.a.). Ces v.a. sontsupposées indépendantes et suivant une loi normale d'espérance µ et d'écart-type σ.

• Choisir un estimateur du paramètre θ. Un estimateur est une variable aléatoire. A partir dumodèle proposé, on peut calculer la loi de l'estimateur.

• Calculer une estimation de θ à partir des données et de la formule de l'estimateur.

• Calculer un intervalle de con�ance pour cette estimation en utilisant la loi de l'estimateur.

4.2.2 Estimateur et estimation

DEFINITION :L'estimateur Tn d'un paramètre θ est une variable aléatoire qui est fonction des variables aléatoiresdont sont issues les données (ces v.a. sont décrites dans le modèle), i.e. Tn = f(X1, .., Xn). Unestimateur, en tant que v.a. possède donc une loi (Tn ∼ L(θ)).

On considère Xn =

n∑i=1

Xi

n.

15 � Xn est-elle une variable aléatoire ou une constante ? .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 � Quelle est l'espérance de Xn ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17 � Quelle est sa variance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18 � Quelle est sa distribution ? Dépend-elle d'un paramètre inconnu ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19 � Pourrait-elle être un estimateur de µ ? Si oui, pourquoi ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :L'estimation est une réalisation de la variable aléatoire estimateur :

tn = f(x1, . . . , xn)

� 41 �

Page 42: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

20 � Quelle est l'estimation de µ que l'on obtient à partir du jeu de données ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21 � Est-ce une variable aléatoire ou une constante ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22 � Quelle est sa formule ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23 � L'estimation obtenue à partir du deuxième jeu de données est-elle di�érente ? Pourquoi ? . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.3 Construction de l'intervalle de con�ance

L'estimation ponctuelle ne propose une seule valeur du paramètre d'intérêt (qui ne sera jamais exactementégale à la vraie valeur), mais aucune information sur la précision de ce résultat. Il est important d'associer àune estimation ponctuelle, une gamme de valeurs possibles : un intervalle de con�ance.

Choix d'un seuil de risque α

Il est nécessaire de �xer a priori un seuil α, avec 0 ≤ α ≤ 1. α représente la probabilité avec laquelle la vraievaleur ne se trouve pas dans l'intervalle de con�ance. On choisit le plus souvent un α faible pour diminuer cerisque. La valeur la plus courante est α = 0.05.

24 � Quel est l'intervalle qui inclut de manière certaine (avec une probabilité de 1), toutes les valeurs possibles

de l'estimation ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25 � Pourquoi ne choisit-on jamais α = 0 ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Statistique pivotale

DEFINITION :Une statistique pivotale est une variable aléatoire, fonction des v.a. de l'expérience X1, ..., Xn etdu paramètre du modèle θ, dont la loi est connue et ne dépend pas de θ.

On considèreXn − µσ/√n.

26 � Est-ce une variable aléatoire ou une constante ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 � Quelle est son espérance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28 � Quelle est sa variance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 42 �

Page 43: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

29 � Quelle est sa distribution ? Dépend-elle d'un paramètre inconnu ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Intervalle de probabilité et intervalle de con�ance

DEFINITION :Soit B1 = f1(X1, . . . , Xn) et B2 = f2(X1, . . . , Xn) tels que B1 ≤ B2, [B1, B2] est l'intervalle deprobabilité 1− α pour le paramètre θ, si Pr(B1 ≤ θ ≤ B2) = 1− α.On nomme 1− α, le niveau de con�ance ou la probabilité de recouvrement.

30 � Représenter la distribution deXn − µσ/√n

ci-dessus.

Placer sur cette représentation uα/2 et u1−α/2 les quantiles d'ordre α/2 et 1− α/2 de la loi N (0, 1).

31 � Pr(uα/2 ≤Xn − µσ/√n≤ u1−α/2) =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

On remarque que :

uα/2 ≤Xn − µσ/√n≤ u1−α/2 ⇔ uα/2

σ√n≤ Xn − µ ≤ .....................................

⇔ uα/2σ√n− Xn ≤ −µ ≤ ..................................

⇔ Xn − u1−α/2σ√n≤ µ ≤ ..................................

[B1, B2] étant l'intervalle de probabilité 1− α pour le paramètre µ,

32 � B1 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33 � B2 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34 � B1 et B2 sont-elles des constantes ou des v.a. ?.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 43 �

Page 44: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

DEFINITION :[b1, b2], un intervalle de con�ance 1 − α pour θ est la réalisation de [B1, B2], un intervalle deprobabilité de recouvrement 1− α pour θ.

Ici,

IC1−α(µ) = [xn − u1−α/2σ√n

; xn + u1−α/2σ√n

]

> mean(x)

[1] 28.44533

> mean(x)+(18/sqrt(30))*qnorm(1-0.05)

[1] 33.85087

> mean(x)+(18/sqrt(30))*qnorm(0.05)

[1] 23.03979

35 � Quelle est l'intervalle de con�ance de l'estimation [b1, b2] ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36 � b1 et b2 sont-elles des constantes ou des v.a. ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37 � Sur quelle valeur est centré l'intervalle de con�ance ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38 � Toutes choses égales par ailleurs,

• si la taille d'échantillon augmente, la largeur de l'IC .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si la variance de la population augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si le niveau de con�ance de l'IC augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si le risque α augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3 Estimateurs

4.3.1 Qualité de l'estimateur

Exemple : une entreprise pharmaceutique entreprend un essai clinique pour estimer l'e�cacité d'un nouveaumédicament contre le rhume. Ce produit est administré à un échantillon de n patients. A l'issue de la périodede traitement, le nombre de patients guéris est relevé.

Ici, la population étudiée est l'ensemble des personnes ayant un rhume ; l'échantillon est l'ensemble des npatients de l'essai clinique ; la variable d'intérêt est la variable indiquant si oui ou non le patient est guéri et leparamètre d'intérêt est p0, la probabilité de guérison associée au médicament qui est inconnue.

On note X1, . . . , Xn, les variables aléatoires mesurant si oui (1) ou non (0) les patients 1, . . . , n sont guéris.On suppose que ces v.a. sont indépendantes et identiquement distribuées :

X1, . . . , Xn ∼i.i.d.B(1, p0)

On propose d'étudier les propriétés des trois estimateurs de p0 suivants :

� 44 �

Page 45: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

T (1)n = Xn =

1

n

n∑i=1

Xi , T (2)n = X1 , T (3)

n = mode(X1, . . . , Xn)

Quel est le meilleur estimateur ? Pour obtenir une réponse objective à cette question on distingue deux typesd'erreurs, le biais et la variance d'un estimateur.

DEFINITION :Le Biais de Tn, B(Tn) :

B(Tn) = E(Tn − θ)

représente l'erreur que l'on obtiendrait en moyenne si on e�ectuait un grand nombre de fois l'échan-tillonnage et l'estimation.Tn est un estimateur sans biais de θ si et seulement si E(Tn) = θ

39 � Parmi T (1)n , T (2)

n et T (3)n quels sont les estimateurs sans biais ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :La Variance de l'estimation : V(Tn)Plus la variance est faible, plus l'estimation est précise.

40 � Quelle est la variance de T (2)n ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41 � Quelle est la variance de T (1)n ?.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42 � Quel est le meilleur estimateur ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :L' écart quadratique moyen de Tn pour l'estimation de θ :

EQM(Tn) = E[(Tn − θ0)2

]= V (Tn) + Biais(Tn)2.

Tn − θ est l'erreur d'estimation. On cherchera donc à minimiser l'EQM.

4.3.2 Méthodes d'estimation

Comment obtient-on les formules des di�érents estimateurs ?

Les deux méthodes les plus utilisées pour calculer des estimateurs sont celle du maximum de vraisemblanceet celle des moindres carrés.

• La vraisemblance L(x, θ0) des données x se calcule pour n'importe quelle valeur possible du paramètred'intérêt θ0. Pour les données discrètes, elle correspond à la probabilité d'observer les données pour cettevaleur de θ0.

L(x, θ0) = Pr(X1 = x1, X2 = x2, ..., Xn = xn|θ = θ0)

Dans le cas de données continues, la vraisemblance est la densité de probabilité des données.

L'estimateur du maximum de vraisemblance, Tmvn , est la variable aléatoire qui maximise la valeur de lavraisemblance des données observées.

Les propriétés du maximum de vraisemblance sont, quand n→∞ :

� 45 �

Page 46: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

� Tmvn → θ

� E(Tn)→ θ

� Tmvn suit une loi gaussienne.

• Dans la méthode des moindres carrés, la formule des estimateurs est obtenue en minimisant la sommedes carrés des écarts entre les données observées et les valeurs prédites par le modèle.(cf. cours sur larégression linéaire).

4.4 Quelques estimateurs usuels

4.4.1 Estimation de la moyenne, variance connue

Cette situation a été complètement décrite dans la première section.Le modèle est X1, . . . , Xn ∼

i.i.d.N (µ, σ2). σ est connue.

L'estimateur de µ est Xn =

n∑i=1

Xi

net Xn ∼ N (µ, σ2/n).

La statistique pivotale utilisée estXn − µσ/√n

qui suit une loi N (0, 1).

L'estimation ainsi obtenue est xn associée à l'intervalle de con�ance de niveau de con�ance 1− α :

IC1−α(µ) = [xn − u1−α/2σ√n

; xn + u1−α/2σ√n

]

où u1−α/2 est le quantile d'ordre 1− α/2 d'une loi N (0, 1).

Remarque : aucune commande directe R n'a été fournie pour illustrer cette estimation. En e�et, R ne permetpas l'estimation directe d'une moyenne lorsque la variance est connue. La plupart du temps en pratique, supposerque la variance est connue n'est pas réaliste.

4.4.2 Estimation de la moyenne, variance inconnue

Exercice : On s'intéresse au même problème que précédemment, mais cette fois, la variance n'est pas connue.

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.76 17.70 27.26 28.45 39.42 56.69

> t.test(x)

One Sample t-test

data: x

t = 9.9998, df = 29, p-value = 6.602e-11

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

22.62751 34.26315

sample estimates:

mean of x

28.44533

Solution : Rédaction typeLe modèle associé à l'expérience est le même que précédemment. On noteX1,. . . ,Xn les variables aléatoirescorrespondant à la longueur des n poissons. Ces variables aléatoires sont supposées indépendantes et identique-ment distribuées selon une loi N (µ, σ2). La variance σ2 n'est pas connue. L'estimateur de l'espérance est la v.a.

suivante : Xn =

n∑i=1

Xi

net Xn ∼ N (µ, σ2/n).

La statistique pivotale utilisée estXn − µSn−1

, où S2n−1 = 1

n−1

∑ni=1(Xi − Xn)2 est l'estimateur sans biais de

la variance (voir section 4.4.3). La statistique pivotale suit une loi Student à n− 1 degré de liberté, T (n− 1).

� 46 �

Page 47: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

L'estimation ainsi obtenue est xn associée à l'intervalle de con�ance de niveau de con�ance 1− α :

IC1−α(µ) = [xn − t(n− 1)1−α/2sn−1√n

; xn + t(n− 1)1−α/2sn−1√n

]

avec t(n − 1)1−α/2, le quantile d'ordre 1 − α/2 d'un loi de Student de paramètre n − 1. Si on considère unrisque α = 0.05, comme n = , t(n− 1)1−α/2 est la quantile d'ordre d'une Student à

degré de liberté.L'estimation de la longueur moyenne des poissons est et a pour intervalle de con�ance à

[ , ].

A RETENIR :Dans le modèle Gaussien, l'estimateur sans biais de l'espérance lorsque la variance est inconnue est

Xn =

n∑i=1

Xi

n

Il est associé à la statistique pivotaleXn − µSn−1

, où S2n−1 = 1

n−1

∑ni=1(Xi − Xn)2. Cette statistique

pivotale suit une loi de Student de degré de liberté n− 1. L'estimation xn est associée à l'intervallede con�ance :

IC1−α(µ) = [xn − t(n− 1)1−α/2sn−1√n

; xn + t(n− 1)1−α/2sn−1√n

]

4.4.3 Estimation de la variance

Exercice : Dans le cadre d'une étude 1 réalisée entre 1961 et 1973 dans la maternité d'un hôpital d'Oakland(Californie), le poids de 115 nourissons ont été mesurés. Après avoir estimé le poids moyen des enfants à lanaissance, on souhaite quanti�er la variabilité de poids qui peut exister entre les enfants à la naissance.

> summary(poids_naissance)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.770 2.925 3.360 3.389 3.760 6.350

> t.test(poids_naissance)

One Sample t-test

data: poids_naissance

t = 53.7013, df = 114, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

3.263773 3.513792

sample estimates:

mean of x

3.388783

Le modèle associé à l'expérience est le suivant : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Le paramètre d'intérêt est . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .L'estimateur sans biais de est la v.a. suivante :

S2n−1 =

1

n− 1

n∑i=1

(Xi − Xn)2

1. J.L. Hodges, D. Krech et R. Crutch�eld, Statlab : an Empirical Introduction to Statistics,

� 47 �

Page 48: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

On sait que (cf cours lois de probabilités),

n− 1

σ2S2n−1 ∼ χ2(n− 1)

43. n−1σ2 S

2n−1 est-elle une statistique pivotale ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44. Notons χ2α/2(n− 1) et χ2

1−α/2(n− 1) les quantiles d'ordres α/2 et 1− α/2 d'une distribution χ2(n− 1).

> n=length(poids_naissance)

> n

[1] 115

> qchisq(0.975,n-1)

[1] 145.4413

> qchisq(0.025,n-1)

[1] 86.34249

Représenter la distribution de la statistique pivotale et placer sur ce graphique ces quantiles.

45. P (χ2α/2(n− 1) ≤ n−1

σ2 S2n−1 ≤ χ2

1−α/2(n− 1)) =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46. P ( (n−1)χ21−α/2(n−1)

S2n−1 ≤ σ2 ≤ (n−1)

χ2α/2

(n−1)S2n−1) =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47. Si on note B1 et B2, les bornes de l'intervalle de probabilité 1− α,[B1, B2] :

B1 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

B2 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La formule de l'intervalle de con�ance 1− α,[b1, b2]

IC1−α(σ2) = [(n− 1)

χ21−α/2(n− 1)

s2n−1;

(n− 1)

χ2α/2(n− 1)

s2n−1]

� 48 �

Page 49: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

> var(poids_naissance)

[1] 0.4579476

> sig2=var(poids_naissance)

> (n-1)/qchisq(0.975,n-1)*sig2

[1] 0.3589491

> (n-1)/qchisq(0.025,n-1)*sig2

[1] 0.6046389

Si on considère un risque α = 0.05, comme n = , χ21−α/2(n − 1) est la quantile d'ordre

d'une χ2 à degré de liberté.L'estimation de la variance des poids des enfants à la naissance est et appartient à intervalle

de con�ance à [ , ].

Remarque : l'intervalle de con�ance n'est pas centré sur la valeur estimée.

A RETENIR :L'estimateur sans biais de la variance est

S2n−1 =

1

n− 1

n∑i=1

(Xi − Xn)2

Il est associé à la statistique pivotale n−1σ2 S

2n−1 qui suit une loi du χ2 de degré de liberté n − 1.

L'estimation ¯s2n−1 est associée à l'intervalle de con�ance :

IC1−α(σ2) = [(n− 1)

χ21−α/2(n− 1)

s2n−1;

(n− 1)

χ2α/2(n− 1)

s2n−1]

4.4.4 Estimation d'une proportion

Dans le cadre d'une étude sociologique sur les jeunes et leurs valeurs, 1847 jeunes âgés de 11 à 15 ans ontrépondu à un questionnaire. On les a notamment interrogé sur la valeur la plus importante pour eux : "avoir untravail intéressant", "avoir de l'argent", "faire ce qui me plaît". La valeur la plus plébiscitée fût "être heureuxen amour", choisie par 608 jeunes. Quelle est la proportion de jeunes pour lesquels cette valeur est la plusimportante ?

Le modèle associé à l'expérience est le suivant :. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Le paramètre d'intérêt est . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .L'estimateur sans biais de est la v.a. X/n.

Il existe plusieurs statistiques pivotales conduisant à di�érents intervalles de con�ance pour cet estimateur.Nous utiliserons la statistique pivotale suivante :

X − nπ√X(1−X/n

Nous admettrons que si nπ et n(1− π) sont su�samment grands, on peut approximer la distribution de cettev.a. par une loi normale centrée et réduite. On obtient ainsi une approximation de l'intervalle de con�ance del'estimation à un niveau con�ance α :

IC1−α(π) = [x

n− u1−α/2

√xn (1− x

n

n);x

n+ u1−α/2

√xn (1− x

n )

n]

> prop.test(608,1847)

1-sample proportions test

with continuity correction

data: 608 out of 1847, null probability 0.5

� 49 �

Page 50: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

X-squared = 214.889, df =

1, p-value < 2.2e-16

alternative hypothesis: true p is not equal to 0.5

95 percent confidence interval:

0.3078600 0.3512229

sample estimates:

p

0.3291825

L'estimation de la proportion de jeunes considérant que "être heureux en amour" est la valeur la plus im-portante est de et est associée à intervalle de con�ance à [ , ].

A RETENIR :Dans le modèle Binomial, l'estimateur sans biais de la proportion est

X

n

Il est associé à la statistique pivotaleX − nπ√X(1−X/n

, qui suit approximativement une loi N (0, 1).

L'estimation π est associée à l'intervalle de con�ance :

IC1−α(π) = [x

n− u1−α/2

√xn (1− x

n

n);x

n+ u1−α/2

√xn (1− x

n )

n]

� 50 �

Page 51: Poly.pdf pdf

Chapitre 5

Tests

5.1 Introduction

On s'intéresse au taux dans le sang d'une certaine hormone. Cette hormone est a�ectée si l'on ingère unesubstance dopante. Chez les sujets normaux, une certaine quantité de l'hormone est toujours présente avec uneconcentration de 0.4 en moyenne. Chez les sujets dopés, la quantité d'hormone augmente et dépasse 0.4 enmoyenne. Un contrôle anti-dopage, mesurant le taux dans le sang de cette hormone a été e�ectué sur une équipede n = 16 sportifs. Les sportifs subissant exactement le même entraînement, il n'y a que deux possibilités : soitils ont tous été dopés, soit aucun ne l'a été. Les données recueillies sont les suivantes.

> data

sujet hormone

1 1 0.35

2 2 0.40

3 3 0.65

4 4 0.27

5 5 0.14

6 6 0.59

7 7 0.73

8 8 0.13

9 9 0.24

10 10 0.48

11 11 0.12

12 12 0.70

13 13 0.21

14 14 0.13

15 15 0.74

16 16 0.18

Peut-on dire que les sportifs testés sont dopés ?

5.2 Démarche d'un test

5.2.1 Formalisation d'un test

1. Notons Xi la variable aléatoire désignant le taux de l'hormone mesuré chez le i-ème sportif. Ecrire le

modèle associé à l'expérience.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

Page 52: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

2. D'après la problématique de l'étude, quel est le paramètre d'intérêt ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Dans la suite de la Section 2., nous considérerons que le paramètre de variance du modèle σ2

est connu et que sa valeur est σ2 = 0.04.

FORMALISATION D'UN TESTDans un test statistique, on s'interroge toujours sur deux hypothèses. Formellement, on appelle :

• Hypothèse statistique : toute a�rmation concernant une caractéristique de la population,autrement dit, toute a�rmation concernant un paramètre inconnu du modèle probabiliste posé.

• Hypothèse nulle : l'hypothèse parmi les deux d'un test selon laquelle on �xe a priori la valeurdu paramètre d'intérêt à une valeur de référence. L'hypothèse nulle est toujours notée H0.

• Hypothèse alternative : la deuxième hypothèse d'un test, elle doit traduire une in-compatibilité avec l'hypothèse H0, par exemple, son contraire. L'hypothèse alternative esttoujours notée H1.

La démarche du test statistique consiste à choisir parmi H0 et H1 l'hypothèse la plus probable auvu des observations contenues dans l'échantillon. Dans un test statistique, on dit qu'on teste H0

contre H1.

Les hypothèses H0 et H1 les plus courantes :

• test bilatéral : H0 : {µ = µref} vs H1 : {µ 6= µref}

• test unilatéral : H0 : {µ = µref} vs H1 : {µ > µref}

• test unilatéral : H0 : {µ = µref} vs H1 : {µ < µref}

où µ est le paramètre du modèle sur lequel on s'interroge et µref est la valeur de référence à laquellele paramètre µ est comparé.

Remarque : Attention, il ne faut pas que H0 soit contenue dans H1 puisque H1 traduit une incom-patibilité avec l'hypothèse H0.

3 � Ecrire l'hypothèse nulle H0 et l'hypothèse alternative H1 traduisant la question posée au sujet des sportifs.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 � S'agit-il d'un test unilatéral ou bilatéral ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comment choisir H0 et H1 ?Il faut retenir que H0 :

• est une hypothèse qui formule une égalité (on va voir que c'est primordial pour la constructiondu test, puisque toute la démarche du test s'e�ectue en considérant que l'hypothèse H0 estvraie),

• est une hypothèse de prudence, qu'on ne rejettera que si on a su�samment de preuves contreelle. Dans un essai clinique, cette hypothèse de prudence pourrait être la non-e�cacité du médi-cament. On ne mettra le médicament sur le marché que si les données apportent su�sammentde preuves pour montrer qu'il peut être e�cace.

5.2.2 Tester sans modèle ?

Nous présentons dans ce paragraphe une approche de test naïve et nous expliquons en quoi cette approchen'est pas appropriée pour tester H0 contre H1.

� 52 �

Page 53: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Pour commencer, nous présentons quelques statistiques descriptives univariées sur des données des sportifs.

> summary(data$hormone)

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.1200 0.1700 0.3100 0.3787 0.6050 0.7400

5 � Quelle est l'estimation x du taux d'hormone moyen ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 � Selon vous, peut-on considérer que les sportifs sont dopés ou non dopés ? Justi�er.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La démarche ci-dessus, qui consiste à examiner la valeur de la di�érence entre le paramètre estimé etla valeur de référence, ne tient pas compte des �uctuations d'échantillonnage. La prise en compte decette source de variabilité est pourtant nécessaire pour orienter la prise de décision en faveur de H0

ou de H1. Le modèle statistique posé sur l'expérience permet de prendre en compte les di�érentessources de variation dans les données. Une façon de rendre la démarche du test statistique plusrigoureuse est donc de s'appuyer sur le modèle pour décider le rejet ou l'acceptation de l'hypothèseH0.

5.2.3 Principe d'un test paramétrique

Nous avons vu la nécessité de tenir compte des �uctuations d'échantillonnage pour construire un test sta-tistique. Lorsque l'on choisit d'utiliser un modèle statistique pour tenir compte de ces �uctuations dans le test,on parle de test paramétrique. Le test porte alors sur un ou plusieurs paramètres du modèle.

La règle de décision du test décrit la façon dont le résultat de l'expérience nous amène à choisir entre H0

et H1. Elle se fonde sur une statistique de test et une région de rejet.

Statistique de test

STATISTIQUE DE TESTPour répondre à une question concernant le paramètre µ, il semble naturel de partir de l'estimateurde la moyenne et d'évaluer si son comportement est compatible avec l'une des deux hypothèses dutests (H0 ou H1).La prise de décision s'e�ectue à partir d'une statistique de test construite à partir de l'estimateurdu paramètre d'intérêt et dont la distribution, donnée par le modèle, est parfaitement connue (nedépend pas de paramètres inconnus) sous H0.

7 � Rappeler l'expression de l'estimateur de la moyenne Xn où n désigne la taille de l'échantillon.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 � Supposons que l'hypothèse H0 est vraie. Quelle est sa distribution ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 � On considère la statistique

Tn =√nXn − µref

σ.

Supposons que l'hypothèse H0 est vraie. Quelle est la distribution de la statistique Tn ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 53 �

Page 54: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

10 � Cette distribution dépend-elle de paramètres inconnus ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La distribution de Tn sous H0 est représentée Figure 5.1.

Figure 5.1 � Distribution de Tn sous H0.

A RETENIR : Statistique de test lorsque H0 est de la forme µ = µref à σ connu :

La variable aléatoire

Tn =√nXn − µref

σ

est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dansun modèle Gaussien à variance connue. Sa distribution sous H0 est une loi Gaussienne centrée etréduite N (0, 1).

Remarque : On reconnaît la statistique pivotale de l'intervalle de con�ance qu'on construirait pour examinerles valeurs possibles de µ (sauf que la vraie valeur du paramètre µ0 y est remplacée par la valeur que l'onsouhaite tester).

A RETENIR :Une statistique de test doit avoir les qualités suivantes :

1. on doit pouvoir la calculer entièrement à partir des observations si on suppose l'hypothèse H0

vraie,

2. on doit en connaître la loi sous H0.

C'est bien le cas ici. D'autre part, l'hypothèse H0 est une hypothèse de travail. Tout le test estconstruit en supposant que cette hypothèse est véri�ée. En supposant qu'elle est véri�ée, on saitcaractériser le comportement de la statistique de test Tn. Sous H1 au contraire, on ne sait rien. Onsait simplement que le paramètre est di�érent de la valeur supposée sous H0.

� 54 �

Page 55: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Zone de rejet

Une décision basée sur une zone de rejetLa démarche fondamentale d'un test statistique consiste à supposer que l'hypothèse nulle H0 estvéri�ée. Ensuite, l'idée est d'accepter H0 si les données de l'échantillon ne sont pas en contradictionavec H0 et de rejeter H0 sinon. Pour évaluer la compatibilité des observations avec l'hypothèse nulle,on se sert de la statistique de test. Les valeurs les moins plausibles de Tn sous H0 se trouvent au delàd'un seuil. La procédure consiste donc à rejeter l'hypothèse nulle quand la valeur de Tn dépasse ceseuil. Les valeurs de Tn les moins compatibles avec l'hypothèse H0 constituent la zone de rejet dutest.

11 � La distribution de Tn sous H0 est représentée Figure 5.1. Selon vous, la zone de rejet se situe-t-elle plutôt

au centre, plutôt à droite ou plutôt à gauche de cette distribution ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Position du seuil (valeur critique)La règle de décision, la largeur de la zone de rejet, dépendent d'une quantité α, appelée seuil/niveaude signi�cation du test. α représente la proportion de valeurs de la statistique de test qui mène-raient, avec la procédure que l'on vient de décrire, au rejet de l'hypothèse nulle. Cette proportion devaleurs sont jugées moins compatibles que les autres avec H0. Cela ne signi�e pas qu'elles ne peuventpas se produire sous H0, on les rejette simplement parce que ce sont les valeurs qui se produisent lemoins souvent sous H0. Le choix de la valeur de α revient à l'utilisateur. Le plus souvent, on choisitα = 5%, mais il arrive que des tests soient construits avec des niveaux de signi�cation α à 1% ou 10%.

Cette procédure implique qu'il est possible de se tromper à l'issue du test en rejetant H0 à tort, etque la probabilité de se tromper en rejetant H0 alors que H0 est vraie est α.

12 � Sur le schéma ci-dessous qui représente la distribution de Tn sous H0, représenter α et la zone de rejet du

test.

Figure 5.2 � Distribution de Tn sous H0.

13 � Quelle est la valeur du seuil au delà duquel on rejetterait H0 ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 55 �

Page 56: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

14 � Enoncer la règle de décision du test.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

P-value

Probabilité critique ou p-value :

Les logiciels utilisent une formulation di�érente, mais équivalente, de la règle de décision du test.Les logiciels utilisent une quantité appelée p-valeur ou encore probabilité critique. Notons tn lavaleur de la statistique de test Tn obtenue à partir des observations. La p-valeur est la probabilitésous H0 que Tn prenne des valeurs au delà de tn : p − value = PH0

(Tn ≥ tn) dans le cas du testunilatéral étudié ici. Cette quantité quanti�e le risque que l'on prend en rejetant l'hypothèse H0 avecles données observées. C'est un risque réel que l'on compare au risque admissible α. Pour contrôlerle risque α, la règle de décision consistera à rejeter H0 si la valeur de la p-value est inférieure à α.

Dans le problème du dopage, la statistique de test vaut 1.35.

15 � La valeur de la statistique de test se trouve-t-elle dans la zone de rejet ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 � Quelle est la conclusion du test ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17 � Quelle conclusion tire-t-on à partir de la p-value du test, ici 0.66 ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18 � Est-ce la même conclusion ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Remarque : les deux règles de décision présentées (zone de rejet ou p-value) sont équivalentes.

5.2.4 Que change l'hypothèse alternative ?

19 � Dans chacun des cas ci-dessous, représenter la zone de rejet du test, indiquer les aires sous la courbe des

di�érentes zones (acceptation et rejet) ainsi que les valeurs critiques délimitant la zone de rejet du test.

On suppose que les tests sont réalisés avec un seuil de signi�cation α.

Remarque : quelle que soit l'hypothèse alternative, on rejette toujours H0 si la p-value est inférieure à α.

� 56 �

Page 57: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

H0 : µ = µref vs H1 : µ < µref H0 : µ = µref vs H1 : µ 6= µref

Zone de rejet Zone de rejet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Règle de décision Règle de décision

Rejet de H0 si tn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rejet de H0 si tn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Rejet de H0 si p− value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rejet de H0 si p− value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2.5 Risques d'erreur et puissance d'un test

Les deux types d'erreurs d'un test

LES DEUX TYPES D'ERREUR D'UN TEST :Les tests statistiques sont des outils d'aide à la décision mais ne donnent pas accès à la vérité absolue. . .

1. On a vu qu'on pouvait prendre une mauvaise décision à l'issue d'un test en faisant une erreurqui consiste à rejeter H0 alors que H0 est vraie. Ce type d'erreur, qui est contrôlée dans laconstruction du test, est appelée erreur de première espèce.

2. Il y a une autre erreur possible, appelée erreur de seconde espèce, qui consiste à conserverH0 alors que H1 est vraie. Cette erreur n'est pas complètement contrôlée, et la probabilitéqu'une telle erreur se produise est notée β.

3. La puissance d'un test 1−β est la probabilité de rejeter H0 alors que H1 est vraie. Le calcul dela puissance pour un test donné est intéressant car il permet de quanti�er l'aptitude d'un testà rejeter une hypothèse H0 fausse (et c'est très important car la test est construit en supposantH0 vraie !). Le calcul de la puissance n'est pas toujours facile en pratique.

On se place dans un cas de �gure où l'hypothèse nulle est fausse. On souhaite tester l'hypothèse nulleH0 : µ = µref contre son alternative H1 : µ > µref . Sur le schéma ci-dessous, on représente la distribution de lastatistique de test sous H0 et la vraie distribution de Tn (qui n'est autre qu'un cas particulier de distributionsous H1).

20 � Représenter sur le schéma les erreurs α, β ainsi que la puissance (1− β).

21 � Quelle est la distribution de Tn sous H0 ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22 � Quelle est la vraie distribution de Tn ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 57 �

Page 58: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Figure 5.3 �

Puissance d'un test : propriétés

A RETENIR :

23 � Quel est le lien entre l'erreur de première espèce et l'erreur de seconde espèce ? Compléter les

phrases ci-dessous, en vous aidant au besoin du schéma de la Figure 5.3.

Si α diminue, β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Représenter graphiquement cette situation.

Si α diminue, la puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Représenter graphiquement cette situation.

Implicitement, cela signi�e que le test est fondé sur un compromis entre les deux types d'erreurs

possibles.

• La puissance d'un test augmente avec la taille de l'échantillon étudié pour une même valeur deα.

• Plus la variabilité (σ) est importante, plus la puissance du test est faible.

� 58 �

Page 59: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

5.2.6 Synthèse

La démarche du test que nous venons de détailler et qui est résumée ci-dessous est identique quel que soitle test considéré. Les seuls éléments qui changent sont :

• la statistique de test,

• sa distribution sous H0,

• la forme de la zone de rejet selon que le test formulé est bilatéral, unilatéral à gauche ou unilatéral àdroite.

PROCEDURE GENERALE D'UN TEST :

1. étape préliminaire : modélisation du problème

2. choix du seuil de signi�cation du test α (généralement donné dans l'énoncé)

3. détermination des hypothèses à tester H0 et H1

4. choix d'une statistique de test Tn dont on connaît la loi sous H0

5. étude du comportement de Tn sous H0 et détermination de la zone de rejetpour le niveau qu'on s'est �xé

6. confrontation aux données et/ou calcul de la p-valeur du test sur les données

7. conclusion statistique : conservation ou rejet de l'hypothèse de départ H0 et commentaireéventuel sur la p-valeur

8. conclusion pratique (indispensable : on ne fait pas un test statistique pour la beauté des ma-thématiques, mais pour prendre une décision) : décision que l'on va prendre une fois éclairépar le résultat statistique

5.3 Principaux tests de comparaison à une valeur de référence à

connaître

5.3.1 Synthèse : comparaison d'une moyenne à une valeur de référence, varianceconnue

Cette situation a été complètement décrite dans la Section précédente. La variable aléatoire

Tn =√nXn − µref

σ

est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dans un modèleGaussien à variance connue. Sa distribution sous H0 est une loi Gaussienne centrée et réduite N (0, 1).

Remarque : aucune sortie R n'a été fournie pour illustrer le résultat du test sur les données dans la sectionprécédente. En e�et, R ne permet pas de faire un test de comparaison d'une moyenne à une valeur de référencelorsque la variance est connue. La plupart du temps en pratique, supposer que la variance est connue n'est pasréaliste.

5.3.2 Exercice : comparaison d'une moyenne à une valeur de référence, varianceinconnue

Exercice : On s'intéresse au même problème que précédemment, mais cette fois, la variance n'est pas connue.Les statistiques descriptives univariées sont rappelées et les sorties R pour le test sont fournies ci-dessous. Onfournit également quelques quantiles.

> summary(data$hormone)

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.1200 0.1700 0.3100 0.3787 0.6050 0.7400

> sd(data$hormone)

� 59 �

Page 60: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

[1] 0.2357364

> t.test(data$hormone,mu=0.4,alternative="greater")

One Sample t-test

data: data$hormone

t = -0.3606, df = 15, p-value = 0.6383

alternative hypothesis: true mean is greater than 0.4

95 percent confidence interval:

0.2754355 Inf

sample estimates:

mean of x

0.37875

> qt(0.95,15)

[1] 1.75305

> qt(0.975,15)

[1] 2.13145

Solution : Rédaction typeLe modèle associé à l'expérience est le même que précédemment. On noteX1,. . . ,Xn les variables aléatoires cor-respondant au taux d'hormone mesuré chez les n sportifs. Ces variables aléatoires sont supposées indépendanteset identiquement distribuées selon une loi N (µ, σ2). La variance σ2 n'est pas connue. Les hypothèses testéessont H0 : et H1 : . La statistique de test pour ce test est :

Tn =√nXn − µref

Sn−1

où Xn = 1n

∑ni=1Xi est l'estimateur de la moyenne, S2

n−1 = 1n−1

∑ni=1(Xi− Xn)2 est l'estimateur sans biais de

la variance. Sa distribution sous H0 est une loi de Student à n− 1 degrés de liberté T (n− 1). Il s'agit d'un testunilatéral/ bilatéral. La zone de rejet pour ce test est. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• La statistique de test vaut et se trouve/ ne se trouve pas dans la zone de rejet.On accepte/rejette donc H0 au risque α = 5%, ce qui signi�e .

• OU La p-value vaut , elle est inférieure/supérieure à α. On accepte/rejette doncH0 au risque α = 5%, ce qui signi�e .

23 � Représenter la distribution de la statistique de test sous H0 et faire �gurer sur ce graphique la zone derejet ainsi que la p-valeur du test.

A RETENIR :

La variable aléatoire

Tn =√nXn − µref

Sn−1

est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dansun modèle Gaussien à variance inconnue. Sa distribution sous H0 est une loi de Student à n − 1degrés de liberté Tn−1.

� 60 �

Page 61: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

5.3.3 Comparaison d'une variance à une valeur de référence

Exercice :On veut contrôler la précision d'une balance au bout d'un an de fonctionnement. Si on pèse unpoids de 1g avec une balance neuve et bien réglée, on peut considérer que l'observation est la réalisation d'unevariable aléatoire suivant une loi normale d'espérance mathématique µ0 = 1g et d'écart-type σ0 = 1.2mg. Si aubout d'un an de fonctionnement, on constate que l'écart-type est supérieur à 1.2mg, la précision de la balancea diminué.

On e�ectue 10 pesées d'une masse étalon de 1g. Les résultats des pesées donnent : sn−1 = 5.85mg. Testerau niveau α = 0.10 si la précision de la balance a diminué.

On fournit quelques quantiles d'une distribution du Chi-deux à 9 degrés de liberté.

> qchisq(0.95,9)

[1] 16.91898

> qchisq(0.975,9)

[1] 19.02277

> qchisq(0.025,9)

[1] 2.700389

> qchisq(0.05,9)

[1] 3.325113

Solution : Rédaction typeLe modèle associé à l'expérience est le suivant :. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les hypothèses testées sont H0 : et H1 : . La statistiquede test pour ce test est :

Tn = (n− 1)Sn−1

(σref )2

où Xn = 1n

∑ni=1Xi est l'estimateur de la moyenne, S2

n−1 = 1n−1

∑ni=1(Xi− Xn)2 est l'estimateur sans biais de

la variance. Sa distribution sous H0 est une loi du Chi-deux à n − 1 degrés de liberté χ2(n − 1). Il s'agit d'untest unilatéral/ bilatéral. La zone de rejet pour ce test est. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La statistique de test vaut et se trouve/ ne se trouve pas dans la zone de rejet.On accepte/rejette donc H0 au risque α = 5%, ce qui signi�e .

24 � Représenter la distribution de la statistique de test sous H0 et faire �gurer sur ce graphique la zone derejet ainsi que la p-valeur du test.

� 61 �

Page 62: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

A RETENIR :

La variable aléatoire

Tn = (n− 1)Sn−1

(σref )2

est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme σ = σref dansun modèle Gaussien. Sa distribution sous H0 est une loi du Chi-deux à n− 1 degrés de liberté χ2

n−1.

Remarque : R ne fait pas non plus les tests de comparaison d'une variance à une valeur de référence.

5.4 Comparaison de deux populations

5.4.1 Comparaison de deux moyennes, variances homogènes (méthode des lots)

Exercice : Le coucou est un oiseau qui pratique le parasitisme de couvée. Les parents coucous ne s'occupentpas de leur progéniture : couvaison des ÷ufs ou soins et alimentation des oisillons. La femelle coucou pond ses÷ufs dans le nid d'oiseaux d'autres espèces qui s'occupent la plupart du temps de ses ÷ufs comme des leurs.De nombreux comportements et caractères chez les coucous semblent favoriser ce parasitisme : la femelle gobeun ÷uf du nid qu'elle parasite, une vitesse élevée de ponte, une date d'éclosion précoce... Il a été montré que lescoucous pondent des ÷ufs très petits comparativement à la taille des adultes. La question qui a motivé l'étudesuivante était de déterminer si la taille des ÷ufs pondus par les coucous pouvait varier en fonction de l'espècehôte du nid dans lequel ils avaient été pondus. On a échantillonné 31 ÷ufs de coucou dans di�érents nids dedeux espèces hôte, notées ROBIN et Wren. On a mesuré la taille de chaque ÷uf (le diamètre de l'÷uf en mm).On se demande si la taille des ÷ufs di�ère selon l'espèce de l'hôte. Le jeu de données est fourni ci-dessous.

> coucou1

esp taille

1 ROBIN 21.05

2 ROBIN 21.85

3 ROBIN 22.05

4 ROBIN 22.05

5 ROBIN 22.05

6 ROBIN 22.25

7 ROBIN 22.45

8 ROBIN 22.45

9 ROBIN 22.65

10 ROBIN 23.05

11 ROBIN 23.05

12 ROBIN 23.05

13 ROBIN 23.05

14 ROBIN 23.05

15 ROBIN 23.25

16 ROBIN 23.85

17 WREN 19.85

18 WREN 20.05

19 WREN 20.25

20 WREN 20.85

21 WREN 20.85

22 WREN 20.85

23 WREN 21.05

24 WREN 21.05

25 WREN 21.05

26 WREN 21.25

27 WREN 21.45

28 WREN 22.05

29 WREN 22.05

30 WREN 22.05

31 WREN 22.25

25 � Ecrire le modèle associé à l'expérience.

� 62 �

Page 63: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26 � Ecrire l'hypothèse nulle H0 et l'hypothèse alternative H1 du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lorsque l'on compare deux moyennes à partir de deux échantillons indépendants, la statistique de test estdi�érente selon que les variances dans les deux populations sont égales ou non. Dans ce module, nous n'étudieronsque le cas de variances homogènes, c'est-à-dire que l'on supposera les deux variances égales.

A RETENIR :La statistique de test pour la comparaison de deux moyennes dans le cas Gaussien à partir d'échan-tillons indépendants (H0 : µ1 = µ2) est donnée par :

D

Sn1+n2−2

√1n1

+ 1n2

∼H0

T (n1 + n2 − 2)

où D = Xn1− Yn2

, S2n1+n2−2 =

(n1−1)S2X,n1−1+(n2−1)S2

Y,n2−1

n1+n2−2 est l'estimateur de la variance communeaux deux populations avec S2

X,n1−1 et S2Y,n2−1 les estimateurs sans biais de la variance dans chacune

des populations.SousH0, cette statistique de test suit une loi de Student à n1+n2−2 degrés de liberté (T (n1+n2−2)).

27 � Quelle est la zone de rejet pour le test formulé ci-dessus ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les sorties R correspondant à ce test sont fournies ci-dessous ainsi que quelques quantiles de la distribution deStudent à 29 degrés de liberté.

> t.test(coucou1$taille~coucou1$esp,var.equal=T)

Two Sample t-test

data: coucou1$taille by coucou1$esp

t = 5.633, df = 29, p-value = 4.378e-06

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.9203528 1.9696472

sample estimates:

mean in group ROBIN mean in group WREN

22.575 21.130

> qt(0.95,29)

[1] 1.699127

> qt(0.975,29)

[1] 2.04523

� 63 �

Page 64: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

28 � Quelle est la valeur de la statistique de test ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29 � Cette valeur se trouve-t-elle dans la zone de rejet ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30 � Quelle est la valeur de la p-value ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31 � Que peut-on en conclure ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32 � Représenter la distribution de la statistique de test sous H0 et faire �gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

5.4.2 Comparaison de deux variances

Le test précédent repose sur une hypothèse forte qui est l'hypothèse d'homogénéité des variances entre lesdeux populations. On ne se lance donc pas à l'aveugle dans un test de comparaison de deux moyennes. L'hypo-thèse d'égalité des variances doit être véri�ée au préalable, sauf si on spéci�e clairement dans l'énoncé que l'onpeut supposer les variances égales. Comprenons bien que réaliser le test ci-dessus lorsque l'hypothèse n'est pasvéri�ée peut mener à des prises de décision malheureuses . . .

33 � Formuler l'hypothèse nulle H0 et l'hypothèse alternative H1 du test qui permettrait de véri�er l'homogé-

néité des variances.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A RETENIR :La statistique de test pour le test d'homogénéité des variances est la variable aléatoire :

Tn =S2X,n1−1

S2Y,n2−1

où S2X,n1−1 et S2

Y,n2−1 sont les estimateurs sans biais de la variance dans chacune des populations.Sous H0 (hypothèse d'homogénéité des variances), cette statistique suit une loi de Fisher à n1− 1 etn2 − 1 degrés de liberté (F(n1 − 1, n2 − 1)).

� 64 �

Page 65: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

34 � Quelle est la zone de rejet pour le test formulé ci-dessus ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les sorties R correspondant à ce test sont fournies ci-dessous.

> var.test(coucou1$taille~coucou1$esp)

F test to compare two variances

data: coucou1$taille by coucou1$esp

F = 0.8473, num df = 15, denom df = 14, p-value = 0.7519

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.2872795 2.4498909

sample estimates:

ratio of variances

0.8472796

35 � Quelle est la valeur de la statistique de test ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36 � Quelle est la valeur de la p-value ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37 � Que peut-on en conclure ? Pouvait-on faire l'hypothèse d'homogénéité des variances pour comparer les

moyennes des ÷ufs ? ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38 � Représenter la distribution de la statistique de test sous H0 et faire �gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

Remarque : si l'hypothèse d'homogénéité des variances n'est pas véri�ée, le test de comparaison des moyennesest possible mais la statistique de test et sa distribution sous H0 sont di�érentes. Le test de comparaison desmoyennes à variances égales est toujours plus puissant en situation d'homogénéité des variances. C'est pourquoiil est toujours préférable de considérer les variances égales lorsque les variances ne sont pas signi�cativementdi�érentes.

� 65 �

Page 66: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

5.4.3 Que se passe-t-il lorsque les échantillons sont appariés ? (méthode des couples)

Exercice : Neuf malades présentant des symptômes d'anxiété reçoivent un tranquillisant. On évalue l'étatdes malades avant et après traitement par un indice que le médecin traitant calcule d'après les réponses à unesérie de questions. Si le traitement est e�cace, l'indice doit diminuer. Les valeurs observées de cet indice sur lesneuf patients sont les suivantes :

Patient 1 2 3 4 5 6 7 8 9Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3Apres 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29

Le traitement est-il e�cace ?

39 � Peut-on supposer comme précédemment que les échantillons sont indépendants ? Pourquoi ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40 � On note Xi la variable aléatoire mesurant l'indice d'anxiété du patient i avant traitement et Yi la variable

aléatoire mesurant l'indice d'anxiété du patient i après traitement. Ecrire le modèle correspondant à

l'expérience.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41 � Formuler l'hypothèse nulle H0 et l'hypothèse alternative H1 correspondant au problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :Des échantillons appariés sont des échantillons construits de façon à ce qu'ils soient composésd'individus possédant les mêmes caractéristiques. C'est le cas par exemple lorsque l'on mesure lemême caractère sur les mêmes individus à deux moments di�érents ou sous des conditions di�érentes,ou bien lorsque l'on mesure le même caractère sur des frères jumeaux, l'un sous une condition etl'autre sous une autre condition. Lorsqu'une étude est basée sur des échantillons appariés, l'in�uencedes facteurs exogènes est réduite et les résultats sont bien plus précis, donc plus opérationnels (onmaîtrise mieux l'origine des di�érences observées).

A RETENIR :On suppose que les deux échantillons appariés sont de même taille n. On dé�nit Di = Xi − Yi. Lastatistique de test pour la comparaison de deux moyennes dans le cas Gaussien à partir d'échantillonsappariés (H0 : µ1 = µ2) est donnée par :

T =√n

Dn

SD,n−1∼H0

Tn−1

où Dn = Xn − Yn et SD,n−1 = 1n−1

∑ni=1(Di − Dn)2. Sous H0, cette statistique de test suit une loi

de Student à n− 1 degrés de liberté (T (n− 1)).

La sortie R pour ce test est fournie ci-dessous.

> t.test(avant,apres,alternative="two.sided",paired=T)

� 66 �

Page 67: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Paired t-test

data: avant and apres

t = 3.0264, df = 8, p-value = 0.0164

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.1028864 0.7615581

sample estimates:

mean of the differences

0.4322222

42 � Quelle est la valeur de la statistique de test ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43 � Quelle est la valeur de la p-value ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44 � Que peut-on en conclure ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45 � Représenter la distribution de la statistique de test sous H0 et faire �gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

5.5 Autres tests

Dans cette dernière partie de cours, d'autres tests reposant sur d'autres modèles que le modèle Gaussien.Les tests présentés sont d'un usage courant dans la pratique, en particulier en biologie.

5.5.1 Test de comparaison d'une proportion à une valeur de référence

Exercice : On réalise un essai préclinique sur l'action d'une nouvelle molécule contre une pathologie donnée.On observe 4 souris guéries sur n = 10 souris traitées. Peut-on considérer que la molécule est e�cace sur lamoitié des individus traités ?

46 � Ecrire le modèle associé à l'expérience.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 67 �

Page 68: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

47 � Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Plusieurs tests existent pour comparer une proportion à une valeur de référence. Nous n'en donnerons pasles statistiques de test. Une façon courante de faire consiste à recourir à une approximation par une loi normale.Ce type d'approximation n'est valable que sous certaines conditions sur la taille de l'échantillon (échantillon detaille su�sante) et sur la vraie valeur de la proportion (ni trop grande, ni trop petite). Lorsque ces conditionsne s'appliquent pas et que l'approximation Gaussienne n'est pas valable, il est possible d'utiliser un test exact.

On réalise le test exact sous R.

binom.test(4, 10, p = 0.5,alternative = "two.sided")

Exact binomial test

data: 4 and 10

number of successes = 4, number of trials = 10, p-value = 0.7539

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.1215523 0.7376219

sample estimates:

probability of success

0.4

48 � Peut-on considérer que la molécule est e�cace sur la moitié des individus traités au risque α = 5% ?

Justi�er la réponse.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.5.2 Test d'ajustement du Chi-deux

Exercice : On veut tester si un dé n'est pas truqué au risque α = 5%. Pour cela on lance le dé n = 60 foiset on obtient les résultats suivants :

i 1 2 3 4 5 6ni 15 7 4 11 6 17

49 � Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50 � Compléter le tableau ci-dessous pour répondre aux deux questions suivantes :

(a) Avec quelles probabilités pi observerait-on chacune des faces du dé pour un dé non truqué ?

(b) Quels e�ectifs ei espère-t-on observer si le dé n'est pas truqué ?

i 1 2 3 4 5 6

pi

ei

� 68 �

Page 69: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Le test d'ajustement du χ2 compare la distribution observée à la distribution théorique (la distributionattendue sous l'hypothèse nulle) au moyen de la statistique suivante :

T =

I∑i=1

(ni − ei)2

ei

où I est le nombre de valeurs possibles de la variable d'intérêt, les ni sont les e�ectifs observés et les ei sont les ef-fectifs attendus sontH0. SousH0, T est approximativement distribué selon une loi du χ2 à I−1 degrés de liberté.

Le test des données du dé est réalisé ci-dessous :

> chisq.test(x=c(15,7,4,11,6,17),p=rep(1/6,6),correct=F)

Chi-squared test for given probabilities

data: c(15, 7, 4, 11, 6, 17)

X-squared = 13.6, df = 5, p-value = 0.01836

51 � Le dé est-il truqué au risque α = 5% ? Justi�er la réponse.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Remarque : la distribution de la statistique de test sousH0 est obtenue par une approximation asymptotique.Dans certains cas, notamment lorsque le nombre d'observations est faible, cette approximation n'est plus valableet une correction est apportée à la statistique de test.

5.5.3 Test du chi-deux d'indépendance

Exercice : On veut comprendre ce qui incite les individus à fumer et plus particulièrement si l'environnementfamilial in�ue sur le choix de fumer. Pour cela, on a recueilli des données auprès de 123 étudiants. Dans le tableauci-dessous f. signi�e fumeur et n.f. signi�e non fumeur.

Père f. et Mère f. Père f. et Mère n.f. Père n.f. et Mère f. Père n.f. et Mère n.f.Fumeur 13 16 7 29

Non Fumeur 5 24 6 23

52 � Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La procédure du test du chi-deux d'indépendance est analogue à celle du test du chi-deux d'ajustement :la statistique de test se calcule à partir des écarts entre les e�ectifs observés et les e�ectifs théoriques sousl'hypothèse d'indépendance.Pour calculer les e�ectifs théoriques sous l'hypothèse d'indépendance, on utilise la dé�nition classique de l'in-dépendance entre deux événements A et B, selon laquelle A et B sont indépendants si et seulement si :

P (A ∩B) = P (A)P (B).

Notons :

• n : le nombre total d'observations,

• ni. : le nombre total d'observations pour la modalité i du premier facteur, i = 1, . . . , I,

• n.j : le nombre total d'observations pour la modalité j du deuxième facteur, j = 1, . . . , J ,

• nij : le nombre d'observations pour la modalité i du premier facteur et la modalité j du deuxième facteur,

� 69 �

Page 70: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

• πij : l'e�ectif théorique sous l'hypothèse d'indépendance pour la modalité i du premier facteur et lamodalité j du deuxième facteur.

Selon la dé�nition de l'indépendance rappelée ci-dessus, si les deux facteurs étaient indépendants, les e�ectifsque nous observerions dans chaque case du tableau de contingence seraient égaux à :

πij =ni.n.jn

.

On obtient le tableau des e�ectifs théoriques suivant :

Père f. et Mère f. Père f. et Mère n.f. Père n.f. et Mère f. Père n.f. et Mère n.f.Fumeur 9.51 21.14 6.87 27.48

Non Fumeur 8.49 18.86 6.13 24.52

53 � Retrouver par le calcul les e�ectifs théoriques π11 et π21 de la première colonne du tableau ci-dessus.

π11 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

π21 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La statistique de test pour le test du chi-deux d'indépendance est donnée par

T =I∑i=1

J∑j=1

(nij − πij)2

πij.

Sous H0, T est approximativement distribué selon une loi du χ2 à (I − 1)(J − 1) degrés de liberté.

On fait le test sous R :

> tabconting=table(fumeur,parents)

> chisq.test(tabconting)

Pearson's Chi-squared test

data: tabconting

X-squared = 5.5444, df = 3, p-value = 0.136

54 � Qu'en concluez-vous ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.6 Lien entre intervalles de con�ance et tests

� 70 �

Page 71: Poly.pdf pdf

Chapitre 6

Analyse de la variance à un facteur

6.1 Présentation du problème et des données

6.1.1 La problématique

Le coucou est un oiseau qui pratique le parasitisme de couvée. Les parents coucous ne s'occupent pas deleur progéniture : couvaison des ÷ufs ou soins et alimentation des oisillons. La femelle coucou pond ses ÷ufsdans le nid d'oiseaux d'autres espèces qui s'occupent la plupart du temps de ses ÷ufs comme des leurs. Denombreux comportements et caractères chez les coucous semblent favoriser ce parasitisme : la femelle gobe un÷uf du nid qu'elle parasite, une vitesse élevée de ponte, une date d'éclosion précoce... Il a été montré que lescoucous pondent des ÷ufs très petits comparativement à la taille des adultes. La question qui a motivé l'étudesuivante était de déterminer si la taille des ÷ufs pondus par les coucous pouvait varier en fonction de l'espècehôte du nid dans lequel ils avaient été pondus.

6.1.2 Les données

On a échantillonné 120 ÷ufs de coucou dans di�érents nids. On a mesuré la taille de chaque ÷uf (le diamètrede l'÷uf en mm) et noté l'espèce de l'hôte. On a relevé di�érentes espèces hôte :

• Accenteur mouchet, Hedge Sparrow en anglais (notée esp1 dans le jeu de données)

• Pipit farlouse, Meadow Pipit (esp2)

• Bergeronnette grise, Pied Wagtail (esp3)

• Rouge-gorge, Robin (esp4)

• Pipit des arbres, Tree Pipit (esp5)

• Troglodyte Mignon, Wren (esp6)

Un extrait et un résumé du jeu de données sont fournis ci-dessous.

> head(coucou)

esp taille

1 esp2 19.65

2 esp2 20.05

3 esp2 20.65

4 esp2 20.85

5 esp2 21.65

6 esp2 21.65

> str(coucou)

'data.frame': 120 obs. of 2 variables:

$ esp : Factor w/ 6 levels "esp1","esp2",..: 2 2 2 2 2 2 2 2 2 2 ...

$ taille: num 19.6 20.1 20.6 20.9 21.6 ...

71

Page 72: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

DEFINITIONS

Variable réponse, ou variable à expliquer, notée Y . C'est la variable qui mesure le phénomèneauquel on s'intéresse. On cherche à connaître l'e�et des autres variables sur Y .

Variable explicative ou facteur, notée Xj , pour j = 1, . . . , p. Ce sont des variables dont oncherche à étudier l'e�et sur Y . Xj peut être qualitative ou continue.

Variable qualitative. C'est une variable pour laquelle la valeur mesurée sur chaque individu nereprésente pas une quantité. Les di�érentes valeurs que peut prendre cette variable sont appeléescatégories, modalités ou niveaux.

Commentaires des sorties R :

L'instruction R str(coucou) fournit des informations sur la structure du jeu de données coucou : nombred'observations, nombre et nature des variables. On y lit que le jeu de données contient n = 120 observations etrenseigne sur deux variables. La variable esp est une variable qualitative (Factor). La variable taille est unevariable quantitative (num). Rappelons que d'après la problématique décrite ci-dessus, on cherche à expliquerla valeur de la variable taille à partir des valeurs de la variable esp.

Quelle est la variable réponse et quelle est la variable explicative ?

Variable réponse : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable explicative : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NATURE DES VARIABLES EN ANOVADans les modèles d'analyse de la variance, la variable réponse est quantitative et les variablesexplicatives sont qualitatives.

6.1.3 La structure du jeu de données

> table(coucou$esp)

esp1 esp2 esp3 esp4 esp5 esp6

14 45 15 16 15 15

> pie(table(coucou$esp))

HDGE_SPRW

MDW_PIPIT

PIED_TAIL

ROBIN TREE_PIPIT

WREN

� 72 �

Page 73: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

DEFINITIONLorsqu'une étude porte sur une variable qualitative, on parle d'échantillonnage ou dispositiféquilibré, lorsque l'on a le même nombre d'observations pour chacune des modalités de cette va-riable.

Commentaires des sorties R :

L'instruction R table(coucou$esp) fournit un tableau des e�ectifs par espèce hôte à partir des données decoucou. Dans la sortie associée, on lit que pour l'espèce esp1, on dispose de n1 = 14 observations, n2 = 45observations pour esp2, n3 = 15 observations pour esp3, n4 = 16 pour l'espèce esp4, n5 = 15 pour l'espèceesp5, et n6 = 15 observations pour l'espèce esp6. On ne dispose pas du même nombre d'observations par espèce ;l'échantillonnage n'est pas équilibré. La taille des ÷ufs pour l'espèce hôte esp2 sera estimée avec davantage deprécision que pour les autres espèces hôte puisque c'est pour cette espèce que l'on dispose du plus grand nombred'observations. On peut également s'attendre à proposer une comparaison des six espèces hôtes moins puissanteque si le dispositif expérimental avait été équilibré.

6.1.4 Quelques statistiques descriptives

Statistiques descriptives globales

> mean(coucou$taille)

[1] 22.46

> sd(coucou$taille)

[1] 1.073704

> summary(coucou$taille)

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.65 21.85 22.35 22.46 23.25 25.05

> hist(coucou$taille)

Histogram of coucou$taille

coucou$taille

Fre

quen

cy

20 21 22 23 24 25

05

1015

2025

3035

Statistiques descriptives par espèce hôte

> by(coucou$taille,coucou$esp,mean)

coucou$esp: esp1

[1] 23.12143

---------------------------------------------------------

coucou$esp: esp2

[1] 22.29889

---------------------------------------------------------

coucou$esp: esp3

[1] 22.90333

---------------------------------------------------------

coucou$esp: esp4

[1] 22.575

---------------------------------------------------------

coucou$esp: esp5

[1] 23.09

---------------------------------------------------------

coucou$esp: esp6

� 73 �

Page 74: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

[1] 21.13

> by(coucou$taille,coucou$esp,sd)

coucou$esp: esp1

[1] 1.068737

---------------------------------------------------------

coucou$esp: esp2

[1] 0.9206278

---------------------------------------------------------

coucou$esp: esp3

[1] 1.067619

---------------------------------------------------------

coucou$esp: esp4

[1] 0.6845923

---------------------------------------------------------

coucou$esp: esp5

[1] 0.9014274

---------------------------------------------------------

coucou$esp: esp6

[1] 0.7437357

> by(coucou$taille,coucou$esp,summary)

coucou$esp: esp1

Min. 1st Qu. Median Mean 3rd Qu. Max.

20.85 22.90 23.05 23.12 23.85 25.05

---------------------------------------------------------

coucou$esp: esp2

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.65 22.05 22.25 22.30 22.85 24.45

---------------------------------------------------------

coucou$esp: esp3

Min. 1st Qu. Median Mean 3rd Qu. Max.

21.05 21.95 23.05 22.90 23.75 24.85

---------------------------------------------------------

coucou$esp: esp4

Min. 1st Qu. Median Mean 3rd Qu. Max.

21.05 22.05 22.55 22.58 23.05 23.85

---------------------------------------------------------

coucou$esp: esp5

Min. 1st Qu. Median Mean 3rd Qu. Max.

21.05 22.55 23.25 23.09 23.75 24.05

---------------------------------------------------------

coucou$esp: esp6

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.85 20.85 21.05 21.13 21.75 22.25

> boxplot(coucou$taille~coucou$esp)

� 74 �

Page 75: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

510

1520

25

Taille

010

2030

4050

Masse

01

23

45

67

Graines

Les tailles d'÷ufs mesurées varient de 19.65 mm à 25.05 mm, avec une taille moyenne globale de 22.46 mmet un écart-type de 1.07 mm. D'après l'histogramme, le mode sur l'échantillon se situe autour de 22 mm. Sion sépare l'analyse descriptive selon l'espèce hôte, on remarque de grandes similitudes entre les distributionsobservées : une taille moyenne des ÷ufs entre 22.5 mm et 23 mm avec un écart-type de l'ordre de 1 mm.L'espèce esp6 semble se démarquer des autres espèces avec une taille moyenne des ÷ufs qui paraît nettementinférieure (21.13 mm). Nous observons donc des di�érences entre les tailles moyennes des ÷ufs couvés par lesdi�érentes espèces hôte, notamment entre l'espèce esp6 et les autres espèces. Pour savoir si ces di�érences sontstatistiquement signi�catives ou simplement dues à l'échantillonnage, il est nécessaire de mettre en place uneprocédure de tests statistiques.

6.2 Exercice : Comparaison de la taille des oeufs chez les espèces esp1

et esp6

La question initiale concerne l'ensemble des espèces hôtes. Dans un premier temps, nous proposons derépondre à une question plus simple :

"Les tailles des ÷ufs issus des nids des espèces esp1 et esp6 sont-elles identiques ?".

Pour répondre à cette question, on ne travaille que sur les données de ces deux espèces.

coucou1=coucou[coucou$esp=="esp1"|coucou$esp=="esp6",]

Questions

55 � Quel test permet de répondre à la question : comparaison d'une moyenne à une moyenne de référence,comparaison de deux moyennes à partir d'échantillons indépendants, comparaison de deux moyennes àpartir d'échantillons appariés ?

56 � Précisez le modèle utilisé.

57 � Explicitez l'hypothèse nulle (H0) et l'hypothèse alternative (H1) de ce test.

58 � Quelle précaution doit-on prendre avant de faire ce test ?

On e�ectue un premier test :

> var.test(coucou1$taille~coucou1$esp)

F test to compare two variances

� 75 �

Page 76: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

data: coucou1$taille by coucou1$esp

F = 2.0649, num df = 13, denom df = 14, p-value = 0.1917

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.6855898 6.3637942

sample estimates:

ratio of variances

2.064924

59 � De quel test s'agit-il ?

60 � Précisez le modèle utilisé.

61 � Explicitez l'hypothèse nulle (H0) et l'hypothèse alternative (H1) de ce test.

62 � Quelle est la probabilité critique obtenue avec ce test ?

63 � Que concluez-vous ?

On propose ensuite deux tests :

• Test 1

> t.test(coucou1$taille~coucou1$esp,var.equal=T)

Two Sample t-test

data: coucou1$taille by coucou1$esp

t = 5.8583, df = 27, p-value = 3.076e-06

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

1.293949 2.688909

sample estimates:

mean in group esp1 mean in group esp6

23.12143 21.13000

• Test 2

> t.test(coucou1$taille~coucou1$esp,var.equal=F)

Welch Two Sample t-test

data: coucou1$taille by coucou1$esp

t = 5.786, df = 23.037, p-value = 6.75e-06

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

1.279496 2.703361

sample estimates:

mean in group esp1 mean in group esp6

23.12143 21.13000

64 � Quel test doit-on choisir pour comparer les tailles des ÷ufs entre les espèces esp1 et esp6 ?

65 � Quelle est la probabilité critique obtenue avec ce test ?

66 � Que concluez-vous ?

67 � Quelle est la probabilité critique obtenue avec l'autre test ?

68 � Cette p-value est-elle di�érente du test précédent ? Pourquoi ?

69 � Pour étudier l'ensemble des espèces, on e�ectue les mêmes tests avec toutes les espèces deux à deux (cf.tableau ci-dessous). Quelles sont les di�érences signi�catives ? Reportez votre réponse dans le tableau.

� 76 �

Page 77: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Espèce 1 Espèce 2 Tests de comparaison Di�érencedes variances des moyennes signi�cative

variances égales non égales Oui/Non

esp2 esp5 0.984 0.005 0.007esp2 esp1 0.447 0.007 0.018esp2 esp4 0.212 0.278 0.216esp2 esp3 0.443 0.039 0.063esp2 esp6 0.389 <0.001 <0.001esp5 esp1 0.535 0.932 0.933esp5 esp4 0.302 0.082 0.086esp5 esp3 0.535 0.609 0.609esp5 esp6 0.481 <0.001 <0.001esp1 esp4 0.102 0.102 0.115esp1 esp3 0.992 0.587 0.587esp1 esp6 0.192 <0.001 <0.001esp4 esp3 0.099 0.313 0.322esp4 esp6 0.752 <0.001 <0.001esp3 esp6 0.189 <0.001 <0.001

70 � Les tailles des ÷ufs vous paraissent-elles équivalentes entre les di�érentes espèces hôtes ?

71 � Rappelez la dé�nition du risque de première espèce d'un test, noté α.

72 � Que pensez-vous du risque de conclure à tort à l'existence d'une di�érence entre au moins deux espèceshôte ? Est-elle égale à 5%?

6.3 Modèle, estimation et véri�cation des hypothèses

Le principe de l'Analyse de la Variance (ANOVA) est d'analyser dans leur ensemble l'e�et des espèces deshôtes. Elle repose sur un modèle unique qui représente l'ensemble des données de tous les groupes. Ainsi dansl'exemple des oeufs de coucous, on modélise l'ensemble des tailles d'÷ufs issus des nids de toutes les espèces.

6.3.1 Modèle

Notons K le nombre de niveaux du facteur explicatif, µk la taille moyenne des ÷ufs couvés par l'espèce hôtek, k = 1, . . . ,K, nk le nombre d'observations faites sur cette espèce et Yik la variable aléatoire correspondant àla taille du i-ème ÷uf échantillonné dans les nids de cette espèce, i = 1, . . . , nk.

Le modèle général pour les Yik peut s'écrire de la façon suivante :

MODELE (ECRITURE REGULIERE)

• On suppose l'ensemble des Yik indépendantes et telles que

Yik ∼ N (µk, σ2) , k = 1, . . . ,K i = 1, . . . , nk

• ce qui peut encore s'écrire :

Yik = µk + Eik , Eik ∼i.i.d.N (0, σ2) , k = 1, . . . ,K i = 1, . . . , nk

Remarquons qu'un tel modèle autorise bien des changements de moyennes d'un groupe à un autre,mais que la variance est supposée constante, commune à l'ensemble des groupes. Cette hypothèse,dite hypothèse d'homoscédasticité, est une hypothèse importante dont il faudra s'assurer de la validitéavant d'interpréter les résultats du modèle en termes de comparaison de groupes.

73 � Compréhension du modèle. Représentez les moyennes estimées µk pour les espèces esp1, esp2 et esp6

sur les graphiques ci-après. Pour rappel : µ1 = 23.12, µ2 = 22.30, µ3 = 22.90, µ4 = 22.58, µ5 = 23.09,µ6 = 21.13.

� 77 �

Page 78: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

PARAMETRISATION ET ECRITURE SINGULIERE DU MODELEUsuellement en ANOVA on décompose les µk en :

• un e�et �xe, µ, commun à tous les groupes,

• un e�et spéci�que du groupe k, βk.

µk = µ+ βk (6.1)

Cette autre paramétrisation du modèle en implique une autre écriture, dite écriture singulière, beau-coup plus utilisée dans la pratique :

Yik = µ+ βk + Eik , Eik ∼i.i.d.N (0, σ2) , k = 1, . . . ,K i = 1, . . . , nk

La plupart des logiciels statistiques s'appuient sur cette dernière écriture du modèle ANOVA à un facteurpour en présenter les résultats.

74 � Compréhension du modèle. Sur les graphiques ci-après, représenter les βk pour les espèces esp1, esp2 et

esp6.

75 � Les valeurs des βk sont-elles identiques dans les deux cas ? De quoi dépendent-elles ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76 � Les valeurs des µk sont-elles identiques dans les deux cas ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77 � Combien il y a-t-il de paramètres à estimer pour chacune des représentations ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 78 �

Page 79: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

β1 = 0

1 2 3 4 5 6

2021

2223

2425

Espèce hôte

taill

e

β2 = 0

1 2 3 4 5 6

2021

2223

2425

Espèce hôte

taill

e

� 79 �

Page 80: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

6.3.2 Estimation

78 � Quels sont les paramètres du modèle ?

Pour la partie déterministe : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Pour la partie résiduelle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79 � Concernant la partie déterministe du modèle d'analyse de la variance à un facteur :

• Combien de paramètres doit-on estimer ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• Combien de moyennes ces paramètres représentent-ils ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

REMARQUELa décomposition (6.1) n'est pas unique. Pour estimer les paramètres du modèle d'analyse de lavariance à un facteur écrit sous forme singulière, il est nécessaire de rendre cette décompositionunique en �xant une contrainte sur les coe�cients βk, par exemple β1 = 0. Le choix d'une contrainterevient à dé�nir un groupe de référence (le premier niveau du facteur pour la contrainte β1 = 0)auquel seront implicitement comparés les groupes dé�nis dans l'expérience. Cette particularité appelleensuite à une certaine prudence lors de l'interprétation des résultats du modèle. En e�et, le choix dela contrainte, donc du groupe de référence, n'est pas unique et donne une signi�cation di�érente auxparamètres βk du modèle.

METHODE D'ESTIMATIONUne fois la contrainte choisie, on estime les paramètres du modèle d'analyse de la variance à unfacteur par la méthode des moindres carrés (cf cours sur la régression linéaire simple). Cetteméthode permet d'obtenir l'expression littérale des estimateurs sans biais des paramètres du modèleen minimisant la somme des carrés des écarts entre les valeurs observées et les valeurs prédites parle modèle. Une estimation des paramètres est obtenue en utilisant les données observées. On noteraµ, βk, k = 1, . . . ,K, σ2 les paramètres estimés du modèle.

6.3.3 Prédiction

PREDICTIONConnaissant k, l'espèce de l'hôte d'un ÷uf du coucou, on souhaite prédire la taille d'un ÷uf yik. Lavaleur de la prédiction yik s'obtient à partir des paramètres estimés du modèle :

yik = µ+ βk.

Pour prédire la taille d'un ÷uf couvé par l'espèce hôte k, on utilise donc la taille moyenne estimée des÷ufs couvés par cette espèce.

80 � Sur le graphique précédent, représentez les prédictions.

Remarque : les valeurs prédites ne dépendent pas des contraintes choisies.

6.3.4 Véri�cation des hypothèses du modèle

RESIDU OBSERVEDe la même façon, on dé�nit le résidu observé (l'erreur) associé à l'observation yik :

eik = yik − yik

Il s'agit de l'écart entre l'observation yik et la prédiction du modèle pour cette observation.

� 80 �

Page 81: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

81 � Représentez les résidus sur le graphique ci-dessous pour les deux observations représentées par une croix.

Les résidus observés sont utiles dans l'analyse des résultats de l'ANOVA, puisqu'ils permettent de véri�erque les hypothèses sur lesquelles repose le modèle sont valides.

82 � Rappelez les hypothèses à véri�er du modèle :HYPOTHESES

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

On e�ectue l'analyse des résidus du modèle :

mod1=lm(coucou$taille~coucou$esp)

plot(mod1)

� 81 �

Page 82: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

1 2

21.5 22.0 22.5 23.0

−3

−2

−1

01

2

Fitted values

Res

idua

ls

lm(coucou$taille ~ coucou$esp)

Residuals vs Fitted

1

612

−2 −1 0 1 2

−3

−2

−1

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(coucou$taille ~ coucou$esp)

Normal Q−Q

1

61 2

3 4

21.5 22.0 22.5 23.0

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

lm(coucou$taille ~ coucou$esp)

Scale−Location

1

612

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07

−3

−2

−1

01

23

Leverage

Sta

ndar

dize

d re

sidu

als

lm(coucou$taille ~ coucou$esp)

Cook's distance

Residuals vs Leverage

61

46

74

Commentaires des sorties R :

• Le premier graphique, en haut à gauche, représente les résidus observés eik en fonction des valeurs préditesyik. Sur ce graphique, les points doivent être régulièrement répartis autour de l'axe y = 0. Si tel n'estpas le cas, cela peut indiquer une tendance dans les données, qu'il est souhaitable de corriger avant depoursuivre l'analyse, ou encore que l'hypothèse d'indépendance entre les observations n'est pas correcte.

• Le deuxième graphique, en haut à droite, s'appelle QQ-plot. Il représente les quantiles de la distributionobservée des résidus standardisés (ie réduits) en fonction des quantiles d'une distribution Gaussienne centéeet réduite N (0, 1). Des points alignés le long de la diagonale, indiquent que l'hypothèse de normalité desrésidus est plausible. Au contraire, des points éloignés de la diagonale contredisent l'hypothèse de normalitédes résidus.

• Le troisième graphique, en bas à gauche, représente les résidus standardisés en fonction des observations. Cegraphique permet de véri�er l'hypothèse d'homoscédasticité. Les points doivent former un nuage homogèneet la ligne d'extrapolation rouge doit être à peu près horizontale. Si tel n'était pas le cas (nuage en formed'entonnoir notamment), l'hypothèse d'homoscédasticité est contredite, et il peut être utile de transformerles données de façon à se ramener à un modèle pour lequel cette hypothèse est valide.

• Le quatrième graphique, en bas à droite, permet d'identi�er d'éventuels points aberrants et trop in�uantssusceptibles de rendre les estimations du modèle peu robustes. Il est recommandé de supprimer ces points,s'il y en a, pour aboutir à un modèle robuste.

83 � Quelles sont vos conclusions concernant les hypothèses du modèle proposé pour modéliser les tailles des

÷ufs de coucou ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 82 �

Page 83: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84 � Dans les exemples suivants, issus de données di�érentes de celles étudiées, les hypothèses du modèled'ANOVA sont-elles véri�ées ? Précisez s'il y a lieu le(s) problème(s) mis en évidence par ces graphiques.

(a) Exemple 1

5.0e+09 1.5e+10

−2e

+10

2e+

106e

+10

Fitted values

Res

idua

ls

lm(Taille2 ~ coucou$esp)

Residuals vs Fitted

74

105

45

5.0e+09 1.5e+10

0.0

0.5

1.0

1.5

2.0

Fitted values

Sta

ndar

dize

d re

sidu

als

lm(Taille2 ~ coucou$esp)

Scale−Location74

105

45

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

(b) Exemple 2

21 22 23 24

−6

−4

−2

02

4

Fitted values

Res

idua

ls

lm(Taille3 ~ esp3)

Residuals vs Fitted

413

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 83 �

Page 84: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

6.4 Tests

6.4.1 Test global du modèle

TEST GLOBAL DU MODELE ET DECOMPOSITIONDE LA VARIABILITE TOTALE

De manière générale, le test global du modèle permet de tester si la variabilité prédite par le modèleest signi�cative par rapport aux variations observées dans l'échantillon. Ici, le test global du modèlepermet de tester l'in�uence de l'espèce hôte sur la taille des ÷ufs. Les hypothèses nulle et alternativeassociées à ce test sont donc les suivantes :

• H0 : Yik = µ+ Eik (l'espèce de l'hôte n'a pas d'in�uence sur la taille des ÷ufs)

• H1 : Yik = µ+ βk + Eik (l'espèce de l'hôte a une in�uence sur la taille des ÷ufs)

La statistique de test F pour le test global du modèle est construite à partir de la décomposition dela variabilité totale :

SCT = SCM + SCR

où, en notant Y la moyenne de l'ensemble des observations,

• SCT =∑Kk=1

∑nki=1(Yik − Y )2 est le terme de variabilité totale qui représente la variabilité

intrinsèque aux données (SCT : Somme des Carrés Totale),

• SCM =∑Kk=1

∑nki=1(Yik − Y )2 représente la variabilité des données expliquée par le modèle

(SCM : Somme des Carrés du Modèle),

• SCR =∑Kk=1

∑nki=1(Yik − Yik)2 est la variabilité résiduelle, i.e. la variabilité des données non

expliquée par le modèle (SCR : Somme des Carrés Résiduelle).

L'expression de la statistique de test est donnée par :

F =SCM/(K − 1)

SCR/(n−K)

où n est le nombre d'observations et K le nombre de modalités du facteur explicatif du modèle. Sadistribution sous H0 est une loi de Fisher FK−1,n−K . L'idée derrière cette statistique de test va êtrede comparer la SCM et la SCR et de conclure en l'in�uence du facteur sur la variable réponse si laSCM est su�samment grande devant la SCR.

La décomposition de la variabilité totale ainsi que les résultats associés au test global du modèle �gurentdans la sortie R ci-dessous.

> anova(mod1)

Analysis of Variance Table

Response: coucou$taille

Df Sum Sq Mean Sq F value Pr(>F)

coucou$esp 5 42.940 8.5879 10.388 3.152e-08 ***

Residuals 114 94.248 0.8267

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

85 � Explicitez les termes du tableau de l'analyse de la variance ci-dessous.

� 84 �

Page 85: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Degré de liberté Sommes des carrés Carrés moyen Stat. de test F P.value

EspèceK-1 SCM SCM/(K-1) F = SCM/(K−1)

SCR/(n−K) Pr(F > f)

(cf encadré)= = = = =

Résidusn-K SCR SCR/(n-K)

(cf encadré)= = =

86 � Quelle est la p-value de ce test ? Qu'en concluez-vous ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.4.2 Test des paramètres du modèle

Les logiciels statistiques fournissent aussi les résultats associés à d'autres tests, en particulier, les tests surles paramètres du modèle. Voici les résultats R de ces tests pour notre exemple.

> summary(mod1)

Call:

lm(formula = coucou$taille ~ coucou$esp)

Residuals:

Min 1Q Median 3Q Max

-2.64889 -0.44889 -0.04889 0.55111 2.15111

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 23.12143 0.24301 95.147 < 2e-16 ***

coucou$espesp2 -0.82254 0.27825 -2.956 0.00379 **

coucou$espesp3 -0.21810 0.33789 -0.645 0.51992

coucou$espesp4 -0.54643 0.33275 -1.642 0.10332

coucou$espesp5 -0.03143 0.33789 -0.093 0.92606

coucou$espesp6 -1.99143 0.33789 -5.894 3.91e-08 ***

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.9093 on 114 degrees of freedom

Multiple R-squared: 0.313,Adjusted R-squared: 0.2829

F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

87 � Quelle est la contrainte choisie ici pour estimer le modèle d'analyse de la variance à un facteur ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88 � Explicitez les hypothèses testées dans le tableau suivant.

� 85 �

Page 86: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

En fonction de βk En fonction de µk

H0 H1 H0 H1

Intercept µ = 0 µ 6= 0

esp2 β2 = 0 β2 6= 0 µ2 = 0 µ2 6= 0

esp3

esp4

esp5

esp6

REMARQUE IMPORTANTELes paramètres de l'ANOVA ne sont jamais des valeurs interprétables dans l'absolu. Par conséquentles tests sur les paramètres dans l'ANOVA sont toujours des comparaisons implicites entre groupes.

89 � De quoi dépendent les comparaisons e�ectuées ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 86 �

Page 87: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

6.4.3 Coe�cient de détermination, estimation de la variance

Dans les sorties de la commande summary de R, on peut également lire

• la valeur du coe�cient de détermination,

• la valeur estimée de la variance résiduelle.

Coe�cient de détermination

COEFFICIENT DE DETERMINATIONLe coe�cient de détermination, noté R2 est un indicateur numérique qui permet d'apprécier à quelpoint le modèle est adapté pour décrire la variabilité des données. Plus précisément, le R2 exprime lapart de la variabilité des données expliquée par le modèle ; il se calcule comme suit :

R2 =SCM

SCT,

où les termes SCM et SCT ont été dé�nis plus haut. Il prend sa valeur dans l'intervalle [0, 1]. Pluselle est proche de 1, meilleure est la qualité d'ajustement du modèle.

90 � Quelle est la valeur du coe�cient de détermination dans l'exemple ? Qu'en concluez-vous ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Rermarque : le R2 donne une indication sur les propriétés prédictives du modèle mais il ne permet pas deconclure sur l'existence d'un lien entre la variable explicative et la variable à expliquer. En e�et, si le test globalest signi�catif mais que le R2 a une valeur très faible, on concluera quand même à l'existence d'un lien entre lavariable explicative et la variable à expliquer.

Estimation de la variance

ESTIMATION DE LA VARIANCE RESIDUELLEPour estimer la variance résiduelle, on utilise l'estimateur suivant : S2 = SCM

n−K

91 � Quelle est la valeur σ2 de l'estimation de la variance dans l'exemple ?σ2 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92 � Retrouvez la valeur de σ2 dans la table d'analyse de la variance.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.5 Exercice : Choix des contraintes

Pour illustrer l'importance de la contrainte choisie, nous refaisons l'analyse avec deux contraintes di�érentes.

• Deuxième contrainte : β6 = 0

> levels(coucou$esp)

[1] "esp1" "esp2" "esp3" "esp4" "esp5"

[6] "esp6"

> mod2=lm(taille~esp,data=coucou,

contrasts=list(esp=contr.treatment(levels(coucou$esp), base = 6)))

> anova(mod2)

� 87 �

Page 88: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Analysis of Variance Table

Response: taille

Df Sum Sq Mean Sq F value Pr(>F)

esp 5 42.940 8.5879 10.388 3.152e-08 ***

Residuals 114 94.248 0.8267

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

> summary(mod2)

Call:

lm(formula = taille ~ esp, data = coucou,

contrasts = list(esp = contr.treatment(levels(coucou$esp),base = 6)))

Residuals:

Min 1Q Median 3Q Max

-2.64889 -0.44889 -0.04889 0.55111 2.15111

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 21.1300 0.2348 90.004 < 2e-16 ***

espesp1 1.9914 0.3379 5.894 3.91e-08 ***

espesp2 1.1689 0.2711 4.312 3.46e-05 ***

espesp3 1.7733 0.3320 5.341 4.78e-07 ***

espesp4 1.4450 0.3268 4.422 2.25e-05 ***

espesp5 1.9600 0.3320 5.903 3.74e-08 ***

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.9093 on 114 degrees of freedom

Multiple R-squared: 0.313,Adjusted R-squared: 0.2829

F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

� 88 �

Page 89: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

• Troisième contrainte :6∑k=1

βk = 0

> mc=contr.sum(levels(coucou$esp))

> dimnames(mc)[[2]]=levels(coucou$esp)[-6]

> mod3=lm(taille~esp,data=coucou,contrasts=list(esp=mc))

> anova(mod3)

Analysis of Variance Table

Response: taille

Df Sum Sq Mean Sq F value Pr(>F)

esp 5 42.940 8.5879 10.388 3.152e-08 ***

Residuals 114 94.248 0.8267

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

> summary(mod3)

Call:

lm(formula = taille ~ esp, data = coucou, contrasts = list(esp = mc))

Residuals:

Min 1Q Median 3Q Max

-2.64889 -0.44889 -0.04889 0.55111 2.15111

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 22.51978 0.09044 249.008 < 2e-16 ***

espesp1 0.60165 0.21805 2.759 0.00675 **

espesp2 -0.22089 0.14292 -1.545 0.12500

espesp3 0.38356 0.21195 1.810 0.07298 .

espesp4 0.05522 0.20646 0.267 0.78958

espesp5 0.57022 0.21195 2.690 0.00821 **

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.9093 on 114 degrees of freedom

Multiple R-squared: 0.313,Adjusted R-squared: 0.2829

F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

� 89 �

Page 90: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

93 � Complétez le tableau suivant.

Contraintes β6 = 06∑k=1

βk = 0

Modèle

Estimation µ

et p.value

du test de β1

comparaison

à 0 β2

β3

β4

β5

β6

σ2

Prédictions ˆyHSPRW

ˆyesp4

ˆyesp6

R2

� 90 �

Page 91: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

94 � Quel est l'impact du choix de la contrainte ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.6 Comparaison deux à deux, test multiples

Les résultats du test global du modèle montrent que l'espèce hôte a une in�uence sur la taille des ÷ufs decoucou. Il est donc légitime de se demander si des di�érences existent entre toutes les espèces ou bien simplemententre certaines d'entre elles.

6.6.1 Intérêt de l'ANOVA par rapport au test de Student pour la comparaisonde deux moyennes

TEST DE STUDENT ET ESTIMATION DE LA VARIANCE

Pour comparer deux moyennes associées à deux populations di�érentes, par exemple les espècesesp1 et esp2, la statistique de test pour le test de Student s'écrit :

Y1 − Y2√S2(

1n1

+ 1n2

)où :

• Y1 et Y2 sont les estimateurs des moyennes pour les espèces esp1 et esp2 respectivement,

• n1 et n2 sont les nombres d'observations pour les espèces esp1 et esp2 respectivement,

• S2 est un estimateur de la variance du modèle.

Cette statistique de test requiert donc l'estimation de la variance. On a vu plusieurs façons d'estimerla variance :

• 1) Dans un test de Student classique, on suppose que la variance est commune aux deuxpopulations comparées, et uniquement à ces deux populations. L'estimateur de la variancequi résulte de cette hypothèse est donné par :

S2 =(n1 − 1)S2

1 + (n2 − 1)S22

(n1 + n2 − 2),

où S21 =

∑n1i=1(Yi1−Y1)2

n1−1 et S22 =

∑n2i=1(Yi2−Y2)2

n2−1 . Pour comparer les espèces esp1 et esp2,l'estimation du terme de variance s'appuierait sur 14 + 45 = 59 observations.

• 2) En plus de proposer un modèle unique permettant de répondre à la question globalede l'in�uence des espèces (cf test global du modèle), l'analyse de la variance à un facteursuppose que la variance de la variable réponse est identique dans toutes les espèces. On entire un estimateur "poolé" de la variance (rappel : S2

pool = SCR/(n −K)) calculé à partirde l'ensemble des données de l'échantillon, y compris les observations des autres groupes queceux qui sont directement comparés dans le test. Pour comparer les espèces esp1 et esp2,l'estimation par cette méthode du terme de variance se baserait sur 14+45+15+16+15+15 =120 observations au total au lieu de 59 avec la première méthode. L'utilisation d'une quantitéd'information plus importante permet d'estimer la variance de façon plus précise et aboutità des tests de comparaison de moyennes plus puissants. Pour comparer les moyennes deux àdeux après une ANOVA, on recommande donc d'utiliser un estimateur "poolé" de la variance(fonction pairwise.t.test de R).

L'objectif du petit exercice qui suit est d'illustrer les di�érences entre les deux méthodes.

� 91 �

Page 92: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

95 � Rappelez la p-value du test de comparaison des moyennes des tailles entre des ÷ufs issus des nids par un

test de Student classique :

• esp2 et esp5

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• esp5 et esp3

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• esp5 et esp4

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96 � On donne ci-dessous les résultats des tests de comparaison de moyennes deux à deux utilisant un estima-

teur "poolé" de la variance. Commentez l'impact de cette nouvelle estimation des variances sur les tests

de comparaison des espèces deux à deux.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

> compmulti=pairwise.t.test(coucou$taille, coucou$esp,p.adjust.method ="none")

> compmulti

Pairwise comparisons using t tests with pooled SD

data: coucou$taille and coucou$esp

esp1 esp2 esp3 esp4 esp5

esp2 0.0038 - - - -

esp3 0.5199 0.0277 - - -

esp4 0.1033 0.2990 0.3171 - -

esp5 0.9261 0.0042 0.5751 0.1178 -

esp6 3.9e-08 3.5e-05 4.8e-07 2.2e-05 3.7e-08

P value adjustment method: none

� 92 �

Page 93: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

6.6.2 Correction pour les tests multiples

MULTIPLICITE DES TESTSLe principe des tests statistiques est de rejeter l'hypothèse nulle H0 si la probabilité d'observer lesdonnées sous l'hypothèse H0 est faible. Plus précisément on �xe un seuil de rejet tel que l'on rejetteavec une probabilité α des données extrêmes issues de l'hypothèse H0 (α, erreur de première espèce).Lorsque pour répondre à une question on e�ectue plusieurs tests, si on interprète directement cestests, on sous-estime l'erreur de première espèce réelle. En e�et la probabilité de "rejeter l'hypothèseH0 alors qu'elle est vraie dans au moins un de ces tests" est plus grande que la probabilité de rejeterl'hypothèse H0 alors qu'elle est vraie pour un test donné.Il est donc nécessaire de corriger les tests et donc les p.values obtenues. La correction la plus simpleest celle proposée par Bonferroni. C'est aussi la plus conservative (celle qui favorise la conservationde l'hypothèse H0). Cette correction consiste à diviser les α de chaque test par le nombre total detests e�ectués. Par exemple, si l'on e�ectue 8 tests et que l'on souhaite répondre à la question globaleavec un risque α = 0.05, on rejetera l'hypothèse H0 d'un des 8 tests si sa p.value est inférieure àα = 0.05/8 = 0.00625.Dans le tableau suivant, R corrige les p.values obtenues, on peut donc les interpréter directement(au seuil α du test global que l'on a choisi).

> compmulticorr=pairwise.t.test(coucou$taille, coucou$esp,

p.adjust.method ="bonferroni")

> compmulticorr

Pairwise comparisons using t tests with pooled SD

data: coucou$taille and coucou$esp

esp1 esp2 esp3 esp4 esp5

esp2 0.05681 - - - -

esp3 1.00000 0.41589 - - -

esp4 1.00000 1.00000 1.00000 - -

esp5 1.00000 0.06362 1.00000 1.00000 -

esp6 5.9e-07 0.00052 7.2e-06 0.00034 5.6e-07

P value adjustment method: bonferroni

97. Comparez la valeur corrigée de la p.value du test entre esp2 et esp5 avec celle obtenue précédemment

avec un test non ajusté ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.7 Synthèse

Résumons les di�érentes étapes du travail sur une ANOVA à un facteur. Dans l'ordre, elles sont :

1. Ecrire le modèle.

2. En estimer les paramètres.

3. Véri�er les hypothèses :

(a) Si les hypothèses sont véri�ées alors on peut interpréter les résultats de l'ANOVA.

� 93 �

Page 94: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

(b) Si non, il faut transformer les données ou supprimer les points aberrants de façon à se ramener à unmodèle dont les hypothèses sont valides.

4. Interpréter les résultats :

(a) Test global du modèle.

i. Si le test est signi�catif, on peut a�ner l'interprétation des résultats en comparant les groupesdeux à deux.

ii. S'il n'est pas signi�catif, la seule conclusion de l'étude est qu'il n'existe pas de di�érence signi�-cative entre les moyennes des di�érents groupes.

� 94 �

Page 95: Poly.pdf pdf

Chapitre 7

Régression linéaire simple

7.1 Présentation du problème et des données

7.1.1 La problématique

Un ostréiculteur souhaite étudier la croissance de ses huîtres. Pour cela, il mesure le poids initial à l'entréedans le parc de plusieurs huîtres et leur poids �nal à la récolte. Il répète cette étude sur des huîtres recevantdi�érents traitements. On s'intéresse d'abord aux huîtres recevant le premier traitement.

7.1.2 Les données

Un extrait et un résumé du jeu de données sont fournis ci-dessous.

> tab1=tab[tab$traitement==1,]

> tab1

pdsinit pdsfinal traitement

1 20.4 26.2 1

2 19.6 26.9 1

3 25.1 32.0 1

4 18.1 26.9 1

5 21.5 28.1 1

6 20.0 28.4 1

7 22.5 30.1 1

8 21.8 29.4 1

9 24.3 30.1 1

10 19.0 27.7 1

> str(tab1)

'data.frame': 10 obs. of 3 variables:

$ pdsinit : num 20.4 19.6 25.1 18.1 21.5 20 22.5 21.8 24.3 19

$ pdsfinal : num 26.2 26.9 32 26.9 28.1 28.4 30.1 29.4 30.1 27.7

$ traitement: int 1 1 1 1 1 1 1 1 1 1

DEFINITIONS/RAPPEL

Variable réponse, ou variable à expliquer, notée Y . C'est la variable qui mesure le phénomèneauquel on s'intéresse. On cherche à connaître l'e�et des autres variables sur Y .

Variable explicative ou facteur, notée Xj , pour j = 1, . . . , p. Ce sont des variables dont oncherche à étudier l'e�et sur Y . Xj peut être qualitative ou continue.

Quelle est la variable réponse et quelle est la variable explicative ? Quelle est la nature de ces deux variables

(entourez votre réponse) ?

Variable réponse : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

c'est une variable quantitative/qualitative

95

Page 96: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Variable explicative : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

c'est une variable quantitative/qualitative

NATURE DES VARIABLES EN REGRESSION LINEAIREDans les modèles de régression linéaire, la variable réponse et les variables explicatives sont quan-titatives.

7.1.3 Quelques statistiques descriptives

On représente graphiquement le poids �nal des huîtres recevant le traitement 1 en fonction de leur poidsinitial.

> plot(tab1$pdsinit,tab1$pdsfinal)

18 19 20 21 22 23 24 25

2627

2829

3031

32

tab1$pdsinit

tab1

$pds

final

1. D'après cette représentation graphique, peut-on supposer que le poids �nal des huîtres puisse être lié à

leur poids initial ? Justi�er.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Quelle serait la nature de ce lien ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

On calcule également le coe�cient de corrélation entre le poids initial et le poids �nal des huîtres recevantle traitement 1.

� 96 �

Page 97: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

> cor.test(tab1$pdsinit,tab1$pdsfinal)

Pearson's product-moment correlation

data: tab1$pdsinit and tab1$pdsfinal

t = 5.2295, df = 8, p-value = 0.0007934

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5602148 0.9712980

sample estimates:

cor

0.8795877

3 � Rappeler la dé�nition du coe�cient de corrélation.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 � Quelles sont les valeurs possibles pour un coe�cient de corrélation ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 � Quelle est sa valeur ici ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 � Comment peut-on interpréter ce résultat ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2 Modèle, estimation et véri�cation des hypothèses

Notons Yi la variable aléatoire correspondant au poids �nal de la i-ième huître, xi son poids �nal et n lenombre d'observations échantillonnées.

7.2.1 Modèle

MODELE DE REGRESSION LINEAIRE SIMPLELe modèle de régression linéaire simple suppose l'existence d'une relation a�ne entre Y et x. Il s'écrit :

Yi = α+ βxi + Ei , Ei ∼i.i.d.N (0, σ2) , i = 1, . . . , n.

Remarques :

• On a naturellement tendance à interpréter le lien entre Y et x comme une relation de causalité. En e�et,le modèle n'est pas symétrique. Cependant, l'analyse du modèle statistique ne mettra en évidence qu'unlien entre Y et x. La relation de causalité ne pourra être établie qu'à partir de connaissances extérieures.

• On notera bien que la variable à expliquer et la variable explicative n'ont pas le même statut dans lemodèle. La variable réponse est représentée par une lettre majuscule (Yi), signi�ant qu'il s'agit bien d'unevariable aléatoire dont on cherche à expliquer les variations. La variable explicative est quant-à elle notéeen minuscule (xi), ce qui signi�e que la donnée des poids initiaux est déterministe.

• Les paramètres α et β sont inconnus et doivent être estimés à partir des données de l'échantillon. Enparticulier la valeur du coe�cient β permettra de conclure en l'existence ou non d'un lien entre Y et x.

La relation a�ne supposée par le modèle de régression linéaire simple est représentée par la droite ci-dessoussuperposée aux observations.

� 97 �

Page 98: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

18 19 20 21 22 23 24 25

2627

2829

3031

32

tab1$pdsinit

tab1

$pds

final

7 � Quel est le lien entre les paramètres α et β du modèle et cette représentation graphique ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 � Représenter les Ei sur le graphique.

7.2.2 Estimation

9 � Quels sont les paramètres du modèle ?

Pour la partie déterministe : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Pour la partie résiduelle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 � Combien de paramètres doit-on estimer ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

METHODE D'ESTIMATIONLes paramètres α et β du modèle de régression linéaire simple sont estimés par la méthode desmoindres carrés. Il s'agit de trouver les valeurs de α et β dé�nissant la droite passant au plusproche des observations, c'est-à-dire les valeurs de α et β pour lesquelles l'erreur du modèle est laplus petite possible. Ces valeurs sont donc obtenus comme suit :

minα,β

n∑i=1

(Yi − α− βxi)2.

� 98 �

Page 99: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Les estimateurs α et β des paramètres α et β ont une expression explicite en fonction des variables aléatoiresYi et des données xi :

β =SxyS2x

, α = Y − βx,

Sxy =1

n− 1

n∑i=1

(xi − x)(Yi − Y ) , Sx =1

n− 1

n∑i=1

(xi − x)2 , x =1

n

n∑i=1

xi , Y =1

n

n∑i=1

Yi.

Les estimations de ces paramètres a et b (réalisations des estimateurs α et β) sont obtenues selon les mêmesexpressions à partir des données de l'échantillon.

On appelle droite de régression la droite d'équation y = a + bx obtenue par l'estimation par laméthode des moindres carrés des paramètres α et β du modèle. La droite de régression est la droitedu plan passant au plus proche des observations.

On réalise l'estimation du modèle par la méthode des moindres carrés.

> mod1=lm(tab1$pdsfinal~tab1$pdsinit)

> summary(mod1)

Call:

lm(formula = tab1$pdsfinal ~ tab1$pdsinit)

Residuals:

Min 1Q Median 3Q Max

-1.7973 -0.6105 0.4687 0.6698 0.7028

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 13.6741 2.8649 4.773 0.001403 **

tab1$pdsinit 0.7021 0.1343 5.229 0.000793 ***

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.911 on 8 degrees of freedom

Multiple R-squared: 0.7737,Adjusted R-squared: 0.7454

F-statistic: 27.35 on 1 and 8 DF, p-value: 0.0007934

11 � Quelles sont les estimations a et b des paramètres α et β ?

a = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

b = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12 � Comment interprétez-vous le signe de b ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13 � Quelle est l'équation de la droite des moindres carrés ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2.3 Prédiction

PREDICTIONConnaissant xi, le poids initial d'une huître, on souhaite prédire son poids �nal yi. La valeur de laprédiction s'obtient à partir des paramètres estimés du modèle :

yi = a+ bxi.

� 99 �

Page 100: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

14 � Sur le graphique précédent, représentez les prédictions du modèle pour les poids initiaux des huîtres ob-

servées.

15 � Où se trouvent l'ensemble de ces prédictions ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 � Quelle est la valeur du poids �nal prédit par le modèle pour une huître dont le poids initial est de 33g ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17 � Cette prédiction vous paraît-elle �able ? Justi�er.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.2.4 Véri�cation des hypothèses du modèle

RESIDU OBSERVEDe la même façon, on dé�nit le résidu observé associé à l'observation yi :

ei = yi − yi

Il s'agit de l'écart entre l'observation yi et la prédiction du modèle pour cette observation.

18 � Représentez les résidus sur le graphique ci-dessous pour les deux observations représentées par une croix.

Les résidus observés sont utiles dans l'analyse des résultats d'une régression linéaire simple, puisqu'ils per-mettent de véri�er que les hypothèses sur lesquelles repose le modèle sont valides.

Remarque : par construction avec la méthode des moindres carrés, la moyenne des résidus est toujours égaleà 0. Il n'est donc pas pertinent de véri�er l'hypothèse selon laquelle les résidus sont centrés.

� 100 �

Page 101: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

19 � Rappelez les hypothèses à véri�er du modèle :HYPOTHESES

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

On e�ectue l'analyse des résidus du modèle :

par(mfrow=c(2,2))

plot(mod1)

27 28 29 30 31

−2.

0−

0.5

1.0

Fitted values

Res

idua

ls

Residuals vs Fitted

1

310

−1.5 −0.5 0.5 1.5

−2.

0−

0.5

1.0

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als Normal Q−Q

1

310

27 28 29 30 31

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als Scale−Location

1

310

0.0 0.1 0.2 0.3 0.4

−2

−1

01

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance10.5

0.5

Residuals vs Leverage3

1

9

Commentaires des sorties R :

• Le premier graphique, en haut à gauche, représente les résidus observés eik en fonction des valeurs préditesyik. Sur ce graphique, les points doivent être régulièrement répartis autour de l'axe y = 0. Si tel n'estpas le cas, cela peut indiquer une tendance dans les données, qu'il est souhaitable de corriger avant depoursuivre l'analyse, ou encore que l'hypothèse d'indépendance entre les observations n'est pas correcte.

• Le deuxième graphique, en haut à droite, s'appelle QQ-plot. Il représente les quantiles de la distributionobservée des résidus standardisés (ie réduits) en fonction des quantiles d'une distribution Gaussienne centéeet réduite N (0, 1). Des points alignés le long de la diagonale, indiquent que l'hypothèse de normalité desrésidus est plausible. Au contraire, des points éloignés de la diagonale contredisent l'hypothèse de normalitédes résidus.

• Le troisième graphique, en bas à gauche, représente les résidus standardisés en fonction des observations. Cegraphique permet de véri�er l'hypothèse d'homoscédasticité. Les points doivent former un nuage homogène

� 101 �

Page 102: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

et la ligne d'extrapolation rouge doit être à peu près horizontale. Si tel n'était pas le cas (nuage en formed'entonnoir notamment), l'hypothèse d'homoscédasticité est contredite, et il peut être utile de transformerles données de façon à se ramener à un modèle pour lequel cette hypothèse est valide.

• Le quatrième graphique, en bas à droite, permet d'identi�er d'éventuels points aberrants et trop in�uantssusceptibles de rendre les estimations du modèle peu robustes. Il est recommandé de supprimer ces points,s'il y en a, pour aboutir à un modèle robuste.

20 � Quelles sont vos conclusions concernant les hypothèses du modèle proposé pour modéliser le poids �nal

des huîtres en fonction de leur poids initial ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.3 Tests

Une fois que les hypothèses du modèle sont véri�ées, on peut interpréter les tests.

7.3.1 Test global du modèle

TEST GLOBAL DU MODELE ET DECOMPOSITIONDE LA VARIABILITE TOTALE

De manière générale, le test global du modèle permet de tester si la variabilité prédite par le modèleest signi�cative par rapport aux variations observées dans l'échantillon. Ici, le test global du modèlepermet de tester l'in�uence du poids initial sur le poids �nal des huîtres. Les hypothèses nulle etalternative associées à ce test sont donc les suivantes :

• H0 : Yi = α+ Ei (le poids initial des huîtres n'a pas d'in�uence sur leur poids �nal)

• H1 : Yi = α+ βxi + Ei (le poids initial des huîtres a une in�uence sur leur poids �nal)

La statistique de test F pour le test global du modèle est construite à partir de la décomposition dela variabilité totale :

SCT = SCM + SCR

où, en notant Y la moyenne de l'ensemble des observations,

• SCT =∑ni=1(Yi − Y )2 est le terme de variabilité totale qui représente la variabilité intrinsèque

aux données (SCT : Somme des Carrés Totale),

• SCM =∑ni=1(Yi − Y )2 représente la variabilité des données expliquée par le modèle (SCM :

Somme des Carrés du Modèle),

• SCR =∑ni=1(Yi − Yi)2 est la variabilité résiduelle, i.e. la variabilité des données non expliquée

par le modèle (SCR : Somme des Carrés Résiduelle).

L'expression de la statistique de test est donnée par :

F =SCM

SCR/(n− 2)

où n est le nombre d'observations. Sa distribution sous H0 est une loi de Fisher F1,n−2. L'idée derrièrecette statistique de test va être de comparer la SCM et la SCR et de conclure en l'in�uence du facteursur la variable réponse si la SCM est su�samment grande devant la SCR.

� 102 �

Page 103: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

La décomposition de la variabilité totale ainsi que les résultats associés au test global du modèle �gurentdans la sortie R ci-dessous.

> anova(mod1)

Analysis of Variance Table

Response: tab1$pdsfinal

Df Sum Sq Mean Sq F value Pr(>F)

tab1$pdsinit 1 22.6965 22.6965 27.347 0.0007934 ***

Residuals 8 6.6395 0.8299

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

21 � Explicitez les termes du tableau de l'analyse de la variance ci-dessous.

Degré de liberté Sommes des carrés Carrés moyen Stat. de test F P.value

Poids initial1 SCM SCM/1 F = SCM

SCR/(n−2) Pr(F > f)

(cf encadré)= = = = =

Résidusn-2 SCR SCR/(n-2)

(cf encadré)= = =

22 � Quelle est la p-value de ce test ? Qu'en concluez-vous ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.3.2 Coe�cient de détermination, estimation de la variance

Dans les sorties de la commande summary de R, on peut également lire

• la valeur du coe�cient de détermination,

• la valeur estimée de la variance résiduelle.

Coe�cient de détermination

COEFFICIENT DE DETERMINATIONLe coe�cient de détermination, noté R2 est un indicateur numérique qui permet d'apprécier à quelpoint le modèle est adapté pour décrire la variabilité des données. Plus précisément, le R2 exprime lapart de la variabilité des données expliquée par le modèle ; il se calcule comme suit :

R2 =SCM

SCT,

où les termes SCM et SCT ont été dé�nis plus haut. Il prend sa valeur dans l'intervalle [0, 1]. Pluselle est proche de 1, meilleure est la qualité d'ajustement du modèle.

23 � Quelle est la valeur du coe�cient de détermination dans l'exemple ? Qu'en concluez-vous ?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

� 103 �

Page 104: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

Rermarque : le R2 donne une indication sur les propriétés prédictives du modèle mais il ne permet pas deconclure sur l'existence d'un lien entre x et Y . En e�et, si le test global est signi�catif mais que le R2 a unevaleur très faible, on concluera quand même à l'existence d'un lien entre x et Y .

Estimation de la variance

ESTIMATION DE LA VARIANCE RESIDUELLEPour estimer la variance résiduelle, on utilise l'estimateur suivant : S2 = SCM

n−2

24 � Quelle est la valeur σ2 de l'estimation de la variance dans l'exemple ?σ2 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25 � Retrouvez la valeur de σ2 dans la table d'analyse de la variance.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7.4 Exercice

Nous nous intéressons maintenant aux huîtres recevant le traitement 2. Nous cherchons à étudier le lien entrele poids initial et le poids �nal des huîtres recevant cet autre traitement. Les données sont les suivantes.

> tab2=tab[tab$traitement==2,]

> tab2

pdsinit pdsfinal traitement

11 27.2 36.9 2

12 32.0 50.2 2

13 33.0 53.1 2

14 26.2 35.3 2

15 31.6 46.2 2

16 28.1 43.4 2

17 29.4 42.9 2

18 27.3 33.3 2

19 29.6 47.5 2

20 28.2 42.1 2

1. Une brève étude descriptive des données est fournie ci-dessous. Commenter les résultats au regard de laquestion qui motive l'étude.

> plot(tab2$pdsinit,tab2$pdsfinal)

> cor.test(tab2$pdsinit,tab2$pdsfinal)

Pearson's product-moment correlation

data: tab2$pdsinit and tab2$pdsfinal

t = 6.5806, df = 8, p-value = 0.0001728

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.6858281 0.9809310

sample estimates:

cor

0.9187318

2. Quel modèle suggérez-vous pour expliquer le poids �nal des huîtres recevant le traitement 2 en fonctionde leur poids initial ? Justi�er.

3. Ecrire le modèle mathématique en prenant soin de préciser l'ensemble des notations, les gammes devariation des indices et en indiquant les éventuelles hypothèses sur lesquelles il repose. On fournit ci-dessous l'ensemble des sorties R pour l'estimation de ce modèle.

� 104 �

Page 105: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

26 27 28 29 30 31 32 33

3540

4550

tab2$pdsinit

tab2

$pds

final

> mod2=lm(tab2$pdsfinal~tab2$pdsinit)

> par(mfrow=c(2,2))

> plot(mod2)

> anova(mod2)

Analysis of Variance Table

Response: tab2$pdsfinal

Df Sum Sq Mean Sq F value Pr(>F)

tab2$pdsinit 1 317.23 317.23 43.304 0.0001728 ***

Residuals 8 58.60 7.33

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

> summary(mod2)

Call:

lm(formula = tab2$pdsfinal ~ tab2$pdsinit)

Residuals:

Min 1Q Median 3Q Max

-4.6993 -0.7681 0.0756 1.3964 3.5269

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -32.9073 11.5803 -2.842 0.021756 *

tab2$pdsinit 2.5973 0.3947 6.581 0.000173 ***

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 2.707 on 8 degrees of freedom

Multiple R-squared: 0.8441,Adjusted R-squared: 0.8246

� 105 �

Page 106: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

F-statistic: 43.3 on 1 and 8 DF, p-value: 0.0001728

35 40 45 50

−4

02

4

Fitted values

Res

idua

lsResiduals vs Fitted

8

96

−1.5 −0.5 0.5 1.5

−2.

0−

0.5

1.0

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als Normal Q−Q

8

96

35 40 45 50

0.0

0.6

1.2

Fitted values

Sta

ndar

dize

d re

sidu

als Scale−Location

896

0.0 0.1 0.2 0.3 0.4

−2

01

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance 10.5

0.51

Residuals vs Leverage

8

5

6

4. Interpréter les résultats.

5. On réunit maintenant l'ensemble des données des huîtres recevant les traitements 1 et 2. Les données sontreprésentées ci-dessous. Des couleurs di�érentes sont utilisées pour les deux traitements. On représenteégalement les droites de régression des deux modèles construits pour les huîtres recevant le traitement 1et pour les huîtres recevant le traitement 2. Que pensez-vous du lien entre le poids initial et le poids �nal ?Semble-t-il être le même pour les deux traitements ?

> plot(tab$pdsinit,tab$pdsfinal,col=tab$traitement)

> abline(coef(mod1),lty=3)

> abline(coef(mod2),lty=3,col=2)

6. On souhaite étudier le lien entre le poids �nal des huîtres et leur poids initial sans considérer la donnée dutraitement. On propose un modèle de régression linéaire simple, dont les résultats sont fournis ci-dessous.

> mod=lm(tab$pdsfinal~tab$pdsinit)

> par(mfrow=c(2,2))

> plot(mod)

> anova(mod)

Analysis of Variance Table

Response: tab$pdsfinal

Df Sum Sq Mean Sq F value Pr(>F)

tab$pdsinit 1 1307.50 1307.50 156.52 2.573e-10 ***

Residuals 18 150.37 8.35

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

> summary(mod)

� 106 �

Page 107: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

20 25 30

3035

4045

50

tab$pdsinit

tab$

pdsf

inal

Call:

lm(formula = tab$pdsfinal ~ tab$pdsinit)

Residuals:

Min 1Q Median 3Q Max

-6.1805 -1.3758 -0.3148 2.4113 3.9393

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -8.9494 3.6376 -2.46 0.0242 *

tab$pdsinit 1.7740 0.1418 12.51 2.57e-10 ***

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 2.89 on 18 degrees of freedom

Multiple R-squared: 0.8969,Adjusted R-squared: 0.8911

F-statistic: 156.5 on 1 and 18 DF, p-value: 2.573e-10

7. Commenter les résultats obtenus.

8. Que suggérez-vous pour améliorer l'étude du lien entre le poids initial et le poids �nal des huîtres ?

7.5 Synthèse : régression linéaire simple

Résumons les di�érentes étapes du travail sur une régression linéaire simple. Dans l'ordre, elles sont :

1. Ecrire le modèle.

2. En estimer les paramètres.

� 107 �

Page 108: Poly.pdf pdf

M1/2015-2016 Module Statistique 1

25 35 45

−6

−2

2

Fitted values

Res

idua

ls

Residuals vs Fitted

18

9

19

−2 −1 0 1 2

−2

01

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als Normal Q−Q

18

9

19

25 35 45

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als Scale−Location

18

9 19

0.00 0.10 0.20

−2

01

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance 0.5

Residuals vs Leverage134

18

3. Véri�er les hypothèses :

(a) Si les hypothèses sont véri�ées alors on peut interpréter les résultats de la régression linéaire simple.

(b) Si non, il faut transformer les données ou supprimer les points aberrants de façon à se ramener à unmodèle dont les hypothèses sont valides.

4. Interpréter les résultats :

(a) Test global du modèle.

(b) Interprétation des coe�cients, en particulier le signe de b.

7.6 Synthèse : étude du lien entre deux variables

Les outils statistiques permettant l'étude du lien entre deux variables sont di�érents selon la nature desvariables étudiées :

• entre deux variables qualitatives : test du chi-deux d'indépendance,

• entre deux variables quantitatives : régression linéaire simple,

• entre une variable quantitative et une variable qualitative : analyse de la variance à un facteur, ou si lavariable qualitative ne possède que deux modalités : test de Student de comparaison de deux moyennes.

� 108 �