Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de...

Preview:

Citation preview

Cours 7 : Rappels de cours et exemples sous R

I- Régression linéaire simple

II- Analyse de variance à 1 facteur

III- Tests statistiques

I- Le modèle de régression linéaire simple: théorie

� Rappels On cherche à expliquer ou à prévoir les variations d’une variable Y (variable dépendante) par celles d’une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS

Y aX b ε= + +où est une variable aléatoire gaussienne de moyenne nulle et de variance

Pour cela on observe un n-échantillon de réalisations de X et de Y, sur lesquelles on va chercher à voir si le lien est plausible,

i.e. si il existe a, b et

(validation)

Avec i.i.d. Gaussiennes et pas trop grand,et à approcher les valeurs des paramètres a, b, et (estimation)

, 1,..., .i i iy ax b i nε= + + =

²σ

²σ

²σ

ε

iε ²σ

I- Le modèle de régression linéaire simple: théorie

� Estimation des paramètres :

• Estimation de a et b : On commence par chercher le « meilleur » ajustement linéaire sur nos données, au sens des moindres carrés :

=i° valeur estiméey ax b= + =i° valeur estimée

= i° résidu

et sont tels que est minimal. Ce sont les coefficients de la régression (ou estimateurs des moindres carrés).

2

1 1

ˆˆ( )²n n

i i ii i

e y ax b= =

= − −∑ ∑a b

ˆ

ˆ

y ax bi i

e y yi i i

= +

= −

I- Le modèle de régression linéaire simple: théorie

On montre que :

• La droite d’ajustement s’appelle droite de régression ou des

1

1

( )( )ˆˆ ˆ,

( )²

n

i ii

n

ii

x x y ya b y ax

x x

=

=

− −= = −

ˆˆy ax b= +• La droite d’ajustement s’appelle droite de régression ou des moindres carrés.

• La valeur estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) . C’est aussi la prévision de Y pour une observation telle que X=xi.

• Estimation de : La variance de l’erreur s’estime par

yi

2

1²2 2

n

ii

eSSR

sn n

== =− −

ˆˆy ax b= +

²σ

I- Le modèle de régression linéaire simple: théorie

� Validation du modèle sur les données : il faut que le modèle soit de bonne qualité (bon pouvoir explicatif et prédictif)

• Analyse de la qualité du modèle : Décomposition de la variabilité

=somme des carrés des variations de y2( )²i YSST y y ns= − =∑

=somme des carrés des variations expliquées par le modèle

=somme des carrés des variations résiduelles

On montre que : SST=SSR+SSM

Au plus SSM est grand (ou SSR faible), au meilleur est l’ajustement.

2ˆˆ( )²i Y

SSM y y s= − =∑2 2( 2)iSSR e n s= = −∑

I- Le modèle de régression linéaire simple: théorie

Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des carrés

Somme des carrés moyens

Stat de Fisherde

libertédes carrés carrés moyens Fisher

modèle 1 SSM SSM F=SSM/s²

erreur n-2 SSR s²=SSR/(n-2)

total n-1 SST s²(Y)=SST/(n-1)

I- Le modèle de régression linéaire simple: théorie

Indicateur principal de qualité du modèle: le coefficient de détermination (% de variation expliqué par le modèle, carré du coefficient de corrélation linéaire):

doit être proche de 1.1

²SSM SSR

RSST SST

−= =

Autres indicateurs :

- Le F de Fisher doit être le plus grand possible

- Le s² doit être le plus faible possible pour garantir de bonnes prévisions.

- Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type doivent être faibles. On montre que

avec

²

SSMF

s=

2 1 ²ˆˆ²( ) ; ²( ) ²² ²

1 1

s xs a s b sn nnc ci ii i

= = +∑ ∑= =

i ic x x= −

ˆˆ( ) et ( )s a s b

I- Le modèle de régression linéaire simple: théorie

� Vérification des hypothèses sur les aléas : il faut que les aléas soient i.i.d. et gaussiens

Tests graphiques :

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de structure (indépendance, homoscedasticité, normalité).

• Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance)

• Le QQ-plot suit la première bissectrice

I- Le modèle de régression linéaire simple: théorie

I- Le modèle de régression linéaire simple: théorie

Conséquences

• de la non-normalité : – Les estimateurs ne sont pas optimaux

– Les tests et intervalles de confiances sont invalides. En réalité seulement les distribution à queue très longue posent problème et une légère non-normalité peut être ignorée, d’autant plus que l’échantillon est grand.

• d’une variance non constante : Les estimations ne sont pas bonnes il faut utiliser les moindres carrés pondérés.

I- Le modèle de régression linéaire simple: théorie

Solutions

• Essayer de transformer les données en se rappelant que

- quoiqu’on fasse, certaines données ne peuvent être analysées par régression

- la bonne transformation est parfois difficile à trouver.- la bonne transformation est parfois difficile à trouver.

• Utiliser une régression non-linéaire.

I- Le modèle de régression linéaire simple: théorie

� Repérage des points aberrants:

• Résidu réduit ou studentisé :

( )i

ii

ere

s e=

²1²( ) ² 1 ²(1 )²

²

ii iin

i

cs e s s h

nc

= − − = − ∑

Tests graphiques

• Le graphe des résidus réduits versus les valeurs prédites doit normalement être compris entre –2 et 2 pour au moins 95% des observations dès lors que la normalité est vérifiée.

( )is e1

²ii

c=

I- Le modèle de régression linéaire simple: théorie

• Des observations dont le résidu réduit est >2 en v.a. sont des points contribuant fortement à la valeur de s². Ils peuvent constituer des points aberrants. Il faut les analyser plus avant.

- Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence - Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence potentielle d’un point sur la valeur des coefficients de la régression. Une valeur hii>4/n traduit un point trop influent sur la détermination des coefficients.

- Analyse de la distance de Cook : La distance de Cook mesure le leverage et la contribution au s², c’est-à-dire l’influence réelle d’un point . Une valeur >1 traduit un point aberrant.

I- Le modèle de régression linéaire simple: théorie

Solutions

• Enlever les observations aberrantes et recalculer la régression. Comparer les résultats. Y-a-t-il des différences significatives entre les coefficients?

I- Le modèle de régression linéaire simple: théorie

� Validation du modèle sur la population

Une fois la gaussianité vérifiée, on peut effectuer des tests afin d’asseoir la pertinence du modèle sur la population étudiée. Ces tests testent l’hypothèse :

: 0 contre : 0H a H a= ≠

(a=0 signifie absence de lien linéaire entre X et Y)

• Test de student . Basé sur la statistique

• Test de Fisher. Basé sur la statistique :

0 1: 0 contre : 0H a H a= ≠

0

ˆ T T(n-2) sous H

ˆ( )

aT

s a= ∼

0 F F(1,n-2) sous H²

SSMF

s= ∼

I- Le modèle de régression linéaire simple: exemple

Exemple 1 : On cherche à expliquer les variations de y par celles d’une fonction linéaire de x à partir de 30 observations de chacune des variables, i.e. à ajuster le modèle

où est une suite de variables aléatoires i.i.d.gaussiennes de moyenne nulle et de variance

>x=1:100; X=sample(x,30,replace=TRUE)>Y=3+7*X+rnorm(30,0,100)

iε, 1,...,30.i i iy ax b iε= + + =

²σ

>Y=3+7*X+rnorm(30,0,100)>regression=lm(Y~X); regressionCall:

lm(formula = Y ~ X)

Coefficients:

(Intercept) X

-30.26 7.42

Le modèle de régression linéaire simple: exemple

Dessin du nuage de points : > plot(X,Y)

>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2], b=regression$coef[1])))

> lines(X,regression$fitted.values) #ou abline(regression)

> M=locator(); v=locator()> M=locator(); v=locator()

> segments(0,M$y,M$x,M$y)

> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)

> segments(M$x,v$y,0,v$y,lty=2)

> text(0,350, "yi",col="red")

> text(0,200, "^yi",col="red")

> text(25,250, "ei",col="red")

> title("nuage de points et droite de regression")

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple

Explication des sorties R

> names(regression)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model«[9] "xlevels" "call" "terms" "model«

coefficients (ou coef) : estimations des paramètres

fitted.values (ou fitted): valeurs estimées

Residuals (ou res) : résidus

df.residual : nombre de ddl des résidus (n-2)

ˆˆ et a b

ˆi i ie y y= −ˆiy

Le modèle de régression linéaire simple: exemple

> anova(regression)Analysis of Variance Table

Response: Y

Df Sum Sq Mean Sq F value Pr(>F)

X 1 1485466 1485466 159.83 4.312e - 13 ***

SSM

SSR

F=MSM/MSR

X 1 1485466 1485466 159.83 4.312e - 13 ***

Residuals 28 260238 9294

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

MSM=SSM/dl=SSM

MSR=SSR/dl=SSR/n-2n-2

Le modèle de régression linéaire simple: exemple

>summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

^b

â

s(^b)

s(â)Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

s(â)tb=^b/s(^b)

ta=â/s(â)

R² =SSM/(SSM+SSR)

S=sqrt(MSR)

Le modèle de régression linéaire simple: exemple

� Pertinence du modèle sur les données : >summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

- 206.89 - 76.47 12.28 61.42 192.04 % de variations expliquées

De petites valeurs sont un gage de stabilité du modèle donc du pouvoir prédictif: valeur de b

pas très stable ici

- 206.89 - 76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

% de variations expliquées par le modèle R² doit être proche de 1 pour bon

pouvoir explicatif: ok ici

Écart-type résiduel doit être faible

pour bon pouvoir prédictif

Le modèle de régression linéaire simple: exemple

• Conclusion 1 : le modèle a un bon pouvoir explicatif sur les données, mais le pouvoir prédictif risque d’être entaché par l’instabilité du coefficient b et une variance résiduelle importante.

Le modèle de régression linéaire simple: exemple

� Analyse des résidus

Fonctions R utiles: - influence(): étude des points contribuant à l’instabilité du modèle

(prédiction).(prédiction).

- residuals()

- rstudent() : résidus réduits

- acf() : graphe d’autocorrelation des résidus

- plot()

- qqnorm()

Le modèle de régression linéaire simple: exemple

- Repérage des points aberrants et des points contribuant fortement à la détermination du modèle :Est suspect un point tel que le résidu réduit est s upérieur à 2 en valeur absolue : si sa distance de Cook’s est >1 , le point suspect contribue trop fortement à la détermination du modèle

- Vérifier les hypothèse sur les aléas : iid et normalité (préalable à l’interprétation des tests)

Le graphe des résidus (ou des résidus réduits) ne d oit pas présenter de structure (variance constante sur la v erticale et symetrie par rapport aux abscisses).

. Le graphe des résidus réduits doit être compris en tre –2 et 2 et ne doit pas présenter de structure. D’autres graphi ques tels que le qqnorm() ou acf() peuvent aider.

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple

> regression$res

1 2 3 4 5 6

-124.555774 192.039037 -206.889677 66.405930 134.778691 84.971904

7 8 9 10 11 12

62.303811 49.992064 58.754097 -59.526887 -122. 429844 164.829565

13 14 15 16 17 18

- 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834 - 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834

19 20 21 22 23 24

-25.642668 -90.246235 50.526061 40.156580 -54 .350556 10.292678

25 26 27 28 29 30

1.090471 94.392800 29.988159 20.679500 -162.3 41983 -82.121786

Le modèle de régression linéaire simple: exemple

> rstudent(regression)

1 2 3 4 5 6

-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230

7 8 9 10 11 12

0.67206553 0.54684103 0.61362322 -0.63902844 -1.3 7190197 1.80811221

13 14 15 16 17 18

- 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104 - 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104

19 20 21 22 23 24

-0.27792699 -0.96174524 0.53172811 0.43253471 -0. 58014349 0.10726922

25 26 27 28 29 30

0.01142126 1.03392757 0.31123595 0.21446494 -1.7 9851278 -0.86589500

Le modèle de régression linéaire simple: exemple

>par(mfrow=c(2,2)); plot(regression)

Graphe1 : doit être sans structure réparti de part et d’autre de l’axe des xGraphe 2 : doit suivre la bissectriceGraphe 3 : doit être sans structureGraphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cook’s

égales

Le modèle de régression linéaire simple: exemple

>plot(regression$fitted,rstudent(regression),xlabel="fitted values", ylabel="standardized residuals");

>abline(h=2,col="red");abline(h=-2,col="red")

Le modèle de régression linéaire simple: exemple

> par(mfrow=c(1,2))

> plot(regression$residuals)

> acf(regression$res)

Le modèle de régression linéaire simple: exemple

Conclusion 2 : Les résidus semblent approximativement gaussiens (qqnorm) et i.i.d. (pas de structure, de part et d’autre de 0 sur les plots et le corrélogramme).Deux points devraient être éventuellement enlevés du modèle : les points 2 et 3.

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple

� Validité du modèle sur la population

>summary(regression) Call:lm(formula = Y ~ X)

Residuals:

La variable X a une influence significative sur Y à 5%: le

coefficient est significativement Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

coefficient est significativement différent de zero: le modèle est

pertinent par student

Le terme constant n’ est pas significativement

different de zero: on peut decider de refaire tourner

le modèle sans lui

Le modèle est pertinent à 5% par

Fisher

Le modèle de régression linéaire simple: exemple

Conclusion 3: le modèle linéaire est pertinent pour expliquer variations de Y sur la population.

Conclusion : L’ajustement linéaire est pertinent ici. Pour obtenir un meilleur pouvoir prédictif, il faudrait éventuellement retirer les points 2 et 3 de l’analyse et utiliser un modèle sans terme constant. points 2 et 3 de l’analyse et utiliser un modèle sans terme constant.

II- Analyse de variance : théorie

• Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variablequantitative. On veut mettre en évidence une différence de valeur moyenne de lavariable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:

ou de façon équivalente

avec de moyenne nulle.

j E(Y/X=x ) jµ α= + , 1j j

.j ,...pjY µ α ε= + + =

εavec de moyenne nulle.

On veut pouvoir rejeter l’hypothèse :

Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose

avec

et on veut valider l’hypothèse précédente. On fait généralement l’hypothèse implicite queles sont iid gaussiens.

1.... , 1ij ij j

.i n j ,...pjy µ α ε= + + = =

0 1 j p: =...= =...= H α α αjε

1

p

jj

n n=

=∑

ijε

II- Analyse de variance : théorie

…. ……1 1E ( )X x= jE ( )jX x= E p ( )pX x=

• 1

1

py n yj jn j

= ∑=

111 1,... ny y 1 ,...jj n jy y 1 ,...

pp n py y

1

jn

j i ji

y y=

= ∑1y py

II- Analyse de variance : théorie

• Un moyen simple pour se rendre compte :

II- Analyse de variance : théorie

• Lorsque on dit qu’on a un plan équilibré. ...1n np= =

II- Analyse de variance : théorie

� Estimation des paramètres

• Moyennes

On a p+1 inconnues du modèle ( ) et uniquement p groupes donc on doit imposer une contrainte. On impose :

, ,...,1 pµ α α

(ce qu’un groupe perd l’autre le gagne)

• On cherche les valeurs des paramètres minimisant la fontion des moindres carrés:

01

pn j jj

α =∑=

2( )i

yij jjα µ− −∑∑

II- Analyse de variance : théorie

• On trouve :

et

est la moyenne estimée ou prédite dans le niveau j du facteur

ˆ yµ = ˆj jy yα = −

ˆ ˆ ˆy α µ= − est la moyenne estimée ou prédite dans le niveau j du facteur

est le i° résidu du niveau j du facteur

• Estimation de la variance des erreurs :

ˆ ˆ ˆjy jα µ= −

ˆij je y yij= −

²

²ij

i j

e

sn p

=−

∑ ∑

II- Analyse de variance : théorie� Validation du modèle : on doit d’abord vérifier que le facteur X discrimine bien Y,

c’est à dire que la majeure partie de la variabilité est bien expliquée par le modèle.

Décomposition de la variabilité

= Somme des carrés des variations dans le niveau j

2( )j

D y yj ij ji E= −∑

= Somme des carrés des variations intra-niveaux

= Somme des carrés des variations inter-niveaux

= somme des carrés des variations totales

On a :

Le modèle est d’autant meilleur que SSinter est grand (que SSintra est faible)

ji E∈

int ( ) ²raSS D n p sjj= = −∑

int2( )erSS n y yj jj

= −∑

2( )SST y yijj i Ej= −∑ ∑

int inter raSST SS SS= +

II- Analyse de variance : théorie

• Indice de qualité du modèle : le rapport de corrélation (% de variations expliquée par X)

2 1INTER INTRASS SS

SST SSTη = = −

• Autre indice : le F de Fisher :

INTER

INTRA

VF

V=

1INTER

INTER

SSV

p=

−INTRA

INTER

SSV

n p=

II- Analyse de variance : théorie

Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des

Somme des carrés moyens

Stat de Fisherde

libertédes carrés

moyens Fisher

Inter-groupes

p-1 SSinter Vinter=SSinter/p-1 F=Vinter/s²

Intra-groupes

n-p SSintra Vintra=s² =SSintra/(n-p)

total n-1 SST s²(Y)=SST/(n-1)

II- Analyse de variance : théorie

� Validation des hypothèses sur les aléas

Voir régression

II- Analyse de variance : théorie

� Test d’égalité des moyennes

Dès lors qu’on a vérifié que les erreurs sont i.i.d. gaussiennes, on peut tester

0 1 j p: =...= =...= H α α α

En utilisant le test de Fisher. On utilise la statistique de test

0 sous H , ( 1, )INTER

INTRA

VF F F p n p

V= − −∼

II- Analyse de variance :exemple

Six (k) insecticides (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes. Les données sont contenues dans le data.frame « InsectSprays ». On veut savoir si il existe un effet significatif du facteur insecticide, i.e. on veut valider le modèle d’analyse de variance :

.,...j;,...iijjijCount 61121, ==++= εαµ

où est une suite de variables aléatoires i.i.d. de moyenne nulle et de variance

>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

.,...j;,...iijjijCount 61121, ==++= εαµ

²σiε

II- Analyse de variance

> summary(anov)

Df Sum Sq Mean Sq F value Pr(>F)

spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395

---

SSInter

SSIntra

V Inter

P(F>Fvalue)F suit F(k-1,n-k)

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

V intra

V inter/V intra

n-k

k-1

II- Analyse de variance

> names(anov)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "contrasts" "xlevels" "call" "terms"

[13] "model"

coefficients : moyennes dans les niveauxresiduals : résidus estimes du modèlefitted.values : valeurs estimées ˆˆ ˆij jy µ α= +

ˆij ij ije y y= −ˆ

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

II- Analyse de variance

Le Boxplot montre :

- les points aberrants

- l’asymétrie de la distribution

- une inégalité dans les variances. Cependant, comme souvent il y a peu de données dans chaque niveau du facteur on peu s’attendre a peu de données dans chaque niveau du facteur on peu s’attendre à une grande variabilité même si les variances des sous-populations sont en réalité égales.

II- Analyse de variance

Analyse des résidus (cf régression)

>par(mfrow=c(2,2)); plot(anov)

II- Analyse de variance

>plot(rstudent(anov))

II- Analyse de variance

>par(mfrow=c(2,1))

> acf(anov$res)

>plot(anov$res)

II- Analyse de variance

La distribution des résidus semble gaussienne

Les résidus sont i.i.d.

Il existe des points aberrants 39, 27, 25 dont les distances de Cook’s

montrent qu’ils influencent trop les coefficients.

II- Analyse de variance

>summary(anov)

Df Sum Sq Mean Sq F value Pr(>F)

spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395 Residuals 66 26.058 0.395

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Le test de Fisher montre que l’on rejette fortement l’hypothèse nulle (avec un risque de se tromper presque nul): le modèle est significatif :il existe un fort effet du facteur spray sur le nombre d’insectes : les moyennes sont differentes

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

II- Analyse de variance

>anov$coeff

(Intercept) sprayB sprayC sprayD sprayE sprayF

3.7606784 0.1159530 -2.5158217 -1.5963245 -1.9 512174 0.2579388

Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B a une moyenne de 3.76+0.11,….

Les écarts les plus significatifs sont entre les groupes A B et F et les groupes C D et E, qui sont plus efficaces que les premiers.

III- Test de comparaison de moyenne

Soient (X1, . . . , Xn) un echantillon issu d’une population iid N(1, 1) et (Y1, . . . , Ym) un échantillon issu d’une population iid E(1). On veut tester:

• Lorsque les variances théoriques des deux variables sont égales :

0 1: ( ) ( ) contre : ( ) ( )H E X E Y H E X E Y= ≠

• Lorsque les variances théoriques des deux variables sont égales : Test de student

• Lorsque les variances théoriques des deux variables sont inégales : Correction de Welch

2 21 1 2 2

1 2

1 2

( 1) ( 1); ²

21 1

X Y n s n st s

n ns

n n

− − + −= =+ −

+1 2 0( 2) sous Ht T n n+ −∼

III- Test de comparaison de moyenne

� Test de student à la main (à α=5%) :

>x = rnorm(100,1,1); y = rexp(200,1)>p=abs(mean(x)-mean(y))> s=sqrt((99*var(x)+199*var(y))/298)>t=p/(s*sqrt(1/100+1/200))>t [1] 0.7274531

On compare |t| le fractile d’ordre 1- α/2 de la loi de student à 298 ddl.Si |t| supérieur, on rejette H0, sinon en accepte.

III- Test de comparaison de moyenne

� Avec la fonction t-test : Cas où on suppose les variances égales :

>x = rnorm(100,1,1); y = rexp(200,1)>t.test(x,y, var.equal=T)

Two Sample t-test

data: x and y

P(|T|>t)Où T suit T(298)

Rejet de H0 si <5%data: x and y

t = -0.7275, df = 298, p-value = 0.4675

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.3460831 0.1592772

sample estimates:

mean of x mean of y

0.9584589 1.0518618

Valeur de t

Nombre de ddl = 298

Rejet de H0 si <5%

X

III- Test de comparaison de moyenne� Avec la fonction t-test : Cas où on suppose les variances inégales

>x = rnorm(100,1,2); y = rexp(200,1)

>st=t.test(x,y)Welch Two Sample t-test

data: x and y

Généralisation du test de Student au cas de variances inégales

data: x and y t = 0.8249, df = 118.758, p-value = 0.4111alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

-0.2472865 0.6004484 sample estimates:mean of x mean of y

1.182571 1.005990Nombre de ddlcorrigé=178,46

Valeur de la Statistique de Welch

X Y

Rejet de H0 si <5%

III- Test de comparaison de moyenne

> names(st)

[1] "statistic" "parameter" "p.value" "conf.int" "estimate"

[6] "null.value" "alternative" "method" "data.name"

statistic : valeur de t

alternative : type d’alternative two-sided, one-sided.alternative : type d’alternative two-sided, one-sided.

estimate : moyennes empiriques des echantillons

null.value : hypothese nulle

conf.int: intervalles de confiances

parameter :ddl

Conclusion : pour les deux exemples, on ne peut pas rejeter l’hypothèse nulle au seuil 5% : les moyennes ne sont pas significativement différentes.

IV – Test du chi2On veut tester à partir d’un tableau de contingence de n individus s’il y a une

relation entre deux caractères X et Y

Statistique de test :

0 1 0: les deux critères sont indépendants contre H !H H=

Où Oi sont les éléments du tableau de contingence, Ei sont les éléments du tableau attendu sous l’hypothèse d’indépendance (voir un cours et l’exemple ci-après)

1 0² ²(( 1)( 1)) sous Hn l cχ χ− − −∼

IV – Test du chi2

� Test du chi2 à la main>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")>O #tableau observé Oi #tableau théorique Ei

homme femme homme femmevoyant 442 514 voyant 458.88 497.12aveugle 38 6 aveugle 21.12 22.88

#Création du tableau théorique : >ni=apply(O,1,sum); nj= apply(O,2,sum)voyant aveugle homme femme 956 44 480 520

>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000, ni[2]*nj[2]/1000),2,2)

>chi2=sum((O-E)^2/E)[1] 27.13874

IV – Test du chi2

> X2=chisq.test(O, correct=F)Pearson's Chi-squared test

data: tab X-squared = 27.1387, df = 1, p-value = 1.894e-07

Valeur de la statistique de test du chi2

P(X>X-squared )

On rejette H0 si la p-value est <5%. Ici, c’est le cas, les caractères sexe et cecite ne sont pas indépendants.

P(X>X-squared )X v.a. de loi X² (1)

Recommended