12
1. Probabilités et Variables Aléatoires Si les événements élémentaires sont équiprobables " A Õ EHnL, pH AL = cardinaH AL ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ n Théorème des probabilités totales pH A BL = pH AL + pHBL - pH A BL Si les événements sont incompatibles alors pH A BL = pH AL + pHBL Axiome des probabilités conditionnelles pHX ê AL = pHX AL ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ pH AL Théorème des probabilités composées pH A BL = pH AL μ pHB ê AL Si les événements sont indépendants alors pH A BL = pH AL μ pHBL Loi de Bernouilli Modèle : urne avec des Boules Rouges ( X = 1 , en proportion v ) et des Boules Blanches (X = 0 , en proportion 1 -v ) ; on tire une boule. Alors : pHX = 1L =v ; pHX = 0L = 1 -v Loi binomiale (tirage non exhaustif) Modèle : urne contenant n Boules dont des Boules Rouges en proportion v et des Boules Blanches (en proportion 1 -v ) ; quelle est la probabilité de tirer k Boules Rouges ? pHK = kL = C n k v k H1 -vL n-k Loi hypergéométrique (tirage exhaustif) Modèle : urne contenant N Boules dont R Boules Rouges et N - R Boules Blanches ; quelle est la probabilité de tirer k Boules Rouges parmi n Boules tirées ? pHK = kL = C R k C N -R n-k ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ C N n Loi de Poisson La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et n v=l fini (en pratique n > 50 et v< 0.1 ) pHK = kL = e -l l k ÅÅÅÅÅÅ k! Espérance mathématique Loi de Bernouilli : EHX L =v Loi binomiale : EHX L = n v Loi de Poisson : EH X L =l Loi hypergéométrique : EHX L = n v Théorème de Bayes Soit un événement B dont la réalisation dépend de l'une des causes A i alors : pH A i ê BL = pH A i Lμ pH Bê A i L ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ / k pH A k Lμ pHBê A k L www.thierry-verdel.com

Décision et prévision statistique Mines Nancy Résumés de cours

Embed Size (px)

Citation preview

Page 1: Décision et prévision statistique Mines Nancy Résumés de cours

1. Probabilités et Variables Aléatoires

Si les événements élémentaires sont équiprobables

" A Õ EHnL, pHAL = cardinaHALÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

Théorème des probabilités totales

pHA‹ BL = pHAL + pHBL - pHA› BLSi les événements sont incompatibles alors pHA‹ BL = pHAL + pHBL

Axiome des probabilités conditionnelles

pHX ê AL = pHX›ALÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅpHAL

Théorème des probabilités composées

pHA› BL = pHALµ pHB ê ALSi les événements sont indépendants alors pHA› BL = pHALµ pHBL

Loi de Bernouilli

Modèle : urne avec des Boules Rouges (X = 1, en proportion v) et des Boules Blanches (X = 0, en proportion 1 - v) ; on tire une boule. Alors :

pHX = 1L = v ; pHX = 0L = 1 - v

Loi binomiale (tirage non exhaustif)

Modèle : urne contenant n Boules dont des Boules Rouges en proportion v et des Boules Blanches (en proportion 1 - v) ; quelle est la probabilité de tirer k Boules Rouges ?

pHK = kL = Cnk vk H1 - vLn-k

Loi hypergéométrique (tirage exhaustif)

Modèle : urne contenant N Boules dont R Boules Rouges et N - R Boules Blanches ; quelle est la probabilité de tirer k Boules Rouges parmi n Boules tirées ?

pHK = kL =CRk CN-R

n-kÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

CNn

Loi de Poisson

La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et nv = l fini (en pratique n > 50 et v < 0.1)

pHK = kL = e-l lkÅÅÅÅÅÅÅk!

Espérance mathématique

Loi de Bernouilli : EHX L = v

Loi binomiale : EHXL = nv

Loi de Poisson : EHXL = l

Loi hypergéométrique : EHXL = nv

Théorème de Bayes

Soit un événement B dont la réalisation dépend de l'une des causes Ai alors :

pHAi êBL =pHAi LµpHBêAi LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄k pHAk LµpHBêAk L

www.thierry-verdel.com

Page 2: Décision et prévision statistique Mines Nancy Résumés de cours

2. La Loi Normale

Distribution uniforme sur @a, bDpHxL = 1

b-a et PHxL = x-a

b-a

Distributions marginales de deux aléas X et Y

p1HxL dx = „ x Ÿ-¶+¶ p Hx, yL „ y et p2 HyL dy = „ y Ÿ-¶

+¶pHx, yL „ x

Indépendance de deux aléas

X et Y sont indépendants si et seulement si pHx, yL= p1 HxL.p2 H yL

Moment d'ordre k et moment centré d'ordre k

EXk = Ÿ-¶+¶xk pHxL „ x HEHX - mLLk = Ÿ-¶

+¶Hx - mLk pHxL „ x

Variance ou moment centré d'ordre 2

s2 = VarHXL = E@HX - mL2D = Ÿ-¶+¶Hx - mL2 pHxL „ x.

Variable centrée réduite

T =X-m

savec m = EHXL ets2 = VarHXL fl EHT L = 0 et VarHT L = 1

Relations fondamentales

EHX + Y L = EHXL + EHY LVarHXL = EHX2L - HEHXLL2

VarHa X + bL = a2 VarHXLEHX Y L = EHXL . EHY L + CovHX Y LVarHX + Y L = VarHXL + VarHY L + 2 CovHX Y LVarHX - Y L= VarHXL+VarHY L-2 CovHX Y L

Si X et Y sont indépendants alors :

EHX Y L = EHXL.EHY LVarHX + Y L = VarHXL + VarHY L

Variable continue sur @0, aD

pHxL = 1

a; EHXL = a

2; VarHXL = a2

12.

Variable de Bernouilli

PH0L = 1 -v ; PH1L = v ; EHXL = v ; VarHXL = v H1 -vL.

Variable de Poisson

pHkL = !-llk

k!; EHXL = l ; VarHXL = l

Loi normale X

pHX = xL = 1

s 2 p!-12

Hx-mL2

s2 fl EHXL = m et VarHXL = s2

Loi normale réduite T

T =X-m

s fl pHT = t L = 1

2 p!-t2

2 fl EHT L = 0 et VarHT L = 1.

Inégalité de Bienaymé-Tchebichefwww.thierry-verdel.com

Page 3: Décision et prévision statistique Mines Nancy Résumés de cours

Inégalité de Bienaymé-Tchebichef

Soit X une variable aléatoire de moyenne m et d'écart-type s, à ceci près quelconque alors :

Prob 8 X - m > a< < s2

a2

Théorème central limite

Si X1, X2, ..., Xn sont n variables aléatoires indépendantes quelconques, leurs variances étant de même ordre de grandeur alors : X1 + X2 + ... + Xn tend vers une loi normale

www.thierry-verdel.com

Page 4: Décision et prévision statistique Mines Nancy Résumés de cours

3. Le Contrôle StatistiqueThierry Verdel, Ecole des Mines de Nancy, www.thierry-verdel.com

Loi de la moyenne d'un échantillon

Soient Xi variables aléatoires indépendantes telles que EHXiL = m et VarHXiL = s2

M =X1+X2+...+Xn

n ï EHM L = m et VarHM L = s2 ê nM =

X1+X2+...+Xn

n ï EHM L = m et VarHM L = s2 ê n

m m

s

sêèn

X

Mn

Loi de la population (à gauche) et loi d'un échantillon (à droite)

Contrôle statistique

Considérant l'exemple d'une machine qui fabrique des pièces dont la taille suit une loi de probabilité de moyenne m0 et d'écart-type s et dont l'intervalle de tolérance est @a, bD centré sur m0. Dans ce cas, comme le montre la figure ci-dessous :

     - a est le risque de procéder à un réglage alors que la machine n'est pas déréglée. C'est aussi le risque du fournisseur (probabilité que le client lui refuse un bon lot).

     - b est le risque de ne pas régler la machine alors que son déréglage est inadmissible. C'est aussi le risque du client (probabilité d'accepter un mauvais lot).

Mnm0m1 ba

sÅÅÅÅÅÅÅÅÅÅÅè!!!n

sÅÅÅÅÅÅÅÅÅÅÅè!!!n

aê2aê2 b

www.thierry-verdel.com

Page 5: Décision et prévision statistique Mines Nancy Résumés de cours

4. L'Estimation Statistique

Inférence statistique

C'est porter un jugement sur une population à partir d'échantillons

Estimateur

Tn HX1 , X2 , ..., Xn L est un estimateur de q si : EHTn L Ø q et VarHTn L Ø 0 quand n Ø ¶.

L'estimateur est dit sans biais quand VarHTn = 0L quelque soit n.

Estimation (ponctuelle) d'une moyenne

Soit une population quelconque de moyenne inconnue notée m. Si on note m la moyenne d'un échantillon issu de cette population alors m* = m est une estimation sans biais de la moyenne de la population.

Estimation (ponctuelle) d'une variance

Soit une population quelconque de variance inconnue notée s2 . Si on note m et s, la moyenne et l'écart-type d'un échantillon issu de cette population alors :

s*2 = nÅÅÅÅÅÅÅÅÅÅn-1

s2 =‚i=1n Hxi-mL2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn-1

est une estimation sans biais de la variance s2 de la population.

Loi du khi deux

Soit U1 , U2 , ..., Un , n variables aléatoires indépendantes qui suivent des lois normales réduites.

Alors la variable cn2 = U1

2 +U22 + ... +Un

2 suit une loi du khi deux à n degrés de liverté.

Ainsi si X1 , X2 , ... Xn sont des variables normales de même moyenne et de même variance s2 et si M est l'aléa défini comme la moyenne des Xi , alors la variable suivante :

‚i=1n HXi-M L2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs2 = n s2ÅÅÅÅÅÅÅÅÅÅ

s2 = Hn-1L s*2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s2 suit une loi du khi deux à n - 1 degrés de liberté ( cn-12 ).

Loi de Student

Soit U, U1 , U2 , ..., Un , n + 1 variables aléatoires indépendantes normales centrées et réduites.

Alors la variable T @nD = UÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ$%%%%%%%%%%%%%%%%%%%%%%%%%%%%1ÅÅÅÅÅÅn ⁄i=1

n Ui2

= UÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ$%%%%%%%%%%%%%%1ÅÅÅÅÅÅn cn

2 suit une loi de Student à n degrés de liberté.

Ainsi si X1 , X2 , ... Xn sont des variables normales de même moyenne m et de même variance s2 et si M est l'aléa défini comme la moyenne des Xi , alors la variable M-mÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* ëè!!!n suit une loi de Student à n - 1 degrés de liberté.

Intervalle de confiance d'une moyenne si on connait l'écart-type de la population (n étant la taille de l'échantillon prélevé)

M-mÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsëè!!!n = N @0, 1D ï m - uaê2 sÅÅÅÅÅÅÅÅÅÅè!!!n < m < m + uaê2 sÅÅÅÅÅÅÅÅÅÅè!!!n , uaê2 lu dans la table de la loi normale centrée réduite.

Intervalle de confiance d'une moyenne si on ne connait pas l'écart-type de la population (n étant la taille de l'échantillon prélevé)

M-mÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs* ëè!!!n = T @n - 1D ï m - taê2 s*

ÅÅÅÅÅÅÅÅÅÅè!!!n < m < m + taê2 s*ÅÅÅÅÅÅÅÅÅÅè!!!n , taê2 lu dans la table de Student de degré Hn - 1L.

Intervalle de confiance de la variance d'une population (n étant la taille de l'échantillon prélevé et s son écart-type)

n S2

ÅÅÅÅÅÅÅÅÅÅÅs2 = c2 @n - 1D ï n S2

ÅÅÅÅÅÅÅÅÅÅÅc2

2 < s2 < n S2ÅÅÅÅÅÅÅÅÅÅÅ

c12 , c1

2 et c22 lus dans la table du c2 Hn - 1L degrés de liberté.

www.thierry-verdel.com

Page 6: Décision et prévision statistique Mines Nancy Résumés de cours

5. Comparaisons Statistiques

Test d'hypothèse (Neyman et Pearson)

Etat réalisé :

H0 H1

Jugement porté :H0

H1

Jugement correct b = Prob 8H0 êH1 <Jugement incorrect

a = Prob 8H1 êH0 <Jugement incorrect

Jugement correct

a : erreur de première espèce (considérer défavorable ce qui est favorable).

b : erreur de deuxième espèce (considérer favorable ce qui ne l'est pas).

L'intervalle d'acceptation de l'hypothèse H0 est l'intervalle tel que pour a donné, b soit minimal.

b est aussi la puissance du test.

Comparaison de la moyenne d'une population normale (de variance connue) à une valeur donnée

H0 : m = m0 ïM - m0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs ë è!!!n = N @0, 1D . A partir d'un échantillon, on mesure la valeur de u =

m-m0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsëè!!!n et on la compare à

l'intervalle @-uaê2 , uaê2 D lu dans la table de la loi normale centrée réduite pour un risque a donné. Si u – @-uaê2 , uaê2 D, on peut rejeter l'hypothèse au risque a.

Comparaison de la variance d'une population normale à une valeur donnée

H0 : s = s02 ï n S2

ÅÅÅÅÅÅÅÅÅÅÅÅs0 2 =

⁄i=1¶ HXi-M L

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs0 2 = c2 Hn - 1L. A partir d'un échantillon, on calcule la valeur n s

2ÅÅÅÅÅÅÅÅÅÅÅÅs0 2 , que l'on compare

à l'intervalle @c12 , c2

2 D obtenu dans la table de la loi du c2 à Hn - 1L degrés de liberté pour un risque a donné. Si n s2ÅÅÅÅÅÅÅÅÅÅÅÅ

s02 – @c1

2 , c22 D, on peut rejeter l'hypothèse au risque a

Comparaison de la moyenne d'une population normale (de variance inconnue) à une valeur donnée

H0 : m = m0 ïM - m0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* ë è!!!n = T Hn - 1L loi de Student de degré Hn - 1L. A partir d'un échantillon, on mesure la valeur de

t =m-m0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* ëè!!!n et on la compare à l'intervalle @-taê2 , taê2 D lu dans la table de la loi de Student de degré Hn - 1L pour un risque a

donné. Si t – @-taê2 , taê2 D, on peut rejeter l'hypothèse au risque a.

Test des appariements (comparaison des moyennes de deux populations appariées)

Soit D = Y - X , H0 : EHDL = 0 ï DÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsD ëè!!!!!!!!!n-1

= T Hn - 1L, loi de Student de degré Hn - 1L. A partir d'un échantillon, on

mesure la valeur de t = dÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsD ëè!!!!!!!!!n-1

et on la compare à l'intervalle @-taê2 , taê2D lu dans la table de la loi de Student de degré

Hn - 1L pour un risque a donné. Si t – @-taê2 , taê2 D, on peut rejeter l'hypothèse au risque a.

Comparaison sur échantillons des variances de 2 populations normales

H0 : s12 = s2

2 = s2 ïn1 S1

2 ë Hn1 - 1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn2 S2

2 ê Hn2 - 1L = F@n1 - 1, n2 - 1D, loi de Snedecor à Hn1 - 1, n2 - 1L degrés de liberté.

A partir de deux échantillons, on mesure la valeur de f =n1 s1

2 ë Hn1 - 1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn2 s2

2 ê Hn2 - 1L et on la compare à l'intervalle @ f1 , f2 D obtenu à

partir de la table de loi de Snédécor pour un risque a donné. Si f – @- f1 Haê2L , f2 Haê2L D on peut rejeter l'hypothèse au risque a. Si f œ @- f1 Haê2L , f2 Haê2L D, on ne peut pas rejeter l'hypothèse d'égalité des variances et pour la suite, on retient une vari-

ance commune égale à s*2 =n1 S1

2 + n2 S22

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn1 + n2 - 2

.

www.thierry-verdel.com

Page 7: Décision et prévision statistique Mines Nancy Résumés de cours

Comparaison sur échantillons des moyennes de 2 populations normales (le test d'égalité des variances étant déjà réalisé)

H0 : m1 = m2 = m ïM1 - M2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* $%%%%%%%%%%%%%%%%%%%%%%%1ÅÅÅÅÅÅÅÅÅÅn1+ 1ÅÅÅÅÅÅÅÅÅÅn2

= T Hn1 + n2 - 2L, loi de Student de degré Hn1 + n2 - 2L. A partir d'un échantillon,

on mesure la valeur de t =m1 - m2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* $%%%%%%%%%%%%%%%%%%%%%%%1ÅÅÅÅÅÅÅÅÅÅn1+ 1ÅÅÅÅÅÅÅÅÅÅn2

et on la compare à l'intervalle @-taê2 , taê2D lu dans la table de la loi de Student de

degré Hn1 + n2 - 2L pour un risque a donné. Si t – @-taê2 , taê2 D, on peut rejeter l'hypothèse au risque a.

www.thierry-verdel.com

Page 8: Décision et prévision statistique Mines Nancy Résumés de cours

6. Faits et modèles

Estimation d'une proportion

Soit Fn =X1 +...+XnÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n l'aléa moyenne de n variables de Bernouilli. On peut écrire :

EHFn L = v et s2 HFn L = vH1-vLÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

önض

0

Il s'en suit que Fn est un estimateur sans biais de v. Par ailleurs, si n est assez grand, on peut approximer la loi de Fn par une loi normale et remplacer v par son estimation fn . Cela conduit à l'intervalle de confiance d'une proportion v au risque a :

fn - uaê2 "#################fn H1- fn LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

< v < fn + uaê2 "#################fn H1- fn LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

Comparaison de deux proportions

A l'hypothèse que v1 = v2 = v, l'expression suivante :

u =f1 - f2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

$%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%v* H1-v* L ikjj 1ÅÅÅÅÅÅÅÅÅÅn1

+ 1ÅÅÅÅÅÅÅÅÅÅn2N

avec v* =n1 f1 +n2 f2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn1 +n2

est approximativement une réalisation d’une variable normale réduite, si l’hypothèse est vraie. Il suffit de placer la valeur obtenue dans l'intervalle correspondant au risque choisi.

Légitimité d'un raccordement à une loi

A partir d'un regroupement par classe de la variable étudiée (effectifs observés, obs). On calcule les effectifs théoriques, dans chacune des classes obtenus par application du modèle (effectifs théoriques, theo). Les classes doivent contenir au minimum un effectif théorique de 5 (sinon on procède à des regroupements de classes). On calcule alors l'expression suivante :

c2 = ‚k=1

r Hobs-theoL2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅtheo

Dans l'hypothèse où les écarts entre effectifs théoriques et effectifs observés ne sont dus qu'aux aléas de l'échantillonnage (que les données sont effectivement issues de la loi testée), l'expression suivante est une réalisation d'une loi du c2 à q degrés de liberté avec q = nb de classes - 1 Hsi ⁄ theo = ⁄ obsL - p Hnb de paramètres estimés dans la loi de raccordementL. On ne peut pas rejeter la légitimité du raccordement testé si la valeur numérique de l'expression précédente se situe dans l'intervalle donné par la loi du c2 correspondante pour un risque a fixé à l'avance. Dans le cas contraire on rejetera le modèle avec un risque de rejet à tort inférieur ou égal à a. En général on mettra tout le risque à droite (on cherche à rejeter des distances trop grandes), mais dans certains cas, une distance obtenue trop petite pourra faire douter de la légalité des observations.

www.thierry-verdel.com

Page 9: Décision et prévision statistique Mines Nancy Résumés de cours

7. Régression linéaire

Droite de régression

y = a x + b (observation de la vraie droite inconnue : y = a x + b) avec :

a =⁄i=1n Hxi-xêL H yi- yêêL

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêL2

; b = yêê - a xê ; r2 =@⁄i=1n Hxi-xêL H yi- yêêLD2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ‚

i=1n Hxi-xêL2 ⁄i=1

n H yi- yêêL2 ; s*2 =I1-r2 M ‚

i=1n H yi- yêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn-2

Equation d'analyse de la variance

VarHY L = a2 VarHXL + 1ÅÅÅÅn

⁄ ei 2 = r2 VarHY L + H1 - r2 L VarHY LQu'on peut écrire : Variance totale = Variance expliquée + Variance résiduelle

Loi de A et B

A = N Aa, sÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ"#############################⁄i=1n Hxi-xêL2

Eï A-aÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs* ë"#############################⁄i=1

n Hxi-xêL2= T @n - 2D utilisé pour tester toute hypothèse sur a

B = N Ab, s $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%J xê2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêL2

+ 1ÅÅÅÅnN E ï B- bÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* &''''''''''''''''''''''''''''''''''''''''''''ikjjjjj xê2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1

n Hxi-xêL2+ 1ÅÅÅÅÅÅn

y{zzzzz

= T @n - 2D utilisé pour tester toute hypothèse sur b

Loi d'un point de la droite, loi d'une observation

Un point de la droite : N Aa x + b, s $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%1ÅÅÅÅn

+ Hx-xêL2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêL2

E

Une observation : N Aa x + b, s $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%1 + 1ÅÅÅÅn

+ Hx-xêL2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêL2

E

A partir desquels on pourra déterminer les intervalles de confiance par passage à une loi de Student de degrés Hn - 2L.Comparaison de deux régressions

On compare d'abord les variances, puis les pentes et les ordonnées à l'origine. A l'hypothèse que s1 = s2 = s, la quantité

f =s1

*2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅs2

*2 appartient à une loi de Snédécor de degrés Hn1 - 2, n2 - 2L , ce qui permet de tester l'égalité des variances. On

estime alors s*2 =Hn1 -2L s1

*2 +Hn2 -2L s2*2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn1 -2L+Hn2 -2L

A l'hypothèse que a1 = a2 = a, la variable T =A1 -A2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n1 Hx1 i-x1

êêêêL2 + 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i'=1n2 Hx2 i' -x2

êêêêL2 est une loi de Student à Hn1 + n2 - 4L

degrés de liberté, ce qui permet de tester l’égalité des pentes.

A l'hypothèse que b1 = b2 = b, la variable T =B1 -B2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s* &''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''1ÅÅÅÅÅÅÅÅÅÅn1+ 1ÅÅÅÅÅÅÅÅÅÅn2

+x1êêêê2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n1 Hx1 i-x1

êêêêL2 +x2êêêê2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i'=1n2 Hx2 i' -x2

êêêêL2

est une loi de Student à

Hn1 + n2 - 4L degrés de liberté, ce qui permet de tester l’égalité des ordonnées à l’origine.

www.thierry-verdel.com

Page 10: Décision et prévision statistique Mines Nancy Résumés de cours

8. Expérimentation statistique

Analyse de la variance à un facteur

Le modèle de base de l’analyse de la variance s’écrit yi j = m + a j + εi j .

Il contient comme hypothèses que :

- les a j sont des quantités inconnues, mais certaines, qui mesurent l’influence du facteur A.

- les εi j représentent les fluctuations aléatoires correspondant aux erreurs de mesure ou à l’influence des facteurs non contôlés. On suppose qu’il n’y a pas d’erreur systématique, ou qu’elle est contenue dans m, donc que EHεi j L = 0. Et qu'ils :

- sont indépendants : sHεi j , εi' j' L = 0 pour Hi, jL ≠ Hi ', j 'L,- ont même variance : s2 Hεi j L = s2 , (hypothèse la plus restrictive : erreurs non multiplicatives, voir test de Bartlett)

- suivent des lois normales.

On calcule alors :

SCT = ⁄ j=1p ⁄i=1

n j H yi j - yêêL2 = ⁄ j=1p ⁄i=1

n j yi j 2 - n yêê2

SCA = ⁄ j=1p n j H y jêêêê - yêêL2 = ⁄ j=1

p n j y jêêêê2 - n yêê2

et par différence :

SCR = SCT - SCA.

On constitue ensuite le tableau suivant :Variation SC Degrés de liberté f calculé F Snédécor

Facteur SCA p - 1 SCAêHp-1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅSCRêHn-pL Fa

Résiduelle SCR n - pTotale SCT n - 1

A partir duquel on conclut ou non à l'influence du facteur considéré.

www.thierry-verdel.com

Page 11: Décision et prévision statistique Mines Nancy Résumés de cours

Analyse de la variance à deux facteurs avec répétitions

Plan factoriel :

A1 Ai Ap

B1

y111ª

y11 r

yi11ª

yi1r

yp11ª

yp1rª ª ª ª

B j

y1 j 1

ª

y1 j r

yi j 1ª

yi j kª

yi j r

yp j 1

ª

yp j rª ª ª ª

Bqy1 q 1

ª

y1 q r

yi q 1ª

yi q r

yp q 1ª

yp q r

Modèle additif (additivité des facteurs et des erreurs) :

yi j k = m + ai + b j + εi j k .

Modèle avec interaction (interaction des facteurs et additivité des erreurs) :

yi j k = m + ai + b j + gi j+ εi j k

Appelons yiêêê la moyenne d’une colonne du tableau des mesures : yiêêê = 1ÅÅÅÅÅÅÅq r

⁄ j k yi j k .

Appelons y jêêêê la moyenne d’une ligne du tableau : y jêêêê = 1ÅÅÅÅÅÅÅp r

⁄i k yi j k .

Appelons yi jêêêêê la moyenne d’une case du tableau : yi jêêêêê = 1ÅÅÅÅr

⁄k yi j k .

Appelons enfin yêê la moyenne générale des mesures : yêê = 1ÅÅÅÅÅÅÅÅÅÅp q r

⁄i j k yi j k .

L'équation d'analyse de la variance s'écrit :

⁄i j k H yi j k - yêêL2 = q r ⁄i H yiêêê - yêêL2 + p r⁄ j H y jêêêê - yêêL2 + r⁄i j @H yi jêêêêê - yêêL - H yiêêê - yêêL - H y jêêêê - yêêLD2 + ⁄i j k H yi j k - yi jêêêêêL2Qu'on peut noter symboliquement :

SCT = SCA + SCB + SCAB + SCR.

On calcule SCA, SCB, SCAB et SCR par les formules suivantes :

SCA = q r⁄i yiêêê2 - p q r yêê2 ,

SCB = p r ⁄ j y jêêêê2 - p q r yêê2 ,

SCAB = r⁄i j yi jêêêêê2 - p q r yêê2 - SCA - SCB,

SCT = ⁄i j k yi j k2 - p q r yêê2 .

Puis SCR s’obtient par différence :

SCR = SCT - SCA - SCB - SCAB.

On dresse enfin le tableau :SC DL f calculé F Snédécor

SCA p - 1 fA = SCAêHp-1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅSCRêp q Hr-1L FA

SCB q - 1 fB = SCBêHq-1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅSCRêp q Hr-1L FB

SCAB Hp - 1L Hq - 1L fAB = SCABêHp-1L Hq-1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅSCRêp q Hr-1L FAB

SCR p q Hr- 1LSCT p q r - 1

A partir duquel on peut faire les tests d'influence des facteurs et d'interaction entre facteurs.

www.thierry-verdel.com

Page 12: Décision et prévision statistique Mines Nancy Résumés de cours

Analyse de la variance à deux facteurs sans répétitions

A1 Ai ApB1 y11 yi1 yp1ª ª ª ª

B j y1 j yi j yp jª ª ª ª

Bq y1 q yi q yp q

L’équation d’analyse de la variance s’écrit alors :

⁄i j H yi j - yêêL2 = q r ⁄i H yiêêê - yêêL2 + p r⁄ j H y jêêêê - yêêL2+r⁄i j @H yi j - yêêL - H yiêêê - yêêL - H y jêêêê - yêêLD2

soit, avec les notations habituelles :

SCT = SCA + SCB + SCAB.

Il est impossible de tester l’interaction, puisqu’on ne dispose plus de SCR permettant, par division, d’éliminer s2 et d’obtenir une loi de Snedecor. Il est donc nécessaire, dans ce cas de faire l’hypothèse (impossible à vérifier) qu’il n’y a pas d’interaction. On doit donc adopter le modèle additif :

yi j = m + ai + b j + εi j .

Le test d'influence du facteur A (par exemple) est conduit à partir du fait que, sous l'hypothèse que A n'a pas d'influence :

fA =SCAÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅH p-1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅSCABÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHp-1L Hq-1L

suit une loi de Snedecor à Hp - 1L et Hp - 1L Hq- 1L degrés de liberté.

www.thierry-verdel.com