11
1 MTH2302 Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2 a 2b 2c 2d 2e 2f 3a 3b valeur 1 1 1 1 1 1 1 0,5 0,5 1 1 NUMÉRO 3c 3d 3e 3f 3g 4a 4b 4c 4d 4e valeur 1 1 1 1 1 0,5 1.5 1 1 1 NUMÉRO 1 Afin de tester une hypothèse nulle H0 contre une hypothèse alternative H1, un échantillon de taille n x1 ,..., xn de la population à l’étude a été recueilli par un chercheur A. Une certaine procédure de test d’hypothèse a ensuite été utilisée et la décision prise fut de ne pas rejeter l’hypothèse H0 , au seuil (niveau) critique de 0,05 (5%). Il rapporte d’ailleurs la valeur p (« p-value »), notée p1, du test dans son rapport d’expérience. Une expérience scientifique digne de ce nom doit d’être répétable: le protocole doit être clairement établi pour que de tierces personnes puissent la reproduire et en vérifier les résultats. Pour chacun des énoncés, dites s’il est VRAI ou FAUX et justifiez votre réponse (maximum 5 lignes). 1a) La moyenne de l’échantillon observé est égale à 6, alors la moyenne de la population est égale à 6. 1b) Afin de vérifier les résultats du chercheur A, un autre chercheur B indépendant répète l’expérience. Il fait la collecte d’un nouvel échantillon aléatoire de taille n et il reprend exactement la même procédure de test d’hypothèse décrite par le chercheur A. La nouvelle valeur p qu’il obtient, notée p2 , est plus grande que p1 ( p2 > p1 ). Avec un seuil critique de 0,05 et en se basant sur la valeur p qu’il a obtenue, le chercheur B a raison de ne pas rejeter H0 corroborant ainsi les résultats du chercheur A. 1c) Supposons que les résultats du chercheur A soient exacts, c’est-à-dire que H0 est vérifiée dans la population. Alors, il est impossible qu’un autre scientifique dans l’avenir, qui suit à la lettre le protocole d’expérience initialement décrit par le chercheur A, en vienne à la conclusion un jour que H0 doit être rejetée lors d’une répétition de l’expérience. On suppose cet autre scientifique ne s’est pas trompé dans le protocole expérimental et dans ses calculs. RÉPONSES 1a) FAUX : la moyenne de l’échantillon varie selon une loi d’échantillonnage autour de la valeur moyenne de la population. La probabilité que la moyenne échantillonnale soit égale à la valeur moyenne de la population est nulle 1b) VRAI : on a p2 > p1 > 0,05 donc le chercheur B ne peut pas rejeter H0 1c) FAUX : il peut arriver qu’un autre chercheur puisse rejeter H0 même si H0 est vraie : le hasard de l’échantillonnage peut faire que l’on se retrouve dans la région critique (rejet) d’un test. Cette possibilité arrive selon le seuil du test que l’on s’est fixé (contrôlé). Toute décision statistique basée sur un échantillon de taille finie est assujettie à un risque de première espèce : rejeter une hypothèse vraie.

1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

1

MTH2302 – Probabilités et statistique

Examen final 24 avril 2008

SOLUTIONNAIRE

NUMÉRO 1a 1b 1c 2 a 2b 2c 2d 2e 2f 3a 3b

valeur 1 1 1 1 1 1 1 0,5 0,5 1 1

NUMÉRO 3c 3d 3e 3f 3g 4a 4b 4c 4d 4e

valeur 1 1 1 1 1 0,5 1.5 1 1 1

NUMÉRO 1

Afin de tester une hypothèse nulle H0 contre une hypothèse alternative H1, un échantillon de taille n

x1 ,..., xn de la population à l’étude a été recueilli par un chercheur A. Une certaine procédure de test

d’hypothèse a ensuite été utilisée et la décision prise fut de ne pas rejeter l’hypothèse H0 , au seuil (niveau)

critique de 0,05 (5%). Il rapporte d’ailleurs la valeur p (« p-value »), notée p1, du test dans son rapport

d’expérience. Une expérience scientifique digne de ce nom doit d’être répétable: le protocole doit être

clairement établi pour que de tierces personnes puissent la reproduire et en vérifier les résultats.

Pour chacun des énoncés, dites s’il est VRAI ou FAUX et justifiez votre réponse (maximum 5 lignes).

1a) La moyenne de l’échantillon observé est égale à 6, alors la moyenne de la population est égale à 6.

1b) Afin de vérifier les résultats du chercheur A, un autre chercheur B indépendant répète l’expérience. Il fait

la collecte d’un nouvel échantillon aléatoire de taille n et il reprend exactement la même procédure de test

d’hypothèse décrite par le chercheur A. La nouvelle valeur p qu’il obtient, notée p2 , est plus grande que

p1 ( p2 > p1 ). Avec un seuil critique de 0,05 et en se basant sur la valeur p qu’il a obtenue,

le chercheur B a raison de ne pas rejeter H0 corroborant ainsi les résultats du chercheur A.

1c) Supposons que les résultats du chercheur A soient exacts, c’est-à-dire que H0 est vérifiée dans la

population. Alors, il est impossible qu’un autre scientifique dans l’avenir, qui suit à la lettre le protocole

d’expérience initialement décrit par le chercheur A, en vienne à la conclusion un jour que H0 doit être

rejetée lors d’une répétition de l’expérience. On suppose cet autre scientifique ne s’est pas trompé dans le

protocole expérimental et dans ses calculs.

RÉPONSES

1a) FAUX : la moyenne de l’échantillon varie selon une loi d’échantillonnage autour de la valeur

moyenne de la population.

La probabilité que la moyenne échantillonnale soit égale à la valeur moyenne de la

population est nulle

1b) VRAI : on a p2 > p1 > 0,05 donc le chercheur B ne peut pas rejeter H0

1c) FAUX : il peut arriver qu’un autre chercheur puisse rejeter H0 même si H0 est vraie : le hasard de

l’échantillonnage peut faire que l’on se retrouve dans la région critique (rejet) d’un test.

Cette possibilité arrive selon le seuil du test que l’on s’est fixé (contrôlé). Toute décision

statistique basée sur un échantillon de taille finie est assujettie à un risque de première

espèce : rejeter une hypothèse vraie.

Page 2: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

2

NUMÉRO 2

On considère le modèle de régression linéaire simple: Y = β0 + β1 X + ε ε ~ N(0, σ2)

On dispose d’une série d’observations (xi , yi) i = 1, 2,…, n

Pour chacun des énoncés, dites s’il est VRAI ou FAUX et justifier votre réponse (maximum 5 lignes), avec au

besoin, un graphique explicatif.

2a) Une valeur élevée de R2 (disons supérieure à 0,90) nous permet à elle seule de conclure que le modèle est

satisfaisant.

2b) Si l’on ne rejette pas l’hypothèse nulle H0 : β1 = 0 alors on peut conclure que la variable de réponse ne

peut pas avoir de lien ou de relation de quelque nature que ce soit avec la variable X.

2c) La valeur prédite de Y à une valeur particulière de X, disons X = x0, est toujours égale à valeur moyenne

de Y à X = x0.

2d) Les prévisions (prédictions) de Y à différentes valeurs de X ont toutes la même incertitude.

2e) Supposons que l’on est en position de concevoir le plan de collecte des données et que l’on peut

déterminer à l’avance le choix des valeurs xi sur l’intervalle d’intérêt [ a , b ] a ≤ X ≤ b

Admettez le résultat mathématique suivant

Expliquer pourquoi le plan de collecte des données qui découle du résultat mathématique précédent, permet

l’estimation de la pente β1 avec une précision maximale.

2f) Identifier un inconvénient très important du plan de collecte de données qui découle du résultat

mathématique précédent. (maximum 5 lignes).

Si n est pair, alors la valeur maximale de SSX = ∑ (xi – x )2 s’obtient quand la moitié (n/2)

des observations de Y sont recueillies à la valeur xi = a et l’autre moitié des observations

de Y sont recueillies à la valeur de xi = b.

Si n est impair, alors la valeur maximale de SSX s’obtient quand on recueille une

observation

de Y à la valeur si xi = (a+b)/2 et les (n-1) autres observations de Y sont recueillies en

nombre égal aux valeurs limites de l’intervalle de X : (n-1)/2 valeurs de Y à xi = a

et (n-1)/2 valeurs de Y à xi = b.

Page 3: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

3

RÉPONSES No 2

2a) FAUX : la valeur de R2 élevée, supérieure à 0,90 ne nous assure pas que le modèle de

régression est satisfaisant.

Il y a plusieurs cas d’arrangement dans la disposition des points qui peut créer

une valeur élevée de R2 alors que l’examen du nuage de points montre clairement

l’absence de liaison entre les variables.

Par exemple, une valeur atypique éloignée de l’ensemble de tous les autres points

peut produire une forte valeur de R2.

Dessins… un des exercices du dernier TD montrait ces possibilités.

2b) FAUX : on ne peut pas conclure ainsi de manière définitive sur les liens entre X et Y.

Il se peut que les variables soient en liaison dans une autre région de X que celle

qui fut observée dans les données et qu’il existe une liaison entre X et Y.

2c) VRAI : il suffit de consulter la formule pour l’intervalle de confiance pour la moyenne de

Y et de la comparer avec la formule pour l’intervalle de prédiction.

Les deux valeurs sont égales.

Il se doit d’être ainsi car la valeur de Y et sa moyenne diffère par l’ajout d’un

terme d’erreur qui est à moyenne zéro.

2d) FAUX : l’incertitude de l’intervalle de prévision de Y à X = x* varie avec la distance

entre x* et la moyenne des x. Plus on s’éloigne de la moyenne des x

plus l’incertitude augmente.

2e) la pente estimée a une incertitude chiffrée par son écart type d’estimation.

Cet écart type est de la forme ET( β ) = σ / SSX 0.5 = σ / [ ∑ ( x i – x )2]

Selon le résultat énoncé on constate de manière évidente que l’écart type sera

le plus petit avec le plan de collecte des données qui est proposé.

2f) Inconvénient : on ne connaitra jamais l’allure du nuage de points entre a et b Ce

qui ne permettra pas d’avoir une idée si la droite est un modèle acceptable.

Page 4: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

4

NUMÉRO 3

Une entreprise de produits alimentaires fabrique et distribue une marque populaire de céréales dans des boîtes de

340 grammes (valeur nominale). Le procédé A est employé pour faire le remplissage. On suppose que le poids

de la boîte vide est négligeable. Par expérience, on sait que le poids des boîtes remplies provenant du procédé

A présente de la variabilité. La moyenne du procédé est sujette à des dérives (changements) mais l’écart type

σ est relativement stable à 5 grammes. À l’occasion de nombreuses autres études statistiques sur le procédé A

qui furent réalisées dans le passé, on a établit que le poids des boîtes remplies est une variable aléatoire dont la

distribution est gaussienne (normale). Le procédé A est surveillé avec la procédure suivante. À chaque heure,

un échantillon aléatoire de 10 boîtes est prélevé dans la production; on mesure le poids de chaque boîte et on

calcule le poids moyen de l’échantillon. La production est arrêtée si, un test de seuil (niveau) critique de

0,05 permet de conclure que le procédé n’est plus centré à 340 grammes.

3a) Formulez les hypothèses nulle H0 et alternative H1 que l’on doit confronter afin d’effectuer le contrôle du

remplissage. Précisez la variable et les paramètres statistiques.

Les données suivantes provenant du procédé A ont été obtenues au cours de la dernière heure de production:

332 336 341 337 342 331 340 332 341 334

moyenne = 336,60 écart type = 4,22

3b) Devrait-on arrêter la production ? Justifiez votre réponse et votre démarche.

3c) L’affirmation suivante au sujet du test effectué en 3b) est-elle VRAIE ou FAUSSE?

« si le procédé est centré à 340 grammes, la probabilité que le test mène à une décision correcte est

de 0,95 »?

Justifiez votre réponse (maximum 5 lignes).

3d) Si le procédé est en réalité à 335 grammes, quelle est la probabilité que la production ne soit pas arrêtée?

Pour satisfaire la demande toujours croissante de cette marque de céréale, l’entreprise a mis en opération deux

nouveaux procédés de remplissage B et C. Afin de vérifier la performance des procédés B et C, on préleva un

échantillon aléatoire de boîtes sur chaque procédé et on mesura le poids avec les résultats :

procédé moyenne écart type

B 348 335 342 336 338 340 344 344 339 342 340,8 3,99

C 333 336 332 336 335 332 334 333 336 335 334,2 1,62

3e) On veut établir si la variabilité est la même pour ces deux procédés au moyen d’un test d’hypothèse.

Formuler l’hypothèse nulle, son alternative et décrire la procédure qui sera employée.

Prendre la décision en utilisant un seuil (niveau) critique de 0,05.

3f) On veut décider si la moyenne de poids des boîtes du procédé C est inférieure à celle des boîtes du

procédé B ou non.

Formuler l’hypothèse nulle, son alternative et décrire la procédure qui sera employée. Prendre

la décision en utilisant un seuil (niveau) critique de 0,05.

3g) Serait-il préférable de faire un test avec échantillons appariés avec les données du tableau?

Répondre par OUI ou NON et expliquer votre réponse. (maximum 5 lignes).

Page 5: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

5

3a) X = poids de la boîte N(µ, σ2= 52 = 25)

Test de H0 : µ = 340 vs H1 : µ ≠ 340 avec σ = 5 connu

n = 10 et xbar = 336,6

Z = | 336,6 – 340 | / (5 / 10 0,5) = 3,4 / (5 / 3,16) = 2,25 ≥ 1,96

On rejette l’hypothèse H0 : µ = 340 vs H1 : µ ≠ 340

3b) On arrête la production.

3c) VRAIE : on a

P[ne pas rejeter H0 si H0 est vraie (µ = 340)]

= 1 – P [ rejeter H0 si H0 est vraie (µ = 340)]

= 1 – α = 1 – 0,05 = 0,95

3d) P[ne pas arrêter la production = ne pas rejeter H0 si µ = 335 ]

= P [ | Xbar – 340 | / (5 / 10 0,5) < 1,96 si µ = 335 ]

= P [ - 1,96 < Xbar – 340 / (5 / 10 0,5) < 1,96 si µ = 335 ]

= P [ - 1,96* (5 / 10 0,5 ) < Xbar – 340 < 1,96 * (5 / 10 0,5 ) si µ = 335 ]

= P [ 340 - 1,96 *(5 / 10 0,5 ) < Xbar < 340 + 1,96 * (5 / 10 0,5 ) si µ = 335 ]

= P [ - 1,96 + (340 – 335)/(5 / 10 0,5 ) < ( Xbar – 335)/(5 / 10 0,5 ) < 1,96 + (340 – 335)/(5 / 10 0,5 ) ]

= P [ - 1,96 + √10 < Z < 1,96 + √10 ]

= Φ( 1,96 + √10 ) – Φ(- 1,96 + √10 )

= Φ(5,12) – Φ( 1,20) = 1 – 0,8849 = 0,1151

3e) test d’égalité de 2 variances H0 : σC2 = σB

2

alternative unilatérale H1 : σC2 ≠ σB

2

test F donne : rejet de H0 les variances sont inégales

T-tests; Grouping: procédé (Examen final 24 avril 2008.sta

in ExamenFinal-MTH2302D-24avril2008.stw)

Group 1: B Group 2: C

Valid N - B Valid N - C Std.Dev Std.D

B C

ev. F-rat Varian

io P ces Variances

poids 10 10 3,99 1,62 6,08 0,0129

3f) test d’égalité de 2 moyennes H0 : µC = µB versus H1 : µC <= µB

Les variances sont inégales . On rejette

ided

3g) NON : les échantillons sont indépendants et non pas appariés. On observe le poids de 20 boîtes;

10 provenant du procédé B et 10 provenant du procédé C.

RÉPONSES No 3

T-tests; Grouping: procédé (Examen final 24 avril 2008.sta

in ExamenFinal-MTH2302D-24avril2008.stw)

Group 1: B Group 2: C

Mean - B Mean - C t-val ue df p t separ. var.est.

df p - 2-s

poids 340,8 334,2 4,84 2248 1 8 0,000131 4,8 4 11,88 0,000415

Page 6: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

6

NUMÉRO 4 Les données proviennent d’une banque décrivant une douzaine de caractéristiques des modèles de

voiture. Le tableau 4.1 présente quelques observations sur quatre (4) variables extraites de la banque.

La définition de ces variables est évidente. Le fichier contient 72 voitures à traction avant et 17 voitures

à traction arrière. Tableau 4.1 : quelques caractéristiques des voitures

no variable 1

modèle

variable 2 variable 3

poids (kg) X

variable 4 consom (L/100Km)

Y traction Z

1 Acura Integra avant 1211 7.8

2 Acura TL avant 1490 10.2

3 BMW3-Series arrière 1477 9.8

4 Buick Century avant 1409 10.7

. . . . .

86 Volkswagen Jetta avant 1343 10.2

87 Volkswagen Passat avant 1445 11.8

88 Volvo 850 avant 1493 10.7

89 Volvo 960 arrière 1584 11.8

On s’intéresse aux variations de la variable consommation d’essence Y et sa relation avec le poids

de la voiture X. Le modèle de régression linéaire simple est retenu pour faire l’analyse.

Y = β0 + β1 * X + ε ε ~ N(0, σ 2)

De plus, on veut aussi tenir en compte le facteur catégorique Z (traction) à 2 modalités (avant, arrière)

en comparant les trois modèles suivants :

MODÈLE 1 : toutes les voitures

MODÈLE 2 : voitures avec traction avant seulement (Z = avant)

MODÈLE 3 : voitures avec traction arrière seulement (Z = arrière)

Les graphiques et les tableaux qui suivent furent obtenus avec le logiciel d’analyse STATISTICA.

Figure 4.1 : relation entre la consommation et le poids

Scatterplot

18

Toutes les voitures

16 CadillacEldorado

14 PontiacFirebird

12 DodgeStratus

LexusGS300

10

GEOMetro InfinitiG20

8

FordAspire

6 600 800 1000 1200 1400 1600 1800 2000

X: poids

Y :

co

nso

m

Page 7: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

7

Ajustement du MODÈLE 1

Tableau 4.2 : MODÈLE 1 - toutes les voitures

Regression Summary for Dependent Variable: consom

Beta Std.Err. B Std.Err. t(87) p-level

Intercept - 0.0416 0.518 - 0.08 0.9361

poids 0.911 0.044 0.0074 0.000 20.57 0.0000

Tableau 4.3 : ANOVA : modèle 1 – toutes les voitures

Sums of Squares df Mean squares F p-level

Regress. 270,705 1 270,705 c d

Residual a 87 b

Total 326,366

Figure 4.2 : Normal Probability Plot of Residuals 3

2

1

0

-1

-2

-3

-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5

Residuals

Ex

pe

cte

d N

orm

al

Valu

e

Page 8: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

8

Ajustement du MODÈLE 2 et du MODÈLE 3

Figure 4.3 : relation entre la consommation et le poids selon le type de traction

Tableau 4.4 : MODELE 2 - voitures avec traction AVANT seulement (n=72)

Regression Summary for Dependent Variable: consom

R ² = 0.841 Adjusted R ² = 0.838 F(1,70) = 369.58 p < 0.0000

Beta Std. Err. B Std. Err. t(70) p-level

Intercept - 0.6692 0.5648 - 1.18 0.2400

poids 0.917 0.048 0.0079 0.0004 19.22 0.0000

Tableau 4.5 : MODÈLE 3 – voitures avec traction ARRIÈRE seulement (n=17)

Regression Summary for Dependent Variable: consom

R ² = 0.314 Adjusted R ² = 0.268 F(1,15) = 6.8586 p < 0.0136

Beta Std. Err. B Std. Err. t(15) p-level

Intercept 4.5189 2.9320 1.54 0.1441

poids 0.560 0.214 0.0046 0.0017 2.62 0.0194

Scatterplot

18

traction arrière

16 traction avant CadillacEldorado

14 PontiacFirebird

12 DodgeStratus

LexusGS300

10

GEOMetro InfinitiG20 8

FordAspire

6 600 800 1000 1200 1400 1600 1800 2000

X: poids

Y :

co

ns

om

Page 9: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

9

NUMÉRO 4 : réponses

4a) Les équations de régression pour chacun des 3 modèles sont :

Écrire les équations des 3 modèles :

MODÈLE 1 : Y = - 0,0416 + 0,0074* X

MODÈLE 2 : Y = - 0,6692 + 0,0079*X

MODÈLE 3 : Y = 4,5189 + 0,0046*X

4b) Calculer les valeurs de A B C dans le tableau 4.3

a = 55,661 b = 0,6398 c = 423,11 d = 0,0000 R2 = 0,8295

4c) Commenter le comportement des résidus dans la figure 4.2

La distribution gaussienne ne semble pas être valide;

2 raisons : valeurs éloignées dans les extrémités

et

oscillations autour de la droite Il faudrait faire un test pour être plus certain.

Remarque : un test Shapiro-Wilk rejette la normalité

Cette information n’était pas disponible dans l’examen

4d) Calculer un intervalle de confiance pour la pente β1 du modèle 2. Employer un coefficient de confiance de 0,95

0,00667 à 0,008091

4e) Supposons que l’analyse des résidus ne révèle aucune anomalie majeure pour chacun

des 3 modèles. Voici 2 projets de conclusion que l’on pourrait faire suite de cette étude.

CONCLUSION 1

La consommation d’essence des voitures dépend du poids et chaque augmentation de

poids de 100kg augmente la consommation de 0.74 L au 100Km.

Le type de traction n’influence pas de manière importante cette consommation.

CONCLUSION 2

Le type de traction est un facteur important pour expliquer la consommation d’essence

d’une voiture.

On doit employer 2 équations pour prédire la consommation en fonction du poids : une

équation pour les voitures à traction avant et une autre équation pour les voitures à

traction arrière.

Laquelle des 2 conclusions représentent mieux les résultats de cette étude?

La conclusion no 2 semble plus juste;

les pentes semblent statistiquement différentes.

Le modèle 2 a un bon pouvoir explicatif.

Les échantillons sont de tailles très inégales :

• 72 pour les tractions avant

• 17 pour les tractions arrière

Page 10: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

10

i

2

Modèle Y = β0 + β1 x + ε N (0, 2)

Données (x i , y i ) i = 1, 2, …, n

x = ∑ x i / n : moyenne de X y = ∑ y i / n : moyenne de Y

SPXY = ∑ ( x i – x )( y i – y ) : somme des produits XY

SSX = ∑ ( x i – x )2 : somme des carrés de X

SSY = ∑ ( y i – y )2 : somme totale des carrés de Y

Estimation des paramètres

principe des moindres carrés : minimiser S( β0 , β1 )

S( β 0 , β1 ) = ∑ ( y i - β 0 - β 1 x i )2 : écart par rapport à la droite

solution β1 = b1 = SPXY / SSX = ∑ ci yi où ci = (x i – x ) / SSX

β0 = b0 = y - b1 x

prédiction y = β0 + β1 x = y + β1 ( x – x ) droite de moindres carrés

résidu e i = y i - y i

somme des carrés résiduels SSR = ∑ e 2 = ∑ ( y i - y i )2

carré résiduel moyen MSR = SSR / (n – 2)

estimation de σ2 et σ σ2 = MSR σ = (MSR)0.5

Décomposition de la variabilité : tableau d’analyse de la variance

SSM = ∑ (y i – y )2 = ( SPXY )2 / SSX = β1 SSX

= somme des carrés du modèle (expliquée par X)

Équation de décomposition

somme de carrés (SS) : SSY = SSM + SSR

variabilité : totale = modèle + résiduelle

degrés de liberté (df) : n – 1 = 1 + ( n - 2 )

Tableau d’analyse de la variance - ANOVA

SOURCE df SS MS=SS / df F-ratio p-valeur

régression 1 SSM MSM = SSM f = MSM / MSR P(F ≥ f )

résiduelle n – 2 SSR MSR = SSR / (n - 2) = σ2 ---------- --------

totale n – 1 SSY -----------

R 2 = SSM / SSY : coefficient de détermination

0 ≤ R2 ≤ 1 : fraction de la variabilité de Y expliquée par le modèle (X)

r = ± ( R2 )0.5 : coefficient de corrélation linéaire entre Y et X

remarque : le signe de r ( + ou - ) est celui de b1

Formulaire du modèle de régression linéaire

Page 11: 1 MTH2302 Probabilités et statistique Examen final 24 avril ...1 MTH2302 – Probabilités et statistique Examen final 24 avril 2008 SOLUTIONNAIRE NUMÉRO 1a 1b 1c 2a 2b 2c 2d 2e

11

FORMULAIRE

TESTS - INTERVALLES de CONFIANCE - INTERVALLE de PRÉDICTION

Résultat ( β 1 - β 1 ) / ( σ / SSX 0.5 ) ~ Tn – 2 loi de Student avec (n – 2) degrés de liberté

APPLICATIONS

(a) test de β1 H0 : β1 = 0 vs H1 : β1 ≠ 0

rejeter H0 au seuil α si │ β1 │(SSX)0.5 / σ > tn – 2, 1 - (α/2)

remarque le test est équivalent au test F du tableau ANOVA

(b) intervalle de confiance de β1 : β1 ± tn – 2, 1 – (α/2) σ / (SSX )0.5

tn – 2, 1 – (α/ 2): 1- (α/2) percentile d’une loi de Student avec (n – 2) degrés de liberté

1 – α = coefficient de confiance

(c) INTERVALLE de CONFIANCE de MOYENNE de Y à X = x*

E(Y│X = x* ) : β0 + β1 x* ± tn – 2, 1 – (α/ 2) σ [ ( 1/n) + ( (x* – x )2 / SSX )

]0.5 remarque: un intervalle de confiance pour β0 s’obtient avec x*

= 0

(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X = x*

Y │ X = x* : β 0 + β1 x* ± tn – 2, 1 – (α/ 2) σ [ 1 + ( 1/n) + ( (x* – x )2 / SSX )]0.5