20
AgroParisTech, cursus IA Math´ ematiques Travaux Dirig´ es de Statistique Premi` ere Ann´ ee Equipe p´ edagogique : L. Bel, F. Cheysson, R. Jreich, S. Ouadah, M.Perrot-Dockes, S. Rio, L. Sansonnet, C. Vuillet 2016-2017

Travaux Dirig es de Statistique Premi ere Ann ee...12 oct TD 1 Variables al eatoires Chapitre 7 Devoir 1 a rendre ... 10 & 11 jan TD 11 R egression lin eaire Chapitre 6 26 janv Examen

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

AgroParisTech, cursus IA

Mathematiques

Travaux Diriges de Statistique

Premiere Annee

Equipe pedagogique :

L. Bel, F. Cheysson, R. Jreich, S. Ouadah, M.Perrot-Dockes, S. Rio,L. Sansonnet, C. Vuillet

2016-2017

Date COURS/TD Contenu Chapitre dulivre

Devoir

12 oct TD 1 Variables aleatoires Chapitre 7 Devoir 1 a rendreau TD 4

17 oct COURS 1 Presentation generale du cours + Estima-tion ponctuelle, estimation par intervalles

19 oct TD 2 Estimation de parametres : parametre, es-timation, estimateur, EQM, MV

Chapitre 3

26 oct TD 3 Estimation de parametres : parametre, es-timation, estimateur, EQM, MV

Chapitre 3

2 nov TD 4 Intervalle de confiance Chapitre 3 Devoir 2 a rendreau TD 7

4 nov COURS 2 Theorie des tests, tests sur un parametre

9 nov TD 5 Quizz1 : verification des connais-sances sur le Chapitre 4. Tests d’hy-potheses

Chapitre 3

26 nov TD 6 Tests d’hypotheses, puissance Chapitre 4

28 nov COURS 3 Tests sur deux populations, tests du χ2

30 nov TD 7 Controle sur l’estimation et les testssur un parametre. Comparaison de 2populations.

Chapitre 5 Devoir 3 a rendreau TD 10

7 dec TD 8 Tests du χ2 . Chapitre 6

14 dec TD 9 Regression lineaire. Pas de cours en amphisur ce sujet, la regression sera presentee enTD.

Chapitre 6

4 jan TD 10 Quizz 2 : verification des connais-sances sur les chapitre 4 et 5.Regression lineaire

Chapitre 6

10 & 11 jan TD 11 Regression lineaire Chapitre 6

26 janv Examenecrit

Seul document autorise : le livre (sansfiches ajoutees). Calculette fournie

Certains TD et devoirs necessitent de telecharger des fichiers de donnees. Ces fichiers (et d’autresdocuments lies au cours) sont disponibles sur le site ”Les cours en ligne d’AgroParisTech”http://tice.agroparistech.fr, rubrique ”Statistique Tronc commun 1ere Annee” dans l’UE SIMMde l’espace 1A Ing APT 2016-2017.

Le cours doit etre revu et les TD prepares avant la seance.Les devoirs sont a faire en binome. Pour chaque devoir, il doit y avoir un redacteur principal et unredacteur secondaire, chacun devant etre redacteur principal au moins une fois.En debut de TD5, et TD10, il y aura un quizz rapide (10mn), en debut de TD 7 un controle de 20mnavec deux petits exercices.Lors des quizz aucun document n’est autorise. La calculatrice peut etre autorisee ou interdite suivantles epreuves.

Controle des connaissances.La note de controle continu est la moyenne ponderee des notes de quizz Qi, i = 1, 2 du controle C, etdes devoirs Di, i = 1, 3.La note finale F du module est la moyenne de la note de l’examen (E), et de celle du contole continuavec un seuil eliminatoire applique a la note de l’examen :

F =E

2+Q1 +Q2

12+C

6+D1 +D2 +D3

18si E >= 6

F = E si E < 6

Table des matieres

1 TD1 : Variables aleatoires, moments 21.1 Esperance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Independance et correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Controle qualite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 Transports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5 Devoir : Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 TD2 : Estimation de parametres 52.1 Estimateurs du maximum de vraisemblance en modele gaussien . . . . . . . . . . . . . 52.2 Distances entre arbres (Examen fevrier 2015) . . . . . . . . . . . . . . . . . . . . . . . 5

3 TD3 : Estimation 63.1 Bassin versant (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2 Portees de chevreaux (examen janvier 2014) . . . . . . . . . . . . . . . . . . . . . . . . 6

4 TD 4 : Intervalle de confiance pour un parametre 74.1 Cidre doux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.2 Bassin versant (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.3 Distances entre arbres (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.4 Portee de chevreaux (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.5 Devoir : Estimation de la taille d’une population par capture-recapture . . . . . . . . . 8

5 TD5 : Tests d’hypotheses (1) 95.1 Amendements organiques urbains examen janvier 2014) . . . . . . . . . . . . . . . . . 95.2 Contenance des yaourts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

6 TD 6 : Tests d’hypotheses (2) 106.1 Unites de refroidissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106.2 Variabilite du poids de paquets de beurre . . . . . . . . . . . . . . . . . . . . . . . . . 10

7 TD 7 : Tests d’hypotheses (3) 117.1 Moisissures (Examen 2015) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117.2 Devoir : tests non parametriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1 Test sur la valeur centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 test de comparaison de deux populations . . . . . . . . . . . . . . . . . . . . . 12

8 TD 8 : Tests du χ2 d’independance et tests d’ajustement a une loi 138.1 Lezards (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138.2 Moustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

9 TD 9 et 10 : Regression (1 et 2) 149.1 Pollution et mortalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

11 TD 11 : Regression (3) 1511.1 Tests de H0 = b = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1511.2 Golfe du Lion (examen janvier 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1511.3 Pieges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

12 Erratum du livre 17

1 TD1 : Variables aleatoires, moments

1.1 Esperance et variance

Les 3 figures ci-dessous donnent les representations graphiques de 3 echantillons de 50 observationspour des variables aleatoires independantes de meme loi. Pour chacun d’eux

1. dire s’il s’agit d’une variable continue ou discrete,

2. proposer (sans calculs) une valeur pour l’esperance et la variance de la variable aleatoire,

3. proposer une loi de probabilite pour la variable aleatoire.

1.2 Independance et correlation

1. Soit (X1, . . . , Xn), n variables aleatoires independantes de meme loi, d’esperance µ, de variance

σ2. Calculer l’esperance et la variance de la variable aleatoire Xn =1

n

n∑i=1

Xi.

2. Soit X et Y deux variables aleatoires independantes. Demontrer que leur correlation est nulle.

3. Soit X une variable aleatoire symetrique par rapport a 0 (la densite f de X verifie : f(−x) =f(x)). Soit Y = X2. Montrer que la correlation de X et Y est nulle. X et Y sont-ellesindependantes ? Interpreter.

4. Les graphiques ci-dessous representent 4 echantillons de 50 couples de variables aleatoires (X,Y ).Pour chacun d’eux proposer une valeur pour la correlation entre X et Y .

1.3 Controle qualite

Un produit manufacture est livre par lots de 1000. Un lot est livre aux clients s’il contient un minimumd’objets defectueux. Compte tenu des couts du controle de qualite, pour evaluer la qualite d’un loton effectue les tests sur un echantillon de 30 produits du lot, choisis avec remise ; le lot est alors livres’il y a au plus 3 objets defectueux parmi les 30 controles. Soit X le nombre d’objets defectueux dansl’echantillon. Supposons qu’un lot contienne 50 objets defectueux.

1. Donner la loi de X, son esperance et la probabilite que le lot soit accepte.

2. Peut-on utiliser l’approximation par une loi de Poisson ? Si oui recalculer la probabilite que lelot soit accepte.

2

1.4 Transports

Un car effectue un ramassage quotidien pour une grande entreprise. La charge maximale autoriseeest de 3600 kg. On admet que le poids d’une personne suit une loi normale de moyenne 70 kg etd’ecart-type 20 kg.

1. 50 personnes (y compris le chauffeur) prennent place dans le car.

(a) Quelle est la loi du poids total des personnes transportees ?

(b) Calculer la probabilite pour que le poids total des personnes transportees depasse les3600 kg.

2. Donner le nombre maximal de personnes qui peuvent monter si on veut que la probabilite pourque leur poids total excede 3600 kg soit inferieure a 5 %.

1.5 Devoir : Echantillonnage

La constitution d’un echantillon est la premiere etape d’une analyse statistique. Il existe plusieursmethodes d’echantillonnage et le choix se fait en fonction des contraintes operationnelles et des objec-tifs de l’analyse. Le but de ce devoir est de se familiariser avec quelques methodes d’echantillonnageet de comparer leurs resultats sur un jeu de donnees.Les notions sont presentees dans le chapitre 2 du livre ”Statistique inferentielle”, (dont la lecture estindispensable) et en particulier l’exercice 2.6.3 (qu’il ne s’agit pas de refaire).Les donnees sont disponibles sur le site des ”Cours en ligne” d’AgroParisTech.

On cherche a estimer la surface moyenne en ble des exploitations agricoles d’une region. On a stratifiecette region avec la variable surface des exploitations decoupee en 7 classes : [0-20], [21-40], [41-60],[61-80], [81-100], [100-120],[>121]. Le tableau echBle.xls donne pour chaque exploitation la classe alaquelle elle appartient et sa surface cultivee en ble. On va constituer plusieurs echantillons de memeeffectif n = 100 a l’aide de differentes methodes d’echantillonnage puis comparer les surfaces moyennesdes echantillons a la surface moyenne de l’ensemble des exploitations.

1. Calculer la valeur moyenne et l’ecart-type de la surface cultivee en ble sur l’ensemble des exploi-tations et pour chacune des classes de taille (les strates). Verifier la formule de la question 2 del’exercice 2.6.3 et l’interpreter.

2. Tirer 100 exploitations au hasard dans l’ensemble des exploitations. C’est un echantillon aleatoiresimple. Calculer la moyenne des surfaces cultivees en ble de cet echantillon.

3. Decrire le principe de l’echantillonnage stratifie proportionnel. Donner pour chaque strate hla taille nh de l’echantillon issu de la strate necessaire pour obtenir un echantillon de taille100 suivant un echantillonnage stratifie proportionnel. Tirer un echantillon suivant ces effectifs.Calculer la moyenne des surfaces cultivees en ble de cet echantillon.

4. Decrire le principe de l’echantillonnage stratifie optimal. Donner pour chaque strate h la taillenh de l’echantillon issu de la strate necessaire pour obtenir un echantillon de taille 100 suivant unechantillonnage stratifie optimal. Tirer un echantillon suivant ces effectifs. Calculer la moyennedes surfaces cultivees en ble de cet echantillon.

5. Comparer et analyser les resultats.

Le devoir sera rendu sur feuille, avec les resultats theoriques (justifier les formules utilisees) etnumeriques (effectifs des strates, moyennes et ecarts-type, mais pas les echantillons !) et les conclu-sions redigees.Un tutoriel (TutorielStatistiqueDescriptiveEXCEL.pdf ) sur les fonctions de statistique descriptive(moyenne, ecart-type) et le tirage aleatoire d’un echantillon est disponible sur le site TICE.Le tableur ayant servi a etablir les resultats sera presente de la facon suivante :

3

et depose sur le site TICE dans la rubrique Travaux dans le repertoire correspondant a votre groupeavec le nom suivant : groupeTDNom1Nom2.xls (par exemple A5DurandDupont.xls). Pour cela vousdevrez etre connecte avec vos identifiants AgroParisTech.

4

2 TD2 : Estimation de parametres

2.1 Estimateurs du maximum de vraisemblance en modele gaussien

On considere n variables aleatoires (X1, X2, ...Xn) iid :Xi ∼ N (µ, σ2)

1. Calculer la vraisemblance de l’echantillon

2. Trouver les estimations µ et σ2 du maximum de vraisemblance de µ et de σ2. On annulera lesderivees partielles du logarithme de la vraisemblance par rapport a µ et σ2.

3. Calculer le biais des estimateurs de µ et σ2. Montrer que si on remplace µ par son estimateurempirique dans l’expression de l’estimateur σ2 celui ci est biaise. Proposer un estimateur sansbiais de σ2 qui ne depende pas de µ.

2.2 Distances entre arbres (Examen fevrier 2015)

On suppose que la distance entre deux arbres d’une meme espece dans une foret suit une loi de Rayleighde parametre θ > 0 de densite

fθ(x) =x

θe−

x2

2θ x > 0

Pour la gestion du domaine forestier il est necessaire d’estimer le parametre θ, on releve donc dansune parcelle experimentale n distances entre des arbres de cette espece. On considere (X1, . . . , Xn) unechantillon i.i.d. d’une loi de Rayleigh de parametre θ.

1. Donner la vraisemblance et la log-vraisemblance de l’echantillon.

2. Calculer∂ ln fθ(x)

∂θet∂2 ln fθ(x)

∂θ2.

3. En deduire l’estimateur T du maximum de vraisemblance de θ.

4. Soit Y = X2 ou X suit une loi de Rayleigh. Calculer la fonction de repartition puis la densitede Y . Montrer que Y suit une loi exponentielle de moyenne 2θ (ce resultat sera admis dans lasuite).

5. En deduire de la question precedente que T est sans biais.

6. Calculer la variance de T et son Ecart Quadratique Moyen (EQM). Commenter.

7. Calculer l’information de Fisher de θ. Que peut-on en deduire pour T ?

5

3 TD3 : Estimation

3.1 Bassin versant (examen janvier 2016)

Pour verifier la qualite de l’eau dans plusieurs rivieres d’un meme bassin versant, on effectue 10prelevements en des sites differents. Sur ces 10 sites, les sites numerotes 1, 4, 7 et 8 ont un indicateurde pollution positif. On voudrait estimer la proportion de sites pollues dans ce bassin versant et evaluerl’incertitude de l’estimation. On suppose que tous les sites ont la meme probabilite d’etre pollues etqu’ils sont tous independants.

1. Soit p la probabilite qu’un site pris au hasard soit pollue. Soit Xi la variable aleatoire qui vaut1 si le site i est pollue, 0 sinon. Justifier l’expression suivante

P (Xi = xi) = pxi(1− p)1−xi xi ∈ 0, 1

2. Calculer la vraisemblance et la log-vraisemblance d’un echantillon i.i.d. de variables (X1, . . . , Xn).En deduire l’estimateur du maximum de vraisemblance de p. Quelle est la probabilite estimeequ’un site pris au hasard dans le bassin versant soit pollue ?

3. Calculer l’esperance et la variance de l’estimateur du maximum de vraisemblance de p. Endeduire ses proprietes.

3.2 Portees de chevreaux (examen janvier 2014)

On s’interesse au nombre de petits obtenu par portee pour une race de chevres. On modelise ce

nombre par une loi de Poisson X de parametre λ. On rappelle que P (X = x) = e−λλx

x!et que

E(X) = V (X) = λ.On dispose d’un echantillon (x1, x2, ...xn), de n observations de l’effectif de portees que l’on supposeindependantes de meme loi de Poisson P(λ). On cherche l’estimateur du maximum de vraisemblancede λ.

1. Ecrire la vraisemblance de l’echantillon (x1, x2, ...xn), notee V (x1, x2, ...xn, λ).

2. En deduire l’estimateur du maximum de vraisemblance de λ, note Tn.

3. Calculer l’esperance et la variance de Tn. Commenter. La loi de Poisson est-elle adaptee pourcette modelisation ?

6

4 TD 4 : Intervalle de confiance pour un parametre

4.1 Cidre doux

On a mesure la quantite d’alcool totale (en g/L) contenue dans 10 cidres doux du marche. On supposeque la quantite d’alcool des cidres suit une distribution normale de moyenne µ et d’ecart-type σ. Onobtient les valeurs suivantes :

5.42 5.55 5.61 5.91 5.93 6.15 6.20 6.79 7.07 7.37

1. Donner une estimation de la quantite moyenne d’alcool et de son ecart-type.

2. Determiner l’intervalle de confiance de la moyenne µ avec un niveau de confiance 95% :

(a) en supposant que σ est connu, avec σ = 0.6g/L,

(b) lorsque σ est inconnu.

3. Determiner l’intervalle de confiance de la variance σ2 avec un niveau de confiance 95%

(a) en supposant que µ est connue avec µ = 6.2g/L,

(b) lorsque µ est inconnue.

On donne∑10

i=1 xi = 62,∑10

i=1 x2i = 388.41

4.2 Bassin versant (suite)

Soit Y (n, p) =∑n

i=1Xi. Quelle est la loi de Y (n, p) ? Calculer l’intervalle de confiance au niveau 90%sur p qu’on obtiendrait en approchant Y (n, p) par une loi normale. Commenter l’utilisation de cetteapproximation dans ce cas.

4.3 Distances entre arbres (suite)

1. On rappelle que la densite d’une loi du χ2 a k degres de liberte est

gk(z) =1

2k/2Γ(k2 )e−

12zz

k2−1 Γ(`) = (`− 1)! pour ` ∈ N∗

Montrer que Y/θ suit une loi du χ2 dont on precisera le nombre de degres de liberte et en deduireque T/θ suit une loi du χ2 a 2n degres de liberte (on pourra admettre ce resultat).

2. En utilisant ce dernier resultat construire un intervalle de confiance pour θ de niveau 1− α.

3. On a mesure 10 distances entre arbres de l’espece consideree. On a trouve∑10

i=1 xi = 37.62 et∑10i=1 x

2i = 187.38. Donner une estimation de θ et un intervalle de confiance au niveau 95%.

Estimer la probabilite de trouver deux arbres de cette espece a une distance superieure a 10 m.

4.4 Portee de chevreaux (suite)

On admet que pour n assez grand on a approximativement :(Tn − λ)√V (Tn)

∼ N (0, 1)

1. Montrer que la condition P( ∣∣∣∣∣(Tn − λ)√

V (Tn)

∣∣∣∣∣ < u)

= 1−α est equivalente a P(λ2−(2Tn+

u2

n)λ+T 2

n <

0)

= 1− α.

2. En deduire un intervalle de confiance a 1− α pour λ en fonction de λ, u et n.

3. Donner les valeurs de l’intervalle a 95% si pour 50 portees on a observe une moyenne de 2.5

chevreaux (on donne 2.5 +1.962

100= 2.54 et

1.96

2√

50

√1.962

50+ 10 = 0.44).

7

4.5 Devoir : Estimation de la taille d’une population par capture-recapture

On cherche a estimer la taille N d’une population de poissons vivant dans un lac. Pour cela on captureA poissons que l’on marque et relache. On capture ensuite sans remise un deuxieme echantillon de npoissons et on appelle X le nombre de poissons marques dans cet echantillon. Cette technique s’appelle”estimation de la taille d’une population par capture-recapture”.

1. Calculer P (X = x). Quelle est la loi de X ?

2. Quelles sont les conditions demographiques que l’on suppose implicitement realisees pour obtenirla loi de X ?

3. Quelles sont les hypotheses faites implicitement sur le comportement des poissons ?

4. Donner un estimateur ”intuitif” de N , note T .

5. Donner la vraisemblance notee V(N,n,A, x) du resultat X = x, calculer V(N,n,A,x)V(N−1,n,A,x) et en

deduire que l’estimateur du maximum de vraisemblance de N est T .

6. Application Numerique : A = 100, n = 50, x = 10. Donner l’estimation de N . Dans cet exemplequel est le parametre, l’estimateur et l’estimation ?

7. Que se passe-t-il si on trouve x = 0 ? Chapman(1951) a propose un estimateur de N qui ne pose

pas de probleme si x = 0, U = (A+1)(n+1)X+1 − 1. Interpreter cet estimateur.

8. La loi exacte des estimateurs T et U n’est pas une loi connue et on ne dispose pas d’expressionsimple pour l’ecart quadratique moyen. On se limite a faire l’etude dans le cas particulier tressimple suivant : N = 20, A = 10, n = 5.

(a) Faire un tableau a 4 lignes donnant les valeurs possibles de X, leur probabilite, et les valeursassociees de T et U .

(b) En deduire les valeurs de E(T ), V (T ), EQM(T ) et E(U), V (U), EQM(U).Commentez ces resultats.

8

5 TD5 : Tests d’hypotheses (1)

5.1 Amendements organiques urbains examen janvier 2014)

Pour tenter de diminuer la pollution par les intrants, plusieurs agriculteurs d’une meme region utilisentsur diverses parcelles des amendements organiques d’origine urbaine. On evalue l’amelioration sur laqualite environnementale a l’aide d’un indice synthetique. La variation en pourcentage de cet indicepar rapport a l’annee precedente est mesuree sur 36 parcelles. L’amelioration moyenne observee estegale a 1.05%. On suppose que l’amelioration de l’indice peut etre modelisee par une loi normale d’ecart-type connu egal a 3% et que toutes les parcelles sont independantes.

1. Mettre en place un test au risque α pour decider si l’amelioration est significative, supposant qu’iln’y a pas d’amelioration a priori sauf si l’experience prouve le contraire. Expliciter l’hypothesenulle H0, l’hypothese alternative H1, donner la statistique de test utilisee, sa loi sous H0 et laregle de decision au niveau α.

2. Appliquer le test aux donnees ci-dessus. L’amelioration est-elle significative si on fait un testavec un risque de premiere espece de 5% ?

3. Calculer le risque de seconde espece et la puissance du test sous l’hypothese que l’ameliorationmoyenne est de 1.2%.

4. Combien de parcelles faudrait-il experimenter pour avoir un risque de premiere espece et unrisque de seconde espece egaux a 5% ?

5.2 Contenance des yaourts

Une grande marque de produits laitiers souhaite controler la contenance des yaourts d’une grandechaıne de production. Le processus de production est regle pour que la contenance nominale desyaourts soit de 150 mL, mais il peut se deregler. Ce controle a pour objectif de verifier que le processusde remplissage des yaourts de la ligne de production est bien regle. Pour controler la contenance desyaourts, on preleve un echantillon de 10 yaourts et on en mesure la contenance. Les contenancesmesurees sont les suivantes :

156.4 145.2 149 150 151 147 148.2 151.6 149.6 150

1. Donner une estimation de la moyenne et la variance de la contenance des yaourts.

2. On suppose la normalite de la distribution de la contenance, construire un test pour repondre ala question ”le processus de remplissage est-il deregle ?”

(a) poser l’hypothese nulle et l’hypothese alternative,

(b) donner la statistique de test et sa loi sous l’hypothese nulle,

(c) construire la region de rejet au risque α = 5%.

3. Peut-on affirmer que le processus est deregle ?

4. Calculer la probabilite critique de ce test.

9

6 TD 6 : Tests d’hypotheses (2)

6.1 Unites de refroidissement

Une entreprise receptionne regulierement des livraisons d’unites de refroidissement qu’elle monte surdes refrigerateurs. Au cours des 18 derniers mois, seulement 2% de ces unites avaient des performancesinferieures aux normes, ce qui semble acceptable. Comme son fournisseur vient de changer de materielde production, l’entreprise s’inquiete d’une eventuelle baisse de la qualite. A priori, le responsablequalite fait confiance a son fournisseur, mais il veut verifier que cette confiance est justifiee. Aussi,dans la livraison suivante de 10000 pieces, il preleve au hasard un echantillon de 500 unites et entrouve 21 qui ne sont pas conformes aux normes.Decrire cette experience en termes de test d’hypothese. Donnez

1. le modele statistique de l’experience,

2. l’hypothese H0,

3. la statistique de test et la region de rejet pour un test de niveau 5%,

4. la probabilite critique du test,

5. la decision finale retenue par l’entreprise et ses consequences dans sa relation avec son fournisseur.

6.2 Variabilite du poids de paquets de beurre

Une machine remplit des paquets de beurre. Les paquets doivent peser 250 grammes et ne pas tropvarier autour de cette valeur. On admet que le poids d’un paquet choisi au hasard suit une loi normaled’esperance µ = 250 grammes et on voudrait verifier que l’ecart-type σ est bien egal a 5 grammes,comme l’affirme le fabriquant. Six paquets pris au hasard pesent :

243 255 242 245 261 254

1. Mettre en œuvre un test de niveau α pour repondre a la question : ” l’ecart-type des paquetsest-il egal a 5g ?”, puis un test de niveau α pour repondre a la question : ”le poids des paquetsest-il trop variable ?”

2. Repondre aux deux questions pour α = 5% et 10%.

10

7 TD 7 : Tests d’hypotheses (3)

7.1 Moisissures (Examen 2015)

On etudie l’influence du magnesium sur la croissance d’une moisissure. On procede a deux experiencesdistinctes :

Experience 1 On cultive la moisissure dans 20 boites, on injecte une dose de 5mg dans 10 boites etune dose de 10mg dans les 10 autres boites. La croissance moyenne dans les 10 premieres boitesest de 1.03 µm avec une variance de 0.05 µm2, la croissance moyenne dans les 10 dernieres boitesest de 1.12 µm avec une variance de 0.1 µm2.

Experience 2 On cultive les moisissures dans 10 boites, puis on separe chaque boite en deux. Dansune partie on injecte 5mg de magnesium, dans l’autre partie 10mg de magnesium. La differencemoyenne est egale a 0.08 µm et la variance de la difference est egale a 0.02 µm2.

1. Expliquer la difference entre les deux experiences.

2. Pour chaque experience mettre en œuvre un test au rique de 5% pour l’egalite des croissancesmoyennes.

3. Donner les conclusions des deux tests.

4. Les deux tests menent-ils a la meme conclusion ? Commenter.

7.2 Devoir : tests non parametriques

D’apres Cantoni, Hubert, Ronchetti, Maıtriser l’aleatoire, Springer,2006.

La procedure des tests parametriques suppose que les observations sont issues de variables aleatoiresdont on connait la loi. Le test porte alors sur la valeur du parametre. Dans certains cas on ne souhaitepas faire une hypothese sur la loi des observations et ces tests ne sont plus justifies. On a recours alorsa des tests dits non parametriques. Les deux exemples suivants illustrent l’utilisation de ces tests etles comparent aux tests parametriques classiques.

1 Test sur la valeur centrale

Dans les annees 1970, les athletes feminines d’Allemagne de l’Est etaient reputees pour leur fortecorpulence. Le comite d’ethique olympique, mettant en doute cette etonnante ’virilite’, avait faitappel aux services du docteur Volk Fischbach. Celui-ci selectionna 9 athletes feminines presentant descaracteristiques physiques quasiment identiques, puis effectua des analyses mesurant leur quantite,notee Xi (pour i = 1 a 9), de substances hormonales virilisantes (dites androgenes) par litre de sang.Les resultats pour les Xi sont les suivants :

3.22 3.07 3.17 2.91 3.40 3.58 3.23 3.11 3.62

On veut tester l’hypothese H0 ’les athletes allemandes ne sont pas dopees’, sachant que chez unefemme, la quantite moyenne d’androgenes est µ0 = 3.1.

1. On considere que ces mesures sont independantes et normalement distribuees. Mettre en placele test unilateral adapte au risque α = 5%. le docteur Fischbach a-t-il rejete l’hypothese ?

2. On souhaite a present faire un test sans hypothese de normalite (appele test de la mediane). Onsuppose seulement que les Xi sont iid et suivent une loi symetrique, centree sur µ, la quantitemoyenne de substances androgenes des athletes est-allemandes . Pour cela on calcule les Yi =Xi−µ0, et on note N le nombre de resultats negatifs obtenus pour les Yi. Quelle est la loi suiviepar N sous H0 ? Mettre en place un test unilateral au niveau 5% sur ce nombre N de reponsesnegatives. Quelle est l’hypothese reellement testee ? Rejette-t-on H0 ?

3. Comparer les deux tests. Que devient le test de la mediane dans le cas ou la loi des Xi n’est passymetrique ? Dire dans quel cas utiliser l’un ou l’autre des deux tests.

11

2 test de comparaison de deux populations

Deux ecoles concurrentes, E1 et E2, presentent respectivement n1 et n2 eleves a un examen. SoitX = (X1, ..., Xn1) et Y = (Y1, ..., Yn2) les notes, rangees par ordre decroissant, obtenues respectivementpar les eleves des deux ecoles. On veut savoir si une des ecoles est plus performante que l’autre. On aobtenu les donnees suivantes :

X 18 17 12 10.8 10.7 10 9.7 8.8 7.9

Y 12.1 11.2 11.1 11 10.1 9.8 5 3 2 1

1. On suppose les notes independantes et normalement distribuees. Faire une comparaison des deuxecoles.

2. On ne fait plus d’hypothese de normalite sur X et Y et on va comparer les scores des deux ecolesgrace au rang de leurs eleves. Le test mis en œuvre s’appelle le test de Wilcoxon-Mann-Whitney.

On suppose qu’il n’y a pas d’ex aequo, et on s’interesse au resultat de E1. Pour cela, on va batirun score W pour cette ecole. On note R = (R1, ..., Rn1) le n1uplet forme par les rangs des n1

eleves de la premiere ecole. Ri est donc le rang de la note Xi dans la famille X⋃Y , toujours

ordonnee par ordre decroissant. Soit Ω l’ensemble de tous les n1-uplets R possibles. On veuttester l’hypothese H0 ”les deux ecoles ont des niveaux equivalents”.

(a) On considere l’exemple suivant :

n1 = 2, n2 = 3, X1 = 12, X2 = 8, Y1 = 15, Y2 = 11, Y3 = 3

Verifier que R = (2, 4). Donner la valeur de R pour le cas des ecoles ci-dessus.

(b) Calculer A = card(Ω).

(c) A chaque n1-uplet R, on associe le score W (R) =

n1∑i=1

Ri. Quel est le sens de W (R) et quelles

sont ses valeurs minimales et maximales ?

(d) Donner la loi de Ri rang d’un eleve pris au hasard dans l’ecole E1. Calculer son esperanceet sa variance.

(e) Le score moyen de l’Ecole 1 sous H0 est

m =1

A

∑RεΩ

W (R)

Montrer que m = n1(n1+n2+1)2 .

On admettra que la variance du score est :

σ2 =1

A

∑RεΩ

(W (R)−m)2 =n1n2(n1 + n2 + 1)

12

(f) En supposant que W (R) suit une loi normale, donner la loi de W sous l’hypothese H0.

(g) Mettre en place un test bilateral de comparaison des deux ecoles en utilisant W commestatistique de test.

(h) Comparer avec le test parametrique et commenter.

12

8 TD 8 : Tests du χ2 d’independance et tests d’ajustement a une loi

8.1 Lezards (examen janvier 2016)

On s’interesse au nombre d’especes de lezards presentes sur 52 iles de petite superficie dans une regiontropicale. Certaines de ces iles sont montagneuses, les autres non et on souhaite comparer les deuxtypes de relief. On dispose des observations suivantes

nombre nombre moyen Variance du nombre nombre d’ıles avec k especesrelief d’ıles d’especes par ıle d’especes par ıle k=0 ou 1 k=2 k=3 k=4 ou plus

montagne 21 3.4 2.55 2 3 7 9

plaine 31 2.0 1.67 11 10 6 4

Nombre moyen : x =1

n

∑ni=1 xi variance : s2 =

1

n− 1

∑ni=1(xi − x)2

1. On suppose que le nombre d’especes sur une ile suit une loi normale. Faire un test de comparaisondes moyennes sur les iles montagneuses et les iles de plaine au risque 5%, en precisant toutes lesetapes.

2. Discuter qualitativement de la validite de l’hypothese de normalite.

3. Pour evaluer l’influence du relief sur le nombre d’especes on effectue maintenant un test du χ2

d’independance des caracteres relief et nombre d’especes. Decrire le test : hypotheses, statistiquede test D2, region de rejet.

4. Donner les effectifs theoriques sous l’hypothese nulle lorsque k = 3 pour les iles montagneuses etles iles de plaine. On donne d2 = 10.46. Peut-on conclure a une influence du relief sur la diversitedes lezards, avec un risque de 5% ?

8.2 Moustiques

Dans une etude sur un repulsif de moustiques, on a compte le nombre de piqures de chaque personnea partir d’un echantillon de 150 personnes. On a obtenu les donnees du tableau suivant :

Nombre de piqures 0 1 2 3 4 5 6 > 6

Nombre d’individus de l’echantillon 32 54 34 21 6 2 1 0

Peut-on accepter l’hypothese que le nombre de piqures pour une personne est une variable aleatoiredistribuee selon une loi de Poisson ?

13

9 TD 9 et 10 : Regression (1 et 2)

9.1 Pollution et mortalite

On cherche a connaitre l’effet de la pollution sur la sante. Un jeu de donnees tres connu sur le sujet aete reuni par McDonald, G.C. and Schwing, R.C. en 1973 (Cf http://lib.stat.cmu.edu/datasets/pollution). Ils ont etabli un indice de pollution en SO2 et le taux de mortalite pour 100 000 habitantspour 60 annees.Les donnees sont representees dans le graphe ci-dessous.

On appelleX, la variable ”indice de SO2”, Y la variable ”taux de mortalite”, et (x1, . . . , xn), (y1, . . . , yn)les echantillons associes.On a x = 53.77, y = 940.36, s2

x = 4018.35 s2y = 3869.62, cov(x, y) = 1679.42

1. Ecrire le modele associe a la regression du taux de mortalite sur le SO2, et rappeler les hypothesesassociees.

2. Donner les estimateurs, et calculer les estimations des coefficients de la regression.

3. Soit yi, la prediction donnee par le modele pour l’observation i. On donne∑60

i=1(yi − yi)2 =186896.2. Donner l’estimateur et une estimation de la variance de l’erreur. Quelle est la loi del’estimateur ? Donner un intervalle de confiance a 95% de l’ecart-type de l’erreur.

4. Donner la loi des estimateurs des coefficients. Calculer les intervalles de confiance a 95 %.Testerleur nullite, au niveau 5%. Donner les p-valeurs des tests. Interpreter.

5. Calculer la somme des carres totale, la somme des carres residuelle, et la somme des carresexpliquee par le modele. En deduire le coefficient de determination. Commenter.

6. On donne x = 100, donner une prediction du taux de mortalite et du taux de mortalite attendu(en esperance) avec leurs intervalles de confiance. Calculer les memes quantites pour x = 250 etinterpreter.

7. Commenter les deux graphiques ci-dessous

14

11 TD 11 : Regression (3)

11.1 Tests de H0 = b = 0

On considere le modele de la regression simple avec les notations usuelles. Il existe deux tests del’hypothese H0 = b = 0, le test de Student § 6.2.5, p 109 et le test de Fisher, § 6.2.6 p 111. En faitces deux tests sont strictement equivalents. Le but de cet exercice est de le demontrer.

1. Soit T une variable aleatoire distribuee selon une loi de student a υ degres de liberte. En utilisantles definitions des lois de Student et de Fisher, demontrer que T 2 est distribuee selon une loi deFisher a 1 et υ degres de liberte.

2. Trouver dans les tables les quantiles t10,0.975 et f1,10,0.95. Quelle relation y–a-t-il entre ces deuxvaleurs ? Pourquoi ?

3. Demontrer que

(B

SB

)2

= (n− 2)R2

1−R2

4. Conclure sur l’equivalence entre les deux tests de H0 = b = 0.

11.2 Golfe du Lion (examen janvier 2016)

On etudie le lien entre la hauteur significative (Hs) maximale des vagues et la bathymetrie (la profon-deur). Le graphique ci-dessous represente la hauteur des vagues en fonction de la bathymetrie pour25 sites dans le Golfe du Lion ou l’on a fait des mesures.

0 500 1000 1500 2000

23

45

6

Hauteur en fonction de la bathymétrie

bathymetrie (m)

Hs(

m)

4 5 6 7

−1.

5−

1.0

−0.

50.

00.

51.

0

Graphique des résidus

valeurs prédites

rési

dus

1. Ecrire le modele de regression lineaire simple entre la hauteur significative et la bathymetrie, etpreciser toutes les hypotheses.

2. L’estimation du coefficient de pente donne b = 0.002 avec un ecart-type σb

= 0.0002 et uneordonnee a l’origine a = 3.2 avec un ecart-type σa = 0.17. Le coefficient de pente est-il significa-tivement non nul ?

3. On donne la somme des carres totale SCT = 44.11 et la somme des carres residuelle SCR =12.05. En deduire une estimation de l’ecart-type d’erreur, ainsi que le coefficient de determination.Commenter.

4. Commenter le graphique des residus.

5. Donner une prediction de la hauteur significative des vagues en un site ou la bathymetrie est de1800m.

6. On considere maintenant le modele de regression lineaire simple entre la hauteur significative etle log de la bathymetrie. Le graphique ci-dessous donne pour les 25 sites la hauteur significativemaximale en fonction du log de la bathymetrie.

15

2 3 4 5 6 7

23

45

6

Hauteur en fonction de la log−bathymétrie

log(bathymetrie)

Hs(

m)

3 4 5 6

−1.

0−

0.5

0.0

0.5

Graphique des résidus

valeurs prédites

rési

dus

On a alors b = 0.72, a = 0.70 et SCR = 5.2. Calculer le nouveau coefficient de determination etla nouvelle prediction pour une bathymetrie de 1800m. Comparer avec les resultats precedentset commenter.

11.3 Pieges

Cet exercice a pour but de mettre en evidence les dangers d’une confiance trop grande dans un modeleet d’une analyse baclee. On considere les graphiques (x,y) et les graphiques des residus dans 5 cas.Dans ces 5 cas, les statistiques standard de la regression (estimation des parametres, intervalles deconfiance, R2 et tests d’hypotheses) sont exactement identiques. Explicitez en quelques phrases lasituation dans chaque cas. Que doit-on faire pour se proteger contre de fausses interpretations ?

16

17

12 Erratum du livre

– page 47, precision sur comment calculer simplement l’information de Fisher, dans le cas d’unevariable X continue et de la formule avec la derivee seconde. Soit fθ(x) la densite. On calcule

g(x) = ∂2

∂θ2lnfθ(x), alors I(θ) = −E[g(X)]. On a le meme type d’ecriture avec la formule obtenue

avec la derivee premiere de lnfθ. Dans le cas d’une variable discrete, remplacer lnfθ(x) par lnPθ(X =x).

– page 48, ajouter apres la septieme ligne, ce qui implique que la loi de√n(Tmvn − θ) peut-etre ap-

prochee, pour n grand, par une loi normale N(0, I−1(θ)).– Page 48, paragraphe 3.2.2 apres (en general ce systeme n’est pas lineaire) ajouter la phrase suivante :

Dans le cas particulier ou les parametres du modele sont la moyenne et la variance, l’estimateur deµ par la methode des moments est X et l’estimateur de la variance σ2 par la methode des momentsest la variance empirique, 1

nΣni=1(Xi −X)2.

– Page 53, a la septieme ligne du paragraphe 3.3.6, remplacer intervalle de probabilite par intervallede confiance.

– Page 61, au A§ 3.5.4 : remplacer X suit une loi binomiale B(n, p) par X suit une loi binomialeB(n, π).

– Page 70, sept lignes avant la fin, remplacer l = u1−α/2 par l = u1−α/2 ∗ σ/√n.

– Page 73, remplacer la formule de la ligne 4 par

X − µ0

S/√n< −tn−1;1−α

remplacer la formule de la ligne 6 par

X < µ0 − tn−1;1−αS√n

– Page 91, en haut de la page 91, remplacer le premier alinea par :Par definition du protocole experimental, le nombre de variables (Xi, i = 1, n) est egal au nombrede variables (Yi, i = 1, n). Le modele porte uniquement sur les differences entre les mesures de Xet de Y pour une meme unite experimentale i. Pour tout i, Di = Xi − Yi ∼ N(µ1 − µ2, σ

2d) et les

variables Di sont iid.– Page 96, ligne 14, remplacer ”refusee” par ”encore acceptee”.– Page 146, dans la figure, la loi hypergeometrique est notee H(A,N, n), alors que la notation utilisee

page 138 est H(n,m, k). La correspondance entre les 2 notations est la suivante : A = k, N = m etn = n.

18