14
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012 1 3 ème année ICBE 2011-2012 Travaux pratiques de Statistique Philippe Besse Jean-Louis Tichadou Organisation du cours et des travaux pratiques de Statistique La partie « Statistique » de l’Unité de Formation « Microbiologie & Statistique » va conduire à 2 notes évaluant Un examen à l’issue des séances de cours et des 6 premières séances de travaux pratiques. Un rapport final rendant compte des 8 séances de travaux pratiques. En complément des 2x5 séances de cours, il y a donc 8 séances de travaux pratiques divisées en 2 parties. 6 séances d’initiation : exploration et modélisation statistique à l’aide du logiciel Minitab. 2 séances de mise en œuvre : étude statistique des données de croissance bactérienne obtenues lors des travaux pratiques de Microbiologie

3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

  • Upload
    vudan

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

1

3

ème année ICBE 2011-2012

Travaux pratiques de Statistique

Philippe Besse Jean-Louis Tichadou

Organisation du cours et des travaux pratiques de Statistique La partie « Statistique » de l’Unité de Formation « Microbiologie & Statistique » va conduire à 2

notes évaluant

Un examen à l’issue des séances de cours et des 6 premières séances de travaux pratiques.

Un rapport final rendant compte des 8 séances de travaux pratiques.

En complément des 2x5 séances de cours, il y a donc 8 séances de travaux pratiques divisées en 2 parties.

6 séances d’initiation : exploration et modélisation statistique à l’aide du logiciel Minitab.

2 séances de mise en œuvre : étude statistique des données de croissance bactérienne obtenues lors

des travaux pratiques de Microbiologie

Page 2: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

2

TP1 Prise en main du logiciel Minitab Objectif : s’initier à l’emploi d’un logiciel de traitement de données (MINITAB version 14 en anglais)

Minitab est un logiciel d’analyse statistique de données généraliste doté d’un menu.

Son interface présente une zone d’édition appelée «Session» et un tableau appelé «Worksheet».

Fonctionnement typique :

les données sont mises dans le tableau

un traitement est choisi dans le menu

on indique sur quelles données il doit agir

les résultats du traitement s’affichent dans la session.

Attention : Le tableau ne s’utilise pas comme celui d’un tableur,

mais comme celui d’un logiciel de gestion de base de données :

- toutes les données d’une colonne doivent être de même type.

- l’élément n’est pas la cellule mais la colonne entière

(le « champ » d’une base de données) ; on agit sur toutes les

données d’une colonne en même temps en la désignant par son nom.

Le nom de la colonne est mis dans sa première case, réservée à cet

effet, sur la ligne grise non numérotée.

Utilisation d’un Menu

Un menu contient une liste de sous-menus correspondant à différentes fonctionnalités.

Chaque sous-menu (terminé par ►) contient une liste de commandes (terminées par ●●●).

Exemple : menu « Stat »

sous menu « Basic Statistics »

Page 3: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

3

Sélection des variables pour une commande

Si une commande (« Display Descriptive Statistics » par exemple) est

choisie, la boite de dialogue correspondante s’ouvre.

La liste des variables disponibles pour la commande s’affiche à gauche. Pour sélectionner la ou les variables voulues :

double-cliquer sur le nom de la variable ou bien

marquer la ou les variables et agir sur la touche « Select ».

Les variables sélectionnées s’affichent dans la fenêtre de droite.

Remarque : si la liste ne s’affiche pas, cliquer dans la fenêtre de droite

Pour découvrir le logiciel, quatre exemples avec

les fonctions du menu principal : Stat, Calc, Data et Graph

1) Obtenir des statistiques descriptives

Le menu Stat regroupe les méthodes statistiques du logiciel. Nous en étudierons certaines.

Etude : Neuf dosages d’une même solution ont été effectués. Les résultats constituent un échantillon

de la population de tous les résultats qu’on pourrait obtenir pour ces dosages.

Les concentrations obtenues sont : 183 191 191 208 201 195 205 199 et 202 en mg/l

Saisir les données dans une colonne et la nommer concentration.

Obtenir des statistiques descriptives :

o Menu Stat / Basic Statistics / Display Descriptive Statistics

o avec Statistics, choisir la moyenne, l’écart-type (standard deviation), l’erreur-type de la

moyenne (SE of mean) et la médiane.

o avec Graphics, choisir l’histogramme des données avec courbe normale

Comparer écart-type des mesures et erreur-type de la moyenne. Le rapport de leurs valeurs

était-il prévisible ?

2) Générer des nombres aléatoires

Cela permet de simuler des résultats expérimentaux. L’avantage est qu’on connaît les « vraies

valeurs » des paramètres moyenne et écart-type, celles qu’on obtiendrait avec un nombre

infiniment grand de mesures. On est sûr aussi de la loi de distribution.

Etude 1 : Quelle allure peut avoir un histogramme de données selon le nombre de valeurs ?

Générer une série de 100 valeurs aléatoires, réparties selon une loi normale, issues d’une

population de moyenne 80 et d’écart-type 5. Les stocker dans une colonne nommée Y.

o Menu Calc / Random Data / Normal

o Generate 100 raws of data

Obtenir les statistiques descriptives correspondantes. Représenter l’histogramme avec sa

courbe normale associée aux données.

Comparer avec des séries de respectivement 10, 1000 et 10000 valeurs.

Etude 2 : Quelles différences peut-on obtenir entre plusieurs échantillons de même population ?

Générer 10 séries de 4 valeurs de moyenne 80 et d’écart-type 5 stockées dans 10 colonnes

nommées de Y1 à Y10 (Les générer en une seule fois, les noms des variables séparés par des espaces.).

Page 4: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

4

Obtenir les statistiques descriptives correspondantes. Comparer les moyennes, les écarts-types

et les erreur-types des moyennes des 10 séries.

Recommencer avec des séries de respectivement 10 et 100 valeurs.

Quelles tendances remarquez-vous lorsque le nombre de valeurs augmente ?

3) Manipuler des données Bien organiser ses données est nécessaire pour les traiter et les analyser efficacement.

Les tableaux ci-dessous représentent deux façons d’organiser les mêmes données,

des concentrations résultant de dosages effectués à différentes températures :

T18 T22 T26 T30 Conc Temp

17.5 19.1 20.1 20.9 17.5 18

18.2 20.5 20.6 21.4 18.2 18

19.4 19.8 19.1 22

20.5 22

19.4 22

20.1 26

20.6 26

19.8 26

20.9 30

21.4 30

La seconde organisation est souvent préférable.

Chaque ligne du tableau représente alors un dosage (avec sa concentration, sa température, – on

peut ajouter d’autres informations : conditions, date, auteur,…) et chaque colonne une variable.

Les données utilisées pour les prochaines séances de TD et le projet (voir page suivante) seront

présentées de cette façon.

Etude 1 : Saisir les données dans 4 colonnes et les empiler pour en faire une seule colonne.

Remarque : Selon la configuration de votre ordinateur, il faut taper un point ou une virgule pour que les valeurs

saisies soient considérées comme du numérique. Le numéro de la colonne est suivi d’un T si elle contient du texte.

o Menu Data / Stack / Columns

o Stack the following columns : T18 T22 T26 T30 o Column in current worksheet : Conc o Store subscripts in : Temp o cocher la case pour avoir les noms des colonnes en indice, sinon il y aura des numéros 1, 2, 3 et 4.

On peut aussi désempiler des données (commande Unstack columns).

Etude 2 : Changer le type de donnée d’une variable.

Si on voulait que la colonne Temp contienne 18, 22 etc. au lieu de T18, T22 …, on aurait pu donner

comme titre des 4 colonnes : 18, 22, …Faites-le et constatez que la variable Temp reste considérée

comme du texte. Pour changer de type :

o Menu Data / Change Data Type / Text to Numeric

4) Afficher un graphique

Il est utile de visualiser ses données à l’aide d’un graphique avant de les traiter.

Etude : avec les données précédentes, afficher un diagramme de points Conc = f(Temp)

o Menu Graph / ScatterPlot / Simple

Quelle(s) information(s) sont plus évidentes avec le graphique qu’à la lecture du tableau ?

Page 5: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

5

TP2 Exploration statistique

Une analyse statistique déroule scrupuleusement les étapes suivantes :

1. Explicitation précise de la question biologique comme par exemple : le mode d’étalement

dans la boîte de Pétri a-t-il un effet sur la croissance bactérienne ?

2. Se poser les questions : quelle est la population étudiée ? Comment planifier

l’expérience ?

3. Description unidimensionnelle (indicateurs, graphiques) et bidimensionnelles (liaisons)

des variables concernées

5. Choix du test ou du modèle adapté à la question biologique et aux données recueillies ;

6. Explicitation des hypothèses, calcul de la statistique de thèse, décision.

En pratique : pour commencer à rédiger le rapport du projet, il suffit d’ouvrir un document

Word et d’y copier/coller les différents éléments : graphiques, tableaux numériques au fur et

à mesure de leur obtention et d’y ajouter les commentaires.

Objectif de la séance : apprentissage de l’étape 3 ci-dessus. Description statistique avec Minitab.

1. Les Données

1.1 Gestion des fichiers

Les différents fichiers sont disponibles sous la forme d’une feuille Excel dans le répertoire

« cometud ». Le transfert des données dans Minitab se fait en ouvrant le fichier par une feuille de

travail (File>New>Worksheet) ou par copier/coller.

Remarque : Pour transférer les données dans Minitab par copier/coller, sélectionnez entièrement la feuille Excel

des données ─ avec les noms des colonnes ─ , copier, se positionner dans Minitab dans la première case de titre

de colonne et coller. En une seule fois, les noms des colonnes sont mis dans la ligne de titre et les données dans le

tableau.

1.2. Données épidémiologiques

Le fichier fourni est constitué d’une partie des données et variables d’une étude entre 1961 et 1973.

Il comprend 115 lignes (individus ou unités statistiques) décrites par les 19 variables ci-dessous.

L’étude1 a été réalisée dans un hôpital d’Oakland. Lors de chaque naissance, de nombreuses

informations médicales et socio-économiques concernant le bébé et ses parents ont été collectées.

Dix ans plus tard, de nouvelles informations étaient recueillies.

L’étude avait pour but de rechercher si certaines caractéristiques des parents avaient une influence

sur le développement de l’enfant.

Enfant à la naissance

ESx sexe M ou F

ERh facteur rhésus Rh+ ou RH−

ETaille0 taille en cm (converti à partir de pouces)

EPoids0 poids en kg (converti à partir de livres)

Enfant à 10 ans

ETaille10 taille

EPoids10 poids

Mère à la naissance de l’enfant

MRh groupe sanguin

1 Source des données : J.L. Hodges, D. Krech et R. Crutchfield Statlab : an Empirical Introduction to Statistics, 1975.

Page 6: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

6

MAge âge au dernier anniversaire avant la naissance

MPoids0 poids

MCig0 consommation de cigarettes 0 cigarettes par jour 1 à 10 plus de 10

Mère 10 ans après

MTaille10 taille

MPoids10 poids

MCig10 consommation de cigarettes

Père à la naissance de l’enfant

PAge âge au dernier anniversaire avant la naissance

PCig0 consommation de cigarettes

Père 10 ans après

PTaille taille

PPoids10 poids

Revenus familiaux

RevFam0 à la naissance de l’enfant en centaines de dollars

RevFam10 10 ans après

2. Expérimentation des outils d’exploration

Lancer Minitab, ouvrir la feuille de travail contenant les données puis exécuter les différentes

commandes.

2.1 Description unidimensionnelle

Variable quantitative : le poids de l’enfant à la naissance.

A l’aide de la commande : Menu Stat > Basic Statistics > Display Descriptive Statistics

calculer les différents indicateurs quantitatifs relatifs à cette variable, représenter son histogramme

et le diagramme boîte. Commentaire. Etudier également rapidement, le poids à dix ans, celui du

père, de la mère.

Variable qualitative : la consommation de cigarette de la mère au moment de la naissance.

Calculer les effectifs et proportions de chaque classe, tracer un diagramme en secteur.

Menu Stat > Tables > Tally Individual Variables (tally = compte)

Menu Graph > Pie Chart (diagramme en secteur)

Remarque : le travail a été simplifié par un regroupement préalable des modalités présentant un trop

faible effectif (de 1 à 3 cigarettes, de 10 à 20 cigarettes)

Commentaires. Etudier également la variable sexe.

2.2. Description bidimensionnelle

Représenter la liaison entre une variable quantitative et une variable qualitative par des

diagrammes boîtes parallèles : étude du poids de l’enfant à la naissance selon la

consommation de cigarette de la mère.

Menu Graph > Boxplot choisir : One Y - With Groups

Comparer ces boîtes, les médianes. Commentaire.

Etude de la liaison entre deux variables quantitatives : poids et taille de l’enfant à la

naissance

Calculer le coefficient de corrélation entre les deux variables et représenter le nuage de point

Page 7: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

7

Menu Stat > Basic Statistics > Correlation

Menu Graph > Scatterplot

Commentaire sur la liaison, la forme du nuage. Etudier également la relation du poids de l’enfant à

la naissance avec le poids de l’enfant à 10 ans puis avec celui de son père.

Etude de la liaison entre deux variables qualitatives : sexe et rhésus sanguin de l’enfant

Construire la table de contingence, calculer les profils.

Menu Stat > Tables > Cross Tabulation and Chi-Square

Trouver les effectifs de chaque cellule de la table, les effectifs marginaux, les profils lignes et

colonnes. Comparer ces profils c’est-à-dire, par exemple, les pourcentages des rhésus par sexe.

Commentaire sur la liaison entre les variables.

Etudier également la relation entre le sexe et la consommation de cigarette de la mère.

3. Descriptions complémentaires

Continuez à explorer les différentes variables du corpus de données en s’intéressant aux variables

séparément ou à la liaison entre deux variables de même type, de type différent.

Page 8: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

8

TP3 Comparaison et test de 2 paramètres

Objectifs

:

- s’initier à l’utilisation d’un test statistique

- apprendre à choisir un test en fonction des données et de la question posée

- tests d’adéquation à une loi et de comparaison de deux paramètres

Les données sont celles de l’étude sur les naissances dans un hôpital californien (fichier Excel

disponible dans Cometud) utilisées lors des précédents TD.

Les tests utilisés ici ont pour but de mettre en évidence des différences entre paramètres ou

l’adéquation d’une distribution à une loi.

3.1 Comparer une moyenne avec une valeur théorique

Question : Un chercheur qui étudiait l’évolution de la taille des êtres humains au cours du temps à

prédit que la taille moyenne des enfants de 10 ans, dans la région et au moment où a eu lieu l’étude

sur les naissances, devrait être de 1,40 m.

L’échantillon dont vous disposez (variable ETaille10), représentatif de la population de ces enfants,

est-il en accord avec cette affirmation ?

Quels sont les tests qui peuvent être utilisés ? Quels sont les pré-requis à ces tests ?

Exploration des données : Menu Stat > Basic Statistics > Display Descriptive Statistics

Afficher moyenne, écart-type de l’échantillon, erreur-type de la moyenne, médiane.

Afficher l’histogramme avec courbe normale associée.

La répartition des données semble-t-elle normale ?

Test de normalité : Menu Stat > Basic Statistics > Normality Test

Trois tests sont proposés. Choisir l’un d’eux (Anderson-Darling par exemple)

Considérer le graphe associé (droite de Henry) et interpréter la P-value du test d’Anderson-

Darling.

Test d’une différence avec la valeur théorique :

Poser l’hypothèse H0 et l’hypothèse alternative.

Menu Stat > Basic Statistics > 1 Sample t-Test

Indiquer le nom de l’échantillon : ETaille10, la moyenne à tester : 140,

et dans les options, le niveau de confiance : 95 et le critère : Not Equal

Analyser les résultats du test :

avec l’intervalle de confiance :

l’I.C.95% de la moyenne contient-il la valeur à tester ? En est-il loin ? Conclusion.

avec la P-value :

Est-elle inférieure à 5% ? Est-elle très petite ? Conclusion.

Pour obtenir une vue graphique synthétique recommencer :

Menu Stat > Basic Statistics > 1 Sample t-Test avec en plus Graph… / Boxplot of Data

Page 9: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

9

3.2 Comparer des moyennes avec deux échantillons indépendants

Question : La taille de l’enfant à la naissance (ETaille0) est elle différente selon le sexe (ESx) ?

Exploration des données

Les tailles sont dans une seule colonne ; on peut si nécessaire désempiler la colonne selon le critère

« Sexe » à l’aide de la fonction Menu Data > Unstack Columns > avec Unstack the Data in ETaille0

et Using subscripts in ESx pour obtenir deux échantillons.

Afficher les statistiques descriptives : il y a bien une différence entre les moyennes des deux

échantillons. Mais est-elle due au hasard ou bien y a-t-il une vraie différence entre les moyennes des

populations que représentent ces échantillons ?

- Test de normalité de chaque échantillon : Utiliser successivement les trois tests disponibles :

Anderson-Darling, Ryan-Joiner, Kolmogorov-Smirnov. Comparer les résultats.

Conclusion : la normalité des données est acceptée.

- Test d’une différence entre les moyennes : poser l’hypothèse H0 et l’hypothèse alternative

Choix du test : les données sont considérées comme réparties normalement et les échantillons ne

sont pas appariés : test de Student .Menu Stat > Basic Statistics > 2 Sample t-Test

Analyser les résultats du test

en utilisant l’intervalle de confiance de la différence

en utilisant la valeur de P

Conclusions. Un test non paramétrique sur la même question conduit-il à la même conclusion ?

3.3 Comparer des moyennes avec deux échantillons appariés

Question : Le poids de la mère est-il différent à la naissance (MPoids0) et dix ans après

(MPoids10) ?

Ce qui change par rapport à la question précédente : à chaque valeur d’un échantillon correspond

dans l’autre échantillon une valeur du même individu statistique (sur la même ligne du fichier) ; les

deux échantillons sont appariés.

Exploration des données :

Vérifiez qu’il y a une différence entre les moyennes des deux échantillons ; est-elle due au

hasard, ou les populations (au sens statistique) représentées sont-elles vraiment différentes ?

Repérer, en comparant avec la courbe normale associée, que les histogrammes des deux

échantillons ne semblent pas symétriques.

Tester la normalité :

Vérifiez que les données de chaque échantillon ne sont vraiment pas réparties selon une loi

normale.

Choix du test :

Les conditions d’un test paramétrique ne sont pas réunies ; utiliser un test non paramétrique, le

test de Wilcoxon pour données appariées.

Préparation des données : créer une colonne qui contient la différence entre MPoids0 et Mpoids10.

Menu Calc > Calculator avec Store result in variable DiffPoids et expression 'MPoids10' - 'MPoids0'

Test : Menu Stat > Nonparametrics > 1 Sample Wilcoxon

Teste si la médiane de DiffPoids est différente de zéro. Conclusion

Page 10: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

10

TP4 Tests de liaisons

Objectifs s’initier à l’utilisation d’un test statistique

apprendre à choisir un test en fonction des données et de la question posée

tester l’influence d’une variable qualitative sur un autre quantitative ou qualitative

4.1 Tester l’indépendance de deux variables qualitatives (test du khi-deux)

Exemples de liaisons possibles : (sexe, rhésus), (rhésus mère et enfant), (sexe, consommation de

cigarettes). Le test de khi-deux compare les effectifs observés d’une table de contingence avec les

effectifs calculés en supposant qu’il n’y a pas de liaison.

Test du chi2 : Menu Stat > Tables > Cross tabulation ans Chi-square

Choisir l’option « Chi-square », cocher « Chi-square analysis »

4.2 Comparer des moyennes avec plusieurs échantillons indépendants : l’ANOVA

Question : La consommation de cigarette influence-t-elle le poids de l’enfant à la naissance ?

Ceci se traduit en : Le poids moyen de l’enfant à la naissance est-il différent selon que la mère fume

pas du tout, un peu ou beaucoup ?

Les conditions que doivent vérifier les données :

les distributions des populations représentées par chaque échantillon doivent être normales

les variances des populations sont supposées égales

Vérifier les conditions :

Test de normalité : Menu Stat > Basic Statistics > Normality Test

Test de comparaison de variances : Menu Stat > Basic Statistics > 2 Variances

Faire une ANOVA à un facteur (à une voie) : Menu Stat > ANOVA > One-Way

La réponse est la variable quantitative dont on compare les moyennes (EPoids0)

Le facteur est la variable qualitative qui sert à constituer les groupes (MCig0)

Analyse :

Pour une vue d’ensemble, regarder le schéma présentant les intervalles de confiance à 95% pour

chaque groupe.

Pour une aide à la décision, repérer la valeur de P. Est-elle très petite ? Conclusion ?

Pour comprendre l’analyse : l’ANOVA compare la variance des poids d’enfants à l’intérieur des

groupes à la variance des poids entre les groupes. Si cette dernière est suffisamment plus grande que

l’autre, cela indique qu’il y a entre les moyennes des groupes une ou des différences qui ne sont

probablement pas dues au hasard.

Noter que les sommes de carrés (SS : Sum of Squares) des différences à l’intérieur des groupes – (ligne Error)

sont plus grandes que les sommes des carrés des différences entre les moyennes des groupes (ligne MCig0).

Mais comme les effectifs sont grands : la variance (MS : Mean Square) due aux différences entre groupes est

bien plus grande que la variance à l’intérieur des groupes ; on peut ainsi mettre en évidence une petite différence

due aux groupes malgré une grande variabilité des individus.

Remarque : l’ANOVA est une méthode robuste qui résiste bien si les conditions indiquées ci-dessus

ne sont pas parfaitement respectées.

Le test non paramétrique de Kruskal-Wallis peut être utilisé à la place si les conditions ne sont

franchement pas respectées.

Menu Stat > Nonparametrics > Kruskal-Wallis

Ici, on peut vérifier qu’il donne un résultat équivalent.

Page 11: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

11

TP 5 Régression linéaire simple

Objectif : - s’initier à la modélisation linéaire

- apprendre à interpréter les résultats fournis par Minitab

- tester l’influence d’une variable quantitative sur une autre quantitative.

Les données sont celles de l’étude sur les naissances dans un hôpital californien (fichier Excel

disponible dans Cometud) utilisées lors des précédents TD.

5.1 Pour chacun des exemples proposés ou pour ceux que vous étudiez

1. Vérifier les distributions des variables concernées (diagramme boîte, histogramme) et le

nuage de points entre Y et X.

2. Tracer les graphiques de diagnostic des résidus et commenter la validité des hypothèses :

linéarité du modèle, homoscédasticité, éventuelle normalité. Grâce aux propriétés

asymptotiques des estimateurs, ceux-ci sont relativement robustes si cette dernière

hypothèse n’est pas tout à fait vérifiée.

3. Commenter les sorties numériques en terme de qualité d’ajustement et de capacité prédictive

du modèle.

4. Quelles décisions suggèrent les statistiques de test.

5. Construire un intervalle de confiance pour l’estimation de la pente du modèle. Comparer cet

intervalle avec la décision du test.

5.2 Calcul de la régression simple avec MINITAB

Directement par Menu Stat > Regression > Fitted line plot

Mais, pour pouvoir disposer de tous les résultats et diagnostics, il faut demander :

Calcul de la régression : Menu Stat > Regression > Regression

Choisir la variable réponse ou dépendante ou dite à expliquer

Choisir la ou les variables explicatives

Dans Graphs choisir Residuals for Plots : standardized et Four in one

Dans Results choisir : in addition the full table of fits and residuals

Dans Options choisir : Display PRESS

Dans Storage choisir : Standardized residuals et Cook’s distance et fits

5.3 Graphes de la régression

En plus du graphe des résidus standardisés en fonctions des valeurs ajustées, il est possible de

tester la normalité des résidus (variable RES1 de la feuille de calcul) et de tracer deux graphes :

celui des valeurs observées (Y) en fonction des valeurs ajustées (FITS). Que la régression

soit simple ou multiple, ce graphe illustre la qualité de l’ajustement.

celui des distances de Cook en fonction toujours des valeurs ajustées. Ce graphe désigne

(distance plus grande que 1) les observations influentes dont il faut se méfier.

5.4 Quelques exemples de régression

1. Taille à la naissance de l’enfant comme fonction de la taille du père

2. Taille de l’enfant à 10 ans en fonction de la taille à la naissance

3. Taille de l’enfant à 10 ans en fonction de celle du père

Page 12: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

12

TP 6 Introduction au cas multidimensionnel

Objectif : - s’initier au modèle gaussien et à l’analyse en composantes principales

- apprendre à interpréter les résultats fournis par Minitab

- tester l’influence de variables quantitatives sur une autre quantitative

6.1 Exploration par Analyse en composantes principales

Première approche : Calcul de l’ACP : Menu Stat > Multivariate > Principal components

Sélectionner toutes les variables quantitatives

Type of Matrix : Correlation (ACP réduite : donne le même poids à toutes les variables)

Number of components to compute : 2 (pour commencer, les 2 premières composantes)

Dans Graphs cocher tous les graphes : Scree plot, Loading plot, Score plot

Commenter les différents graphiques :

Scree plot (diagramme « en éboulis » ou décroissance des valeurs propres de la matrice des

corrélations) : donne la part d’information initiale qui se retrouve dans chaque composante.

Utile pour choisir le nombre de composantes à prendre en compte. Dans la partie «Session»,

lire le % cumulé d’information dans les 2 premières composantes (puis les 3, les 4 etc.).

Loading plot représente les corrélations des variables initiales avec les composantes ;

le cosinus de l’angle entre deux vecteurs variables approche leur coefficient de corrélation.

Commentez la structure de cette représentation.

Score plot représente les coordonnées des individus en fonction des composantes ;

chaque individu (au sens statistique) correspond à une ligne du tableau (une naissance et les

informations familiales associées). Commentez la répartition des individus.

Continuation de l’analyse - en prenant en compte des composantes supplémentaires

- en ajoutant des informations sur les graphes.

Refaites le calcul de l’ACP comme précédemment, mais avec :

Number of components to compute : 4

Storage : Coefficients : Coef1 Coef2 Coef3 Coef4 et Scores : Sco1 Sco2 Sco3 Sco4

Les valeurs des coefficients de corrélation des variables et des scores des individus sont

stockées dans les nouvelles colonnes. On peut maintenant représenter les graphes des diverses

combinaisons de deux des composantes retenues.

Pour colorer les groupes d’individus selon les valeurs d’une variable :

Faites afficher le graphe : Graph. / ScatterPlot / With Groups / (Sco2 en Y et Sco1 en X) et distinguez les groupes avec Categorical variables for grouping : MCig0

Comment se répartissent les individus des trois groupes (0cig, 1-10cig et plusde10) ?

Mettez côte à côte le graphe des scores des individus et le graphe des corrélations des

variables pour les composantes 1 et 2 (Il est d’usage avec certains logiciels de superposer ces

deux graphes) et reliez la répartition des groupes avec la direction de la variable MAge sur le

graphe des corrélations.

Que remarquez-vous ? Confirmez cette observation en réalisant un test (ANOVA) entre âge

de la mère et consommation de cigarettes.

Pour repérer chaque individu dans les diagrammes des scores :

Créez une variable Num (de 1 à 115) : Menu Calc / Make Patterned Data / Simple Set of Number

Faites afficher le graphe : Graph / ScatterPlot / Simple / (Sco2 en Y et Sco1 en X) et marquez les individus avec Label / Data labels / Use Labels from column : Num

Page 13: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

13

Faites de même avec les composantes 3 et 4.

Comparez les distributions des individus sur les deux graphes.

6.2 Modélisation par régression multiple

Le passage de la régression simple à la régression multiple introduit quelques complications selon

l’objectif poursuivi : explicatif ou prédictif.

Dans le cas explicatif, toutes les hypothèses ne peuvent être testées à moins de se mettre

dans le cadre d’une expérience planifiée construisant des facteurs orthogonaux. Dans le cas

contraire, seul un test peut être considéré en en contrôlant le niveau ou seuil.

Dans le cas de la recherche d’un meilleur modèle prédictif, les tests n’ont plus le même

intérêt ; ils peuvent servir à rechercher le meilleur modèle en ne considérant que les

variables les plus significatives tout en cherchant à maximiser un critère de qualité de

prévision comme le PRESS.

Comparer différents modèles :

Modéliser la taille de l’enfant à 10 ans en fonction de sa taille à la naissance, de la taille de

sa mère et de la taille de son père ; cocher les mêmes options que pour la régression simple.

Commenter les graphes des résidus, la validité du modèle. Comparer le R2 obtenu avec ceux

des régressions simples. Commenter les tests proposés et donc l’influence des différentes

variables sur la variable à expliquer.

Modéliser à nouveau la taille de l’enfant à 10 ans mais en considérant toutes les variables

quantitatives (tailles, poids, ages, revenus, sauf le poids à 10 ans de l’enfant) comme

explicatives. Etudier la validité de ce modèle, commenter les tests.

Comparer le R2, le R2 ajusté et le PRESS avec ceux du modèle précédent.

Page 14: 3 année ICBE 2011-2012 Travaux pratiques de Statistique · o Menu Stat / Basic Statistics / Display Descriptive Statistics o avec Statistics, choisir la moyenne, ... (de 1 à 3 cigarettes,

INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012

14

TP 7-8 Analyse statistique de croissances bactériennes

Objectifs

:

● Mise en œuvre de l’analyse statistique de données avec Minitab

● Rédaction d’un mémoire explicitant démarche et résultats

Travail à réaliser (par binôme)

Les données sont celles produites lors des travaux pratiques de Microbiologie. Le descriptif

détaillée de l’analyse statistique à réaliser sera fournit lorsque les données auront été acquises et

fusionnées en une seule base.

Rapport

Contenu :

Le rapport explicitera de façon synthétique le travail réalisé durant l’ensemble des séances de TP et

inclura des graphiques et sorties numériques fournies par le logiciel, mais surtout vos

commentaires : questions biologiques posées, outils mis en œuvre, hypothèses testées, décisions et

réponses aux questions.

Donnez des explications détaillées (sur un outil, un test, une méthode) mais ne soyez pas

redondants.

Présentation : Elle doit respecter une organisation qui facilite la lecture du rapport.

Page de couverture avec un titre explicite (« Rapport » n’est pas un titre explicite …)

Court résumé incluant problématique et principaux résultats

Introduction présentant les données, la problématique, l'objectif, le déroulement du travail

Développement pas nécessairement chronologique ni exhaustif du travail en insistant sur les

points directement liés aux objectifs

Conclusion

Remarques :

Tout tableau, tout graphique doit être accompagné d’une légende.

Le résumé est important, il encourage le lecteur à poursuivre plus avant.

Il est important de s’initier rapidement aux fonctionnalités d’un traitement de

texte (feuille de style, sommaire et tables automatiques…). Ce rapport peut être

l’occasion de s’initier à la réalisation d’un sommaire ou d’une table des

illustrations automatique.

Date de remise : (un rapport par binôme) avant les congés de Noël.