58
Cours de statistiques appliquées à la recherche scientifique Guelmemi Noômen Introduction et concepts de base Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à établir les responsabilités. Toute étude statistique s'appuie sur des données. Dans le cas ou ces données sont numériques (95% des cas), on distingue les données discrètes (qui prennent un nombre fini de valeurs : par ex, le nombre de voitures par famille en France) des données continues (qui prennent des valeurs quelconques : par ex, la taille des basketteurs). Dans le cas d'une série discrète, le nombre de fois ou l'on retrouve la même valeur s'appelle l'effectif de cette valeur. Si cet effectif est exprimé en pourcentage, on parle alors de fréquence de cette valeur. Dans le cas d'une série continue, on répartit souvent les données par classes . Le but des statistiques est d'analyser les données dont on dispose. Pour cela, on peut par exemple chercher déterminer la moyenne ou la médiane de la série. De tels nombres permettent notamment de comparer plusieurs séries entre elles. On les appelle indicateurs statistiques ou paramètres statistiques . On distingue les indicateurs de position (qui proposent une valeur "centrale" de la série) et les indicateurs de dispersion (qui indiquent si la série est très regroupée autour de son "centre" ou non).Ainsi, le mode d'une série (valeur qui a le plus grand effectif de la série) est un indicateur de position. L’étendue de cette série (différence entre la plus grande et la plus petite valeur) est un indicateur de dispersion. La moyenne et la médiane sont des indicateurs de position. De plus, lorsque la série est trop importante (population d'un pays…), on est obligé de faire un sondage , c'est à dire de restreindre l'étude à un échantillon de cette série. Tout le problème est alors de choisir un échantillon vraiment représentatif (de taille suffisante et non biaisé) et d'évaluer l'erreur commise par rapport à une étude qui porterait sur l'ensemble de la série.

Introduction et concepts de base - e-monsite

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Introduction et concepts de base Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives.

Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données

recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier

des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de

statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une

enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à

établir les responsabilités.

Toute étude statistique s'appuie sur des données. Dans le cas ou ces données sont numériques

(95% des cas), on distingue les données discrètes (qui prennent un nombre fini de valeurs :

par ex, le nombre de voitures par famille en France) des données continues (qui prennent des

valeurs quelconques : par ex, la taille des basketteurs).

Dans le cas d'une série discrète, le nombre de fois ou l'on retrouve la même valeur s'appelle

l'effectif de cette valeur. Si cet effectif est exprimé en pourcentage, on parle alors de

fréquence de cette valeur.

Dans le cas d'une série continue, on répartit souvent les données par classes.

Le but des statistiques est d'analyser les données dont on dispose. Pour cela, on peut par

exemple chercher déterminer la moyenne ou la médiane de la série. De tels nombres

permettent notamment de comparer plusieurs séries entre elles. On les appelle indicateurs

statistiques ou paramètres statistiques. On distingue les indicateurs de position (qui proposent

une valeur "centrale" de la série) et les indicateurs de dispersion (qui indiquent si la série est

très regroupée autour de son "centre" ou non).Ainsi, le mode d'une série (valeur qui a le plus

grand effectif de la série) est un indicateur de position. L’étendue de cette série (différence

entre la plus grande et la plus petite valeur) est un indicateur de dispersion. La moyenne et la

médiane sont des indicateurs de position. De plus, lorsque la série est trop importante

(population d'un pays…), on est obligé de faire un sondage, c'est à dire de restreindre l'étude à

un échantillon de cette série. Tout le problème est alors de choisir un échantillon vraiment

représentatif (de taille suffisante et non biaisé) et d'évaluer l'erreur commise par rapport à une

étude qui porterait sur l'ensemble de la série.

Page 2: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

DESCRIPTION DE LA MÉTHODE STATISTIQUE

Identifier le problème (fondamental!) Rassembler les données pertinentes

Recueillir de nouvelles données Classer et synthétiser les données

Présenter les données (de façon réfléchie) Analyser les données

et... Interpréter correctement les résultats obtenus

L'APPROCHE CRITIQUE EN STATISTIQUES

L'obstacle du biais 95% des dentistes recommandent le dentifrice Tresse...

mais si 94% recommandaient un dentifrice quelconque ?!? Les «moyennes» trompeuses

Dans une classe de secondaire I de l'école de La Conception (nord de Montréal) les filles ont, en moyenne, plus d'un enfant (1,2 , i.e. 1 × 12 + 9 × 0)

La dispersion (variance), cette grande oubliée Sur la route de ville Vide, il passe, en moyenne, un seul véhicule par heure.

Un véhicule a passé il y a 5 minutes, alors traversons... Les artistes de la persuasion

(pages suivantes) Post hoc ergo proper hoc (à la suite de cela, donc à cause de cela)

L'espérance de vie a augmenté depuis la découverte du plant de tabac... Les corrélations fallacieuses

Au Québec, il existe une corrélation entre la vente de crème glacée et le nombre de morts par noyade, donc..!

Jouer sur les mots Cette nouvelle marque de beignes contient 20% moins de sucres

et de matières grasses... que si on n'y avait pas fait de trou! La tendance doit se maintenir

La moyenne d'âge lors de la première relation sexuelle diminue de x mois à toutes les décennies... dans 200 ans, l'humain naîtra après sa première relation!

La précision excessive Parmi les 44 étudiants/es d'un cours de statistiques, 2,727% sont nés le 29 février

1967 à 11h38... en fait, il ne s'agit que d'une seule personne Décrire sans inférer (pour un échantillon)

Exemple: les nombreux sondages d'opinions

Inférer sans décrire (sic!) Voir les quelques (!) exemples dans la littérature «scientifique»

ÉVITER LES PIÈGES!

Question à se poser

Quelle est la source de l'information ? Sur quelle preuve se base la source pour appuyer l'information ?

Quelle preuve ou quelle information manque-t-il ? La conclusion est-elle vraisemblable ?

Page 3: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

CHAPITRE 1 : Statistiques descriptives

1. La mesure.

Puisque les statistiques servent à traiter des données numériques, se pose dans un premier

temps le problème du recueil de ces données, c'est-à-dire le problème de la mesure.

1.1. Mesure, échantillon, population.

Un échantillon est un ensemble de données (et non un ensemble d'individus). Un échantillon

est supposé représentatif d'une population parente de données. Il faut noter que la population

parente n'est pas une population démographique: c'est l'ensemble des mesures possibles,

compte-tenu de l'ensemble des variables incontrôlables. La population parente est donc

toujours infinie.

Une donnée est une information de nature numérique. La mesure va consister à relever des

données numériques constituant l'échantillon. Stevens (1969) a proposé une théorie désormais

classique de la mesure. S'insurgeant contre l'idée ancienne que mesurer, c'est compter, il

estime que le système numérique est un modèle comprenant plusieurs sortes, ou plutôt

plusieurs niveaux de règles.

La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en suivant une

règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes sortes de mesure.

La mesure sera possible quand il y aura isomorphisme entre les relations empiriques des

objets et les relations formelles des nombres. A cette condition, les secondes servent de

modèle pour les premières.

1.2. Les niveaux de mesure

Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles les nombres

peuvent servir de modèles. Chacune de ces échelles se caractérise, au niveau mathématique,

par le type de transformation que l'on peut opérer sur l'ensemble de l'échelle sans en modifier

la nature.

1.2.1. Echelles nominales

L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules opérations

empiriques possibles sont les relations d'égalité et d'inégalité entre les objets. La

Classification Périodique des Eléments est une échelle de mesure de ce niveau (échelle

nominale).

Page 4: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque

évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se passe

par exemple lorsque l'on modifie un codage (passer de homme=M et femme =F à homme =1

et femme=2).

L'analyse statistique va principalement porter sur les données de numération: à chaque

classe déterminée par l'échelle nominale est affecté un effectif. Les données de numération

sont toujours des entiers. Les données de numération peuvent être présentées sous forme de

tableaux de contingence.

A B C Total

Effectifs x y z x+y+z

Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise alors

l'effectif d'une classe par le nombre total d'observations. La somme des fréquences est alors

égale à 1. En multipliant une fréquence par 100, on obtient un pourcentage. L'intérêt des

fréquences est de pouvoir faire des comparaisons entre distributions portant sur des effectifs

totaux différents.

1.2.2. Echelles ordinales

L'ordre: les nombres représentent les objets selon leur rang. Les opérations de

détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des

minéraux est un exemple de ce type de mesure (échelle ordinale).

Les échelles ordinales supportent toute transformation monotone croissante. Ce type

de fonction respecte l'ordre de données et les propriétés de l'échelle sont conservées.

Les données relevées sont appelées données de rang. On peut noter que les rangs

statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même en

cas d'ex-aecquo. Par exemple: rang attribué rang statistique

A 1 1

B 2 2.5

C 2 2.5

D 4 4

Page 5: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

1.2.3. Echelles d'intervalles

Les intervalles: les nombres peuvent servir à représenter les différences ou les

distances entre les éléments. On obtient des échelles de classement à intervalles égaux. Les

opérations de détermination de l'égalité des intervalles et des différences sont possibles. Les

échelles de température Celsius et Fahrenheit sont de ce niveau.

Les échelles d'intervalles supportent toute transformation affine de type y=ax + b.

Ces transformations conservent la proportionnalité des intervalles et des différences. C'est

une opération de ce type qui est réalisée lorsque l'on convertit des degrés Fahrenheit et degrés

Celsius.

C°=(F° -32) x (5/9)

1.2.4. Echelles de rapport

Les rapports: les nombres peuvent servir à représenter les rapports entre éléments. La

détermination de l'égalité des rapports est possible. Ces échelles se distinguent des

précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle Kelvin de température

est une échelle de rapport.

Les échelles de rapport ne supportent qu'une multiplication par une constante (y=ax).

Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de l'échelle demeure

donc invariante, et la proportionnalité des rapports est maintenue. C'est ce type de

transformation qui est utilisé par exemple pour convertir une mesure des miles aux

kilomètres:

mile=1.61 x km

On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les

transformations permises sont précises. Et la transformation permise à un niveau donnée est

toujours un cas particulier de la fonction permise au niveau inférieur.

Les échelles d'intervalles et de rapport procurent des données dites de scores. Les

données de scores peuvent être représentées de diverses manières:

-le tableau des effectifs (quels effectifs pour chaque niveau de mesure).

-le tableau des groupements en classes d'intervalles égaux -le tableau des proportions -le

tableau des fréquences.

Page 6: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Classe Valeur centrale Effectif Fréquence Pourcentage

xn-xn' X=(xn-xn')/2 n n/N (n*100)/N

-histogramme (effectif) -courbe de fréquence Exercice:

Score Effectif Fréquence Pourcentage

1 2 .076 7.6

2 6 .231 23.1

3 5 .192 19.2

4 3 .115 11.5

5 3 .115 11.5

6 6 .231 23.1

7 1 .038 3.8

26 1 100

*) le recueil des données et leurs présentations

Le plus souvent le recueil des données se fait de façon quelconque, le résultat de ces données

est le plus souvent, représenté par des nombres, ainsi il va falloir donner un certain ordre à ces

nombres. On ordonne le plus souvent du plus petit au plus grand, cette classification donne

une série stat, celle-ci peut être faite sous forme de tableau.

Mesure 1 2 3 4 5 N

Effectif

Note

Effectif

cumulé

Quand une valeur apparaît deux fois pour la même mesure, cela s’appelle l’effectif, c'est

caractéristique des variables.

Autre type de tableau pour des scores d’un questionnaire pour 7 sujets des deux sexes.

Page 7: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Sujets SEXE  AGE  Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 

S1  F  16  2 6 1 1 5 6 5 2 5 1 

S2  F  15  2 6 1 1 6 6 5 2 6 1 

S3  F  16  2 5 2 1 5 6 6 5 5 1 

S4  G  15  5 6 6 1 5 5 5 5 4 1 

S5  G  16  6 2 1 6 2 1 6 3 2 1 

S6  G  15  2 5 2 1 2 6 5 2 5 2 

Pour rendre compte de ces séries il faut les décrire :

- Forme de la série : symétrie, cloche, Gauss…

- Valeur centrale : mode, moyenne, médiane

- Indice de dispersion : variance, écart type, étendu.

*) les représentations graphiques

2.1. Le diagramme en bâton

Dans le diagramme en dessous réalisé sous Microsoft Excel, on représente les pourcentages

de correction en sport collectif et individuelle pour 3 sujets.

Page 8: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

D'autres représentations sont également possibles

Par exemple: le camembert

2.2 L’histogramme

L'histogramme est une représentation graphique (en tuyaux d'orgue) de la distribution de

fréquences d'une variable quantitative.

Souvent, les «tuyaux» sont accolés pour montrer la continuité de la variable.

La hauteur du tuyau est proportionnelle à la fréquence de la classe correspondante.

2.3 Polygone de fréquences

Le polygone de fréquences est une autre représentation graphique (en ligne brisée) de la

distribution de fréquences d'une variable quantitative.

Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents par un

segment de droite.

Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal.

Page 9: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Effectifs cumulés

L’effectif cumulé sert lors du calcul de la médiane ou du quantilage (quand on découpe les

variables en tranches).

Poids 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77

effectif 1 0 0 1 0 1 1 2 0 0 0 1 0 2 2

effectif

cumulé 1 1 1 2 2 3 4 6 6 6 6 7 7 9 11

Après on précède à un regroupement par variable :

tailles inf. ou égales à 162 167 172

eff cumulé 2 6 11

On procède ainsi par regroupements pour ne pas avoir de trop grands tableaux. L’effectif

correspond au nombre de chaque tranche de la variable ; on peut prendre la valeur en % alors

c’est de la fréquence.

On peut réunir les deux courbes sur le même graphique.

Dans certaines situations, il est plus intéressant de savoir le nombre d'observations se situant au-dessous ou au-dessus de certaines valeurs, plutôt qu'à l'intérieur d'un intervalle donné.

Une simple transformation du tableau de fréquences précédent permet de construire

le tableau de fréquences cumulées suivant :

Page 10: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Résultat Nombre d’élèves

(fréquence cumulée)

Moins de 50 4

Moins de 60 10

Moins de 70 20

Moins de 80 24

Moins de 90 28

Moins de 100 30

À cette distribution correspond également une représentation graphique appelée parfois ogive.

Une telle figure fournit des données descriptives intéressantes telles que la valeur médiane,

i.e. le point séparant le groupe en deux parties égales.

Page 11: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

SURVOL DES MESURES DE SYNTHÈSE

MESURES DE TENDANCE CENTRALE ° Objectif: résumer en un seul nombre la valeur typique

Moyenne (arithmétique): somme des valeurs divisée par le nombre d'observations Médiane: valeur pour laquelle 50% des mesures sont au-dessous (ou au-dessus)

Mode: valeur observée la plus fréquente (pas nécessairement unique) Graphiquement: supposons que la moyenne de la distribution A

est supérieure à la moyenne de la distribution B

Note importante

Deux distributions peuvent avoir exactement la même moyenne, sans pour autant être identiques.

Elles peuvent différer, par exemple, au plan de l'éparpillement (dispersion) des valeurs autour de la moyenne.

Exemple: l'âge dans la population ou l'âge des universitaires (?)

MESURES DE DISPERSION ° Objectif: quantifier le taux de dispersion des données autour de la valeur centrale

Étendue: différence entre la valeur la plus grande et la valeur la plus petite Écart interquartile: différence entre le premier et le troisième quartile Écart type: mesure de dispersion la plus fréquente (distances au carré) Graphiquement: Supposons que la distribution A et la distribution B

ont la même moyenne, mais que la distribution B possède un taux de dispersion plus grand que la distribution A

Page 12: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

LA MOYENNE ARITHMÉTIQUE

Définition: la moyenne arithmétique d'un ensemble de données est la somme des valeurs obtenues divisée par le nombre d'observations

La formule générale est

μ (mu) = moyenne (d'une population) N = nombre d'unités d'observation

Exemple

LA MÉDIANE Définition: La médiane, notée Md, est la valeur qui sépare une série

d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations La formule générale est différente selon que

le nombre d'observations (N) est pair ou impair Si N est impair,

dans le rangement ascendant (ou descendant)

Exemple: Si on a les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors

Si N est pair

la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant)

En formule, soit N = 2K, donc K = N/2; alors

Exemple: Pour les notes du professeur Le compte, il y a N = 30 observations.

Par conséquent, K = 30/2 = 15 et, dans le classement ascendant, la 15e valeur était 65 et la 16e valeur était aussi 65, d'où

LE MODE

Définition: Le mode, noté Mo, est la valeur la plus fréquente dans une série d'observations Note: le mode n'est pas nécessairement unique

Exemples l d é i 6 6 8 8

Page 13: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

ECHELLE D’INTERVALLE ECHELLE ORDINALE

ECHELLE NOMINALE 

Définition : Les intervalles entre 2 nombres qui se suivent sont toujours égaux. Ex : taille, âge, notes (justifier : profs font des moyennes), moyennes (observées/théoriques) résultats test de connaissances, test de lecture, consommation de cigarettes avant/après stage, température, ancienneté, ….

Définition : Ordre hiérarchique entre les variables, attribué en fonction de notre propre subjectivité. RANGS. Ex : score, notes (si pas justifié intervalles inégaux) opinion subjective (hiérarchie), diplôme (si hiérarchie), rangs, un peu, beaucoup, comportement (violence, autonomie …) nombre de livres lus Classer dans différentes catégories (co. échelle nominale) mais hiérarchie entre classe de sujets (ex. ranger par ordre croissant ou décroissant des résultats à un exercice, ordre d’arrivée des étudiants ;…).

Relation d’ordre.

Définition : Pas de hiérarchie quantitative entre les modalités de la variable pas de quantité. Ex : variable nom, sexe, oui/non, réussite/échec, pile/face, nationalité, favorable/peu favorable, jeune/vieux, pour/contre/S.O., formation initiale, diplôme (si pas de hiérarchie), + de 50 ans/- de 50 ans, connaissance bonne ou mauvaise, niveau de formation, … Elle permet le simple dénombrement des sujets selon un critère qualitatif.

Outils : Les moyennes La médiane La loi normale (normalité des distributions) Les intervalles de confiance :

• sur moyenne, • sur %, • sur écart type.

On peut faire des stats (descriptives) inférentielles.

Outils : Médiane qui permet de transformer une donnée d’échelle d’intervalle (ex. 28 ans, 30, 39, 40,…) en une échelle nominale (les – 50 ans et les + 50 ans ou jeune/vieux). C’est une valeur qui occupe la place du milieu lorsqu’on énumère la totalité des valeurs du groupe, soit dans ordre croissant, soit décroissant. ! pas de moyenne car écrase les intervalles qui ne sont pas égaux.

Outils : Pourcentages Histogrammes Secteurs angulaires Effectifs.

Test : Le t de Student Permet de comparer des moyennes (2 observées /1observée +1 théorique) Le r de Bravais Pearson (correlation)

Test : Le U de Mann-Withney (non-paramétrique). Le U de Mann-Withney ne pouvant porter sur des moyennes, nécessite la transformation des données de scores (= notes) en données de rang. Le p de Spearman (correlation) rangs

Test : Le CHI2 : permet de prendre une décision quant au lien qui existerait entre les variables.

Page 14: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Chapitre 2 : Les tests statistiques Introduction : le test statistique donne une règle permettant de décider si l’on peut rejeter une

hypothèse, en fonction des observations relevées sur des échantillons.

Les tests peuvent être classés selon leur finalité, le type et le nombre des variables d’intérêt,

l’existence d’hypothèses a priori sur les distributions des données, le mode de constitution des

échantillons.

Les tests selon leur finalité

La finalité définit l’objectif du test, les hypothèses que l’on veut opposer, l’information que

l’on souhaite extraire des données.

Le test de conformité consiste à confronter un paramètre calculé sur l’échantillon à une

valeur pré-établie. On parle alors de test de conformité à un standard. Les plus connus sont

certainement les tests portant sur la moyenne ou sur les proportions. Par exemple, dans un jeu

de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d’apparaître. On demande à un

joueur de lancer (sans précautions particulières) 100 fois le dé, on teste alors si la fréquence

d’apparition de la face 3 est compatible avec la probabilité 1/6. Si ce n’est pas le cas, on peut

se poser des questions sur l’intégrité du dé.

Le test d’adéquation consiste à vérifier la comptabilité des données avec une distribution

choisie a priori. Le test le plus utilisé dans cette optique est le test d’adéquation à la loi

normale.

Le test d’homogénéité (ou de comparaison) consiste à vérifier que K (K >= 2) échantillons

(groupes) proviennent de la même population ou, cela revient à la même chose, que la

distribution de la variable d’intérêt est la même dans les K échantillons.

Le test d’association (ou d’indépendance) consiste à éprouver l’existence d’une liaison entre

2 variables. Les techniques utilisées diffèrent selon que les variables sont qualitatives

nominales, ordinales ou quantitatives.

Les tests selon le type et le nombre de variables

On distingue généralement 3 principaux types de variables. Une variable qualitative

nominale prend un nombre restreint de valeurs (modalités), il n’y a pas d’ordre entre ces

valeurs, l’exemple le plus connu est le sexe, il y a 2 valeurs possibles Homme et Femme. Une

variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les

valeurs. Un exemple naturel est la préférence ou la satisfaction : peu satisfait, satisfait, très

satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les

Page 15: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

écarts. Enfin, une variable quantitative prend théoriquement un nombre infini de valeurs,

l’écart entre 2 valeurs a un sens. Un exemple simple serait le poids, la différence de poids

entre 2 personnes est quantifiable, on sait l’interpréter.

Le type de données joue un rôle très important. Il circonscrit le cadre d’application des

techniques. Pour un même objectif, selon le type de données, nous serons emmenés à mettre

en œuvre des tests différents. Par exemple, pour mesurer l’association entre 2 variables : si

elles sont quantitatives, nous utiliserons plutôt le coefficient de corrélation de Pearson ; si

elles sont qualitatives nominales, le coefficient de corrélation n’a pas de sens, on utilisera

plutôt des mesures telles que le V de Cramer ou le t de Tschuprow.

Principalement concernant les tests de conformité et d’homogénéité, on dit que le test est

univarié s’il ne porte que sur une variable d’intérêt (ex. comparer la consommation de

véhicules selon le type de carburant utilisé), il est multivarié s’il met en jeu simultanément

plusieurs variables (ex. la comparaison porte sur la consommation, la quantité de CO2 émise,

la quantité de particules émises, etc.).

Tests paramétriques et tests non paramétriques

On parle de tests paramétriques lorsque l’on stipule que les données sont issues d’une

distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à

l’aide de paramètres estimés sur l’échantillon, la procédure de test subséquente ne porte alors

que sur ces paramètres. L’hypothèse de normalité sous jacente des données est le plus souvent

utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution.

Concernant les tests d’homogénéité par exemple, pour éprouver l’égalité des distributions, il

suffira de comparer les moyennes et/ou les variances.

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des

données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à

estimer les paramètres des distributions avant de procéder au test d’hypothèse proprement dit

n’est plus nécessaire.

Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en

rangs. L’appellation tests de rangs est souvent rencontrée. Lorsque les données sont

qualitatives, seuls les tests non paramétriques sont utilisables.

La distinction paramétrique – non paramétrique est essentielle. Elle est systématiquement

mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse

sur les distributions des données, élargissent le champ d’application des procédures

statistiques. En contrepartie, ils sont moins puissants lorsque ces hypothèses sont compatibles

avec les données.

Page 16: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Démarche scientifique

– Poser une hypothèse

– Conduire une expérience

– Analyser la compatibilité de cette hypothèse avec les observations issues de

l’expérience

Lors de cette démarche il faut distinguer :

• Hypothèse nulle : l’hypothèse dont cherche à savoir si elle peut être rejetée, notée H0

souvent définie comme une absence de différence.

• Hypothèse alternative : hypothèse concurrente, notée H1.

Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu des résultats

d'un échantillon.

Soient H0 et H1, ces deux hypothèses (H0 est appelée hypothèse nulle, H1 hypothèse

alternative), dont une et une seule est vraie. La décision aboutira à choisir H0 ou H1. Il y a

donc 4 cas possibles schématisés dans le tableau suivant avec les probabilités

correspondantes :

Décision \ Vérité H0 H1

H0 1 - α β

H1 α 1 - β

α Et β sont les probabilités d'erreur de première et deuxième espèce :

• α probabilité de choisir H1, alors que H0 est vraie. Autrement dit, si l'on rejette

l'hypothèse vraie, on commet une erreur de première espèce (ou erreur de type I). α

symbolise le seuil de signification. Traditionnellement, on favorise deux seuils : le

premier α = 0.05 correspond à un événement de cinq chances sur cent de se produire,

le second α = 0.01 correspond à une chance sur cent.

• β probabilité de conserver H0 alors que H1 est vraie. Si l'on accepte une hypothèse

fausse alors on commet une erreur de deuxième espèce (ou erreur de type II).

(1-α) est la probabilité de rejeter H1 en ayant raison.

(1 - β) est la probabilité d'opter pour H1 en ayant raison. (1 - β) s'appelle "puissance du

test". Généralement l'hypothèse alternative H1 correspond à l'hypothèse que l'on désire

Page 17: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

mettre en évidence. De ce fait, (1 - β) est la probabilité d'obtenir le résultat que l'on

souhaite démontrer.

La puissance d’un test statistique, est la probabilité de rejeter l’hypothèse nulle si elle est

fausse.

La puissance (1−β) dépend à la fois :

o de l’hypothèse alternative : plus la différence à mettre en évidence est

importante, meilleure est la puissance du test

o de la taille de l’échantillon : la puissance croît avec le carré de la taille de

l’échantillon

Elle dépend aussi de la variabilité du critère (quantitatif).

2.1 Les tests paramétriques

Un test est dit paramétrique si son objet est de tester certaine hypothèse relative à un ou

plusieurs paramètres d'une variable aléatoire de loi spécifiée ou non. Dans la plupart des cas,

ces tests sont basés sur la considération de la loi normale et supposent donc explicitement

l'existence d'une variable aléatoire de référence X suivant une loi de Laplace-Gauss ou un

effectif important (>30, >40, >50 ?...). La question se pose alors de savoir si les résultats

restent encore valables lorsque X n'est pas normale : si les résultats sont valables, on dit que le

test est robuste. La robustesse d'un test par rapport à un certain modèle est donc la qualité de

rester relativement insensible à certaines modifications du modèle : on constatera que les tests

sur les moyennes sont robustes.

a. Le test de Student Ce test permet de comparer une moyenne d'un échantillon à une valeur donnée, de comparer

les moyennes de deux échantillons indépendants ou de deux échantillons appariés.

L'emploi de ce test reste subordonné en général à deux conditions d'application importantes :

la normalité et le caractère aléatoire et simple des échantillons. La première condition n'est

toutefois pas essentielle lorsque les échantillons ont des effectifs suffisants (en pratique, la

valeur de 30 est souvent retenue) pour assurer la quasi-normalité des distributions

d'échantillonnage des moyennes. En plus, de ces deux conditions, nous devrons supposer,

dans certains tests relatifs aux moyennes, l'égalité des variances des échantillons considérées.

i. Cas d'un seul échantillon Egalement appelé par certains auteurs test de conformité, ce test a pour but de vérifier si

l'échantillon à notre disposition provient bien d'une population avec la moyenne spécifiée, µ0,

Page 18: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

ou s'il y a une différence significative entre la moyenne de l'échantillon et la moyenne

présumée de la population.

Les hypothèses que l'on souhaite tester sont :

• hypothèse nulle : H0 : µ = µ0

• hypothèse alternative : Elle prend trois formes :

o H1 : µ > µ0 (test unilatéral à droite)

o H1 : µ < µ0 (test unilatéral à gauche)

o H1 : µ ≠ µ0 (test bilatéral symétrique)

ii. Conditions d'application du test de Student

Le caractère de l'échantillon étant supposé aléatoire, seule l'hypothèse de normalité de la

variable X doit être vérifiée par exemple avec le test de Kolmogorov-Smirnov ou plus

simplement graphiquement avec un histogramme ou un diagramme de normalité tel la droite

de Henry (que nous verrons ultérieurement). Cependant, on admet que ceci est vrai pour un

effectif suffisamment important (n > 30).

Calcul :

Soit X une variable aléatoire distribuée selon un loi normale, la variable aléatoire définie ci-

dessus suit une loi de Student avec n - 1 degrés de liberté.

tobs =

Où µ0 est la moyenne de la population spécifiée par H0, est la moyenne de l'échantillon, S²

est la variance de l'échantillon et n la taille de l'échantillon

On compare la valeur calculée de t (tobs) avec la valeur critique appropriée de t avec n - 1

degrés de liberté. On rejette H0 si la valeur absolue de tobs est supérieure à cette valeur

critique.

Les valeurs critiques pour différents degrés de liberté et différents seuils de signification sont

données par la table de Student. Pour un test unilatéral, nous prendrons la valeur tn-1,1-α de la

table et pour un test bilatéral, nous prendrons tn-1,1-α /2. (La notation de t varie selon les

auteurs). Nous pouvons, par exemple, la trouver sous la forme tα (2), n et tα (1), n avec (2) et (1)

correspondant respectivement à un test bilatéral et à un test unilatéral, et n étant le degré de

liberté)

1.1.1.2 Cas de deux échantillons indépendants

Etant donné deux échantillons de taille n1 et n2, peut-on admettre qu'ils ont été prélevés dans

Page 19: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

une même population relativement à la variable étudiée, ces deux échantillons ayant été

prélevés indépendamment l'un de l'autre ?

Les hypothèses à tester sont :

• hypothèse nulle : H0 : µ1 = µ2

• hypothèse alternative qui prend trois formes :

o H1 : µ1 > µ2 (test unilatéral à droite)

o H1 : µ1 < µ2 (test unilatéral à gauche)

o H1 : µ1 ≠ µ2 (test bilatéral)

Conditions d'application :

• Les deux échantillons sont indépendants entre eux, sont aléatoires et ont n1 et n2 unités

indépendantes. Cette condition est d'ordinaire satisfaite en utilisant une procédure

d'aléatorisation (ou de randomisation). Procédure pour laquelle on affecte au hasard

chaque individu à un groupe expérimental).

• La variable aléatoire suit une loi normale. Ce qui est vrai pour des effectifs supérieurs

à 30.

• Il est aussi nécessaire de vérifier l'égalité des variances des échantillons (grâce au test

de Fisher). Cette condition est indispensable pour des effectifs inégaux.

Calcul :

On calcule la valeur t observé (tobs) qui suit une variable aléatoire de Student à (ν = n1 + n2 -2)

degrés de liberté.

tobs =

où et sont les moyennes des deux échantillons, Sp² la variance commune.

Cette dernière statistique correspond à la variance σ ² de la population parentale. Elle est égale

à :

Sp² = =

Si les effectifs des échantillons sont égaux, la valeur de t devient :

Page 20: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

tobs =

La valeur de t est comparée à la valeur critique appropriée de t (dans la table de Student) avec

(n1 + n2 - 2) degrés de liberté. On rejette H0 si la valeur absolue de tobs est supérieure à cette

valeur critique. Si le test est unilatéral, nous prendrons la valeur tn1 + n2 - 2,1-α (ou tα (2), ν) de la

table de Student. S'il est bilatéral, nous prendrons la valeur tn1+n2-2,1-α /2 (ou tα (1), ν).

2.1.1.3 Cas de deux échantillons appariés

Le test de Student pour observations pariées sert à comparer les moyennes de deux

populations, dont chaque élément de l'une des populations est mis en relation avec un élément

de l'autre.

Par exemple, il peut s'agir de comparer deux traitements, les données étant considérées

comme des paires d'observations (première observation de la paire recevant le traitement 1 et

deuxième observation recevant le traitement 2).

Aspects mathématiques :

Soit xij l'observation j pour la paire i (j = 1,2 et i = 1,2,...,n). Pour chaque paire d'observations

on calcule la différence di = xi2- xi1

Le test statistique est défini par :

t =

où n est le nombre de paires d'observations, est la moyenne des différences entre les

observations et Sd² la variance.

Le test de Student pour observations pariées est un test bilatéral. Les hypothèses sont :

• H0 : µ1 - µ2 = 0 (il n'y a pas de différence entre les traitements)

• H1 : µ1 - µ2 ≠ 0 (il y a une différence entre les traitements)

On rejette l'hypothèse nulle au seuil de signification α si : |tobs| > tn-1,1-α /2 où tn-1,1-α /2 est la

valeur de la table de Student avec n - 1 degrés de liberté.

Conditions d'application :

• les échantillons ont été tirés aléatoirement

Page 21: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• la population des différences doit suivre une loi de Gauss. Cette condition est moins

restrictive que celle de normalité des deux populations.

Puissance du test :

Pour calculer la puissance du test, on utilise la même procédure que pour le cas d'un seul

échantillon en remplaçant par et S² par Sd². ce qui donne l'équation :

tβ (1), ν = - tα (2), ν

2.1.2 Le test de Fisher :

Utilisé pour tester l'égalité de deux variances, il est très sensible à la non-normalité des

échantillons (on suppose aussi que les échantillons sont aléatoires et ont été prélevés

indépendamment les uns des autres dans deux populations). Le principe de ce test est de

calculer le rapport des variances ci-dessous (avec la variance la plus grande au dénominateur)

et de la comparer à la variable donnée par la table de Fisher-Snedecor avec n1 - 1 et n2 - 1

pour paramètres, correspondant aux degrés de liberté.

Fobs =

où n1 et n2 sont les effectifs des deux échantillons et S1² et S2² les variances.

Avec Fobs > 1

si Fobs ≤ F(n1-1,n2-1;1-α ) on accepte l'hypothèse nulle H0 : σ 1² = σ 2² (σ 1² et σ 2² sont les

variances des populations "parentales") sinon on rejette H0.

Remarques :

Pour des effectifs égaux la valeur de F calculée se simplifie :

Fobs =

• Si on examine la table de Fisher, on remarque qu'il est difficile de rejeter l'hypothèse

d'égalité des variances. Par exemple, afin de rejeter l'égalité des variances de deux

échantillons de 20 sujets chacun, le rapport des variances, avec un α de 0.05, doit être

supérieur à 2.12, ce qui correspond à une marge très importante. Autre exemple, pour

2 échantillons de 100 sujets chacun, le rapport doit être supérieur à 1.39, ce qui est

encore très important.

Page 22: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• Dans le cas d'échantillons non gaussiens, ce test n'est plus valable, mais on a le résultat

capital suivant qui permet de tester µ1 = µ2 : pour n1 et n2 assez grand (> 30), on peut

quand même appliquer le test de Student que σ 1 soit différent ou non de σ 2. Le test

de Student est dit robuste.

2.1.3 Les coefficients de corrélation

1) Le coefficient de corrélation de Bravais Pearson

Il permet de mesurer l'intensité de la liaison entre deux caractères quantitatifs. C'est donc

un paramètre important dans l'analyse des régressions linéaires (simples ou multiples).

Il se calcule à partir de la covariance et des écart-types : r =

Ce coefficient varie entre -1 et +1 :

• une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation

linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens);

• une valeur proche de -1 montre également une forte liaison mais la relation linéaire

entre les deux caractères est décroissante (les variables varient dans le sens contraire);

• une valeur proche de 0 montre une absence de relation linéaire entre les deux

caractères.

Lorsque r est calculé sur un échantillon, on est amené à tester sa significativité. Pour un

risque d'erreur α fixé, celle-ci varie en fonction du nombre d'individus de la distribution.

Quand ce nombre d'individus augmente, le seuil inférieur de significativité s'abaisse.

La table fournit les valeurs r critiques au-delà desquelles les coefficients de corrélation de

Pearson obtenus sont significatifs. Pour des échantillons de taille n, on prendra (n-2)

comme degré de liberté.

Remarques

Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il

existe une relation de cause à effet entre les deux variables. La corrélation peut en effet

être liée à une troisième variable, qui agit de manière indépendante sur les deux premières.

Pour contrôler l'influence d'autres variables, il est nécessaire de procéder à des

corrélations partielles (voir ci après).

De même, un faible coefficient de corrélation ne signifie pas forcément l'indépendance

des deux caractères. Il se peut que la relation entre ces deux caractères soit non linéaire

Page 23: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

(elle peut être parabolique, logarithmique ou exponentiel …).

La corrélation est à ce niveau essentiellement descriptive (et non explicative).

2) Le coefficient de détermination r² :

Ce coefficient est le carré du coefficient de corrélation. Il traduit la qualité d'une

régression en résumant la part de l'information totale prise en compte par le modèle de

régression.

r² =

Par exemple, r² = 0.87 : le modèle de régression prend en compte 87% de l'information

contenue dans la distribution.

100% = 87% + 13%

Information totale

de la distribution Y

Information prise en

compte par la régression Information résiduelle

3) Le corrélation multiple :

Le coefficient de corrélation multiple R exprime l'intensité de la liaison entre la variable à

expliquer et l'ensemble des variables explicatives (nommées encore régresseurs).

4) Les corrélations partielles :

Comme énoncé précédemment, cette corrélation exprime la liaison entre deux paramètres, en

contrôlant l'influence d’un troisième paramètre.

Par exemple, on peut rechercher la corrélation entre la taille et le poids pour des sujets d'âge

donné.

Pour trois variables, le coefficient de corrélation partielle peut être calculé à partir des

coefficients de corrélation simple :

r12-3 =

Bien sûr, il est possible de calculer les deux autres coefficients de corrélation partielle r13-2 r23-

1.

Les calculs pour un nombre supérieur à trois variables sont très lourds : l'emploi des

ordinateurs est ici la bienvenue.

Un coefficient de corrélation partielle se teste comme un coefficient de corrélation simple

avec n p1 degrés de liberté.

Page 24: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Ce coefficient est très utile lors des analyses de régressions multiples. Au coefficient de

corrélation multiple, il convient de lui associer les coefficients de corrélation partielle. En

effet, quand les variables explicatives sont corrélées entre elles, il est indispensable de

connaître les coefficients de corrélation partielle entre la variable à expliquer (Y) et chacune

des variables explicatives (X1, X2, X3…Xj). Un coefficient de corrélation partielle entre Y et

un des régresseurs indique l'intensité de la relation spécifique, compte tenu des autres

variables explicatives présentes.

Par exemple, si l'on recherche pour un ensemble de stations (individus), la liaison entre la

production de la biomasse (Y), la pluviosité (X1) et l'ensoleillement (X2), pluviométrie et

ensoleillement étant partiellement liée, il est difficile de connaître le rôle de chacun des deux

facteurs retenus. Le coefficient de corrélation partielle entre Y et X1 indique l'intensité de la

relation entre biomasse et pluviosité, en maintenant l'ensoleillement constant (la variable X2

est prise en compte). Un coefficient de corrélation partielle est donc défini en fonction des

autres régresseurs.

5) Comparaison de coefficients de corrélation de Bravais - Pearson :

La comparaison de coefficients de corrélation n'est possible que si ces coefficients suivent une

distribution normale. Il est donc nécessaire, dans un premier temps, de normaliser les

coefficients de corrélation en utilisant la transformation de Fisher. On applique la formule :

z =

Alors que r varie de -1 à +1, z varie entre 0 et ∞.

Cette transformation normalise les coefficients de corrélation mais présente un autre avantage:

elle permet de stabiliser la variance de la distribution initiale.

Pour comparer deux coefficients de corrélation, on calcule : Z = où

=

n1 et n2 étant les effectifs de chacun des échantillons impliqués dans le calcul des coefficients

de corrélation.

Si n1 = n2 alors =

La valeur de Z suit une distribution de Student. Comme pour une comparaison de deux

moyennes, si on choisit un test bilatéral, l'hypothèse nulle correspond à r1= r2 et l'hypothèse

Page 25: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

alternative à r1 ≠ r2 . On apprécie la signification de la valeur de Z avec celle lue dans la table

de Student (Zα (2) = tα (2), ∞ ). Ici, le degré de liberté est égal à l'infini.

2.1.4 Le test d'indépendance du chi carré :

Le test d'indépendance du chi-carré vise à déterminer si deux variables observées sur un

échantillon sont indépendantes ou non. Les variables étudiées sont des variables qualitatives

catégorielles.

Le test d'indépendance s'effectue sur la base d'une table de contingence.

2.2 Les tests non paramétriques :

Un test non paramétrique est un test d'hypothèse pour lequel il n'est pas nécessaire de

spécifier la forme de la distribution de la population étudiée. Il faut cependant en général que

les observations soient indépendantes, c'est-à-dire que la sélection d'un quelconque individu

dans la population en vue de former l'échantillon ne doit pas influencer le choix des autres

individus.

Les méthodes non paramétriques requièrent peu d'hypothèses concernant la population

étudiée. Elles ignorent notamment l'hypothèse classique de la normalité de la population.

Ces tests non paramétriques peuvent être appliqués à de petits échantillons.

Ils peuvent s'appliquer à des caractères qualitatifs, à des grandeurs de mesure, à des rangs de

classement ...

Ils peuvent s'appliquer à des données incomplètes ou imprécises.

Des recherches théoriques ont montré que l'efficacité des tests non paramétriques n'est que

légèrement inférieure à celle de leurs équivalents paramétriques quand la distribution de la

population étudiée est spécifiée, par exemple la loi normale. Elle est en revanche supérieure à

celle des tests paramétriques quand la distribution de la population dévie sensiblement de la

distribution spécifiée (normale).

2.2.1 Méthodes graphiques et tests statistiques permettant de vérifier la normalité d'un

échantillon

Rappels : La loi normale, ou Loi de Gauss ou encore de Laplace-Gauss est la loi d'une

variable X continue, variant de - ∞ à + ∞ , dont la densité de probabilité f(x) est :

f(x) =

La loi normale dépend de deux paramètres : la moyenne m et l'écart-type σ .

La courbe représentative de f(x) est "la courbe en cloche", symétrique par rapport à x = m.

Cette loi normale est notée N (m, σ ). La fonction de répartition est :

Page 26: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

F(x) =

Toute loi normale N (m, σ ) se ramène par le changement de variable à une loi normale de

moyenne nulle et u =

D’écart-type unité, dite loi normale réduite N (0, 1) dont les fonctions de densité de probabilité f(u) et

de répartition F(u) sont :

f(u) = et F(u) =

Grâce aux tables de la loi normale réduite, il est possible de répondre à toutes les questions

que l'on peut se poser à propos d'une loi normale N (m, σ) quelconque.

On peut ainsi déterminer la probabilité P pour que la variable X soit comprise dans un certain

intervalle, en tirant partie de la formule résultant du changement de variable

u = avec u1 = et u2 =

P(x1 < X ≤ x2) = F(x2) - F(x1) = F(u2) - F(u1)

La symétrie de la fonction f(x) permet de simplifier la table donnant les valeurs F(u) en

retenant seulement les valeurs pour u ≥ 0 de sorte que pour une valeur négative "-u1", on a :

F (-u1) = 1 - F(u1)

2.2.1.1 La droite de Henry :

C'est une procédure pratique et rapide, permettant de vérifier la présomption de normalité

pour une population dont on observe un échantillon.

Cette procédure graphique ne constitue pas, à proprement parler, un test statistique.

Néanmoins, le tracé d'un graphique de Henry peut suffire dans de nombreux cas où l'on doit

Page 27: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

s'assurer de la normalité d'une distribution d'échantillonnage.

Le principe de la méthode repose sur la liaison linéaire entre une variable normale x

(moyenne m, écart-type σ ) et la variable réduite u (on rappelle que u = ).

2.2.1.2 Les tests de normalité

La plupart des méthodes de test paramétriques requièrent la normalité des données. Il est donc

important de disposer d'une méthode permettant de vérifier cette normalité. Une approche

élégante est le test de conformité de Kolmogorov-Smirnov.

Ce test non paramétrique consiste à comparer la distribution de fréquences relatives cumulées

d'une variable observée avec la distribution théorique que cette variable aurait si elle était

distribuée normalement. On superpose les deux distributions, on cherche la classe où l'écart

entre la distribution théorique et la distribution observée est le plus grand, et on vérifie (dans

une table conçue à cet effet ou en calculant directement la valeur critique Dα, voir plus bas) si

cet écart est significativement grand, c'est-à-dire si l'hypothèse de normalité peut être rejetée

au seuil considéré.

L'idée est que, dans une distribution relative cumulée observée, chaque classe peut diverger

un peu (en plus ou en moins) par rapport au niveau qui serait le sien sous une distribution

normale, mais si une classe est particulièrement éloignée de sa position théorique, ça signifie

qu'une ou plusieurs autres le sont aussi (dans l'autre sens), ce qui veut dire que c'est l'ensemble

de la distribution qui n'est pas conforme à la loi normale.

Remarque: les premières tables de Kolmogorov-Smirnov se basaient sur le fait qu'on

connaissait les vrais paramètres de la distribution théorique (moyenne et écart-type). Ce n'est

pratiquement jamais le cas, et en cas de calcul fondé sur des paramètres estimés à partir des

données, les tables originales sont trop conservatrices (on accepte trop souvent l'hypothèse

nulle de normalité). Liliefors (1967), puis Stephens (1974) ont proposé des tables corrigées.

Cependant, il est facile de calculer soi-même les valeurs critiques, de sorte qu'on peut

aisément se passer de tables de référence.

Calcul :

Les étapes de calcul (détaillées par Scherrer) sont les suivantes:

1 Calculer les fréquences relatives cumulées de la distribution observée.

2 Calculer la distribution de fréquences relatives cumulées qu'aurait une variable possédant

la même moyenne et le même écart-type que la distribution réelle, mais qui serait, elle,

distribuée normalement.

Page 28: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

3 Pour chaque classe, soustraire la fréquence cumulée observée de la fréquence cumulée

théorique, et chercher la plus grande valeur absolue de la série.

4 Trouver la valeur critique Dα au seuil choisi (table ou calcul).

5 Comparer la valeur obtenue en 3 (D observé) avec celle obtenue en 4 (Dα). Si le D

observé est plus grand ou égal à Dα, on rejette l'hypothèse nulle de normalité au seuil choisi.

Calcul de la valeur critique (Dα): on trouve une table de valeurs corrigées selon Liliefors

(1967) et Stephens (1974) chez Legendre et Legendre (1998), p. 834 (attention, avant-dernière

colonne fausse). Mais si n>50 il est facile de calculer soi-même les valeurs critiques par les

formules suivantes:

• pour α = 0.05: D0.05

= 0.895/S

• pour α = 0.01: D0.01

= 1.035/S

Où S = n − 0.01 + 0.85

n étant le nombre d'individus (et non n de classes).

On trouvera dans un document annexe des indications résumées pour le calcul manuel du test

de Kolmogorov-Smirnov pour données groupées en classes, basées sur le tableau de Scherrer

2007 p. 640.

Test de Kolmogorov-Smirnov pour données non groupées en classes

Le test de Kolmogorov-Smirnov peut aussi s'appliquer à de petits échantillons, sans avoir à

regrouper les données en classes. Le développement est donné par Sokal & Rohlf (1981, p.

716).

Dans ce cas, chaque observation représente une "classe" à elle seule (une marche dans

l'histogramme de fréquences cumulées). L'échelle de la variable est reportée en abscisse, de

sorte que c'est la largeur des marches qui varie en fonction de la valeur prise par la variable

dans chaque observation (les marches ont toutes la même hauteur).

L'exemple de Sokal et Rohlf montre les masses en grammes de 12 crabes. Les observations

sont placées par ordre croissant de masse. La figure et le tableau de données, avec des

commentaires en surimpression, sont fournis dans deux documents séparés. Les "marches

d'escalier" représentent les données observées, la courbe continue représente la fonction

attendue en cas de normalité.

Les calculs visent à trouver l'écart le plus grand entre les données observées et attendues. On

doit pour ce faire calculer les écarts audessus (d+) et en-dessous (d

–) de la courbe.

Les étapes de calcul sont les suivantes:

Page 29: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• Classement des données brutes par ordre croissant.

• Centrage-réduction des données brutes (on obtient les zi).

• Recherche, dans la table IV de Scherrer de l'aire de la courbe normale centrée-réduite

correspondant aux valeurs zi ci-dessus.

• Calcul des fréquences observées cumulées (voir col. 4 du tableau).

• Calcul des différences absolues.

• Comparaison de la plus grande valeur trouvée avec le D critique Dα .

Remarque: il existe d'autres tests de normalité que celui de Kolmogorov-Smirnov,

notamment celui de Shapiro-Wilk. Plusieurs études, rapportées par Legendre et Legendre

(1998, p.183), ont tenté de déterminer lequel était le meilleur. Selon Dutilleul & Legendre

(1992), les tests de Kolmogorov-Smirnov et Shapiro-Wilk se comportent bien dans la majorité

des situations. Le test de Kolmogorov-Smirnov est, en particulier, robuste en présence

d'autocorrélation spatiale.

Test de Shapiro-Wilk

Ce test est une très bonne alternative au test de Kolmogorov-Smirnov. La théorie de ce test est

présentée par Legendre & Legendre (1998) p. 181. Elle ne fait pas partie de la matière du

cours. En quelques phrases, le test consiste à mesurer la conformité de la distribution observée

avec une distribution normale théorique, sur une représentation permettant de visualiser la

distribution de fréquence cumulée normale comme une droite (graphique à échelle

fonctionnelle normale ou probit).

2.2.2 Le test de Mann Whitney

C'est un test non-paramétrique qui permet de tester les moyennes de deux échantillons

indépendants. La réalisation du test est basée sur le classement dans un ordre croissant de

l'ensemble des observations. Ici, ce n'est donc pas indispensable que les échantillons suivent

une distribution normale : des distributions symétriques suffisent à valider le test. Ce test est

un cas particulier du test de Kruskall-Wallis.

2.2.3 Le test de Wilcoxon

C'est aussi un test sur les rangs mais il permet de tester les moyennes de deux échantillons

associés par paires. Là aussi, des distributions symétriques suffisent. Ce test est un cas

particulier du test de Friedman.

2.2.4 Le test de Kruskall Wallis

Ce test est préféré à l'analyse de variance à un facteur lorsque les hypothèses de normalité des

différents échantillons ne sont pas respectées. Il vise à tester l'égalité de plusieurs populations

Page 30: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

mais indépendantes. C'est toujours un test sur les rangs comme l'est aussi le test suivant.

2.2.5 Le test de Friedman

Ce test est utilisé pour tester l'égalité de plusieurs populations appariées lorsque l'analyse de

variance ne peut être utilisée toujours pour des raisons d'hypothèses de normalité non

respectées ou de faibles effectifs.

2.2.6 Le test du coefficient de corrélation de Spearman

Il correspond à l'équivalent non-paramétrique du test basé sur le coefficient de corrélation de

Pearson et est également un test sur les rangs.

Les coefficients de corrélation des rangs sont très utiles pour tester l'indépendance de deux

variables non normales ou lorsque l'échantillon est petit : on sait en effet qu'on ne peut

appliquer le test du coefficient de corrélation linéaire de Pearson. Les tests de corrélation sont

alors les seuls applicables, car ils ne dépendent pas de la distribution normale.

De plus ils sont robustes car insensibles à des valeurs aberrantes.

Bien sûr ces tests peuvent être appliqués dans le cas de variables ordinales.

La table de Spearman fournit les valeurs critiques au-delà desquelles les coefficients de

corrélation de Spearman obtenus sont significatifs. Pour des échantillons de taille n, on

prendra n comme degrés de liberté.

2.2.7 Le test de corrélation des rangs de Kendall

C'est l'équivalent du test du coefficient de corrélation de Spearman mais pour des observations appariées.

2. L'analyse de variance (ou Anova) L'analyse de variance (ANOVA pour Analysis Of Variance) regroupe un ensemble de

techniques de tests et d'estimation visant à optimiser des protocoles expérimentaux pour

individualiser l'influence de différents facteurs sur un paramètre à mesurer et revient dans le

cas simple à comparer plusieurs moyennes d'échantillons gaussiens.

Ces différentes techniques sont le reflet formel de plans d'expérience conçus préalablement et

pouvant être diversifiés à l'infini au gré de l'astuce des expérimentateurs. De ce fait, il existe

différentes techniques d'analyse de variance. Citons quelques exemples typiques :

• Analyse de variance à un facteur de variabilité, en principe la situation la plus simple;

• Analyse de variance à deux facteurs de variabilité;

• Méthode des blocs;

Page 31: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• Méthode dont le plan expérimental utilise des carrés latins;

• Analyse de variance sur des mesures répétées.

Les variables qualitatives susceptibles d'influer sur la distribution de la variable numérique

observée sont appelées "facteurs de variabilité" et leurs modalités "niveaux". Lorsqu'il y a

plusieurs facteurs, une combinaison de niveaux est un "traitement".

2.1 L'analyse de variance à un facteur de variabilité:

Il s'agit ici d'étudier l'influence d'un seul facteur de variabilité sur un paramètre quantitatif, ce

qui revient à comparer les moyennes de plusieurs populations supposées normales et de même

variance à partir d'échantillons aléatoires simples et indépendants les uns des autres. Cette

analyse peut être considérée comme une généralisation du test de Student.

Pourquoi délaisser le test de Student : si l'on compare toutes les moyennes entre elles, il est

nécessaire de réaliser p(p-1)/2 tests. Chacun de ces tests étant susceptibles de conclure de

façon non appropriée à une différence significative, le risque global de trouver une telle

différence à tort devient bien supérieur au 5% que l'on octroie habituellement.

Démonstration

• Différence entre erreur de type I par comparaison et erreur de type I par famille de

comparaisons :

Pour la comparaison de deux échantillons, la probabilité de ne pas commettre d'erreur

de type I vaut au seuil de .05 :

(1 - .05) = .95

• Pour trois échantillons, si on veut faire toutes les comparaisons deux à deux il faut

faire trois tests. La probabilité de ne pas commettre d'erreur de type I sur les trois

comparaisons s'obtient par le produit des probabilités, soit :

.95 * .95 * .95 = .953 = 0.86

• De manière plus générale pour k épreuves indépendantes chacune évaluées avec un

seuil α , la probabilité de ne pas commettre d'erreur de type I sur cette famille sera

donnée par la formule : (1 - α )k avec k, nombre de comparaisons par paires.

Par conséquent, la probabilité de commettre au moins une erreur de type I sur la

famille de comparaisons (chacune évaluée au seuil α) s'obtient par : 1 - 0.86 = 0.14,

plus généralement par :

Page 32: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

1 - (1 - α )k.

• Alors que nous avons 5 chances sur 100 de rejeter l'hypothèse nulle à tort pour une

comparaison, nous avons 14 chances sur 100 de rejeter à tort l'hypothèse nulle au

moins une fois pour une famille de 3 comparaisons.

Cet exemple montre qu'il faut distinguer, pour les comparaisons analytiques, 2

acceptions du seuil α :

d'une part, la probabilité de commettre une erreur de type I pour une comparaison;

et d'autre part, la probabilité de commettre au moins une erreur de type I sur une

famille de comparaisons.

p moyennesk comparaisons

par paires .05 .01

2

3

4

5

6

10

1

3

6

10

15

45

.05

.14

.26

.40

.54

.90

.01

.03

.06

.10

.14

.36

Il est donc indispensable d'utiliser une analyse de variance qui permet de réduire ce risque

d'erreur.

Procédure d'une analyse de variance:

La comparaison des moyennes se fait en deux étapes :

• un premier test permet d'accepter ou de rejeter l'hypothèse d'une égalité globale des

moyennes, en d'autres termes, s'il existe ou non un effet groupe;

• si cette hypothèse est rejetée, il est ensuite possible de rechercher dans quelle

configuration se situent les moyennes les unes par rapport aux autres. Il est donc

nécessaire de faire une étude des contrastes (tests post-hoc) pour localiser avec

précision les différences. Il n'existe malheureusement pas d'unanimité sur la conduite à

tenir pour une telle étude.

Conditions nécessaires à la validité de l'analyse de variance :

Page 33: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• nous supposerons que les populations sont normales et de même écart-type σ.

• nous admettrons que les échantillons sont aléatoires, simples et indépendants les uns

des autres. Autrement dit, les différentes observations sont indépendantes les unes aux

autres aussi bien à l'intérieur des groupes expérimentaux qu'entre les groupes.

Rappelons qu'un histogramme ou un diagramme de normalité tel la droite de Henry peut

suffire à vérifier le bien fondé des conditions de normalité.

La dernière condition est d'ordinaire satisfaite en utilisant une procédure "d'aléatorisation" (ou

de randomisation). Procédure pour laquelle on affecte au hasard chaque individu à un groupe

expérimental.

En ce qui concerne l'hypothèse de normalité, des études ont permis de conclure que l'analyse

de variance est peu sensible, dans l'ensemble, à la non-normalité des populations considérées.

Il suffit en pratique d'éviter d'employer l'analyse de variance lorsque les distributions des

populations parents sont très différentes des distributions normales (distributions en i ou en j

par exemple), et lorsque les distributions sont de formes fortes différentes d'une population à

l'autre (distribution en cloche à dissymétrie de sens opposés par exemple), surtout pour de

petits échantillons.

De même, l'hypothèse des variances ou hypothèse d'homoscédasticité est d'importance

relativement secondaire lorsque les effectifs des échantillons sont tous égaux. Dans ces

conditions, l'analyse de variance est, comme pour le test de Student, une méthode robuste, tant

en ce qui concerne la normalité qu'au point de vue de l'égalité des variances.

Il n'en est cependant pas ainsi quand les effectifs des échantillons sont variables. Le risque de

première espèce peut alors être influencé considérablement par une inégalité des variances,

surtout lorsque les échantillons d'effectifs les plus réduits correspondent aux populations de

variances maximums.

Quand certaines des conditions d'application sont loin d'être satisfaites, on peut tout d'abord

essayer de s'en rapprocher en effectuant l'une ou l'autre transformation des variables :

certaines de ces transformations permettent en effet de normaliser dans une certaine mesure

les distributions et de stabiliser leurs variances. Si cette façon ne donne pas satisfaction, on

peut aussi utiliser des tests non paramétriques, qui ne sont pas soumis à de telles restrictions

en ce qui concerne leurs conditions d'utilisation.

Rappels : principes et réalisation d'une analyse de variance

Désignons par xik les différentes valeurs observées, le symbole xik représentant d'une manière

générale la kème observation (k = 1, ..., ni) de l'échantillon extrait de la ième population (i = 1,

Page 34: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

..., p). Et désignons respectivement par i et les moyennes des différents échantillons et de

la moyenne générale :

- Le modèle observé de l'analyse de variance à un facteur de classification s'écrit pour chaque

valeur observée xik :

xik - = ( i - ) + (xik - i) (1)

variation totale = variation factorielle + variation résiduelle

Cette relation signifie que les écarts par rapport à la moyenne générale (variation totale) se

divisent en deux composantes : les écarts des moyennes des échantillons par rapport à la

moyenne générale (variation factorielle) et les écarts existant à l'intérieur des échantillons

(variation résiduelle).

Le modèle théorique de l'analyse de variance s'écrira :

(Xik - m) = (mi - m) + (Xik - mi)

ou Xik = m + ai + ε ik

avec Xik : représente la variable dépendante, m : la moyenne générale de la population

parentale, elle est estimée par , la moyenne de l'ensemble des échantillons ; ai : les écarts

factoriels, ai = mi - m, existant entre les moyennes théoriques mi des différentes populations

(ces moyennes mi sont estimées par les moyennes i des échantillons) et la moyenne m de la

population parentale. Les quantités ai sont souvent appelées effets du facteur contrôlé ou

effets principaux ; ε ik : les écarts résiduels (ε ik = xik - mi). ε ik correspond à l'erreur

expérimentale de l'observation xik. Ils suivent une distribution de Gauss N (0, σ )

Et l'hypothèse nulle Ho à tester se présente sous la forme :

• Ho : m1 = m2 = ... = mi = ... = mp = m

• ou Ho : (m - m1) = (m - m2) = ... = (m - mi) = ... = (m - mp) = 0

• ou Ho : a1 = a2 = ... = ai = ... = ap = 0

Si les écarts factoriels (= effets principaux) sont nuls alors il n'existe pas d'effet groupe.

Cette hypothèse est testée après avoir calculée la valeur F de Fisher-Snedecor et comparée à

une valeur théorique trouvée dans la table de Fisher-Snedecor. Cette valeur F se calcule de la

Page 35: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

manière suivante :

- En élevant au carré les deux membres de l'identité (1) et en les sommant pour toutes les

valeurs observées, on obtient l'équation d'analyse de variance :

(xik - )² = ( i - )² + (xik - i)²

SCEt = SCEa + SCEr

La somme des carrés des écarts totale est divisée en deux composantes additives : une somme

des carrés des écarts factorielle ou entre échantillons et une somme des carrés des écarts

résiduelle ou dans les échantillons.

• Le nombre de degrés de liberté se décompose comme suit : n - 1 = (p - 1) + (n - p)

• Les carrés moyens concernant la variation totale sont égaux à : CMt = SCEt / (n - 1)

Les carrés moyens concernant la variation factorielle sont égaux à : CMa = SCEa / (p - 1)

Les carrés moyens concernant la variation résiduelle sont égaux à : CMr = SCEr / (n - p).

Nous verrons ci-après que cette valeur intervient dans la méthode de la plus petite différence

significative.

Le rapport CMa / CMr correspond à la valeur Fobservée. C'est aussi le rapport

C'est ce rapport qui est comparé à la valeur Fthéorique lue dans la table de Fisher-Snedecor avec

p - 1 et n - p degrés de liberté.

Tableau récapitulatif :

Variation Totale Variation factorielle Variation résiduelle

Modèle observé xik - = i - + Xik - i

Equation d'analyse de variance (xik - )²

(ou SCEt)

= ( i - )²

(ou SCEa)

+ (xik - i)²

(ou SCEr)

Nombre de degrés de liberté n – 1 = p – 1 + n – p

Carrés moyens SCEt / (n - 1)

(ou CMt)

SCEa / (p - 1)

(ou CMa)

SCEr / (n - p)

(ou CMr)

Modèle théorique Xik – m = mi – m + Xik - mi

F observé F = CMa / CMr

Page 36: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Remarques :

Dans une analyse de variance, un facteur peut être à effet fixe ou à effet aléatoire.

Un facteur à effet fixe est un facteur dont les modalités ne changent pas quand l'expérience

considérée est réalisée à plusieurs reprises. Si, par exemple, on compare quatre variétés de

maïs cultivées chacune sur six parcelles de terre; dans une telle situation, le facteur "variété"

est à effet fixe, car si l'on désire dupliquer l'expérience, cela n'a pas de sens de modifier les

variétés de maïs à comparer. A l'opposé, les six parcelles de terre étant tirées au sort parmi un

vaste lot de terres, on peut imaginer qu'une nouvelle expérience conduise à une nouveau

tirage au sort, les parcelles ne seraient nécessairement plus les identiques... Dans un tel cas, le

facteur "parcelle" est, par définition, aléatoire. On pourrait néanmoins tout aussi bien décider

de conserver les six parcelles retenues pour la première expérience, le facteur "parcelle" serait

alors fixe, au même titre que le facteur "variété".

De ce fait, il existe deux modèles :

Modèle I : ANOVA à un facteur fixe

Modèle II : ANOVA à un facteur aléatoire

Dans le cas de l'analyse de variance à un facteur, la distinction entre ces deux modèles n'est

pas essentielle. Par contre, elle l'est lors des analyses de variance à deux facteurs.

Puissance de l'analyse de variance à un facteur :

Si l'ANOVA montre qu'il n'y a pas d'effet du facteur étudié, il peut être utile de connaître la

probabilité de commettre une erreur de type II (β ).

Le calcul de la puissance se fait en deux temps : le calcul du paramètre φ , puis la consultation

des graphes de Hartley et Pearson.

φ =

avec p : nombre de populations.

Exemple numérique :

p = 3 n1 = n2 = 4 n3 = 5

H0 : μ 1 = μ 2 = μ 3

Formes de variations Somme des carrés Degrés de liberté Carrés moyens

Totale 26.9231 12

Factorielle 10.3721 2 5.1866

Résiduelle 16.5500 10 1.6550

Page 37: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

F = 3.13 F0.05(1), 2, 10 = 4.10 H0 non rejetée, la puissance peut être calculée :

φ = = 1.19

avec p = 3, ν 1 = 2 et ν 2 = 10, on lit dans les graphes de Hartley et Pearson pour φ = 1.19 : 1 -

β = 0.33. Donc il y a 67 % de chances de commettre une erreur de type II (Rappelons que β

est la probabilité d'accepter l'hypothèse nulle alors que c'est l'hypothèse alternative qui est

vraie.). Comparaisons de plusieurs moyennes :

Rappelons que les comparaisons de plusieurs moyennes (c'est-à-dire les tests post hoc) ne

peuvent être réalisées que si l'analyse de variance montre un effet significatif du facteur

étudié.

Comme précisé précédemment il n'existe pas de méthodes "idéales". Plusieurs permettent

d'effectuer toutes les comparaisons de moyenne deux à deux, ce sont celles de :

1. Least Significative Difference Fisher (LSD)

2. Bonferonni

3. Newman-Keuls

4. Tukey

5. Duncan

Dans les suivantes, seules une partie de l'ensemble des comparaisons de moyenne deux à deux

seront effectuées.

1. Dunnet

2. Méthode de Gupta et Sobel

3. Méthode des contrastes par Scheffé

Dans l'exposé des différentes méthodes de comparaison, nous supposerons toujours que les

conditions de base de l'analyse de variance sont satisfaites tant en ce qui concerne le caractère

aléatoire et simple des échantillons que la normalité et l'égalité des variances des populations

parents. Cette dernière condition s'avère particulièrement importante dans les problèmes de

comparaisons multiples. Nous supposerons en outre, généralement, que les échantillons

considérés sont tous de même effectif.

2.1.1 - le test Least Significative Difference (LSD)

Cette méthode permet de comparer toutes les moyennes deux à deux grâce au test de Student.

Page 38: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

On rappelle que tobs = ou =

Toutefois, puisqu'en réalisant l'analyse de variance, on a supposé que les variances de toutes

les populations étaient égales, il ne se justifie pas de rechercher pour chacune de ces

comparaisons une nouvelle estimation de la variance commune. Il est préférable d'employer

dans tous les cas l'estimation globale fournie par le carré moyen résiduel (CMr).

D'autre part, lorsque les effectifs sont égaux, au lieu de calculer les p(p - 1)/2 valeurs de tobs et

de rejeter l'hypothèse d'égalité des moyennes chaque fois que :

tobs = ≥ t1 - α /2 , il est plus facile de calculer une fois pour toutes la quantité : t1 - α /2

,

et de rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence | i - j | est

supérieure ou égale à cette quantité. Cette expression est appelée la plus petite différence

significative.

Inconvénient de la méthode : cette approche s'appuie sur le test de Student. Or, comme nous

l'avons dit dans l'introduction relative à l'analyse de variance à un facteur, si l'on compare

toutes les moyennes entre elles, il est nécessaire de réaliser p(p-1)/2 tests. Et donc, chacun de

ces tests étant susceptibles de conclure de façon non appropriée à une différence significative,

le risque global de trouver une telle différence à tort devient bien supérieur au 5% que l'on

octroie habituellement.

Il est donc indispensable d'utiliser d'autres méthodes qui permettent de réduire ce risque

d'erreur. Plusieurs méthodes ont été proposées par différents auteurs : Bonferonni, Newman-

Keuls, Tukey, Duncan pour palier cet inconvénient.

2.1.2 - le test de Bonferonni :

Appelé aussi "test du t-corrigé", le test de Bonferonni permet de réaliser toutes les

comparaisons deux à deux des moyennes c'est-à-dire comparaisons avec p

populations groupes (ou p niveaux) en respectant globalement le risque α choisi : chacune des

comparaisons est effectuée au risque . Ce test est dit "conservateur" car il devient plus

difficile de mettre en évidence une différence significative (l'hypothèse de nullité est

Page 39: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

difficilement rejetée). La méthode de Bonferonni est néanmoins très grossière, il faut donc

généralement l'éviter.

2.1.3 Méthode de Newman Keuls :

C'est certainement la méthode la plus utilisée. L'essentiel du test de Newman-Keuls réside

dans une approche séquentielle ou l'on teste les comparaisons entre paires en choisissant la

valeur critique en fonction de l'étendue de la comparaison.

Pour simplifier l'exposé, nous admettrons que les moyennes sont numérotées en fonction de

leur ordre de grandeur : de M1 (la plus petite) à MA (la plus grande).

Principe du test de Newman-Keuls : on sélectionne la comparaison entre paire de moyennes

correspondant à la plus grande différence. (cette comparaison possède, donc, une étendue A).

On teste pour cette paire maximale, l'hypothèse de la nullité de la différence des moyennes. Si

l'on ne peut rejeter l'hypothèse nulle, le test s'arrête là, car toutes les autres comparaisons sont

incluses dans celles-ci. Si l'on peut rejeter l'hypothèse nulle alors on peut soumettre au test les

deux comparaisons avec l'étendue de (A-1), en prenant comme valeur critique la valeur

obtenue dans la table élaborée par Newman et Keuls pour une étendue de (A-1).

Si l'on ne peut pas rejeter l'hypothèse nulle pour une comparaison, alors on décide que toutes

les comparaisons entre paires impliquées par cette comparaison ne permettront pas non plus

de rejeter l'hypothèse nulle.

Si l'on peut rejeter l'hypothèse pour une comparaison alors on recommence l'opération pour

les moyennes séparées par une étendue de (A-2), en choisissant la valeur critique dans la table

de Newman-Keuls pour une étendue de (A-2), et ce jusqu'à l'épuisement de l'ensemble des

paires.

Cette procédure séquentielle évite l'apparition de décisions dissonantes : comme par exemple

juger que la différence entre M1 et M4 n'est pas significative, et admettre que la différence

entre M1 et M2 est significative. Il faut se rappeler que les moyennes sont numérotées en

fonction de leur taille.

Signalons que la possibilité d'utiliser cette méthode lorsque les effectifs sont inégaux est

envisagée par Kramer.

2.1.4 - le test de Tukey

Le test de Tukey emploie exactement la même procédure que celle de Newman-Keuls mais la

valeur critique choisie pour une étendue de A moyennes (de la plus petite à la plus grande),

reste utilisée pour les autres comparaisons dont l'étendue est forcément moindre. Le test est

dit "conservateur" c'est-à-dire que l'hypothèse de nullité est rejetée moins souvent qu'elle ne

devrait (on oublie de détecter des effets; on augmente l'erreur de type II, β )

Page 40: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

2.1.5 le test de Duncan

Ce test suit la procédure présentée dans le test de Newman-Keuls mais utilise pour les valeurs

critiques la table de Duncan. Au même titre que le test de Newman-Keuls, il semble être un

test puissant.

Le choix de l'une ou de l'autre de ces méthodes reste d'ailleurs très discutable (les "meilleures"

semblent être celles de Newman-Keuls et de Duncan), et la meilleure façon d'échapper à ce

choix est vraisemblablement d'éviter toute utilisation des méthodes de comparaisons de

moyennes deux à deux. Le plus souvent, il ne se justifie d'ailleurs pas d'effectuer toutes les

comparaisons des moyennes deux à deux, le vrai problème étant de réaliser certaines

comparaisons particulières, telles que les comparaisons d'une série de traitements avec un

témoin. Ce sont alors, selon les cas, les méthodes de Dunnet, de Gupta et Sobel, de Scheffé

qui doivent être utilisées.

2.1.6 le test de Dunnet

Il permet de comparer des groupes expérimentaux à un groupe témoin (ou à un groupe

contrôle).

On effectue dans ce cas, pour p populations, (p-1) comparaisons. l'erreur globale de première

espèce propre à la méthode de la plus petite différence significative doit en conséquence être

réduite dans une moindre mesure que dans le cas général, où le nombre de comparaisons à

réaliser est égal à p(p-1)/2. Des tables spéciales ont été élaborées par Dunnet, pour traiter

correctement ce cas particulier.

Ces tables réunissent des valeurs d1-α /2 qui doivent remplacer les valeurs t1-α /2, de telle sorte

que le risque global de première espèce soit ramené au niveau de α , pour l'ensemble des p-1

comparaisons. Ces valeurs sont bien évidemment comprises entre celles correspondant aux

méthodes de la plus petite différence significative d'une part et de Newman-Keuls d'autre part.

Toujours dans les conditions normales d'emploi de l'analyse de variance, la différence entre la

moyenne de l'échantillon témoin et la moyenne de l'un quelconque des échantillons traités

doit être considérée comme significative lorsqu'elle égale ou dépasse

La valeur critique = d1-α /2 .

Après avoir mis en évidence, par un test de Dunnet, les traitements qui sont meilleurs que le

témoin, il est possible d'enchaîner un test de Newman-Keuls pour classer ces traitements entre

eux.

2.1.7 - la recherche des moyennes les plus élevées : Gupta et Sobel

Le but poursuivi est de délimiter le plus petit ensemble de moyennes observées i qui ait une

Page 41: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

probabilité élevée, par exemple 1-α , d'englober la population de moyenne théorique

maximum. Cet objectif peut être atteint, dans les conditions habituelles de l'analyse de la

variance, en réunissant les valeurs i qui sont telles que :

i ≥ max - d1-α

où max désigne la moyenne la plus élevée, CMr le carré moyen résiduel et n le nombre

d'observations intervenant dans chacune des moyennes. Quand au facteur d1-α , il représente

les valeurs déjà utilisées dans le test de Dunnet, mais relatives ici à un test unilatéral. La

méthode présentée ici revient donc à effectuer un test unilatéral de comparaison de p-1

moyennes observées avec une moyenne témoin, la valeur maximum servant de témoin.

2.1.8 - le test de Scheffé :

La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une somme

pondérée de moyennes :

C = c1m1 + c2m2 + ... + ckmk

avec Σ ci = 0

et Σ |ci| = 2 (afin d'homogénéiser les coefficients)

Exemples :

1, -1, 0, 0 pour comparer m1 avec m2

1, 0; -1; 0 pour comparer m1 et m3

1/2, 1/2, -1/2, -1/2 pour comparer m1 et m2 avec m3 et m4

Le contraste est jugé significatif si la valeur absolue de C est supérieure à :

S =

p étant le nombre de niveaux de la variable indépendante ; Fc étant la valeur critique de F

avec p-1 et n-p degrés de liberté, pour le seuil α déterminé. Cette valeur est lue dans la table

de Fisher - Snedecor. ni étant l'effectif du groupe du niveau i ; CMa : étant les carrés moyens

du facteur a à p niveaux.

2.2 L'analyse de variances à deux facteurs de variabilité :

Les expériences factorielles doubles, ou plus généralement multiples, sont importantes pour

les raisons suivantes :

• Une expérience factorielle double est plus efficace par rapport aux ressources que ne

le serait la combinaison de deux expériences à un seul facteur. La première prend

Page 42: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

moins de temps et nécessite moins d'unités expérimentales pour un niveau donné de

précision.

• Une expérience factorielle double permet aux effets sur les réponses dues à

l'augmentation du niveau de chaque facteur d'être estimés à chaque niveau de l'autre

facteur. Ceci amène des conclusions valables sur une plus vaste étendue de conditions

expérimentales qu'une suite de plans à un seul facteur.

• Finalement, la recherche simultanée sur deux facteurs est nécessaire quand des

interactions entre les facteurs sont présentes, c'est-à-dire l'effet d'un facteur dépend du

niveau de l'autre facteur.

Nous avons vu que l'analyse de variance à un critère de classification a notamment pour

principe de diviser la variation totale en deux composantes : l'une factorielle, l'autre

résiduelle. Cette façon de procéder peut être étendue à deux critères de classification, la

variation totale étant alors divisée en plus de deux composantes : l'une résiduelle également,

et les autres liées aux deux critères de classification.

Les deux facteurs considérés peuvent être placés sur le même pied ou subordonnés l'un à

l'autre. les modèles de l'analyse de variance correspondant au premier cas sont dits croisés,

ceux qui correspondent au deuxième cas sont dits hiérarchisés (ou emboîtés). Dans chaque

cas, on doit distinguer aussi un modèle fixe, un modèle aléatoire et un modèle mixte selon que

les deux critères de classification sont fixes, aléatoires ou l'un fixe et l'autre aléatoire.

Considérons pq populations dans chacune desquelles est prélevée un échantillon d'effectif n et

désignons par xijk les différentes valeurs observées, l'indice i servant à distinguer p variantes

(ou niveaux) d'un premier critère de classification (i = 1, …, p), l'indice j permettant de

distinguer q variantes d'un deuxième critère de classification (j + 1, …, q) et k désignant, pour

chaque échantillon, les numéros d'ordre des différentes observations (k = 1, …, n).

A partir de ces données, on peut calculer une moyenne par échantillon :

ij. =

une moyenne par variante (par facteur) de chacun des deux critères de classification :

i.. = = et .j. = =

et une moyenne générale :

… = = = =

Page 43: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

En se basant sur ces définitions, on peut diviser les écarts par rapport à la moyenne générale

en deux, puis en quatre composantes, et écrire le modèle observé :

xijk - … = ( ij. - …) + (xijk - ij.)

= ( i.. - …) + ( .j. - …) + ( ij. - .i.. - .j. + …) + (xijk - ij.)

La première décomposition est identique à celle qui a été réalisée au cours de l'analyse de la

variance à un critère de classification. La seconde décomposition distingue en plus du terme

résiduel, deux termes mesurant les différences entre la moyenne générale et les moyennes

relatives aux différentes variantes des deux critères de classification, et enfin, un terme

d'interaction :

ij. - .i.. - .j. + …

Ces termes d'interaction sont nuls lorsque les différences liées à l'action d'un des deux facteurs

contrôlés sont indépendantes de l'action de l'autre.

Xijk - m.. = (mi. - m..) + (m.j - m..) + (mij - mi. - m.j + m..) + (Xijk - mij)

ou Xijk = m.. + α i + β j + γ ij + ε ijk

avec : Xijk : représente la variable dépendante ;m.. : la moyenne générale de la population

parentale, elle est estimée par ..., la moyenne de l'ensemble des échantillons ; mi. les

moyennes théoriques relatives aux différents niveaux du facteur a (estimées par les moyennes

i.. des échantillons) ; m.j les moyennes théoriques relatives aux différents niveaux du facteur

b (estimées par les moyennes .j. des échantillons) ; α i : les écarts factoriels, α i = mi. - m..,

mesurant les différences théoriques entre les moyennes des différents niveaux et la moyenne

générale pour le facteur a ; β j : les écarts factoriels, β j = m.j - m.., mesurant les différences

théoriques entre les moyennes des différents niveaux et la moyenne générale pour le facteur b

; Les quantités α i et β j sont souvent appelées effets du facteur contrôlé ou effets principaux ;

γ ij sont des valeurs théoriques des interactions ; ε ijk : les écarts résiduels (ε ijk = Xijk - mij). ε ijk

correspond à l'erreur expérimentale de l'observation Xijk. Ces écarts résiduels sont normaux,

indépendants de moyenne nulle et d'écart-type σ .

Ce modèle théorique peut faire l'objet de trois hypothèses nulles différentes.

L'une est relative à l'absence d'action du premier facteur :

Ho : α 1 = α 2 = ... = α P = 0 ou m1. = m2. = ... = mp.

La seconde est relative à l'absence d'action du deuxième facteur :

H'o : β 1 = β 2 = ... = β q = 0 ou m.1 = m.2 = ... = m.q

La troisième concerne l'absence d'interactions :

Page 44: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

H''o : γ 11 = γ 12 = ... = γ pq = 0 ou mij - m.j = α i pour tout i et tout j

ou encore mij - mi. = β j pour tout i et tout j.

Les calculs des sommes des carrés des écarts puis des carrés moyens permettent de tester la

validité de ces hypothèses. Les différentes comparaisons des carrés moyens sont résumés dans

le tableau suivant.

Source de variabilité ddl carrés moyens F

Facteur a p-1 CMa = SCEa / (p-1) Fa = CMa / CMr

Facteur b q-1 CMb = SCEb / (q-1) Fb = CMb / CMr

Interaction (p-1)(q-1) CMab = SCEab / (p-1)(q-1) Fab = CMab / CMr

Variation résiduelle pq(n-1) CMr = SCEt / pq(n-1)

Totaux pqn-1 CMt = SCEt / (pqn-1)

Ce tableau est valable si les différents groupes ont des effectifs égaux. C'est d'ailleurs dans ce

cas que la puissance de l'analyse de variance est maximale. L'expérimentateur a donc tout

intérêt de prendre un même nombre d'unités expérimentales pour l'ensemble des groupes.

Remarques :

Dans le chapitre précédent (ANOVA à un facteur), nous avons expliqué les différences entre

facteurs fixes et facteurs aléatoires. Trois modèles peuvent être rencontrés :

• Modèle I : les deux facteurs sont fixes.

• Modèle II : les deux facteurs sont aléatoires.

• Modèle III : un facteur est fixe, l'autre est aléatoire. Le modèle III est aussi appelé

modèle mixte.

Puissance de l'analyse variance à deux facteurs :

Pour chaque facteur, le paramètre φ prend la valeur :

φ =

avec p' = nombre de groupes par facteur

Pour l'effet interaction :

φ =

Page 45: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

A partir de φ , la puissance du test est connue en consultant les graphes de Hartley et Pearson.

Cas particuliers :

Quand on compare la moyenne d'un paramètre dans plusieurs groupes, il est crucial de

pouvoir disposer de groupes comparables, mais aussi de groupes les plus homogènes possible

afin d'obtenir une puissance élevée pour la comparaison. Il est parfois des situations

expérimentales où l'on connaît par avance certains facteurs susceptibles de nuire à une telle

homogénéité. Différents plans d'expérience ont donc été conçus afin d'éliminer les effets des

sources d'erreur.

Si on cherche à réduire les effets d'une seule source d'erreur, on utilisera la méthode des blocs

(complets si possibles). Pour deux sources d'erreurs, ce sera la méthode des carrés latins, et

pour trois, quatre ou cinq sources d'erreurs, le plan d'expérience utilisé sera un plan carré

graeco-latin.

La méthode des blocs :

On désigne par blocs des ensembles dans lesquels sont regroupées les unités expérimentales

de telle sorte qu’elles soient aussi semblables que possible à l’intérieur de chaque bloc.

On peut s’attendre ainsi à ce que l’erreur expérimentale soit moindre que pour un même

nombre d’unités aléatoirement situées à l’intérieur de la totalité de l’espace expérimental.

Les blocs sont généralement déterminés pour tenir compte, outre les causes contrôlables

définies par les facteurs étudiés, d’autres causes qu’il peut être difficile, voire impossible, de

maintenir constantes sur la totalité des unités expérimentales de l’expérience.

Les variations entre les blocs sont alors éliminés lorsque l’on compare les effets des facteurs.

Cette méthode peut être comparée à une analyse de variance à deux facteurs croisés. Le

premier facteur étant le facteur étudié, le second se rapportant aux blocs.

Si toutes les situations sont représentées dans l'expérience réalisée, on dit qu'on utilise un plan

à blocs complets; si ce n'est pas le cas, c'est un plan à blocs incomplets.

Exemple : si on compare le rendement de quatre variétés de maïs en les semant sur un lot de

parcelle (six par exemple); les différences de fertilité de ces dernières vont introduire une

variabilité parasite, nuisible pour la comparaison. L'idéal serait de découper chaque parcelle

en quatre, de répartir aléatoirement chaque variété dans chaque quart pour comparer la

productivité de chaque espèce de maïs au sein de chaque parcelle, et finalement résumer ces

six comparaisons en une seule conclusion.

La figure suivante montre l'arrangement aléatoire des 4 variétés de maïs dans 6 parcelles.

Page 46: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Parcelle

1

(bloc 1)

Rendement

Maïs 2

Rendement

Maïs 1

Rendement

Maïs 4

Rendement

Maïs 3

Parcelle

2

(bloc 2)

Rendement

Maïs 1

Rendement

Maïs 3

Rendement

Maïs 2

Rendement

Maïs 4

Parcelle

3

(bloc 3)

Rendement

Maïs 2

Rendement

Maïs 3

Rendement

Maïs 1

Rendement

Maïs 4

Parcelle

4

(bloc 4)

Rendement

Maïs 4

Rendement

Maïs 2

Rendement

Maïs 3

Rendement

Maïs 1

Parcelle

5

(bloc 5)

Rendement

Maïs 3

Rendement

Maïs 4

Rendement

Maïs 1

Rendement

Maïs 2

Parcelle

6

(bloc 6)

Rendement

Maïs 1

Rendement

Maïs 4

Rendement

Maïs 2

Rendement

Maïs 3

Une analyse de variance à deux facteurs (le premier facteur correspond au rendement; le

second à l'effet bloc) pourra nous dire si, après élimination des effets de bloc, il existe une

différence significative entre les variétés de maïs.

- La méthode des carrés latins

Le carré latin est un dispositif qui permet de contrôler l'hétérogénéité du matériel

expérimental dans deux directions.

Dans certaines expériences, il arrive qu'une série de k traitements soit donnée à des sujets à

des moments différents (ou à des endroits différents du corps s'il s'agit de crèmes), et que

l'ordre (ou le lieu d'application) dans lequel est donnée la séquence soit potentiellement

important. Il est alors indispensable de tenir compte dans l'analyse d'un effet "ordre (ou lieu)

d'administration" et faire attention à ce que chaque traitement soit donné de façon équilibrée

en 1ère , 2ème, ..., kème position. L'utilisation des carrés latins répond à cet impératif.

Page 47: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Prenons l'exemple de 4 traitements donnés à 4 moments différents de la journée. Les sources

d'erreur sont :

- les moments de la journée

- l'ordre d'administration

Dans la figure suivante sont représentés par des lettres les 4 traitements. Les lignes du tableau

représente les moments; les colonnes, l'ordre.

A B C D

B C D A

C D A B

D A B C

Chaque traitement doit apparaître une fois dans chaque ligne et dans chaque colonne. Dans un

carré latin, le nombre de lignes doit être égal au nombre de colonnes. Ainsi le carré latin sera

toujours de type 3 x 3 ou 4 x 4 …

Pour un carré latin 3 x 3, il y a donc 12 configurations possibles; pour un carré latin 4 x 4,

576; pour un carré latin 5 x 5, 161.280 combinaisons différentes …

La méthode des carrés latins est assimilée à une analyse de variance à trois facteurs. En effet,

le premier facteur est le facteur traitement; les deux autres correspondent aux sources d'erreur

(facteur ligne et facteur colonne).

En résumé :

tests paramétriques tests non-paramétriques

Echantillons 2 v.a. / 1 pop k v.a. / 1 pop 2 v.a. / 1 pop k v.a. / 1 pop

Page 48: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Appariés Student ANOVA Wilcoxon Friedman

Echantillons

Indépendants

1 v.a. / 2 s.pop

Student

1 v.a. / k s.pop

ANOVA

1 v.a. / 2 s.pop

Mann-Whitney

k v.a. / 2 s.pop

Kruskall-Wallis

Echantillons

Appariés

k v.a. / 2 s.pop

T² Hotelling

k v.a. / k s.pop

MANOVA

Echantillons

Indépendants

k v.a. / 2 s.pop

T² Hotelling

k v.a. / k s.pop

MANOVA

3. La régression simple

La droite d'une régression linéaire peut s'écrire :

Y = aX + b + e

avec Y : la variable à expliquer ou la variable dépendante,

X : la variable estimée ou la variable indépendante et e : les erreurs également appelées

les résidus qui correspondent aux différences entre les valeurs réelles de la variable

dépendante Y et son estimation Yi.

Pour valider ce modèle, il faut vérifier au préalable les quatre conditions suivantes :

• 1: la linéarité du modèle.

• 2 : les résidus doivent suivre une distribution normale.

• 3 : les résidus doivent avoir une moyenne nulle et une variance constante et égale à

s ² (= homoscédasticité)

• 4 : il ne doit pas y avoir d'auto-corrélation entre les résidus.

Les tests ou graphiques couramment utilisés sont :

• pour vérifier l'hypothèse 1 de linéarité, l'étude du coefficient de détermination R². Il se

définit comme étant la proportion de la variabilité de Y expliquée par X ou encore

comme étant le rapport : information due au modèle de régression sur l'information

totale de la distribution Y.

• pour vérifier les hypothèses 2, la normalité des erreurs peut être étudiée soit par un test

de Kolmogorov-Smirnov, soit plus généralement graphiquement. L'analyse graphique

peut se faire de trois manières différentes :

Page 49: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

o par un histogramme

o par la droite de Henry : pour valider cette hypothèse, il faut que les points

forment une droite pratiquement parfaite.

o par l'analyse des résidus en étudiant le graphe Yi - Yestimé = f(X) (équivalent à

tracer les résidus (Yi - Yestimé) en fonction de Yestimé car Yestimé est également

une fonction linéaire de X).

Si le modèle choisi est adéquat, les résidus sont distribués uniformément sur une bande

horizontale du graphique entre les valeurs de -2 et de +2 : ce qui correspond à 95% de

l'échantillon (référence à +1.96 et -1.96 de la distribution normale).

Ce graphe des résidus permet de confirmer également l'hypothèse 3. Le graphique peut

prendre des allures différentes. Les trois figures ci-dessous montrent que:

1°) la variance s ² n'est pas constante. Dans ce cas, il est nécessaire d'effectuer une

transformation des données Yi avant d'effectuer l'analyse de régression.

2°) le modèle choisi est inadéquat (le modèle est linéaire, mais on a par exemple omis le

terme constant alors que celui-ci est nécessaire)

3°) le modèle choisi est inadéquat (tendance parabolique)

Remarques :

• ce sont ici les résidus réduits qui correspondent au rapport des résidus sur l'écart-type

résiduel.

• si les hypothèses de normalité et d'homoscédasticité ne sont pas respectées, on peut

améliorer la régression :

o en transformant les données (par exemple Y = log10 X). Ce changement de

variable conduit à une distribution normale des la variable transformée Y mais

l'interprétation est ensuite plus difficile,

o en introduisant une ou plusieurs variables explicatives, ce qui revient à faire

une régression multiple,

o en éliminant les individus statistiquement aberrants.

Page 50: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• Pour l'hypothèse d'auto-corrélation qui n'est en pratique valable que pour des séries

temporelles, il faut faire un test de Durbin-Watson (0 = d = 4). Si d est voisin de 0, il y

a corrélation entre les résidus. Si d est voisin 4, il n'y a pas de corrélation.

4. La régression multiple :

L'équation de la régression est : Y = X1 + X2 + X3 + ... + Xj + ε

Condition de validité :

Une régression multiple doit le plus possible s'approcher de ces conditions

• Linéarité : chaque régresseur doit être en liaison linéaire avec la variable à expliquer

Y. si cette condition n'est pas remplie, il faut procéder à une transformation de la

variable explicative si cela est possible et souhaitable (l'ajustement est meilleur mais

l'interprétation ...)

• Absence de colinéarité entre régresseurs : on ne doit pas pouvoir déduire l'une des

variables explicatives des autres (notion de redondance). Si c'est le cas, il faut enlever

un des régresseurs, on ne perd ainsi aucune information.

• Homoscédasticité et normalité des résidus : les résidus doivent avoir même variance et

être distribués selon une loi normale. Ceci peut se vérifier graphiquement.

• Test de significativité du coefficient de corrélation multiple : ce coefficient doit être

supérieur au seuil de signification pour un risque d'erreur α fixé. On calcule :

F =

p : nombre de variables explicatives, n : nombre de valeurs de chaque variable

Si F calculé est supérieur à F lu dans la table de Fisher-Snedecor pour ν 1 = p et ν 2 = n-p-1

degrés de liberté, le coefficient de corrélation multiple est significatif pour α donné.

- Significativité de chaque régresseur :

R peut se révéler significatif alors que l'équation de régression contient un ou plusieurs

variables explicatives inutiles. Le test des coefficients de corrélation partielle permet de

détecter les variables qui peuvent être rejetées. Un coefficient de corrélation partielle se teste

comme un coefficient de corrélation simple avec n-p-1 degrés de liberté.

Page 51: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

ANALYSE DE RÉGRESSION ET DE CORRÉLATION: RAPPELS 

L'analyse de régression permet de déduire une équation d'estimation qui décrit la

nature fonctionnelle de la relation entre deux variables, alors que l'analyse de corrélation donne une mesure de la force de cette relation

En formule, une droite de régression est donnée par

X = la valeur de la variable indépendante Yc = la valeur estimée de la variable dépendante

a = l'ordonnée à l'origine, i.e. la valeur de Yc lorsque X = 0 b = la pente, i.e. la variation de Yc pour une variation d'une unité de

X

On a aussi

Le coefficient de détermination

est une mesure de la proportion des variations de la variable Y

qui s'«explique» par les variations de la variable X

Le coefficient de corrélation

Page 52: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

5. L'analyse en composantes principales (ACP)

C'est une technique descriptive qui permet de faire la synthèse de l'information contenue dans

un grand nombre de variables.

But de l'ACP :

Il est aisé de représenter les observations d'une variable (sur une droite), de deux variables

(dans un plan), de trois variables (en faisant de la géométrie dans l'espace) mais l'étude

devient impossible lorsque le nombre de variables est supérieur à trois.

Le but de la méthode est la réduction des dimensions de l'espace de représentation des

données en projetant le nuage de points dans un ou plusieurs graphiques plan, en essayant de

limiter la perte d'informations au cours de cette réduction. Les "composantes principales"

seront des nouvelles variables, indépendantes, combinaisons linéaires des variables initiales,

possédant une variance maximum.

Cette technique ne s'applique qu'à des variables quantitatives. Pour des variables

qualitatives, on utilisera plutôt les analyses des correspondances multiples.

La première étape d'une analyse en composantes principales est de centrer et réduire

l'ensemble des variables. En effet, dans la plupart des cas, les données à analyser sont

hétérogènes tant du point de vue des ordres de grandeur que des échelles de utilisées.

Le centrage consiste à soustraire à chaque valeur la moyenne de la variable correspondante et

la réduction s'effectue en divisant chacune des valeurs du tableau par l'écart-type

correspondant. Ce procédé permet de donner la même importance à toutes les variables

quelles que soient les échelles de mesure dans lesquelles elles sont exprimées. Cette opération

est indispensable lorsqu'on est en face à des unités de mesure différentes.

Les ACP fournissent généralement dans un premier temps la matrice de corrélation que l'on

est pas obligé d'examiner car il y a souvent beaucoup de données (pour 10 variables étudiées

il y aura 100 coefficients de corrélation).,

La deuxième étape est l'examen des pourcentages d'inertie fournis avec les valeurs propres

(ces dernières peuvent être utiles essentiellement pour calculer les coordonnées de nouvelles

composantes principales). C'est une étape importante car elle permet de savoir sur quels axes

se trouve le maximum d'informations et de choisir le nombre d'axes à étudier.

Le pourcentage d'inertie d'un axe est synonyme de pourcentage d'information totale retrouvée

sur cet axe. Il est évident qu'à la suite de chacune des projections du nuage de points sur les

différents axes, le pourcentage d'information va dans le sens d'une diminution.

Au pourcentage d'inertie est associé le pourcentage d'inertie cumulée. C'est ce paramètre qu'il

Page 53: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

faut tenir compte pour le choix du nombre d'axes. Par exemple, sur les trois premiers axes il y

a 82% d'inertie cumulée (50% sur l'axe 1, 20% sur l'axe 2 et 12% sur l'axe 3) soit 82% des

informations se retrouvent sur les axes 1, 2 et 3. Généralement, on ne tient compte que des

axes regroupant 80% d'information totale. Dans cet exemple là, on étudiera les plans (1,2)

appelé aussi plan principal, (1,3) et (2,3). Il faudra alors rester prudent lors des interprétations

car nous ne sommes pas en présence de toutes les informations sur les axes choisis.

Les logiciels spécifient ensuite pour chaque variable et pour chaque individu sa coordonnée,

sa qualité de représentation et sa contribution par rapport à chacun des axes factoriels.

* les variables :

• les coordonnées sur les axes factoriels : Les axes factoriels obtenus par l'analyse en

composantes principales sont des combinaisons linéaires de l'ensemble des variables

analysées. La coordonnée d'une variable sur un axe factoriel donné est représentée par

la projection de cette variable sur l'axe qui n'est autre que le coefficient de corrélation

entre la variable et cet axe. Les coordonnées varient donc entre -1 et +1 : des valeurs

absolues élevées traduisent une forte ressemblance entre les distributions induites par

la variable et l'axe factoriel, des valeurs faibles indiquent au contraire une absence de

relation linéaire entre la variable et l'axe. La figure ci-dessous permet de donner une

interprétation géométrique à la signification de ces corrélations. Les variables VAR1

et VAR3 sont bien corrélées avec l'axe k, la première positive et la seconde négative

puisqu'elle a un sens opposé à celui de l'axe. La variable VAR2, perpendiculaire à

l'axe k aura en revanche une coordonnée nulle. La corrélation traduit la proximité

géométrique entre les vecteurs caractérisant les variables et l'axe.

L'ensemble des variables ayant des coordonnées relativement importantes servent à

établir sa signification. Ainsi, dans l'exemple représenté sur la figure, le côté positif de

l'axe k est caractérisé par des valeurs particulièrement élevées de la variable VAR1 et

faibles de la variable VAR3. Les propriétés inverses s'appliquent au côté négatif de

l'axe. La variable VAR2, avec une coordonnée nulle sur cet axe, n'intervient pas dans

son interprétation.

• La qualité de représentation d'une variable par un axe : Elle est donnée par le carré de

sa coordonnée sur cet axe. Chacun de ces carrés représente la part de la variable

expliquée par l'axe associé. L'addition des carrés des coordonnées d'une variable sur

l'ensemble des axes est égale à 1.

Page 54: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Exemple numérique : supposons que l'on relève les coordonnées et qualités de représentation

suivantes pour une variable V dans une analyse relative à un espace de 4 dimensions :

variable V Coordonnée qualité de rep.

axe 1

axe 2

axe 3

axe 4

0.71

-0.50

0.22

0.45

0.50

0.25

0.05

0.20

total : 1.00

Le premier axe, avec une corrélation de 0.71 rend compte de 50% de la dispersion de la

variable V, le deuxième axe, avec une corrélation négative de -0.50 concentre 25%, le

troisième 5% et le quatrième 20%. Ainsi, la moitié de l'information relative à la variable V est

concentrée sur le premier axe, les axes 2 et 4 rendant compte ensemble de la majeure partie de

l'autre moitié.

La qualité de représentation d'une variable par un groupe d'axe s'obtient en additionnant les

valeurs relatives à chacun des axes. Ainsi, le premier plan factoriel concentre 75% de

l'information relative à la variable V dans l'exemple ci-dessous.

- La contribution d'une variable à un axe :

La somme des carrés des coordonnées de l'ensemble des variables sur l'axe est égale à la

valeur propre associée à l'axe. La contribution de chaque variable s'obtient en effectuant le

rapport entre le carré de sa coordonnée et la valeur propre. Les contributions mesurent donc

les rôles relatifs joués par chacune des variables dans la formation de l'axe, et l'addition de

toutes les contributions vaut 1.

En règle générale, on examine les contributions à l'élaboration des axes : pour p variables,

seules on considérera sur un axe k les variables possédant des contributions supérieures à 1/p

(ce qui signifie que ce sont essentiellement ces variables qui auront contribué à la formation

de cet axe k).

* Les individus :

• les coordonnées des individus sur les axes factoriels :

L'analyse des coordonnées permet de situer les individus par rapport au système d'axes

factoriel et de mettre en évidence des ressemblances ou des oppositions entre des

groupes d'individus par rapport aux combinaisons de variables définies par les axes.

Page 55: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

• les contributions des individus aux axes factoriels :

De la même manière que pour les variables, les individus contribuent différemment à

la formation de chaque axe factoriel. Ces valeurs sont surtout utiles pour détecter des

individus aberrants : par exemple, un individu avec une contribution de 82.4% sur un

axe k peut être considérer comme aberrant. Cela a pour conséquence de fausser l'étude

et il serait alors conseiller de faire une deuxième analyse en mettant ces individus en

éléments supplémentaires.

• La qualité de représentation des individus sur les axes factoriels :

Elle est mesurée par le cosinus carré de l'angle α formé par le vecteur GC avec l'axe k.

Plus la valeur ne sera proche de l'unité, meilleure sera la représentation de l'individu

sur un axe.

7. Références • Bertrand, R. (1986). Pratique de l'Analyse Statistique des Données. Québec: Presse de

l'Université du Québec. • Bonnet, C. (1986). Manuel pratique de psychophysique. Paris: A. Colin. • Langouet, G. & Porlier, J.C. (1991). Mesure et Statistique en Milieu Educatif (4ème édition).

Paris: ESF. • Mialaret, G. (1991). Statistiques Appliquées aux Sciences Humaines. Paris: PUF. • Reuchlin, M. (1976). Précis de statistique. Paris: PUF. • Snedecor, G.W., & Cochran, W.G. (1967). Statistical Methods. Ames, Iowa: Iowa State

University Press (6ème édition). • Thomas, J.R. & Nelson, J.K. (1990). Research Methods in Physical Activity. Champaign, Ill.:

Human Kinetics. • Wilkinson, L., Hill, M., Welna, J.P. & Birkenbeuel, G.K. (1992). Systat for Windows:

Statistics, Version 5 Edition. Evanston, Ill.: Systat, Inc.

Page 56: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Liste des tables Table du t de Student

Seuil de risque alphaNb. DL 0,05 0,01 0,001

1 12,6 63,7 636,02 4,303 9,925 31,6003 3,182 5,841 12,9404 2,776 4,604 8,6105 2,571 4,032 6,8596 2,447 3,707 5,9597 2,365 3,499 5,4058 2,306 3,355 5,0419 2,262 3,250 4,78110 2,228 3,169 4,58711 2,201 3,106 4,43712 2,179 3,055 4,31813 2,160 3,012 4,22114 2,145 2,977 4,14015 2,131 2,947 4,073

Seuil de risque alpha Nb. DL 0,05 0,01 0,001

16 2,120 2,921 4,015 17 2,110 2,898 3,965 18 2,101 2,878 3,922 19 2,093 2,861 3,883 20 2,086 2,845 3,850 21 2,080 2,831 3,819 22 2,074 2,819 3,792 23 2,069 2,807 3,767 24 2,064 2,797 3,745 25 2,060 2,787 3,725 26 2,056 2,779 3,707 27 2,052 2,771 3,690 28 2,048 2,763 3,674 29 2,045 2,756 3,659 30 2,042 2,750 3,646

infini 1,960 2,576 3,291

Page 57: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Page 58: Introduction et concepts de base - e-monsite

Cours de statistiques appliquées à la recherche scientifique

Guelmemi Noômen

Table de Barvais-Pearson

NB : le plan du cours et des exercices de TD sont disponibles sur le site :

www.sport-tic.om