La statistique descriptive
• objectif : présenter les données pour que l'on puisse en prendre connaissance facilement
La statistique descriptive
• peut concerner :– une variable à la fois : statistique à
une dimension– deux variables à la fois : statistique à
deux dimensions– plus de deux variables à la fois :
statistique multidimensionnelle
La statistique descriptive
• comporte :– les tableaux : distributions de
fréquences– les diagrammes : graphiques– les paramètres statistiques : réduction
des données à quelques valeurs numériques caractéristiques
Distribution groupée : exemple
Classe Ci ni fi Ni Fi
[140-160[ 150 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15
[165-170[ 167,5 30 0,15 60 0,30
[170-175[ 172,5 45 0,225 105 0,525
[175-180[ 177,5 40 0,20 145 0,725
[180-185[ 182,5 35 0,175 180 0,90
[185-190[ 187,5 15 0,075 195 0,975
[190-200[ 195 5 0,025 200 1,0
N=200 1k fi =1
k = nombre de classes
Polygone des fréquences
Exemple
Nombre de colonies bactériennes/dm2
1 2 3 4 5 6 7 8 9 10
11 1205
1015202530354045
Nombre de colonies bactériennes/dm2 ni1 52 73 154 255 356 457 328 289 1610 1211 312 1
Histogramme : exemple
Classe ni Densité (*10)[140-160[ 10 5[160-165[ 20 40[165-170[ 30 60[170-175[ 45 90[175-180[ 40 80[180-185[ 35 70[185-190[ 15 30[190-200[ 5 5
140 160 170 180 1900
10
20
3040
50
60
70
80
90
200
Diagramme sectoriel : exemple
GROUPE niA 35B 9O 40AB 16
A
BO
AB
• Appelée moyenne notée x– Paramètre central qui concerne
bien évidemment uniquement des variables quantitatives.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (T) divisée par le nombre de mesures (N).
– Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées.
La moyenne arithmétique :
• Propriétés :– Centre de gravité de la distribution. – La somme des écarts à la moyenne est nulle. – Affectée par les changements de variable.
• Si y = ax + b; on a : y = ax + b– La moyenne contrairement à la médiane est très
sensible aux valeurs extrêmes. – La moyenne d'un groupe résultant de la fusion
d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif.
– Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus.
– La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale.
– Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable.
– La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.
La moyenne arithmétique :
N = Nombre total de mesures,p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée.fi = pourcentage de la valeur observée ig = nombre de groupes
N nii 1
p
T x ii1
N
ni xi i1
p
N * fixii 1
p
fi = ni
N fi
i =1
p
1
x T
N fix i
i1
p
La moyenne : formules
• Somme des valeurs / Nbre d'observations
• Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200
N = 6, T = 1080, x =1080/6 = 180
• Soit la distribution suivante
Nombre de colonies bactériennes/dm2 ni ni*xi1 5 52 7 143 15 454 25 1005 35 1756 45 2707 32 2248 28 2249 16 14410 12 12011 3 3312 1 12p = 12 N = 224 T = 1 366
x = 1 366 / 224 = 6,098
La moyenne
• Exemples
Les autres valeurs centrales
• Les autres moyennes– Moyenne géométrique d'une
série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique.
Les autres valeurs centrales
• Les autres moyennes– Moyenne harmonique d'une
série de valeurs positives est égale à l'inverse de la moyenne des inverses.
Les autres valeurs centrales
• Les autres moyennes– Moyenne quadratique est la
racine carré de la moyenne arithmétique des carrés.
Les autres valeurs centrales
• La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5.– Sur les distributions symétriques (normales par
exemple) la médiane est égale à la moyenne et au mode.
– Paramètre peu sensible aux valeurs extrêmes– Sur une distribution non groupée :
• Si N impair, la médiane est l'observation de rang (N+1)/2
• Si N est pair, tout nombre entre xN/2 et xN/2+1 convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs.
– Sur distribution groupée, la classe médiane est celle qui contient la médiane.
• Détermination graphique• En admettant que les observations soient réparties
uniformément dans cette classe, on a :
xi limite inférieure de la classe contenant la médiane
i amplitude de la classe contenant la médiane
fi fréquence relative de la classe contenant la médiane
F ( xi) fréquence relative cumulée de la classe
xi -1
xi
˜ x = xi
i*
0 , 5 F ( xi)
fi
˜
71 210 268 342 741
Paramètres de dispersion
• Amplitude ou étendue– Ecart entre la valeur de l'observation maximale
et celle de l'observation minimale.– Non définie pour les distributions groupées– On montre que l'écart type est toujours inférieur
ou égal à la moitié de l'amplitude.– Dans les distributions unimodales en cloche
l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000.
• Ecart interquartiles– Q3 -Q1– Englobe 50% des observations– On utilise parfois l'écart semi-interquartile (Q3-
Q1)/2– Donne naissance à la représentation en
« boxplot »
Paramètres de dispersion : Variance, Écart type
• Variance et écart type– La variance (variance) d'une série
ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne.^
Paramètres de dispersion : Variance, Écart type
• Variance et écart type– C'est par rapport à la moyenne
que la somme des carrés des écarts est la plus faible.
^
Paramètres de dispersion : Variance, Écart type
• Variance et écart type– La variance de l'échantillon est
notée S2. Ce n'est pas un bon estimateur de la variance de la population notée 2. ^
Paramètres de dispersion : Variance, Écart type
• Coefficient de variation (cv)– C’est le rapport de l’écart type
divisé par la moyenne
• Écart type de la moyenne– Cf distribution des moyennes de
plusieurs échantillons
^
Paramètres de dispersion :
Coefficient de variation• Le coefficient de variation CV
(Coefficient of variation, percentage standard deviation) – CV est le rapport écart type
divisé par la moyenne.– CV est un nombre pur, sans
unités.– CV est totalement indépendant
des unités.– Le CV permet de comparer la
variabilité de distributions de variables qui ne sont pas dans les mêmes unités.
Statistique descriptive à 2 dimensions
• Situations :– Nature des variables : les deux
variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative.
– Séries appariées : même variable mesurée dans deux circonstances
• Avant - Après traitement• Cas - Témoins on apparie un témoin
dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...)
– Séries non appariées• Deux variables mesurées chez le même
individu par exemple poids et taille; poids et couleur des yeux...
Poids Taille70 17080 18065 16575 17590 18273 17060 16268 16583 180
... ...
5560657075808590
160 165 170 175 180 185Taille
Poids
PoidsTaille 60 65 68 70 73 75 80 83 90 Tot.162 1 1165 1 1 2170 1 1 2175 1 1180 1 1 2182 1 1Tot. 1 1 1 1 1 1 1 1 1 9
Tableaux statistiques à deux dimensions et
représentation graphique• Séries• Distribution de fréquence• Table de contingence
Cheveux
Yeux Blonds Bruns Autres Tot. (Li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (Cj) 110 100 90 300
300 = Nombre total de mesures
100 = Nombre d'individus ayant les yeux clairs
110 = Nombre d'individus ayant les cheveux blonds
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds
Fréquences relatives
• Nombre de mesure totale N
• Total de chaque ligne = Li
• Total de chaque colonne = Ci
• Effectif d'une cas = nij
• Fréquences relatives:– nij / Li
– nij / Cj
– nij / N
– Li / N
– Cj / N
Cov (x,y) =
N
i = 1
N
x * y -i i N
T * Tx y
i = 1
N
x * y i i
= Txy = somme des produits
• sert au calcul du coefficient de corrélation r.
Covariance
– Variable quantitative– cov (x,y) = moyenne des produits des
écarts à la moyenne. 1/N * 1N(xi-x)*(yi-y)
pour i = 1 à N– si x' = ax+b et y'=cy + d,
on a Cov(x'y') = ac Cov (x,y)– toujours inférieure ou égale au produit des
écart types– positive = "nuage" croissant– négative = "nuage" décroissant
• calcul :
Table du Khi2
Table du t de Student
Qu’est ce qu’un test statistique ?
•A. Hypothèses statistiques
•B. Tests d’hypothèses et de signification
•C. Quelques rappels de logique :
•D. Tests bilatéraux et tests unilatéraux
•E. Les erreurs de première et de deuxième espèces
•F. Significativité ou niveau de signification
•H. Quelques exemples de questions
A. Hypothèses statistiques•Ce sont des affirmations relatives aux
distributions de probabilité.
•Ces affirmations peuvent être vraie ou fausse.
•Dans la plupart des tests on formule une
hypothèse dans le but de la rejeter.
•Exemple :
•le pourcentage observé dans la population est de
10%. Si l’on veut décider que le pourcentage
observé dans un groupe particulier diffère du
pourcentage observé dans la population. On
supposera qu’il n’y a aucune différence. On peut
encore formuler cette hypothèse sous la forme :
•“Toutes les différences observées sont dues à
des fluctuations d’échantillonnage : dues au
hasard.
•Une telle hypothèse est appelée hypothèse nulle
notée H0.
•Toutes les autres hypothèses sont dites
hypothèses alternatives et sont notées H1.
B. Tests d’hypothèses et de signification
•On appelle test d’hypothèses ou de signification les procédés statistiques qui permettent de décider si les hypothèses sont vraies ou fausses afin d’appréhender la réalité que l’on ne connaît pas.
•C'est un domaine des statistiques inférentielles
•Il existe des tests différents en fonction
•du type de variables étudiées (quantitative/qualitative)
•du type de problème (comparaison de 2 moyennes/comparaison de plus de 2 moyennes)
•des conditions d'application (modélisation en terme de loi de probabilité)
•Cependant la suite logique du déroulement d'un test est toujours la même
D. Tests bilatéraux et tests unilatéraux
•L’hypothèse nulle H0 retenue est le plus souvent l’égalité. Les hypothèses alternatives peuvent être alors toutes les autres situations que l’on peut diviser en deux grandes catégories : plus grand que; plus petit que.
•Lorsque l’on considère l’ensemble des hypothèses alternatives on parle de test bilatéral.
•Lorsque pour des questions de bon sens à priori, on ne considère qu’une partie des hypothèses alternatives : soit plus grand que soit plus petit que on parle de test unilatéral.
•ex : on désire comparer la taille des enfants de 3 et 4 ans. Le test est unilatéral, on ne "raccourcit pas les gosses"
E. Les erreurs de première et de deuxième espèces Risques alpha et beta
•1. L’erreur de première espèce :•Le système de décision que l’on emploie nous amène à rejeter l’hypothèse nulle alors que celle si est vraie. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à un différence des traitements alors que cela n’est pas la réalité. On commet un erreur de première espèce.
•2. L’erreur de deuxième espèce :•Elle représente une situation en miroir du premier cas. On accepte l’hypothèse nulle (le plus souvent d’égalité et on conclut à l’équivalence) alors que dans la réalité ce n’est pas vrai. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à l’équivalence des traitements alors que cela n’est pas la réalité. On commet un erreur de deuxième espèce.
•3. Remarque•Dans les tests unilatéraux, on peut isoler un cas particulier d’erreur dite de troisièmes espèce. C’est le cas ou l’on accepte l’hypothèse alternative (on rejette l’hypothèse nulle). On conclut alors à une différence signée (A>B par exemple) alors que dans la réalité, il y a une différence mais dans l’autre sens.
F. Significativité ou niveau de signification p•Lorsque l’on teste une hypothèse, la probabilité avec laquelle on accepte de réaliser une erreur de première espèce est appelée seuil de signification du test et est notée usuellement alpha. Ce risque est spécifié avant l’expérience, au moment où l’on pose le problème.
•La probabilité avec laquelle on accepte de réaliser une erreur de deuxième espèce est notée usuellement beta.
•La probabilité de rejeter H0 alors qu’elle est fausse est appelée puissance du test
Puissance = 1- beta
•Il n’y a pas de lien direct entre les deux risques alpha et beta. L’idéal serait de choisir alpha et beta aussi proche de 0 que possible. En général on choisit alpha très petit = 0.05 et l’on essaie de minimiser beta (en général 0,1).
Cf calcul du nombre de sujets nécessaires.
•Le seuil de signification p est la probabilité, sous l’hypothèse nulle d’observer une telle différence du fait du hasard (Cf étapes d’un test).
G. Les étapes d’un test•1. Énoncé de H0 que l’on accepte provisoirement
•2. Énoncé des hypothèses alternatives H1 et choix d’un test bilatéral ou unilatéral
•3. Choix d’une statistique T (ex Khi2, t de Student, Epsilon ...) : fonction des observations dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre une décision.
•4. Détermination de la valeur critique C calculée d’après cette loi et d’après le risque alpha accepté
•5. Calcul tiré de l’échantillon de la valeur prise t par cette statistique T
•6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0
•7. Calcul du seuil de signification p : probabilité d’observer au moins cette différence du fait du hasard.
Comparaison d’un pourcentage observé à un pourcentage
théorique Situation du problème
• Situation du problème :– Variable qualitative dichotomique– Conformité d’un pourcentage observé à
un pourcentage théorique• On exprime la question sous une
forme compréhensible mais qui ne correspond pas à la réalité. Strictement, le pourcentage observé (Pobs) diffère du pourcentage théorique (Pth) (par exemple Pobs = 0,07 et Pth = 0,025). Ce qui est intéressant c’est de savoir si cette différence peut être attribuée au hasard ou encore si le pourcentage de la population dont est tiré l’échantillon observé peut être considéré comme valant Pth.
– Problème fréquent– Exemple : taux de décès au cours d ’un
intervention par rapport à une référence nationale.
Comparaison d’un pourcentage observé à un pourcentage
théorique. H0/H1
• Hypothèses– Hypothèse nulle H0 :
• L’échantillon peut être considéré comme issu d ’une population ayant comme pourcentage PH0
– PH0 = Pth– Hypothèses alternatives :
• Test bilatéral– PH0 # Pth
• Test unilatéral– PH0 > pth ou (exclusif) PH0< Pth
– Statistiques utilisables• Khi 2• Epsilon ou u (Loi normale)• Remarque : ces deux tests sont
équivalents et ont les mêmes conditions d ’application :
– N * Pth > 5– N * (1-Pth) >5
On approche une loi binomiale par une loi normale
• Si les conditions ne sont pas remplies on prend une autre méthode
Comparaison d’un pourcentage observé à un pourcentage
théorique : Khi 2• Utilisation du KHI2. Test Bilatéral
(unilatéral possible mais moins habituel)– Tableau des valeurs :
Décès Non Décès Total
Effectifs Observés O1 O2 N
Effectifs ThéoriquesC1 =
Pth*N
C2 =
(1-Pth)*NN
– Statistique :
Khi 2 = (O1-C1)
2
C1
(O2-C2)2
C2+
DDL = 1
– Décision :
– Valeur critique : table du Khi 2•Pour alpha = 0,05 Khi2 à 1 DLL = 3,84
alpha
Khi 2< Khi2 alpha
On rejette H0, on accepte H1
Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p
Khi 2 > Khi2 alpha
On accepte H0. Attention au risque Bêta
Conditions : C1 > 5 et C2 >5
Khi2 : exemple• Exemple :
– Dans un échantillon de 200 malades, on a observé un taux de décès dus à une maladie cardio-vasculaire de 30% alors que la référence nationale est de 40%. Peux -t- on considérer que le taux observé est statistiquement différent du taux national au seuil de risque 5% ?
– H0 PH0 = 0.4– H1 Test bilatéral : PH0 # 0.4
Décès Non Décès Total
Effectifs Observés 60 140 200
Effectifs Théoriques 80 120
Note : 60 = 0,3 *20080 = 0,4 *200
Khi 2 = (60-80)
2
80+
(140-120)2
120= 8,33
DDL =1
Khi 5% = 3,84 => Rejet de H0DDL =1 Le pourcentage de décès observés
diffère de manière significative de 40% au seuil de risque 5%
Lecture dans la table de p : 0,001 < p < 0,01 (Khi2 = 10,83 Khi 2 = 6,63)
Comparaison de pourcentages : séries
appariées : HO/H1• Hypothèses
– Hypothèse nulle H0• Si le comportement est le même avant et après
(entre cas et témoins) on doit s’attendre à avoir le même effectif de paires discordantes : de couple Oui -> Non et de couple Non -> oui. Le pourcentage de changement doit être de 50%>.
• Ceci revient à un test de comparaison d’un pourcentage observé {Oui -> Non / ( Oui->Non + Non->Oui) ou Non -> Oui / ( Oui->Non + Non->Oui )} à un pourcentage théorique 50%
– Hypothèse alternative H1• Bilatéral :
– Le pourcentage de Oui->Non ou de Non->Oui différe de 50%
• Unilatéral– On peut a priori s’attendre au sens
– Statistiques utilisables• Khi 2 : Test de Mac Nemar• Epsilon• Dans les 2 cas, on approche une loi binomiale
par une loi normale => Conditions d’application
Comparaison d'une distribution observée à une distribution
théorique• Exemple 1 :–Dans un essai thérapeutique, on a testé un médicament sur 200 patients. Les résultats ont été notés en bons, moyens et mauvais. On a obtenu les pourcentages de bons résultats suivants :
45% de bons résultats, 15% de résultats moyens et 40% de mauvais résultats
Dans la littérature ce traitement donne 75% de bons résultats, 22% de résultats moyens et 3% de résultats mauvais. Les résultats observés sont-ils conformes à ceux de la littérature?
•H0 : Les résultats sont conformes
•H1 : Les résultats ne sont pas conformes
Table de contingence
Bons Moyens Mauvais Total
Obs. 90 (0,45*200) 30 80 200
Théo 150 44 6 200
Khi2=(90-150)
150
2(30-44)
30
2(80 - 6)
6
2
2+ + = 941,12
La distribution n'est pas conforme à la distribution observée dans la littérature. Les résultats obtenus sont statistiquement moins bons que ceux de la littérature.Remarque : le calcul d'un seul des termes du khi 2 (le dernier par exemple) permet de rejeter H0.
DDL = 2; Khi20,001 =13,82 => p<0,001
Exemple
• Exemple 1 (suite)O A B AB Total
Nancy487 390 84 39
1 000
Metz403 340 75 22
840
Dijon283 227 51 12
573
Strasbourg195 151 32 3
381
Total 1 368 1 108 242 76 2 794
489,62 396,56 86,61 27,20
411,28 333,11 72,76 22,85
280,55 227,23 49,63 15,59
186,55 151,09 33,00 10,36
Les conditions d’application sont remplies (tous les effectifs théoriques sont supérieurs à 5).
Khi 2 = (487 - 489,62) 489,62
2
+ ...... +(3 - 10,36) 10,36
2
= 12,26
DDL = (4-1)*(4-1) = 9 Khi 2 5% pour DDL 9 = 16,92
On ne met pas en évidence de différence significative entre les distributions des groupes sanguins dans les 4 villes.
Statistique t de Student
• Statistique :– t de Student
• Condition d’application :– Si N < 30 : Normalité de la distribution
(cf paramètres de symétrie et d'aplatissement)
• Données nécessaires :– Moyenne théorique m, moyenne observée
x
– Estimateur de l’écart type
– Effectif de l’échantillon N
t =| x - m |
N
2
• Décision : t > t alpha lu dans la table : on rejette H0. Il y a
une différence significative. On recherche dans la table le degré de signification p.
Remarque : Pour décider, on aurait pu calculer p et comparer p au risque alpha retenu. Si p<alpha on rejette H0
DDL = N-1
Exemple
• Exemple :– On tire au sort un échantillon de 100 comprimés de
valium d’un lot de fabrication qui doit fournir des comprimés dosés à 5mg. On obtient les résultats suivants : Total des valeurs T= 495, Total des carrés des valeurs U = 2500. La fabrication peut-elle être considérée comme conforme au dosage prévu ? (on prend alpha = 5%)
– H0 : La fabrication est conforme.
x = 4,95495
100 2
= 2500 -
495100
100 - 1
2
= 0,5025
t =0,5025
100
5 - 4,95= 0,70 DDL = 99 talpha 5% = 1,96
Le t est inférieur au talpha 5% , je ne peux pas rejeter H0. La fabrication peut être considérée comme conforme. Mais attention au risque Bêta.
Remarque : t est le rapport entre l’écart des moyennes et l’ESM.
Exemple
• Exemple : Dans une production de médicaments, la valeur théorique de la concentration de principe actif doit être de 12mg. L’écart type de la population est de 1 mg. On réalise tous les jours un échantillon de 100 comprimés destiné au suivi de la qualité. => Pour alpha = 5%, d = 2 * 0,1
• Sur 15 jours on a les résultats suivants :
Moyenne de l'échantillon
11,99 11,91 11,83 12,13 12,24 12,07 11,96 12,04 12,11 11,86 11,91 11,86 11,82 11,96 11,94
11,5
11,6
11,7
11,8
11,9
12
12,1
12,2
12,3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Borne Inf.
Moyenne
Borne Supérieure
Moyenne de l'échantillon
Sur les 15 jours un seul point est (j5) hors limite.
Corrélation• Position du problème
– On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement
– Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement.
– Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y
• Définitionr =
covariance (X,Y)
var(X) * var (Y)
• Le coefficient de corrélation mesure l’association linéaire entre X et Y
• Il fait jouer un rôle symétrique à X et Y• Il reste identique si on change d’unité ou
d’origine
Corrélation• Tableau des valeurs :
• Représentation graphique Nuage de points
• Paramètres :Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation
Éléments nécessaires :Nombre de couples : NTotal des produits X*YTotal des X et des YTotal des carrés des X et des Y
Poids Taille70 18060 17550 16070 18055 160
Poids\Taille 160 175 18050 155 160 170 2
Poids et Taille
155
160
165
170
175
180
185
0 20 40 60 80
Corrélation
• Régression et corrélation :– x et y sont deux variables aléatoires : x en
fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation
– y est explicable par x (action /dose) => régression
• Droite de régression des moindres carrés
y
x
•
••
•
d1
d2
y = a + b X
•
Droite de régression de y en xMinimise la somme des d1i
[yi - y(x)] = ( yi - a - b * xi)2 2
Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b
Droite de régression de x en yMinimise la somme des d2i
Divers types de résultats• Importance de la visualisation du nuage de
points
2
3
4
5
6
7
8
9
10
2 3 4 5 6 7 8 -9
-8
-7
-6
-5
-4
-3
-2
2 3 4 5 6 7
456789
1011121314151617
2 4 6 8 -9-8-7-6-5-4-3-2-1012345
0 2 4 6 8
4
5
6
2 3 4 5 6 7
4,8
5
5,2
5,4
5,6
5,8
6
6,2
4,5 5 5,5 6 6,5
« Amande à petit ventre »
Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9
« Amande à gros ventre »
Faible corrélation positive Faible corrélation négative
Pas de corrélation r voisin de 0