22
ENSEIGNEMENT DE PROMOTION SOCIALE —————————————————————— Cours de STATISTIQUE - Corrélation, Régression et Ajustements - —————————————————————— Version provisoire H. Schyns Mai 2012

STATISTIQUE - Corrélation, Régression et Ajustement · Corrélation, Régression et Ajustements 1 - Introduction H. Schyns 1.1 1. Introduction Attention ! Ces notes ne sont pas

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

ENSEIGNEMENT DE PROMOTION SOCIALE

—————————————————————— Cours de

STATISTIQUE

- Corrélation, Régression et Ajustements -

——————————————————————

Version provisoire

H. Schyns

Mai 2012

Corrélation, Régression et Ajustements Sommaire

H. Schyns S.1

Sommaire

1. INTRODUCTION

2. LA DEMARCHE SCIENTIFIQUE

2.1. Position du problème 2.2. Méthode

3. REGRESSION LINEAIRE

3.1. Méthode des moindres carrés 3.2. Développement mathématique 3.3. Application

3.3.1. Enoncé 3.3.2. Graphique 3.3.3. Choix de l'ajustement et estimation des paramètres 3.3.4. Valeurs estimées 3.3.5. Ecart-type résiduel 3.3.6. Signification physique des paramètres

4. LINEARISATION DE FONCTIONS NON-LINEAIRES

4.1. Position du problème 4.2. Exponentielle croissante 4.3. Exponentielle décroissante 4.4. Fonction puissance 4.5. Cas général

5. AJUSTEMENTS POLYNOMIAUX

6. AJUSTEMENTS A PLUSIEURS VARIABLES

6.1. Cas général 6.2. Nuages qui diffèrent par une constante 6.3. Nuages qui diffèrent par la pente

7. EXERCICES

8. SOURCES

Corrélation, Régression et Ajustements 1 - Introduction

H. Schyns 1.1

1. Introduction

Attention !

Ces notes ne sont pas terminées. Il s'agit d'une version "dans l'état", publiée à la seule fin d'aider les étudiant à compléter les notes prises au cours.

Avant d'aborder ce chapitre, nous conseillons au lecteur de bien maîtriser les chapitres intitulés :

- Equation du 1er degré à une inconnue - Equation de la droite

Corrélation, Régression et Ajustements 2 - La démarche scientifique

H. Schyns 2.1

2. La démarche scientifique

2.1. Position du problème

L'objectif de la démarche scientifique est d'essayer de comprendre et d'expliquer le monde qui nous entoure.

Une manière d'y parvenir consiste à examiner si des observations sont en relation. Si c'est le cas, c'est qu'elles concernent le même phénomène.

Nous voir un phénomène comme une boîte noire dont le fonctionnement ne nous est pas directement accessible. Tout ce que nous pouvons faire est faire varier un certain nombre de paramètres ou facteurs (conditions expérimentales) et observer les réactions du phénomène étudié (résultats expérimentaux) en espérant que les paramètres que nous faisons varier ont effectivement une influence sur les résultats; ce qui est loin d'être certain.

fig. 2.1 Démarche d'étude d'un phénomène

Nous ne devons pas perdre de vue que d'autres facteurs, dont nous n'avons pas conscience ou que nous choisissons d'ignorer, peuvent perturber les résultats.

Dans le domaine des sciences exactes telles que mathématiques, physique, chimie,... il est généralement possible de provoquer et d'étudier le phénomène dans un environnement contrôlé :

- si on lâche une pierre à une certaine hauteur, elle mettra un certain temps pour atteindre le sol. Y a-t-il une relation entre la hauteur et le poids de la pierre (conditions expérimentales) et le temps de chute (résultat expérimental) ?

- si on plonge un corps dans un liquide, son poids apparent diminue. Y a-t-il une relation entre cette perte de poids apparente (résultat expérimental) et la nature du liquide, le volume ou le poids du corps (conditions expérimentales) ?

- si on applique une certaine tension électrique aux bornes d'une résistance, un certain courant traverse la résistance. Y a-t-il une relation entre ce courant (résultat expérimental), la tension appliquée et la valeur de la résistance (conditions expérimentales) ?

Dans le domaine des sciences humaines comme la psychologie ou la sociologie, c'est déjà beaucoup moins évident :

- si j'augmente le salaire de mes ouvriers (conditions expérimentales) vais-je obtenir une meilleure productivité (résultat expérimental) ? et réciproquement : si j'augmente ma productivité (conditions expérimentales), vais-je obtenir un meilleur salaire (résultat expérimental) ?

- si je prive mon enfant de sortie ce week end (conditions expérimentales) étudiera-t-il plus sérieusement sa prochaine interro (résultat expérimental) ?

Il existe des domaines dans lesquels le phénomène ne peut être provoqué soit pour des raisons physiques (tremblements de terre, éruptions de volcan) soit pour des

Corrélation, Régression et Ajustements 2 - La démarche scientifique

H. Schyns 2.2

raisons éthiques (expérimentation médicale). Nous sommes alors obligés de collecter de manière aussi complète que possible des observations sur les cas qui se sont produits naturellement.

C'est cette démarche qui distingue les sciences des pseudo-sciences telles que l'astrologie.

2.2. Méthode

Le premier réflexe de la démarche scientifique consiste à créer un graphique dans lequel nous portons les conditions expérimentales en abscisse (axe x) et les résultats expérimentaux en ordonnée (axe y). Nous ferons autant de graphes qu'il y a de paramètres expérimentaux.

Chaque observation (valeur du paramètre, valeur du résultat) est représentée par un point (en rouge) placé dans le graphique (fig. 2.2).

fig. 2.2 Notion de "meilleure droite"

S'il n'y a aucune une relation, le nuage de point forme un "patatoïde" horizontal, vertical ou circulaire.

Par contre, un nuage de points qui s'étire dans une direction donnée est l'indice d'une relation sous-jacente.

La seconde étape consiste à approximer ou modéliser l'allure du nuage de points en le faisant traverser par une droite, une parabole ou une courbe quelconque qui semble convenir.

La manière de tracer une droite dans un nuage de points varie selon les individus. La droite qui apparaît comme "la meilleure" pour Alice est très différente de celle qui apparaît comme "la meilleure" pour Bernard. Faute de critère d'évaluation il est impossible de trancher (1).

Il est donc important de se mettre d'abord d'accord sur un critère.

1 Il faut toujours définir le critère avant de dire qu'une chose ou une personne est meilleure qu'une autre.

P.ex. tel ordinateur est meilleur qu'un autre du point de vue de la vitesse mais pas du point de vue de la consommation; tel OS est meilleur qu'un autre du point de vue des fonctionnalités mais pas du point de vue de la puissance de calcul qu'il exige.

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.1

3. Régression linéaire

3.1. Méthode des moindres carrés

La polémique autour de la "meilleure droite" a trouvé une solution grâce à l'intervention de Karl Friedrich Gauss (1).

Gauss fait remarquer que - sauf cas exceptionnel - toute droite qui traverse un nuage de points passe à côté de la plupart des points (fig. 3.3).

Il existe donc un écart vertical [ ek ] entre la position d'un point expérimental donné de coordonnées (xk, yk) et sa projection verticale sur la droite (xk, yestk). Dans le cas où la droite passe par un point expérimental, cet écart est simplement nul.

Lorsqu'on déplace la droite, on modifie tous les écarts. La première idée qui vient à l'esprit est de définir comme meilleure droite celle qui entraîne la plus petite somme des écarts. Ceci pose un problème car les écarts sont tantôt positifs, tantôt négatifs (2). Gauss propose donc de définir comme meilleure droite celle qui entraîne la plus petite somme des carrés des écarts.

Il appellera cette droite la droite des moindres carrés.

fig. 3.3 Droite des "moindres carrés "

Ce critère a de nombreux avantages :

- il est cohérent avec les habitudes statistiques, - il est facile à calculer, - il se prête facilement à un traitement algébrique, - il fournit une solution unique

Il a aussi une série d'autres avantages statistiques plus compliqués à expliquer dans le cadre de ce cours.

1 On rencontre K.F. Gauss (1777-1855) dans chaque chapitre des mathématiques. Gauss entretenait une

importante correspondance avec tous les savants de son temps qui le consultaient quand ils butaient sur un problème mathématique insoluble. Très célèbre de son vivant, il n'a pourtant que très peu publié. C'est en classant ses papiers après son décès qu'on s'est rendu compte de l'universalité de ses travaux.

2 Nous avons rencontré le même problème dans la définition d'un paramètre de dispersion convenable.

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.2

Notons que le critère de Gauss n'est pas le seul possible. Depuis ses travaux, les statisticiens sont venus avec d'autres idées toutes aussi valables :

- droite des moindres rectangles - droite des moindres distances - droite du maximum de vraisemblance - etc.

Toutefois, la méthode des moindres carrés reste la plus utilisée en pratique.

3.2. Développement mathématique

En toute généralité, l'équation de n'importe quelle droite qui traverse le nuage de points s'écrit :

bxay +⋅= [eq. 3.1]

- a est la pente - b est l'ordonnée à l'origine

Si, dans cette équation, nous donnons à [ x ] la valeur d'une variable expérimentale [ xk ], alors l'équation devrait nous donner une estimation du résultat expérimental [ yestk ] que l'on écrit conventionnellement [ ky ] :

bxay kk +⋅= [eq. 3.2]

Toutefois, à cause des effets perturbateurs, cette estimation ne correspondra pas exactement avec la valeur que nous avons observée [ yk ]. En d'autres mots, nous observerons un écart [ ek ] entre la valeur estimée (ou prédite) et la valeur observée :

kkk yye −= [eq. 3.3]

Dans cette équation, nous pouvons remplacer [ ky ] par sa valeur tirée de l'équation [3.2] :

bxaye kkk −⋅−= [eq. 3.4]

Selon Gauss, et comme dans tout raisonnement statistique, ce n'est pas l'écart qui nous intéresse, mais bien son carré :

( )2kk2k bxaye −⋅−= [eq. 3.5]

ce que nous pouvons développer à l'aide des règles habituelles de l'algèbre :

kkkk22

k22

k2k xba2yb2yxa2bxaye ⋅⋅+⋅−⋅⋅−+⋅+= [eq. 3.6]

Le critère de Gauss nous demande de faire la somme des carrés des écarts pour les [ N ] points expérimentaux à notre disposition. Nous définissons ainsi une fonction objectif f(a,b) :

∑=

=N

1k

2ke)b,a(f [eq. 3.7]

En introduisant l'expression de [ ek2 ], nous obtenons

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.3

[ ]∑∑==

⋅⋅+⋅−⋅⋅−+⋅+=N

1kkkkk

22k

22k

N

1k

2k xba2yb2yxa2bxaye [eq. 3.8]

Le symbole de sommation peut être distribué sur chacun des termes. De même, dans chacun des termes, tous les facteurs qui ne dépendent pas de l'indice [ k ] peuvent être mis en évidence :

∑∑∑∑∑ ⋅⋅+⋅−⋅⋅−⋅+⋅+

=

kkkk22

k22

k xba2yb2yxa2bnxay

)b,a(f [eq. 3.9]

Il nous reste à présent à trouver le minimum de cette fonction en jouant sur les valeurs à donner à [ a ] et à [ b ]. Mathématiquement, ceci implique de trouver les valeurs pour lesquelles les dérivées de la fonction par rapport à [ a ] et par rapport à [ b ] s'annulent :

=

=

0)b,a(fdbd

0)b,a(fdad

[eq. 3.10]

C'est assez facile car [ a ] et [ b ] apparaissent uniquement à l'extérieur des sommes. Celles-ci, bien qu'impressionnantes, ne sont finalement que des constantes. Pour [ a ], nous obtenons

0xb2yx2xa2)b,a(fdad

kkk2k =⋅+⋅−⋅= ∑∑∑ [eq. 3.11]

ce qui est une première équation à deux inconnues :

∑∑∑ ⋅=⋅+⋅ kkk2k yxxbxa [eq. 3.12]

Pour [ b ], nous obtenons :

0xa2y2bn2)b,a(fdbd

kk =⋅+−⋅= ∑∑ [eq. 3.13]

ce qui est une seconde équation à deux inconnues :

∑∑ =⋅+⋅ kk ybnxa [eq. 3.14]

Si ce système admet une solution, alors cette solution est unique. Il existe un seul couple de paramètres [ a ] et [ b ] qui minimise la somme des carrés des écarts. En d'autres mots,

pour tout nuage de points, il existe une et une seule droite des moindres carrés !

Reste à résoudre le système. Commençons par éliminer [ b ] en utilisant la méthode des combinaisons linéaires :

⋅=⋅⋅+⋅⋅

⋅⋅=⋅⋅+⋅⋅

∑∑∑∑∑∑∑∑

kkkkk

kkk2k

yxxbnxxa

yxnxbnxan [eq. 3.15]

∑∑∑∑∑∑ ⋅−⋅⋅=⋅⋅−⋅⋅ kkkkkk2k yxyxnxxaxna

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.4

d'où nous tirons la valeur de [ a ] :

∑∑∑

∑∑∑⋅−⋅

⋅−⋅⋅=

kk2k

kkkk

xxxn

yxyxna [eq. 3.16]

Nous pouvons alors utiliser la deuxième équation du système pour trouver [ b ] si nous connaissons [ a ], ce qui est effectivement notre cas :

∑∑ =⋅+⋅ kk ybnxa [eq. 3.17]

nx

any

b kk ∑∑ ⋅−= [eq. 3.18]

or, les fractions ne sont rien d'autre que la moyenne des [ yk ] et la moyenne des [ xk ]

xayb ⋅−= [eq. 3.19]

Ceci signifie que la droite des moindres carrés passe par le point moyen de coordonnées ( y,x ).

3.3. Application

3.3.1. Enoncé

Dans une salle de fitness, la plupart des appareils d'endurance affichent la fréquence cardiaque du sportif ainsi que la puissance qu'il dissipe dans l'appareil.

Un habitué se demande s'il y a une relation entre ces deux mesures. Il commence par mesurer sa fréquence cardiaque au repos, avant de commencer l'exercice. Puis il entame son entraînement en essayant de stabiliser la puissance dissipée à un niveau donné, assez bas (p.ex. 40 Watts) pendant une ou deux minutes et il note sa fréquence cardiaque (p.ex. 56 battements/min). Il augmente un peu la cadence et stabilise son effort à un nouveau palier (p.ex. 80 Watts) et note à nouveau son rythme cardiaque (1). Il obtient finalement le tableau suivant :

Puissance Battements Watts 1/min

0 56 40 78 80 100

120 125 160 148 200 160

Le tableau montre incontestablement qu'il y a une relation : chaque fois que la puissance dissipée augmente d'un cran, le rythme cardiaque fait de même.

1 C'est une expérience très simple, que chacun peut réaliser et qui, nous le verrons, donne de très

intéressantes indications.

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.5

Quelles informations peut-on tirer de ces données ?

Est-il possible de prévoir la fréquence des battements cardiaques pour une puissance donnée ?

Inversement, peut-on utiliser la fréquence cardiaque pour estimer la puissance dissipée pendant un effort quelconque ?

3.3.2. Graphique

Comme nous l'avons vu au point 2.2, le premier réflexe est de reporter ces points dans un graphique (fig. 3.4) :

fig. 3.4 Fréquence cardiaque en fonction de la puissance

3.3.3. Choix de l'ajustement et estimation des paramètres

Comme ces points s'alignent très nettement selon une droite, nous pouvons calculer la droite des moindres carrés. Pour cela, vu les équations [3.16] et [3.18], nous avons besoin de :

- la somme des xk : ∑ kx

- la somme des carrés xk2 : ∑ 2

kx

- la somme des yk : ∑ ky

- la somme des produits xk·yk : ∑ ⋅ kk yx

xk yk xk2 xk·yk

Watts 1/min Watts2 Watts / min

0 56 0 0 40 78 1 600 3 120 80 100 6 400 8 000 120 125 14 400 15 000 160 148 25 600 23 680 200 160 40 000 32 000

Sommes 600 667 88 000 81 800

Nombre 6 6

Moyennes 100.0 111.2

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.6

Il suffit d'ajouter deux colonnes à notre tableau des résultats et de faire les sommes sur la dernière ligne.

Calculons séparément le numérateur et le dénominateur de l'expression [3.16] :

∑∑∑ ⋅−⋅⋅= kkkk yxyxnNumer [eq. 3.20]

60090667600800816Numer =⋅−⋅=

∑∑∑ ⋅−⋅= kk2k xxxnDenom [eq. 3.21]

000168600600000886Denom =⋅−⋅=

En rétablissant la fraction, nous obtenons la valeur de la pente [ a ]

0.54a ==00016860090 [eq. 3.22]

Nous partons ensuite de l'équation [3.18] reprise ci-dessous pour estimer [ b ]

xayb ⋅−= [eq. 3.23]

ce qui nous donne :

57.2b =⋅−= 10054.02.111 [eq. 3.24]

L'équation de la droite des moindres carrés est donc

2.57x54.0y +⋅= [eq. 3.25] 2.57Puissance54.0Battements +⋅=

Notons que dans un tableur tel qu'Excel ou OpenOffice, la pente [ a ] et l'ordonnée à l'origine [ b ] sont directement fournies par les fonctions

= PENTE (y, x) = ORDONNEE.ORIGINE(y,x)

sans devoir passer par la constitution du tableau.

3.3.4. Valeurs estimées

Grâce à cette équation, nous pouvons obtenir une estimation de la fréquence cardiaque pour toutes les puissances observées au cours de l'expérience. Nous ajoutons une colonne [ yestk ] à notre tableau.

Par exemple, pour une puissance de 120 Watts, notre modèle mathématique prédit que la fréquence cardiaque devrait être de

0.1222.5712054.0y =+⋅= [eq. 3.26]

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.7

xk yk xk2 xk·yk

yestk

a· xk+ b ek

yk -yestk ek

2

Watts 1/min Watts2 Watts / min 1/min 1/min 1/min2

0 56 0 0 57.2 -1.2 1.5

40 78 1 600 3 120 78.8 -0.8 0.7

80 100 6 400 8 000 100.4 -0.4 0.1

120 125 14 400 15 000 122.0 3.0 9.3

160 148 25 600 23 680 143.5 4.5 20.0

200 160 40 000 32 000 165.1 -5.1 26.0

Sommes 600 667 88 000 81 800 667.0 0 57.6 Nombre 6 6 6 6

Moyennes 100.0 111.2 111.2 9.6

Numer 90 600 a 0.54 eresid 3.1

Denom 168 000 b 57.2

Dans notre graphique (fig. 3.5), ces points définissent la droite des moindres carrés (trait bleu épais)

fig. 3.5 Droite des moindres carrés

3.3.5. Ecart-type résiduel

Comme prévu, la droite ne passe pas par tous les points. Nous pouvons encore ajouter deux colonnes au tableau pour calculer les écarts résiduels [ ek ] ainsi que leur carré [ ek

2 ]. La somme de ces carrés est précisément ce que nous avons cherché à minimiser. Nous pouvons vérifier que toute autre valeur donnée à [ a ] ou à [ b ] ne fait qu'augmenter cette somme.

Nous pouvons appliquer à cette somme le raisonnement qui a été fait dans le cadre du calcul des paramètres de dispersion :

- calculer l'écart carré moyen, qui s'appelle ici la variance résiduelle, - la racine carrée de l'écart carré moyen, qui s'appelle ici l'écart-type résiduel.

Dans le cas présent, ces deux paramètres valent respectivement

varresid = 9.6 min-2 eresid = 3.1 min-1

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.8

Pour illustrer la précision de notre modèle mathématique, nous traçons deux parallèles à notre droite des moindres carrés (en pointillés bleus) :

- l'une située deux écarts-type résiduels au-dessus

residsup e2bxay ⋅++⋅=

- l'autre située deux écarts-type résiduels en dessous

residsup e2bxay ⋅−+⋅=

Nous définissons ainsi un canal qui doit contenir 95% des points expérimentaux.

3.3.6. Signification physique des paramètres

Nous pouvons encore rechercher la racine de la fonction, c'est-à-dire la valeur à laquelle la droite coupe l'axe [ x ] (fig. 3.6). Mathématiquement, cette valeur est donnée par

abxr −= [eq. 3.27]

W9.10554.0

2.57xr −=−=

fig. 3.6 Racine de la fonction

Quelle est la signification physique de cette valeur ?

Elle signifie que, pour faire passer l'individu d'un état de mort (0 battement/min) à un état de repos (57 battements/min) l'organisme doit développer une puissance de 105.9 Watts. C'est la puissance nécessaire pour assurer les fonctions vitales de base (cœur, respiration, cerveau, digestion,...) qui permettent de maintenir un organisme en vie : le métabolisme basal.

Nous déduisons qu'une classe de vingt élèves dégage autant de chaleur qu'une chaufferette électrique de 2000 Watts ! Fameuse chaleur animale !

Le métabolisme basal dissipe cette puissance en permanence au cours des 24 heures d'une journée. Nous savons qu'une puissance dissipée pendant un certain temps (en secondes) correspond à de l'énergie :

tPE ⋅= [eq. 3.28]

Corrélation, Régression et Ajustements 3 - Régression linéaire

H. Schyns 3.9

Nous pouvons estimer le besoin quotidien minimal en énergie de notre cobaye :

105.9 Watts x 24 x 60 x 60 = 9 150 000 Joules

Toutefois, en diététique, les besoins énergétiques sont plus souvent exprimés en calories (cal). Nous savons que

1 kCal = 4186 joules

Les besoins quotidiens minima de notre cobaye sont donc de

21861834

0001509= kcal/jour

Poursuivons notre analyse dans l'autre sens.

Sachant que le cœur humain lâche lorsqu'il doit battre à plus de 200 battements/min (environ), nous pouvons définir la puissance maximale que notre cobaye peut fournir :

W26054.0

8.142x2.57x54.0200 ≅=→+⋅=

Qui eût cru que nous pourrions tirer autant d'informations à partir d'une expérience aussi simple.

Corrélation, Régression et Ajustements 4 - Linéarisation de fonctions non-linéaires

H. Schyns 4.1

4. Linéarisation de fonctions non-linéaires

4.1. Position du problème

La droite des moindres carrés ne s'applique pas uniquement aux cas dans lesquels les points expérimentaux sont bien alignés.

En fait, de très nombreuses fonctions peuvent être "linéarisée" par un changement de variable adéquat, au prix de quelques manipulations algébriques.

4.2. Exponentielle croissante

fig. 4.7 Fonction exponentielle croissante

L'exponentielle croissante est une fonction de la forme

xaeby ⋅⋅= [eq. 3.29]

C'est une fonction qui croît de plus en plus vite lorsque [ x ] augmente (fig. 4.7).

Elle représente par exemple la croissance d'un capital (ou d'une dette) placé pendant plusieurs années à un taux constant ou l'évolution de la température au cours d'une réaction en chaîne.

Bien qu'il s'agisse d'une fonction non linéaire, les paramètres [ a ] et [ b ] peuvent être estimés en prenant le logarithme des deux membres :

)ebln()yln( xa⋅⋅= [eq. 3.30]

)eln()bln()yln( xa ⋅+= [eq. 3.31]

xa)bln()yln( ⋅+= [eq. 3.32]

qui est de la forme

xaby ⋅+′=′ [eq. 3.33]

Autrement dit, nous pouvons utiliser la démarche développée plus haut à condition de remplacer dans le tableau toutes les valeurs de [ y ] par leur logarithme.

Corrélation, Régression et Ajustements 4 - Linéarisation de fonctions non-linéaires

H. Schyns 4.2

Notons cependant que le terme indépendant obtenu [ b' ] est le logarithme du facteur pré-exponentiel [ b ]. Dès lors, il convient d'en prendre l'exponentielle :

b)bln( ′= ð )bexp(b ′= [eq. 3.34]

4.3. Exponentielle décroissante

fig. 4.8 Fonction exponentielle décroissante

Assez curieusement, l'exponentielle décroissante une fonction semblable à la précédente. La seule différence est le signe de l'exposant :

xaeby ⋅−⋅= [eq. 3.35]

C'est une fonction qui décroît de plus en plus lentement lorsque [ x ] augmente (fig. 4.8).

Elle représente par exemple l'évolution de la température d'une tasse de café qu'on laisse refroidir ou la hauteur des rebonds successifs d'une bille qui tombe sur un sol carrelé.

Le traitement est exactement le même que ci-dessus.

4.4. Fonction puissance

La fonction puissance est de la forme

axby ⋅= [eq. 3.36]

Du point de vue mathématique, elle se distingue de l'exponentielle par le fait que [ x ] est la base et non l'exposant. Du point de vue graphique, il est assez difficile de voir la différence au premier coup d'œil.

Une telle fonction représente par exemple l'évolution de la force de répulsion de deux pôles aimantés de même signe qu'on essaie de rapprocher ou la quantité de liquide qu'on peut mettre dans une flûte à champagne conique en fonction de la hauteur.

Corrélation, Régression et Ajustements 4 - Linéarisation de fonctions non-linéaires

H. Schyns 4.3

fig. 4.9 Fonction puissance croissante

Comme ci-dessus, les paramètres [ a ] et [ b ] peuvent être estimés en effectuant une régression linéaire sur les logarithmes :

)xbln()yln( a⋅= [eq. 3.37]

)xln()bln()yln( a+= [eq. 3.38]

)xln(a)bln()yln( ⋅+= [eq. 3.39]

qui est de la forme

xaby ′⋅+′=′ [eq. 3.40]

Il faut donc remplacer dans le tableau toutes les valeurs de [ x ] et de [ y ] par leur logarithme. Comme ci-dessus, la valeur de [ b ] sera donnée par l'exponentielle du terme indépendant [ b' ]

Comme dans le cas de l'exponentielle, si l'exposant [ a ] est négatif, on obtient une fonction puissance décroissante.

4.5. Cas général

Ainsi qu'on l'a dit en début de chapitre, de très nombreuses fonctions peuvent être "linéarisée" par un changement de variable adéquat.

Ainsi, même une fonction asymptotique telle que celle de la fig. 4.10 dont l'équation est du type

bxxay

+⋅= [eq. 3.41]

peut devenir "linéaire". Il suffit de manipuler son équation pour isoler les coefficients [ a ] et [ b ].

Corrélation, Régression et Ajustements 4 - Linéarisation de fonctions non-linéaires

H. Schyns 4.4

fig. 4.10 Fonction asymptotique

Dans le cas présent, commençons par inverser la fonction puis séparons la fraction :

xabx

y1

⋅+= [eq. 3.42]

xa

bxa

xy1

⋅+

⋅= [eq. 3.43]

x1

ab

a1

y1 ⋅+= [eq. 3.44]

Il suffit donc de remplacer toutes les valeurs de [ x ] par [ 1/x ] et celles de [ y ] par [ 1/y ] et le tour est joué. Le terme indépendant nous donnera l'inverse de [ a ] et le coefficient angulaire, le rapport [ b/a ].

Attention : dans ce domaine on arrive facilement à faire n'importe quoi et pas forcément quelque chose d'intelligent !

Ce qui importe n'est pas de trouver une fonction qui colle aux points expérimentaux

mais bien

de trouver une fonction qui a un sens physique et dont on comprend la signification des coefficients

Corrélation, Régression et Ajustements 5 - Ajustements polynomiaux

H. Schyns 5.1

5. Ajustements polynomiaux

Corrélation, Régression et Ajustements 6 - Ajustements à plusieurs variables

H. Schyns 6.1

6. Ajustements à plusieurs variables

6.1. Cas général

6.2. Nuages qui diffèrent par une constante

6.3. Nuages qui diffèrent par la pente

Corrélation, Régression et Ajustements 7 - Exercices

H. Schyns 7.1

7. Exercices

(à développer)

Corrélation, Régression et Ajustements 8 - Sources

H. Schyns 8.1

8. Sources

- Théorie et méthodes statistiques (Vol 1, vol 2 et exercices) Pierre Dagnelie Presses Agronomiques de Gembloux On ne peut que conseiller la lecture de cet excellent ouvrage de référence.