STT-2400 Régression linéaire Pierre Duchesne courriel: [email protected]@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: duchesneduchesne

STT-2400Régression linéaire

Pierre Duchesne

courriel: [email protected]

téléphone: 343-7267

bureau: 4251

web: www.dms.umontreal.ca/~duchesneVersion: 28 décembre 2007

STT-2400; Régression linéaire2

Plan de cours

1. Nuages de points et régression. 2. Régression linéaire simple. 3. Régression linéaire multiple. 4. Tester la qualité de l’ajustement. 5. Transformations. 6. Choix des variables. 7. Diagnostiquer un modèle de régression: étude des

résidus. 8. Valeurs aberrantes et influence des observations.


Barème Le barème proposé est le suivant:

– Examen intra : 35%.– Examen final : 45%.– Devoirs : 20%.

Ouvrages de référence Weisberg, S. (2005), Applied Linear Regression, Wiley:

NY (Obligatoire). Sen, A. et Srivastava, M. (1990), Regression Analysis,

Springer-Verlag; NY (Recommandé).

Régression linéaire (STT-2400)

Section 1

Nuages de points et la régression.


Qu’est-ce que l’analyse de régression?

L’objectif premier de l’analyse de régression, ou plus simplement de la régression, est l’étude des relations de dépendance.– Est-ce que la distance parcourue, durant une période

donnée, dans une certaine catégorie de véhicules routiers, est affectée par le prix de l’essence?

– Est-ce que le niveau de cholestérol est affecté si un individu suit une diète? Est-ce que d’autres variables entrent en ligne de compte, comme l’âge, le sexe, le conditionnement physique?


Une méthode possible: la régression linéaire

La méthode privilégiée dans STT-2400 est la régression linéaire.

Il existe d’autres techniques:– Régression non-linéaire; régression non-paramétrique; réseaux de

neurones;– Etc.

La majorité des techniques existantes qui rivalisent avec la régression linéaire reposent fortement sur la compréhension de la régression linéaire.


Objectifs de la régression

Comme technique statistique, on peut affirmer qu’un objectif fondamental de la régression est de synthétiser l’information disponible.

On recherche un modèle parcimonieux. La simplicité est également un objectif: pour

des performances comparables, on recherche le modèle le plus simple.


Spécification d’un modèle

Parfois un modèle est déjà dicté par des considérations théoriques:

1. Pour un objet de masse m, on sait que F = ma, c’est-à-dire que pour une accélération donnée a, on peut trouver exactement la force F.

2. La théorie de la chimie prédit que, pour un échantillon de gaz à température constante, la relation suivante est satisfaite: pv= c, où p est la pression et v le volume. Une fois que c et sont fixés, pour une pression donnée, on peut exactement trouver le volume.


Spécification d’un modèle (suite)

Parfois, on ignore le modèle mais on doit tenter de relier une variable réponse à des préviseurs.

Exemple: est-ce que les pays dont le revenu per capita est plus élevé ont tendance à afficher un plus bas taux de natalité que ceux avec un revenu per capita plus bas?– Variable réponse: taux de natalité;– Préviseur: revenu per capita.


Première étape: outils graphiques

Lorsque nous avons à notre disposition une variable réponse et un seul préviseur, l’outil graphique fondamental est le nuage de points.– Axe vertical: variable réponse;– Axe horizontal: préviseur.

En présence de plusieurs préviseurs, la généralisation de cette idée est le nuage de points matriciel.


Exemple: héritage de la taille

Durant la période 1893-1898, Karl Pearson a étudié l’héritage des traits génétiques d’une génération à l’autre.

Population: mères au Royaume-Uni d’un âge inférieur à 65 ans et filles adultes âgées de plus de 18 ans.

Taille de l’échantillon: n = 1375. Question d’intérêt: hérédité de la mère à la fille. Préviseur: taille de la mère (Mheight). Variable réponse: taille de la fille (Dheight). Est-ce que des mamans grandes (petites) ont tendance à

avoir des filles grandes (petites)?


En résumé, exemple des tailles

1. Si les filles et leur mère avaient exactement la même taille, les points devraient être répartis sur la droite y = x.

2. Une question d’intérêt est s’il semble exister une relation entre la variable réponse et le préviseur: ici clairement oui!

3. Le nuage de points est de forme plutôt elliptique. 4. Il est important de dégager la tendance générale suivie par

la majorité des points. 5. Il est également important de faire un examen des points

plus isolés (points ayant un effet de levier, valeurs aberrantes; sujet traité dans la dernière partie du cours).


Exemple: jeux de données de Forbes

James D. Forbes était un physicien écossais de la fin du 19ième siècle.

Il a étudié la relation entre la pression atmosphérique et le point d’ébullition de l’eau.

L’altitude peut être obtenu à partir de la pression atmosphérique en utilisant un baromètre (pression plus faible correspondant à une altitude plus élevée).

Fragilité des baromètres du milieu du 19ième siècle a incité Forbes a considérer la possibilité d’utiliser la température d’ébullition de l’eau comme un substitut pour une lecture directe de la pression atmosphérique.


Exemple (suite)

Données: récoltées dans les Alpes et en Écosse. Les données ont été recueillies en mesurant la pression

locale en pouces de mercure avec un baromètre, et le point d’ébullition de l’eau en degrés Fahrenheit avec un thermomètre.

Au niveau de la mer, l’eau bout à 100 degrés Celsius (degrés C = (degrés F - 32)*5/9) mais cela décroît avec des altitudes plus élevées (ou des pressions atmosphériques plus faibles).

Cela prend plus de temps faire cuire un œuf à la coque en haute altitude! (la température n’est pas aussi forte!)


En résumé, données de Forbes

1. La taille échantillonnale est beaucoup plus faible que dans l’exemple sur les tailles.

2. Les points semblent fortement répartis autour d’une droite: pour une température donnée, ceci suggère peu de variation dans la pression atmosphérique.

3. Cependant, un examen visuel fait ressortir une erreur systématique.


Retrait de la tendance linéaire, ou première analyse des résidus

Pour une droite y = mx + b où le coefficient de pente (m) et d’ordonnée à l’origine (b) sont fournis, on peut retirer la tendance linéaire de la pression atmosphérique en considérant:

On fait le graphique du résidu versus la température: l’axe vertical est sur une échelle plus petite, augmentant ainsi la résolution.

Un effet de courbure est nettement présent.

bmxqueatmosphéripressionrésidu iii


Transformation pour améliorer la linéarité

Afin que les méthodes de régression linéaire fonctionnent bien, il faut habituellement qu’un lien linéaire soit présent.

Lorsque ce n’est pas le cas, on peut envisager de transformer la variable réponse, ou encore le préviseur.

On peut refaire les analyses pour voir si les transformations améliorent la qualité du lien linéaire.

Dans le cas des données de Forbes, une théorie issue de la physique suggérait de considérer log(Pression) versus log(Température).


Exemple, Smallmouth bass

C’est un poisson populaire dans les sports de pêche. Lors de l’étude de la croissance des populations de poissons,

on pourrait vouloir comprendre la dépendance de la longueur du poisson en fonction de l’âge du poisson.

Variable réponse: longueur en mm. Préviseur: âge à la capture (déterminé en comptant des

anneaux). Taille de l’échantillon: n = 439. C’est une étude transversale (i.e. que toutes les observations

ont été prises au même moment), par opposition à une étude longitudinale.


Utilisation d’un smoother (procédure SAS PROC LOESS)

On remarque sur le graphique une ligne pleine et une ligne pointillée qui n’est pas tout à fait une droite.

Essentiellement, l’idée consiste à calculer des moyennes à chaque valeur du préviseur (ici âge) et de relier les points obtenus.

Si on ne dispose pas de valeurs répétées pour une valeur du préviseur x (disons), on peut prendre des valeurs dans un voisinage de x.

C’est un exemple de régression dite nonparamétrique. En SAS la procédure qui permet de calculer des smoother est

PROC LOESS.


PROC LOESS pour l’exemple sur les tailles

Dans cette situation, le smoother a été obtenu en calculant la « meilleure droite » dans des voisinages de chacun des x.

Le smoother LOESS et la ligne droite sont en accord pour le centre du préviseur Mheight (la moyenne du préviseur), et sont moins en accord aux extrémités (c’est souvent le cas que les smoothers sont moins fiables aux extrémités du graphique).

Ce genre de graphique tend à révéler de l’information sur ce que l’on appellera la fonction moyenne.


Exemple, prévision de la température

Les données portent sur la chute de neige à Fort Collins, Colorado (USA).

La question d’intérêt porte sur la prévision des chutes de neige du 1er janvier au 30 juin sachant les précipitations du 1er septembre au 31 décembre.


En résumé, exemple des chutes de neige

On note que la force de la relation (linéaire ou autre) semble beaucoup plus faible.

C’est un exemple de situation ou l’on pourrait penser que la variable réponse et le préviseur ne sont pas corrélés.

Éventuellement, nous voudrons tester l’hypothèse que les deux variables sont non-corrélées versus la contre-hypothèse qu’il existe une corrélation.

L’idée sera de comparer les deux ajustements d’une façon à préciser plus tard durant le semestre.


Exemple, croissance des dindons

Des dindons contenus dans des enclos clairement identifiés sont élevés avec une diète identique, à l’exception que pour un enclos donné, de la méthionine (c’est un acide aminé) est ajoutée (elle est comptabilisée comme un pourcentage de la diète des dindons).

La méthionine a été fournies de trois façons différentes. Pour la dose = 0, il y avait 10 enclos. Pour les autres doses, cinq enclos ont reçu une certaine

dose selon un certain procédé.


En résumé, exemple des dindons

De manière générale, le poids semble augmenter avec la dose.

Si on ignore pour l’instant les trois sources de méthionine, on peut dire que de manière générale, une relation linéaire est plus ou moins satisfaisante.


Fonctions moyennes

Considérons que la variable réponse est Y, et que le préviseur est X.

On veut savoir comment la distribution de Y est affectée lorsque l’on fait varier X.

On définit la fonction moyenne de la manière suivante:

C’est une fonction qui dépend de manière générale de x.

xXYE


Un exemple de fonction moyenne: la droite

Dans l’exemple sur les tailles, on pourrait penser que la relation est linéaire entre la variable réponse (Dheight) et le préviseur (Mheight) et postuler:

Il y a donc deux paramètres, l’ordonné à l’origine et le paramètre de pente.

xxMheightDheightE 10


Origine du terme régression

On a déjà mentionné que si y = x, c’est-à-dire si 0 = 0 et 1 = 1, alors les filles auraient la même taille que leur mère.

La droite pointillée a été déterminé selon la technique des moindres carrés, technique qui fera l’objet de la prochaine section.

Cette droite est déterminée par les données. On note que la pente est inférieure à un.


Origine du terme régression (suite)

Ainsi, les mères qui sont grandes ont tendance à avoir des filles qui sont plus grandes que la moyenne, mais plus petites que leur mère (en effet la pente est inférieure à un).

Les mères qui sont petites ont tendance à avoir des filles qui sont petites (par rapport à la moyenne), mais plus grandes que leur mère.

Le phénomène illustré ici suggère une régression des valeurs extrêmes d’une génération donnée vers la moyenne la génération qui suit.


Un autre exemple de fonction moyenne: régression non-linéaire

Dans l’exemple des dindons, nous aurions pu faire appel à un modèle de croissance.

Exemple:

Interprétation des paramètres: Dose = 0 donne le baseline 0 (croissance de base sans traitement). Si x est grand, alors la fonction moyenne approche 0 + 1, qui peut-être perçu comme la limite de croissance. On aura alors 2 comme un terme qui détermine à quel rythme la croissance maximale est atteinte.

xxDoseYE 210 exp1


Fonctions variances

Définition:

C’est la variance de la variable réponse lorsque l’on fixe le préviseur X à la valeur particulière x.

Exemples:– Dheight étant donné Mheight: variance plutôt

constante pour chaque valeur de Mheight.– Exemple des poissons: plutôt plausible également.– Exemple des dindons: il faut faire attention, puisque

chaque chiffre est une moyenne pour un groupe d’enclos et on ne peut apprécier la variabilité entre les enclos.

xXY var


Hypothèse courante en régression linéaire

Souvent l’on supposera une hypothèse de variance constante, que l’on résumera comme suit:

2var xXY


En résumé, exemple classique de Anscombe

Ce qu’il faut retenir avec cet exemple est que l’utilisation des graphiques est souvent essentiel.

Il faut rappeler que les statistiques décrivant l’ajustement sont toutes fins pratiques identiques.

Premier cas: situation idéale; Second cas: ligne droite n’est peut-être pas la fonction moyenne;

courbe lisse, peut-être quadratique? Troisième cas: une valeur semble aberrante (outlier); Quatrième cas: il y a peu d’information sur la fonction moyenne; un

seul point dicte l’allure de la régression; il est rare que l’on veut qu’une seule observation possède une telle influence.


Exemple, consommation d’essence

Lorsque l’on dispose de plusieurs préviseurs, le nuage de points matriciel peut s’avérer particulièrement utile.

Le jeu de données porte sur la consommation d’essence, et plus particulièrement sur la variation de la consommation dans les 50 états et le District de Columbia.

– Drivers = nombre de permis de conduire dans l’état;– FuelC = Essence vendue pour usage routier (milliers de gallons);– Income = Revenu personnel par personne (année 2000, en milliers de

dollars);– Miles = Distance totale des autoroutes en miles dans l’état;– Pop = population 2001 des individus de plus de 16 ans;– Tax = Taxe sur l’essence dans l’état;– State = nom de l’état;– Essence = 1000 x FuelC / Pop;– PermisCon = 1000 x Drivers / Pop;– logMiles = logarithme en base 2 du préviseur Miles.


En résumé, exemple sur la consommation d’essence

Chaque graphique est pertinent dans l’élaboration d’une régression d’une variable réponse en fonction d’un préviseur.

Il semble que la variable Essence a tendance à diminuer en moyenne à mesure que la variable Taxe augmente, mais il y a beaucoup de variation.

Globalement, la variable essence semble au mieux peu reliée avec chacune des variables dans le nuage de points matriciel.


En résumé, exemple sur la consommation d’essence (suite)

L’information dans un nuage de point matriciel est marginale, puisque l’on regarde la variable réponse en fonction de chaque préviseur pris un à la fois.

Une étude simultanée entre la variable réponse et l’ensemble des préviseurs pourrait mener à des conclusions différentes.

Les relations existantes entre les préviseurs est également importante.

Il est attendu que si ces derniers ne sont pas reliés entre eux, que l’information contenue dans un nuage de points matriciel soit assez complète.

Documents

STT-2400 Régression linéaire Pierre Duchesne courriel: [email protected]@dms.umontreal.ca téléphone: 343-7267 bureau: 4251 web: duchesneduchesne