29
Régression linéaire (STT- 2400) Section 5 Transformations Version: 9 février 2007

Régression linéaire (STT-2400)

  • Upload
    vern

  • View
    53

  • Download
    0

Embed Size (px)

DESCRIPTION

Régression linéaire (STT-2400). Section 5 Transformations Version: 9 février 2007. Introduction. Il est plutôt rare que nous sachions que la fonction moyenne E(Y | X ) est linéaire. - PowerPoint PPT Presentation

Citation preview

Page 1: Régression linéaire (STT-2400)

Régression linéaire (STT-2400)

Section 5

Transformations

Version: 9 février 2007

Page 2: Régression linéaire (STT-2400)

STT-2400; Régression linéaire2

Introduction

Il est plutôt rare que nous sachions que la fonction moyenne E(Y | X ) est linéaire.

Parfois la fonction moyenne est dictée par une théorie; sinon toute formulation paramétrique est au mieux une approximation.

Un exemple où la fonction moyenne est linéaire est dans le cas où la variable réponse et le préviseur sont conjointement de distributions normales.

Page 3: Régression linéaire (STT-2400)

STT-2400; Régression linéaire3

Loi normale à deux dimensions

Si

On sait que:

Ainsi dans cette situation la fonction moyenne est linéaire.

2

2

,~YYX

YXX

Y

XNY

X

22 1,~|

YXX

YY xNxXY

XX

YY xxXYE

Page 4: Régression linéaire (STT-2400)

STT-2400; Régression linéaire4

Transformations des variables

On espère qu’une relation linéaire entre la variable réponse et les préviseurs procure une approximation raisonnable au phénomène étudié.

Lorsque ce n’est pas le cas, on peut considérer l’utilisation de variables transformées:– Transformation des préviseurs;– Transformation de la variable réponse;– Transformation à la fois des préviseurs et de la variable

réponse.

Page 5: Régression linéaire (STT-2400)

STT-2400; Régression linéaire5

Transformations et changements d’échelle

Il importe de réaliser que le choix d’une transformation implique un changement d’échelle.

Exemple: Étude des données des Nations-Unies.– On avait considéré l’utilisation de variables telles

log2(Fertility), log2(PNBpp). La variable réponse est dans une échelle logarithmique, plutôt que dans le système d’unité de mesure de la variable Fertility, qui était un taux de natalité.

Page 6: Régression linéaire (STT-2400)

STT-2400; Régression linéaire6

Exemple: poids du cerveau versus poids du corps

Les données portent sur le poids en kilogramme de 62 mammifères. On dispose également du poids du cerveau de ces espèces.

Puisque l’on dispose que d’un seul préviseur, une analyse graphique est particulièrement utile et recommandée. (En présence de plusieurs préviseurs la situation est évidemment plus compliquée).

Page 7: Régression linéaire (STT-2400)

STT-2400; Régression linéaire7

Exemple (suite)

On note que ce jeu de données montre un problème d’échelle: trois points isolés cachent la relation entre les deux variables.

Plusieurs espèces ont des petits poids de quelques grammes (et donc avec un cerveau plus petit) versus des espèces comme l’éléphant d’Asie et d’Afrique qui sont beaucoup plus lourds.

Les trois points isolés sont les éléphants d’Asie et d’Afrique et l’espèce humaine.

C’est un exemple typique où il serait une bonne idée de transformer.

Page 8: Régression linéaire (STT-2400)

STT-2400; Régression linéaire8

Famille de transformations

Une famille de transformation est un ensemble de transformations indexé par un ou plusieurs paramètres.

Le modèle de régression linéaire multiple est un exemple de modèle paramétrique, avec typiquement p+1 paramètres à estimer. Dans cet esprit, il pourrait être une bonne idée de rajouter un petit nombre de paramètres supplémentaires pour le choix de l’échelle.

On pourra même considérer d’effectuer des tests d’hypothèses sur ces nouveaux paramètres.

Page 9: Régression linéaire (STT-2400)

STT-2400; Régression linéaire9

Transformations « puissance »

Supposons que l’on dispose d’une variable aléatoire U strictement positive (on verra ce qui peut être fait dans le cas de variables aléatoires qui pourraient prendre des valeurs négatives).

La famille de transformation puissance est:

0,log

,0,,

U

UU

Page 10: Régression linéaire (STT-2400)

STT-2400; Régression linéaire10

Choix populaires

On note que le choix = 1 correspond à la situation où la variable U n’est pas transformée.

Les transformation racine carrée et racine cubique sont respectivement: = 1/2, 1/3.

Par définition = 0 correspond à la transformation logarithmique.

Parfois = -1, la transformation inverse, peut également être d’intérêt.

Habituellement = [-2, 2] et même on pourrait restreindre davantage à l’intervalle = [-1, 1].

Page 11: Régression linéaire (STT-2400)

STT-2400; Régression linéaire11

Exemple sur les poids des espèces

La transformation logarithmique semble adéquate pour ce problème.

C’est une bonne idée d’utiliser PROC LOESS afin d’ajouter un estimateur nonparamétrique de la fonction moyenne.

Règles empiriques:– Règle du log Lorsque l’étendue d’une variable couvre plus d’un

ordre de magnitude (ici le poids du corps échelonne de 0.005 kg à 6654 kg), et si la variable est strictement positive: prendre une transformation logarithmique.

– Règle de l’étendue Si l’étendue est considérablement inférieur à un ordre de magnitude: ne pas transformer.

Page 12: Régression linéaire (STT-2400)

STT-2400; Régression linéaire12

Modèle allométrique pour le poids des espèces

Il y avait une théorie physique et le modèle suivant est appelé un modèle allométrique:

En prenant le logarithmique de chaque côté:

On note que ce ne sont pas toutes les transformations qui sont interprétables comme des modèles physiques.

1BodyWtBrainWt

eBodyWt

BodyWtBrainWt

log

loglogloglog

10

1

Page 13: Régression linéaire (STT-2400)

STT-2400; Régression linéaire13

Transformations puissance mises à l’échelle

Pour une variable aléatoire X strictement positive cette famille de transformation est définie par:

Cette famille ressemble mais aussi diffère de la famille de transformation puissance sur de nombreux aspects.

0,log

,0,1

,

X

XXS

Page 14: Régression linéaire (STT-2400)

STT-2400; Régression linéaire14

Propriétés de la famille de transformation puissance mise à l’échelle

1. Comme fonction de , s(X, ) est une fonction continue de En effet par une application de la règle de l’Hospital:

2. Cette transformation préserve la direction de l’association: si (X,Y) sont reliés positivement, alors (s(X, ) , Y) sont également positivement reliés pour toutes les valeurs de

XXXXlog

1

loglim

1lim

00

Page 15: Régression linéaire (STT-2400)

STT-2400; Régression linéaire15

Choix de lors de la transformation d’un préviseur

Dans le cas d’un seul préviseur, nous pourrions formuler la fonction moyenne:

Si était connu, on obtiendrait l’estimateur des moindres carrés usuels et on pourrait déterminer RSS().

On estime en déterminant: En pratique,on pourrait calculer RSS() pour la

fourchette de valeurs:

,10 XXYE S

RSSminargˆ

1,

2

1,3

1,1,0,

2

1,1

Page 16: Régression linéaire (STT-2400)

STT-2400; Régression linéaire16

Exemple: hauteur des arbres en fonction du diamètre

Données prélevées en 1991 portant sur les cèdres de l’ouest (Western Cedar) dans le Upper Flat Creek (Idaho) de l’University of Idaho Experimental Forest.

Variable réponse: Height, en décimètres; Préviseur: Dbh, le diamètre de l’arbre en mm à

137 cm au-dessus du sol.

Page 17: Régression linéaire (STT-2400)

STT-2400; Régression linéaire17

Analyse graphique

Pour les valeurs de dans la palette {-1, 0, 1}, on effectue la régression de:– Transformation inverse: Y sur (X, -1);– Transformation log: Y sur (X, 0); – Pas de transformation: Y sur (X, 1).

On récupère les valeurs prédites de ces trois régressions et on représente sur un même graphique (X,Y) en plus de . YX ˆ,

Page 18: Régression linéaire (STT-2400)

STT-2400; Régression linéaire18

Analyse graphique (suite)

Comme on peut le constater, le choix = 0 semble décrire les données adéquatement.

Concernant le choix = 1, il semble que de ne pas transformer occasionne des problèmes pour des arbres avec de petits ou grands diamètres.

La transformation inverse pour sa part semble afficher une courbure trop prononcée, et la courbe ne semble pas décrire correctement les arbres avec de grands diamètres.

Page 19: Régression linéaire (STT-2400)

STT-2400; Régression linéaire19

Approche alternative: régression nonlinéaire et PROC NLIN

Une approche alternative est d’ajuster un modèle de régression par moindres carrés non linéaire. On note que la fonction moyenne est:

En adoptant le critère des moindres carrés, on cherche à minimiser par rapport aux paramètres 0, 1 et .

Ceci offre l’avantage d’une estimation simultanée et on obtient une estimation de et de son erreur standard.

On note que donnant un intervalle de confiance de niveau 95% pour

,10 XXYE S

1522.00479.0ˆ 3488.0,2531.0

Page 20: Régression linéaire (STT-2400)

STT-2400; Régression linéaire20

Méthode de Box-Cox

Cette technique a été proposée par Box et Cox (JRSS B, 1964).

Elle se concentre sur la transformation de la variable réponse.

Elle est applicable pour les problèmes de régression linéaire simple et multiple.

Elle repose sur une version légèrement modifiée de la famille de transformation puissance.

Page 21: Régression linéaire (STT-2400)

STT-2400; Régression linéaire21

Famille de transformation puissance modifiée

Considérons la moyenne géométrique:

La famille de transformation puissance modifiée est:

n

i inn

i i YnYYgm1

11

1logexp

0,log

,0,1

,,

1

1

YYgm

YYgm

YgmYY SM

Page 22: Régression linéaire (STT-2400)

STT-2400; Régression linéaire22

Introduction à la méthode de Box-Cox

On présume que la fonction moyenne suivante est valable pour un certain :

Si on connaissait on pourrait effectuer la régression usuelle des moindres carrés et trouver RSS().

Remarque: la multiplication par la moyenne géométrique assure que RSS() comme fonction de est dans le même système d’unités.

xβx ', XYE M

Page 23: Régression linéaire (STT-2400)

STT-2400; Régression linéaire23

Méthode de Box-Cox (suite)

Afin de trouver le paramètre , on chercher à minimiser RSS().

D’un point de vue pratique, on peut encore considérer la sélection de à l’aide d’une grille.

En SAS, la procédure PROC TRANSREG permet de trouver le paramètre

Page 24: Régression linéaire (STT-2400)

STT-2400; Régression linéaire24

Transformation vers la normalité

La méthode de Box-Cox n’a pas été proposée initialement afin de transformer vers la linéarité, mais bien pour transformer vers la normalité.

Le paramètre est choisit afin de rendre les résidus de la régression de (Y, ) sur X les plus près possible d’une distribution normale.

La technique permet également de considérer des intervalles de confiance pour .

Page 25: Régression linéaire (STT-2400)

STT-2400; Régression linéaire25

Exemple: données sur les accidents sur l’autoroute (Minnesota)

Les variables suivantes sont considérées (les données sont de 1973):

– Rate: taux d’accident par million de véhicules-milles parcourus.– Len: longueur du segment routier en milles;– ADT: Estimation du trafic journalier moyen en milliers;– Trucks: Volume des camions comme pourcentage du volume

total;– Slim: Limite de vitesse;– Shld: Largeur de l’accotement;– Sigs: Nombre de signaux relatifs aux changements de voies

par mille dans le segment.

Page 26: Régression linéaire (STT-2400)

STT-2400; Régression linéaire26

Exemple (suite)

Les transformations suivantes sont considérées:– Sigs1 = (Sigs x Len + 1)/Len; Sigs est le nombre de lumières par mille.

La transformation vise essentiellement à rendre la variable positive pour considérer une « transformation puissance ».

– ADT et Len ont de grandes étendues: la règle du log pourrait s’appliquer ici directement:

logADT = log(ADT); logLen = log(Len).

– Slim varie seulement de 40 mph à 70 mph; la règle de l’étendue suggère de ne pas transformer.

– On transforme Sigs1 et Trks: logSigs1 = log(Sigs1); LogTrks = log(Trks).

– On ne transforme pas Shld.

Page 27: Régression linéaire (STT-2400)

STT-2400; Régression linéaire27

PROC TRANSREG pour mettre en œuvre la méthode de Box-Cox

data highway; set alr3.highway; logLen=log2(Len); logADT=log2(ADT); logTrks=log2(Trks); logSigs1=log2((Len*Sigs+1)/Len); proc transreg data=highway; model boxcox(Rate /convenient lambda=-1 to 1

by .005)= identity(logLen logADT logTrks Slim Shld logSigs1);

run;

Page 28: Régression linéaire (STT-2400)

STT-2400; Régression linéaire28

PROC TRANSREG

On trouve que le meilleur est donné par:

On trouve la meilleur valeur en localisant «  < ». L’intervalle de confiance consiste des valeurs de associées avec des « * ». Ainsi l’intervalle de confiance est:

Puisque 0 est dans l’intervalle cela semble plutôt compatible avec une transformation de type logarithmique.

240.0ˆ

320.0,820.0

Page 29: Régression linéaire (STT-2400)

STT-2400; Régression linéaire29

Transformations de variables pas forcément positives

Une possibilité est de considérer comme famille de transformation:

Typiquement on spécifie a priori et on le prend suffisamment grand afin de s’assurer que Y+ est strictement positive.

0,log

,0,1

,,,

1

1

YYgm

YYgm

YgmYY SM