régression abrégée

Embed Size (px)

Citation preview

  • 7/30/2019 rgression abrge

    1/58

    Opration et systmes de dcisionFacult des Sciences de lAdministration

    MQT-21919Probabilits et statistique

  • 7/30/2019 rgression abrge

    2/58

    Lectures

    Volume du cours: Sections 12.1 12.6 inclusivement

    Volume recommand: Statistique en Gestion et enconomie: sections 8.1 et 8.2

  • 7/30/2019 rgression abrge

    3/58

    Mise en contexte

    En statistiques, plusieurs problmes consistent dfinirla relation qui existe entre deux variables statistiques :

    Le nombre dannes dexprience et le nombre derreurs

    commises ;

    Lge du conducteur et le nombre daccidents dauto ;

    Le volume des ventes et les dpenses en publicit ; Le nombre dheures dtudes et les rsultats aux

    examens ;

  • 7/30/2019 rgression abrge

    4/58

    Mise en contexte

    Dans ce genre de problmes, les principales questionsauxquelles nous voudrons rpondre sont les suivantes :

    Existe-il une relation ou une dpendance entre les

    variables statistiques?

    Cette relation, si elle existe, est-elle linaire ou non ?

    Si une dpendance linaire existe, de quelle faon peut-

    on la traduire par une quation mathmatique ?

    La relation, si elle existe, est-elle grande ou faible ?

    Si lquation mathmatique de la relation entre les

    variables existe, comment prvoir les valeurs dune

    certaine variable partir de la connaissance de valeurs de

    lautre variable ou des autres variables ?

  • 7/30/2019 rgression abrge

    5/58

    Mise en contexte

    Pour rpondre toutes ces questions, nous ferons appel une thorie statistique que nous appelons :

    Lanalyse de la rgression

  • 7/30/2019 rgression abrge

    6/58

    Lanalyse de la rgression

    Lanalyse de la rgression est une mthode statistique

    qui permet dtudier le type de relation pouvant exister

    entre une certaine variable (dpendante) dont on veut

    expliquer les valeurs et une ou plusieurs autres variablesqui servent cette explication (variables indpendantes)

    Rgression linaire simple: une variable indpendante

    En dautres termes, lanalyse de la rgression permet

    dtudier les variations de la variable dpendante enfonction des variations connues des variablesindpendantes.

  • 7/30/2019 rgression abrge

    7/58

    Le cot du loyer en fonction du nombre de pices, du niveaudtage dans limmeuble, des services offerts ...

    ),...,,,( 321 nXXXXfY

    Cot du loyer Nombre de picesServices offerts

    (piscine, stationnement intrieur, etc.)

    Ltage dans limmeuble

  • 7/30/2019 rgression abrge

    8/58

    Une analyse de rgression est :

    dite simple si elle permet de prdire les valeurs dune

    variable dite dpendante (explique (Y)) partir des

    valeurs prises par une autre variable dite indpendante

    (explicative (X)).

    dite multiple si elle permet de prdire les valeurs

    dune variable dite dpendante (explique (Y)) partir

    des valeurs prises par plusieurs autres variables dites

    indpendantes (explicatives (Xi)).

  • 7/30/2019 rgression abrge

    9/58

    Cest la reprsentation graphique dans le plan cartsien de lensembledes paires de donnes (xi,yi). Ces donnes proviennent dune sriestatistique de deux variables obtenues partir dune tude mene sur

    un chantillon ou sur une population.

    Dfinition : Nuage de points ou

    diagramme de dispersion

  • 7/30/2019 rgression abrge

    10/58

    Exemple : Nuage de points ou diagramme de dispersion

    Supposons que le nombre dheures dtudes ncessaires pourprparer lexamen final en statistiques et le nombre de bonnesrponses obtenues par chaque tudiant sont donns dans le

    tableau suivant :

    Tracer le nuage de points ou le diagramme de dispersion desdonnes prsentes ci-dessus.

  • 7/30/2019 rgression abrge

    11/58

    Exemple : Nuage de points ou diagramme de dispersion

  • 7/30/2019 rgression abrge

    12/58

    Objectif dune analyse de rgression simple

    Une fois la reprsentation graphique effectue, il est facile de

    souponner lexistence dune certaine relation entre les deuxvariables (caractres tudis). Il faut maintenant chercher exprimer cette relation laidedune quation mathmatique.

    )(XfY On essaie de trouver la forme mathmatique de la fonction f

  • 7/30/2019 rgression abrge

    13/58

    Objectif dune analyse de rgression simple

  • 7/30/2019 rgression abrge

    14/58

    Dfinition : Nous appelons rgression linaire lajustement dunedroite au nuage statistique dune srie de couples de donnes.

    Ainsi, une rgression linaire simple va permettre de rsumer,dinterprter et de prvoir les variations dun caractre ditdpendant (Y) en fonction dun autre dit indpendant (X) et ceen utilisant une droite.

  • 7/30/2019 rgression abrge

    15/58

    Modle de rgression linaire simple

    Modle de rgression linaire simple

    y = 0 + 1x+

    quation de la rgression linaire simple (commentl'esprance dey est lie x)

    E(y) = 0 + 1x

    quation estime de la rgression linaire simple

    (droite de la rgression estime, modle empirique)y=Variable dpendante ou explique

    = valeur estime de y pour une valeur x

    x=Variable indpendante ou explicative

    0et

    1= Coefficients thoriques de rgression ( estimer laidedun chantillon) par b0et b1

    = Erreur thorique alatoire (dautres facteurs influencent Y)

    0 1y b b x

    y

  • 7/30/2019 rgression abrge

    16/58

    Modle de rgression linaire simple

    L'quation estime de la rgression linaire simple(droite de la rgression estime, modle empirique)peut tre utilise pour une estimation ponctuelle de la

    valeur moyenne de y pour une valeur particulire de xou pour prvoir la valeur ponctuelle de y associe unevaleur particulire de x

    y=Variable dpendante ou explique= valeur de prvision de y pour une valeur x, ou moyenne de y estime pour une valeur de x

    x=Variable indpendante ou explicative

    0 1

    y b b x

    y

  • 7/30/2019 rgression abrge

    17/58

    Les diffrentes tapes dune tude de rgression

  • 7/30/2019 rgression abrge

    18/58

    Il existe plusieurs mthodes permettantdestimer le modle thorique

    par le modle empirique

    Mthode des moindres carrs Mthode de la vraisemblance

    0 1 y x

    0 1 y b b x

  • 7/30/2019 rgression abrge

    19/58

    La mthode des moindres carrs

    Critre des moindres carrs

    o:yi = valeur observe de la variable dpendante pour

    pour la ime observation

    = valeur estime de la variabledpendante pour la ime observation

    2min ( )i iy y

    iy

  • 7/30/2019 rgression abrge

    20/58

    La mthode des moindres carrs

    Ide de base : cette mthode essaie de construire une droite dergression empirique qui minimise la somme des carrs desdistances verticales entre cette droite et chacun des pointsobservs.

  • 7/30/2019 rgression abrge

    21/58

    La mthode des moindres carrs

    Diagramme de dispersion

    Heures d'tudes

    0

    123

    45

    67

    89

    10

    0 2 4 6 8 10

    ),( ii yx

    ),( ii yx

    Illustration graphique

  • 7/30/2019 rgression abrge

    22/58

    La mthode des moindres carrs

    Dfinition : On appelle rsidu ou erreur empirique

    ou cart de prvision, la valeur , soit ladiffrence (lcart vertical) entre la valeurobserve yi de Y et la valeur estime obtenue partir de la droite de rgression, lorsque x= xi.

    ei i iy y

    iy

    Lobjectif de la mthode des moindres carrs est de

    dterminer la droite de rgression qui minimise2

    1

    n

    i

    i

    e

  • 7/30/2019 rgression abrge

    23/58

    La mthode des moindres carrs

    2 2 2 2 2

    1 2 3

    1

    2

    1

    20 1

    1

    n

    ...n i

    in

    i i

    i

    n

    i i

    i

    SCres e e e e e

    SCres y y

    SCres y b b x

    Cette mesure donne lordre degrandeur de la dispersion desobservations Yi autour de ladroite de rgression

    Il sagit de trouver bo et b1 de sorteque la somme des carrs des rsidus SCres

    soit la plus petite possible (minimale).

  • 7/30/2019 rgression abrge

    24/58

    Principes de la mthode des moindres carrs

    Comment calculer les coefficientsb0 et b1?Les estimations ponctuelles des paramtres de la droite dergression obtenues par la mthode des moindres carrs sont :

    n

    i

    i

    n

    i

    ii

    xnx

    yxnyx

    b

    xbyb

    1

    22

    11

    10

    Taille de lchantillon

    1 2

    i i

    i

    ( x x )( y y )

    b ( x x )

    Autre formule pour b1

  • 7/30/2019 rgression abrge

    25/58

    partir des donnes ci-dessous, dterminez les estimationsponctuelles des paramtres de la droite de rgression selon lamthode des moindres carrs :

  • 7/30/2019 rgression abrge

    26/58

    11 2

    2 2

    1

    6670 5 30 400 67

    5500 5 30,

    ( )

    n

    i ii

    n

    i

    i

    x y nxyb

    x nx

    0 1 40 0 67 30 19 9, ,b y b x

    19 9 0 67 , ,y x

  • 7/30/2019 rgression abrge

    27/58

    Remarque Importante

    La droite de rgression dtermine laide de la mthode desmoindres carrs donne la plus faible somme de carrs rsiduels

    parmi toutes les autres droites que lon pourrait ajuster cet ensemble dobservations. 2ie

  • 7/30/2019 rgression abrge

    28/58

    Une entreprise veut mener une tude sur la relation entre les dpenseshebdomadaires en publicit et le volume de ventes quelle ralise. On arecueilli au cours des dix dernires semaines les donnes suivantes :

    partir des donnes ci-dessus, dterminez les estimations ponctuellesdes paramtres de la droite de rgression selon la mthode desmoindres carrs.

  • 7/30/2019 rgression abrge

    29/58

    partir de ces donnes, il est possible de tracer le diagramme dedispersion suivant :

  • 7/30/2019 rgression abrge

    30/58

    Les rsultats intermdiaires suivants servent calculer lesestimations ponctuelles des paramtres de la droite dergression :

  • 7/30/2019 rgression abrge

    31/58

    En appliquant les formules ci-dessous, nous obtenons les valeursnumriques de b0et b1

    11 2

    2 2

    1

    1605 10 3 3 46 353 95

    128 10 3 3

    , ,,

    ( , )

    n

    i ii

    n

    i

    i

    x y nxyb

    x nx

    0 1 46 35 3 95 3 3 33 31, , , ,b y b x

    33 31 3 95 , ,y x

  • 7/30/2019 rgression abrge

    32/58

    33 31 3 95 , ,y x

    Dpenses en publicit

    Cest laugmentation du volumedes ventes (Y) pour une augmentationunitaire du cot en publicit (X)

    Ordonne lorigine(volume de vente moyensans dpenser un sous enpublicit)

    La droite de rgression qui permet de dterminerle volume moyen des ventes pour un cotpublicitaire donn x.

  • 7/30/2019 rgression abrge

    33/58

    Interprtation des rsultats et remarques

    Rq1 : le point de cordonnes se trouve sur la droite de rgression.

    Rq2 : cette relation linaire entre X et Y est valide pour lintervalle desvaleurs de X considre dans lnonc,cest--dire de 1 5,5.

    La droite de rgression sapplique lintrieur de ltendue des valeursexprimentales qui ont t observes pour la variable explicative (X). Ondevra donc viter toute extrapolation en dehors de ce domaine moinsdtre certain que le phnomne se comporte de faon identique.

    ),( yx

  • 7/30/2019 rgression abrge

    34/58

    Rq3 : Pour la valeur x = 3,5 (situe entre 1 et 5,5), on peut utiliser ladroite de rgression pour calculer la valeur moyenne correspondante deY

    Exemple : Estimation du volume des ventes moyen pour un cot de 3,5millions de dollars en publicit hebdomadaire.

    = 33,31 + 3,95 (3,5) = 47,14 millions de dollarsy

  • 7/30/2019 rgression abrge

    35/58

    La pente de lquation de la rgression empirique (estime)

    ou

    Lordonne lorigine de lquation de la rgression empirique

    (estime):

    o:

    xi = valeur de la variable indpendante pour la ime observation

    yi = valeur de la variable dpendante pour la ime observation

    = valeur moyenne de la variable dpendante

    = valeur moyenne de la variable indpendante observe

    n= nombre total dobservations

    La mthode des moindres carrs - Rsum

    1 2

    2

    i

    i i

    i i

    i

    x yx y

    nb

    xx n

    0 1 b y b x

    x

    y

    1 2

    i i

    i

    ( x x )( y y )b

    ( x x )

  • 7/30/2019 rgression abrge

    36/58

    Il existe trois mesures possibles pour quantifierlintensit de la relation entre X et Y:

    Le coefficient de dtermination de Y en fonction de X Le coefficient de corrlation entre X et Y La covariance entre X et Y

    Relation entre X et Y

  • 7/30/2019 rgression abrge

    37/58

    Coefficient de dtermination de Y en fonction de X

    Le coefficient de dtermination thorique de Y en fonction de X, notmesure la proportion de la variation de Y qui est explique par la

    rgression ou qui est explique par la variable X au niveau de toute lapopulation.

    2

    YX

    10 2 YX

    Le coefficient de dtermination

    Le coefficient de dtermination indique

    si le modle linaire dfini colle aux donnes

  • 7/30/2019 rgression abrge

    38/58

    Coefficient de dtermination de Y en fonction de XEn pratique est inconnu, car on ne possde pas dinformationsur toute la population mais seulement sur un chantillon detaille n, alors on estimera partir de lchantillon :

    2

    YX

    n

    y

    y

    xxb

    yy

    yyrr

    n

    i

    in

    i

    i

    n

    i

    i

    n

    i

    i

    n

    i

    i

    YX 2

    1

    1

    2

    1

    221

    1

    2

    1

    2

    22)(

    )(

    )(

    totalevariation

    expliquevariation

    2

    YX

    fournit une indication de la force de la liaison possiblepouvant exister entre Y et X au niveau de la population. De plus,cest un indice de la qualit de lajustement de la droite auxpoints exprimentaux.

    2

    YXr

    Le coefficient de dtermination

    2

    12 2

    1 1

    n

    in ni

    i i

    i i

    y

    ( y y ) y

    n

    Rappel:

  • 7/30/2019 rgression abrge

    39/58

    Le coefficient de dtermination

    Dans quelle mesure lquation estime de la rgression

    sajuste-t-elle aux donnes?

    Le coefficient de dtermination permet de mesurer le

    degr dadquation

    Formule pour le coefficient de dtermination

    r2 = SCreg/SCTo: SCT = SCreg + SCres

    =

    SCT = Somme des carrs totale (variation totale)

    SCreg= Somme des carrs de la rgression (variation explique)

    SCres = Somme des carrs des rsidus

    2( )

    iy y2( )iy y 2( )i iy y

  • 7/30/2019 rgression abrge

    40/58

    Le coefficient de dtermination

    2 2 2

    2 1 1 1

    2 2

    1 1

    n n n

    i i i

    i i i

    n n

    i i

    i i

    ( y y ) ( y y ) ( y y )SCreg SCT SCres

    r SCT SCT ( y y ) ( y y )

    n

    ii

    n

    ii

    yny

    xnx

    br

    1

    22

    1

    22

    2

    1

    2

  • 7/30/2019 rgression abrge

    41/58

    Calculez pour lexempledapplication des cots publicitaires etdes ventes:

    2

    2 1

    2

    1

    SCreg

    SCT

    n

    i

    iYX n

    i

    i

    y y

    ry y

    2

    YXr

    Puisque est proche de 1, on peut dire que la droite dergression sajuste trs bien au nuage de points.

    2

    YXr

    Le coefficient de dtermination

    2 298 0080 9692307 525

    variation explique ,,variation totale ,

    YXr

  • 7/30/2019 rgression abrge

    42/58

    Diffrence entre rgression et corrlation ?

    La rgression linaire simple se proccupeessentiellement de la forme de la relation linaire qui

    existe entre X et Y

    La corrlation essaye de mesurer lintensit ou la force de

    la relation linaire qui existe entre X et Y.

    Relation entre X et Y: rgression etcorrlation

  • 7/30/2019 rgression abrge

    43/58

    Le coefficient de corrlation delchantillon

    o:b1= la pente de lquation de rgression estime

    (empirique)

    Le coefficient de corrlation thorique (au niveau de la

    population) est dnot yxou simplement

    2b 1(signe de )yxr r

    b 1(signe de ) coefficient de dterminationyxr

    xbby10

  • 7/30/2019 rgression abrge

    44/58

    Le coefficient de corrlation peut tre dtermin de la manire suivante (ouencore en prenant la racine carre du coefficient de dtermination):

    On a toujours: Si alors il existe une relation linaire exacte entre X et Y Si alors soit que X et Y sont indpendantes, soit quil y a une

    dpendance non linaire entre les deux variables Si ou alors il existe une relation linaire plus ou moins

    forte entre X et Y

    Le coefficient de corrlation permet de voir s'il est

    facile d'approcher les donnes par une droite.

    1

    2 22 22 2

    1 1

    n

    i ii i i ii

    XY n n

    i i i ii i

    i i

    ( x x )( y y )n x y x y

    rn x x n y y( x x ) . ( y y )

    11 XYr

    1XYr

    0XYr

    0XYr 1XYr

    Le coefficient de corrlation delchantillon

  • 7/30/2019 rgression abrge

    45/58

    Toujours en utilisant lexemple numrique de la publicit et lesventes d'autos, mesurez le degr de dpendance linaire entreX et Y.

    10

    1 1

    10 102 2 2 2

    1 1 1 1

    3 3 46 3575 45

    0 984519 10 307 533 3 46 35

    ( )( ) ( , )( , ),

    ,, * ,( ) . ( ) ( , ) . ( , )

    n

    i i i i

    i i

    XY n n

    i i i i

    i i i i

    x x y y x y

    rx x y y x y

    Rponse

    Les dpenses en publicit et les ventes varient dans le mme sens

    Il existe une relation linaire trs forte entre

    les dpenses en publicit et les ventes

    Le coefficient de corrlation delchantillon

  • 7/30/2019 rgression abrge

    46/58

    Coefficient de corrlation et nuage de

    points

  • 7/30/2019 rgression abrge

    47/58

    Validation de la droite de rgression empiriqueTest dhypothse sur

    Pour vrifier si linfluence de la variable indpendante X estsignificative, on procde un test dhypothses sur

    1

    1

    XY 10

    Si 1 = 0 alors peu importe lesvaleurs de X, elles naurontpas dimpact sur Y

  • 7/30/2019 rgression abrge

    48/58

    tapes contribuant la validation de la droite de rgressionempirique

    Estimer la variance des erreurs thoriques

    Estimer et par intervalle de confiance

    Test dhypothses sur 1

    0

    1

    2 2

    (Parfois dnote )

  • 7/30/2019 rgression abrge

    49/58

    Validation de la droite de rgression empirique

    Estimation de la variance des erreurs thoriques2

    La prcision des estimateurs b0 et b1 dpend de la valeur de la

    variance des erreurs thoriques : plus sera petite, plus cesestimateurs sont prcis.

    Puisque, en pratique, la variance est inconnue, on lestime par leterme suivant :

    2 2

    2 2 1 1

    2 2

    ( )

    n n

    i i i

    i ie

    e y y

    s sn n

    2

    2

  • 7/30/2019 rgression abrge

    50/58

    Validation de la droite de rgression empirique

    Estimation de et2

    0b

    En pratique, les variances et sont inconnues, alors on lesestime par les deux termes suivants :

    0

    22 2

    2

    1

    1

    ( )b n

    i

    i

    xs s

    nx x

    2

    1b

    20b

    21b

    1

    22

    2

    1

    ( )b n

    i

    i

    ss

    x x

  • 7/30/2019 rgression abrge

    51/58

    Exemple dapplication

    Calculer pour lensemble des donnes ci-dessus.0 1

    2 2 2, ,b b

    s s s

    Complter le tableau suivant :

    0.49

    1.69

    49.11

    41.21

    33,31 + 3,95 x 2 = 41,2133 31 3 95 , ,Y X

    0.39

    - 0.21

    0.1521

    0.0441

    7.6176

    26.4196

    0

    1

    2

    2

    2

    1 1847

    0 7939

    0 062

    ,

    ,

    ,

    b

    b

    s

    s

    s

  • 7/30/2019 rgression abrge

    52/58

    Validation de la droite de rgression empirique

    Estimation de 1 par intervalle de confiance

    Lintervalle de confiance pour estimer 1, la pente du modle de

    rgression thorique, au niveau de confiance (1 - ) est donn par:

    11 2/ bb t s

    a

    Si n-2 < 30

    11 2/ bb z sa

    ldntt .)2(2/ a

    Si n-2 30 )1,0(2/ Nz a

    Si la valeur1=0 appartient lintervalle de confiance,

    on ne rejette pas lhypothse nulle:1=0 au niveau de signification a et

    on conclut quil nexiste pas de relation linaire significative entre Y et X

  • 7/30/2019 rgression abrge

    53/58

    Daprs les donnes de lexemple numrique de la publicit et levolume de ventes d'autos, construisez un intervalle de confiance pourau niveau 95% :

    11 2/ bb t sa

    Puisque n-2 = 10 -2 = 8 < 30, alors

    1

    0 0253 95 0 062

    ,, ,t

    3 95 2 306 0 062, , ,

    Table de Student

    3 3758 4 5242, ,

  • 7/30/2019 rgression abrge

    54/58

    Tester la signification dune rgression

    Pour tester la signification dune rgression, on peut

    effectuer un test dhypothses afin de dterminer si la

    valeur de 1 est zro.

    Deux tests sont couramment utiliss Test tou z (selon la taille de l'chantillon)

    Test F

    Les deux tests ncessitent une estimation de 2, la

    variance des erreurs du modle de rgression

  • 7/30/2019 rgression abrge

    55/58

    Tester la signification dune rgression

    Une estimation de 2

    Rappel: la moyenne des carrs des rsiduss2 fournit uneestimation de 2

    s2 = SCres/(n-2)

    o:

    2 2

    0 1

    SCres ( ) ( )i i i iy y y b b x

    2

    SCres

    s

    n

    sest lerreur type de lestimation

  • 7/30/2019 rgression abrge

    56/58

    Les tapes dun test z ou t dhypothses sur

    1. noncer les hypothses H0et Ha.

    2. Prciser les conditions du test La population des erreurs est normale La variance rsiduelle est inconnue Le niveau de signification a Si la taille de lchantillon n 2 30, on utilise z (Normale) Si la taille de lchantillon n 2 < 30, on utilise t (Student)

    3. Calculer la statistique de test.

    4. Trouver la rgion critique au niveau de signification

    1

    0 1

    1

    0

    0a

    H :

    H :

    2

    1 1

    1 1

    1 1 1

    1 1 1

    2 30

    2 30

    b b

    b b

    b bz si n

    s sb b

    t si ns s

    0 2 2 2 2/ ,( ) . / ,( ) .,

    n d l n d lOn rejette H si t t ou si t ta a

    0 2 2/ /,On rejette H si z z ou si z za a

  • 7/30/2019 rgression abrge

    57/58

    Daprs les donnes de lexemple dapplication sur la publicit et levolume de ventes d'autos, vrifiez au niveau de signification a= 0,05si X explique Y, partir de la droite de rgression linaire obtenue

    0 1

    1

    0

    0a

    H :

    H :

    tape 1 tape 2

    n 2 = 8 < 30, population normale, inconnue2

    tape 3

    1

    1 13 95 0

    15 860 062

    ,,

    ,b

    bt

    s

    tape 4

    0 025 82 306, , . ,d lt

    0 025 8 015 86 2 306

    , , ., , ,

    d lpuisque t t on rejette H

    Cela implique que X explique les valeurs prises par Y au niveau = 0,05

  • 7/30/2019 rgression abrge

    58/58

    Hypothses du modle

    Hypothses concernant le terme derreurs

    Lerreur est une variable alatoire desprance 0

    La variance de , dnote 2 ou 2 , est la mme pour

    toutes les valeurs de X

    Les valeurs de sont indpendantes.

    Lerreur est distribue selon une loi normale