4
Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani 1 Exemples d’introduction à l’analyse des données: De la statistique à la géométrie : Soient X 1 et X 2 deux variables statistiques. Notons Y 1 et Y 2 les variables centrées construites à partir de X 1 et X 2 : 1 1 1 X X Y - = 2 2 2 X X Y - = Convenons d’écrire les données brutes associées à chacune de ces variables, sous la forme de n-uplets : (Y 1 (ω 1 ),…, Y 1 (ω i ),…, Y 1 (ω n )) (Y 2 (ω 1 ),…, Y 2 (ω i ),…, Y 2 (ω n )) ou, si l’on pose y ij = Y j (ω i ) (y 11 ,…,y i1 ,…,y n1 ) (y 12 ,…,y i2 ,…,y n2 ) Il est posible de considérer que ces n-uplets comme les composantes de deux vecteurs Y 1 et Y 2 éléments de IR n (espace vectoriel de dimension n). Exemple 1 : Soit le tableau des données correspondant à deux variables statistiques X 1 et X 2 : X 1 X 2 ω 1 1 6 ω 2 3 2 On a 2 1 = X 4 2 = X D’où les variables centrées Y 1 et Y 2 : Y 1 Y 2 ω 1 -1 2 ω 2 1 -2 On a bien Les vecteurs Y 1 (-1,1) et Y 2 (2,-2) de IR 2 ; le plan IR 2 est appelé espace des individus, car chaque axe du repère orthonormé est associé à un individu 0 1 = Y 0 2 = Y

AD Exemples Introduction

Embed Size (px)

DESCRIPTION

essentiel d'ADD

Citation preview

  • Analyse des donnes S6, Option : Gestion Prof. Mohamed El Merouani

    1

    Exemples dintroduction lanalyse des donnes: De la statistique la gomtrie : Soient X1 et X2 deux variables statistiques. Notons Y1 et Y2 les variables centres construites partir de X1 et X2 :

    111 XXY =

    222 XXY = Convenons dcrire les donnes brutes associes chacune de ces variables, sous la forme de

    n-uplets : (Y1(1),, Y1(i),, Y1(n)) (Y2(1),, Y2(i),, Y2(n))

    ou, si lon pose yij= Yj(i) (y11,,yi1,,yn1) (y12,,yi2,,yn2)

    Il est posible de considrer que ces n-uplets comme les composantes de deux vecteurs Y1 et Y2 lments de IRn (espace vectoriel de dimension n).

    Exemple 1 : Soit le tableau des donnes correspondant deux variables statistiques X1 et X2 :

    X1 X2 1 1 6 2 3 2

    On a 21 =X

    42 =X

    Do les variables centres Y1 et Y2 : Y1 Y2 1 -1 2 2 1 -2

    On a bien

    Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appel espace des individus, car chaque axe du repre orthonorm est associ un individu

    01 =Y 02 =Y

  • Analyse des donnes S6, Option : Gestion Prof. Mohamed El Merouani

    2

    2,1= j

    ( ) ( )=

    =

    n

    ijijj Yy

    nYVar

    1

    21

    ( ) 21

    2 11j

    n

    iij Y

    ny

    n

    =

    ==

    et

    o est la norme euclidienne du vecteur , cest--

    dire, dans un langage plus courant, la longueur du vecteur

    Pour les vecteurs de lexemple 1 ;

    ( ) ( ) 11121 22

    1 =+=YVar

    ( ) ( ) 44421

    2 =+=YVar

    211 221 =+=Y

    22442 =+=Y La longueur du vecteur associ une variable statistique centre est donc proportionnelle

    lcart-type de cette variable. Calculons, maintenant, la covariance de (Y1, Y2) :

    ( ) ( )( )221

    11211

    , YyYyn

    YYCov in

    ii =

    =

    )(11 2121

    1 YYn

    yyn

    i

    n

    ii ==

    =

    o (Y1.Y2) dsigne le produit scalaire de Y1 et de Y2. On rappelle que, si est langle form entre les vecteurs Y1 et Y2, alors :

    )1(cos21

    21

    YYYY

    =

    Soit encore, compte tenu de ce qui prcde, ( )

    ===

    )()(,

    )()(),(

    cos21

    21

    21

    21

    YVarYVarYYCov

    YYnYYnCov

    cest le coefficient de corrlation linaire entre Y1 et Y2.

    jY

    jY

    2221 njijjj yyyY ++++= LL

    n

    YY jj =)(

  • Analyse des donnes S6, Option : Gestion Prof. Mohamed El Merouani

    3

    Dans lexemple 1 prcdent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinaires et de sens contraire, langle de Y1 et Y2 est donc gal ; or cos = 1, rsultat que lon retrouve en utilisant la formule (1),

    Lorsque les vecteurs sont linairement dpendants (lis), il existe tel que Y1=Y2, donc cos =1 et rciproquement. Quand on centre et on rduit des variables (par exemple ), on forme des

    vecteurs qui ont tous la mme dimension. ( )

    De ce fait, la variance est la distance commune tous les vecteurs (ils se situent sur un cercle de rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrlation linaire que lon dduit partir de langle form par les deux vecteurs. Exemple 2 : Soit le tableau de donnes suivant :

    Variables Individus

    X1 X2

    1 4 5 2 6 7 3 8 0

    =

    864

    1X

    =

    075

    2X

    ,

    Les moyennes : 63

    4681 =

    ++=X et 4

    3075

    2 =++

    =X

    Center les variables ( )jij xx : 4-6=-2 5-4=1 6-6=0 7-4=3 8-6=2 0-4=-4

    Leur normes (cart-types iXi

    ) :

    ( ) ( )322]44[

    31]22[

    31 22

    11 =+=+== XX

    et ( )326]431[

    31 222

    22 =++== XX

    avec

    182

    )2(2cos =

    +=

    *

    + IR

    )( jjj

    j YYY

    Z

    =

    1)( =jZVar

    et

    =

    2634

    23

    26330

    263

    2232

    Z iXjij

    ijxx

    z

    =

  • Analyse des donnes S6, Option : Gestion Prof. Mohamed El Merouani

    4

    011 == CZ et 022 == CZ 2,1;1 == jyj

    De plus ( )( ) ( )YXYXCov

    r

    ,

    = entre deux variables X et Y,

    mais si ( ) ( ) ,1== YX

    alors ( )YXCovr ,= . Calcul du produit matriciel ZZ

    p'

    1 :

    =

    =

    =

    169,069,01

    11325

    13251

    313215

    132153

    31

    2634

    23

    26330

    263

    23

    2634

    2633

    263

    230

    23

    31

    Le rsultat de ce calcul est la matrice R des corrlations linaires des variables. On lappelle aussi la matrice dinformation des variables. R est une matrice symtrique, ayant des 1 sur la diagonale (les variances des variables) et tous ses lments sont infrieurs ou gales 1 en valeur absolue.

    Calcul du produit matriciel ZZ :

    VZZ =

    =

    =

    2687

    2636

    2651

    2636

    2627

    269

    2651

    269

    1321

    2634

    2633

    263

    230

    23

    2634

    23

    26330

    263

    23

    '

    Cette matrice V nest pas une matrice de corrlation, mais elle porte le nom de matrice dinformation des individus. Elle est symtrique aussi.