Analyse de Données - COURS

Embed Size (px)

Citation preview

  • 8/9/2019 Analyse de Donnes - COURS

    1/61

    COURS DANALYSE DE DONNES

    Prsentation

    Ce cours ne ncessite que quelques connaissances mathmatiques relatives lamanipulation des matrices et ce essentiellement pour comprendre la thorie de

    lanalyse en composantes principales.Il peut tre facilement abord par les tudiants de gestion (marketing conomiecommerce ...! de psychologie de mdecine et les l"ves ingnieurs(informatique acoustique...!.Ce cours de statistique lmentaire et d#analyse de donnes comprend cinqchapitres qui peuvent tre consults de fa$on indpendante.Il est conseill de commencer par le chapitre % description de tableau &. Ilprsente des concepts lmentaires de statistique descriptive utiliss dans lereste des chapitres.'e chapitre que nous conseillons d#aborder en second lieu est % Classication)utomatique &.

    *n e+et pour bien assimiler les notions lmentaires de classication nous avonsbesoin des lments descriptifs prsents au premier chapitre.'es trois autres chapitres peuvent ensuite tre librement abords car ils sontindpendants.

    1

  • 8/9/2019 Analyse de Donnes - COURS

    2/61

    DESCRIPTION DE TABLEAU

    '#analyse de donnes est un ensemble plus ou moins dni de mthodesstatistiques.'a premi"re tape dans une analyse de donnes est essentiellement la dnitionde la population ou des individus, tudier. Ces individus sont dcrits par des

    caract"res ou variables-

    . Ces individus et variables sont souvent sous forme detableau ou matrice.our un probl"me donn l#utilisateur doit dterminer les individus les variablesles types associs chaque variable leur codage /.

    0 donnes0 utilisation de mthodes danalyse de donnes0 rsultats

    I Individus et variables

    1.1 Choi des individusLes donnes d'un problme peuvent correspondre une population assez vaste et l'analyse de donnesintervient gnralement aprs le recueil de ces donnes. Elle utilise des mthodes de descriptionsouvent indpendantes de la faon dont ces donnes ont t obtenues. es donnes sont reprsentessous forme de tableau!

    1.2 Dfnition thorique es !aria"#es) chaque param"tre ou caract"re choisi par l#utilisateur pour dcrire lesindividus on peut associer une ou plusieurs variables.1oit$l#ensemble des individus une variable est dnie par 21%une application v de 3 sur un ensemble d#arrive 42%une structure algbrique 1 sur 4 pouvant se transporter sur 3 par v.ar la suite avec un abus de langage on donnera le mme nom l#application vet la variable v.

    4n a donc v 2$ & O muni de la structure 1.

    1 Po'u#ation ou ini!ius ( Ce terme s#applique aussi bien un ensemble de personneshumaines qu# des ensembles d#ob5ets concrets ou abstraits2 client d#un magasin production d#unatelier voitures d#une socit plantes..."Un )ara)t*re ou une !aria"#e 2 chaque individu d#une population peut tre caractris par unou plusieurs caract"res. )insi le personnel d#une entreprise peut tre dcrit selon le se6e 7gesalaire nombre d#enfants...

    "

    http://www.tn.refer.org/hebergement/analyse/ref_population_indiv.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_carac_var.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_population_indiv.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_carac_var.html
  • 8/9/2019 Analyse de Donnes - COURS

    3/61

    'e choi6 des variables est troitement li au probl"me pos. '#analyse dedonnes peut permettre de vrier la validit des variables en faisant ressortirpar e6emple les redondances et la pertinence de certaines variables.

    E+e,'#e(1i l#on dsire utiliser un poids e6act on dnit une variable v qui

    associe chaque individu son poids. '#espace d#arrive 4 est 89

    et sa structurealgbrique 1 est celle du corps des rels (c.00d. l#addition la multiplication et larelation d#ordre ont un sens!.ar contre si l#on est seulement intress par des classes de poids on dnit unenouvelle variable v# qui associe chaque individu sa classe de poids l#espaced#arrive 4# est alors l#ensemble des entiers naturels muni d#une relation d#ordrenote 1# (dans ce cas seule la relation d#ordre a un sens!.4n voit que les variables v et v# sont di+rentes bien qu#elles concernent lemme param"tre :poids:.

    1.- Les t'es e !aria"#es

    ;ne fois les variables choisies il faut leur associer un :type: et suivant lastructure de 1 on distingue deu6 grands types de variables2

    variablesquantitatives

    variablesqualitatives

    1.-.1 Les !aria"#es quantitati!es'#ensemble d#arrive d#une variable quantitative est 8.

  • 8/9/2019 Analyse de Donnes - COURS

    4/61

    ordinal

    qualitatifte6tuel

    titre de lm nom d#auteur /

    our le qualitatif nominal on ne consid"re que la structure d#ensemble. our lequalitatif ordinal 4 est muni d#une structure d#ordre total.

    *6ercice,1i notre variable :poids: prend les valeurs suivantes2

    =>

    ==.=

    ??

    @A

    BA

    ...

    uel est le type de cette variableD

    qualitative ordinale

    quantitative de comptage

    quantitati!e ,esura"#e (Eonne rponse!

    1. Le )hoi+ u )oae;ne variable vde muni d#une structure 1 tant choisie le codage intervientchaque fois que l#on dsire modier l#espace d#arrive 4 ou les valeurs prisespar v dans 4 ou encore la structure algbrique 1 associe ces valeurs.8aliser un codage revient donc e+ectuer un changement de variables. 4npeut e6primer le codage c qui permet de passer de la variable v la variable v# l#aide du schma2

    E+e,'#e(1i on parle de l#7ge d#une personne qui peutprendre comme valeur ,= F>... 4n peut parler d#unemoyenne d#7ge d#une personne dont l#7ge est le double

    d#une autre personne... .4n pense donc automatiquement une variable !quantitative mesurable.1i l#on dsire transformer l#7ge en classe d#7ge on obtient

    une nouvelle variable!3qualitative ordinale.1i maintenant on ne dsire plus faire intervenir l#ordre entre les tranches d#7geon obtient une variable!44 qualitative nominale.

    $

    http://www.tn.refer.org/hebergement/analyse/Q1_typ_variab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_typ_variab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_typ_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_typ_var.html
  • 8/9/2019 Analyse de Donnes - COURS

    5/61

    4n modie ainsi la structure algbrique de l#espace d#arrive bien que lesvaleurs prises par la variable n#aient pas t modies.

    Considrons la variable quantitative 7ge! dnie sur% &1( "( #() avec!v*1+ %1,- v*"+ % $ et v*#+ % "/.1upposons que les tranches d#7ge soient G,->H H->J>H HJ>B>H respectivement

    codes ,-F alors la nouvelle variable!4qui est qualitative ordinale prendra lesvaleurs2v'*1+ % c o v *1+ %c*1,+%1-v'*"+ % c o v *"+ %#v'*#+ % c o v *#+ %".

    *6ercice-1i notre variable % poids & prend les valeurs suivantes2

    =>

    ==.=

    ??

    @A

    BA

    ...

    4n dsire appliquer un recodage sur cette variable.)insi un poids entre => et ?> sera cod , un poids entre ?, et ?= sera cod - ...uel est le nouveau type de la variable poids Dquantitatif de comptagequantitatif d#ordre

    qua#itati0 orina# (Eonne rponse!

    1.5 Si,i#arit'e choi6 d#une similarit ou dissimilarit intervient dans la plupart des mthodesde classication et d#analyse factorielle. Cette notion vise essentiellement associer une valeur numrique chaque couple d#individus ou de variables pourmesurer leur ressemblance.Exemple:1upposons que 3 soit un ensemble form de deu6 plantes K , et K-etque l#on dispose de F variables pour les caractriser 2v,0L nombre de feuilles

    M-0L nombre de ptalesMF0L nombre de bourgeons.4n peut mesurer la similarit par le nombre d#occurrences communes et ladissimilarit par le nombre de di+rences.

    II Constru)tion 4un ta"#eau e onnes

    2.1 Dfnition

    /

    http://www.tn.refer.org/hebergement/analyse/Q1_recod_variab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_recod_variab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_recod_var.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_recod_var.html
  • 8/9/2019 Analyse de Donnes - COURS

    6/61

    ;n tableau de donnes se dduit de la dnition de l#ensemble des individus etdes variables. 1oit n le nombre d#individus un individu sera not Ki etcorrespond une ligne du tableau. 1oit 'le nombre de variables une variablesera not v5et correspond une colonne.0ous notons l'ensemble des individus & 1( ( n)- 2 est l'ensemble des variables & v1( (vp). Letableau de donnes associ est 3% *4 i5- i%1..n - 5%1..p + o6 4i5% v5*i+

    v1 . v5 vp

    1

    .

    i 4i5

    n

    2.2 E+e,'#es e ta"#eau+ e onnes

    -.-., Nableau individusOvariables

    ,! Nableau de donnes quantitatives2 c#est le cas oP toutes les variables sontquantitatives.E+e,'#e ( est un ensemble dont chaque lment K iest associ un sondagegologique. 'es param"tres e6priment la teneur en di+rents minerais dechacun des sondages. v5(Ki!est une mesure de la teneur du minerai pour lesondage Ki.

    07sondage8variable 9eneur en fer 9eneur en cuivre

    sondage1 :.1 :."

    sondage" :.# :.#sondage# :.$ :."

    -! Nableau de donnes qualitatives ou de modalits 2 c#est le cas oP toutes lesvariables sont qualitatives. 1i toutes les variables sont ordinales (resp nominales!on dira que l#on a un tableau de modalits ordonnes (resp non ordonnes!

    ;ndiv8

  • 8/9/2019 Analyse de Donnes - COURS

    7/61

    F! Nableau binaire 2 on rencontre souvent des variables qui ne prennent que deu6valeurs codes gnralement > et ,. *lles conduisent des tableau6 binaires.

    ;ndiv8ers8?ar@ue ?1 ?" ?# ?$ ?/

    =1 1 # $ " /

    =" # " / $ 1

    =# / # $ " 1

    =$ 1 / # $ "

    .A

    bateau -

    3F F.= train F

    2.2.2 Ta"#eau+ !aria"#es6!aria"#es

    Tableau de contingence et tableaux de frquence) partir de deu6 variables qualitatives on dnit le tableau de contingencecroisant les modalits de deu6 variables. 'a case l#intersection de la ligne i etde la colonne 5 contient le nombre d#individus ayant choisi la modalit i de lapremi"re variable et la modalit 5 de la seconde variable. 1i l#on divise chaquevaleur de ce tableau par le cardinal de la population on obtient le tableau defrquences relatives que l#on appellera plus simplement tableau de frquence.

    ,

  • 8/9/2019 Analyse de Donnes - COURS

    8/61

    onsommation8se4e Aaron Bille

    0ulle $C //

    D1 fois par semaine "$ #1

    1 fois par semaine 1$ 1:

    1 fois par semaine / #

    Ce tableau de contingence permet d#tudier la frquence de consommationdalcool selon le se6e dune population de lycens fran$ais. 4n notera I et X deu6variables qualitatives ayant respectivement n et p modalits IU S,..nT et X US,..pT. ni7reprsente le nombre dindividus possdant la fois la modalit i etla modalit 5. 'e tableau de contingence est l#ensemble Sn i5 i I 5 XT . 4n pose

    avec s reprsentant le cardinal de la population sur laquelle sontdnies les deu6 variables qualitatives.

    'e tableau W des frquences est l#ensemble est une estimationde la probabilit qu#un individu prsente simultanment la modalit i et lamodalit 5. 4n dnit aussi les frquences marginales

    'es vecteurs (f,./ fi... fn.! et (f., / f.5 .. f.p! sont nots fIet fX. Ce sont les loismarginales dnies sur I et X.4n dnit les frquences conditionnelles

    .

    'es vecteurs sont nots .Ce sont les lois conditionnelles. *lles sont aussi appeles prols.

    Noutes les quantits sont positives et infrieures un en plus ona 2

    2.2.- Ta"#eau e )ontinen)e ,u#ti'#e;n tableau de contingence multiple est construit partir de deu6 variablesqualitatives dnies sur une mme population. Ceci peut tre gnralis encroisant non plus deu6 variables qualitatives mais deu6 familles de variablesqualitatives dnies sur une mme population. 4n parle alors de tableau decontingence multiple. 1i on note (I,..Ir! et (X, ..Xr! les deu6 familles de variablesqualitatives le tableau decontingence multiple associ est form des tableau6 decontingence Nklde tous les couples (IkXl! avec ,F r et 1 l t.

    C

  • 8/9/2019 Analyse de Donnes - COURS

    9/61

    ar e4emple si l'on considre des machines laver @ue l'on veut comparer lesunes au4 autres( la case *i(5+ contient une note de 1 1: mesurant la ressemblance des machines 5 et F.

    ?1 ?" ?# ?$

    ?1 1: #., ." 1./

    ?" #., 1: C., /.#

    ?# ." C., 1: I.$

    ?$ 1./ /.# I.$ 1:

    E4ercice1oit le tableau de donnes suivant 2

    num poid 7g taill tat se6 pays

    ##a )o!arian)e2 .

    #a )orr#ation2 .'e coe+icient de corrlation est tr"s souvent not2 r.Cette corrlation sinterpr"te comme le cosinus de langle des deu6 vecteurs 6565#dans lespacedes variables. )u tableau Y initial on associe aussi la matrice8 e !arian)e9)o!arian)e2

    M UScov(65 65! 5U,..p 5U ,..pTet 8 la ,atri)e e )orr#ation

  • 8/9/2019 Analyse de Donnes - COURS

    10/61

    tudiant s e e matrimonial e

    , => ,A,.=?

    c f N;[

    - ==.= -,,.?>

    m f W8

    F ?? -- ,.?=

    c m \E

    J @A .. .. .. .. ...

    uel est le type de ce tableau Dtableau de contingencetableau indivOvariab qualitativestableau indivOvariab quantitativesta"#eau ini!6!aria" htro*nes (Eonne rponse!

    III Des)ri*tion &l&%entaire d+un tableau,.1 Des)ri*tion de variables -uantitativesLa ime ligne de la matrice 3 reprsente l'ensemble des p valeurs prises par le imeindividu @ui seraconsidr comme un lment de Jp( appel espace des individus. K cha@ue individu ide est associle vecteur 4i!

    4i1 4i" . . . . 4ip

    e mMme( on introduit l'espace des variables Jn( cha@ue variable vest associe une colonne de 3dfinie par le vecteur 45!

    41

    4"

    .

    .

    4n

    Les lments descriptifs de cha@ue variable sont !le %ini%u%m5% ?in i4i5

    le %ai%u%?5% ?a4 i4i5

    l+&tendue?5N m5

    1:

    http://www.tn.refer.org/hebergement/analyse/ERREUR1_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERReUR3_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/ERReUR3_tab.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_tab.html
  • 8/9/2019 Analyse de Donnes - COURS

    11/61

    la %o/enne# o6 piest le poids de l'individu i avec . Le cas le plus classi@ue est

    ( la formule de la moyenne devient! .

    la variance/ var *45+ %

    L+&)art t/*e l'cart type est la caractristi@ue de dispersion autour de la moyenne.

    La %&dianeme5! la valeur de la variable telle @ue l'on ait autant de valeurs gauche de me5@u' droite.

    0istora%%e! soit ; % Om( ?P( un intervalle de J @ui contient l'ensemble des valeurs prises par lavariable v. Hn dcoupe ; en intervalles ; idis5oints de longueur gales! ; % ;1;Favec ;1% Om( y1O- ;l% O yl( ylQ1O- ;F% OyF(?P.

    Goit nile nombre d'individus ayant pris une valeur contenue dans l'intervalle ; i. Hn peut alors visualiserl'chantillon l'aide d'un histogramme o6 cha@ue intervalle est reprsent par son effectif!

    E4ercice

    >renons l'e4emple de la variable suivante!

    $2o/enne4n appelle moyenne arithmtique ou tout simplement moyenne 2]65U pi6i5oP piest le poids de l#individu i avec piU ,.'a moyenne est le param"tre de tendance centrale le plus utilis et le plus important.1i on rempla$ait toutes les valeurs des individus par une valeur constante gale pour tous lamoyenne arithmtique la somme des valeurs ne changerait pas.'a moyenne arithmtique est la valeur qui reprsente le mieu6 les individus par rapport la

    variable.

    /La !arian)e

    var (65! UC#est la moyenne du carr de la distance entre les valeurs et leur moyenne. C#est aussi unfacteur pr"s le carr de la distance entre une variable et sa moyenne. C#est un indicateur de ladispersion des valeurs autour de leur centre qui est la moyenne.'a racine carre de la variance de la variable constitue l#cart type.

    11

    http://www.tn.refer.org/hebergement/analyse/ref_moy.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_variance.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_cal_MOY.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_moy.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_variance.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_cal_MOY.html
  • 8/9/2019 Analyse de Donnes - COURS

    12/61

    Hbservation 2ariable

    1 1"

    " 1/

    # 1,

    $ "#

    / 1::

    Ruelle est la moyenne de cette variableS

    ,".'33,,.133,,.#33 4!onne r&*onse5

    ,." Lien entre variables -uantitativesK un couple de variables correspondant au4 vecteurs 45et 45Ton associe!

    la covariance .

    la corrlation, .Jemar@uons @ue le coefficient de corrlation est trs souvent not! .e coefficient permet gnralement de dterminer la prsence d'une corrlation linaire positive *entre :./ et 1+ ou ngative * entre N:./ et N1+ entre deu4 variables ou encore l'absence de corrlationlinaire * entre N:./ et :./+.9ous ces lments de statisti@ues descriptives ont une interprtation gomtri@ue dans lTespace desvariables Jnmuni du produit scalaire p! p% t45p45T%inpi4i54i5To6 pest la matrice

    diagonale!

    et o6 t4 dsigne le vecteur transpos du vecteur 4.

    #a )o!arian)e2

    ,#a )orr#ation2 .'e coe+icient de corrlation est tr"s souvent not2 .Cette corrlation sinterpr"te comme le cosinus de langle des deu6 vecteurs 6565# dans lespace desvariables. )u tableau Y initial on associe aussi la matrice8 e !arian)e9)o!arian)e2

    M UScov(65 65! 5U,..p 5U ,..pTet 8 la ,atri)e e )orr#ation

  • 8/9/2019 Analyse de Donnes - COURS

    13/61

    Goit la variable centre associe 45( et la matrice des variables centres( on a alors

    .

    ette corrlation sTinterprte comme le cosinus de lTangle des deu4 vecteurs dans lTespace desvariables. Ku tableau 3 initial( on associe aussi la matrice 2 de varianceNcovariance !

    et qui scrit aussi 2

    et la matrice de corrlation

    -.2.1 Re'rsentation ra'hique e eu+ !aria"#es;n graphique reprsentant dans le plan un nuage de points caractriss pardeu6 variables permet de voir rapidement si une relation e6iste entre ces deu6variables. 1i les points tracs semblent avoir t dissmins au hasard alors ilny a aucune relation entre les deu6 variables. 1i les points tracs se regroupentautour dune droite alors il y a une liaison linaire entre ces deu6 variables.Cette liaison linaire peut tre quantie par le coe+icient de corrlation. 1i lespoints tracs se regroupent autour dune fonction linaire (par e6emple fonctionpolynomiale log /! alors une transformation de lune des variables par cettefonction permet davoir une liaison linaire entre cette nouvelle variable et

    lautre variable.

    -.- Des)ri'tion #,entaire e !aria"#es qua#itati!esO 'e ,oeest la modalit la plus frquente d#une variableO Diara,,e en ":ton ou tri plat. Comme lhistogramme dans le casquantitatif il sagit dune reprsentation classique et intressante pour visualiserlensemble des valeurs prises par une seule variable. 1oit n5 le nombredindividus ayant pris la modalit 5. our une variable q nous codons de , m qses modalits avec mq le nombre de modalit de cette variable. 4n peut alorsreprsenter lensemble des donnes sous forme dun diagramme en b7ton 2

    1#

  • 8/9/2019 Analyse de Donnes - COURS

    14/61

    Liens entre variables @ualitatives ! K partir de deu4 variables @ualitatives v1et v"on a dfini le tableaude contingence croisant ces deu4 variables. K partir dTun tel tableau( de nombreuses mesures deressemblance peuvent Mtre calcules( la plus classi@ue est le de contingence @ui permet de mesurerlTcart lTindpendance des deu4 variables. >lus le est grand( plus les variables sont U lies V.

    *6ercice

    1oit une partie d#une matrice de corrlation entre variables2

    Corre#ation ;atri+

    cer lem leg fru via poi lai

    cer 1.::: :.I#, :.C,1 :.,#C :.,IC :.,# :.,C"

    lem :.I#, 1.::: :.I" :.C#I :.I:$ :.C$: :.CI1

    leg :.C,1 :.I" 1.::: :.I:# :.I$1 :.I$ :.I"1

    fru :.,#C :.C#I :.I:# 1.::: :.I,$ :.IC1 :.II:

    via :.,IC :.I:$ :.I$1 :.I,$ 1.::: :.I," :.ICC

    poi :.,# :.C$: :.I$ :.IC1 :.I," 1.::: :.I,$

    lai :.,C" :.CI1 :.I"1 :.II: :.ICC :.I,$ 1.:::

    Ruelles sont les variables les plus fortement corrles positivementS

    VALIDER

    var 1 ! var " !

    I6 Chane%ent de variables et )odae#.1 Int&r7t du )hane%ent de variableLe changement de variable est important en analyse de donnes. ;l est parfois impos par la mthode(pour la clart des donnes... . 0ous prsentons @uel@ues e4emples !

    a5Hn a un tableau htrogne et lTon dsire e4primer certains des paramtres descriptifs lTaide denouvelles variables pour @ue toutes les variables deviennent de mMme type.Ee%*le! soit le tableau htrogne suivant!

    ?archWviande >ri4 ?ode de trans Bragilit

    =1 ,. Kvion 1

    =" 1:.I Xateau "

    =# #./ 9rain #

    En dfinissant trois tranches de pri4 ! P:(/P - P/(1:P - O1:(":P respectivement code 1("(# - on peut alorsdfinir la variable v'1 ! &1( "( #)sans structure( @ui associe cha@ue individus le codecorrespondant sa tranche de pri4.

    1$

    http://www.tn.refer.org/hebergement/analyse/Q1_cal_CORR.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_cal_CORR.html
  • 8/9/2019 Analyse de Donnes - COURS

    15/61

    Hn a donc vT1*#+ %" - vT1*"+ %#- vT1*#+%1.Gi on considre aussi @ue lTespace associ la variable fragilit est sans structure on dfinit unenouvelle variable vT#@ui prend les mMmes valeurs @ue v#mais @ui est @ualitative nominale.Le tableau de donnes dfini par les variables vT1( v"( et vT#devient homogne puis@ue les variablessont devenues nominales.

    b5ertaines mthodes dTanalyse de donnes sont incompatibles avec le type des variables initiales( onest alors parfois amen transformer un tableau de donnes @uantitatives en un tableau de modalitspour pouvoir utiliser par e4emple une analyse factorielle des correspondances multiples .

    )5>our synthtiser lTinformation contenue dans un tableau de donnes( on rduira sa taille. Hn peut pare4emple( remplacer lTensemble des variables par @uel@ues combinaisons linaires de ces variables.

    #." 8or%alisation de la notion de )hane%ent de variable;l y a deu4 types de changement de variables !le changement de variable par changement de structure et le changement de variable par codage.

    ( )hane%ent de stru)ture 9D&:inition ! Etant donne une variable 2 ! H munie dTune structure G( on dit @ue lTon a fait unchangement de structure( lors@uTon remplace 2 par une variable 2T ! H munie dTune structure GTG et @ue 2*+ %2T*+ pour tout =.Ee%*le! considrons la variable tranche dTYge @ui prend les valeurs !1 5eune-" adultes-# personnes Yges.Gi lTon associe cette variable la structure dTordre usuelle( alors cTest une variable @ualitative ordinale.Gi maintenant( on ne dsire plus faire intervenir lTordre entre les tranches dTYge( la variable devientnominale. ans une en@uMte sociologi@ue il peut Mtre intressant de supprimer lTordre entre les tranches

    dTYge afin de faciliter lTapparition dTventuels liens entre les 5eunes et les personnes Yges.

    (Chane%ent de )odaeD&:inition! >our effectuer un changement de codage dTune variable( il faut se donner un espacedTarrive HT muni dTune structure GT et une application c de H dans HT. La nouvelle variable 2T estobtenue en composant les fonctions v et c. Hn retrouve vT%c o vEe%*le! reprenons la variable 2 prcdente. Gi lTon dsire mettre dans une mMme classe( les 5eunes etles personnes Yges( on dfini une variable 2T ! HT @ui prend les valeurs 1 et ". vT est une variable@ualitative nominale @ui sTobtient par codage.e codage est lTapplication ! HHT telle @ue c*1+%c*#+%1 et c*"+%" et on a vT%c o v

    #., Di::&rents t/*es de )hane%ent de variables

    Z 9ransformation @uantitatifN@uantitatif; Centrae r&du)tion 9Ruand les variables sont mesures avec des chelles diffrentes ou ont des dispersions htrognes( ilpeut sTavrer utile de U centrer V et U rduire V ces variables.

    ;entrer une variable v consiste en soustraire sa moyenne

    1/

  • 8/9/2019 Analyse de Donnes - COURS

    16/61

    ;Jduire une variable v consiste la diviser par son cartNtype.

    [ne variable centreNrduite satisfait au4 deu4 proprits suivantes ! sa moyenne est nulle son cart type est gal un

    ela permet dTobtenir !

    a+ des donnes indpendantes de lTchelle choisieb+ des variables ayant mMme moyenne et mMme dispersion.

    E4erciceGoit le tableau individusNvariables suivant!

    21 2" 2#

    K C 1 :

    X $ /

    C ,

    1: $ ,

    E C " /

    B : #

    Hn attribue un poids gal *i< 1=> cha@ue individu. La moyenne de cha@ue variable( selon l'ordreest!-$(/.omment devient ce tableau une fois ses variables centresS

    21 2" 2#

    K $8# 18 :

    X "8# 1 /8

    1 $8# ,8

    /8# "8# ,8

    E $8# 18# /8

    B : 18" 1

    21 2" 2#

    K " N# N/

    X N" " :

    : $ "

    $ : "

    E " N" :

    B N N1 1

    21 2" 2#

    K $ 18" :

    X " # /8"

    # $ ,8"

    / " ,8"

    E $ 1 /8"

    B : #8" #

    tableau1tableau"tableau#

    ; Co%binaison de variables 9Hn peut crer une nouvelle variable @uantitative en appli@uant des fonctions numri@ues *combinaisonlinaire( polynomiale( etc.+. Hn peut aussi utiliser des fonctions utilisant des e4pressions logi@ues devariables @uantitatives ou @ualitatives.Ee%*le! vT % *v1v+Z *"v1Q v# +.

    Z 9ransformation @uantitatifN@ualitatif

    1

    http://www.tn.refer.org/hebergement/analyse/Q1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_centrer.html
  • 8/9/2019 Analyse de Donnes - COURS

    17/61

    D&)ou*ae *ar bornes )hoisies *ar lutilisateur!Hn effectue un dcoupage de J lTaide de bornes dfinies par lTutilisateur. Hn numrote ensuite lesclasses associes ce dcoupage en respectant lTordre. La nouvelle variable @ualitative ordinale estobtenue en affectant cha@ue individu le numro de la classe la@uelle il appartient.Jemar@uons @uTun dcoupage entra\ne gnralement une perte dTinformation de deu4 sortes( on perd ! la distinction entre les ob5ets dTune mMme classe

    lTamplitude de la diffrence entre les ob5ets de deu4 classes diffrentes.

    Ee%*le! si v est la variable Yge( on peut lui associer une variable @ualitative ordinale dfinie par troistranches dTYge !Z 5eunes ! : ": ansZ adultes ! ": : ansZ personnes Yges ! plus de : ans.Hn associe les codes 1( "( # ces trois tranches( on a !Gi :

  • 8/9/2019 Analyse de Donnes - COURS

    18/61

    $ #

    / "

    codage final ! moins de ": ans et plus de : ans code 1 -

    entre ": et : ans code ".>ar combinaison de variable ! cette transformation est analogue la combinaison de variables @uantitatives.

    Ee%*le! soit deu4 variables @ualitatives v1et v" trois modalits codes 1("(#. Hn cre une nouvellevariable @ualitative v# deu4 modalits codes 1 et " ! v#% 1 si v1%1 et si v"%1 ou # - v#%" sinon.

    Z 9ransformation @ualitatifN@uantitatif)odae dison)ti: )o%*lete codage consiste transformer une variable @ualitative r modalits en r variables binairesindicatrices de cha@ue modalit.

    Ee%*le! soit trois individus a( b( c rpondant au4 @uestions suivantes !couleur des yeu4 *^+( Yge *K+( se4e*G+( leurs rponses tant codes de la manire suivante !^eu4 ! vert 1 - bleu " - marron #.Kge ! : ": ans 1 - ": /: ans " - plus de /: ans #.Ge4e ! fminin 1 - masculin " -

    ^ K G

    K 1 " "

    X " 1 1

    # # "

    Le codage dis5onctif complet de ce tableau est!2ert Xleu ?arron :N": ":N/: Q/: B ?

    K 1 : : : 1 : : 1X : 1 : 1 : : 1 : : : 1 : : 1 : 1

    6 Si%ilarit&'.1 ?uel-ues d&:initions

    N [ne similarit ou dissimilarit est toute application valeurs numri@ues @ui permet de mesurer lelien entre les individus dTun mMme ensemble ou entre les variables. >our une similarit le lien estdTautant plus fort @ue sa valeur est grande.

    N [n indice de similarit *ou plus simplement une similarit+ sur un ensemble est une application s dedans JQ@ui vrifie les deu4 conditions suivantes !)15s symtri@ue !*(T+ - s*(T+ % s*T(+)"5*(T+ avec T - s*(+ % s*T(T+ s*(T+.

    1C

  • 8/9/2019 Analyse de Donnes - COURS

    19/61

    N [n indice de dissimilarit *ou plus simplement une dissimilarit+ est une application d@ui satisfait la condition c1 et c"T @ui suit !)"5d*(+%:-

    istance et [ltramtri@ue ! une distance est un indice de dissimilarit @ui vrifie en plus les deu4

    proprits suivantes !0 d1+ d*(T+ %: %T0 d"+ d*(T+d*(TT+ Q d*_(T+ *lTingalit triangulaire+ pour tout (T(_ .0 [n indice de dissimilarit( @ui vrifie seulement la proprit *d1+ est appel U indice de

    distance V.GTil vrifie seulement la proprit *d"+ on dit @ue cTest un U cart V.Gi au lieu de vrifier *d"+( lTindice de dissimilarit vrifie lTingalit suivante !d#+ d*(T+ ?a4* d*(_+( d*_(T+ + ( T( ''.Hn dit @ue cTest un U cart ultramtri@ue V *ou une U dissimilarit ultramtri@ue V+. Hn voit facilement@ue la condition *d#+ entra\ne *d"+. [n indice de dissimilarit( satisfait *d1+ et *d#+ est appel U distanceultramtri@ue V.

    '." $ableau de variables -uantitativesZ istances entre individusistances euclidiennes gnrales ! ce sont les distances les plus classi@ues( elles vrifient !

    o6 ? est une matrice symtri@ue dfinie positive. Hn les nomme galement distances @uadrati@ues oumtri@ues dont voici @uel@ues cas particuliers !

    ` distance euclidienne simple ! cTest le cas o6 ?%1 !

    ` distance de ?ahalanobis ! elle se rencontre fr@uemment en analyse des donnes et surtout enanalyse discriminante !

    o6 2 est la matrice de varianceNcovariance.` distance du "! la distance du chi" est importante en analyse des donnes. Elle est particulirementbien adapte au4 tableau4 de contingenceC. Elle est utilise en analyse factorielle des correspondances(elle a comme formule!

    CTa"#eau e )ontinen)e) partir de deu6 variables qualitatives on dnit le tableau de contingence croisant les modalits

    de deu6 variables. 'a case l#intersection de la ligne i et de la colonne 5 contient le nombred#individus ayant choisi la modalit i de la premi"re variable et la modalit 5 de la seconde

    variable. 1i l#on divise chaque valeur de ce tableau par le cardinal de la population on obtient letableau de frquences relatives que l#on appellera plus simplement tableau de frquence.ConsommationVse6e\ar$onWille[ulleJB==^, fois par semaineL-JF,, fois par semaine,J,>L,fois par semaine=FCe tableau de contingence permet d#tudier la frquence de consommationdalcool selon le se6e dune population de lycens fran$ais. 4n notera I et X deu6 variablesqualitatives ayant respectivement n et p modalits IU S,..nT et X U S,..pT. ni7reprsente lenombre dindividus possdant la fois la modalit i et la modalit 5. 'e tableau de contingenceest l#ensemble Sni5 i I 5 XT .

    1I

    http://www.tn.refer.org/hebergement/analyse/ref_corr.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_tab_cont.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_corr.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_tab_cont.html
  • 8/9/2019 Analyse de Donnes - COURS

    20/61

    o6

    Z Distan)es entre variablesLes similarits les plus classi@ues sont la covariance ou corrlation entre variables. La valeur absoluede la corrlation est un indice de similarit.'ensemble de ces distances peuvent aussi tre utilis sur des tableau6 devariables binaires.

  • 8/9/2019 Analyse de Donnes - COURS

    21/61

    o6 *K1+ est le poids du groupe K1et o6 g1est le centre de gravit de K1. ette distance reprsente laperte dTinertieIrsultant de lTagrgation de K1et K".

    IInertie du nuage par rapport un pointL'espace Rptant muni d'une mtrique euclidiennedM, on appelle inertie de N() par rapport un point ade Rp

    la quantit Ia= pid!("i,a)#

    "1

    http://www.tn.refer.org/hebergement/analyse/ref_inertie_point.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_dist_indiv.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_dist_indiv.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_inertie_point.html
  • 8/9/2019 Analyse de Donnes - COURS

    22/61

    CLASSI8ICA$ION AU$O2A$I?UE

    Introdu)tionLa nature offre un grand nombre de populations @u'il est souhaitable de rpartir en catgories. >lusieursdisciplines demandent des classifications( comme par e4emple en mdecine o6 on peut avoir besoin dedcouvrir les principau4 regroupements de malades ayant le mMme comportement vis vis de certaines

    maladies. Hn peut aussi vouloir rpartir une population de personnes suivant des critres tel @ue se4e(activit( tat matrimonial .... La mMme population peut aussi Mtre soumise( suivant le besoin( une autreclassification comme par e4emple le se4e( la nature du travail... .

    ""

  • 8/9/2019 Analyse de Donnes - COURS

    23/61

    I Les &l&%ents d+une )lassi:i)ation

    Les problmes de classification automati@ue diffrent selon le type d'information recherch! unehirarchie( une partition( ...

    1.1 Les *artitions

    [ne partition de l'ensemble des observations = est un ensemble de parties non vides > %*>1((>F+d'intersection vides deu4 deu4 et dont la runion forme = avec !

    Kinsi avec les sept points suivants!

    on peut( par e4emple( construire une partition en trois classes!>%*>1( >"( >#+ reprsente par >1%& ,)( >"% & /( $( ) et >#% & 1( "( #).

    1." Les re)ouvre%ents[n recouvrement de est un ensemble de parties non vides > %*>1( ... (>F+dont la runion forme .

    Kvec les sept points prcdents( on peut aussi construire un recouvrement trois classes >%*>1( >"(>#+!>1%& ,( /($)- >"%& /( $()- et >#%& 1( "(#) reprsent par!

    "#

  • 8/9/2019 Analyse de Donnes - COURS

    24/61

    [ne partition est donc un cas particulier de recouvrement!

    1., Les 0i&rar)hiesHn cherche reprsenter par un ensemble de partitions embo\tes. Goit un ensemble fini( unensemble de parties *appeles paliers+ non vides de . est une hirarchie sur si !

    0ous utilisons encore l'ensemble form des sept points prcdents- une hirarchie associe associe peut Mtre!

    Hn a bien % avec hi%&i) pour i%1(, (...h11% &,) h1:et h1"% h11hI.Hn vrifie facilement @ue satisfait bien au4 trois a4iomes de la dfinition d'une hirarchie.

    E4ercice

    Rue reprsente ce groupement de points !

    "$

    http://www.tn.refer.org/hebergement/analyse/Q2_clas1.htmlhttp://www.tn.refer.org/hebergement/analyse/Q2_clas1.html
  • 8/9/2019 Analyse de Donnes - COURS

    25/61

    $artition

    Recou%rement

    &irarc'ie

    Re)ou!re,ent

  • 8/9/2019 Analyse de Donnes - COURS

    26/61

    L'espace Jptant muni d'une mtri@ue euclidienne11d2( on appelle inertie de 0*+ par rapport un

    point ade Jpla @uantit .

    "." $h&or%e de 0u/ens

    Gi ( est le centre de gravit du nuage 0*+ on a !

    Re%ar-ue! le centre de gravit est le point par rapport au@uel l'inertie du nuage est au minimum. Hnpeut aussi dire @ue le centre de gravit est le meilleur reprsentant du nuage puis@ue ;a>;g.

    ".".1 Inertie *ar ra**ort @ un ae *assant *ar l+oriineRuand il s'agit de reprsentation vectorielle( on considre trs souvent comme confondus l'origine H del'espace et le centre de gravit g.Goit donc un a4e passant par H. Hn appelle inertie par rapport la @uantit!

    Gi nous appelons >ro5*3i+ la pro5ection orthogonale de 3isur l'a4e ( l'inertiepourra s'crire!

    Hn appelle inertie e4pli@ue par un a4e passant par l'origine( la @uantit !

    'aprs le thorme de >ythagore on peut dire @ue! ;*o+ % ;*+ Q ;E*+. L'inertie du nuage est la sommede l'inertie par rapport et de l'inertie e4pli@ue par .

    "."." Inertie *ar ra**ort @ un sous;es*a)eL'inertie par rapport un sousNespace > de dimension F peut aussi s'crire sous la forme!

    11Distances entre individus

    Distances euclidiennes nrales ce sont les distances les plus classiques, elles %ri*ient d!(+i,+i) =t("i - "i)! ("i - "i) o. ! est une matrice s/mtrique d*inie positi%e# 0n les nomme alement distancesquadratiques ou mtriques# Nous listons quelques cas particuliers 1 distance euclidienne simple cest le cas o. !=2 d(+i,+i) = p3=2("i3- "i3)

    1 distance de !aalano4is elle se rencontre *rquemment en anal/se des donnes et surtout en anal/se discriminante# 5one"pression anal/tique est la sui%ante d(+i,+i) =t("i- "i)V-2("i- "i) o. V est la matrice de %ariance-co%ariance#1 distance du la distance du ci est importante en anal/se des donnes# Elle est particuli6rement 4ien adapte au"ta4leau" de continence# Elle est utilise en anal/se *actorielle des correspondances# Rappelons quelle se"prime ainsi d(+i,+i) = p3=227"#3("i37"i#- "i37"i'#)o. "#3=ni=2"i3et "i#= p3=2"i3#

    "

    http://www.tn.refer.org/hebergement/analyse/ref_dist_indiv.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_dist_indiv.html
  • 8/9/2019 Analyse de Donnes - COURS

    27/61

    ette e4pression peut aussi Mtre crite de la forme suivante!

    o6 >ro5>*4i+ est la pro5ection de 4isur le sousNespace >.0ous pouvons aussi dfinir l'inertie e4pli@ue par le sousNespace >!

    L'galit suivante reste vraie!;*o+ % ;*>+Q ;E*>+.

    "., Inertie asso)i&e @ une *artition

    D&:initions

    Goit >%*>1( >F+ une partition en F classes de . Hn note le poids de la classe >l.

    Hn a bien s]r . K cette partition > sont associes trois inerties !N l'inertie totale $(

    N l'inertie interclasse !(

    ;l s'agit de l'inertie du nuage des centres de gravit g lmunis des poids l.N l'inertie intraclasse B(

    o6 ;lest l'inertie de la classe >lpar rapport son centre de gravit g l-

    es trois inerties sont relies par la relation fondamentale ! $ l. 'aprs le thorme deuygens( on a !

    ",

  • 8/9/2019 Analyse de Donnes - COURS

    28/61

  • 8/9/2019 Analyse de Donnes - COURS

    29/61

    La premire condition signifie @ue cha@ue lment s G est un ensemble de partiesde .La seconde signifie @ue tout lment de G recouvre .La troisime indi@ue @u'il e4iste au moins un lment de G contenant l'ensemble .La @uatrime signifie @ue G contient un lment s @ui contient luiNmMme tous les singletons. Hn a alors

    le rsultat suivant !

    ro*osition !Les partitions( les recouvrements( les hirarchies sont des espaces de classification. Kppelons l'ensemble des partitions( on a bien !1+ **++"+ >( > % &>1( >F) >l% #+ >( tel @ue > car il suffit de prendre le partition rduite $+ >( tel @ue ( &) > ! en effet( il suffit de considrer la partition dont cha@ue partie estun singleton.

    L'ensemble des hirarchies est un espace de classification car les deu4 premires proprits ncessairessont satisfaites ! cha@ue hirarchie est une partie de l'ensemble des parties de @ui recouvre *puis@u'elle le contient+ ! les deu4 premires proprits tant satisfaites puis@u'elles sont vraies pourtoutes les hirarchies.

    "I

  • 8/9/2019 Analyse de Donnes - COURS

    30/61

    CLASSI=ICATION >IERARC>I/UE

    Introu)tionCertain groupements d#ob5ets correspondent naturellement une hirarchie.C#est un ensemble de parties hirarchiquement emboites comme par e6emplel#ensemble des points suivants qui peut tre reprsent par une telle hirarchie2

    ans cette hirarchie cha@ue palier sousNtend un groupe de points. La hauteur du palier est une mesuredu degr d'agrgation du groupe.Kinsi le groupe ou la classe &$( /) est plus agrg @ue le groupe &1( "( #).La commodit des hirarchie est leur interprtation visuelle et l'utilisateur est surtout intress par ladtection de classes bien significatives ( issues de la hirarchie. es classes forment alors unepartition obtenue par dcoupage de la hirarchie selon une ligne horizontale dpendant du problme

    ha@ue palier *non rduit un singleton+ est la runion d'autres paliers. >ar la suite nous utiliseronssouvent la notion de hirarchie binaire( on appelle ainsi une hirarchie dont cha@ue palier est la runionde " paliers.Kfin de pouvoir visualiser une hirarchie par un graphi@ue il faut valuer les paliers de la hirarchie(c'est dire leur associer une hauteur( d'o6 la notion de hirarchie indice.

    #:

  • 8/9/2019 Analyse de Donnes - COURS

    31/61

    II D&:inition d+une hi&rar)hie indi)&e[ne hirarchie indice est un couple *(f+ o6 est une hirarchie et f une application de dans JQtelle @ue !1+ f*h+ % : si et seulement si h ne contient @u'un seul lment

    "+ pour tout h et h' dans ( h h' et h h' f*h+

  • 8/9/2019 Analyse de Donnes - COURS

    32/61

    III Indi)e d+ar&ation entre rou*es d+individus

    La construction d'une hirarchie ncessite la connaissance d'une mesure de ressemblance entregroupes. ette mesure est appele indice d'agrgation ( c'est une application symtri@ue de >*+ Z>*+ dans JQ.onsidrons une hirarchie binaire et un indice d'agrgation . Goit f la fonction telle @ue!

    >our les indices d'agrgation courants( *(f+ est une hirarchie indice( on peut aussi utiliser la fonction

    @ui gnralise la premire et @ui garantit @ue *(f+ est unehirarchie indice.itons @uel@ues indices d'agrgation parmi les plus classi@ues !` L'indice d'agrgation du lien ma4imum

    ` L'indice d'agrgation du lien minimum

    ` ;ndice de l'augmentation d'inertie

    E4emple! Goit la matrice de distance suivante *symtri@ue+!

    a b c d e f g

    a :

    b 1 :c # " :

    d / # :

    e , $ 1 :

    f 11 1: C / $ :

    g 1 1/ 1# 1: I / :

    hoisissons d'utiliser la stratgie ma4. Les agrgations successives conduisent au4 tableau4 suivants!

    #"

    ab c d e f g

    ab :

    c # :

    d # :

    e , $ 1 :

    f 11 C / $ :

    g 1 1# 1: I / :

    ab c de f g

    ab :

    c # :

    de , $ :

    f 11 C / :

    g 1 1# 1: / :

  • 8/9/2019 Analyse de Donnes - COURS

    33/61

    abc de f g

    abc :

    de , :

    f 11 / :g 1 1: / :

    En donnant cha@ue nud la distance entre les deu4 lments @u'il runit l'arbre se prsente commecelui de gauche!

    Gi on a utilis une stratgie minl'arbre serait

    I6 Constru)tion de hi&rar)hies indi)es

    Kyant choisi un indice d'agrgation entre groupes d'individus( on peut imaginer de nombreu4algorithmes pour construire une hirarchie sur . Les algorithmes de classification descendantehirarchi@ue consistent dcouper de manire itrative la population en partitions de plus en plusfines 5us@u' la partition des singletons.Hn peut par e4emple partir de la meilleur partition " classes de ! >7 % *>17(>"7+ au sens d'un critre= donn dpendant de .Gi nous choisissons par e4emple =*>+ % d*>1(>"+( il faut trouver >7 @ui ma4imise = parmi les partitions

    " classes de = on recommence le procd sur chacune des deu4 classes ainsi obtenues 5us@u' ce @ueles classes soient rduites des singletons.

    L+alorith%e &n&ral de la )lassi:i)ation as)endante hi&rar)hi-ueL'algorithme de classification ascendante hirarchi@ue *.K.+ consiste construire l'aide de l'indiced'agrgation choisi une suite de partitions de moins en moins fines dont les classes forment lahirarchie cherche. ;l s'nonce de la faon suivante !(K l'tape :( il y a n lments *ou n ob5ets+ classer

    ##

    abc de fg

    abc :

    de , :

    fg 1 1: /

    abcde de

    abcde :

    fg 1 1:

  • 8/9/2019 Analyse de Donnes - COURS

    34/61

    (Hn cherche les deu4 lments les plus proches( @ue l'on agrge en un nouvel lment(Hn calcule les distances entre le nouvel lment et les lments restants. Hn se trouve dans les mMmesconditions @u' l'tape :( mais avec seulement *nN1+ lments classer.(Hn cherche de nouveau les deu4 lments les plus proches( @ue l'on agrge. Hn calcule les nouvellesdistances( et l'on ritre le processus 5us@u' ce @u'il n'y ait plus @u'un seul lment.

    Ee%*le9soient cin@ points du plan classer( en prenant comme distance entre ces ob5ets le carr deleur distance. La matrice des distances entre ces diffrents points est!

    *1+ *"+ *#+ *$+ */+

    *1+ : 1 1 I 1:

    *"+ 1 : 1, "/ "

    *#+ 1 1, : $ I

    *$+ I "/ $ : 1#

    */+ 1: " I 1# :

    Etape 1! les ob5ets grouper sont 1 et #. Hn va appeler le nouvel lment obtenu et la nouvellematrice des distances sera!

    *+ *"+ */+ *$+

    *+ : 1 I $

    *"+ 1 : " "/

    */+ I " : 1#

    *$+ $ "/ 1# :

    Hn a par e4emple d*($+ % ?in &d*1($+( d*#($+ ) %?in &I($) % $.Etape "! les ob5ets grouper sont " et /. Hn va appeler , le nouvel lment et la nouvelle matrice desdistances sera!

    *+ *,+ *$+

    *+ : I $

    *,+ I : 1#

    *$+ $ 1# :

    Etape #! les ob5ets grouper sont et $. Hn va appeler C le nouvel lment et la nouvelle matrice desdistances sera!

    *C+ *,+

    *C+ : I

    *,+ I :

    Etape "! les ob5ets grouper sont C et ,. Hn va appeler I le nouvel lment et l'ensemble de cesregroupements sont reprsents dans cette hirarchie *ou arbre+!

    #$

  • 8/9/2019 Analyse de Donnes - COURS

    35/61

    Ee%*le! Goit un programme1# du logiciel GKG. Le code invo@ue une procdure de classificationhirarchi@ue L[G9EJ sur "I observations. La premire partie des rsultats1$contient des valeurs

    1#dataun;

    input%2-%>;cards;2 >?#@2< 2@#B< >@#>< 2@#C? >>#>#2@< >##?#?B2#CC#< >#renons un autre nuage form des points K et X @ue nous

    cherchons pro5eter sur un espace de dimension 1 touten ayant le minimum de dformation.L'espace ad@uat est celui port par une droite parallle l'a4e KX et passant par l'origine.La pro5ection est *K'X'+ et la dformation sera alorsnulle .

    ?aintenant si notre nuage est form de trois points*KX+ composant un triangle la pro5ection provo@ueracertainement une dformation de ce nuage.

    [n critre de slection d'un espace de pro5ection pour cetriangle sera la minimisation des diffrences entres lescouples forms par un point et sa pro5ection.

    D&:or%ation d+un nuae de *ointsGoit un couple de points 3i et 35 avec pi et p5 leursmasses respectives. Goient >ro5p*3i+ et >ro5p*35+ lespro5ections orthogonales sur un sousNespace > dedimension rduite. Hn a alors!

    [ne mesure de la dformation lie au couple de pointspeut Mtre la diffrence entre les distances dans le nuageinitial et dans le nuage de pro5ection!

    ou encore la @uantit!

    #,

  • 8/9/2019 Analyse de Donnes - COURS

    38/61

    Les poids sont introduits pour attacher plus d'importance la restauration de la distance entre deu4points @ue ceu4Nci sont plus pesants.>our gnraliser ce critre sur tout le nuage on crit!

    ette diffrence comprend un terme fi4 savoir la @uantit @ui est une donnedu problme.?inimiser la dformation revient augmenter le deu4ime terme savoir!

    ette @uantit est gale - correspond deu4 fois l'inertie e4pli@ue1/par le sousNespace considr.Le problme de minimisation de la diffrence revient alors la ma4imisation de l'inertie e4pli@ue dusousNespace. Le sousNespace @ui offre le ma4imum d'inertie e4pli@ue sera donc choisi pour lapro5ection du nuage initial.

    1/Inertie par rapport un a"e passant par #$origine

    Fuand il s'ait de reprsentation %ectorielle, on consid6re tr6s sou%ent comme con*ondus l'orine 0 de l'espace et le centrede ra%it #5oit donc un a"e passant par 0# 0n appelle inertie par rapport la quantit

    5i nous appelons $ro3(Gi) la pro3ection ortoonale de Gisur l'a"e , l'inertie pourra s'crire

    0n appelle inertie e"plique par un a"e passant par l'oriine, la quantit

    D'apr6s le tor6me de $/taore on peut dire que I(o) = I() : IE()# L'inertie du nuae est la somme de

    l'inertie par rapport et de l'inertie e"plique par #

    #C

    http://www.tn.refer.org/hebergement/analyse/ref_inert_expli.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_inert_expli.html
  • 8/9/2019 Analyse de Donnes - COURS

    39/61

    Anal/se :a)torielle dun nuae de *oints

    L'analyse en composantes principales *AC+ peut Mtre prsente comme une mthode numri@ue la@uelle on prsente un tableau 3 *4i5- i%1..n- 5%1..p+ form de npoints 3imunis de masses pipositives(dcrits chacun par *variables !

    31

    .3i ..4i5...

    3nle but de cette mthode est de !N dcrire et reprsenter les ressemblances entre les individus par rapport l'ensemble des variablesN dcrire et reprsenter les corrlations linaires entre variables.

    L'K> cherche donc dterminer un sousNespace vectoriel de dimension F

  • 8/9/2019 Analyse de Donnes - COURS

    40/61

    'autre part le produit scalaire entre deu4 vecteur K et X est par dfinition gal K'X *le vecteurtranspos de K produit avec X aussi not tKX+ aussi gal X'K *aussi not tXK+ . 'aprs ces deu4galits on peut crire @ue!

    L'inertie e4pli@ue peut donc s'crire sous la forme!

    >osons la matrice o6 3 est la matrice n lignes et p colonnes. Les lignesde 3 sont les vecteurs 3i( ? est la matrice carre diagonale d'ordre n des poids p i*gnralement pi%18n+.2 peut aussi s'crire 2%' avec % 3'?18". 6s'appelle matrice des moments centrs d'ordre " ou%atri)e d+inertie. 2 a les proprits suivantes!Z 2 est symtri@ue et a le rang de 3.Z 2 est diagonalisable et ses valeurs et vecteurs propres sont rels.

    Z Les vecteurs propres associs des valeurs propres diffrentes sont orthogonau4.Z 2 est semi dfinie positive et donc pour tout vecteur [ de Jnon a ['2[ positif( toute valeur propre de 2 est donc suprieur ou gale zro.Z La trace de 2(@ui est la somme de toutes les valeurs propres( est gale

    D&:initions915Les a4es engendrs par les vecteurs u1( ..uFsont appels a4es principau4 d'inertie."Hn appelle F imecomposante principale( ou F imefacteur( le vecteur yF( dont les composantes sont les

    coordonnes des points du nuage sur le Fime

    a4e principal d'inertie uF.omme on a n individus( le vecteur yF a ncomposantes( c'est donc un lment de l'espace Jn desvariables

    $:

  • 8/9/2019 Analyse de Donnes - COURS

    41/61

    Anal/se du nuae des *oints individus

    Les aes :a)toriels>our dterminer l'espace de pro5ection inertie e4pli@ue ma4imaleil faut dterminer ses F a4es. Lepremier est l'a4e inertie e4pli@ue ma4imum et pour le dterminer il suffit de chercher l'a4e associau premier vecteur propre de la matrice 2.

    Hn dsignera par [1le vecteur associ la plus grande valeur propre 1. L'inertie e4pli@ue par cet a4eest gale sa valeur propre.

    0ous pouvons aussi dire @ue! la proportion de l'inertie e4pli@ue par [1est gale .Jemar@uons @ue l'inertie @ui n'est pas e4pli@ue par un sousNespace vectoriel donn l'est totalement parle sousNespace supplmentaire *ensemble des a4es @ui lui sont orthogonau4+.onna\tre le reste de l'inertie e4pli@ue revient donc dterminer les a4es associs au4 autres vecteurspropres.

    Gi nous nous intressons ce stade au4 rsultats fournis par les logiciels d'analyse de donnes nous

    remar@uerons @ue dans les sorties de l'K> la liste des p valeurs propres est trie selon l'ordredcroissant.Le tableau suivant montre une partie des rsultats d'un e4emple et si oncherche un a4e @ui reprsente( parmi tous les a4es orthogonau4 aupremier facteur( le ma4imum d'inertie e4pli@ue il doit Mtre port par levecteur propre associ la deu4ime valeur propre( ....

    Gur ce tableau on remar@ue aussi @ue pour cha@ue valeur propre on a lepourcentage d'inertie e4pli@ue par l'a4e associ et @ui correspondaussi sa contribution l'inertie e4pli@ue. La dernire colonne reprsente les cumuls d'inertie @uipermettent de dterminer la dimension de l'espace de pro5ection.

    En prsentant l'K> nous l'avons dfini comme tant une mthode @ui cherche reprsenter un nuagede point sur un espace de dimension F( tout en remar@uant @ue F doit Mtre infrieur p( dimensioninitiale du nuage.terminer F revient aussi fi4er le nombre d'a4es parmi ceu4 correspondant au4 vecteurs propres.Gi( pour l'e4emple du tableau( on prend les deu4 premiers a4es( et tant donn @ue l'inertie estcumulative on aura un tau4 d'e4plication de pres@ue I/*I$.C+.Kutrement la pro5ection du nuage initial sur les deu4 premiers a4es factoriel restituera I/ de la formeinitiale du nuage.Gi on prend le troisime a4e( la reprsentation sera de I,....L'ide est donc de se fi4er un tau4 de reprsentation ce @ui dterminera la dimension de l'espacecherch.

    roe)tion et aide @ l+inter*r&tation

    L'K> du nuage des points 3 irevient donc diagonaliser la matrice 2 d'ordre p. Les a4es factorielsconstituent une nouvelle base de l'espace Jp( et on sera amen calculer les coordonnes des points surces a4es pour les reprsenter dans la nouvelle base et plus prcisment sur uni@uement F a4es.La coordonne d'un point 3isur un a4e ucorrespond la pro5ection du point sur l'a4e( @ui est aussigal au produit scalaire entre 3iet le vecteur ude l'a4e!

    val propre pourcentage cumul

    1".", C,. C,.

    1.:: ,." I$.C

    :.#/ "./ I,.#

    :.1C 1.# IC.

    $1

    http://www.tn.refer.org/hebergement/analyse/ref_inert_expli.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_inert_expli.html
  • 8/9/2019 Analyse de Donnes - COURS

    42/61

    >our interprter les rsultats d'une analyse en composantes principales nous avons aussi besoin deconna\tre!

    Z pour cha@ue point 3i( la contribution du point l'inertie du nuage! c'est la part avec la@uelle ilparticipe l'inertie totale du nuage!

    Elle indi@ue @uels sont les points @ui ont 5ou un rle important dans l'analyse.Z pour cha@ue a4e uet cha@ue point 3i( la contribution du point l'inertie e4pli@ue par l'a4e!

    Les 9J permettent d'interprter le contenu d'un a4e en identifiant les points @ui ont le plus contribu son positionnement. 0otons @ue nous avons tou5ours!

    Z pour cha@ue point 3iet pour cha@ue a4e u on calcule la part de l'inertie du point restitue par l'a4e etgale !

    'est en fait le carr du cosinus de l'angle form par l'a4e [et le point 3i. ;l indi@ue la @ualit de la

    reprsentation du point sur l'a4e( nous avons d'ailleurs la relation! >our cha@ue point et pour le sousNespace form des F premiers a4es on calcule la @ualit de la

    reprsentation du point 3isur ce sousNespace!

    Anal/se duale9 anal/se des *oints variables

    0ous avons d5 mentionn @u'on travaille gnralement avec des variables centres( notre nuage desindividus est donc centr( son centre de gravit est situ l'origine( ce @ui n'est pas le cas pour le nuage

    des variables.ha@ue variable 3correspond une colonne du tableau 3 munie d'une masse unitaire. Hn utiliseracomme reprsentation des variables la notation !

    $"

  • 8/9/2019 Analyse de Donnes - COURS

    43/61

    puis@ue ? est une matrice diagonale dont tous les termes sont gau4 18n. 9outes les variables sont

    normes *norme gale 1! + et les points variables se situent une distance gale 1 del'origine. Elles sont donc sur la sphre de rayon 1.'autre part la distance entre deu4 variables est!

    avec dsignant le produit scalaire de deu4 variables.>ar ailleurs( et si nous faisons appels nos connaissances en gomtrie( on sait @ue le produit scalairedeu4 vecteurs K et X est gal au produit des normes et du cosinus de l'angle entre les des deu4 vecteurs(donc

    car les variables sont normes.

    0ous avons aussi coefficient de corrlation puis@u'on travaille

    avec des variables centres rduites.Hn peut donc dire @ue% cos*

    ( +.Hn a donc!Z deu4 points variables confondus ont un coefficient de corrlation gal 1.Z deu4 points variables formant un angle de I:7 ont un coefficient de corrlation linaire gal zro.Z deu4 points variables formant un angle de 1C:7 ont un coefficient de corrlation linaire gal N1.es remar@ues seront utilises pour donner un sens au4 diffrents a4es en fonction de la position desvariables.

    $#

    http://www.tn.refer.org/hebergement/analyse/ref_corr.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_center_redui.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_center_redui.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_corr.htmlhttp://www.tn.refer.org/hebergement/analyse/ref_center_redui.html
  • 8/9/2019 Analyse de Donnes - COURS

    44/61

    Inter'rtation es rsu#tatsE+e,'#e 1[ous allons voir les dtails d#une )C sur un petit tableau travers une sried#e6ercices. 'e tableau Y de donnes est2

    21 2" 2#

    K C 1 :

    X $ /

    C ,

    1: $ ,

    E C " /

    B : #

    *6ercice,1oit le tableau individus0variables suivant2

    21 2" 2#

    K C 1 :

    X $ /

    C ,

    1: $ ,

    E C " /

    B : #

    4n attribue un poids gal 'i? 1@ chaque individu. 'a moyenne de chaquevariable selon l#ordre est2?J=.

    Comment devient ce tableau une fois ses variables centresD21 2" 2#

    K $8# 18 :

    X "8# 1 /8

    1 $8# ,8

    /8# "8# ,8

    E $8# 18# /8

    B : 18" 1

    21 2" 2#

    K " N# N/

    X N" " :

    : $ "

    $ : "

    E " N" :

    B N N1 1

    21 2" 2#

    K $ 18" :

    X " # /8"

    # $ ,8"

    / " ,8"

    E $ 1 /8"

    B : #8" #

    tableau,tableau-tableauF

    [ne fois les variables centres( on choisit comme mtri@ue ?%;*matrice diagonale dont les termes endiagonales sont gau4 18( les autres zro+.onsidrons la matrice 2 d'inertie *matrice diagonaliser+ @ui a pour e4pression!

    $$

    http://www.tn.refer.org/hebergement/analyse/Q1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/CORR_centrer.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_centrer.html
  • 8/9/2019 Analyse de Donnes - COURS

    45/61

    la transpos de 3 est aussi not 3' ou t3- vous pouvez obtenir la valeur de 2 partir de ce calculmatriciel!

    Le rsultat est la matrice d'inertie 2 suivante!$ NC NC

    6% 18 NC #$ ""

    NC "" #$

    Les deu4 plus grandes valeurs propres de 2 sont!

    Les vecteurs propres norms associs ces valeurs propres sont!

    *6ercice-1oit le tableau individus0variables suivant2

    M, M- MF

    K C 1 :X $ /

    C ,

    1: $ ,

    E C " /

    B : #

    Gi la matrice d'inertie 2 associe est!$ NC NC

    6% 18 NC #$ ""

    NC "" #$Gi les deu4 plus grandes valeurs propres de 2 sont!

    Gi les vecteurs propres norms associs ces valeurs propres sont!

    $/

    http://www.tn.refer.org/hebergement/analyse/Q1_facteur.htmlhttp://www.tn.refer.org/hebergement/analyse/Q1_facteur.html
  • 8/9/2019 Analyse de Donnes - COURS

    46/61

    Ruelles sont les valeurs des deu4 premires composantes principales S

    :or%e1 forme" forme#

    Gi l'on dsire reprsenter les individus dans le plan form par les deu4 premiers a4es factoriels on aura!

    Les parts d'inertie e4pli@ue par les deu4 premiers a4es factoriels sont!

    Le dernier terme correspondant la part d'inertie e4pli@ue par le plan form de ces deu4 vecteurs.Gi l'on cherche la part de l'inertie du point K restitue par l'a4e 1 *ou encore le cosinus carr+ on a!

    Ee%*le "0ous pressentions un e4emple de rsultat de l'analyse de l'K> fourni par le logiciel GKG. 0ous allonsbaser le travail sur un tableau correspondant diffrentes dpenses alimentaires par catgoriesocioprofessionnelle.Les individus sont 1" catgorie socioNprofessionnelle *G>+( les variables sont 1$ dpensesalimentaires.Les abrviations des lignes et des colonnes utilises dans letableau de donnes( le programmeet lesrsultats sont les suivantes !

    $

    http://www.tn.refer.org/hebergement/analyse/correct_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/PRINCOMP.htmhttp://www.tn.refer.org/hebergement/analyse/PRINCOMP.htmhttp://www.tn.refer.org/hebergement/analyse/correct_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR1_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/ERREUR2_fact.htmlhttp://www.tn.refer.org/hebergement/analyse/PRINCOMP.htm
  • 8/9/2019 Analyse de Donnes - COURS

    47/61

    Les rsultats1,gnrs se prsentent sous forme de plusieurs tableau4.

    1, e $RINH0!$ $rocedure

    04ser%ations 2 Varia4les 2

    5imple 5tatistics

    cer lem le *ru %ia!ean 2>#>>>>> 2#?B2???? 2>>> #22@>>

    5tD 2#>>?? #C>

  • 8/9/2019 Analyse de Donnes - COURS

    48/61

    Le premier donne pour cha@ue variable sa moyenne *?ean+ et son cartNtype *G9+.Le second groupe de rsultat correspond la matrice symtri@ue des corrlations. 'est une matricedont la diagonale est 1( puis@ue cha@ue variable est fortement corrle avec elleNmMme *1+. 'autrepart si la corrlation entre la variable 21 et 2" est la mMme @ue la corrlation entre 2" et 21.Le groupe de rsultat suivant correspond au4 valeurs propres *eignenvalue+.Anralement on a autant de lignes @ue de variables. Kinsi au niveau de cha@ue ligne on trouve!

    une valeur propre *i+la diffrence entre la valeur propre *i+ et *iQ1+la proportion de l'inertie e4pli@ue par l'a4e *i+ correspondant cette valeur propre

    !ean #2@?@>> 2#2@5tD 2#B2>>@22 #?2B@> 2#B

  • 8/9/2019 Analyse de Donnes - COURS

    49/61

    Le tau4 d'inertie e4pli@ue par l'espace form par les vecteurs propres *1+ .. *i+. >our notre cas on peutse limiter au4 deu4 premiers a4es @ui reprsentent I/ prs l'allure du nuage initial.Le rsultats suivants reprsentent les coordonnes des variables dans le nouveau repre. Hn donnegnralement sur tous les nouveau4 a4es.[ne fois l'espace de pro5ection choisi *pour notre cas les deu4 premiers+ nous avons une reprsentationdu nuagedans ce nouveau repre.

    ans le processus d'interprtation des rsultats( une fois l'espace de pro5ection choisi( on commencegnralement par l'interprtation des pointsNvariables. Les coordonnes des variables sur les nouveau4a4es montre @ue leur valeurs sont toutes infrieures 1 en valeur absolue.

    Eien%alue Di**erence $roportion Humulati%e

    2 2#??C@@ 22#?>>2?

  • 8/9/2019 Analyse de Donnes - COURS

    50/61

    Les points variables sont situes sur la sphre de rayon 1 dans J1"et une distance 1 de l'origine desa4es. La pro5ection d'une variable sur un a4e ne peut donc avoir @u'une valeur infrieure 1.En e4aminant les coordonnes des variables sur les a4es choisis( on remar@ue @ue toutes les valeurssont positives sur le premier a4e.'est essentiellement d] au fait @ue les variables soient fortement corrles positivement entre elles.En regardant la matrice des corrlation( on remar@ue en effet @ue pres@ue toutes les valeurs sont

    suprieures :./.0ous pouvons donner( en fonction de la position des variables( une premire ti@uette au premier a4efactoriel!le premier facteur est celui de la taille( car si( pour une G>( la valeur d'une dpense alimentaireaugmente *une variable+( celle des autres variables a aussi tendance augmenter *le contraire est vrai+.>lus gnralement on interprte un a4e en slectionnant les variables ayant les plus fortes coordonnesen valeur absolue( et on dira @ue( l'a4e oppose les variables @ui ont des coordonnes ngatives celles@ui ont des coordonnes positives.ans certains logiciels on peut trouver les carres des coordonnes sur les a4es. omme les pointsvariables sont munis de masses gales( la contribution d'une pointNvariable l'inertie e4pli@ue parl'a4e est proportionnelle au carr de la coordonne. e carr peut alors s'interprter comme lecoefficient de corrlation linaire avec l'a4e considr comme une nouvelle variable.>our revenir notre e4emple et en nous intressant l'a4e "( on remar@ue @ue les variables ayant lesplus grandes valeurs *en valeur absolue+ sont!uies( rales et Lgumineuses du cot positif( et les variables Jepas l'e4trieur( Xeurre et uf ducot ngatif. Hn peut lui donner comme ti@uette! le facteur de la @ualit de l'alimentation.Les relations de dualit permettent d'interprter les positions des points individus sur les a4esconformment au sens @ue nous lui avons donn partir des points variables.0ous avons interprt le premier facteur comme tant celui de la taille( et sur ce facteur nousconstatons une disposition ordonnes des catgories dpenses faibles du cot ngatif( par rapport au4catgories dpenses leves du cot positif de cet a4e. Le point cadre suprieur occupe la position laplus loigne sur cet a4e.Gur le deu4ime facteur( nous constatons @ue les points ayant les plus grandes valeurs *en valeurabsolue+ sont cadre suprieur et ouvrier de chantier. Hn peut interprter cela par la valeur leve desrepas pris l'e4trieur pour ces deu4 catgories$estGoit unprogramme1Cd'K> sur un tableau de donnes reprsentant "C catgories de personne!

    $lot o* $rincipal Homponents

    ident $rin2 $rin

    csup C#?B

  • 8/9/2019 Analyse de Donnes - COURS

    51/61

    K[G hommes actifs des [GK

    4aus ("+ "'+ (+ "+ "*+ ""# $(+ "$# )"#7aus '$# &+ *#+ )+ "'+ "*+ "++ $$# ""# )+#7nau "+ + ' ""+ "$+ ""+ ")+ $,# "(+ ')+4!us ("# "'" (# "+ ""# &+ ""# $(# ",+ )+#7!us "$& *& '*" ,$ "(" ""* ""& $$( "') )$)4cus #,# ""# #+ + "#+ "+# "++ $(+ "#+ ),#7cus ',* &' "&( ", "'" ")+ &( $$# ")* ))(4a1e (#* "++ $ #$ ,# "#+ ,+$ ""# ))+7a1e #"+ $+ )+$ )+ ,+ "'* ,"# ,$ *(*7na1 *+ $ #($ ,$ ""* &+ ",+ ,'* "*# )($4!1e (## &$ &$ "+ #* ,# "#* ,+$ "** )*+7!1e "(, ** #*& (& "+* ,) "$' ,*# ""& )&*4c1e ('* "+# $* + (* $$ "'+ ,"* "++ ),$7c1e ),& )' *(* "+ &* &$ "'$ ,', ,' )&*

    4ayo (#+ "'+ "*+ "# ,# &+ "+# $(+ $+ )(#7ayo #(+ "+# )$# '# &+ &+ $'# (+ *)#7nay "+ "+ $"+ ## "'# ,# ")+ ,"# (+ ),+4!yo (#+ "'# ""* "# ,# &+ "+# $(+ '+ '$#7!yo *(+ #* #$( #& ""( ,# ""$ $$# (# *cyo ("# "*# + ""# &+ ,# $(+ '+ '$#7cyo '") ,& )", *) ""* &( "+* $$' '# '+&4aes (#+ "'* "** ** $( &' "++ $(' &( ))'7aes #$, "+( )), '* "+( &' #* $#* (' **,7nae *' , #&' $* "#, &* "*, ,'+ ,( )&,4!es (#* ")) ")' ** (, &' "+* $(* "** )"+7!es ')' $$ ')" (+ ""$ ,, "+# $$+ $) **&4ces (*$ "', (, + ,, &* ,( $$+ #, '()7ces ')) ,( *&( *" "*, "+* &' $&, #, )$&:procprincompout/Prin:title*:varPR27 TRA5 ME5A E57A C2UR T2

  • 8/9/2019 Analyse de Donnes - COURS

    52/61

    BK[G femmes actives des [GK

    B0K[ femmes non actives des [GK

    ?[G hommes maris des [GK

    B?[G femmes maries des [GK

    [G hommes clibataires des [GKWC;1 femmes clibataires des ;1)

    `)3*hommes actifs des pays del#ouest

    W)3*femmes actives des pays del#ouest

    W[)3*

    femmes non actives des paysde l#ouest

    `R3*hommes maris des pays del#ouest

    WR3*femmes maries des pays del#ouest

    `C3*hommes clibataires des paysde l#ouest

    WC3*femmes clibataires des paysde l#ouest

    `)*1hommes actifs des pays del#est

    W)*1femmes actives des pays del#est

    W[)*femmes non actives des paysde l#est

    `R*1hommes maris des pays del#est

    WR*1femmes maris des pays del#est

    `C*1hommes clibataires des paysde l#est

    WC*1hommes clibataires des paysde l#est

    `)4 hommes actifs de ougoslavie

    W)4 femmes actives de ougoslavie

    `R4hommes maris de

    ougoslavieWR4 femmes maris de ougoslavie

    WC4femmes clibataires de

    ougoslavie

    `C4hommes clibataires de

    ougoslavie

    /"

  • 8/9/2019 Analyse de Donnes - COURS

    53/61

    Les variables sont9

    >JHB travail professionnel

    9JK0 occupations dues ou lies au travail professionnel*transport+

    ?E0K travail mnager

    E0BK occupation lies au4 enfants

    H[J les courses

    JE>K les repas

    GH?? sommeil

    /#

  • 8/9/2019 Analyse de Donnes - COURS

    54/61

    9ELE tlvision

    LH;G les autres loisirs

    ;ne case du tableau contient le nombre d#heures que les su5ets d#une catgorieont consacr en moyenne l#activit 5 pendant la dure de l#enqute.Ce tableau a t soumis une analyse en composantes principales qui a gnr

    des rsultats,Anumriques et d#autres graphiques.Interprtation

    1Ie $RINH0!$ $rocedure

    04ser%ations B Varia4les 2#2B@2> 2 ?

  • 8/9/2019 Analyse de Donnes - COURS

    55/61

    'e premier a6e oppose le travail professionnel et les occupations qui lui sontlies au travail mnager et au6 occupations lies au6 enfants.1ur le plan (,-! on trouve toutes les catgories masculines gauche et laplupart des catgories fminines droite. 'es seules catgories fmininessitues gauche du graphique sont des catgories actives.'e deu6i"me a6e oppose les soins personnels et les courses au6 repas et au

    sommeil.4n remarque que toutes les catgories relatives au6 *tats0;nis sont en haut dugraphique celle des pays de l#est occupent une position moyenne celles despayas de l#ouest sont en bas du graphique.

    Eien%alue Di**erence $roportion Humulati%e

    2< >@? -#@C>@2? repa B -#@B@@B BCC CC en*a B -#>?< -#2C

  • 8/9/2019 Analyse de Donnes - COURS

    56/61

    NUEES DYNA2I?UESLes *rin)i*ales &ta*es

    ette techni@ue de classification a pour but de fournir une partition en classes *F donn priori+ bienagrges et bien spares entre elles.

    D&roule%ent de l+alorith%eKyant un ensemble d'observations *ou ob5ets+( on part d'un choi4 de F *ici "+ noyau4 estim ou tirs auhasard pris parmi une famille de noyau4 appel espace de reprsentation L!

    ha@ue point de la population est ensuiteaffect au noyau dont il est le plus proche.Hn a une partition en F classes dont oncalcule les noyau4.Hn recommence le procd avec les

    nouveau4 noyau4. Hn associe alors cha@ue point au noyau le plus proche!

    et algorithme fait gnralement dcro\treun critre = @ui mesure l'ad@uation entreles classes et leur noyau respectif. Hn peutformellement reprsenter ce critre par!

    =!LFZ >FJQ

    avec !LF% Fl'ensemble des FNuples L %*L1( ...(LF+ avec Li.>Fest l'ensemble des partitions >%*>1(...( >F+ F classes de .

    avec une mesure d'ad@uation du noyau Li la classe >i*une petite valeur de e4prime une bonne ad@uation entre Liet >i+.K cha@ue itration de l'algorithme( la dcroissance du critre e4prime une augmentation globale del'ad@uation entre les classes et leurs noyau4.L'algorithme s'arrMte soit lors@ue deu4 itrations successives conduisent la mMme partition( soitlors@u'un critre convenablement choisi *par e4emple la variance intraNclasse+ cesse de dcro\tre defaon sensible( soit encore parce @u'un nombre ma4imal d'itration a t fi4 priori. ans tous les cas(la partition obtenue dpendra du choi4 initial des centres *noyau4+ l'tape :.

    Utilisation des )entres de ravit&

    0ous nous intressons particulirement au cas o6 le noyau est le centre de gravit. 0ous prendronscomme espace des individus l'espace Jpmuni dTun mtri@ue euclidien d?.L'espace de reprsentation L d'une classe est aussi Jp. La mesure d'ad@uation est une application de>*+ ZL dans JQdfinie par!

    o6 paest le poids de a et ;4*K+ l'inertie de la partie K par rapport 4.

    /

  • 8/9/2019 Analyse de Donnes - COURS

    57/61

    La :on)tion de re*r&sentation0ous cherchons optimiser *K(4+ % ;4*K+ pour 4 Jp. 'aprs le thorme de ygens( on a unesolution @ui correspond au centre de gravit de la partie K. La fonction de reprsentation g( @ui toutepartition >% *>1( ...>F+ associe sa reprsentation L % *L1(..LF+ est dfinie par!

    g*>1( ...>F+% *L1( ...LF+ o6 Liest le centre de gravit de >i

    .Le problme d'optimisation revient chercher le meilleur couple *>(L+ >FZLFminimisant le critred'ad@uation = entre la partition > % *>1( ...>F+ et sa reprsentation L% *L1( ...LF+. Hn peut donc crire!

    omme le reprsentant Lld'une classe >lest son centre de gravit g l( le critre s'crit!

    avec 9ll'inertie de la classe >lpar rapport son centre de gravit g l.Le critre =*>(L+ est donc l'inertie intraclasse de la partition >. ette mthode minimise l'inertieintraclasse et ma4imise l'inertie interclasse en vertu de la relation 9%=QX.

    Ee%*le0ous allons utiliser le tableau de donnes dcrit dans la partie test de l'analyse en composantesprincipales. Gur ce tableau nous effectuons une classification hirarchi@ue donne par la procdureL[G9EJ( et une mthode de nues dynami@ue donne par la procdure BKG9L[G. Jemar@uons@ue nous avons demand @uatre classes. 0ous rcuprons des rsultats numri@ues ainsi @u'unehirarchiedes observations.

    Donnes

    dataom*em;inputident J pro* tran mena en*a cour toil repa somm tele lois;cards;&aus ?2< 2< ?< 2< 2< C@ 22@ ?< 2@ >2@Kaus @ C< @< >< 2< 2< 2< B@ 2?< > >>&cus @B@ 22@ @< < 2@< 2< C? @ 2> >>?&a+e ?@ 2< B< C@ 2 B2@ B ?Kna+ < @? B 22 C< 2B< B 2@ >?&m+e ?@@ C C 2< @ B@ 2@ BC&c+e ? 2BC > ? 2< C C 2 BB B >C&a/o ?@< 2< 2< 2@ B@ C< 2?@Ka/o @?< 2@ @ C< C< C@ @ ?< >@Kna/ 2< 2< 2< @@ 2@ B@ 2>< B2@ ?< >B2B > 22 C? 2

  • 8/9/2019 Analyse de Donnes - COURS

    58/61

    &ces ? 2B ?B < BB C B? < @B ?>Kces >> B? C? 2 2B 2C;PROCCLUSTR !E&0D=a%e ;%arpro* tran mena en*a cour to il repa somm tele lois;idident;proctree;idident;proc%astc#usdata= om*em ma"clusters=&;%arpro* tran mena en*a cour to il repa somm tele lois;

    idident;run;

    Rsultats

    e HL85ER $rocedure $lot o* $rincipal Homponents

    e HL85ER $rocedure A%erae Linae Hluster Anal/sis

    Eien%alues o* te Ho%ariance !atri"

    Eien%alue Di**erence $roportion Humulati%e

    2 C#>@ B#2< B#C2> 2@2#2C B#

  • 8/9/2019 Analyse de Donnes - COURS

    59/61

    $lot o* $rincipal Homponents

    e HL85ER $rocedure A%erae Linae Hluster Anal/sis

    Hluster &istor/ Norm R!5 i NHL --Hlusters oined--- KREF Dist e

    HLC HLB C ? > HL? HL@ C $lot o* $rincipal Homponents

    e KA5HL85 $rocedure Replace=K8LL Radius=< !a"clusters= !a"iter=2

    Initial 5eeds

    Hluster pro* tran mena en*a cour OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 2 2C#

  • 8/9/2019 Analyse de Donnes - COURS

    60/61

    e KA5HL85 $rocedure Replace=K8LL Radius=< !a"clusters= !a"iter=2

    5tatistics *or Varia4les

    Varia4le otal 5D Pitin 5D R-5quare R5F7(2-R5F) OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 0VER-ALL 2B#2@@2> >>>> C>>>>> C#@#? C#?2B>C 2@#BB >#2@CC 2@#@?

  • 8/9/2019 Analyse de Donnes - COURS

    61/61

    FCeleu GHA.eleu4( E. iday - A. Aovaert - ^. Lechevallier .Jalambondrainy. lassificationautomati@ue des donnes. unod informati@ue 1ICI.FDida/ JHE. iday et collaborateurs- Hptimisation en classification automati@ue. ;0J;KFDida/ G"E. iday( . Krabie. omparing >artitions.