57
1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles » Hélène BIGOT Année universitaire 2008-2009

1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Embed Size (px)

Citation preview

Page 1: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

1

Université Marc Bloch Master de démographieStrasbourg 3ème semestre (M3)

Cours de traitement statistique

« Analyses descriptives multidimensionnelles »

Hélène BIGOT

Année universitaire 2008-2009

Page 2: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 2

Présentation

• Si n individus et seulement 2 variables X et Y, il est facile de représenter l’ensemble des données sur un graphique plan : chaque individu i est un point de coordonnées Xi et Yj nuage

• L’allure du nuage renseigne sur l’intensité et la nature de la relation entre X et Y.

• Si plus de 3 variables, il faut trouver de « bonnes » approximations du nuage pour l’appréhender dans sa globalité.

Page 3: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 3

Analyses exploratoires de données

Définition : statistiques descriptivesmultidimensionnelles (beaucoup de dimensions)

Objectif : extraire l’information principale d’un tableau à double entrée,y compris quand il est très grand

Méthode : consentir une perte … d’information

pour gagner … en efficacité

Page 4: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 4

Deux grands types de méthodes

Tableau de donnéesà double entrée(n individus *p variables)

Analyses factorielles

(nuages et axes factoriels)

Classifications(agrégations

et classes)

Page 5: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 5

Analyse factorielle

• Etude de la position d’un nuage de points dans l’espace et description de sa forme

• Pour mieux voir : – se placer au milieu du nuage, c’est-à-dire

déplacer l’origine au centre de gravité(= individu fictif « moyen »)

– regarder dans les directions d’allongement principal, c’est-à-dire changer d’axes

• Techniquement, changer de repère ( diagonaliser une matrice)

Page 6: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 6

Analyses factorielles

• Un tronc commun :Analyse des proximités au sein d’un nuage de points « pesants »selon une distance à déterminer

• Plusieurs analyses différentes selon la distance choisie :– Composantes principales (ACP)– Correspondances simples (AFC)– Correspondances multiples (ACM)– …

Page 7: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 7

Rappels sur les distances

• En géométrie :Distance euclidienne classique

D2(i,j) = (Xi – Xj)2 + (Yi – Yj)

2

(distance du double décimètre)

• En statistique :– p variables quantitatives– n individus, points d’un espace de dimension p– mesure des distances entre couples d’individus– la distance euclidienne classique ne convient pas

on pondère

i × <———— D(i,j) ————> × j

Page 8: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 8

Forme générale d’une distance euclidienne

D2(i,j)= Mab (Xia – Xja) (Xib – Xjb)

avec Xia = valeur de la variable a pour l’individu i

et Mab= coefficient de pondération

de l’interaction des variables a et b

On peut lui associer une métrique, càdune matrice carrée à p lignes et p colonnescontenant les coefficients Mab.

Page 9: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 9

Distances non euclidiennes

• Exemples :– Écart moyenD(i,j) = ( | Xia – Xja | ) / p

– City block D(i,j) = | Xia – Xja |

– Saut maximum D(i,j) = max | Xia – Xja |

– Saut minimum D(i,j) = min | Xia – Xja |

• On ne peut pas leur associer de métriques(matrices carrées)

Page 10: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 10

Notion d’inertie

• Mesure de la résistance d’un corps à un mouvement

• Mesure du volume occupé par un corps

• Inertie du point i de masse mi

par rapport au point O : λO(i(mi)) = mi D

2(i,O)

Page 11: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 11

Inertie d’un nuage de points

• Nuage E = un ensemble fini de points• Chaque point i est de masse mi

• Inertie du nuage E par rapport au point O :

λO(E) = λO(ik(mik))

= mik D2(ik,O)

• Inertie = dispersion= allongement= variance

Page 12: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 12

Inertie et droites orthogonales

• λO(i(mi)) = λO(i1(mi)) + λO(i2(mi))

(formule de Pythagore)

• λO(ik(mi)) / λO(i(mi)) : taux d’inertie de i

conservé par sa projection en ik sur Δk

• Si ce taux est fort, alors i et ik sont proches, et

l’on perd peu d’information en assimilant i à ik.

i2 x i(mi)

O i1

Page 13: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 13

Principes d’une analyse factorielle

• n individus sont décrits par p variables tableau de données à double entrée

• On a choisi une distance pour mesurer les distances entre les points du nuage.

• On cherche la meilleure « image approchée » du nuage en projection sur une droite Δ.

• C’est celle qui respecte au mieux les distances entre tous les couples de points

Page 14: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 14

Composantes principales (ACP)

• n individus décrits par p variables quantitatives

• Tableau Xnxp= (xij) des données brutes

• xij = valeur de la variable j pour l’individu i

• Distance euclidienne canonique• On cherche la meilleure « image approchée »

du nuage en projection sur une droite Δ ; c’est celle qui respecte au mieux les distances entre tous les couples de points : le 1er axe factoriel F1.

• Puis on cherche orthogonalement la 2ème ….

Page 15: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 15

ACP : objectifs

• Faire le bilan des ressemblances entre individus

et des liaisons entre variables• Rechercher un nombre limité de « variables »

fictives appelées « composantes principales », non corrélées entre elles et résumant le mieux possible l’information contenu dans le tableau des données brutes

Page 16: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 16

ACP : principes de la méthode

• Information à appréhender : inertie du nuage de dimension p (= dispersion totale)

• Moyen de résumer : se placer au centre du nuage, puis définir un sous-espace de petite dimension sur lequel le nuage centré est projeté (= approximation du nuage non projeté) diagonalisation de la matrice des covariances

• Critère de choix du sous-espace (Pearson, 1901) : maximiser l’inertie du nuage projeté

Page 17: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 17

ACP : données centrées

• Pour se placer au centre G du nuage E, on retire à chaque variable sa moyenne.

• On passe au tableau Xc des données centrées : Xc = (yij) avec yij = xij – xj

• Chaque individu a un poids mi

• La droite solution Δ est celle qui maximise l’inertie du nuage centré projeté sur elle : max { mi D

2Δ (i,G) }

Page 18: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 18

ACP : nuages des p variables

• Un axe factoriel Fk est une variable artificielle,combinaison linéaire des p variables initiales

• Le nuage n’est pas centré sur l’origine.• Si la plupart des variables sont bien corrélées

entre elles (ie presque toutes les corrélations sont proches de 1 ou de -1),alors il y a un facteur « taille »,(souvent sur le premier axe factoriel).

Page 19: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 19

ACP : cercle des corrélations

• Sur un plan factoriel, c’est le grand cercle de rayon 1 centré sur l’origine.

• Les points-variables tombent tous à l’intérieur.• Les points-variables situés près du cercle des

corrélations sont bien expliqués par le plan factoriel correspondant.

• Deux variables indépendantes forment un angle droit avec l’origine.

Page 20: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 20

ACP : perte et taux d’inertie

• Les axes factoriels sont ordonnés : du plus informatif au moins informatif.

• Chacun représente une part λk de l’inertie totale.• Si l’on ne retient que les premiers axes, on perd

de l’inertie : celle des derniers axes.• On repère dans la décroissance des taux d’inertie

(sur l’histogramme des valeurs propres), la plus grande rupture et on ne retient que les axes situés avant elle.

Page 21: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 21

ACP : variables expliquant un axe

• Les corrélations entre un axe factoriel et les variables initiales renseignent sur la signification de l’axe.

• Pour chaque axe, on retient les variables actives présentant les plus fortes corrélations en valeur absolue avec lui. Ce sont elles qui expliquent cet axe.

Page 22: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 22

ACP : nuage des individus

• Il est centré sur le centre de gravité.• Pour chaque axe, on repère les individus

ayant les contributions à l’inertie les plus fortes. Leurs coordonnées (positives ou négatives) sur cet axe permettent de les situer.

• Même si sa contribution à l’inertie est faible, un individu dont le cosinus carré avec un axe est proche de 1, est bien représenté sur cet axe.

Page 23: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 23

ACP : qualité de la représentation

• Globalement, elle dépend du taux d’inertie cumulé sur les premiers axes factoriels retenus.

• Sur un axe donné, la corrélation de chaque variable indique si elle est bien liée à cet axe.

• Sur un axe donné, le cosinus carré de chaque individu indique s’il est bien représenté sur cet axe.

Page 24: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 24

ACP normée

• Pour que toutes les variables jouent le même rôle dans le calcul des distances entre individus

• Pour que les distances entre individus soient indépendantes des unités de mesure des variables

• On centre et on réduit des données :

Xr = (zij) avec zij = (xij – xj) / sj

• On mesure un écart à la moyenne (xj) de la variable j en nombre d’écart-type de cette variable (sj).

• Tous les variables centrées sont comparables ; elles ont la même dispersion (égale à 1).

Page 25: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 25

Correspondances simples (AFC)

• Une méthode factorielle :– plus riche, plus informative que l’ACP,

– si le tableau rectangulaire analysé a la particularité d’être un « tableau de contingence » ou tableau croisé.

• On analyse les deux tableaux de profils.

• La distance est celle du χ2 (« chi-deux »).

Page 26: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 26

AFC : deux variables qualitatives

• Deux variables qualitatives V1 et V2 mesurées sur n individus.

• V1 J modalités : A1, …, Aj, …, AJ

elles forment les J lignes du tableau croisé

• V2 K modalités : B1, …, Bk, …, BK

elles forment les K colonnes du tableau croisé

• njk = nombre d’individus (parmi les n)

prenant simultanément Aj et Bk

• n = njk

Page 27: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 27

AFC : tableau de contingence

• Tableau N à J lignes et K colonnes contenant les effectifs njk

• Ligne marginale = ligne supplémentaire contenant la somme des effectifs de chaque colonne : n.1 n.2 n.3 … n.K

• Colonne marginale =colonne supplémentaire contenant la somme des effectifs de chaque ligne : n1. n2. n3. … nJ.

Page 28: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 28

Exemple de tableau de contingence

• Enquête auprès de 200 étudiantsvar. 1 : baccalauréat (A à H)var. 2 : université (U1, U2 ou U3)

• Construire un tel tableau N avec ses ligne et colonne marginales

• Comment apprécier la dépendance entre ces deux variables qualitatives ?

Page 29: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 29

AFC : profils-lignes

• Pour comparer plus facilement les lignes entre elles ou à la ligne marginale

• Division de chaque ligne par sa somme (figurant en colonne marginale)

• Tableau contenant les njk / nj.

(si exprimés en % : « pourcentages en ligne »)

• njk / nj. = fk|j = fréquence conditionnelle

de Bk sachant Aj

Page 30: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 30

AFC : profils-colonnes

• Pour comparer plus facilement les colonnes entre elles ou à la colonne marginale

• Division de chaque colonne par sa somme (figurant en ligne marginale)

• Tableau contenant les njk / n.k

(si exprimés en % : « pourcentages en colonne »)

• njk / n.k= fj|k = fréquence conditionnelle

de Aj sachant Bk

Page 31: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 31

Indépendance de 2 variables qualitatives

• Tous les profils-lignes sont égaux au profil-ligne marginal.

• Tous les profils-colonnes sont égaux au profil-colonne marginal.

• Effectifs théoriques du tableau théorique N* de la situation d’indépendance :

n*jk = nj. x n.k / n

Page 32: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 32

Ecart à l’indépendance

• Pour chaque case du tableau :– Écart simple : ejk = njk – n*jk

– Écart du « chi-deux » : e2jk / n*jk

• Pour l’ensemble du tableau :

χ2 = e2jk / n*jk

• χ2 = 0 si et seulement si tout njk = n*jk

• Plus χ2 est grand, plus il y dépendance entre les variables 1 et 2.

Page 33: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 33

Distance entre profils

• En utilisant la distance euclidienne classique, on tient compte d’un écart indépendamment de l’importance de la modalité concernée, donc au bénéfice des modalités nombreuses.

• Pour éviter cela, on pondère chaque modalité par l’inverse de son importance sur l’ensemble des individus.

Page 34: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 34

Distance du « chi-deux »

• Chaque profil-ligne j est pondéré par :

nj. / n

• Chaque profil-colonne k est pondéré par :

n.k / n

• Si on regroupe deux lignes ou deux colonnes ayant même profil, la distance du « chi-deux » n’est pas modifiée.

Page 35: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 35

AFC : procédure

A partir d’un tableau de contingence :

• On fait une ACP des profils-lignes pondérés chacun par nj. / n

et avec la distance du « chi-deux ».

• On fait une ACP des profils-colonnes pondérés chacun par nj. / n

et avec la distance du « chi-deux ».

• On étudie les liens entre les deux analyses.

Page 36: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 36

AFC : analyses des 2 nuages

• Chacun des 2 nuages est centré sur le centre de gravité.

• On peut superposer les graphiques des 2 nuages (compromis entre les 2 représentations possibles).

• Les contributions permettent d’apprécier la proximité entre les points et les axes.

• S’intéresser surtout aux points ayant une forte contribution relative.

Page 37: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 37

AFC : proximités entre modalités

• Deux modalités de la même variable sont proches, si leurs profils sont similaires.

• Deux modalités de variables différentes sont proches, si leurs individus respectifs ont des centres de gravité proches.

Page 38: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 38

Eléments supplémentaires

• Supplémentaire = inactif =n’ayant pas participé à la détermination des axes factoriels du nuage

• Replacé a posteriori dans l’espace

• Permet d’éclairer certains aspects de l’analyse

Page 39: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 39

Correspondances multiples (ACM)

• Généralisation de l’AFC à plus de deux variables qualitatives

• Tableau de BURT = généralisation du tableau de contingence

Page 40: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 40

ACM : propriétés

• A un coefficient près, une modalité est le centre de gravité des individus qui la prennent.

• Les modalités d’une même variable forment un sous-nuage, dont le centre de gravité est l’origine.

• Les taux d’inertie ne peuvent être que faibles.• La part d’inertie due à une modalité est d’autant

plus grande que son effectif est faible !• La part d’inertie due à une variable est d’autant

plus grand que le nombre de modalités est grand !

Page 41: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 41

ACM : valeurs-test sur un axe

• Pour repérer les positions significatives des modalités sur chaque axe

Page 42: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 42

Classifications : objectif

• Un ensemble E de n individus décrits par p variables

• Le tableau de données est supposé homogène en contenu et en texture

Repérer des groupes d’individus au sein de E, groupes aussi homogènes que possible du point de vue des valeurs des variables à l’intérieur de chacun des groupes

Page 43: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 43

Classifications : 2 types de méthode

1. Méthodes ascendantesau départ, il y a autant de groupes que d’individus : n ; puis on agglomère les 2 plus proches en un seul, et on recommence jusqu’à n’avoir plus qu’un seul très grand groupe

2. Méthodes descendanteson procède par séparations successives de l’ensemble E

Page 44: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 44

Classifications et mesures

• Une fois le type de méthode défini (ascendante ou descendante), tout repose sur la mesure retenue pour apprécier la ressemblance entre 2 individus.

• C’est en général une distance (définie positive, symétrique et inégalité triangulaire).

• Cela peut être simplement une dissimilarité (inégalité triangulaire non respectée)

• Si c’est une similarité, on peut se ramener au cas d’une dissimilarité.

Page 45: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 45

Quelques distances entre individus

• Distance euclidienne canonique• Distance entre données centrées réduites• Distance du « city block »

(somme des écarts en valeurs absolues)• …

Page 46: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 46

Distances entre 2 groupes

• Saut minimal (ou lien simple)plus petite distance existant entre 2 individus dont un dans chacun des 2 groupes

• Saut maximal (ou lien complet) plus grande distance existant entre 2 individus dont un dans chacun des 2 groupes

• Distance moyennemoyenne des distances entre 2 individusdont un dans chacun des 2 groupes

Page 47: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 47

Algorithme de la CAH (classification ascendante hiérarchique)

• Étape 1 n éléments à classer agrégation des 2 les plus proches ;

calcul des distances entre ce nouvel élément et les (n-2) autres

• Étape 2 il reste (n-1) éléments à classer agrégation des 2 les plus proches ;

calcul des distances entre ce nouvel élément et les (n-3) autres

• …• Étape finale il n’y a plus qu’un seul élément

Page 48: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 48

Dendrogramme d’une CAH

• Du mot grec « dendros » = arbre• En abscisse, les éléments initiaux à regrouper• En ordonnée, les distances correspondant aux

différents niveaux d’agrégation(ces distances s’appellent les indices de niveaux)

Page 49: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 49

Inerties interclasse et intraclasse

• E1, E2 … EH partition de E en H groupes• Ek : nk individus et Gk centre de gravité• L’inertie (totale) Itot de E est la somme de :

• l’inertie intraclasse Iintra

(somme des inerties de chacun des H groupes par rapport à son centre de gravité Gk)

• et l’inertie interclasse Iinter

(inertie du nuage des centres de gravité Gk)

Itot = Iintra + Iinter

• Au départ d’une CAH, l’inertie intraclasse est nulle et l’inertie interclasse égale l’inertie totale.

Page 50: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 50

CAH selon la variance (Ward)

• A chaque étape, on regroupe les 2 éléments qui permettent de minimiser la perte d’inertie interclasse (ou, ce qui revient au même,de maximiser le gain d’inertie intraclasse).

Page 51: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 51

Centres mobiles

• C’est une méthode de classification descendante.• On fixe a priori le nombre H de classes.• On choisit H individus au hasard pour être

des « centres provisoires de classes ».• On agrège chaque individu au centre provisoire

le plus proche et on détermine les centres des classes ainsi formées : on les retient comme nouveaux « centres provisoires ».

• On répète l’étape précédente jusqu’à stabilisation (quand les individus ne changent plus de classes).

Page 52: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 52

Comment faire avec des données ?

1. Partir des données initiales pour déterminer le « bon » tableau de données à analyser (recodages de variables, génération de nouvelles variables, variables actives et illustratives, individus illustratifs …) scruter les données initiales et les traiter avec SAS notamment

2. Définir la méthode factorielle la plus adaptée (ACP, AFC, AFCM …) selon la nature des données et l’objectif à atteindre plutôt avec SPAD

3. Poursuivre avec des classifications

Page 53: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 53

Pourquoi une analyse factorielle ?

• Pour obtenir rapidement les informations majeures et de façon ordonnée

• Pour ne conserver que l’essentiel de l’information et éliminer le « bruit statistique »

• Pour disposer de toutes les aides à l’interprétation fournies par une telle méthode (axes principaux, liens entre les variables, proximités entre les individus, plans factoriels …)

Page 54: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 54

Pourquoi des classifications ?

• Pour aller plus loin qu’une analyse factorielle

Page 55: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 55

Comment des classifications ?

• Sur les 1ers axes factoriels pour éliminer le « bruit statistique »

• Enchaîner une CAH, puis des centres mobiles pour compenser leurs « travers » respectifs

• A partir des classes finales, remonter aux variables du tableau soumis à une analyse factorielle

Page 56: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 56

Pourquoi l’analyse des données ?

• Pour appréhender l’essentiel de l’information à partir d’un enchaînement analyse factorielle – classifications

• Pour disposer de « visuels de synthèse » des relations existantes (plans factoriels)

• Pour faire émerger des classes homogènes et les décrire

Page 57: 1 Université Marc Bloch Master de démographie Strasbourg 3ème semestre (M3) Cours de traitement statistique « Analyses descriptives multidimensionnelles

Page 57

Comment l’analyse des données ?

• Bien définir le « bon » tableau de données à analyser

• Enchaîner analyses factorielles et classifications• Exploiter toutes les aides à l’interprétation• Utiliser les plans factoriels

et les compositions des classes• Rédiger une analyse « littéraire » des données

exploitées, sans terme statistique, dans un langage accessible à tous les publics, notamment les non initiés à cette technique !