(Cours d’analyse de données ENCG)

Preview:

Citation preview

Mohamed AZMI

Yassine_azmi@yahoo.fr

2011/2012

L’analyse de données� Le principe consiste à synthétiser, structurer l’information contenue dans des

données multidimensionnelles (n individus, p variables).

� L’analyse de données se base sur deux groupes de méthodes

– méthodes de classification : réduire la taille de l’ensemble des individus en

formant des groupes homogènes .formant des groupes homogènes .

– méthodes factorielles : réduire le nombre de variables en les résumant par un

petit nombre de composantes synthétiques.

� Deux types de méthodes factorielles

– analyse en composantes principales : variables numériques .

– analyse des correspondances : variables qualitatives.

Méthodes couvertes par le cours

� – analyse en composantes principales (ACP) ;

� – analyse (factorielle) des correspondances (AFC) ;� – analyse (factorielle) des correspondances (AFC) ;

� – Méthodes de classification.

� – Analyse discriminante

Terminologie

• La statistique est une méthode scientifique dont l’objet estde recueillir, d’organiser, de résumer et d’analyser lesdonnées d’une enquête, d’une étude ou d’une expérience,aussi bien que de tirer des conclusions et de prendre lesdécisions qui s’imposent à partir des analyses effectuées.

Statistique

• Ensemble d'individus définis par une propriété communedonnée.donnée.

• Exp : si l’on veut étudier la durée de vie des ampoulesélectriques fabriquées par une compagnie, la populationconsidérée est l’ensemble de toutes les ampoulesfabriquées par cette compagnie.

Population

• Sous-ensemble de la population.

• Exp : pour établir la durée de vie des ampoules électriques produites par une machine, on peut prélever au hasard un certain nombre d’ampoules - un échantillon- parmi toutes les celles produites par cette machine.

Echantillon

Terminologie

• Chaque élément de la population ou de l’échantillon.

• Exp : dans l’exemple précédant, chaque ampoule constitue un individu ou une unité statistique.

Individu ou unité

statistique

• Représente le nombre d’individus d’un échantillon oud’une population. Elle est symbolisée par « n » dans le casd’un échantillon et par « N » dans le cas d’une population.

La tailled’un échantillon et par « N » dans le cas d’une population.

• C’est l’aspect particulier que l’on désire étudier.

• Exp : concernant un groupe de personnes, on peut s’intéresser à leur age, leur sexe leur taille…

Variable

• Les différentes manières d’être que peut présenter une variable.

• Exp 1 : le sexe est un caractere qui presente deux modalités : feminin ou masculin

• Exp 2 : quant au nombre d’enfants par famille, les modalités de ce caractere peuvent être 0,1, 2,3…,20.

Lesmodalités

Terminologie

Population Echantillon

Individu

Taille de l’échantillon

=3

Terminologie

Variables qualitatives Variables quantitatives

Variables statistiques

Variables qualitatives

Variables discrètes Variables continues

Variables quantitatives

• Ses modalités ne s’expriment pas par un nombre

• Exp : la religion, le sexe, l’opinion…Variable

qualitative

• Ses modalités sont numériques.

• L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus souvent, ces valeurs sont Variable

Terminologie

• L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus souvent, ces valeurs sont entières.

• Exp :le nombre d’enfant dans une famille, le nombre de téléviseurs par foyer .

Variable quantitative

discrète

• Ses modalités sont numériques.

• Le caractère peut prendre théoriquement n’importe quelle valeur dans un intervalle donné de nombres réels.

• Exp : la taille d’un individu, le poids…

Variable quantitative

continue

La covariance

� la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et, ainsi, de qualifier l'indépendance de ces variables.

� Si deux variables sont indépendantes alors leur covariance est nulle, mais la réciproque est fausse.réciproque est fausse.

� L'unité de mesure de la covariance cov(X,Y) est le produit des unités des variables aléatoires X et Y et sa valeur est comprise dans

Coefficient de corrélation linéaire:

� Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre deux variables X et Y :

( )yx

yxr σσ .,cov=

� Le coefficient de corrélation linéaire est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1 ; 1 ]

yx σσ .

( ) 6,0.

,cov ==yx

yxr σσAlors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)Alors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)

Objectifs et aspect théorique de l’ ACP

L’analyse en composantes principales a surtout trois objectifs :

� Etudier les interrelations entre un assez grand nombre de variables .

� A partir de cette étude, regrouper ces variables dans des groupes limités appelés facteurs ou composantes .

� Etablir entre ces groupes de variables une hiérarchie basée essentiellement sur la valeur explicative de chacun d’eux .

En bref, l’analyse en composantes principales considère quatre

types de relations :

� 1. les relations des variables entre elles ;

� 2. les relations des variables aux facteurs ;

� 3. les relations entre les variables d’un même facteur ;

� 4. les relations entre les différents facteurs;

Quantifier la variabilité contenue dans un tableau de

données

Projeter sur un plan un tableau de données à

j dimensions

� Dans un tableau de données à j variables, les individus se trouvent dans un espace à j dimensions.

� L’objectif de l’ ACP est de représenter sous forme graphique l’essentiel de

l’information contenue dans un tableau de données quantitatif.

Représentation graphique

Au plan pratique, l’analyse en composantes principales essaie de répondre à des questions simples.

EXEMPLE

par exemple, au sujet d’une marque de voiture, parmi les qualités suivantes : le prix, la vitesse, le look, la sécurité, le confort. suivantes : le prix, la vitesse, le look, la sécurité, le confort. lesquelles sont les plus importantes ?

On pose ces questions à un échantillon de clients possibles , ils doivent noter chacune de ces qualités de 1 à 10.

où 1 = Pas du tout important.

10 = Très important.

On aura donc les relations suivantes

On voit que les variables sont reliées à tous les facteurs. L’ACP permettra, par

exemple, d’arriver aux résultats suivants

Dans la publicité, les qualités de sécurité et de confort sont les arguments

les plus importants à utiliser pour maximiser les ventes d’une marque donnée .

Dans le facteur I, la sécurité est jugée plus importante que le confort.

Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix, Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix,

la vitesse, le look.

L’analyse en composantes principales, dans cet exemple, a bien rempli son rôle :

� Réduire les données .

� Donner une certaine explication aux choix effectués par les répondants.

L’analyse en composantes principales doit respecter certaines contraintes :

• le nombre des variables doit être suffisant (cinq variables ou plus)

• la forme des réponses aux questions (les items) doit être la même (par exemple, • la forme des réponses aux questions (les items) doit être la même (par exemple, cinq choix de réponse), dans le cas contraire, les variables doivent être réduites et normalisées

• On doit avoir dix fois plus de cas qu’il y a de variables impliquées ,par exemple 10 variables fois 10 cas donnent une taille n égale à 100.

Présentation élémentaire de l’ACP

Statistiques élémentaires

Coefficients de corrélations

La matrice Var-Covar

L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3

Les valeurs propres de la matrice Var-Covar

Les valeurs propres sont les variances des composantes principales correspondant

La somme des 4 valeurs propres est 40,3

Le nuage de points en dim 4 est toujours le même (variables initiales

ou composantes principales) et sa dispersion globale n’a pas changée.

C’est la répartition de cette dispersion selon les nouvelles variables

(composantes principales) qui se trouve modifiée.

Les deux premières composantes principales restituent à elles seules la

quasi-totalité de la dispersion du nuage, ce qui permet de négliger les

deux autres. C’est ainsi que l’objectif (résumé pertinent des données en

petite dim) est atteint.

Résultats sur les variables

Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines littéraire

Surtout marqué par l’opposition entre le français et les maths.

Cette interprétation sera précisée avec les graphiques et tableaux relatifs aux

individus

� On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs, l’élève le « plus bas » sur le graphique avec une coordonnée élevée sur le deuxième axe principal est Pier dont les résultats sont les plus contrastés en faveur des disciplines littéraires ( 14 et 11,5 contre 7 et 5,5). C’est le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des résultats très faibles dans les disciplines littéraires. On note que Mon et Alan ont un scores voisin de zerosur le deuxième axe car ils ont des résultats très homogènes dans les quatre disciplines

Recommended