23
Année Universitaire: 2013/2014

Analyse de Donnée { ACP } sous XLSTAT

Embed Size (px)

Citation preview

Année Universitaire: 2013/2014

6 1 Introduction

En raison de l’importance de la formation qui devient un outil nécessaire pour garantir l’adéquation de futurs employés à leur travail, Les projets de fin de module sont intégrés dans le programme d’études universitaires, ils représentent des excellents compléments de formation.

Ils permettent à l’étudiant de de confronter les connaissances théoriques à l’exercice pratique.

Aujourd’hui, plus que jamais, les statistiques et l’analyse de donnée représente la pierre angulaire autour de laquelle gravitent toutes sortes de l’organisation.

Cette importance se traduit par la mise en place d’un mini-projet pour savoir l’impact de la dernier diplomation sur les notes de chaque étudiant en bénéficions de notre savoir acquise durant le 1ére Semestre en analyse de donnée.

Le présent document se propose de décrire la démarche adoptée

pour effectuer ce travail et s’articule en quatre parties : Une première partie s’attache à présenter le projet ainsi que

les données utilisé. Une deuxième partie se compose d’une spécification détaillée

de méthodes utilisées. La troisième partie concerne la réalisation de l’application

moyennant une méthodologie de conception adoptée aux besoins d’applications hypermédia, elle présente aussi les choix technologiques et le travail réalisé ainsi elle jette, en plus, Les bases des améliorations possibles de l’application.

7 2 Fichier de Données

Ce Tableau ci-dessus représente les notes des étudiants de la filière Geo-Info Durant le 1ére semester quand va essayer d’analyser pour améliorer la qualité de la formation.

D’après on peut voir que il y en a 7 variables quantitative

qui sont :

o AN : Analyse numérique

o AD : Analyse de Donnée

o TEC : Technique de communication

o AP : Algorithmique-Programmation

o SI : Système D’information

o TS : Traitement de signal

o P : Physique

Et on a 2 variables supplémentaires qualitatives :

o S : Sexe

o DD : Dernier diplomation

Nom AN AD TEC AP SI TS P

Abdelmajid 15 16 14,5 16 13 15 16

Abdessadek 16 15 13 15 14,5 15,1 15

Ahmed 13 12 15,5 12 15 15,2 12

Asmae 14 16,5 14,5 16,5 15,5 16,5 16,5

Ayoub 14 14 13 14 16 14 14

Aziza 15 15 15,5 15 15 15 15

Brahim 16 14,5 16 16 16 16 16

FoFana 16 13 16 16 16 16 16

Hicham 15 15,5 14,5 14,5 14,5 14,5 14,5

Issam 13 14 14 14 14 14 14

Imane 14 15 15 15 15 15 15

Ikram 14 14,5 14,5 14,5 14,5 14,5 14,5

Insaff 14 13 13 13 13 13 13

Jihane 15,5 15,5 15,5 15,5 15,5 15,5 15,5

Mohamed.M 13 13 13 13 13 13 13

Mohamed.J 14,5 14,5 14,5 14,5 14,5 14,5 14,5

Nadia 15 15 15 15 15 15 15

Nahla 15,5 15,5 15,5 15,5 15,5 15,5 15,5

Nissrine 16 16 16 16 16 16 16

Nabil 13,5 13,5 13,5 13,5 13,5 13,5 13,5

Omaima 16 16 16 16 16 16 16

Touria 14 14 14 14 14 14 14

Zakaria 13 13 13 13 13 13 13

8 Analyse de données

L’analyse des données est une famille de méthodes statistiques dont les

principales caractéristiques sont d'être multidimensionnelles et

descriptives. Certaines méthodes, pour la plupart géométriques, aident à

faire ressortir les relations pouvant exister entre les différentes données et

à en tirer une information statistique qui permette de décrire de façon plus

succincte les principales informations contenues dans ces données.

Il existe trois méthodes des d'analyse des données : ACP : L’Analyse en Composantes Principales : destinées aux Variables

quantitatives. AFC : L’Analyse Factorielle des Correspondances s'applique à deux

variables qualitatives (nominales). ACM : L'Analyse des Correspondances Multiples généralise l'AFC à

un nombre quelconque de variables.

NB : Dans notre cas en va utiliser l’ACP mais puisque L’ACP ne supporte que les variables quantitatives alors en va mettre les autres variables qualitatives comme des variables supplémentaires .

L'Analyse en composantes principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multi-variée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables dé-corrélées les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l'information moins redondante.

9 Logiciel utilisé

Pour appliquer l’ACP on a utilisé XLSTAT Parce que c'est un logiciel sûr, rapide, facile à installer et à utiliser . Ainsi Il offre de très nombreuses fonctionnalités qui font d'Excel un outil performant et facile d'accès pour répondre à la majorité de vos besoins en analyse de données et modélisation.

Figure 1 : XLSTAT Environnements

Figure 2 : XLSTAT Fonctionnalités

Comme Vous Voyez quand installe XLSTAT il nous donne la possibilité de faire beaucoup

des opérations .

Et parmi ces opérations on trouve les différentes méthodes d’analyse de donnée (voir

figure 3) .

10 Logiciel utilisé

Figure 3 : Les Méthodes disponibles sur XLSTAT

Donc il suffit de choisir l’une des méthodes et sélectionner les individus et les variables

pour avoir une analyse bien détaillée selon le besoin.

Figure 4 : Choix des Individus et des variables

Après le choix des variables Principales . ensuite, il faut ajouter les 2 autres variable

qualitative comme des variables supplémentaires .

11 Logiciel utilisé

Figure 5 : Ajouter les variables qualitatives

Après on choisir les facteurs les plus importants depuis la fenêtre suivante :

Figure 6 : Choix des facteurs

12 5 Résultats et Interprétations

Tableau 1 : Variables Principales

Variable Minimum Maximum Moyenne Ecart-type

AN 13,000 16,000 14,565 1,080

AD 12,000 16,500 14,522 1,201

TEC 13,000 16,000 14,565 1,090

AP 8,000 18,000 14,109 2,500

SI 8,000 18,000 14,196 2,530

TS 13,000 17,000 14,857 1,135

P 8,000 17,000 13,913 2,462

Tableau 2 : Variables Supplémentaires

Variable Modalités Effectifs %

S M 12 52,174

F 11 47,826

DD

DUT 11 47,826

CPGE 12 52,174

D’après les deux tableaux ci-dessous on constat que le moyenne de la classe et de 14 ,

une note de maximale de 18 et une note minimale de 8.

Ensuite, d’après le deuxième tableau on a le nombre des hommes (52.174) et pour les

femmes de (47,826 ) donc on peut dire qu’il y en a une équipartition de sexe Aussi on

constat la même chose pour la dernier diplomation .

Cela que la filière Géo-Information est occupé principalement par les étudiants qui en

un DUT ou bien qui vient des classe préparatoires

13 5 Résultats et Interprétations

Tableau 3 : Tableau de variance/CoVariance ( Matrice de Correlation )

Variables AN AD TEC AP SI TS P S-M S-F DD-DUT DD-CPGE

AN 1 0,586 0,604 -0,255 -0,138 0,748 0,237 -0,229 0,229 -0,389 0,389 AD 0,586 1 0,381 -0,073 0,032 0,586 0,193 -0,464 0,464 -0,129 0,129 TEC 0,604 0,381 1 0,018 0,073 0,640 0,205 -0,350 0,350 -0,181 0,181 AP -0,255 -0,073 0,018 1 0,965 -0,054 -0,514 0,096 -0,096 0,616 -0,616 SI -0,138 0,032 0,073 0,965 1 0,062 -0,492 0,058 -0,058 0,610 -0,610 TS 0,748 0,586 0,640 -0,054 0,062 1 0,265 -0,202 0,202 -0,253 0,253 P 0,237 0,193 0,205 -0,514 -0,492 0,265 1 0,038 -0,038 -0,743 0,743 S-M -0,229 -0,464 -0,350 0,096 0,058 -0,202 0,038 1 -1,000 -0,129 0,129 S-F 0,229 0,464 0,350 -0,096 -0,058 0,202 -0,038 -1,000 1 0,129 -0,129 DD-DUT -0,389 -0,129 -0,181 0,616 0,610 -0,253 -0,743 -0,129 0,129 1 -1,000 DD-CPGE 0,389 0,129 0,181 -0,616 -0,610 0,253 0,743 0,129 -0,129 -1,000 1

Tableau 4 : Valeurs Propres

F1 F2 F3 F4 F5 F6 F7

Valeur propre 3,005 2,211 0,645 0,584 0,323 0,206 0,026 Variabilité (%) 42,931 31,584 9,207 8,341 4,620 2,946 0,370 % cumulé 42,931 74,516 83,723 92,064 96,684 99,630 100,000

On a λ1 = 3,005 , λ2 = 2,211 , λ3 = 0,645 sont les plus grandes valeurs et qui occupent 83.7 % > 80 % donc on va travailler sur 3 axes seulement .

14 5 Résultats et Interprétations

Figure 7 : Scree Plot

Tableau 5 : Vecteurs Propres

F1 F2 F3 F4 F5 F6 F7

AN 0,497 0,141 0,189 0,295 0,341 -0,700 0,058 AD 0,396 0,208 0,594 -0,489 -0,451 0,059 0,027 TEC 0,398 0,264 -0,513 0,373 -0,604 0,058 -0,039 AP -0,267 0,571 -0,183 -0,210 0,040 -0,134 0,711 SI -0,205 0,606 -0,121 -0,227 0,123 -0,150 -0,698 TS 0,471 0,262 -0,053 0,014 0,537 0,645 0,049 P 0,319 -0,325 -0,545 -0,662 0,102 -0,216 -0,002

0

20

40

60

80

100

0

0,5

1

1,5

2

2,5

3

3,5

F1 F2 F3 F4 F5 F6 F7

Var

iab

ilité

cu

mu

lée

(%

)

Val

eu

r p

rop

re

axes

Scree plot

15 5 Résultats et Interprétations

Tableau 6 : Coordonnées des variables

F1 F2 F3

AN 0,862 0,209 0,152 AD 0,686 0,309 0,477 TEC 0,690 0,392 -0,412 AP -0,463 0,849 -0,147 SI -0,356 0,901 -0,097 TS 0,817 0,389 -0,042 P 0,553 -0,484 -0,438 S-M -0,322 -0,132 -0,217 S-F 0,322 0,132 0,217 DD-DUT -0,555 0,516 0,217 DD-CPGE 0,555 -0,516 -0,217

Ce tableau propose les coordonnées des projections pour chaque nouvel axe.

Tableau 7 : Corrélations entre les variables et les facteurs

F1 F2 F3

AN 0,862 0,209 0,152 AD 0,686 0,309 0,477 TEC 0,690 0,392 -0,412 AP -0,463 0,849 -0,147 SI -0,356 0,901 -0,097 TS 0,817 0,389 -0,042 P 0,553 -0,484 -0,438 S-M -0,322 -0,132 -0,217 S-F 0,322 0,132 0,217 DD-DUT -0,555 0,516 0,217 DD-CPGE 0,555 -0,516 -0,217

D’après les résultats de corrélation des variables avec les axes on remarque que

les variables (AN,TS) sont bien corrélés avec le premier axe cela signifie que cet

axe a pour signification des individus qui ont tendance à apprécier la note de les

Matières AN et TS .

16 5 Résultats et Interprétations

Figure 8: Cercle de Corrélation

D’après le cercle de corrélation on trouve que l’inertie des AP ,SI,TS et AN est

complétement proche par les deux axes factoriel mais constat que les autres sont

absorbé .

Tableau 8 : Contributions des variables (%)

F1 F2 F3

AN 24,742 1,980 3,563 AD 15,664 4,315 35,295 TEC 15,857 6,966 26,311 AP 7,136 32,598 3,367 SI 4,215 36,713 1,468 TS 22,217 6,847 0,277 P 10,169 10,581 29,720

On Constat que variable les plus contributive sont : AN, TS,AD et TEC

Par contre on a SI et AP sont négligeables.

AN

AD TEC

AP SI

TS

P

S-M

S-F

DD-DUT

DD-CPGE

-1

-0,75

-0,5

-0,25

0

0,25

0,5

0,75

1

-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1

F2 (

31

,58

%)

F1 (42,93 %)

Variables (axes F1 et F2 : 74,52 %)

variables actives Variables supplémentaires

17 5 Résultats et Interprétations

Tableau 9 : Coordonnées des observations

Individus F1 F2 F3

Abdelmajid -0,013 2,022 0,639 Abdessadek 1,601 -0,526 1,096 Ahmed -2,040 1,718 -2,021 Asmae 0,713 1,484 0,590 Ayoub -1,321 -0,823 0,417 Aziza 0,927 0,183 -0,357 Brahim 2,139 -0,021 -0,812 FoFana 1,550 -0,047 -1,614 Hicham 0,619 -0,052 -0,009 Issam -1,663 0,092 -0,692 Imane -0,410 1,468 -0,439 Ikram 0,481 -2,262 0,199 Insaff -3,090 0,369 0,834 Jihane 0,600 1,813 0,880 Mohamed.M -1,353 -3,972 -0,068 Mohamed.J -1,136 1,067 1,231 Nadia 0,038 1,059 0,643 Nahla 2,755 -2,142 0,143 Nissrine 3,009 -0,697 0,173 Nabil -1,936 -0,771 0,203 Omaima 2,069 1,642 -0,433 Touria -0,826 -0,714 -0,275 Zakaria -2,715 -0,890 -0,327 S-M -0,522 -0,184 -0,163 S-F 0,570 0,200 0,178 DD-DUT -0,983 0,784 0,178 DD-CPGE 0,901 -0,719 -0,163

Ce tableau propose les coordonnées des projections des individus sur chaqu’un des

nouveaux axes.

18 5 Résultats et Interprétations

Tableau 10 : Contributions des observations (%)

F1 F2 F3

Abdelmajid 0,000 8,402 2,880 Abdessadek 3,875 0,570 8,466 Ahmed 6,295 6,067 28,797 Asmae 0,769 4,529 2,452 Ayoub 2,640 1,394 1,228 Aziza 1,300 0,069 0,900 Brahim 6,918 0,001 4,645 FoFana 3,636 0,004 18,374 Hicham 0,580 0,006 0,001 Issam 4,183 0,017 3,377 Imane 0,254 4,429 1,360 Ikram 0,350 10,520 0,280 Insaff 14,439 0,280 4,903 Jihane 0,545 6,757 5,457 Mohamed.M 2,770 32,435 0,032 Mohamed.J 1,951 2,342 10,680 Nadia 0,002 2,305 2,912 Nahla 11,478 9,433 0,145 Nissrine 13,694 1,000 0,211 Nabil 5,666 1,223 0,290 Omaima 6,475 5,543 1,325 Touria 1,033 1,047 0,532 Zakaria 11,147 1,627 0,754

D’après le tableau on peut voir que les individu (Nissrine , nahla ,

Insaff,zakaria) sont les plus contributives par rapport aux autre individu qui

varie entre une contribution faible et autre moyenne .

19 5 Résultats et Interprétations

Abdelmajid

Abdessadek

Ahmed Asmae

Ayoub

Aziza

Brahim FoFana Hicham

Issam

Imane

Ikram

Insaff

Jihane

Mohamed.M

Mohamed.J Nadia

Nahla

Nissrine Nabil

Omaima

Touria Zakaria

-4

-3

-2

-1

0

1

2

3

-5 -4 -3 -2 -1 0 1 2 3 4 5

F2

(3

1,5

8 %

)

F1 (42,93 %)

Observations (axes F1 et F2 : 74,52 %)

S-M

S-F

20 5 Résultats et Interprétations

Abdelmajid

Abdessadek

Ahmed Asmae

Ayoub

Aziza

Brahim FoFana Hicham

Issam

Imane

Ikram

Insaff

Jihane

Mohamed.M

Mohamed.J Nadia

Nahla

Nissrine Nabil

Omaima

Touria Zakaria

AN AD TEC

AP SI

TS

P

S-M

S-F

DD-DUT

DD-CPGE

-4

-3

-2

-1

0

1

2

3

-5 -4 -3 -2 -1 0 1 2 3 4 5 6

F2 (

31

,58

%)

F1 (42,93 %)

Biplot (axes F1 et F2 : 74,52 %)

S-M S-F variables actives Variables supplémentaires

21 Conclusion

L’analyse en composantes principales est une excellente approche pour

explorer la structure des données en tenant compte de leur caractère multidimensionnel. Cette méthode est l’origine de la plupart des méthodes descriptives multidimensionnelles. Elle sert à mieux connaitre les données sur lesquelles on travaille en construisant de nouvelles variables artificielles et fournit des représentations graphiques qui permettent de visualiser des liaisons entre les variables.

22 Webographie

http://www.google.com/ http://www4.ac-nancy-metz.fr/ http://fr.wikipedia.org/wiki/ http://www.xlstat.com/fr/ http://www.math.univ-toulouse.fr/~besse/Wikistat/ http://iml.univ-mrs.fr/~reboul/