Upload
ahmed-el-atari
View
231
Download
3
Embed Size (px)
Citation preview
6 1 Introduction
En raison de l’importance de la formation qui devient un outil nécessaire pour garantir l’adéquation de futurs employés à leur travail, Les projets de fin de module sont intégrés dans le programme d’études universitaires, ils représentent des excellents compléments de formation.
Ils permettent à l’étudiant de de confronter les connaissances théoriques à l’exercice pratique.
Aujourd’hui, plus que jamais, les statistiques et l’analyse de donnée représente la pierre angulaire autour de laquelle gravitent toutes sortes de l’organisation.
Cette importance se traduit par la mise en place d’un mini-projet pour savoir l’impact de la dernier diplomation sur les notes de chaque étudiant en bénéficions de notre savoir acquise durant le 1ére Semestre en analyse de donnée.
Le présent document se propose de décrire la démarche adoptée
pour effectuer ce travail et s’articule en quatre parties : Une première partie s’attache à présenter le projet ainsi que
les données utilisé. Une deuxième partie se compose d’une spécification détaillée
de méthodes utilisées. La troisième partie concerne la réalisation de l’application
moyennant une méthodologie de conception adoptée aux besoins d’applications hypermédia, elle présente aussi les choix technologiques et le travail réalisé ainsi elle jette, en plus, Les bases des améliorations possibles de l’application.
7 2 Fichier de Données
Ce Tableau ci-dessus représente les notes des étudiants de la filière Geo-Info Durant le 1ére semester quand va essayer d’analyser pour améliorer la qualité de la formation.
D’après on peut voir que il y en a 7 variables quantitative
qui sont :
o AN : Analyse numérique
o AD : Analyse de Donnée
o TEC : Technique de communication
o AP : Algorithmique-Programmation
o SI : Système D’information
o TS : Traitement de signal
o P : Physique
Et on a 2 variables supplémentaires qualitatives :
o S : Sexe
o DD : Dernier diplomation
Nom AN AD TEC AP SI TS P
Abdelmajid 15 16 14,5 16 13 15 16
Abdessadek 16 15 13 15 14,5 15,1 15
Ahmed 13 12 15,5 12 15 15,2 12
Asmae 14 16,5 14,5 16,5 15,5 16,5 16,5
Ayoub 14 14 13 14 16 14 14
Aziza 15 15 15,5 15 15 15 15
Brahim 16 14,5 16 16 16 16 16
FoFana 16 13 16 16 16 16 16
Hicham 15 15,5 14,5 14,5 14,5 14,5 14,5
Issam 13 14 14 14 14 14 14
Imane 14 15 15 15 15 15 15
Ikram 14 14,5 14,5 14,5 14,5 14,5 14,5
Insaff 14 13 13 13 13 13 13
Jihane 15,5 15,5 15,5 15,5 15,5 15,5 15,5
Mohamed.M 13 13 13 13 13 13 13
Mohamed.J 14,5 14,5 14,5 14,5 14,5 14,5 14,5
Nadia 15 15 15 15 15 15 15
Nahla 15,5 15,5 15,5 15,5 15,5 15,5 15,5
Nissrine 16 16 16 16 16 16 16
Nabil 13,5 13,5 13,5 13,5 13,5 13,5 13,5
Omaima 16 16 16 16 16 16 16
Touria 14 14 14 14 14 14 14
Zakaria 13 13 13 13 13 13 13
8 Analyse de données
L’analyse des données est une famille de méthodes statistiques dont les
principales caractéristiques sont d'être multidimensionnelles et
descriptives. Certaines méthodes, pour la plupart géométriques, aident à
faire ressortir les relations pouvant exister entre les différentes données et
à en tirer une information statistique qui permette de décrire de façon plus
succincte les principales informations contenues dans ces données.
Il existe trois méthodes des d'analyse des données : ACP : L’Analyse en Composantes Principales : destinées aux Variables
quantitatives. AFC : L’Analyse Factorielle des Correspondances s'applique à deux
variables qualitatives (nominales). ACM : L'Analyse des Correspondances Multiples généralise l'AFC à
un nombre quelconque de variables.
NB : Dans notre cas en va utiliser l’ACP mais puisque L’ACP ne supporte que les variables quantitatives alors en va mettre les autres variables qualitatives comme des variables supplémentaires .
L'Analyse en composantes principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multi-variée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables dé-corrélées les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l'information moins redondante.
9 Logiciel utilisé
Pour appliquer l’ACP on a utilisé XLSTAT Parce que c'est un logiciel sûr, rapide, facile à installer et à utiliser . Ainsi Il offre de très nombreuses fonctionnalités qui font d'Excel un outil performant et facile d'accès pour répondre à la majorité de vos besoins en analyse de données et modélisation.
Figure 1 : XLSTAT Environnements
Figure 2 : XLSTAT Fonctionnalités
Comme Vous Voyez quand installe XLSTAT il nous donne la possibilité de faire beaucoup
des opérations .
Et parmi ces opérations on trouve les différentes méthodes d’analyse de donnée (voir
figure 3) .
10 Logiciel utilisé
Figure 3 : Les Méthodes disponibles sur XLSTAT
Donc il suffit de choisir l’une des méthodes et sélectionner les individus et les variables
pour avoir une analyse bien détaillée selon le besoin.
Figure 4 : Choix des Individus et des variables
Après le choix des variables Principales . ensuite, il faut ajouter les 2 autres variable
qualitative comme des variables supplémentaires .
11 Logiciel utilisé
Figure 5 : Ajouter les variables qualitatives
Après on choisir les facteurs les plus importants depuis la fenêtre suivante :
Figure 6 : Choix des facteurs
12 5 Résultats et Interprétations
Tableau 1 : Variables Principales
Variable Minimum Maximum Moyenne Ecart-type
AN 13,000 16,000 14,565 1,080
AD 12,000 16,500 14,522 1,201
TEC 13,000 16,000 14,565 1,090
AP 8,000 18,000 14,109 2,500
SI 8,000 18,000 14,196 2,530
TS 13,000 17,000 14,857 1,135
P 8,000 17,000 13,913 2,462
Tableau 2 : Variables Supplémentaires
Variable Modalités Effectifs %
S M 12 52,174
F 11 47,826
DD
DUT 11 47,826
CPGE 12 52,174
D’après les deux tableaux ci-dessous on constat que le moyenne de la classe et de 14 ,
une note de maximale de 18 et une note minimale de 8.
Ensuite, d’après le deuxième tableau on a le nombre des hommes (52.174) et pour les
femmes de (47,826 ) donc on peut dire qu’il y en a une équipartition de sexe Aussi on
constat la même chose pour la dernier diplomation .
Cela que la filière Géo-Information est occupé principalement par les étudiants qui en
un DUT ou bien qui vient des classe préparatoires
13 5 Résultats et Interprétations
Tableau 3 : Tableau de variance/CoVariance ( Matrice de Correlation )
Variables AN AD TEC AP SI TS P S-M S-F DD-DUT DD-CPGE
AN 1 0,586 0,604 -0,255 -0,138 0,748 0,237 -0,229 0,229 -0,389 0,389 AD 0,586 1 0,381 -0,073 0,032 0,586 0,193 -0,464 0,464 -0,129 0,129 TEC 0,604 0,381 1 0,018 0,073 0,640 0,205 -0,350 0,350 -0,181 0,181 AP -0,255 -0,073 0,018 1 0,965 -0,054 -0,514 0,096 -0,096 0,616 -0,616 SI -0,138 0,032 0,073 0,965 1 0,062 -0,492 0,058 -0,058 0,610 -0,610 TS 0,748 0,586 0,640 -0,054 0,062 1 0,265 -0,202 0,202 -0,253 0,253 P 0,237 0,193 0,205 -0,514 -0,492 0,265 1 0,038 -0,038 -0,743 0,743 S-M -0,229 -0,464 -0,350 0,096 0,058 -0,202 0,038 1 -1,000 -0,129 0,129 S-F 0,229 0,464 0,350 -0,096 -0,058 0,202 -0,038 -1,000 1 0,129 -0,129 DD-DUT -0,389 -0,129 -0,181 0,616 0,610 -0,253 -0,743 -0,129 0,129 1 -1,000 DD-CPGE 0,389 0,129 0,181 -0,616 -0,610 0,253 0,743 0,129 -0,129 -1,000 1
Tableau 4 : Valeurs Propres
F1 F2 F3 F4 F5 F6 F7
Valeur propre 3,005 2,211 0,645 0,584 0,323 0,206 0,026 Variabilité (%) 42,931 31,584 9,207 8,341 4,620 2,946 0,370 % cumulé 42,931 74,516 83,723 92,064 96,684 99,630 100,000
On a λ1 = 3,005 , λ2 = 2,211 , λ3 = 0,645 sont les plus grandes valeurs et qui occupent 83.7 % > 80 % donc on va travailler sur 3 axes seulement .
14 5 Résultats et Interprétations
Figure 7 : Scree Plot
Tableau 5 : Vecteurs Propres
F1 F2 F3 F4 F5 F6 F7
AN 0,497 0,141 0,189 0,295 0,341 -0,700 0,058 AD 0,396 0,208 0,594 -0,489 -0,451 0,059 0,027 TEC 0,398 0,264 -0,513 0,373 -0,604 0,058 -0,039 AP -0,267 0,571 -0,183 -0,210 0,040 -0,134 0,711 SI -0,205 0,606 -0,121 -0,227 0,123 -0,150 -0,698 TS 0,471 0,262 -0,053 0,014 0,537 0,645 0,049 P 0,319 -0,325 -0,545 -0,662 0,102 -0,216 -0,002
0
20
40
60
80
100
0
0,5
1
1,5
2
2,5
3
3,5
F1 F2 F3 F4 F5 F6 F7
Var
iab
ilité
cu
mu
lée
(%
)
Val
eu
r p
rop
re
axes
Scree plot
15 5 Résultats et Interprétations
Tableau 6 : Coordonnées des variables
F1 F2 F3
AN 0,862 0,209 0,152 AD 0,686 0,309 0,477 TEC 0,690 0,392 -0,412 AP -0,463 0,849 -0,147 SI -0,356 0,901 -0,097 TS 0,817 0,389 -0,042 P 0,553 -0,484 -0,438 S-M -0,322 -0,132 -0,217 S-F 0,322 0,132 0,217 DD-DUT -0,555 0,516 0,217 DD-CPGE 0,555 -0,516 -0,217
Ce tableau propose les coordonnées des projections pour chaque nouvel axe.
Tableau 7 : Corrélations entre les variables et les facteurs
F1 F2 F3
AN 0,862 0,209 0,152 AD 0,686 0,309 0,477 TEC 0,690 0,392 -0,412 AP -0,463 0,849 -0,147 SI -0,356 0,901 -0,097 TS 0,817 0,389 -0,042 P 0,553 -0,484 -0,438 S-M -0,322 -0,132 -0,217 S-F 0,322 0,132 0,217 DD-DUT -0,555 0,516 0,217 DD-CPGE 0,555 -0,516 -0,217
D’après les résultats de corrélation des variables avec les axes on remarque que
les variables (AN,TS) sont bien corrélés avec le premier axe cela signifie que cet
axe a pour signification des individus qui ont tendance à apprécier la note de les
Matières AN et TS .
16 5 Résultats et Interprétations
Figure 8: Cercle de Corrélation
D’après le cercle de corrélation on trouve que l’inertie des AP ,SI,TS et AN est
complétement proche par les deux axes factoriel mais constat que les autres sont
absorbé .
Tableau 8 : Contributions des variables (%)
F1 F2 F3
AN 24,742 1,980 3,563 AD 15,664 4,315 35,295 TEC 15,857 6,966 26,311 AP 7,136 32,598 3,367 SI 4,215 36,713 1,468 TS 22,217 6,847 0,277 P 10,169 10,581 29,720
On Constat que variable les plus contributive sont : AN, TS,AD et TEC
Par contre on a SI et AP sont négligeables.
AN
AD TEC
AP SI
TS
P
S-M
S-F
DD-DUT
DD-CPGE
-1
-0,75
-0,5
-0,25
0
0,25
0,5
0,75
1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
F2 (
31
,58
%)
F1 (42,93 %)
Variables (axes F1 et F2 : 74,52 %)
variables actives Variables supplémentaires
17 5 Résultats et Interprétations
Tableau 9 : Coordonnées des observations
Individus F1 F2 F3
Abdelmajid -0,013 2,022 0,639 Abdessadek 1,601 -0,526 1,096 Ahmed -2,040 1,718 -2,021 Asmae 0,713 1,484 0,590 Ayoub -1,321 -0,823 0,417 Aziza 0,927 0,183 -0,357 Brahim 2,139 -0,021 -0,812 FoFana 1,550 -0,047 -1,614 Hicham 0,619 -0,052 -0,009 Issam -1,663 0,092 -0,692 Imane -0,410 1,468 -0,439 Ikram 0,481 -2,262 0,199 Insaff -3,090 0,369 0,834 Jihane 0,600 1,813 0,880 Mohamed.M -1,353 -3,972 -0,068 Mohamed.J -1,136 1,067 1,231 Nadia 0,038 1,059 0,643 Nahla 2,755 -2,142 0,143 Nissrine 3,009 -0,697 0,173 Nabil -1,936 -0,771 0,203 Omaima 2,069 1,642 -0,433 Touria -0,826 -0,714 -0,275 Zakaria -2,715 -0,890 -0,327 S-M -0,522 -0,184 -0,163 S-F 0,570 0,200 0,178 DD-DUT -0,983 0,784 0,178 DD-CPGE 0,901 -0,719 -0,163
Ce tableau propose les coordonnées des projections des individus sur chaqu’un des
nouveaux axes.
18 5 Résultats et Interprétations
Tableau 10 : Contributions des observations (%)
F1 F2 F3
Abdelmajid 0,000 8,402 2,880 Abdessadek 3,875 0,570 8,466 Ahmed 6,295 6,067 28,797 Asmae 0,769 4,529 2,452 Ayoub 2,640 1,394 1,228 Aziza 1,300 0,069 0,900 Brahim 6,918 0,001 4,645 FoFana 3,636 0,004 18,374 Hicham 0,580 0,006 0,001 Issam 4,183 0,017 3,377 Imane 0,254 4,429 1,360 Ikram 0,350 10,520 0,280 Insaff 14,439 0,280 4,903 Jihane 0,545 6,757 5,457 Mohamed.M 2,770 32,435 0,032 Mohamed.J 1,951 2,342 10,680 Nadia 0,002 2,305 2,912 Nahla 11,478 9,433 0,145 Nissrine 13,694 1,000 0,211 Nabil 5,666 1,223 0,290 Omaima 6,475 5,543 1,325 Touria 1,033 1,047 0,532 Zakaria 11,147 1,627 0,754
D’après le tableau on peut voir que les individu (Nissrine , nahla ,
Insaff,zakaria) sont les plus contributives par rapport aux autre individu qui
varie entre une contribution faible et autre moyenne .
19 5 Résultats et Interprétations
Abdelmajid
Abdessadek
Ahmed Asmae
Ayoub
Aziza
Brahim FoFana Hicham
Issam
Imane
Ikram
Insaff
Jihane
Mohamed.M
Mohamed.J Nadia
Nahla
Nissrine Nabil
Omaima
Touria Zakaria
-4
-3
-2
-1
0
1
2
3
-5 -4 -3 -2 -1 0 1 2 3 4 5
F2
(3
1,5
8 %
)
F1 (42,93 %)
Observations (axes F1 et F2 : 74,52 %)
S-M
S-F
20 5 Résultats et Interprétations
Abdelmajid
Abdessadek
Ahmed Asmae
Ayoub
Aziza
Brahim FoFana Hicham
Issam
Imane
Ikram
Insaff
Jihane
Mohamed.M
Mohamed.J Nadia
Nahla
Nissrine Nabil
Omaima
Touria Zakaria
AN AD TEC
AP SI
TS
P
S-M
S-F
DD-DUT
DD-CPGE
-4
-3
-2
-1
0
1
2
3
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
F2 (
31
,58
%)
F1 (42,93 %)
Biplot (axes F1 et F2 : 74,52 %)
S-M S-F variables actives Variables supplémentaires
21 Conclusion
L’analyse en composantes principales est une excellente approche pour
explorer la structure des données en tenant compte de leur caractère multidimensionnel. Cette méthode est l’origine de la plupart des méthodes descriptives multidimensionnelles. Elle sert à mieux connaitre les données sur lesquelles on travaille en construisant de nouvelles variables artificielles et fournit des représentations graphiques qui permettent de visualiser des liaisons entre les variables.
22 Webographie
http://www.google.com/ http://www4.ac-nancy-metz.fr/ http://fr.wikipedia.org/wiki/ http://www.xlstat.com/fr/ http://www.math.univ-toulouse.fr/~besse/Wikistat/ http://iml.univ-mrs.fr/~reboul/