16
CLUSTERING FUSION DES DONNEES Nous souhaitons fusionner les données des patients atteints de Dyspnée ainsi que les polluants pour appliquer l’algorithme de clusturing. Pour se faire, il nous faut préparer les données. Tout d’abord, nous créons une nouvelle variable : newQuerryDyspnea. Comme nous voulons que toutes les données soient numériques pour le clusturing, il faut changer les données comme ci dessous avec un code. Code correspondance : Genre : F -> 0 H -> 1 Type de sortie : H -> 0.1 T -> 0.2 E -> 0.3 F -> 0.4 D -> 0.5 Stations : Aéroport de Nice : 001 Contes 2 : 002 Nice Arson : 003 Nice Ouest : 004 Nice promenade des anglais : 005 Peillon : 006 Ensuite, pour faciliter la suite, nous stockons ces données dans une nouvelles variables du nom de dys. Nous créons un id de taille 51 que nous lui affectons ensuite. Maintenant, on fusionne les données des patients et des polluants par cet identifiant.

CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

CLUSTERING FUSION DES DONNEES Nous souhaitons fusionner les données des patients atteints de Dyspnée ainsi que les polluants pour appliquer l’algorithme de clusturing. Pour se faire, il nous faut préparer les données. Tout d’abord, nous créons une nouvelle variable : newQuerryDyspnea. Comme nous voulons que toutes les données soient numériques pour le clusturing, il faut changer les données comme ci dessous avec un code.

Code correspondance : Genre : F -> 0

H -> 1 Type de sortie : H -> 0.1

T -> 0.2 E -> 0.3 F -> 0.4 D -> 0.5

Stations : Aéroport de Nice : 001 Contes 2 : 002 Nice Arson : 003 Nice Ouest : 004 Nice promenade des anglais : 005 Peillon : 006

Ensuite, pour faciliter la suite, nous stockons ces données dans une nouvelles variables du nom de dys. Nous créons un id de taille 51 que nous lui affectons ensuite. Maintenant, on fusionne les données des patients et des polluants par cet identifiant.

Page 2: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Les variables newPatientsData… sont les données fusionnées que nous allons à présent analyser.

Voilà un aperçu des données (ici : newPatientsDataNO) patients + polluant NO Tout d’abord, nous regardons quel est le nombre optimal de cluster pour le jeu de données newPatientsDataNo.

Page 3: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Nous pouvons voir que le nombre optimal de cluster semble être 6. Notre k sera donc égal à 4 pour la suite.

Ici, nous réalisons une classification hiérarchique. Il y a n éléments à classer (ici 51). Le but est de chercher les 2 éléments les plus proches au sens de la distance de d (distance de la matrice calculée). La fin arrive lorsqu’une seule classe regroupe la totalité des objets. L’algorithme nous sert ici à trouver la proximité entre individus par deux ou plusieurs variables qualitatives et de proximité puis de regrouper ces individus dans des classes homogènes. Nos données ici sont newPatientsDataNo (patients + polluant NO) d est la distance de la matrice calculée. fit est le dendogramme de ces données qu’on représente ensuite grâce à la fonction plot. Le dendogramme est un arbre indicé hiérarchique. Le résultat d'un regroupement est présenté comme une distance ou la similitude entre les lignes groupées ou les colonnes en fonction de la mesure de distance sélectionnée. Cela permet d’avoir des “grappes” des données en questions. Ici, de nos patients.

Page 4: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Les indices en dessous de l’arbre sont les numéros de lignes des données : cela correspond à chaque patient. Chaque carré rouge regroupe un cluster. Nous pouvons voir qu’il y en a 6 étant donné que dans notre script, nous avons mis k=6 dans la fonction hclust qui “coupe” les différents cluster.

Ces deux composantes expliquent 40.28% de la variabilité ponctuelle Voici nos 4 différents clusters. Chaque numéro correspond à une ligne du jeu de données, et donc à une personne. Ensuite, nous regardons dans nos données à quoi correspondent ces lignes afin de comprendre comment s’est fait le regroupement. Lorsque nous regardons nos données, nous pouvons voir que le premier cluster est-celui qui regroupe le plus de monde. Les personnes sont âgées et regroupées par code postal (06000) et la station (Nice Ouest) relevant le taux de pollution. Nous remarquons aussi que la variable du taux de pollution moyen relevé pour ce polluant est très élevée.

Page 5: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Le second cluster regroupe des personne d’âge moyen (environ 50 ans). Elles sont aussi regroupées par le code postal (06000) et la station (Arson et promenade des Anglais). Le taux de pollution relevé pour ce polluant est quant à lui plus bas. Nous pouvons aussi constater que pour chaque personne ayant une station attribuée, son type de sortie est semblable ( E/ H). Le troisième cluster regroupe quasiment que des femmes âgées. Elles sont regroupées par code postal (06390), station (Aéroport) et type de sortie (H). Il s’agit du cluster comptant le moins de personnes. Le dernier cluster regroupe des personnes en majorité féminines. Leur âge est moyen et sont aussi regroupées par leur code postal (06000/06100) et station (Nice Ouest). Nous reprenons les mêmes algorithmes pour les autres données. patients + polluant NO2

Le nombre optimal de cluster est 3

Page 6: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k
Page 7: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Ces deux composantes expliquent 41.53% de la variabilité ponctuelle Pour ce jeu de données, le premier cluster est le plus dense et compte le plus de patients. Ces derniers sont regroupés par code postal (06000), station (Nice Ouest), libellé gravité (3) et l’âge des patients est diversifié. Le second groupe comporte moins de patients. Ils sont âgés et raccordés aux stations promenade des Anglais et Arson. Leur code postal est 06100 / 06200 et leur type de sortie H. Le libellé gravité quand à lui est égal à 3. Nous pouvons aussi remarquer que le taux de pollution relevé pour ce polluant est élevé. Enfin, le dernier cluster regroupe quasiment que des femmes âgées. Les hommes présents ici sont plus jeunes. La station qui les regroupe est Aéroport. Le type de sortie est H, le libellé gravité est égal à 3 et le code postal des patients est 06390. Nous remarquons ici encore que le taux de pollution relevé pour ce polluant est élevé.

Page 8: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

patients + polluant NOX

Page 9: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Ces deux composantes expliquent 40.43% de la variabilité ponctuelle Ici, le premier cluster regroupe des personnes âgées, quasiment que féminines. Les hommes présents sont plus jeunes. Elles sont regroupées par le code postal (06000) et un libellé gravité quasiment toujours égal à 2. Nous remarquons aussi qu’elles sont regroupées par la station (Nice Ouest) et que leur type de sortie est H. Nous pouvons remarquer que le taux de pollution relevé pour ce polluant est élevé. Le second cluster est composé de personnes d’âge moyen diversifié. Leur code postal est 06100. Les stations les regroupant sont Arson et promenade des Anglais. Le dernier groupe est celui comptant le moins de patients. Il s’agit quasiment exclusivement de femmes âgées. Les hommes présents sont plus jeunes. Leur code postal est 06390. La station les regroupant est l’Aéroport et leur type de sortie est H.Le libellé gravité est quand à lui quasiment toujours égal à 3. Nous remarquons aussi que le taux de pollution relevé pour ce polluant est élevé.

Page 10: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

patients + polluant O3

Page 11: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Ces deux composantes expliquent 42.29% de la variabilité ponctuelle Le premier groupe de personnes est composé de personne d’âge moyen diversifié. Leur code postal est 06600 et la station relevant le polluant est celle de Nice Ouest. Le taux de pollution relevé pour ce polluant est moyen. Le second cluster est composé de personnes âgées ayant pour code postal 06100 / 06200. Les stations relevant le taux de pollution sont Arson et Promenade des Anglais. Le taux de pollution relevé pour ce polluant est moyen. Le dernier cluster est celui regroupant le moins de personnes. Il s’agit majoritairement de femmes âgées. Les quelques hommes sont plus jeunes. Leur code postal est 06390. La station qui leur est raccordée est l’aéroport et leur type de sortie correspondant est H.

Page 12: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

patients + polluant PM10

Page 13: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Ces deux composantes expliquent 42.98% de la variabilité ponctuelle Le premier cluster regroupe le plus de personnes. Ce regroupement est établi par le code postal (06000) et la station Nice Ouest. Les personnes ont un âge moyen et ce dernier est varié. Enfin, le taux de pollution relevé pour ce polluant est faible. Le second cluster regroupe des personnes âgées pour les stations Arson et promenade des Anglais. Leur code postal est 06100 / 06200. Le type de sortie est en majorité H. Le taux de pollution relevé pour ce polluant est faible. Le dernier groupe est celui comptant le moins de personnes. Il s’agit en majorité de personnes de sexe féminin et âgées. Les quelques hommes sont quant à eux plus jeunes. Le code postal est 06390. La station est aéroport et le type de sortie est H. Le niveau de pollution relevé pour ce polluant est faible.

Page 14: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

patients + polluant PM25

Page 15: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

Ces deux composantes expliquent 42.96% de la variabilité ponctuelle Le premier cluster est celui regroupant le plus de personnes. Leur âge est moyen et divers et leur code postal est 06000. La station relevant le taux de pollution est Nice Ouest et le type de sortie est H / T. Le taux de pollution relevé pour ce polluant est bas. Le second cluster regroupe des personnes âgées ayant un type de sortie correspondant à H. Leur code postal est 06100 / 06200 et les stations relevant le taux de pollution sont Arson / Promenade des Anglais. Enfin, le dernier groupe compte le moins de personnes. Il s’agit de personnes âgées quasiment que féminines. Les quelques hommes sont plus jeunes. La station relevant le taux de pollution est aéroport et leur type de sortie est H. Nous constatons que le regroupement se fait aussi par un code postal étant 06390. Le taux de pollution relevé pour ce polluant est quant à lui bas. Conclusion : Ce que certaines données ont en commun se traduit par une corrélation. Nous pouvons donc voir qu’il y a ici un lien entre la station et le diagnostic du patient selon le polluant. L’âge et son genre sont aussi des critères importants à prendre en compte lors de l’analyse comme le montre ici le clusturing.Notamment, nous pouvons voir que pour toutes les personnes présentes près de la station Nice Ouest ont un type de sortie correspondant à H. Nous pouvons voir que tout ce que les données avaient en commun (patients âgées, code postal, stations, type de sortie similaires) montrent une corrélation entre la pollution et les patients atteints de dyspnée. En revanche, il est dommage que nous n’ayons pas

Page 16: CL US T E RI NGoftalmolog30.ru/upload/iblock/fdd/fdd482a76b2f2ca4e20c80... · 2019-05-17 · Nous p ouvons v oir q ue l e n ombre o ptimal d e c luster s emble ê tre 6 . N otre k

d’autres informations personnelles sur le patients notamment relatives à son style de vie (fumeur, sportif, poids, cardiaque …) afin d’avoir plus d’informations sur les personnes atteintes par la pollution. Cela pourrait nous donner des clusters différents et plus précis. RAPPEL : Le clustering est de la classification non supervisée. Les distances expriment une similarité (barres du dendogramme sont ces distances) . Le but du clustering est de rapprocher les points représentatifs vers le centre par un facteur . Plusieurs points représentatifs formentα la figure du cluster. Les coordonnées x-y des graphiques des clustering sont en fonction des composantes principales qui sont des combinaisons linéaires des dimensions originales. Cela peut être difficile à interpréter.