39
Master Géographie de la Santé Master Géographie de la Santé Paris X. Nanterre Paris X. Nanterre Laboratoire de Cartographie Laboratoire de Cartographie Appliquée Appliquée IRD - Bondy IRD - Bondy Formation SIG-Sant Formation SIG-Sant é é Rappels sur les discrétisations Rappels sur les discrétisations Florent DEMORAES Florent DEMORAES Marc SOURIS Marc SOURIS Tania SERRANO Tania SERRANO (d’ apr aprè s Estelle Ployon - Universit s Estelle Ployon - Université de Savoie de Savoie)

Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Embed Size (px)

Citation preview

Page 1: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Master Géographie de la SantéMaster Géographie de la Santé

Paris X. NanterreParis X. Nanterre

Laboratoire de Cartographie Appliquée Laboratoire de Cartographie Appliquée

IRD - BondyIRD - Bondy

Formation SIG-SantFormation SIG-Santéé

Rappels sur les discrétisationsRappels sur les discrétisations

Florent DEMORAESFlorent DEMORAES

Marc SOURIS Marc SOURIS

Tania SERRANOTania SERRANO((dd’’apraprèès Estelle Ployon - Universits Estelle Ployon - Universitéé de de SavoieSavoie))

Page 2: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

SommaireSommaire

► La discrétisation des données : définition et règles de baseLa discrétisation des données : définition et règles de base

► Les grandes familles de distributionsLes grandes familles de distributions

► Quelques méthodes de discrétisationQuelques méthodes de discrétisation Écart à la moyenneÉcart à la moyenne Classes d’égale amplitudeClasses d’égale amplitude Seuils naturelsSeuils naturels QuantilesQuantiles Progression arithmétiqueProgression arithmétique Progression géométriqueProgression géométrique Moyennes emboîtéesMoyennes emboîtées RécapitulatifRécapitulatif

► Les méthodes de discrétisation disponibles dans Les méthodes de discrétisation disponibles dans SavaneSavane

Page 3: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

La discrétisation des données : La discrétisation des données : définition et règles de basedéfinition et règles de base

Page 4: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

La discrétisation des donnéesLa discrétisation des données

► On appelle discrétisation le découpage en classes (ou groupe de valeurs) On appelle discrétisation le découpage en classes (ou groupe de valeurs) d’une série de variables quantitatives ou qualitatives en vue de sa d’une série de variables quantitatives ou qualitatives en vue de sa représentation graphique ou cartographique. représentation graphique ou cartographique.

► La discrétisation simplifie l’information en regroupant dans des classes La discrétisation simplifie l’information en regroupant dans des classes différentes les objets géographiques qui présentent les mêmes différentes les objets géographiques qui présentent les mêmes caractéristiques .caractéristiques .

► Elle doit conserver le mieux possible l’information contenue dans la série Elle doit conserver le mieux possible l’information contenue dans la série statistique, tout en permettant de la communiquer le mieux possible.statistique, tout en permettant de la communiquer le mieux possible.

► Cette information est liée à la forme de la distribution initiale.Cette information est liée à la forme de la distribution initiale.

► Le choix d’une méthode de discrétisation et du nombre de classes est Le choix d’une méthode de discrétisation et du nombre de classes est guidé par différentes contraintes.guidé par différentes contraintes.

La discrétisation des donnéesLa discrétisation des données

Page 5: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Des contraintes logiques :Des contraintes logiques :

Liées au type de distribution et au degré de généralisation souhaité.Liées au type de distribution et au degré de généralisation souhaité.

Des contraintes techniques : Des contraintes techniques :

Liées à la méthode de discrétisation (certaines imposent un nombre Liées à la méthode de discrétisation (certaines imposent un nombre pair ou impair de classes).pair ou impair de classes).

Des contraintes visuelles :Des contraintes visuelles :

Nombre optimal de paliers pour que l’œil puisse les distinguer.Nombre optimal de paliers pour que l’œil puisse les distinguer.

La discrétisation des donnéesLa discrétisation des données

Contraintes liées à la discrétisationContraintes liées à la discrétisation

Page 6: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Règles de base Règles de base

► Les classes doivent couvrir l’ensemble de la distribution, elles Les classes doivent couvrir l’ensemble de la distribution, elles doivent être contiguës (jointives)doivent être contiguës (jointives)

► Une valeur ne doit appartenir qu’à une classe et une seuleUne valeur ne doit appartenir qu’à une classe et une seule

► Les classes ne doivent pas être videsLes classes ne doivent pas être vides

► Les valeurs limites doivent être précises et rapidement Les valeurs limites doivent être précises et rapidement appréhendablesappréhendables

► Éviter de placer dans deux classes distinctes des valeurs non Éviter de placer dans deux classes distinctes des valeurs non significativement différentessignificativement différentes

► Ne pas définir des seuils avec un nombre de décimales supérieur Ne pas définir des seuils avec un nombre de décimales supérieur à celui de la précision des donnéesà celui de la précision des données

La discrétisation des donnéesLa discrétisation des données

Page 7: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Connaître parfaitement le Connaître parfaitement le but de la discrétisationbut de la discrétisation. Représentation . Représentation graphique – cartographique? En vue d’une comparaison ?graphique – cartographique? En vue d’une comparaison ?

Connaître parfaitement les caractéristiques de la variable à Connaître parfaitement les caractéristiques de la variable à discrétiser. discrétiser. De quelle type de distribution s’agit-il ?De quelle type de distribution s’agit-il ?

Cela peut aider à trouver les limites des groupes qui traduiront au Cela peut aider à trouver les limites des groupes qui traduiront au mieux les caractéristiques de la variable.mieux les caractéristiques de la variable.

Avant toute discrétisationAvant toute discrétisation

La discrétisation des donnéesLa discrétisation des données

Page 8: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Les grandes familles de distributionsLes grandes familles de distributions

Page 9: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Elles sont caractérisées par le fait que le plus grand nombre d’individus se Elles sont caractérisées par le fait que le plus grand nombre d’individus se trouve dans les classes centrales, ce nombre s'amenuisant trouve dans les classes centrales, ce nombre s'amenuisant progressivement de part et d'autre de la valeur moyenne. La moyenne et la progressivement de part et d'autre de la valeur moyenne. La moyenne et la médiane sont identiques.médiane sont identiques.

En géographie, les phénomènes suivant une loi normale sont rares.En géographie, les phénomènes suivant une loi normale sont rares.

Les distributions normalesLes distributions normales

Les grandes familles de distributionsLes grandes familles de distributions

Page 10: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Elles traduisent une concentration des individus, plus ou moins accentuée, Elles traduisent une concentration des individus, plus ou moins accentuée, vers les petites valeurs ou les grandes valeurs selon les cas. vers les petites valeurs ou les grandes valeurs selon les cas.

Elles traduisent une augmentation ou une diminution exponentielles des Elles traduisent une augmentation ou une diminution exponentielles des indiviudus (très forte représentation des fortes ou faibles valeurs). Il s’agit indiviudus (très forte représentation des fortes ou faibles valeurs). Il s’agit de distributions assez fréquentes.de distributions assez fréquentes.

Les distributions asymétriques :Les distributions asymétriques :

Les grandes familles de distributionsLes grandes familles de distributions

Les distributions exponentielles et logarithmiques :Les distributions exponentielles et logarithmiques :

Page 11: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Elles correspondent à des distributions où la variable est en fait composée de Elles correspondent à des distributions où la variable est en fait composée de sous - populations ayant chacune son ordre de grandeur et sa dispersion sous - populations ayant chacune son ordre de grandeur et sa dispersion propre. Dans ce cas, la plupart des paramètres statistiques (moyenne, écart propre. Dans ce cas, la plupart des paramètres statistiques (moyenne, écart type…) sont sans signification et sans utilité; seuls des graphiques permettent type…) sont sans signification et sans utilité; seuls des graphiques permettent une analyse correcte.une analyse correcte.

Les distributions bimodales et plurimodales :Les distributions bimodales et plurimodales :

Les grandes familles de distributionsLes grandes familles de distributions

Page 12: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Elles sont caractérisées par le fait que toutes les valeurs possibles de la Elles sont caractérisées par le fait que toutes les valeurs possibles de la variable ont des fréquences égales. Distributions assez rares.variable ont des fréquences égales. Distributions assez rares.

Elles sont caractérisées par le fait que les valeurs moyennes sont sous Elles sont caractérisées par le fait que les valeurs moyennes sont sous représentées par rapport aux valeurs faibles et élevées. Distributions assez représentées par rapport aux valeurs faibles et élevées. Distributions assez rares.rares.

Les distributions uniformes :Les distributions uniformes :

Les distributions en forme de U :Les distributions en forme de U :

Les grandes familles de distributionsLes grandes familles de distributions

Page 13: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Quelques méthodes de discrétisationQuelques méthodes de discrétisation

Page 14: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

1. Discrétisation selon l’écart à la moyenne1. Discrétisation selon l’écart à la moyenne

Cette méthode est caractérisée par le fait que toutes les classes ont une Cette méthode est caractérisée par le fait que toutes les classes ont une même étendue, égale à l'écart-type (ou à un multiple de l’écart-type), sauf les même étendue, égale à l'écart-type (ou à un multiple de l’écart-type), sauf les classes extrêmes.classes extrêmes.

Si le nombre de classes est impair, la moyenne de la série se trouvera à Si le nombre de classes est impair, la moyenne de la série se trouvera à cheval sur la classe centrale et si le nombre de classes est pair, la moyenne cheval sur la classe centrale et si le nombre de classes est pair, la moyenne correspondra à une borne de classe. correspondra à une borne de classe.

Cette méthode de discrétisation s’applique en principe aux distributions Cette méthode de discrétisation s’applique en principe aux distributions normales ou proches de la normalité.normales ou proches de la normalité.

Méthodes de discrétisationMéthodes de discrétisation

Moyenne à cheval Moyenne à cheval sur la classe sur la classe centralecentrale

Étendue des Étendue des classes égale à classes égale à l’écart type. Ex: l’écart type. Ex: 2.29+0.32=2.612.29+0.32=2.61

Page 15: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

1. Discrétisation selon l’écart à la moyenne1. Discrétisation selon l’écart à la moyenne

Elle permet de réaliser des cartes qui transmettent la forme statistique des Elle permet de réaliser des cartes qui transmettent la forme statistique des distributions normales. Sur une carte en aplats, la couleur dominante distributions normales. Sur une carte en aplats, la couleur dominante correspondra aux valeurs moyennes et les valeurs extrêmes seront sur la carte correspondra aux valeurs moyennes et les valeurs extrêmes seront sur la carte moins fréquentes, avec de couleurs claires (valeurs faibles) et sombres moins fréquentes, avec de couleurs claires (valeurs faibles) et sombres (valeurs fortes)(valeurs fortes)

Méthode intéressante pour comparer la position relative des unités Méthode intéressante pour comparer la position relative des unités géographiques entre plusieurs séries statistiques ayant des ordres de grandeur géographiques entre plusieurs séries statistiques ayant des ordres de grandeur (moyenne) ou des dispersions (écart type) différents.(moyenne) ou des dispersions (écart type) différents.

Méthodes de discrétisationMéthodes de discrétisation

Distributions normales avec la même moyenne Distributions normales avec la même moyenne mais des dispersions différentes (écart type)mais des dispersions différentes (écart type)

Distributions normales ayant la même dispersion Distributions normales ayant la même dispersion mais des ordres de grandeurs (moyennes) mais des ordres de grandeurs (moyennes)

différentsdifférents

Page 16: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisationMéthodes de discrétisation

1. Discrétisation selon l’écart à la moyenne1. Discrétisation selon l’écart à la moyenne

Procédure :Procédure :

► Calcul de la moyenne et de l'écart typeCalcul de la moyenne et de l'écart type

► Calcul des limites : deux solutionsCalcul des limites : deux solutions

1er cas : le nombre de classes est impair (5 ou 7). La classe centrale 1er cas : le nombre de classes est impair (5 ou 7). La classe centrale est à cheval sur la valeur moyenneest à cheval sur la valeur moyenne

2ème cas : le nombre de classes est pair. La classe centrale est borne 2ème cas : le nombre de classes est pair. La classe centrale est borne de classede classe

Avantages et inconvénients :Avantages et inconvénients :

Permet les comparaisons, indépendamment des problèmes liés à la Permet les comparaisons, indépendamment des problèmes liés à la taille des variables. taille des variables.

Il est recommandé d’indiquer sur la carte les valeurs de la moyenne et l’écart Il est recommandé d’indiquer sur la carte les valeurs de la moyenne et l’écart type pour restituer la forme de la distribution et la position relatives des unités type pour restituer la forme de la distribution et la position relatives des unités géographiques.géographiques.

Page 17: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

2. Discrétisation en classes d’égale amplitude2. Discrétisation en classes d’égale amplitude

Dans cette méthode, les intervalles de classe sont égaux. Dans cette méthode, les intervalles de classe sont égaux.

Utilisée dans le cas d’une distribution uniforme (cas rare en géographie) ou Utilisée dans le cas d’une distribution uniforme (cas rare en géographie) ou normale.normale.

Dans le cas des distributions uniformes, toutes les valeurs de la série ont la Dans le cas des distributions uniformes, toutes les valeurs de la série ont la même fréquence (ou probabilité) d’apparition. Dans les distributions normales, les même fréquence (ou probabilité) d’apparition. Dans les distributions normales, les valeurs moyennes apparaîtront sur la carte avec une plus grande fréquence, valeurs moyennes apparaîtront sur la carte avec une plus grande fréquence, tandis que les valeurs faibles et les valeurs fortes, apparaîtront dans un plus petit tandis que les valeurs faibles et les valeurs fortes, apparaîtront dans un plus petit nombre d’unités géographiques. nombre d’unités géographiques.

Méthodes de discrétisationMéthodes de discrétisation

209 unités géographiques dont la valeur 209 unités géographiques dont la valeur est autour de la moyenne. Seul 7 unités est autour de la moyenne. Seul 7 unités géographiques pour les plus faibles géographiques pour les plus faibles valeurs et 4 pour les plus fortes valeurs.valeurs et 4 pour les plus fortes valeurs.

Discrétisation en classes d’égale amplitude pour une distribution proche de la normaleDiscrétisation en classes d’égale amplitude pour une distribution proche de la normale

Page 18: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

2. Discrétisation en classes d’égale amplitude2. Discrétisation en classes d’égale amplitude

ProcédureProcédure

► Calcul: (étendue de la série / nombre de classes) = Calcul: (étendue de la série / nombre de classes) =

(max-min) / k= amplitude de chaque classe(max-min) / k= amplitude de chaque classe

Avantages et inconvénients :Avantages et inconvénients :

Méthode simple, d’exécution facileMéthode simple, d’exécution facile

Satisfaisante si la distribution n’est pas trop asymétriqueSatisfaisante si la distribution n’est pas trop asymétrique

Méthode ne permettant pas les comparaisons car l’étendue de la variable Méthode ne permettant pas les comparaisons car l’étendue de la variable est spécifique à chaque série de donnéesest spécifique à chaque série de données

Inconvénient : ne se réfère pas aux valeurs caractéristiques de la Inconvénient : ne se réfère pas aux valeurs caractéristiques de la distributiondistribution

Méthodes de discrétisationMéthodes de discrétisation

Page 19: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

3. Discrétisation selon les seuils naturels3. Discrétisation selon les seuils naturels

Cette méthode permet de prendre en compte les discontinuités de la série. Cette méthode permet de prendre en compte les discontinuités de la série. Elle est aElle est adaptée aux distributions plurimodales et à toute distribution daptée aux distributions plurimodales et à toute distribution présentant des discontinuités quelque soit leur forme générale.présentant des discontinuités quelque soit leur forme générale.

Méthodes de discrétisationMéthodes de discrétisation

%

EffectifsPourcentage de logements en promiscuité par Districts. Santiago (Chili).2002

Page 20: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Procédure :Procédure :

► Construire l'histogramme des valeurs, le diagramme de fréquence ou encore Construire l'histogramme des valeurs, le diagramme de fréquence ou encore la courbe des fréquences cumulées triées croissantes.la courbe des fréquences cumulées triées croissantes.

► Déterminer les limites de classes en fonction des discontinuités apparentes Déterminer les limites de classes en fonction des discontinuités apparentes sur les graphiques (aux endroits où se situent les plus grands intervalles entre sur les graphiques (aux endroits où se situent les plus grands intervalles entre deux valeurs successives). Des procédures automatiques existent dans tous les deux valeurs successives). Des procédures automatiques existent dans tous les SIG.SIG.

Avantages et inconvénients :Avantages et inconvénients : Elle permet de tenir compte des discontinuités observablesElle permet de tenir compte des discontinuités observables Elle n'est justifiable d'ailleurs que s'il existe des discontinuités.Elle n'est justifiable d'ailleurs que s'il existe des discontinuités. Méthode très liée à la finesse du graphique initial et donc au nombre de Méthode très liée à la finesse du graphique initial et donc au nombre de classes du diagramme de base utilisé.classes du diagramme de base utilisé. Cette méthode n'aboutit pas nécessairement aux mêmes limites selon le Cette méthode n'aboutit pas nécessairement aux mêmes limites selon le réalisateur (ou selon le logiciel utilisé!).réalisateur (ou selon le logiciel utilisé!). Cette méthode ne permet pas les comparaisons directes.Cette méthode ne permet pas les comparaisons directes.

3. Discrétisation selon les seuils naturels3. Discrétisation selon les seuils naturels

Méthodes de discrétisationMéthodes de discrétisation

Page 21: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

3. Discrétisation selon les seuils observés sur le diagramme des 3. Discrétisation selon les seuils observés sur le diagramme des fréquences cumulées croissantesfréquences cumulées croissantes

Méthodes de discrétisationMéthodes de discrétisation

distribution classée de l'indice de fécondité dans les pays d'Amérique Latine (1992)

0

1

2

3

4

5

6

Cu

ba

Uru

gu

ay

Ch

ili

Gu

yan

a

Co

lom

bie

Su

rin

am

Arg

enti

ne

Bré

sil

Pan

ama

Co

sta

Ric

a

Rep

. Do

min

icai

ne

Mex

iqu

e

Ven

ezu

ela

Per

ou

Eq

uat

eur

Sal

vad

or

Bél

ize

Par

agu

ay

Bo

livi

e

Haï

ti

Ho

nd

ura

s

Nic

arag

ua

Gu

atem

ala

Ind

ice

de

co

nd

ité

Page 22: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

4. Discrétisation selon les quantiles4. Discrétisation selon les quantiles

Cette méthode retient des effectifs égaux dans chaque classe. Cette méthode retient des effectifs égaux dans chaque classe.

Elle permet de repérer la position de chacune des unités géographiques dans la Elle permet de repérer la position de chacune des unités géographiques dans la distribution qui est représentée. Il est donc possible d’utiliser cette méthode pour distribution qui est représentée. Il est donc possible d’utiliser cette méthode pour comparer plusieurs cartes.comparer plusieurs cartes.

Elle peut être employée avec n’importe quelle forme de distribution mais elle n’est Elle peut être employée avec n’importe quelle forme de distribution mais elle n’est pas toujours optimale dans la mesure où l’information relative à la forme statistique pas toujours optimale dans la mesure où l’information relative à la forme statistique de la distribution est perdue.de la distribution est perdue.

Méthodes de discrétisationMéthodes de discrétisation

Si la série comporte des individus Si la série comporte des individus ayant des valeurs égales, de fortes ayant des valeurs égales, de fortes discontinuités ou des valeurs discontinuités ou des valeurs extrêmes, il est conseillé de ne pas extrêmes, il est conseillé de ne pas l’utiliser.l’utiliser.

Exemple: Surfaces bâties, 2000Exemple: Surfaces bâties, 2000

Source: www.statregio-francosuisse.net

Page 23: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Procédure :Procédure :

► Premier calcul:Premier calcul: n= (effectif total N) / ( nb de classes) n= (effectif total N) / ( nb de classes) n= nb d'individus par classe.n= nb d'individus par classe.

► Deuxième calcul: calcul des limites de classes. Deuxième calcul: calcul des limites de classes.

► On détermine les limites de classes en comptant tout d’abord dans la On détermine les limites de classes en comptant tout d’abord dans la distribution ordonnée croissante le nombre d'individus défini pour chaque classe. distribution ordonnée croissante le nombre d'individus défini pour chaque classe. La limite correspond à une valeur que l’on choisit entre la valeur prise par le La limite correspond à une valeur que l’on choisit entre la valeur prise par le dernier individu de la classe dernier individu de la classe cc et la valeur prise par le premier individu de la et la valeur prise par le premier individu de la classe suivante classe suivante c+1c+1..

Avantages et inconvénients :Avantages et inconvénients : Si la série statistique comprend des ex-aequo, il n'est pas toujours possible Si la série statistique comprend des ex-aequo, il n'est pas toujours possible d'obtenir le même nombre d’individus dans chaque classe.d'obtenir le même nombre d’individus dans chaque classe. S’il existe des discontinuités dans la distribution, il est malaisé de choisir S’il existe des discontinuités dans la distribution, il est malaisé de choisir les valeurs limites.les valeurs limites. Cette méthode ignore les particularités de la distribution (les seuils).Cette méthode ignore les particularités de la distribution (les seuils). Cette méthode est utile pour comparer. Mais comparaison d'ordre de Cette méthode est utile pour comparer. Mais comparaison d'ordre de grandeurs et non de valeurs.grandeurs et non de valeurs.

Méthodes de discrétisationMéthodes de discrétisation

4. Discrétisation selon les quantiles4. Discrétisation selon les quantiles

Page 24: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisationMéthodes de discrétisation

5. Discrétisation selon une progression arithmétique5. Discrétisation selon une progression arithmétique

Dans cette méthode, l’amplitude des classes augmente en fonction d’une Dans cette méthode, l’amplitude des classes augmente en fonction d’une progression arithmétique. Cette méthode est bien adaptée aux distributions progression arithmétique. Cette méthode est bien adaptée aux distributions asymétriques caractérisées par une forte représentation des faibles valeurs asymétriques caractérisées par une forte représentation des faibles valeurs et et aux distributions exponentielle et logarithmique décroissantesaux distributions exponentielle et logarithmique décroissantes..

L’objectif étant de créer plus de classes pour les faibles valeurs afin de mieux les L’objectif étant de créer plus de classes pour les faibles valeurs afin de mieux les différencier, et de regrouper les fortes valeurs (individus moins nombreux) dans différencier, et de regrouper les fortes valeurs (individus moins nombreux) dans des classes de plus grande étendue.des classes de plus grande étendue.

Exemple: Nombre d’appartements par District. Santiago (Chili). 2002 Exemple: Nombre d’appartements par District. Santiago (Chili). 2002

1+ 569.4 = 5701+ 569.4 = 570570 + 2(569.4) =1 709570 + 2(569.4) =1 7091 709 + 3(569.4) = 3 4171 709 + 3(569.4) = 3 417……..8 543 + 6(569.4) =11 9608 543 + 6(569.4) =11 960

Page 25: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Procédure:Procédure:

► Calcul de la raison RCalcul de la raison Ravec avec k,k, le nombre de classes le nombre de classes

► Calcul des limites de classes :Calcul des limites de classes :

Inconvénients:Inconvénients:

Cette méthode peut aboutir à définir des classes sans individu.Cette méthode peut aboutir à définir des classes sans individu.

kiR

......21

minmax

[;[

..........

[2;[

[;[

11

11

00

kRee

Ree

Ree

kk

Méthodes de discrétisationMéthodes de discrétisation

5. Discrétisation selon une progression arithmétique5. Discrétisation selon une progression arithmétique

Page 26: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisationMéthodes de discrétisation

6. Discrétisation selon une progression géométrique6. Discrétisation selon une progression géométrique

Dans cette méthode, l’amplitudes des classes augmente rapidement en Dans cette méthode, l’amplitudes des classes augmente rapidement en fonction d’une progression géométrique.fonction d’une progression géométrique.

Méthode utile pour les distributions asymétriques qui comportent une très Méthode utile pour les distributions asymétriques qui comportent une très forte représentation des faibles valeurs et pour les distributions exponentielle forte représentation des faibles valeurs et pour les distributions exponentielle et logarithmique décroissantes. Il s’agit de distributions souvent rencontrées et logarithmique décroissantes. Il s’agit de distributions souvent rencontrées en géographie.en géographie.

Page 27: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Procédure:Procédure:

► Calcul de la raison RCalcul de la raison Ravec avec k,k, le nombre de classes le nombre de classeset n, l’effectif totalet n, l’effectif total

► Calcul des limites de classes :Calcul des limites de classes :

Avantages et inconvénients :Avantages et inconvénients :

Cette méthode est bien adaptée aux distributions caractérisées par une Cette méthode est bien adaptée aux distributions caractérisées par une très forte représentation des faibles valeurs.très forte représentation des faibles valeurs. Mais cette méthode peut aboutir à définir des classes sans individu.Mais cette méthode peut aboutir à définir des classes sans individu. Cette méthode ne s’applique qu’aux distributions dont la valeur minimale Cette méthode ne s’applique qu’aux distributions dont la valeur minimale est supérieure à zéro.est supérieure à zéro.

k

xxR n 11010

10

logloglog

[;[

..........

[2;[

[;[

11

11

00

kRee

Ree

Ree

kk

Méthodes de discrétisationMéthodes de discrétisation

6. Discrétisation selon une progression géométrique6. Discrétisation selon une progression géométrique

Page 28: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisationMéthodes de discrétisation

7. Discrétisation selon les moyennes emboîtées7. Discrétisation selon les moyennes emboîtées

La discrétisation par les moyennes emboîtées consiste à découper la variable La discrétisation par les moyennes emboîtées consiste à découper la variable en utilisant des moyennes hiérarchiques comme limites de classes.en utilisant des moyennes hiérarchiques comme limites de classes.

Cette méthode est fortement liée à la distribution de la variable. Elle peut Cette méthode est fortement liée à la distribution de la variable. Elle peut s’appliquer à tout type de distribution sauf aux distributions trop dissymétriques.s’appliquer à tout type de distribution sauf aux distributions trop dissymétriques.

Page 29: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Procédure:Procédure:

► Calcul de la moyenne de 1er ordre. Calcul de la moyenne de 1er ordre. Cette valeur sert à diviser la distributionCette valeur sert à diviser la distributionen deux sous-groupes.en deux sous-groupes.

► Calcul de la moyenne de chaque sous-groupe (moyenne de 2ème ordre). Calcul de la moyenne de chaque sous-groupe (moyenne de 2ème ordre). Ces Ces valeurs servent à fixer les bornes des classes et à obtenir 4 ensembles.valeurs servent à fixer les bornes des classes et à obtenir 4 ensembles.

► Éventuellement, calcul de la moyenne de 3ème ordre Éventuellement, calcul de la moyenne de 3ème ordre (pour obtenir 8 classes).(pour obtenir 8 classes).

Avantages et inconvénients :Avantages et inconvénients :

Cette méthode est facile à mettre en œuvre et facile à appréhender car elle Cette méthode est facile à mettre en œuvre et facile à appréhender car elle repose sur une notion simple qu’est le moyenne.repose sur une notion simple qu’est le moyenne. Cependant, elle contraint à définir un nombre de classes qui est pair Cependant, elle contraint à définir un nombre de classes qui est pair (multiple de deux)(multiple de deux) Elle peut Elle peut produire des classes vides ou très hétérogènes, dans le cas de produire des classes vides ou très hétérogènes, dans le cas de distributions très dissymétriques.distributions très dissymétriques.

Méthodes de discrétisationMéthodes de discrétisation

7. Discrétisation selon les moyennes emboîtées7. Discrétisation selon les moyennes emboîtées

Page 30: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

RécapitulatifRécapitulatif

METHODMETHODEE

DEFINITIONDEFINITION CALCULCALCUL REMARQUESREMARQUES TYPE DE TYPE DE DISTRIBUTIONSDISTRIBUTIONS

L’écart à L’écart à la la moyennmoyennee

Toutes les Toutes les classes ont classes ont une même une même étendue étendue égale à égale à l’écart type, l’écart type, sauf les sauf les classes classes extrêmesextrêmes

A partir de la A partir de la moyenne et moyenne et de l'écart de l'écart type type

Si le nombre de classes est Si le nombre de classes est impairimpair, la classe , la classe centrale est centrale est à cheval sur la valeur à cheval sur la valeur moyennemoyenne. .

Si le nombre de classes est Si le nombre de classes est pairpair, la , la classe centraleclasse centrale est est borne de classe. borne de classe.

Intérêt :Intérêt : se repérer par se repérer par rapport à la moyenne; rapport à la moyenne; mettre en valeur les mettre en valeur les extrêmes; comparer les extrêmes; comparer les cartes. cartes.

Séries Séries normale normale (en (en forme de courbe de forme de courbe de Gauss, "en cloche" Gauss, "en cloche" avec une avec une concentration des concentration des données autour de données autour de la moyenne) la moyenne) ou ou peu dissymétrique peu dissymétrique

Égale Égale amplitudamplitudee

Les Les intervalles de intervalles de classe sont classe sont égaux égaux (intervalles (intervalles constants) constants)

( Valeur ( Valeur maxi - maxi - valeur mini ) valeur mini ) / Nombre de / Nombre de classes classes

Cette méthode, simple, Cette méthode, simple, facile à interpréter est facile à interpréter est peu peu utilisée car elle ne convient utilisée car elle ne convient pas si la distribution des pas si la distribution des valeurs est trop valeurs est trop dissymétriquedissymétrique : les classes : les classes pourraient être très pourraient être très inégales (certaines vides!). inégales (certaines vides!). Pas de comparaison Pas de comparaison possible. possible.

Série Série uniformeuniformeSérie Série normale normale (en (en forme de courbe de forme de courbe de Gauss, "en cloche" Gauss, "en cloche" avec une avec une concentration de concentration de données autour de données autour de la moyenne) la moyenne)

Page 31: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

RécapitulatifRécapitulatif

METHODMETHODEE

DEFINITIONDEFINITION CALCULCALCUL REMARQUESREMARQUES TYPE DE TYPE DE DISTRIBUTIONSDISTRIBUTIONS

Seuils Seuils naturelsnaturels

Seuils Seuils observésobservés

Par observation Par observation d’un d’un histogramme histogramme de valeurs ou de valeurs ou de fréquences de fréquences cumulées triées cumulées triées croissantescroissantes

Prend en compte les Prend en compte les discontinuités discontinuités ou ou «ruptures» de la série.«ruptures» de la série.

Cartes difficilement Cartes difficilement comparablescomparables

Toute série présentant Toute série présentant des « pics » et des des « pics » et des discontinuités ;discontinuités ;

Distribution Distribution plurimodaleplurimodale

QuantilesQuantiles Chaque Chaque classe a le classe a le même même nombre nombre d’individusd’individus

Effectif total / Effectif total / Nombre de Nombre de classesclasses

Pour définir les Pour définir les bornes de bornes de classe, on classe, on compte le compte le nombre nombre d’individus d’individus défini dans la défini dans la distribution distribution ordonnée ordonnée croissante croissante

Ne tient pas compte de Ne tient pas compte de la distribution et des la distribution et des valeurs exceptionnelles.valeurs exceptionnelles. Certaines limites de Certaines limites de classes peuvent êtres classes peuvent êtres discutables (ex: des discutables (ex: des valeurs très proches valeurs très proches peuvent être dans des peuvent être dans des classes différentes)classes différentes)

Représentation Représentation cartographique cartographique équilibrée, lisibleéquilibrée, lisible et et permet lespermet les comparaisonscomparaisons mais… mais… peut êtrepeut être trompeuse! trompeuse!

Série uniformeSérie uniforme (ce qui (ce qui est rare !)est rare !)

Toute autre série, Toute autre série, quelque soit leur quelque soit leur forme, du moment forme, du moment qu’elles ne présentent qu’elles ne présentent pas trop de pas trop de discontinuités.discontinuités.

A éviter si :A éviter si :

Valeurs extrêmes Valeurs extrêmes

Trop grand nombre de Trop grand nombre de valeurs égalevaleurs égale

Page 32: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

RécapitulatifRécapitulatifMETHODEMETHODE DEFINITIONDEFINITION CALCULCALCUL REMARQUESREMARQUES TYPE DE TYPE DE

DISTRIBUTIONSDISTRIBUTIONS

Progression Progression arithmétiquarithmétiquee

L’amplitude L’amplitude des des intervalles intervalles augmente augmente en fonction en fonction d’une d’une progression progression arithmétiquarithmétique e

Calcul de la Calcul de la Raison. Raison.

Calcul des limites Calcul des limites de de

classes :classes :

[A0 ;A0+R][A0 ;A0+R]

[A1 ;A1+2R][A1 ;A1+2R]

[A2 ;A2+3R]… [A2 ;A2+3R]…

Intérêt:Intérêt: mieux différencier les mieux différencier les individus présentant de faiblesindividus présentant de faibles valeursvaleurs..

Les individus avec de fortes Les individus avec de fortes valeurs se retrouvent regroupés valeurs se retrouvent regroupés dans la dernière classe. dans la dernière classe. Peut Peut aboutir à définir des classes sans aboutir à définir des classes sans individu ! individu !

Série Série asymétriqueasymétrique vers la gauche et vers la gauche et séries séries logarithmiquelogarithmique et et exponentielleexponentielle décroissantesdécroissantes

Progression Progression géométriqugéométriquee

L’amplitude L’amplitude des des intervalles intervalles augmente augmente en fonction en fonction d’une d’une progression progression géométriqugéométrique e

Idem avec un Idem avec un mode de calcul mode de calcul différent différent

IdemIdem

Mais améliore la différenciation Mais améliore la différenciation des individus présentant de des individus présentant de faibles valeurs.faibles valeurs.

Ne s’applique qu’aux distributions Ne s’applique qu’aux distributions dont la valeur minimale est dont la valeur minimale est supérieure à zérosupérieure à zéro

IdemIdem

Série Série asymétriqueasymétrique vers la gauche et vers la gauche et séries séries logarithmiquelogarithmique et et exponentielleexponentielle décroissantesdécroissantes

Moyennes Moyennes emboîtéesemboîtées

Utilise des Utilise des moyennes moyennes successives successives comme comme limites de limites de classes classes

Calcul de la Calcul de la moyenne de 1er moyenne de 1er ordre (la ordre (la distribution est distribution est divisée en deux divisée en deux sous-groupes). sous-groupes). Calcul de la Calcul de la moyenne de moyenne de chaque sous-chaque sous-groupe (4 sous-groupe (4 sous-groupes)…groupes)…

Méthode fortement liée à la Méthode fortement liée à la distribution de la variabledistribution de la variable

N'accepte que 4 ou 8 classes.N'accepte que 4 ou 8 classes.

Facile à mettre en œuvre et facile Facile à mettre en œuvre et facile à appréhender car repose sur la à appréhender car repose sur la notion de la moyenne. notion de la moyenne.

Toutes sériesToutes séries

(sauf si trop (sauf si trop asymétrique ou asymétrique ou plurimodale)plurimodale)

Source : http://soshg.free.fr/formation/discretisation.htm Source : http://soshg.free.fr/formation/discretisation.htm

Page 33: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Les méthodes de discrétisationLes méthodes de discrétisationdisponibles dans disponibles dans SavaneSavane

Page 34: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisation dans Méthodes de discrétisation dans SavaneSavane

Le module Savane permet de discrétiser une série de variables qualitatives et Le module Savane permet de discrétiser une série de variables qualitatives et quantitatives.quantitatives.

Pour les variables quantitatives :Pour les variables quantitatives :

Crée des classes à partir de seuils fixés par Crée des classes à partir de seuils fixés par l’utilisateur (le libellé des classes est aussi spécifié l’utilisateur (le libellé des classes est aussi spécifié par l’utilisateur)par l’utilisateur)

Crée des classes d’égale amplitudeCrée des classes d’égale amplitude

Crée des classes ayant les mêmes effectifsCrée des classes ayant les mêmes effectifs

Crée des classes par écart-type autour de la Crée des classes par écart-type autour de la moyennemoyenneCrée des classes par progression arithmétique et Crée des classes par progression arithmétique et géométriquegéométriqueCrée des classes dont les bornes sont les moyennes Crée des classes dont les bornes sont les moyennes de premier ordre, deuxième ordre….de premier ordre, deuxième ordre….

Crée des classes à partir d’un histogramme ou d’un Crée des classes à partir d’un histogramme ou d’un nuage de points (sur deux attributs)nuage de points (sur deux attributs)

Crée des classes par intervalles définis par Crée des classes par intervalles définis par l’utilisateurl’utilisateur

Crée des classes dont les bornes correspondent Crée des classes dont les bornes correspondent aux plus grandes discontinuités de la série.aux plus grandes discontinuités de la série.

Page 35: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisation dans Méthodes de discrétisation dans SavaneSavane

Crée des classes en fonction d’une formule logique Crée des classes en fonction d’une formule logique sur un ou plusieurs attributssur un ou plusieurs attributs

Crée des classes sur des attributs de type RVB, en Crée des classes sur des attributs de type RVB, en utilisant une palette de correspondance couleur-valeurutilisant une palette de correspondance couleur-valeur

Crée des classes par hiérarchie ascendante ou Crée des classes par hiérarchie ascendante ou descendantedescendanteEn développementEn développement

En développementEn développement

Pour les variables quantitatives :Pour les variables quantitatives :

Les détails sur l’utilisation des commandes du menu Les détails sur l’utilisation des commandes du menu ClassClass sont disponibles sur: sont disponibles sur:

www.savgis.org/manuels-de-referencewww.savgis.org/manuels-de-reference

Page 36: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisation dans Méthodes de discrétisation dans SavaneSavane

Pour les variables qualitatives:Pour les variables qualitatives:

Valeurs nominalesValeurs nominales

Savane permet de créer un nouvel attribut nominal en regroupant les modalités Savane permet de créer un nouvel attribut nominal en regroupant les modalités d’un attribut nominal existant, en définissant ainsi de nouvelles classes. d’un attribut nominal existant, en définissant ainsi de nouvelles classes.

Par exemple, à partir d’un attribut « occupation du sol », il est possible de procéder Par exemple, à partir d’un attribut « occupation du sol », il est possible de procéder à des regroupements pour créer de nouvelles modalités : les modalités à des regroupements pour créer de nouvelles modalités : les modalités « plantations d’hévéas », « rizières » et « cultures maraîchères » peuvent être « plantations d’hévéas », « rizières » et « cultures maraîchères » peuvent être regroupées en une classe unique « zone agricole » ; les modalités regroupées en une classe unique « zone agricole » ; les modalités « zones résidentielles », « zones industrielles » et « zones administratives » « zones résidentielles », « zones industrielles » et « zones administratives » peuvent être regroupées dans une classe unique « Zone bâtie », etc.peuvent être regroupées dans une classe unique « Zone bâtie », etc.

Page 37: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Méthodes de discrétisation dans Méthodes de discrétisation dans SavaneSavane

Pour les variables qualitatives:Pour les variables qualitatives:

Groupes nominauxGroupes nominaux

Cette commande permet de définir de nouvelles modalités en fonction d’un Cette commande permet de définir de nouvelles modalités en fonction d’un critère défini par l’utilisateur et portant sur les chaînes de caractères des critère défini par l’utilisateur et portant sur les chaînes de caractères des modalités d’origine. L’utilisateur doit indiquer les caractères à prendre en modalités d’origine. L’utilisateur doit indiquer les caractères à prendre en compte ; une classe regroupe l’ensemble des objets pour lesquels les compte ; une classe regroupe l’ensemble des objets pour lesquels les caractères indiqués par l’utilisateur (par leur position dans la chaîne) sont caractères indiqués par l’utilisateur (par leur position dans la chaîne) sont identiques. identiques.

Par exemple, cette opération permet de regrouper des parcelles cadastrales dont Par exemple, cette opération permet de regrouper des parcelles cadastrales dont les identifiants sont codés en fonction de leur appartenance à un arrondissement, à les identifiants sont codés en fonction de leur appartenance à un arrondissement, à un quartier, etc. : si les deux premiers chiffres correspondent à l’arrondissement, il un quartier, etc. : si les deux premiers chiffres correspondent à l’arrondissement, il suffit d’indiquer ces deux premiers chiffres pour créer un attribut qui comprendra suffit d’indiquer ces deux premiers chiffres pour créer un attribut qui comprendra autant de classes que d’arrondissements différents détectés dans les objets. autant de classes que d’arrondissements différents détectés dans les objets.

Les détails sur l’utilisation des commandes du menu Les détails sur l’utilisation des commandes du menu ClassClass sont disponibles sur: sont disponibles sur:www.savgis.org/manuels-de-referencewww.savgis.org/manuels-de-reference

Page 38: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

Références bibliographiquesRéférences bibliographiques

BEGUIN M., PUMAIN D.,BEGUIN M., PUMAIN D., 1994. La représentation des données 1994. La représentation des données géographiques : Statistique et cartographie. Collection Cursus, Edition géographiques : Statistique et cartographie. Collection Cursus, Edition Armand Colin, Paris. 192p. (Deuxième édition 2000) Armand Colin, Paris. 192p. (Deuxième édition 2000)

CHADULECHADULE (Groupe), 1997, Initiation aux pratiques statistiques en (Groupe), 1997, Initiation aux pratiques statistiques en géographie, Armand Colin, Collection U, série géographie, Paris, géographie, Armand Colin, Collection U, série géographie, Paris, 203p. 203p.

LAHOUSSE Ph., PIEDANNA V.,LAHOUSSE Ph., PIEDANNA V., 1998, L'outil statistique en géographie, 1998, L'outil statistique en géographie, Tome I, Les distributions à une dimension, Série " Synthèse Tome I, Les distributions à une dimension, Série " Synthèse Géographie ", Armand Colin, Paris, 96p.Géographie ", Armand Colin, Paris, 96p.

LAHOUSSE Ph., PIEDANNA V.,LAHOUSSE Ph., PIEDANNA V., 1999, L'outil statistique en géographie, 1999, L'outil statistique en géographie, Tome II : L'analyse bivariée, Série "Synthèse Géographie ", Armand Tome II : L'analyse bivariée, Série "Synthèse Géographie ", Armand Colin, Paris, 96p.Colin, Paris, 96p.

SANDERS L.,SANDERS L., 1989, L’analyse des données appliquées à la 1989, L’analyse des données appliquées à la géographie, Montpellier, RECLUS, Coll. « Alidade »géographie, Montpellier, RECLUS, Coll. « Alidade »

Page 39: Master Géographie de la Santé Paris X. Nanterre Laboratoire de Cartographie Appliquée IRD - Bondy Formation SIG-Sant é Rappels sur les discrétisations

FinFin M. Souris, F Demoraes, T. Serrano, 2010