109
Introduction à l’analyse spatiale Marie-Pierre de Bellefon Insee - Département de l’Action Régionale Séminaire MetSem - SciencesPo - 23 novembre 2017 Marie-Pierre de Bellefon Introduction à l’analyse spatiale 1 / 108

Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Introduction à l’analyse spatiale

Marie-Pierre de Bellefon

Insee - Département de l’Action RégionaleSéminaire MetSem - SciencesPo - 23 novembre 2017

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 1 / 108

Page 2: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

1 Qu’est ce qu’une donnée spatiale ?

2 Comment définir le voisinage d’un objet spatial ?

3 Existe-t-il un phénomène spatial ?

4 Prendre en compte les phénomènes spatiaux

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 2 / 108

Page 3: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ?

Sommaire

1 Qu’est ce qu’une donnée spatiale ?

2 Comment définir le voisinage d’un objet spatial ?

3 Existe-t-il un phénomène spatial ?

4 Prendre en compte les phénomènes spatiaux

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 3 / 108

Page 4: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Introduction

Donnée spatiale :Toute observation dont on connait non seulement la valeur, maisaussi la localisation.⇒ Les coordonnées spatiales des objets à traiter constituentune information potentiellement riche pour l’analyse

Trois types de données spatiales :ContinuesPonctuellesSurfaciques

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 4 / 108

Page 5: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Introduction

Propriétés particulières des données spatialesDépendance spatiale : la valeur de l’observation i influence lavaleur de l’observation j voisineHétérogénéité spatiale : l’influence des variables explicatives surla variable dépendante dépend de la localisation dans l’espace.

Analyse spatiale :1 décrit la structure spatiale des observations.2 quantifie la force des interactions spatiales.3 explique les mécanismes sous-jacents.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 5 / 108

Page 6: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales continues (géostatistiques)

Définition :Il existe une valeur pour la variable d’intérêt en tout point duterritoire, mais elle est mesurée uniquement en un nombre discretde points.

Objectifs de l’analyse spatiale des données continues :Prédire la valeur d’une variable en un point où elle n’a pas étééchantillonnée, ainsi que la fiabilité de cette prédiction.

Exemples de données :

Composition chimique du sol⇒ industrie minière

Qualité de l’eau ou de l’air⇒ étude de la pollution

Variables météorologiques⇒ prévisions météo

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 6 / 108

Page 7: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales continues : exemple d’étude

Avec quelle précision prédire la teneur en polluant d’un sollorsqu’on n’a qu’un échantillon fini de points de mesure ?

Prédiction de teneur en polluant (mg/kg/m2) - Ecart type de la prédictionSource : Manuel GéoSiPol - Mines de Paris

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 7 / 108

Page 8: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales ponctuelles

Définition :Ces données se caractérisent par leur distribution dans l’espace, etpas par la valeur associée à chaque observation. La localisation est lavariable aléatoire qu’on étudie.

Objectifs de l’analyse spatiale des données ponctuelles :Quantifier l’écart entre la distribution spatiale des observations et unedistribution complètement aléatoire dans l’espace : dans quellemesure les observations sont-elles regroupées dans l’espace ?

Exemples de données :

Ecologie⇒ distribution spatiale de deux espèces d’arbres.

Epidémiologie⇒ distribution spatiale des cas d’apparition d’un virus.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 8 / 108

Page 9: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Les trois configurations classiques de points

Régulière Agrégée Aléatoire

Source : Package spatstat, Floch,Marcon, Puech 2017

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 9 / 108

Page 10: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales ponctuelles : exemple d’étude

Les séismes sont-ils plus regroupés dans l’espace que ce qui en estattendu de par la géologie du terrain ?

Localisation de 5970 épicentres de séismes en Iran de 1976 à 2016.Source : Package etas, Floch, Marcon, Puech 2017

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 10 / 108

Page 11: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales surfaciques

Définition :La localisation des observations est considérée comme fixe, c’est leurvaleur qui est modélisée selon un processus aléatoire.Peuvent être agrégées sur une partition du territoire ou réparties endes points précis.

Objectifs de l’analyse spatiale des données surfaciques :Définir la structure de voisinage des observations.Quantifier l’influence qu’exercent les observations sur leursvoisines et sa significativité.

Exemples de données :

Santé⇒ taux de malades par région.

Economie⇒ croissance du PIB par région.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 11 / 108

Page 12: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales surfaciques : exemple d’étude

Les collèges favorisés sont-ils toujours situés dans unenvironnement favorisé ?

Source : Givord et al 2015Marie-Pierre de Bellefon Introduction à l’analyse spatiale 12 / 108

Page 13: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales surfaciques

Dans la suite de cette présentation, on étudie les données surfaciques

Représentation sous forme d’un polygone

La région d’étude peut être recouverte exhaustivement par despolygones mutuellement exclusifs.Deux polygones adjacents sont séparés par une frontièrecommune.Les frontières peuvent naître de discontinuités spatiales : limitesadministratives, barrières naturelles...Ou être les polygones de Voronoï issus de points particuliers

Polygone de Voronoï associé au point xi :La région de l’espace qui est plus proche de xi que de tout autre point del’ensemble d’étude S

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 13 / 108

Page 14: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales surfaciques

Représentation sous forme d’un pointLes données "surfaciques" peuvent aussi être des points fixes duterritoire :définis par les coordonnées géographiques d’un point particulier : lycée,mairie, point culminant d’une région,...ou définis géométriquement comme les centroïdes d’un polygone.

Centroïde c d’une surface SMinimise la distance quadratique moyenne à tous les points de S :

minc

1

a(S)

∫S

||x− c||2dx

a(S) : aire de la surface SCoordonnées de c : moyenne des coordonnées de tous les points de S

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 14 / 108

Page 15: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Qu’est ce qu’une donnée spatiale ? Trois types de données spatiales

Données spatiales surfaciques

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 15 / 108

Page 16: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ?

Sommaire

1 Qu’est ce qu’une donnée spatiale ?

2 Comment définir le voisinage d’un objet spatial ?

3 Existe-t-il un phénomène spatial ?

4 Prendre en compte les phénomènes spatiaux

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 16 / 108

Page 17: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ?

Relations entre objets spatiaux

Multidirectionnelles et multilatéralesDifférent des relations temporelles où les liens sont orientés surl’axe passé -> présent -> futurSpécifiées par un graphe de voisinageVoisinage défini en fonction de la distance (plus proches voisins),de la contiguïté (Queen, Rook) ou de notions géométriques(Delaunay, Gabriel)Codé dans une matrice de contiguïté

Enjeu de la codification des relations de voisinage :

Définir des relations de voisinage cohérentes avec les véritablesinteractions spatiales entre les objets

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 17 / 108

Page 18: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur la distance

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 18 / 108

Page 19: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur la distance

Remarques sur le voisinage basé sur la distance

k plus proches voisinsFait l’hypothèse que le degré d’influence est le même pour les kvoisins les plus prochesNe prend pas en compte la complexité de la géographie desfrontièresPas symétriqueLes distances entre les voisins peuvent être très dissemblables

Voisins à distance radialeLes voisins de i sont les points j tels que 0 ≤ dij ≤ d

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 18 / 108

Page 20: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur la distance

Ambigüité de la notion de distance entre centroïdesSoit R1, R2, R3 trois zones distinctes. On peut considérer que comme R2 etR3 sont séparées dans l’espace, mais toutes les deux adjacentes à R1, ellessont toutes les deux plus proches de R1 que l’une à l’autre. Cependant, lescentroïdes de ces zones sont équidistants entre eux. Résumer la proximitéentre zones par la distance entre centroïdes conduit à perdre une partiede la richesse des relations spatiales.

Gauche : trois zones - Droite : distances entre centroïdes D’après : Notebookof spatial data analysis, SMITH, 2016

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 19 / 108

Page 21: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur des notions géométriques

Basé sur des notions géométriques

Triangulation de Delaunay : maximise l’angle minimal destriangles dont les sommets sont les points d’observation.Graphe de la sphère d’influence : relie deux points si leurs"cercles du voisin le plus proche" se coupent. Il s’agit pour chaquepoint P du plus grand cercle centré en P qui ne contient pasd’autre point que P.

Source : Toussaint 1980

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 20 / 108

Page 22: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur des notions géométriques

Basé sur des notions géométriques

Graphe des voisins relatifs : considère que deux points pi et pjsont voisins si

d(pi, pj) ≤ max [d(pi, pk), d(pj , pk)]∀k = 1, ..., n k 6= i, j

avec d(pi, pj) la distance entre pi et pj . Le graphe des voisinsrelatifs impose moins de connexions que la triangulation deDelaunay ou le graphe de la sphère d’influence.Graphe de Gabriel : relie deux points pi et pj si et seulement sitous les autres points sont en dehors du cercle de diamètre [pi, pj ]

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 21 / 108

Page 23: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur des notions géométriques

Graphes basés sur des notions géométriques

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 22 / 108

Page 24: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Basé sur la contiguïté

Voisinage basé sur la contiguïté

Plus adapté aux données démographiques et sociales qu’aux donnéesenvironnementales.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 23 / 108

Page 25: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Transformation en une matrice de pois

La matrice de poids : W"L’expression formelle de la dépendance spatiale entre observations"(Anselin, 1988)

Matrice binaire : wij=1 si i voisin de j, 0 sinon.

Inconvénient : la somme des poids des voisins d’une zone dépend dunombre de ses voisins.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 24 / 108

Page 26: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Transformation en une matrice de pois

Normalisation de la matrice de poids

Normalisation par ligne : la plus courante

Pour une zone, le poids accordé à chaque voisin est divisé par lenombre total de ses voisins.Avantage :

∑j

wijxj : moyenne de x sur tous les voisins de xi

Inconvénient : trop de poids accordé aux observations avec peude voisins (en bordure de la région étudiée).Alternatives : normalisation globale (poids divisés par nombretotal de zones),...

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 25 / 108

Page 27: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Transformation en une matrice de pois

Réflexions sur le choix de la matrice de poids

"Le choix des poids est souvent arbitraire [...] et le résultat desétudes varie considérablement en fonction de la définition despoids spatiaux" Bhattacharjee et Jensen-Butler (2006)"Le choix de la matrice de poids est le plus grand mythe del’économétrie spatiale" : l’impact de ce choix sur les résultats neserait pas si crucial. Lesage et Pace (2012)Pour pallier l’exogénéité du choix de la matrice de poids, certainsutilisent les données spatiales elles mêmes pour la spécifier.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 26 / 108

Page 28: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Transformation en une matrice de pois

Mise en oeuvre avec le logiciel R

Les packages sp, rgdal et rgeos ou sf permettent de lire les objetsspatiaux.Le package spdep permet de définir les relations de voisinage entreles objets spatiaux.Les relations sont enregistrées dans un objet de classe nb

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 27 / 108

Page 29: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Comment définir le voisinage d’un objet spatial ? Transformation en une matrice de pois

Mise en oeuvre avec le logiciel R

Les matrices de poids sont enregistrées sous forme d’une "listede poids".Il ne s’agit pas d’une matrice n× n telle qu’on la représentethéoriquement. Il s’agit d’une liste contenant le style denormalisation, puis pour chaque observation : son attribut, la listedes numéros d’observation de ses voisins, la liste des attributs deses voisins et la liste des poids de ses voisins.On parle souvent de sparse matrix ou matrice creuses.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 28 / 108

Page 30: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ?

Sommaire

1 Qu’est ce qu’une donnée spatiale ?

2 Comment définir le voisinage d’un objet spatial ?

3 Existe-t-il un phénomène spatial ?

4 Prendre en compte les phénomènes spatiaux

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 29 / 108

Page 31: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Structure spatiale - autocorrélation spatiale

Autocorrélation spatiale

DéfinitionCorrélation, positive ou négative, d’une variable avec elle mêmedu fait de la localisation spatiale des observations

Causesprocessus inobservés ou difficilement quantifiables qui associentdes localisations différentes. Par exemple :phénomènes d’interaction entre les décisions des agents.phénomènes de diffusion dans l’espace d’une technologie.

Intérêt de détecter l’autocorrélation spatialeMieux comprendre la structure spatiale du phénomène observéAméliorer la spécification d’un modèle économétrique (test del’hypothèse d’indépendance des observations)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 30 / 108

Page 32: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Structure spatiale - autocorrélation spatiale

Mieux comprendre la structure spatiale

Soit yi la variable d’intérêt et vij le lien entre i et j.Un processus spatial est autocorrélé siP(Yi ≤ yi|Yj ≤ yj , ∀j tq vij > 0) 6= P(Yi ≤ yi)Structure spatiale et autocorrélation spatiale ne peuvent pasexister indépendamment l’une de l’autre (Tiefelsdorf, 1998).

La structure spatiale est l’ensemble des liens grâce auxquelsle phénomène autocorrélé va se diffuser.Sans la présence d’un processus autocorrélé significatif, lastructure spatiale n’est pas visible empiriquement.

La distribution spatiale observée est une manifestation duprocessus spatial sous-jacent.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 31 / 108

Page 33: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Structure spatiale - autocorrélation spatiale

Autocorrélation spatiale : observation empirique

La valeur d’une observation est liée aux valeurs des observationsvoisines.L’autocorrélation spatiale est positive lorsque des valeurssimilaires de la variable à étudier se regroupentgéographiquement.L’autocorrélation spatiale est négative lorsque des valeursdissemblables de la variable à étudier se regroupentgéographiquement : des lieux proches sont plus différents quedes lieux éloignés (concurrence spatiale,...)En l’absence d’autocorrélation spatiale on peut considérer que larépartition spatiale des observations est aléatoire.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 32 / 108

Page 34: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Structure spatiale - autocorrélation spatiale

Autocorrélation spatiale : observation empirique

Le regroupement spatial des valeurs similaires est-il significatif ?Dans quelle mesure aurait-il pu être observé si les observationsétaient réparties aléatoirement ?

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 33 / 108

Page 35: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Structure spatiale - autocorrélation spatiale

Mesure de l’autocorrélation spatiale

Objectifs des indices d’autocorrélation spatiale

Evaluer la dépendance spatiale entre les valeurs d’une mêmevariable en différents endroits de l’espace.Tester la significativité de la structure spatiale identifiée.

Critères pris en compteProximité spatiale.Ressemblance ou la dissemblance des valeurs de la variable pourles unités spatiales considérées.

Attention : si les données sont agrégées suivant un découpage qui nerespecte pas le phénomène sous-jacent, on surestimera la force dulien spatial.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 34 / 108

Page 36: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Diagramme de Moran

ObjectifsVisualiser rapidement la structure spatiale

Constructiony centrée en abscisseWy en ordonnée (où W est la matrice de poids normalisée).Les deux propriétés y centrée et W normalisée impliquent que lamoyenne empirique de Wy est égale à celle de y et donc à 0.On trace également la droite de régression linéaire de Wy enfonction de y et les droites d’équation y = 0 et Wy = 0 quidélimitent des quadrants.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 35 / 108

Page 37: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Interprétation du diagramme de Moran

Si les observations sont réparties aléatoirement dansl’espace, il n’y a pas de relation particulière entre y et Wy. Lapente de la droite de régression linéaire est nulle, et lesobservations sont réparties uniformément dans chacun desquadrants.Si au contraire les observations présentent une structure spatialeparticulière, la pente de la régression linéaire est non-nullepuisqu’il existe une corrélation entre y et Wy.Chacun des quadrants définis par y = 0 et Wy = 0 correspond àun type d’association spatiale particulier.On note ρ la pente de la droite de régression linéaire entre y etWy

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 36 / 108

Page 38: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Interprétation du diagramme de Moran

En haut à droite (quadrant 1), valeurs de la variable plus élevées que lamoyenne, dans un voisinage qui lui ressemble (autocorrélationspatiale positive et valeur de l’indice élevé ; structure high-high).En bas à gauche (quadrant 3), valeurs de la variable plus faibles que lamoyenne, dans un voisinage qui lui ressemble (autocorrélationspatiale positive et valeur de l’indice faible ; structure low-low).En bas à droite (quadrant 2), valeurs de la variable plus élevées que lamoyenne dans un voisinage qui ne lui ressemble pas(autocorrélation spatiale négative et valeur de l’indice élevé ; structurehigh-low).En haut à gauche (quadrant 4), valeurs de la variable plus basses quela moyenne dans un voisinage qui ne lui ressemble pas(autocorrélation spatiale négative et valeur de l’indice faible ; structurelow-high).

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 37 / 108

Page 39: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Diagramme de Moran des revenus médians par Iris standardisés et d’unesimulation de répartition aléatoire des revenus médians par Iris. (Source :INSEE, RFL 2010)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 38 / 108

Page 40: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Simulation d’une autocorrélation spatiale croissantedes revenus par Iris (Source : INSEE, RFL 2010)

rho= −0.1 rho= −0.3 rho= −0.6 rho= −0.9

rho= 0.1 rho= 0.3 rho= 0.6 rho= 0.9

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 39 / 108

Page 41: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Diagramme de Moran

Diagrammes de Moran associés aux simulations derevenus autocorrélés (Source : INSEE, RFL 2010)

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

0

rho= −0.1

variable aléatoire

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

0

rho= −0.3

variable aléatoire

varia

ble

spat

iale

men

t déc

alée

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

5 rho= −0.6

variable aléatoire

varia

ble

spat

iale

men

t déc

alée

−2 0 2

−2.

0−

1.5

−1.

0−

0.5

0.0

0.5

1.0

1.5

rho= −0.9

variable aléatoire

varia

ble

spat

iale

men

t déc

alée

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

0

rho= 0.1

−3 −2 −1 0 1 2 3

−2.

0−

1.5

−1.

0−

0.5

0.0

0.5

1.0

1.5 rho= 0.3

varia

ble

spat

iale

men

t déc

alée

−4 −2 0 2

−2

−1

01

rho= 0.6

varia

ble

spat

iale

men

t déc

alée

−6 −4 −2 0 2 4−

4−

20

2

rho= 0.9

varia

ble

spat

iale

men

t déc

alée

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 40 / 108

Page 42: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Objectifs des indices d’autocorrélation spatiale :

Lorsque le diagramme de Moran met en avant une structure spatialeparticulière, le calcul des indices d’autocorrélation spatiale a pourobjectif de répondre à deux questions :

Les valeurs prises par les observations voisines auraient-elles puêtre aussi proches (ou aussi dissemblables) par le simple fait duhasard ?Si tel n’est pas le cas, il y a de l’autocorrélation spatiale : quelle enest le signe et la force ?

Répondre à la première question, revient à tester l’hypothèsed’absence d’autocorrélation spatiale pour une variable brute y.

H0 : absence d’autocorrelation spatialeH1 : présence d’autocorrelation spatiale

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 41 / 108

Page 43: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Deux hypothèses possibles sur la distribution sous H0

Hypothèse de normalitéChacune des valeurs de la variable, soit yi, est le résultat d’un tirageindépendant dans la distribution normale propre à chaque zonegéographique i sur laquelle est mesurée cette variable.

Hypothèse de randomisationL’estimation de la statistique obtenue à partir des données estcomparée avec la distribution de celle obtenue enréordonnant au hasard (permutations) les données.L’idée est que si l’hypothèse nulle est vraie, alors toutes lescombinaisons possibles des données sont équiprobables.Les données observées sont alors seulement l’une desréalisations parmi toutes celles également possibles.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 42 / 108

Page 44: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Indices de Moran et de Geary

PrincipeMesure la corrélation entre une variable et sa valeur sur lesentités voisines.

Corr(Y,WY ) =Cov(Y,WY )√

V ar(Y ), V ar(WY )W : matrice de pondération

Hypothèses sur sa distribution, qui permettent de tester sasignificativité.Calcul de l’intervalle de valeurs possibles pour l’indice, pourévaluer la force de l’autocorrélation spatiale.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 43 / 108

Page 45: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Indice de Moran

IW =n∑

i

∑j wij

∑i

∑j wij(yi − y)(yj − y)∑

i (yi − y)2i 6= j

H0 : Les voisins ne co-varient pas d’une façon particulière.IW > 0 => autocorrélation spatiale positive.

Indice de Geary

cW =n− 1

2W

∑i

∑j wij(yi − yj)2∑i(yi − y)2

i 6= j

H0 : Les différences entre voisins n’ont pas de structureparticulière.cW < 1 => autocorrélation spatiale positive.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 44 / 108

Page 46: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Propriétés statistiques des indices

min(valeurs propres (W +WT

2)) < IW <max(v. p.(

W +WT

2))

E(IW ) ne dépend pas des hypothèses sur la distribution de y

E(IW ) = − 1

n− 1V ar(I) dépend des hypothèses sur la distribution de yI − E(I)√V ar(I)

∼ N (0, 1) => calcul des p-values

La vitesse de convergence vers la distribution normale dépend de ladisposition spatiale des zones d’étude

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 45 / 108

Page 47: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Facteurs pouvant influencer la mesure

Définition du voisinage

Plus le voisinage envisagé est large, plus on considère un nombre élevé devoisins et plus la probabilité que leur moyenne se rapproche de la moyennetotale de la population va augmenter ce qui risque de conduire à une valeurrelativement faible de l’autocorrélation spatiale.

Modifiable Area Unit Problem (MAUP)

Problème de l’échelle : lié à une variation de l’information engendréelorsqu’un jeu d’unités spatiales est agrégé afin de former des unitésmoins nombreuses et plus grandes.

Problème de l’agrégation (ou de zonage) : lié à un changement dans ladiversité de l’information engendré par les différents schémas possiblesd’agrégation à une même échelle. Caractéristique des découpagesadministratifs (particulièrement électoraux).

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 46 / 108

Page 48: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Autocorrélation spatiale des revenus médians à Paris

Quelle est l’intensité de l’autocorrélation spatiale des revenusparisiens ?Est-elle significative ?Dans quelle mesure dépend-elle de la spécification des relationsspatiales (échelle d’agrégation, voisinage) ?

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 47 / 108

Page 49: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Autocorrélation spatiale des revenus médians à Paris

Diagramme de Moran à l’IRIS Diagramme de Moran àl’arrondissement

Echelle d’agrégation I p value H0 bornes de IIRIS 0.68 < 2.10−16 rejetée [-1.06,1.06]

Arrondissement 0.51 < 9.10−9 rejetée [-0.53,1.01]

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 48 / 108

Page 50: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Autocorrélation spatiale des revenus médians à Paris

Type de voisinage I p value H0QUEEN 0.51 3.10−6 rejetéeROOK 0.57 2.10−6 rejetée1NN 0.30 0.07 rejetée3NN 0.58 9.10−6 rejetée

Delauney 0.57 6.10−7 rejetée

Quelle que soit l’échelle d’agrégation et pour la plupart desdéfinitions du voisinage, l’autocorrélation spatiale des revenusparisiens est positive et significative.La force de l’autocorrélation spatiale varie légèrement en fonctiondu cadre de mesure choisi.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 49 / 108

Page 51: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Indices de Moran et de Geary

Application avec le logiciel R

Le package spdep permet de calculer les indices d’autocorrélationspatiale et leur significativité grâce aux fonctions moran.test etgeary.test.

Exemple de code

l i b r a r y ( spdep )

# E x t r a c t i o n de l a l i s t e des v o i s i n si r i s 7 5 . nb <− poly2nb ( i r i s 7 5 )#Créat ion de l a matr ice de poidsi r i s 7 5 . lw <− nb2 l i s tw ( i r i s 7 5 . nb , zero . p o l i c y =TRUE)#Calcu l des revenus médians s tandard isési r i s 7 5 . data <− as . data . frame ( i r i s 7 5 )i r i s 7 5 . data$med_revenu_std <− scale ( i r i s 7 5 . data$med_revenu )

# Diagramme de MORANmoran . p l o t ( i r i s 7 5 . data$med_revenu_std , i r i s 7 5 . lw , l a b e l s =FALSE)

# Test du I de Moranmoran . t e s t ( i r i s 7 5 . data$med_revenu_std , i r i s 7 5 . lw , zero . p o l i c y =TRUE, randomisat ion=FALSE ) }

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 50 / 108

Page 52: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Mesurer l’association spatiale locale

Pourquoi un indicateur local ?

Limites d’un indicateur global

Statistiques globales font l’hypothèse de stationnarité duprocessus spatial : l’autocorrélation spatiale serait la même danstout l’espace.Hypothèse souvent non réaliste, d’autant moins que le nombred’observations est élevé.

Doubles objectifs d’un indicateur localDétecter les regroupements significatifs de valeurs identiquesautour d’une localisation particulière (clusters).Repérer les zones de non-stationnarité spatiale, qui ne suiventpas le processus global.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 51 / 108

Page 53: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Mesurer l’association spatiale locale

LISA : Local Indicator of Spatial Association

Définition (Anselin, 1995)Le LISA de chaque observation indique l’intensité duregroupement spatial de valeurs similaires autour de cetteobservation.La somme de tous les LISA est proportionnelle à un indicateurglobal d’association spatiale.

I de Moran local

Ii = (yi − y)∑j

wij(yj − y)

I = constante ∗∑i

Ii

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 52 / 108

Page 54: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Mesurer l’association spatiale locale

Illustration : I de Moran locaux - revenus à Paris

Ii > 0 : regroupement de valeurs similaires (plus élevées ou plus faiblesque la moyenne)Ii < 0 : regroupement de valeurs dissimilaires (par ex : valeurs élevéesentourées de valeurs faibles)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 53 / 108

Page 55: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Des LISA significatifs correspondent à un regroupement devaleurs similaires ou dissimilaires plus marqué que ce quel’on aurait pu observer à partir d’une répartition spatialealéatoire.Ces regroupements peuvent correspondre aux quatre types deregroupement spatiaux décrits dans la partie 1 et identifiablessur le diagramme de Moran (High-High, Low-Low, High-Low ouLow-Low).Le test de significativité de chaque indicateur d’association localerepose sur une statistique supposée suivre asymptotiquementune loi normale sous l’hypothèse nulle. En effet, si l’hypothèse denormalité est vérifiée

z(Ii) =I − E(Ii)√V ar(Ii)

∼ N (0, 1)

.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 54 / 108

Page 56: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

I de Moran locaux significatifs

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 55 / 108

Page 57: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Test de l’hypothèse de normalité

Test de l’hypothèse de normalité de la distribution des IiMéthode : pour simuler l’hypothèse nulle d’une absenced’autocorrélation spatiale, on effectue plusieurs répartitions aléatoiresdans l’espace de la variable d’intérêt puis on calcule les indicateurslocaux associés à ces simulations.Résultats : les quantiles extrêmes de la distribution des I locaux sontplus élevés que ceux d’une distribution normale.Conséquence : attention à l’interprétation des p-values !

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 56 / 108

Page 58: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Normalité en présence d’autocorrélation globale

Si l’hypothèse normale est vérifiée, z(Ii) =I − E(Ii)√V ar(Ii)

∼ N (0, 1)

En présence d’autocorrélation spatiale globale, l’hypothèse denormalité des Ii n’est plus vérifiée.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 57 / 108

Page 59: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Ajustement des p-values

Le test de significativité des LISA soulève un problème que l’onrencontre à chaque fois que l’on effectue des comparaisons multiples.Lorsque plusieurs tests statistiques sont réalisés simultanément à partirdu même jeu de données, le risque global d’erreur de première espèce(probabilité de rejeter à tort l’hypothèse nulle) s’accroît.La répétition à chaque test du risque d’obtenir un résultatsignificatif par hasard augmente le risque global de conclure à tortà la significativité de l’indice local.Ainsi, dans notre cas, on conclura à l’existence d’une autocorrélationspatiale locale si au moins un indice d’autocorrélation spatiale localeest significatif parmi tous les indices de la zone d’étude. Si il y a 100indices d’autocorrélation spatiale locaux, on multiplie par 100 le risqued’en détecter au moins un significatif à tort. Il y a inflation du risque α(erreur de type I) : on augmente le risque de conclure à tort à l’existenced’une autocorrélation spatiale locale.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 58 / 108

Page 60: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Ajustement des p-values

La méthode historique : BonferroniSoit α le seuil de significativité retenu pour chaque indice local.

Probabilité de ne pas rejeter à tort H0 : 1− α par polygone(1− α)n pour toute la zone, avec n le nombre de polygones.

Probabilité de rejeter au moins une fois à tort H0 :α∗ = 1− (1− α)n ≈ nα

Si l’on veut maintenir le risque global approximativement à α, on peut

donc retenir α′ ≈ α∗

ncomme seuil de chaque test individuel.

Ainsi pour α = 0.05 un regroupement est significatif si sa p-value vaut0.05

n.

Limites : Risque de rejeter à tort des regroupements significatifs

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 59 / 108

Page 61: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Ajustement des p-values

La méthode de HolmLa méthode de Holm classe les p-values de α1 la plus faible à αn

la plus élevée.

Si α′1 ∼ nα1 < α, ie α1 <α

n, on considère que cet indice local est

effectivement significatif puisqu’il remplit le critère le plus restrictif.

On regarde alors si α2 <α

n− 1et ainsi de suite jusqu’à tester si

αk <α

n− k + 1.

Conduit à un plus grand nombre de clusters significatifs que laméthode de Bonferroni⇒ plus utiliséeCependant, se concentre aussi sur la détection de l’existenced’au moins un cluster dans toute la zone

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 60 / 108

Page 62: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Ajustement des p-values

False Discovery RateSoit α le seuil de significativité retenu pour chaque indice local.

Classe les p-values de α1 la plus faible à αn la plus élevée

Soit k le plus grand entier tel que αk ≤k

On peut rejeter l’hypothèse nulle d’absence d’autocorrélation spatialelocale pour tous les clusters dont les p-values sont inférieures ou égalesà αk (Benjamini, Hochberg 1995)

Le risque de juger - à tort - un cluster comme significatif est plus élevé, maisinversement le risque de juger - à tort - un cluster comme non significatif estplus faible⇒ Méthode intéressante pour localiser les clusters spatiauxsignificatifs.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 61 / 108

Page 63: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Significativité des LISA

Significativité des LISA

Test de la significativité des I de Moran locaux

Moins de p-values significatives avec l’ajustement Holm qu’avec l’ajustementpar la méthode FDR. La méthode de Holm diminue en effet le risque deconclure à tort à l’existence d’une autocorrélation spatiale locale, mais enrevanche cette méthode augmente le risque de passer à côté d’un clusterlocal. Le choix de la méthode d’ajustement dépendra donc des objectifsde l’étude et des risques que l’on privilégie.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 62 / 108

Page 64: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Interprétation des LISA

Interprétation des LISA

En l’absence d’autocorrélation spatiale globale

Les p-values ajustées limitent le risque de rejeter H0 à tort.Les LISA permettent de détecter les zones où des valeurssimilaires se regroupent de façon significative.Structure spatiale locale : les liens entre voisins sontparticulièrement forts.

En présence d’autocorrélation spatiale globale

Même ajustées, les p-values risquent d’être trop faibles, puisquela distribution des Ii s’éloigne de la normale.Plus l’autocorrélation globale augmente, plus le nombre devaleurs extrêmes augmente.⇒ Deuxième interprétation des LISA.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 63 / 108

Page 65: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Interprétation des LISA

Distribution des I de Moran locaux

Distribution non centrée sur le I de Moran global.Certaines zones ont une structure d’association spatialesignificativement différente du processus global.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 64 / 108

Page 66: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Existe-t-il un phénomène spatial ? Interprétation des LISA

LISA comme indicateur d’instabilité locale

Indique les zones qui influent particulièrement sur le processusglobal (autocorrélation locale plus marquée que l’autocorrélationglobale), ou au contraire qui s’en démarquent (plus faibleautocorrélation).

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 65 / 108

Page 67: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux

Sommaire

1 Qu’est ce qu’une donnée spatiale ?

2 Comment définir le voisinage d’un objet spatial ?

3 Existe-t-il un phénomène spatial ?

4 Prendre en compte les phénomènes spatiaux

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 66 / 108

Page 68: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux

ProblématiqueUne fois l’autocorrélation spatiale des données détectée vient l’étapede la modélisation. Quel modèle retenir ? Comment en interpréter lesrésultats ? Quelles en sont les limites ?

Deux catégories de phénomènes spatiaux

Dépendance spatiale : les valeurs des observations sontcorrélées dans l’espace⇒ économétrie spatiale.Hétérogénéité spatiale : instabilité structurelle, les variablesexplicatives n’ont pas partout la même influence sur la variabledépendante⇒ régression géographiquement pondérée.Difficile de distinguer les deux effets.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 67 / 108

Page 69: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Application à l’analyse des prix immobiliers

Les prix immobiliers sont des variables spatiales sujettes à demultiples corrélations.

Principe du modèle hédoniqueLe prix d’un bien est une combinaison des prix de ses différentsattributs.

yi = β0 +∑k

βkxik + εi (1)

Avec yi : logarithme du prix au m2 et xik la caractéristique k du bien i

HypothèsesLes vendeurs et les acheteurs sont des agents individuels, sanspouvoir de marché.⇒ On est dans une situation de concurrence parfaite.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 68 / 108

Page 70: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Le modèle hédonique

ModèleSoit x le vecteur des caractéristiques du bien et z celles del’acheteur.Soit u l’utilité de l’acheteur. Le programme de l’acheteur est :

maxx{u(z, x)− p(x)}

A l’équilibre,∂p(x)

∂x=∂u(z, x)

∂x

A l’équilibre, le prix marginal d’une caractéristique est égal àl’utilité marginale de l’acheteur.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 69 / 108

Page 71: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Le modèle hédonique

InterprétationLe coefficient de la régression hédonique associé à unecaractéristique informe sur la valeur que les acheteurs àl’équilibre à un instant donné accorderaient à uneaugmentation de la quantité de cette caractéristique.Impossible de prédire l’évolution des prix suite à une modificationsubstantielle de l’offre. Il faudrait pour cela connaitre les revenusdes acheteurs.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 70 / 108

Page 72: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Prix de vente des appartements dans l’agglomérationde Lyon

Prix de vente au m2 d’un appartement ancien - 2012 Source : base PERVAL

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 71 / 108

Page 73: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Prix de vente des appartements dans l’agglomérationde Lyon

Prix de vente au m2 d’un appartement ancien - 2012 - Source : base PERVAL

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 72 / 108

Page 74: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Application à l’analyse des prix immobiliers

Prix de vente des appartements dans l’agglomérationde Lyon

Les prix ont tendance a être plus élevés dans le centre historiquequ’en périphérie.

Les vendeurs sont ils influencés par les prix de vente des autreslogements ?Ou les appartements vendus dans le centre sont-ils de meilleurequalité ?Ou la localisation dans le centre garantit-elle une meilleure qualitéde vie ?⇒ les modèles d’économétrie spatiale donnent des éléments deréponse à ces questions.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 73 / 108

Page 75: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

Trois types de dépendance spatiale

Interaction endogène : lorsque la valeur de la variable dépendanteest liée aux valeurs des variables voisines (paramètre ρ :autorégressif).Interaction exogène, lorsque la valeur de la variable dépendanteest liée aux valeurs des facteurs explicatifs des variables voisines(paramètre θ).Corrélation spatiale des variables inobservées due à un facteurinconnu affectant toutes les variables d’une même zonegéographique (paramètre λ)

Modèle de Manski

Y = ρ ·WY +X · β +WX · θ + u

u = λ ·Wu+ ε

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 74 / 108

Page 76: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

Modèle de Manski non identifiable

Intuition - effets de pairsSupposons que les mauvais résultats scolaires d’une classes’expliquent par la composition sociale de la classe (interactionexogène θ) et le fait d’avoir de mauvais professeurs (caractéristiqueinobservée λ). On constatera alors une forte corrélation des résultatsdes élèves au sein de la classe mais cela ne signifie pas que le faitd’être avec des élèves d’un niveau scolaire plus faible (interactionendogène ρ) a un effet. (Floch, Le Saout 2016)

Deux solutions pour le rendre identifiableSupposer que les matrices de voisinage W ne sont pas identiquesSupprimer l’une des 3 formes de corrélation spatiale,représentées par les paramètres ρ, θ et λ

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 75 / 108

Page 77: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

SEM, Spatial Error Model

ρ = θ = 0

Hypothèses : uniquement une corrélation des résidus liée àl’influence d’une variable omise corrélée dans l’espace.Propriétés : Estimateurs biaisés et non convergents si le vraimodèle inclut des interactions exogènes WX

Exemple : tous les prix immobiliers d’une zone géographiquebaissent à cause d’une nappe de pollution non inclue dans lesvariables explicatives du prix.

Modèle SEM

Y = X · β + u

u = λ ·Wu+ ε

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 76 / 108

Page 78: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

SAR, Spatial Autoregressive Model

λ = θ = 0

Hypothèses : uniquement une interaction endogène des variablesdépendantes voisines sur la variable dépendante de la zone.Propriétés : Estimateurs non biaisés même si mauvaisespécification (par exemple oubli d’une corrélation spatiale deserreurs).Exemples : pour établir le prix de vente de son logement, levendeur regarde les prix de vente des logements aux alentours.

Modèle SARY = ρ ·WY +X · β + ε

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 77 / 108

Page 79: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

Un des modèles adaptés à l’étude des prix immobiliers

Evaluation du prix⇒ influence des prix des biens voisins.Variables explicatives inobservables⇒ influence du contextelocal.

Modèle SARAR

Y = X · β + ρ ·WY + u

u = λWu+ ε

Y : log(prix/m2)WY : moyenne pondérée des prix des voisins.X : variables explicativesu, ε erreurs

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 78 / 108

Page 80: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Econométrie spatiale

Compléments

Il existe plusieurs autres spécifications de modèles identifiables.Choix du modèle effectué en combinant une approcheascendante (on part d’un modèle non spatial) et descendante (onpart d’un modèle spatial) et basée sur des tests de significativitéde la corrélation spatiale des différents termes.Attention à l’interprétation des résultats : multiples effets derétroactionMise en oeuvre en R avec le package spdep

### Modèle SEM> sem<−er ro rsa r lm ( modele , data=donnees , mat r ice )### Modèle SAR> sar<− lagsar lm ( modele , data=donnees , mat r ice )### Modèle SARAR> sarar <− sacsarlm ( modele , data=donnees , mat r ice )

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 79 / 108

Page 81: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Régression Géographiquement Pondérée

Prix de vente des appartements dans l’agglomérationde Lyon

Prix de vente au m2 d’un appartement ancien - 2012 Source : base PERVAL

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 80 / 108

Page 82: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Régression Géographiquement Pondérée

Au sein même de chaque arrondissement, la variabilité des prix esttrès importante.

L’influence des caractéristiques des biens sur les prix est-elle lamême partout ?Comment isoler l’effet de la localisation sur les prix ?⇒ les régressions géographiquement pondérées donnent deséléments de réponse à ces questions.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 81 / 108

Page 83: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Régression Géographiquement Pondérée

Une régression par arrondissement.

En quelle mesure l’influence des caractéristiques du bien sur son prixdépend-elle de l’arrondissement ?

Influence de l’époque de construction récente sur le prix au m2 d’unappartement ancien à LYON en 2012

Arrondissement coefficient de la régression significativité1er 1,1511 .

2ème 1,1499 .3ème 1,1481 ***4ème 1,1860 **5ème 1,4909 ***6ème 1,3085 ***7ème 1,1897 ***8ème 1,1487 ***9ème 1,1981 ***

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 82 / 108

Page 84: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Régression Géographiquement Pondérée

Une régression par arrondissement

RésultatsLa valeur et la significativité des coefficients change avec lesarrondissements.Pour certains arrondissements, l’échantillon est trop faible pourobtenir des résultats fiables.

InterprétationLes acheteurs valorisent différemment les caractéristiques dubien suivant sa localisation.Pourquoi les frontières qui définissent les changements demodèle correspondraient-elles aux frontières administratives ?

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 83 / 108

Page 85: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

Le modèle à coefficients variables

Modèle de régression classique

yi = β0 +∑k

βkxik + εi (1)

Modèle de régression à coefficients variables

yi = β0(ui, vi) +∑k

βk(ui, vi)xik + εi (2)

(ui,vi) : coordonnées géographiques

Les coefficients des paramètres explicatifs forment des surfacescontinues qu’on estime en certains points de l’espace.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 84 / 108

Page 86: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

Comment estimer le modèle ?

Compromis biais/varianceHypothèse : plus deux observations sont proches dans l’espace,plus les coefficients des paramètres explicatifs de la régressionsont proches.Pour estimer le modèle à coefficients variables au point i, onutilise le modèle à coefficients fixes en incluant dans la régressionuniquement les observations proches de i.Plus on inclut de points dans l’échantillon, plus la variance estfaible, mais plus le biais est élevé.Solution : diminuer l’importance des observations les pluséloignées en accordant à chaque observation un poidsdécroissant avec la distance au point d’intérêt.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 85 / 108

Page 87: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

Rappel : estimation par MCO

Expression des coefficients.

Y = Xβ + ε

β = (XTX)−1XTY

NotationsY : vecteur (nx1) des prix des logements.X : matrice (nxk) des k caractéristiques des n logements.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 86 / 108

Page 88: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

Estimation géographiquement pondérée

Expression des coefficients

Y = (β ⊗X)1 + ε

⊗ multiplie chaque élément de la matrice des coefficients β par l’élémentcorrespondant de la matrice X des caractéristiques des observations.

β(ui, vi) = (XTW(ui,vi)X)−1XTW(ui,vi)y

Notations

β =

β0(ui, vi) β1(ui, vi) β2(ui, vi)β0(uj , vj) β1(uj , vj) β2(uj , vj)β0(uk, vk) β1(uk, vk) β2(uk, vk)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 87 / 108

Page 89: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

La matrice W

La matrice W(ui,vi) contient le poids de chaque observation en fonctionde sa distance au point de coordonnées (ui, vi)

Matrice W

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 88 / 108

Page 90: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Théorie de la régression géographiquement pondérée

Le choix du noyau

La matrice de poids : des points à la surface d’une fonction de noyau.Les paramètres de la décroissance du poids de chaqueobservation avec la distance au point d’origine sont déterminéspar le choix d’une "fonction de noyau".

Paramètres de la fonction de noyauLes paramètres clés de la fonction de noyau sont :

Forme du noyau.Noyau fixe ou adaptatif.Taille de la bande passante.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 89 / 108

Page 91: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Forme du noyau

Noyau Uniforme w(dij) = 1

Noyau Gaussien w(dij) = exp(−1

2(dij

h)2)

Noyau Exponentiel w(dij) = exp(−1

2(|dij |h

))

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 90 / 108

Page 92: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Forme du noyau

Noyau Box-Car w(dij) = 1 si |dij | < h, 0 sinon

Noyau Bi-square w(dij) = (1− (dij

h)2)2 si |dij | < h, 0 sinon

Noyau Tri-cube w(dij) = (1− (|dij |h

)3)3 si |dij | < h, 0 sinon

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 91 / 108

Page 93: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Forme du noyau

La forme du noyau ne modifie que légèrement les résultats.

Eléments de comparaisonChoisir un noyau Uniforme revient à effectuer une régression parMCO en chaque point.Le noyau Box-Car traite un phénomène continu de façondiscontinue.Les noyaux gaussiens et exponentiels pondèrent toutes lesobservations, avec un poids qui tend vers zéro avec la distance aupoint estimé.Les noyaux Bisquare et Tricube accordent également auxobservations un poids décroissant avec la distance, mais ce poidsest nul au delà d’une certaine distance (h : la bande passante).⇒ Le noyau Bisquare est à privilégier pour optimiser letemps de calcul.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 92 / 108

Page 94: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Noyau fixe

Noyau fixe : l’étendue du noyau est déterminée par la distance au pointd’intérêt. Le noyau est identique en tout point de l’espace.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 93 / 108

Page 95: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Noyau adaptatif

Noyau adaptatif : l’étendue du noyau est déterminée par le nombre devoisins du point d’intérêt.Plus la densité des observations est faible, moins lenoyau est étendu.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 94 / 108

Page 96: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Noyau fixe ou adaptatif ?

ComparaisonUn noyau fixe est adapté à une répartition des données uniformedans l’espace mais peu efficace dans le cas d’une répartitioninhomogène.Dans les zones peu denses, un noyau trop petit inclura trop peude points dans la régression⇒ variance trop élevée.Dans les zones très denses, un noyau trop grand négligera lesvariations à une échelle fine⇒ biais trop élevé.Pour estimer un modèle hédonique des prix immobiliers, le noyauadaptatif est plus performant.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 95 / 108

Page 97: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Définition de la bande passante.

La valeur de la bande passante h détermine la forme du noyau. C’est leparamètre dont le choix a la plus grosse influence sur les résultats.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 96 / 108

Page 98: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Influence du choix de la bande passante.

Faible bande passante : peu de lissageSource : base bdTOPO-IGN

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 97 / 108

Page 99: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Influence du choix de la bande passante.

Large bande passante : beaucoup de lissageSource : base bdTOPO-IGN

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 98 / 108

Page 100: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Influence du choix de la bande passante.

Le choix de la bande passante n’est pas lié au modèle lui même,mais à la stratégie de calibration.Si le noyau inclut des points trop éloignés, la variance sera faiblemais le biais élevé.Si le noyau inclut uniquement les points trop proches, le biais serafaible mais la variance élevée.

⇒ Comment choisir la bande passante la plus adaptée ?

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 99 / 108

Page 101: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Critère statistique pour choisir la bande passante :

Critère de validation croisée (CV)

CV =

n∑i=1

[yi − y6=i(h)]2

La bande passante qui minimise le score de validation croiséemaximise le pouvoir prédictif du modèle.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 100 / 108

Page 102: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Critère statistique pour choisir la bande passante :

Critère d’Akaike - AICLe critère AIC favorise un compromis entre le pouvoir prédictifdu modèle et sa complexité.Plus la bande passante est faible, plus le modèle global estcomplexe.⇒ le critère AIC favorise généralement des bandes passantesplus larges que le critère CV.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 101 / 108

Page 103: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Interprétation des résultats

Constante locale : prix du bien de référence Source : base PERVAL

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 102 / 108

Page 104: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Interprétation des résultats

Coefficient associé à une époque de construction ancienne Source : base PERVAL

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 103 / 108

Page 105: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Interprétation des résultats

Prix d’un appartement de référenceLe coefficient associé à la constante de la RGP est le prix d’unappartement de référence : le prix d’un appartement, une foisprise en compte l’influence de ses caractéristiques physiques.L’avantage de la RGP est qu’elle laisse l’influence descaractéristiques sur le prix varier librement dans l’espace,indépendamment de toute frontière prédéfinie.On peut calculer des intervalles de confiance pour la prédiction.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 104 / 108

Page 106: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Interprétation des résultats

Précautions à prendre

La RGP permet d’analyser la tendance générale des priximmobiliers locaux.A ce jour, on ne peut pas utiliser directement la RGP dans un butprédictif.Modifier le degré de lissage permet de choisir l’échellegéographique à laquelle étudier les prix.Prolongement éventuel : traitement de la collinéarité.

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 105 / 108

Page 107: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Application avec le logiciel R

Le package GWmodel permet de mettre en oeuvre la régressiongéographiquement pondérée.

1 Définition des distances entre les points avec la fonctiongw.dist

2 Calcul de la bande passante optimale grâce à la fonctionbw.gwr

3 Mise en oeuvre de la régression géographiquement pondéréeavec la fonctiongwr.robust

4 Interprétation des résultats contenus dans le fichier$SDF

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 106 / 108

Page 108: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Conclusion

Beaucoup de choix à faire en fonction du contexte local et des objectifsde l’analyse :

Nature des données spatiales, définition du voisinage,phénomène à analyser...Difficile de distinguer hétérogénité et dépendance spatiale : lesdeux sont souvent présents

Autres méthodes prenant en compte les phénomènes spatiauxEconométrie spatiale sur données de panel, sur donnéesd’enquête.Echantillonnage spatial, méthodes petits domainesMéthodes de garantie de la confidentialité prenant en compte lesphénomènes spatiaux (swapping,...)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 107 / 108

Page 109: Introduction à l'analyse spatiale...Objectifs de l’analyse spatiale des données continues : Prédire la valeur d’une variable en un point où elle n’a pas été échantillonnée,

Prendre en compte les phénomènes spatiaux Comment pondérer les observations voisines ?

Références :

N.L. Cressie Statistics for spatial data (1993)

M. Hannoun Un survol des méthodes élémentaires en statistiquespatiale (2000)

M. Fischer, A. Getis Handbook of applied Spatial Analysis (2010)

J.M. Floch, Détection des disparités socio-économiques : l’apport de lastatistique spatiale (2012)

L. Anselin Spatial Econometrics : Methods and Models (2013)

A. Baddeley, E. Rubak, R. Turner Spatial Point Patterns (2015)

Brunsdon, C., Fotheringham, A. S., Charlton, M. E. Geographicallyweighted regression : a method for exploring spatial nonstationarity(1996)

Marie-Pierre de Bellefon Introduction à l’analyse spatiale 108 / 108