186
وزارةـ ا ـــــــــــــــــــــــم اـــــــــــ وــــــــــــــــــــــــــــــــث اـــــــــــ اMinistère de l'Enseignement Supérieur et de la Recherche Scientifique ــــــــــــــــو ــــن ــــــــــــــــــــــ ـــــــــــــــــ ــــــفـــــــــ اUniversité Hassiba Benbouali de Chlef ــــــــــــــطـــــــــوم اــــــ ـــــــــــــــ وةــــــــــ اFaculté des Sciences de la Nature et de la Vie ـــــءـــــــــــــــــــم ا وــــــــــــــــــــــــ ا وــــــــــــــــداـــــــــــــــــ اـــــــــــ!ـــــــــــ اDépartement d’Eau, Environnement et Développement Durable Polycopié de cours Master 2, Biodiversité et environnement Filière : Ecologie et Environnement Domaine : Sciences de la Nature et de la Vie INTRODUCTION A LA GÉOSTATISTIQUE ABDELHAMID BRADAÏ Polycopié de cours

INTRODUCTION A LA GÉOSTATISTIQUE

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INTRODUCTION A LA GÉOSTATISTIQUE

اـــــــــــــــث اــــــــــــــــــــــــــــ وـــــــــــ ـــــم اــــــــــــــــ ــاـوزارة Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

اـــــــــــــــف– ـــــــــــــــــ ـــــــــ ـــــــــــــ ــــن ـــــوـــــــــــ

Université Hassiba Benbouali de Chlefاــــ ــــــة وــــــــ ـــــــ ــــــــــــوم اطــــــــ ـــــــــ

Faculté des Sciences de la Nature et de la Vie

اــــــــــ!ــــــ ــــــ اـــــــــــــــــــــــداــــــــــ واــــــــــ ــــــــــــــ وـــــــم اــــــــــــء ـــــDépartement d’Eau, Environnement et Développement Durable

Polycopié de coursMaster 2, Biodiversité et environnement

Filière : Ecologie et Environnement

Domaine : Sciences de la Nature et de la Vie

INTRODUCTION A LA GÉOSTATISTIQUE

ABDELHAMID BRADAÏPo

lyco

pié

de c

ou

rs

Page 2: INTRODUCTION A LA GÉOSTATISTIQUE

PREAMBULE

La géostatistique est une branche de la statistique adaptée à l'estimation spatiale de propriétés du milieu physique. Elle traite les propriétés observées de façon discontinue dans l'espace géographique (en un point, sur une petite surface). Nous allons essayer au cours de ce cours introductif de présenter les principes de mise en œuvre d'une analyse géostatistique. Le TP qui prolonge ce cours, a deux objectifs: d'une part, montrer la mise en œuvre pratique de la géostatistique, d'autre part, montrer que la géostatistique se fonde sur les bases des statistiques classiques mieux connue et maitrisées par les étudiants. Pour un écologiste confronté à un problème de variabilité spatiale, le premier choix qu'il aura à faire concerne le type d'approche qu'il met en œuvre. Deux grandes voies lui sont ouvertes :

- employer une démarche d’interpolation déterministe. C'est le type d'approche utilisée depuis bien longtemps et même encore de nos jours. Les observations sont implantées dès lors que les caractéristiques du paysage changent. Les limites sont tracées en s'appuyant sur les modifications du paysage. Cette technique est souvent économe en moyens et présente des résultats très parlants. Elle ne permet par contre jamais d'obtenir une carte dont on connaît la précision. - Employer une démarche statistique, basée sur les statistiques classiques (recherche de moyennes, de variances au sein d'une population ou de strates) ou sur la géostatistique (obtention de cartes). On reproche souvent à ces techniques leurs exigences élevées en matière d'échantillonnage. Il demeure que ces techniques sont incontournables dès lors que l'on désire obtenir des estimations dont on connaît la précision. Ces techniques sont également les seules que l'on puisse mettre en œuvre dans certains cas: phénomène naturelle, propriété dont la variabilité ne dépend que de l'action de l'homme (pollution) ...

Les querelles d'école entre ces deux types d'approches restent nombreuses. On peut proposer une approche pragmatique pour faire le choix. On envisagera l'approche déterministe quand le paysage est très contrasté et que l'on sait que ces contrastes correspondent à des états différents de la propriété étudiée. On préférera l'approche statistique quand il est utile d'avoir des estimations de précision connue ou que le paysage varie peu.

C’est dans cet objectif que ce cours est inscrit. Il vise à introduire les concepts de la géostatistique. En raison du public visé, cette présentation part de considérations intuitives pour aboutir à des ébauches de formalisme mathématique.

Abdelhamid BRADAÏ ([email protected])

Page 3: INTRODUCTION A LA GÉOSTATISTIQUE

TABLE DES MATIERES

TABLE DES MATIERES

PREAMBULE

INTRODUCTION Introduction .……………………………………………………………………………………………………………………………1

1. Objectif du cours …………….………………………………………………………...…………………………..…….….. 2

2. Objectifs d’apprentissage ……………………………………………………………………………….….……...…….. 2

3. Rappel statistique ……………………………………………………………………………………….…………….….…..2

3.1. Terminologie ……………………………………………………………………………………………………………2 3.2. Caractéristiques de position ……………………..…………………………………..………………..……..…… 2

a. Le mode ………………………………………….………………………………………………………...………..2 b. La médiane …………………………………..………………………………….….………………………..…….3

c. La moyenne …………………………………………………………..……………….……………………...……4 3.3. Caractéristiques de dispersion …………………………………………..………………………………………. 5

a. L’étendue ……………………………………………………………………………………….……….…...……. 5 b. L’intervalle interquartile ………………………………………………………………….…………...…….. 5 c. La variance …………………………………………………………………………….…………….………..….. 5

d. Écart quadratique moyen ……………………………………………………………………………….…… 5

3.4. Détermination graphique de la moyenne et de l’écart quadratique moyen d’une

distribution à l’aide de la droite de Henry. …………………………………………………….………….6

3.4.1.Methode de la DROITE DE HENRY ……………….………………………….…………….……..….6 4. Exercice …………………….…………………………………………………………………………….……………..……….8

Chapitre I

I. Les méthodes d’interpolation spatiale ……………………………….…………….………………………...11 I.1. Définition de l’interpolation spatial ………………………………………………….………………………..11 I.2. Problématique de la spatialisation ………………………………….…………………………………..………12 I.2.1. Continuité spatiale ……………………………………...……………………...……………………………….12

I.2.2. La distribution spatiale dans un espace géographique ………………...………...…...……...……13 I.3. Méthodes d’interpolation spatiale …………………………………………..…………………………….……14

I.3.1. Les méthodes déterministes …………………………………………………...……………………….……14 I.3.2. Principes et méthodes de spatialisation déterministes………………………………...…………15

I.3.2.1. Méthode des polygones de Thiessen ……………………………………….……………..……..15 I.3.2.2. Méthode du plus proche voisin (Nearest Neighbor method of interpolation)…....16

I.3.2.3. Méthode des cellules…...........................................................................................................................16

I.2.2.3. Méthode de distance inverse (Inverse Distance Weighted). ………………………...…17 I.4. Conclusion ………………………………………………………………………………………………………………18

Chapitre II

II. La géostatistique : définition et historique…………………………………………………………..…..19 II.1. Définition …………………………………………..……………………………………………………………….… 19 II.2. Historique ………………………………………………………………………..……………………..………….….. 19

II.2.1. Période 1950 – 1960 : La première étape ……………………………………….………….………19

Page 4: INTRODUCTION A LA GÉOSTATISTIQUE

TABLE DES MATIERES

II.2.2. Période 1970 – 1980 : La deuxième étape ………………………………………....………………20 II.2.3. Période 1990 – 20… : La troisième étape …………………………...…………….……………….20 II.2.4. Récapitulation de l’historique de la géostatistique …………………….…..…….…..………….20

II.3. Les objectifs de la géostatistique ……………………………………………………………………………. 21

Chapitre III

III. Introduction aux variables régionalisées …………………………….………………..……...….……… 22 III.1. Variable aléatoire et fonction aléatoire………………………………………..............................……………22

III.1.1 Définitions …………………………………………………………………………………….……………….22 A. Variable aléatoire discrète ………………..……………………………….……………………………. 22 B. Variable aléatoires continue …………………………………..…………………………..…………….22

III.1.2. Description d’une variable aléatoire……………………………….….……………………………. 23 III.1.2.1. Loi de probabilité ……………………………………………………………………………………23 III.1.2.2. Fonction de répartition……………………………………………………………..………………23

III.1.2.3. Moment du premier ordre (Esperance mathématique) …………………………….….25 III.1.2.4. Moment du second ordre (Variance mathématique) ………………………………..…25

III.1.2.5. Covariance et corrélogramme ……………………………………………….………….………26 III.2. Techniques de caractérisation de la loi spatiale…………………………………..……………….………28

III.2.1. Hypothèses de stationnarité ……………………………………………………………………..…...…28 III.2.1.1. Stationnarité stricte …………………………………………………………………………………28 III.2.1.2. Stationnarité d'ordre 2 ……………………………………………………………………..………29

III.3.2. Hypothèse intrinsèque ……………………………………………………………...…………..…………29 III.3. Notion de variable régionalisée…………………….…………..……………………………………………..…29 III. 4. Le variogramme théorique ………………………………………………………………….……………….……31

Chapitre IV

IV. La modélisation du variogramme ………………………..…………………………………………….…..... 32

IV.1. Variogramme théorique et variogramme expérimental ………………………….……………...…......32 IV.1.1. Introduction à la notion de variogramme ……………………………..…………………..…..32 IV.1.2. Le calcul du variogramme ……………………………………………………………………….…34 IV.1.3. Variogramme expérimental…………………………………………..…………………………… 37 IV.1.4. Des définitions …………………………………………………………………………………….……38

a. L'effet de pépite (nugget effect) ………………………………………………...………..……38

b. Le palier (Sill) ……………………………………………………………….……………….………38

c. La portée (range) ………………………………………...………………….……………….………38

IV.2. Les modèles du variogramme …………………………………………………………………….…..…………39 IV.2.1. Forme du variogramme ……………………………………………………………………..……… 39

IV.2.1.1. Comportement au voisinage de l'origine…………………………………………… 39 IV.2.1.2. Comportement du graphe à l'infini …………………………………..……….……… 40

IV.3. Modélisation du variogramme ……………………………………………………...……………………..…… 41 IV.3.1. Modèles croissants non bornés ……………………………………………………….………..…41 IV.3.2. Modèles croissants bornés ………………………………………………………………….………42

IV.4. Modélisation de l'anisotropie …………………………………………………………………………….………43 IV.4.1. Anisotropie géométrique …………………………………………………………………...….……45

Page 5: INTRODUCTION A LA GÉOSTATISTIQUE

TABLE DES MATIERES

IV.5. Stratégie pour le calcul de variogrammes et l’ajustement des modèles …………………...…….47 IV.6. Exercices corrigées……………………………………………………………………...……………………………47

Chapitre V

V. Estimation d'une teneur ponctuelle (Krigeage) ………………………..….……………….………….…. 50

V.1. Introduction ………………………….…………………………………………………………..…………...…...…......50 V.2. Le krigeage ordinaire ………………………………………………………………………..…………………..…..50

V.2.1. Aspects théoriques ………………………………..………………………………………………….…50 V.2.2. Compréhension par l'exemple ………………………………………..…………………………… 53

V.3. Le krigeage simple……………………………………………………………………………………………….……55 V.4.Propriétés du krigeage …………………………………………………………………………………………..……55 V.5. La variance d'estimation …………………………………………………………………………………………… 56 V.6. Autres formes de krigeage ……………………………………………………………………...………………… 57 V.7. La validation croisée ……………………………………………………………..……………………..……………58 V.8. Exercices corrigées ………………………………………………………………………………………………….. 58

BIBLIOGRAPHIE …………………………………………………………………….…..……………………………..…… 62

Annexe ………………………………………………………………………………….…………………………………….…………64 Exemple d’étude : Cartographie de la salinité des sols de la plaine du Bas-Chéliff ……….….…64

Page 6: INTRODUCTION A LA GÉOSTATISTIQUE

Introduction

Page 7: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

1

INTRODUCTION 1. Objectif du cours

Souvent, les écologistes, pour visualiser un phénomène naturel, ont besoin d’établir des cartes de répartition d’une variable naturelle. Ces cartes sont établies à partir d’observations géoréférenciées (localisées dans un espace géographique), qui ne sont pas nécessairement réparties régulièrement, où on cherche à estimer les valeurs prises par la valeur observée en d’autres points de l’espace non-échantillonné. On parle alors d’estimation spatiale : c’est une procédure consistant à estimer la valeur d’une grandeur en un site non échantillonné à partir des échantillons de cette grandeur récoltés et mesurés dans d’autres sites voisinant.

L’estimation spatiale a d'abord intéressé des scientifiques qui ont adopté une

démarche déterministe. Cette démarche suppose que l'on connaisse ou on établit des relations de causalité (ex: altitude et la pluviométrie) ou des lois de distribution (ex: la CE du sol et la quantité des sels soluble), expliquant la présence de telle caractéristique du milieu en un endroit. Ces relations étant connues, on peut dresser une carte décrivant la répartition spatiale de la variable étudiée. Cette démarche intuitive semble souvent aisée pour décrire le milieu et d'étendre le résultat de cette observation à l'ensemble de la zone délimitée.

Depuis le début des années 60, un certain nombre de scientifiques ont cherché à

s'éloigner de cette démarche déterministe pour introduire des concepts statistiques dans l'analyse de la diversité spatiale du milieu physique. Il existe principalement deux raisons essentielles qui expliquent cette introduction :

(i) il n'est pas toujours aisé de reconnaître les facteurs explicatifs de la répartition d'un phénomène dans l'espace. Par exemple, dans le cas d'une topographie plane, la distribution des sols est difficile à expliquer;

(ii) l'approche déterministe est liée à l'état actuel des connaissances ; Chercher à employer une démarche purement descriptive en indiquant, pour chaque estimation faite, un ordre de grandeur de sa précision

Cette introduction de concepts statistiques dans l'étude du milieu physique a connu depuis lors un développement très important, donnant naissance à une branche de la statistique appelée « géostatistique ». Si on consulte un dictionnaire de littérature, la géostatistique correspond : « Une discipline située à la frontière entre les sciences de la terre et les mathématiques, qui grâce aux variables régionalisées permet d’estimer les gisements miniers» (Larousse encyclopédique, 2018). Cette définition montre que les pionniers de cette technique étaient des géologues miniers. Mais depuis, la géostatistique a débordé son champ d'application initial et s'avère très largement utilisée en science du sol, hydrologie, climatologie, écologie,...etc.

Page 8: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

2

Le cours vise à ce que l'étudiant maîtrise suffisamment les notions de base de la géostatistique pour lui permettre de bien comprendre sa littérature. Il vise également à ce que l'étudiant puisse utiliser les techniques apprises pour les appliquer dans ses propres travaux de recherche de master ou de doctorat.

2. Objectifs d’apprentissage A la fin du cours, l'étudiant doit :

(i). comprendre les hypothèses sous-jacentes à toute modélisation géostatistique ; (ii). familier avec les notions de variance et saura estimer et modéliser un

variogramme ; (iii). comprendre les principales propriétés des estimateurs du krigeage et le lien

qu'ils présentent avec le variogramme ; (iv). aura été sensibilisé à diverses applications de ces techniques dans le domaine

d’écologie et environnement; (v). saura utiliser la géostatistique pour ses propres recherches de cartographie

(rapport, Master ou doctorat)

3. Rappel statistique 3.1. Terminologie

Certaines terminologies statistiques sont très utiles à définir, on peut citer :

- Population : Ensemble que l'on observe et qui sera soumis à une analyse statistique. Chaque élément de cet ensemble est un individu ou unité statistique.

- Echantillon : C'est un sous ensemble de la population considérée. Le nombre d'individus dans l’échantillon est la taille de l'échantillon.

- Caractère : C'est la propriété ou l'aspect singulier que l'on se propose d'observer dans la population ou l'échantillon. Un caractère qui fait le sujet d'une étude porte aussi le nom de variable statistique.

- Différents types de variables statistiques : • Lorsque la variable ne se prête pas à des valeurs numériques, elle est dite qualitative (exemple : opinions politiques, couleurs des yeux...). Elle peut être ordonnée ou non, dichotomique ou non. • Lorsque la variable peut être exprimée numériquement, elle est dite quantitative

(ou mesurable). Dans ce cas, elle peut être discontinue ou continue. ♦ Elle est discontinue si elle ne prend que des valeurs isolées les unes des autres. Une variable discontinue qui ne prend que des valeurs entières est dite discrète (exemple : nombre d'enfants d'une famille). ♦ Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle fini ou infini (exemple : diamètre de pièces, salaires...).

3.2 Caractéristiques de position

a. le mode Le mode, désigné par « Mo », est la valeur de la variable statistique la plus fréquente.

Page 9: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

3

N.B. - Le mode peut être calculé pour tous les types de variable, quantitative et qualitative. - Le mode n’est pas nécessairement unique. - Quand une variable continue est découpée en classes, on peut définir une classe modale (classe correspondant à l’effectif le plus élevé).

Exemple :

Si on considère le nombre d’arbres forestiers d’une forêt sont comme suit : Essences (xi) Nombre d’arbre (ni) Fréquences (fi)

Pin d’Alep 200 0.4 Chêne Liège 160 0.32 Chêne vert 140 0.28 500 1

Le Mode (Mo) est : Pin d’Alep

b. la médiane

La médiane, désignée par « Me », est la valeur de la variable telle qu'il y ait autant d'observations, en dessous d'elle qu'au dessus, ou la valeur correspondant à 50% des observations.

- Si la variable est discrète : On désigne par n le nombre d’observations.

(a) Si « n » de la série est impair : nobservation

Me ème)2

1(

+=

(b) Si « n » de la série est pair : n= 2K ; Me est la moyenne arithmétique des deux observations centrales.

2

)1( nobservatioKnobservatioKMe

èmeème ++=

- Si la variable est continue : Me vérifie F(Me) = 0,5, où F est la fonction de répartition de la variable. On détermine alors un intervalle médian (intervalle contenant la médiane), puis on procède à l'intérieur de cette classe à une interpolation linéaire.

Exemple :

Le tableau suivant donne le nombre de verres de terre trouvé par prélèvement à la tarière dans une parcelle agricole :

3 2 1 0 0 1 2

On trie les observations par ordre croissant, on obtient :

0 0 1 1 2 2 3

La Médiane de la série est la valeur qui se trouve au milieu de la série ordonnée :

0 0 1 1 2 2 3

Me

Page 10: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

4

c. La Moyenne

Lorsque x désigne la variable statistique, la valeur moyenne, ou moyenne de la série

se note « X » . Elle est l'analogue d'un centre de gravité.

Cas 1 : si les observations ne sont pas groupées (la série est dite non classée).

=

=n

iix

nX

1

1 (1)

n : effectif total ; Xi = ième valeur de la variable

Cas 2 : si les observations sont groupées (la série est dite classée)

∑∑==

==k

iii

K

iii xfxn

nX

11

1 (2)

n : effectif total ; xi = centre de la classe i

ni = effectif de la classe i ; fi = fréquence de la classe i

On effectue en fait ici une moyenne arithmétique pondérée.

N.B :

- La moyenne ne peut être définie que sur une variable quantitative

- Dans le cas d’une variable continue, cette moyenne pondérée n'est qu'une valeur approchée de la vraie valeur moyenne de la série car on remplace chaque xi par le centre de la classe à laquelle il appartient.

-La moyenne arithmétique a été choisie parmi d'autres types de moyenne (géométrique, harmonique...) car elle possède une propriété extrêmement intéressante : lorsqu'on se livre à des observations scientifiques, les mesures ne sont pas toujours exactement identiques, même lorsque les conditions semblent être similaires. Il se produit ce que l’on appelle une erreur d'observation. On a la relation suivante :

Valeur observée = valeur exacte + erreur d’observation (3)

Avec : xi : valeur exacte et xe= erreur d’observation xi – xe = erreur d’observation

On décide alors de prendre pour xe la valeur qui minimise les erreurs d’observation, en fait la moyenne des carrés de ces erreurs (critère des moindres carrés). Le calcul prouve que la

meilleure valeur estimant xe suivant ce critère est X .

Exemple : Le nombre d’enfants de 8 familles sont les suivants : 0, 0, 1, 1, 1, 2, 3, 4.

La moyenne est :

5,18

12

8

43211100==

+++++++=X

Page 11: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

5

On peut aussi faire les calculs sur les valeurs distincts et les effectifs. On considère le tableau suivant :

Nombre

d’enfants (xi) 0 1 2 3 4

Famille (ni) 2 3 1 1 1 81

=∑=

n

iin

8

)1*4()1*3()1*2()3*1()2*0(*

1 ++++==

∑=

n

xnX

n

iii

5,18

12

8

43230==

++++=X

3.3. Caractéristiques de dispersion

a. L’étendue

L'étendue, notée « e », représente la différence entre les valeurs extrêmes de la distribution : e= xn – x1

b. L’intervalle interquartile

L'intervalle interquartile, noté « I », est la différence entre les deux quartiles Q3 et Q1:

I= Q3 – Q1 (4)

Cet intervalle contient 50% de la population en en éliminant 25% à chaque extrémité. Cette caractéristique est nettement meilleure que l'étendue.

c. La variance

C'est la caractéristique de dispersion la plus utilisée avec l'écart quadratique moyen

1er cas : série non classée

(5) )(

1xx

nV

n

niix −= ∑

=

2ème cas : série classée

(6) )²()²(

1

11

xxfxxnn

V i

k

iii

k

iix −=−= ∑∑

==

Dans le cas d’une variable statistique continue, xi représente le centre de la ième classe.

d. Écart quadratique moyen

Par définition, l’écart quadratique moyen d’une série statistique est la racine carrée de la variance. On le note « sx»

Page 12: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

6

A la différence de la variance qui correspond à un carré, l'écart quadratique moyen est homogène à la variable statistique et s'exprime dans les mêmes unités. Il permet de mesurer la dispersion de la distribution statistique autour de sa valeur moyenne.

3.4. Détermination graphique de la moyenne et de l’écart quadratique moyen

d’une distribution à l’aide de la droite de Henry.

Plusieurs distributions statistiques particulières donnent la fréquence théorique

d'apparition d'une valeur x en fonction de x. L'une des plus importantes est la distribution gaussienne ou distribution « normale ».

La fréquence théorique d’apparition d'une valeur xi est donnée par :

(7) 2

1)(

2

2

1

−−

= σ

πσ

mx

i

i

exf

Où : m : est la moyenne théorique de la série

σ : est l’écart-type théorique de la distribution gaussienne

On associe à la variable X, la variableσ

m-Xt = , appelée variable gaussienne centrée

réduite (sa moyenne est nulle et son écart-type égal à 1).

3.4.1. Méthode de la DROITE DE HENRY Le test de Henry utilise la distribution gaussienne, c'est à dire la fonction de

répartition normale. Si cette fonction de répartition normale est représentée sur un papier spécial appelé « papier gausso-arithmétique » elle devient une droite appelée « droite de Henry ».

Lorsque le nuage de points de la distribution observée représentant les fréquences cumulées en fonction des valeurs des caractères sur ce papier gausso-arithmétique est pratiquement une droite, on accepte la normalité de la distribution observée à tester, Le contraire signifie le rejet. La procédure du test est comme suit :

1. Prélever un échantillon d'une population à observer, 2. Ranger les valeurs des caractères xi par ordre croissant, 3. Calculer la valeur centrée et réduite (t) de la variable aléatoire X étudiée

x

i xxt

σ

−= (8)

Avec :

x : la moyenne de la population ; xσ : Ecart-type de lapopulation

4. Calculer les fréquences cumulées croissantes Fi, 5. Placer les points de coordonnées (ti,Fi) sur dans un graphe,

6. Prendre une décision suivant l’allure du nuage de points: - Si les points (ti,Fi) sont proches d’une même droite : on accepter la normalité de la population,

Page 13: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

7

- Si ses points sont trop dispersés, on rejette la normalité de la population.

Exemple

La mesure de la taille de 20 arbres plantés il y a deux ans dans une forêt est montrée dans le tableau suivant :

Taille arbre (cm)

170 145 165 155 150 140 160

Fréquence 2 3 5 3 2 1 4

Question

La distribution de la taille des arbres d'une population d’une forêt est-elle compatible avec la loi normale?

Réponse

La variable aléatoire, c'est la taille des arbres. La taille mesurée, en cm, pour chaque arbre est la valeur de cette variable aléatoire.

Cette variable aléatoire sera noté X, sa valeur x.

On trie le tableau dans l'ordre croissant la valeur x (la taille des arbres en cm) de la variable aléatoire X (croissance des arbres), on calcule les fréquences, puis les fréquences cumulées et les valeurs centrées et réduites (t). On obtient le nouveau tableau suivant :

x 140 145 150 155 160 165 170

Effectifs 1 3 2 3 4 5 2

Fréquence 1/20 3/20 2/20 3/20 4/20 5/20 1/20 Fréquence cumulées 1/20 4/20 6/20 9/20 13/20 18/20 20/20

t - 1,93 - 1,37 - 0,81 -0,25 0,31 0,87 1,42

Moyenne = 157,25 cm Ecart-type (σ ) = 8,96

A partir des résultats obtenus (voir tableau ci-dessus), on trace le graphe sur Excel des valeurs centrées et réduites (t) versus les fréquences cumulées (Fi)

Page 14: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

8

0

0.2

0.4

0.6

0.8

1

1.2

-2.50 -2.00 -1.50 -1.00 -0.50 - 0.50 1.00 1.50 2.00

Fré

qu

en

ces

cum

ulé

es

(Fi)

Valeurs centrées et réduites (t)

Figure 1. Graphe t vs Fi

Les nuages de points sont proches de la droite: On accepte la normalité de la population. 4. Exercice.

On mesure la taille en centimètre de 50 jeunes arbres forestiers (voir tableau ci-dessous)

152 152 152 153 153

154 154 154 155 155

156 156 156 156 156

157 157 157 158 158

159 159 160 160 160

160 160 160 161 162

162 162 163 164 164

164 164 165 166 167

168 168 168 169 169

170 171 171 171 171

1. De quel type est la variable taille ? 2. Calculez les paramètres de position et de dispersion de la variable étudiée. 3. Est-ce que la variable suit une loi normale ?

Solution

1. La variable « taille des arbres » est de type quantitatif continu. 2. Les paramètres de position et dispersion sont représentés dans le tableau

suivant :

Nombre d'échantillons 50

Moyenne 160.78 cm

Médiane 160

Mode 160

Écart-type 5.83

Variance de l'échantillon 34.05

Minimum 152

Maximum 171

Etendue 19

Page 15: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

9

3. Afin de vérifier si la variable aléatoires « croissance des arbre » suit une loi normale, on effectue le test de la droite de Henry suivant les étapes suivantes :

(i) On trie le tableau dans l'ordre croissant selon les cm de la taille de chaque arbre, on calcule les fréquences, puis les fréquences cumulées. On calcule la valeur centrée et réduite (t) de chaque valeur. Les résultats obtenus sont montrés dans le tableau ci-dessous.

(ii) On établie le graphe des valeurs centrées et réduites (t) de la variable x en fonction des fréquences cumulées (Fi)

(iii) Le nuage des points est très proche de la droite : on peut conclure que la variable aléatoire « croissance des arbres » représentée par sa valeur x (la taille des arbres en cm) suit une loi normale

Tableau 1 : Fréquences, fréquences cumulées et Valeur centrées et réduite de la variable X

Variable x (cm)

Effectif Fréquence Fréquence

cumulée (Fi) σ

xxt

−=

152 3 0,06 0,06 - 1,50

153 2 0,04 0,1 - 1,33

154 3 0,06 0,16 - 1,16

155 2 0,04 0,2 - 0,99

156 5 0,1 0,3 - 0,82

157 3 0,06 0,36 - 0,65

158 2 0,04 0,4 - 0,48

159 2 0,04 0,44 - 0,31

160 6 0,12 0,56 - 0,13

161 1 0,02 0,58 0,04

162 3 0,06 0,64 0,21

163 1 0,02 0,66 0,38

164 4 0,08 0,74 0,55

165 1 0,02 0,76 0,72

166 1 0,02 0,78 0,89

167 1 0,02 0,8 1,07

168 3 0,06 0,86 1,24

169 2 0,04 0,9 1,41

170 1 0,02 0,92 1,58

171 4 0,08 1 1,75

x = 160,8 σ =5,8

Total = 50

Page 16: INTRODUCTION A LA GÉOSTATISTIQUE

INTRODUCTION

10

Figure 2, Droite du Test De Henry de la variable X

0

0.2

0.4

0.6

0.8

1

1.2

-2.00 -1.00 - 1.00 2.00

Fré

qu

en

ces

cum

ulé

es

(Fi)

Valeurs centrées et réduites (t)

Page 17: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

11

CHAPITRE I

I. LES METHODES D’INTERPOLATION SPATIALE

I.1. Définition de l’interpolation spatiale

L’interpolation est un processus (ou une opération mathématique) consistant à utiliser des points ayant des valeurs connues pour estimer la valeur d’autres points en des sites inconnus (non échantillonnés).)C’est la traduction d'une information disponible pour un nombre de lieux limités vers une information disponible pour tout l'espace.

A partir d’un nombre d’observations géoréférencées, pas nécessairement réparties

régulièrement dans l’espace, ces méthodes cherchent à estimer les valeurs prises par le paramètre observé en d’autres points de l’espace. On parle alors d’estimation spatiale : c’est une procédure consistant à estimer la valeur d’une grandeur en un site à partir de d’échantillons de cette grandeur récoltés dans d’autres sites.

La figure 3 illustre le principe de l'interpolation, elle utilise un voisinage de points

d'échantillonnage de valeurs connues (couleur noire) pour estimer une valeur à un l'emplacement (couleur blanche). Cette méthode d'estimation utilise un rayon spécifique par rapport au point non échantillonné. Ce principe est basé sur la première loi de la géographie de « Tobler » qui stipule les points proches dans l'espace ont plus de chances d'avoir des valeurs similaires que les points éloignés.

Figure 3. Le principe de l’interpolation spatiale (Bajjali, 2018).

Différents exemples qui nécessitent l’interpolation spatiale : • Exploration minière: concentration, réserves et anomalies (éléments toxiques) ; • Qualité de l’eau: Concentration chimique d’un polluants des eaux souterraines ; • Paramètres socio-économiques: densité de la population ; • Conditions météorologiques : rayonnement, évapotranspiration, pluie, température ; • Ecologie : répartition d’une espèce animale ou végétale dans un espace ; • Agriculture et pêche : répartition des rendements dans une parcelle, densité de poisson.

Page 18: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

12

I.2. Problématique de l’interpolation spatiale Les principaux problèmes pour l’application d’une méthode d’interpolation spatiale se

résument en deux points essentiels, ils sont comme suit :

I.2.1. La continuité spatiale De nombreuses variables sont spatialement continues (concentration d’un polluants

dans le sol, altitude, etc.), c’est-à-dire qu’on peut effectuer une observation, au sens statistique, de cette variable en tout point de l’espace. L’échantillonnage in-situ permet de constituer un ensemble d’observations décrivant la distribution spatiale discrète des valeurs prises par cette variable (fig. 4a et fig. 4b).

La spatialisation est la procédure qui consiste à partir de la distribution discrète issue de

l’échantillonnage à constituer une distribution continue donnant des estimations de la variable étudiée en tout point de l’espace géographique étudié. De nombreuses techniques existent allant de la simple interpolation linéaire au krigeage. Le nombre de points échantillonnés est l’un des principaux critères du choix de la méthode d’interpolation à utiliser. D’autres critères relatifs principalement à la nature de la variable et les informations concernant sa variabilité doivent être aussi considérés.

Figure 4b. Valeurs prises par la variable Z (La CE du sol de la plaine du Bas-Chéliff)

Figure 4a. Coordonnées spatiale de la variable Z (Les échantillons du sol de la plaine du Bas-Chéliff)

Page 19: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

13

I.2.2. La distribution spatiale dans un espace géographique En écologie, la distribution spatiale des individus (observations) dans un espace

géographique contient des informations sur le mode d’organisation de ces individus ainsi que leurs interactions avec l’espace considéré. On distingue trois types de distributions : régulière, aléatoire, agrégative (fig. 5)

Figure 5. Les types de distributions spatiales d’une variable dans un espace géographique

(Bajjali, 2018).

Il existe de nombreuses méthodes statistiques de caractérisation d’une distribution spatiale. La plus simple est basée sur la loi de Poisson. Cette loi annoce que si X est une variable aléatoire suivant une loi de Poisson, alors E(X)=V(X). E(X) et V(X) étant l’espérance mathématique et la variance respectivement.

La loi de Poisson :

(8) !

*)(

*

x

exXP

λλ−

==

λ : est la moyenne.

La distribution spatiale peut être caractérisée par un indice de dispersion : I=Variance/moyenne.

Figure 6. La courbe de répartition de la loi de Poisson.

- La variable est géographiquement répartie d’une manière aléatoire : Variance/Moyenne =1

- La répartition est agrégative Variance/Moyenne >>1

- La répartition est régulière Variance/Moyenne <<1

Page 20: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

14

I.3. Les méthodes d’interpolation spatiale

Les méthodes d’interpolation spatiale se divisent usuellement en deux groupes, selon

les modèles mathématiques sur lesquels elles reposent : 1. Méthodes déterministes : elles reposent sur des propriétés purement mathématiques,

généralement géométriques, sans tenir compte du phénomène physique. 2. Méthodes stochastiques : elles font appel à des modèles probabilistes et découlent de

l’analyse statistique des données considérées. On parle alors de techniques géostatistiques.

La figure 7 donne une illustration sur les méthodes d’interpolation spatiale.

NB : Nous intéressant dans ce chapitre à quelques méthodes déterministes les plus communes. Les methodes stochastiques, en particulier la géostatique, seront développées aux chapitres suivants (les chapitres III, IV et V).

Figure 7. Illustration des méthodes d’interpolation spatiale (Bosser, 2012).

I.3.1. Les Méthodes déterministes Les méthodes déterministes peuvent être subdivisées en deux catégories :

- Les Méthodes déterministes globales : Ces méthodes visent à estimer la moyenne arithmétique d’un ensemble d’observations (valeurs de la variable régionalisée) dans un domaine géographique (le champ). Cette estimation n’est pas triviale puisque les observations ne sont pas forcément représentatives et peuvent présenter une densité différente en fonction de la zone du champ, donnant alors une influence trop importante à certaines parties de la zone étudiée.

- Méthodes détermistes locales : Les méthodes déterministes locales sont réalisées pour l’estimation locale et ponctuelle d’une valeur de la variable régionalisée. Cette estimation sera réalisée à partir de combinaisons linéaires des observations en tenant compte de leur disposition les unes par rapport aux autres mais aussi de la distance entre le secteur à estimer et les points de données.

Page 21: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

15

Ces deux types de méthodes détermistes peuvent être utilisées en écologie que se soit les méthodes globales ou locales. Les méthodes globales sont souvent utilisées pour l’estimation des moyenne des classes (ex : densité d’une végétation ou une espèce animale). Les methodes locales, plus utilisées, peuvent être employées dans le cas d’étude de pollution ponctuelle.

I.3.2. Principes et méthodes de spatialisation déterministes

D’une manière générale, la spatialisation consiste à estimer une valeur de la variable Z située en un point « j » à partir des valeurs connues prises par cette même variable en un « m » points « i » ; Zj est alors donnée par l’équation suivante :

∑ ==

m

i iijj ZWZ1 (9)

Où : wij est le poids à attribuer à la valeur de Zi au point i dans l’estimation de Zj au point j.

Toutes les méthodes se distinguent par la manière de déterminer ce poids. La plupart des méthodes déterminent ce poids à partir de la distance entre le point j et le point i. Le Krigeage est au contraire exploite des informations préalables relatives à la variabilité spatiale de lavariable considérée (voir chapitre V).

Nous exposons quelques méthodes déterministes les plus utilisées dans ce chapitre.

I.3.2.1. Méthode des polygones de Thiessen Pour estimer la valeur en un point quelconque, on peut prendre la valeur du point

observé le plus proche. Cette méthode est connue sous les titres de "Méthode des polygones de Thiessen" ou de "Proximal approximation".

La méthode présente l'avantage d'être très facilement programmable et entièrement automatique. La figure 9 présente le principe de construction de tels polygones dans le système d'information géographique Arc/Info (ESRI, 1992).

Figure 8 : Construction des polygones de Thiessen (in Arc/info, ESRI, 2014).

Page 22: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

16

On peut distinguer très aisément les limites d'une telle approche : - l'information utilisée pour estimer la valeur en un point est faible, elle se limite à la

prise en compte d'un seul point observé. - elle suppose sans le vérifier que le point estimé est corrélé au point observé. Or, si la

variable est distribuée de façon aléatoire dans l'espace, cette hypothèse est invalide. - il est impossible d'avoir une idée de la précision des estimations obtenues.

Souvent, On se limite à l'employer de telles méthodes pour avoir une idée de la structure spatiale générale avant de passer à des méthodes plus détaillées.

I.3.2.2. Méthode du plus proche voisin (Nearest Neighbor method of interpolation)

La méthode du plus proche voisin est une méthode d’interpolation simple qui consiste à attribuer à chaque point de la grille la valeur du point le plus proche. C’est aussi la méthode la plus utilisée en télédétection pour remplir les trous d’échantillonnage ou de ré-échantillonner une image raster existante.

Figure 9. Carte interpolée par la méthode du plus proche voisin.

I.3.2.3. Méthode des cellules La méthode des cellules consiste à diviser le champ en cellules rectangulaires de

même taille, contenant chacune un nombre variable de sites d’observation. La pondération des observations lors de l’estimation globale est réalisée à l’aide du nombre de sites contenus dans chaque cellule.

La procédure d’estimation est la suivante :

1. On calcule la moyenne des sites d’observations contenus dans chaque cellule.

Page 23: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

17

2. On calcule ensuite la moyenne des moyennes de toutes les cellules, sans pondération

L’estimation globale du champ étudié est donnée par la formule :

∑ ∑=

=

N n

i

iSN

DZ1

)( 1

)(*α α

α

α

Où N est le nombre de cellules de découpage du domaine (D) contenant au moins un site

d’observation, )( αiS sont les sites d’observation localisés dans la cellule α.

En pratique, l’algorithme est répété plusieurs fois (entre 5 à 10) avec différents découpages dans le but d’obtenir une estimation globale indépendante du réseau.

On peut noter :

(a) Si la taille des cellules est trop petite, chacune contiendra au plus un

site d’observation et les données auront toutes le même poids. (b) Si la taille est trop grande, toutes les observations appartiendront à la même cellule

et auront donc le même poids.

Dans les deux cas, l’estimation globale reviendra alors à calculer la

moyenne arithmétique de toutes les observations.

Figure 10. Exemple de découpage en cellules d’une espace géographique étudié.

I.3.2.3. Méthode de distance inverse (Inverse Distance Weighted). La méthode de distance inverse (connue par IDW) effectue des estimations par

interpolation basée sur les distances entre le point dont on souhaite estimer sa valeur et les points voisins où on dispose déjà de mesures issues de l’échantillonnage.

(11)

Page 24: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE I : LES METHODES D’INTERPOLATION SPATIALE

18

Pour les deux méthodes ci-dessus, l’hypothèse sous-jacente est que la valeur prise par la

variable est proche de celle des points qui lui y sont proches. La valeur Zj à estimer est donnée par la formule suivante :

∑∑== ++

=m

iP

ij

m

iP

ij

ij SdSd

ZZ

11 )(

1/)

)(( (11)

Avec : Zj : Valeur à estimer du point j de la variable Z. Zi : Valeur connue, mesurée au point i de la variable Z dij : Distance entre les points i et j S : facteur de lissage P : Poids attribué à la distance dij

Notons que pour p=1 et s=0, Zj est déterminé par interpolation linéaire des valeurs Zi. Le

poids « p » permet donc d’attribuer plus de poids au point i le plus proche de j.

Figure 11. Exemple d’une carte estimée par la méthode de l’IDW

I.4.Conclusion

Les exemples des méthodes présentées dans le ce chapitre montrent bien que l'estimation d'une propriété dans l'espace géographique suppose deux étapes:

(i) une phase d'analyse de la structure spatiale de la propriété étudiée, pour savoir comment sont corrélés entre eux les points observés.

(ii) une phase d'estimation proprement dite tenant compte de la structure spatiale précédemment identifiée et avec une précision connue.

Ces deux étapes citées sont le principe de la géostatistique que nous allons montrer dans les chapitres suivants (Chapitres III, IV et V)

Page 25: INTRODUCTION A LA GÉOSTATISTIQUE

Chapitre II

La géostatistique : définition et historique

Page 26: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE II : LA GEOSTATISTIQUE ; DEFINITION ET HISTORIQUE

19

CHAPITRE II

II. LA GEOSTATISTIQUE : DEFINITION ET HISTORIQUE

II.1. Définition

Le mot de Géostatistique a fait son apparition en 1962. On peut définir la Géostatistique comme l’étude des variables numériques réparties dans l’espace ou encore la méthode de traitement statistique de données localisées. Il est clair alors que des problèmes essentiellement géostatistiques ont été abordés depuis longtemps : en art des mines certes, mais aussi en météorologie, topographie, hydrologie, hydrogéologie et bien d’autres disciplines.

L’innovation ne réside pas non plus dans l’arsenal mathématique requis. L’introduction et l’étude des « Fonctions Aléatoires » dès les années 1930 par les écoles française et russe ; les outils théoriques que nous utilisons en Géostatistique linéaire étaient en place dès les années 1940 ; et les méthodes comme les moindres carrés de Gauss ou les paramètres de Lagrange, sont des plus classiques et font partie du bagage mathématique de base de l’ingénieur.

Le déclic, si l’on peut dire, qui a conduit à l’élaboration de ce que nous appelons ici et aujourd’hui la Géostatistique, c’est le rapprochement de ces deux domaines : des problèmes techniques parfois forts terre-à-terre d’une part, et d’autre part un arsenal de méthodes mathématiques. Sans doute d’ailleurs, dans l’espace d’une décennie, la Géostatistique s’est élaborée indépendamment dans le domaine minier, dans le domaine forestier (B. Matéron, en Suède), en météorologie (L.S. Gandin, en URSS). Sans doute une recherche bibliographique approfondie trouverait-elle une évolution semblable dans d’autres disciplines encore.

II.2. Histoire de la géostatistique L’histoire de la géostatistique peut être résumée en trois âges :

II.2.1. Période 1950 – 1960 : La première étape La première étape est d’inspiration exclusivement minière. Pour être plus précis, ce sont

les problèmes rencontrés par les mineurs d’or d’Afrique du Sud qui suscitent les premières recherches. L’idée directrice de ces recherches est de pallier les insuffisances de la statistique «classique» constatées dans l’étude des gisements. Le néologisme «krigeage» est là pour rappeler cette rencontre entre une technique mathématique de régression et les difficultés d’exploitation du minerai d’or. Mais déjà, les applications s’étendent à d’autres produits : uranium, fer, nickel, cuivre.

Page 27: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE II : LA GEOSTATISTIQUE ; DEFINITION ET HISTORIQUE

20

Deux traits caractérisent cette première période de la Géostatistique. Au niveau pratique d’abord, les moyens de calculs demeurent rudimentaires, aussi les publications abondent-elles en formules d’approximation, courbes ou abaques, qui progressivement constituent un véritable capital afin d’éviter aux utilisateurs de reprendre des calculs fastidieux. Au niveau théorique ensuite, on remarque que les formalismes qui s’élaborent se placent souvent dans le cadre d’une loi de distribution donnée. Il s’agit non pas tant du modèle Gaussien - inadapté aux variables disséminées - que du modèle log-normal (logarithme de la loi normale), pour lequel se manifeste un engouement extraordinaire dans les années 1950. D’autres modèles de distributions font l’objet de recherches théoriques.

II.2.2. Période 1960 – 1980 : La deuxième étape

Avec la deuxième période de la Géostatistique, que l’on peut situer de 1965 à la fin des années 1970, c’est la référence à des modèles statistiques qui est abandonnée. Ou bien on élabore des modèles qui ne font pas intervenir les lois de distribution (Géostatistique Linéaire), ou bien on se ramène préalablement à des modèles de référence par le jeu des anamorphoses. Parallèlement, on cherche à élargir les hypothèses de travail : c’est le développement d’une Géostatistique Non Stationnaire, puis d’une Géostatistique Non Linéaire. La Géostatistique Non Stationnaire-Non Linéaire reste encore à faire. Des formalismes nouveaux apparaissent : Simulations conditionnelles ou non, Ensembles Aléatoires. Dans ce dernier domaine, il s’agit cette fois d’innovations théoriques. Ce foisonnement méthodologique peut être immédiatement mis en valeur grâce à la remarquable amélioration des moyens de calculs.

II.2.3. Période 1990 – 20… : La troisième étape

Il n’est pas facile de parler de la Géostatistique de troisième génération, actuellement en pleine expansion. Dans un contexte informatique de plus en plus confortable, la Géostatistique se développe dans les directions les plus variées. Les champs d’application ne se limitent plus désormais aux ressources naturelles comme les mines ou le pétrole. Plus fondamentalement, les recherches s’orientent vers des domaines théoriques extrêmement divers. Il est aussi intéressant de noter que l’on se remet à prendre en compte les lois de distribution. Cependant, il ne s’agit pas là d’un quelconque retour en arrière : ce sont au contraire des outils nouveaux dont le besoin se fait sentir et qui sont élaborés actuellement. On peut donc penser que cette troisième phase de la Géostatique est une étape de synthèse, dont il est encore trop tôt pour prévoir les aboutissants.

II.2.4. Récapitulation de l’historique de la géostatistique

La chronologie de l’histoire de la géostatistique peut être résumée comme suit : - 1930 - 1950 Théorème des fonctions aléatoires (Kolmogorov, wiener) - 1955 Daniel Krige (Géologue Sud Africain) : Approche empirique (régression) pour

corrigé les problèmes de biais conditionnel observé dans les mines - 1960 – 1970 Matéron (école des mines – Paris), Gandin (Météorologie) développent

ensemble la théorie de la variable régionalisée. Le terme géostatistique est né, réponse aux questions de Krige.

Page 28: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE II : LA GEOSTATISTIQUE ; DEFINITION ET HISTORIQUE

21

- Mathéron, pour rendre hommage à Daniel Krige décédé en 1956, donne le nom «Krigeage» à la méthode d'estimation développée. - La fin des années 60 et début des années 70, les chercheurs russes ont utilisé la

géostatistique pour estimer la lame d'eau écoulée (précipitation) - Delhomme (1976) est le premier à utiliser la géostatistique en hydrologie de surface

et souterraine. - Les années 80, la géostatistique est utilisée en science du sol (pédologie) : Les

travaux de Webster pour l’estimation de certaines propriétés du sol sont les plus célèbres

- Depuis les années 90 à nos jours, les écologistes (les sciences de l’environnement) utilisent de plus en plus les techniques de géostatistique.

D’une manière générale :

« La géostatistique peut s'appliquer à toutes les sciences de la nature, et plus généralement, à n'importe quelle discipline manipulant des données localisées dans l'espace et nécessitant des modèles décrivant la dépendance spatiale entre ces données ».

II.3. Objectifs de la géostatistique

L’objectif principal de la géostatistique est d’établir des cartes des phénomènes naturels qui soient :

- claires, - faciles à comprendre, - fiables.

Parmi ces phénomènes étudiés, on peut citer : - contamination des sites, - évaluation de volumes de sols à traiter, - communication autour d’une pollution de nappe, - pollution atmosphérique.

- Répartition des rendements des cultures et densité des poissons (Agriculture de précision)

Page 29: INTRODUCTION A LA GÉOSTATISTIQUE

Chapitre III

Introduction aux variables régionalisées

Page 30: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

22

CHAPITRE III

III. INTRODUCTION AUX VARIABLES REGIONALISEES

III.1. Variable aléatoire et fonction aléatoire

III.1.1. Définitions

-Définition simple

Une variable aléatoire (v.a) est fonction dont les résultats possibles sont connus mais dont le résultat final ne peut être déterminé, à priori, avant d'effectuer la mesure (expérience).

Dans la nature il existe de multitude de variables aléatoires, on peut citer : - Lame d’eau précipitée ; - Concentration d’un polluant dans les eaux souterraines ou dans les sols ; - pH de l’eau de pluie.

-Définition mathématique

Une variable aléatoire est définie en associant un nombre réel à chaque éventualité d’une expérience aléatoire. Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à valeurs dans R, X : Ω → R.

Lorsque la variable X ne prend que des valeurs discrètes, on parle de variable aléatoire discrète. On distingue deux types de variables aléatoires :

A. Variable aléatoire discrète

Une variable aléatoire est dite discrète si elle ne prend que des valeurs discontinues dans un intervalle donné (borné ou non borné). L’ensemble des nombres entiers est discret. En règle générale, toutes les variables qui résultent d’un dénombrement ou d’une numération sont de type discret. On peut citer des exemples :

- le nombre de petits par porté pour une espèce animale donnée (chat, chien, etc) : - le nombre de bactéries dans 100 ml de préparation : - le nombre de mutations dans une séquence d’ADN de 10 kb ; B. Variable aléatoire continue

Une variable aléatoire est dite continue si elle peut prendre toutes les valeurs dans un intervalle donné (borné ou non borné). En règle générale, toutes les variables qui résultent d’une mesure sont de type continu. On peut citer comme exemples :

- la masse corporelle des individus pour une espèce animale donnée ;

Page 31: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

23

- la variation des nitrates dans une nappe phréatique ; - la concentration d’un polluant dans le sol ; III.1.2. Description d’une variable aléatoire

Sans connaître la valeur que prendra le résultat final, on peut parfois connaître la probabilité qu’une v.a prenne chacun des résultats possibles. C’est la description la plus complète que l’on puisse faire de la v.a. La fonction qui décrit ces probabilités est la fonction de densité f pour les v.a. continues et c’est la fonction de masse pour les v.a discrètes.

N.B : En géostatistique, la plupart des variables étudiées sont issues de phénomènes naturels, elles sont considérées comme variables quantitatives discrètes. On présentera dans ce chapitre qu’aux propriétés des variables aléatoire discrètes

III.1.2.1. Loi de probabilité

La loi de probabilité d’une variable aléatoire discrète est entièrement déterminée par la probabilité Pi des évènements X= xi, xi parcourant l’univers image X (Ω). La loi de probabilité est donnée par les (xi, Pi)i

Remarque 3.1 : Afin de simplifier l’écriture, on considère souvent l’écriture suivante : PX=xi équivalent à P(X=xi) ou Pi

III.1.2.2. Fonction de répartition

On appelle fonction de répartition d’une variable aléatoire X, la fonction Fx telle que : Fx : R R

t Fx(t) = P(X < t) Concrètement, la fonction de répartition correspond à la distribution des probabilités

cumulées. Le plateau atteint par la fonction de répartition correspond à la valeur de probabilité

1 car : 1=∑i

iP

L’importance pratique de la fonction de répartition est qu’elle permet de calculer la probabilité de tout intervalle R.

Les propriétés associées aux fonctions de répartitions sont les suivantes :

(1) 1)(F0 x ≤≤∈∀ tRt

(2) xF est croissante sur R

(3) 0)(lim =−∞→

tFxt

et 1)(lim =+∞→

tFxt

(4) Si )()()( , aFbFbXaPba xx −=≤≤≤

Page 32: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCT

Exemple 1 :

Imaginons l'expérience su Nous creusons 10 trous d

dans chacun d'eux (voir figure- dans quatre (4) des dix- trois (3) autres trous co- nous en comptons deu- le dernier trou donne tr

Figure 12. Illustration du nSolution Les résultats de l’expérien

numéro pour chaque trou creusuit :

N° Trou 1 2

Nbr. Ver de terre

0 0

Si on note le nombre daléatoire X, elle est définie X

Ω → R avec Ω =0, 0, 0,

On voit que X (Ω) = 0, 1P(X=xi) :

[X=0] = (0, 0, 0, 0) et P

[X =1] = (1, 1, 1) et P

[X=2] = (2, 2) et P

[X=3] = (3) et P(X

On peut organiser les résultatscomme suit : Tableau 2. Répartition des ver

X (Nbrde terr

P(X=x

Fx

CTION AUX VARIABLES REGIONALISEE

24

suivante pour quantifier la biomasse d’un cham dans un champ agricole, et comptons le nomre). ix trous nous n'en trouvons aucuns (0 vers de t

contiennent chacun un ver de terre (1 ver de teeux (2) dans chacun des deux autres trous (2 vetrois (3) vers de terre (3 vers de terre).

u nombre de vers de terre par trou creusé dans

ience peuvent être représentés dans un tableaeusé et le nombre de ver de terre trouvé dans c

2 3 4 5 6 7

0 0 0 1 1 1

e de vers de terres trouvées dans chaque tro

0, 0, 1, 1, 1, 2, 2, 3

, 1, 2, 3 et on peut déterminer aussitôt les évè

P (X=0) = 4/10 = 0.4

P(X=1) = 3/10 = 0.3

P(X=2) = 2/10 = 0.2

P(X=1) = 1/10 = 0.1

ats de l’expérience dans un tableau en représe

ers de terre par trou creusé dans le champ agric

br. Vers rres/trou )

0 1 2 3

xi) 4/10 3/10 2/10 1/10

4/10 7/10 9/10 1

EES

amp agricole : mbre de ver de terre

e terre), terre), vers de terre),

s un champ agricole.

leau en attribuant un s chaque trou comme

8 9 10

2 2 3

trou comme variable

vènements [X=xi] et

sentant P(X=xi) et Fx

ricole.

Page 33: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

25

Pour une v.a, on utilise un diagramme en bâtons pour visualiser la distribution de probabilités et fonction en escalier pour la fonction de répartition.

III.1.2.3. Moment du premier ordre (Esperance mathématique)

Si X est une variable aléatoire discrète de loi de probabilité (xi, pi)i définit sur un nombre fini (n) d’évènements élémentaires alors :

)()(1

xmpxXE i

n

ii ==∑

=

(12)

Où « E(X) » est l’espérance mathématique, elle considérée comme la valeur probable de la variable aléatoire X. Les propriétés de l’espérance sont comme suit :

(1). Si X et Y sont deux variables aléatoires définies sur le même univers Ω.admettant une espérance mathématique, alors :

)()()( YEXEYXE +=+ ;

(2). RaXaEaXE ∈∀= )()(

(3). Si 0E(X) alors 0 ≥≥X

(4). Si X est caractère constant tel que : KE(X) alorsK )X( ==Ω∈∀ ωω

En un point x donné, m(x) représente la ‘moyenne’ autour de la quelle se distribuent les

valeurs prises par multiples réalisation indépendantes de la fonction aléatoire. Il s’agit du paramètre descriptif de base du comportement de F(x) : on établit en effet que l’espérance est la meilleure approximation d’une variable aléatoire par une constante

III.1.2.4. Moment du second ordre (Variance mathématique)

La variance mathématique d’une variable aléatoire V(X) est l’espérance mathématique de l’écart à l’espérance mathématique. C’est un paramètre de dispersion qui correspond au moment centré d’ordre 2 de la variable aléatoire X. C’est l’équivalent de la variance observée S². En effet, lorsque le nombre d’épreuves « n » est grand ; S² tend vers V(X).

Si X est une variable aléatoire ayant une espérance E(X), on appel Variance

mathématique de X le réel de :

Page 34: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

26

(13) )]²)((([)( XEXEXV −=

Comme on peut écrire aussi :

(14) )]²([²)()( XEXEXV −=

Remarque 3.2 : Comme [X-E(X)]² ≥ 0, nécessairement V(X) ≥ 0. Par définition, une variance est toujours positive.

Enfin, Si X est une variable aléatoire ayant une variance mathématique V(X), on appelle

l’écart- type (σ(x)) de X, le réel de :

(15) )()( xVX =σ

-Exemple 2 :

On poursuit avec les mêmes données de l’exemple précédent, le nombre de vers de

terre par trou comme une variable aléatoire (v.a en abrégé) notée X.

Les fréquences précédentes deviennent des probabilités X vaut 0 avec la probabilité

0.4 ("4 chances sur 10"), 1 avec la probabilité 0.3, 2 avec 0.2 et enfin 3 avec 0.1.

L’espérance mathématique E(X) de la v.a X vaut :

E(X) = 0 x 0.4 + 1 x 0.3 + 2 x 0.2 + 3 x 0.1 =1 (12.)

C’est la valeur probable, de X, notée E(X) = 1.

On peut calculer de la même façon l'espérance du carré de la variable ou la Variance

mathématique V(X):

V(X) = 0²x0.4 + 1²x0.3 + 2²x0.2 + 3²x0.1= 2 (13. )

III.1.2.5. Covariance et corrélogramme

La fonction de covariance va permettre de prendre en compte les relations entre l’ensemble des paires de points. Si on prend en compte deux points xi et xj, la covariance peut être définie par l’équation suivante :

)])((*))([()]((),([ mxZmxFExFxFCov jiji −−= (16)

Avec : m = la moyenne

Lorsque le processus est stationnaire au second ordre, la covariance ne va plus

dépendre quede la distance entre les points ji xx − . Si on note h cette distance, on va définir

C(h) calculée pour toutes les valeurs de h en prenant en compte tous les couples de points situés à une distance (h) les uns des autres. Cette fonction de covariance C(h) est définie par :

)])((*))([()]((),([)( mxZmhxFExFhxFCovhC −−+=+= (17)

Page 35: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

27

Elle traduit la façon dont évoluent la covariance des observations lorsque leur distance augmente. Lorsque h est égal à 0, la covariance est égale à la variance.

²)²])([()0( σ=−= mxFEC i (18)

Les propriétés de la fonction de covariance sont les suivantes :

)0()(

)()(

ChC

hChC

=− ( 20)

On définit la fonction d’autocorrélation ρ(h) comme une fonction de h par le rapport

)0(

)(

C

hC. Sa valeur est comprise entre (-1) et (+1). On peut montrer les relations suivantes

lorsque la stationnarité à l’ordre 2 est vérifiée :

))(1²()(

)()0()(

hh

hCCh

ρσγ

γ

−=

−= (21)

L’estimation du corrélogramme (fonction de la covariance) est faite à partir de n(h)

paires de points i (nombre de points distant de h) comme suit : Pour i variant de i=1 à n(h), on a :

))()()(()(

1)(

)(

1

mhxFmxFhn

hC i

hn

ii −+−= ∑

=

(22)

On peut aussi étudier et décrire le comportement simultané de plus d'une variable aléatoire. La fonction de densité conjointe : Fxy (x,y) donne la probabilité que, simultanément X = x et Y = y On a la fonction de densité :

(23) ),(,1),( yxFdxdyyxF xyxy =∫ ∫+∞

∞−

+∞

∞−

(24) ),(],[2

1

2

1

2121 ∫ ∫=<<<<

x

x

y

y

xy dxdyyxFyYyxXxP

Pour justifier l’existence de la covariance d’une variable aléatoire, deux cas se présentent : - Si (X, Y)(Ω) est fini, alors le couple (X, Y) admet une covariance - Si X et Y admettent un moment d’ordre 2, alors le couple (X, Y) admet une

covariance

La covariance est donnée par la formule suivante : (25) ))](())([(),cov( YEYXEXEYX −−−=

Ou par la formule de König-Huygens.

(26) )()()(),cov( YEXEXYEYX −=

Page 36: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

28

La covariance mesure la corrélation entre les deux variables aléatoires X et Y :

- Lorsque cov (X, Y )> 0, on dit que les variables X et Y sont positivement corrélées. L’interprétation d’une covariance positive est la suivante : plus X est élevé, plus, en moyenne, Y est élevé (et réciproquement). - Lorsque cov (X, Y )< 0, on dit que les variables X et Y sont négativement corrélées. L’interprétation d’une covariance positive est alors la suivante : plus X est élevé, plus, en moyenne, Y est petit (et réciproquement). - Enfin, Lorsque cov (X, Y )= 0, on dit que les variables X et Y ne sont pas corrélées. La covariance est un outil pour mesurer la corrélation linéaire entre deux variables aléatoires.

Enfin, le coefficient de corrélation linéaire. Lorsque (X, Y) admet une covariance, on définit le coefficient de corrélation linéaire du couple (X, Y) , et l’on note ρX,Y , le nombre :

(27) )()(

),(

YX

YXCovXY

σσρ +

Propriété de ρX,Y : -1≤ ρX,Y ≤ 1

III.2. Techniques de caractérisation de la loi spatiale En statistique classique, l’inférence des paramètres est rendue possible par la répétition

indépendante des données. En statistiques spatiales, on observe très souvent une réalisation unique des données, par exemple un épisode de pollution à l’ozone, une région agricole particulière, une épidémie végétale, … etc. Pour pouvoir réaliser l’inférence statistique pour un évènement unique, il faut donc en quelques sortes remplacer l’hypothèse sur les répétitions indépendantes par une hypothèse sur le champ aléatoire qui considère d’une part que certaines de ses caractéristiques sont identiques d’un point à l’autre de l’espace, et d’autre part que l’espérance de certaines grandeurs sont accessibles par des intégrales sur l’espace. On pose donc des hypothèses de stationnarité et d’intrinsèque.

III.2.1. Hypothèses de stationnarité

Faire l'hypothèse de la stationnarité revient à compenser l'absence de plusieurs réalisations de la fonction aléatoire par une forme de redondance de l'information au sein d'une seule réalisation.

Il convient toutefois de distinguer plusieurs formes de stationnarité d'une fonction aléatoire, on site :

III.2.1.1. Stationnarité stricte Une fonction aléatoire est une fonction aléatoire stationnaire (FAST) si pour n fini, et

pour tout vecteur inter-support « h », la fonction de répartition conjointe de Z (xi), i = 1…n est la même que celle de Z (xi + h) i = 1…n

Page 37: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

29

La stationnarité stricte ne contient aucune hypothèse concernant les espérances, variances ou covariances, qui peuvent éventuellement ne pas être définies

III.2.1.2. Stationnarité d'ordre 2

Une fonction aléatoire est dite stationnaire à l'ordre 2 (FAST-2) si la covariance existe et ne dépend que du vecteur inter-support h, ce qui implique que l'espérance et la variance existent et ne dépendent pas de x soit :

E(Z(x)) = m (21) Var (Z (x)) = E ((Z (x) - m)²) = C (0) (22)

Cov(Z(x),Z(x+h)) = E(Z(x),Z(x+h)) – m² = C(h) (23)

III.3.2. Hypothèse intrinsèque

Dans le cas des variables régionalisées (VR) qui présentent une variation spatiale qui n'apparaît pas bornée, au moins au sein du domaine d'étude D. Il n'est pas réaliste d'employer une FAST-2 et il convient d'affaiblir encore davantage l'hypothèse de stationnarité.

Une fonction aléatoire est intrinsèque à l'ordre 0 (FAI-0) si ses accroissements d'ordre

1 sont stationnaires d'ordre 2, autrement dit, si les espérances et les variances des incréments Z (x+h) - Z (x) existent et ne dépendent pas de x, soit :

E (Z(x+h)-Z(x)) = m (24)

Var (Z(x+h)-Z(x)) = E((Z(x+h)-Z(x)- m)²) = 2γ(h) (25) avec (h) une fonction nommée demi-variograme (ou semi-variogramme), ou selon l'usage le plus répandu «variogramme».

III. 3 Notion de variable régionalisée

Une variable est dite « régionalisée » lorsque les valeurs qu’elle prend dépendent de sa position dans l’espace (ces coordonnées géographiques). La géostatistique est l’application de la théorie des variables régionalisées à un phénomène qui se déploie dans l'espace et y manifeste une certaine structure, qu'il est régionalisé.

Si F(x) désigne la valeur au point z d'une caractéristique F de ce phénomène, nous dirons que F(x) est une variable régionalisée, en abrégé V.R. C'est là un terme neutre, purement descriptif, antérieur, en particulier, à toute interprétation probabiliste. Du point de vue mathématique, une V.R. est donc simplement une fonction F(z) du point z, mais c'est, en général, une fonction fort irrégulière.

La variable régionalisée se présente sous deux aspects contradictoires (ou

complémentaires) : (i) un aspect aléatoire (haute irrégularité, et variations imprévisibles d'un point à

l'autre).

Page 38: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

30

(ii) un aspect structuré (elle doit refléter à sa manière les caractéristiques structurales du phénomène régionalisé).

La théorie des V.R. se propose donc deux objectifs principaux :

- sur le plan théorique, imprimer ces caractéristiques structurales sous une forme mathématique adéquate ;

- sur le plan pratique, résoudre le problème de l'estimation d'une V.R. à partir d'un échantillonnage fragmentaire.

Exemple 3.3

Revenons aux trous et à leur vers de terre, et supposons que ces trous soient creusés le long de deux lignes (A et B) de telles sorte que le nombre de vers de terre trouvées le long de la ligne soit, dans cet ordre (fig.12).

Figure 13. Illustration du nombre de vers de terre par trou creusé dans deux transects dans un champ agricole.

Les trous de la séquence A possède une structure symétrique très nette et dans le cas B, si la structure existe, elle est très faible et montre une forte irrégularité ; cependant ces 2 séries de 10 mesures admettent la même moyenne et la même variance. Ceci montre qu'on ne peut donc pas appréhender la distribution d'une variable spatiale uniquement à l'aide de ces notions classiques.

Il est donc nécessaire de recourir à une méthode qui analyse à la fois la localisation, la

continuité, l'anisotropie et le caractère transitif d'une telle variable. Pour ce faire, on retient pour hypothèse que les valeurs prises par une variable régionalisée sont une réalisation particulière d'une fonction aléatoire stationnaire douée d'une fonction d'auto-corrélation. Cette fonction aléatoire F (x) est définie par :

- son espérance mathématique (ou moyenne) : m (x) - E (F(x)), - sa variance V(x) = V (F(x)), - sa covariance C(x1,x2) - E F(x1) F(x2) - m(x1) m(x2),

Avec la condition dite de stationnarité : la moyenne, la variance et la covariance sont invariantes par translation :

- m(x) = m la moyenne de F(x) est la même en tous points, - V(x) = v la variance de F(x) est la même en tous points, - la covariance de F(x) dépend de la distance h qui les sépare x1 et x2 dans l’espace, - l'accroissement F(x + h) - F(x) ne dépend que de h.

Page 39: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : INTRODUCTION AUX VARIABLES REGIONALISEES

31

III.4. Le variogramme théorique

Le variogramme théorique (h) est défini par l’hypothèse intrinsèque. L’hypothèse intrinsèque est formée de deux conditions sur les accroissements Z(x+h) - Z(x) de la fonction aléatoire :

- La moyenne des accroissements est invariante pour toute translation du vecteur h dans le domaine. Plus spécifiquement, la moyenne des accroissements est supposée nulle, quelle que soit la position de h dans le domaine.

- La variance des accroissements admet une valeur finie en fonction de h et indépendante de la position de h dans le domaine.

C'est-à-dire :

∈+=−+

∈+=−+

D h xx,Pour tout )(2)()([

Dh xx,Pour tout 0)()([

hxZhxZVar

xZhxZE

γ

Cela nous donne le variogramme théorique :

Dh xx,pour tout ))²]()([(2

1)( ∈+−+= xZhxZEhγ

L’existence de l’espérance des accroissements d’une fonction aléatoire intrinsèque n’implique pas celle de l’espérance de la fonction aléatoire. Une fonction aléatoire intrinsèque peut avoir une variance infinie, tout en ayant une variance des accroissements finie pour tout vecteur h.

Le vaiogramme va être étudié en détaille dans le prochain chapitre (Chapitre IV)

Page 40: INTRODUCTION A LA GÉOSTATISTIQUE

Chapitre IV

La modélisation du variogramme

Page 41: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

32

CHAPITRE IV

IV. LA MODELISATION DU VARIOGRAMME

IV.1. Variogramme théorique et variogramme expérimental

IV.1.1. Introduction à la notion de variogramme

Considérons une propriété notée « Y » connue en « n » points de l'espace géographique, chacun de ces points étant repérés par le vecteur « x » de ses coordonnées géographiques (longitude et latitude). De la sorte, la notation "Y(xi)" représente la valeur observée de la

propriété Y au i ème point d'échantillonnage de coordonnées « xi ».

Pour simplifier, prenons deux points pour lesquels on connaît des valeurs y(x1) et y(x2) de la propriété Y dans un espace géographique tel que le montre la figure ci-dessous.

Pour comparer ces deux valeurs, la façon la plus simple est d'utiliser la variance entre les

observations de ces deux sites, notée « S² ». Elle est par définition égale à :

]²)([()]²)([(²__

2

__

1 YxYYxYS −+−= (28)

où : __

Y est la moyenne entre ces deux observations.

Cette variance « S² », qui traduit l'importance des écarts à la moyenne, est d'autant plus grande que les observations sont différentes et, au contraire, si elle est faible les observations sont de plus en plus identiques. L'équation VI.1 peut être développée pour obtenir une autre expression de la valeur S²:

)]²()([2

1² 21 xYxYS −= (29)

Cette nouvelle équation pour déterminer la variance (eq.VI.2) peut être écrite pour tout couple de sites. Pour cela, considérons deux sites Y(xi) et Y(xi +h) où Y(xi) représente les

coordonnées géographiques d'un des sites et « h » est un vecteur caractérisant la distance entre les sites.

Page 42: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

33

L'équation (28) s'écrit alors :

)]²()([2

1² hxYxYS ii +−= (29)

Calculons à présent la distance géographique séparant y(x1), y(x2), y(x3), y(x4) chacun des points d'observation et considérons les « m » couples de point séparés par une même distance géographique h.

On peut comme précédemment, calculer la variance des observations pour les sites pris deux à deux. La moyenne S² de ces m variances s'écrit en employant (29) :

)]²()([2

1

hxyxym

S i

m

ii +−= ∑

= (30)

Où : m est le nombre de couple

Pour une distance h séparant deux points d'observation, S² rend compte de la ressemblance et/ou la dissemblance des observations faites en ces deux points: il sera d'autant plus grand que ces observations sont différentes et le contraire signifie une grande ressemblance entre les observations. S² est qualifiée de "semi-variance".

De manière intuitive, on conçoit que deux observations soient en général d'autant plus semblables qu'elles sont proches géographiquement l'une de l'autre. Le calcul de S² pour différentes distances h, va permettre de quantifier cette idée: il permet de suivre l'évolution des écarts entre des observations en fonction de la distance qui les sépare.

Mathéron (1965) a montré l’intérêt de cette notion simple et les conditions de généralisation ont été définies par la théorie qu’il a appelée « théorie des variables régionalisées ». Cette théorie montre que la généralisation de l’équation (30) suppose deux conditions, regroupées sous le terme d’hypothèse intrinsèque et qui sont :

- L’espérance de Y est constante quelle que soit la position géographique x :

E [Y(x)] =m ( constante) (31)

- Pour toute distance h, la différence « [Y(x) -Y(x+h)] » a une variance finie, qui ne dépend que de la distance h séparant les points.

Page 43: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

34

VAR [Y(x+h )-Y(x)] = 2λ (h) (32)

= E[Y(x+h) - Y(x)]²

Quand ces deux conditions sont vérifiées, la valeur S² définie dans l'équation (30)

constitue un estimateur non biaisé de la fonction λ(h) définie en éqution (33). Cette fonction

λ(h) est nommée « variogramme ».

2)(

2

))()(()(2

1)( hxyxy

hmh i

hm

ii +−= ∑

=

λ

Où : m est le nombre de couple

Intérêt du variogramme : En étudiant l'évolution du variogramme λ(h) en fonction de la distance h séparant des couples d'observation, on va analyser la façon dont se détériore l'information acquise en un point au fur et à mesure que l'on s'éloigne de ce point.

IV.1.2. Le calcul du variogramme

On cherche à construire un graphique représentant en abscisse les distances h séparant les points et en ordonnée les semi-variances [λ(h)].

La construction du variogramme est illustrée ci-dessous par des schémas établis à partir de 8 points d'observation répartis à distance égale de 1 mètre le long d'un transect.

Figure 14. Illustration du calcul du varriogramme sur un transect de 8 points séparés par une distance h = 1m

Le schéma ci-dessus (fig. 14) montre que le nombre de points participant au calcul du variogramme diminue au fur et à mesure que la distance augmente. Les valeurs de semi-variance risquent donc d'être moins précises pour les grandes valeurs de h.

Exemple de calcul

Soit deux exemples (série A et série B) fictifs correspondant à des observations disposées le long d'un transect à des intervalles réguliers de 1 mètre.

- Calculez pour chacun des exemples: la moyenne, la variance, γ (1), γ (2), γ (3) et γ(4). - Que peut-on conclure ?

(33)

Page 44: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

35

Solution - La moyenne A

22,2)]432101234[(8

11=++++++++== ∑ iA X

nX

- La moyenne B

22,2)]342130124[(8

11=++++++++== ∑ iB X

nX

- La variance A

94.1)²]22.24()²22.23(

)22.22()²22.21()²22.20()²22.21()²22,22()²22,23()²22,24[(8

1²)(

12

=−+−

+−+−+−+−+−+−+−=−= ∑ XXn

S iA

- La variance B

94.1)²]22.23()²22.24(

)22.22()²22.21()²22.23()²22.20()²22,21()²22,22()²22,24[(8

1²)(

12

=−+−

+−+−+−+−+−+−+−=−= ∑ XXn

S iB

La figure 15 illustre la méthodologie de calcul du variogramme de l’exemple des série A et B.

Figure 15. Illustration de calcul des valeurs de γ(h) de la série A et B.

Page 45: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

36

- Le calcul des valeurs de γ(h) des séries A et B est comme suit : h Nbr.

Couples (m)

)]²()([21

)(2

hxyxym

h i

m

i i +−= ∑ =γ

Série A

1h 8 5.0)²]43()²32()²21()²10()²01()²12()²23()²34[(8*2

1)1( =−+−+−+−+−+−+−+−=γ

2h 7 71.1)²]42()²31()²20()²11()²02()²13()²24[(7*2

1)2( =−+−+−+−+−+−+−=γ

3h 6 16.3)²]41()²30()²21()²12()²03()²14[(6*2

1)3( =−+−+−+−+−+−=γ

4h 5 4)²40()²31()²22()²13()²04[(5*2

1)4( =−+−+−+−+−=γ

Série B

1h 8 56.1)²]34()²42()²21()²13()²30()²01()²12()²24[(

8*2

1)1( =−+−+−+−+−+−+−+−=γ

2h 7 92.1)²]42()²31()²20()²11()²02()²13()²24[(7*2

1)2( =−+−+−+−+−+−+−=γ

3h 6 08.3)²31()²43()²20()²11()²32()²04[(6*2

1)3( =−+−+−+−+−+−=γ

4h 5 9.1)²33()²40()²21()²12()²34[(5*2

1)4( =−+−+−+−+−=γ

- Conclusions?

• Les deux séries ont même moyenne et même variance, toutefois on constate clairement qu’elles n'ont pas le même degré de continuité spatiale, la première série (série A) étant nettement plus continue que la seconde (série B) (voir fig. 16).

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1 2 3 4

γ (

h)

Distance (m)

Série "A"

Série "B"

Figure 16. γ (h) vs h des séries A et B

Remarque On peut aussi calculer le variogramme selon certaines directions spécifiques ; pour cela le variogramme est définie par son pas de calcul « h » et sa direction déterminée par un angle (θ ). On parle dans ce cas du variogramme directionnel et l’équation (33) s’écrit :

(34) ))()((),(2

1),( 2

)m(h,

2i

hxyxyhm

h ii +−= ∑=

θ

θθλ

Page 46: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

37

Exemple de calcul de variogramme directionel

Soit une matrice de données 3 x 3 ayant les valeurs suivantes : la distance horizontale et verticale entre 2 éléments consécutifs est de 1 m et « N » indique une donnée manquante (voir schéma ci-dessous).

1. Le calcul du variogramme dans la direction horizontale : θ =0°

h Nbr. Couples

(m) )]²()([

)0,(2

1)0,(

)0,(

2hxyxy

hmh i

hm

i i +−°

=° ∑°

illustration de calcul

1 4 4.48

35)²]22()²27()²56()²63[(

)4*2(

1)0,1( ==−+−+−+−=°γ

2 3 5.72

15

6

45)²]04()²27()²53[(

)3*2(

1)0,2( ===−+−+−=°γ

2. Le calcul du variogramme dans la direction verticale : θ =90°

h Nbr. Couples

(m) )]²()([

)90,(2

1)0,(

)90,(

2hxyxy

hmh i

hm

i i +−°

=° ∑°

illustration de calcul

1 5 4.510

54)²]52()²20()²62()²37()²74[(

)5*2(

1)90,1( ==−+−+−+−+−=°γ

2 3

5.62

13

4

26)²]50()²34[(

)2*2(

1)90,2( ===−+−=°γ

IV.1.3. Variogramme expérimental.

La figure 17 représente, à titre d'exemple, un variogramme sur des données de mesure du pH du sol d’une parcelle expérimentale de 1,5 hectares1, 150 mesures ont été effectuées suivant un échantillonnage régulier (10m x 10m). Sur cette figure (fig. 15), on représente en abscisse différentes distances séparant des couples de points expérimentaux : ces distances sont nommées "pas" (lag en anglais). En ordonnée, on représente les valeurs des semi-variances ou γ(h) calculées suivant l'équation (33).

Ce que peut constater sur cette figure :

1 Parcelle de la station expérimentale de la faculté des Sciences de la Nature et de la Vie, Université de Chlef (Douaoui, 1993)

Page 47: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

38

(i) Jusqu’à un pas de 20 mètres, le variogramme est croissant. Les écarts moyens entre les observations augmentent donc quand la distance séparant ces observations augmente. Les observations "se ressemblent donc de moins en moins", ce qui est conforme à l'intuition. On peut dire également que les observations sont spatialement dépendantes ou liées sur cette distance de 20m.

Figure 17. Un exemple de variogramme expérimental: variogramme moyen du pH du sol

d’une parcelle expérimentale de 1,5 hectare (Douaoui, 1993).

(ii) Au-delà de vingt mètres, le variogramme reste quasi-constant. Quelle que soit la distance, les écarts moyens entre les observations sont identiques. On parlera pour cette gamme de distance d'indépendance spatiale entre les observations.

(iii) La projection du variogramme à l'origine conduit à une valeur de semi-variance non nulle bien que la distance est nulle (h=0).

IV.1.4. Des définitions.

Un certain nombre de termes sont utilisés pour décrire un variogramme de la figure 17 et qui sont :

a. L'effet de pépite (nugget effect) : il s'agit da la valeur de la semi-variance pour une

distance nulle. En théorie, on devrait avoir un γ(h)=0 pour un h=0, mais fréquemment, le variogramme présente une ordonnée à l'origine non nulle (fig. 17). Cet écart est qualifié "d'effet de pépite" (nugget effect en anglais). Il est interprété comme le résultat d'erreurs de mesure de la variable étudiée, ou erreur de positionnement ou d'une variabilité spatiale présente à une distance inférieure au pas d’échantillonnage.

b. Le palier (Sill) : valeur de la semi-variance à partir de laquelle le variogramme ne croît plus (fig.17).

c. La portée (Range): distance à partir de laquelle le palier est atteint (fig.17). La portée est la distance à partir de laquelle les valeurs de la variable entre deux points sont indépendantes (non corrélées) (fig.17).

Page 48: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

39

Figure 18 : Le variogramme expérimental

IV.2. Les modèles du variogramme IV.2.1. Forme du variogramme

L'analyse du variogramme cherche une fonction caractéristique de la structure de la variable étudiée. En premier lieu, on étudie quelques caractéristiques du variogramme :

IV.2.1.1. Comportement au voisinage de l'origine La continuité et la régularité dans l'espace de la fonction aléatoire et donc la variable régionalisée qu'elle présente sont liées au comportement à l'origine du variogramme

Delhomme (1976) distingue 04 types 1. Allure parabolique : comportement dérivable à l'origine, ceci est la caractéristique

d'une variabilité spatiale hautement régulière (fig.19.a) 2. Allure linéaire : γ(h) reste continue à l'origine mais n'est plus dérivable, donc

moins régulière (fig.19.b).

3. Discontinuité à l'origine : γ(h) ne tend pas vers (0) lorsque h tend vers (0), cette discontinuité en h = 0 du variogramme est appelée effet de pépite (fig.19.c) qui est dû : soit à la présence d'une structure dont l'échelle est très inférieure à l'espacement des données et on parle de micro régionalisation des données, soit à la présence d'erreurs de mesures, soit au nombre insuffisant de couples de mesures à faible distance induisant éventuellement une incertitude sur la détermination de l'effet de pépite.

4. Effet de pépite pur (Aléatoire pure) : c'est le cas limite du cas précèdent quand γ (h) ne traduit plus que la seule discontinuité à l'origine (fig.19.d)

γ(h) = 0 est (h) = C0 dès que h > 0

Page 49: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

40

Cela indique que Z(x) et Z(x+ h) sont sans corrélation quelle que soit leur distance (h) non nulle, ce type de modèle s'explique généralement par l'absence d'une structure spatiale, plus fréquemment, par l'existence d'une structure marquée par des erreurs expérimentales ou inférieures au plus petit intervalle d'observation.

Figure 19 : Comportement à l'origine des différents variogrammes (Delhomme, 1976)

IV.2.1.2. Comportement du graphe à l'infini Ces types de variogrammes pourront être borné ou non borné autour d'une valeur du

palier, égale à la variance sur l'ensemble des données.

Dans ce cas, la stationnarité d'ordre II de la variance est vérifiée. Cette longueur est interprétée comme la distance maximale pour laquelle un point présentera une influence sur son entourage. Cette valeur donne la distance au-delà de la quelle elle sont indépendantes (fig.20a, 20b et 20c)

Dans le variogramme non borné (fig. 20d), la stationnarité d'ordre II n'est pas vérifiée

et le variogramme continu à croître sans atteindre un palier. Voltz (1986) donne trois interprétations possibles :

- Le palier n'a pas atteint la portée à l'échelle de notre travail (l’espace étudié) - La variance infinie représentative d'une variable régionalisée respectant

l'hypothèse intrinsèque - La présence d'une dérive pourrait être aussi une explication à ce type de

variogramme.

Page 50: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

41

a : Modèle Sphérique

b : Modèle exponentiel

c : modèle gaussien

d : Modèle en hb

Figure 20 : Principaux modèles de variogrammes utilisés (d'après Delhomme, 1976)

IV.3. Modélisation du variogramme Pour tenir compte des caractéristiques du variogramme dans la démarche géostatistique,

il est indispensable d'ajuster une fonction au variogramme expérimental, ce qui permet d'en résumer les principales caractéristiques.

Ces fonctions doivent présenter deux qualités : - Rendre compte le mieux possible de l'information du variogramme expérimental. - Satisfaire les conditions théoriques : elles doivent être "Semi-Positives"

L'ajustement se fait par l'emploi d'un certain nombre de modèles autorisant essentiellement deux types :

IV.3.1. Modèles croissants non bornés Les modèles non bornés sont montrés par la figure 21 et ils sont définis comme suit :

* Modèle linéaire : γ (h) = C0 + bh………………………………………..(34)

Page 51: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

42

Avec : C0 : L'ordre à l'origine b : la pente de la droite h : distance séparant les points

- cas particulier du linéaire : γ (h) = C0 ……………………………………………(35)

C'est le cas d'un variogramme plat appelé pépidique (effet de pépite pûre) * fonction puissance :

γ (h) = C0 + bhα………………………………………(36) 0 < α <2

Avec : b : la pente de la droite α : un coefficient fixant la forme de la courbe

IV.3.2. Modèles croissants bornés

Les modèles croissants bornés sont montrés par la figure 22 et ils sont définis comme suit :

* Modèle Sphérique :

γ (h) = C0 + C[3h/2a – 1/2(h/a)3]……….si h < a γ (h) = C0 + C………………………..……...si h > a …………….(37)

Avec : C0 : l'ordre à l'origine

C : est le palier moins l'ordonnée à l'origine a : la portée

* Modèle Exponentiel : γ (h) = C0 + C[1 – exp(-h/r)]………………………………….(38)

Avec : C0 : l'ordre à l'origine r : paramètre de la distance égale environ le tier (1/3) de la portée

Page 52: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

43

Figure 21 : Modèles croissants d'ajustement à des variogrammes : linéaire, pépitique et fonction puissance de l'ordre 1.8, 0.5 et 0.2

Figure 22 : Modèle d'ajustement aux variogrmmes bornés: Modèle expérimental et

sphérique

IV.4. Modélisation de l'anisotropie

Le phénomène d'anisotropie se présente quand la variabilité spatiale n'est plus la même dans toutes les directions c'est à dire qu'il y a des directions privilégiées vis à vis du phénomène étudié. L'orientation préférentielle de ces directions incite à rechercher une éventuelle anisotropie dans la variabilité spatiale des propriétés intrinsèques du sol.

Le calcul de l'anisotropie nécessite la construction de deux variogrammes directionnels

modélisés. Le premier est construit dans la direction principale de l'anisotropie et le second dans la direction perpendiculaire à la première. Le rapport entre les valeurs des deux portées relatives aux deux variogrammes directionnels donne la valeur de l'anisotropie, étape qui permet de passer par la suite, au krigeage et donc à l'interpolation.

Distance h

sem

i-va

rian

ce

modèle sphérique

modèle exponentiel

Distance h

sem

i-va

rian

ce

0 0,5 1 1,5 2

modèle linéaire

modèle pépitique

fonction puissance

1,8

fonction puissance

0,2

fonction puissance

0,5

Page 53: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

44

Figure 23. Variogrammes directionnels selon les quatre principales directions

Certains logiciels tels que le Variowin permettent de déceler la présence d’une anisotropie et sa principale direction par le biais du variogramme surfacique (fig. 24). Ce logiciel permet également de calculer la valeur de l’anisotropie par ajustement simultané des deux vriogrammes directionnels.

Figure 24. Exemple d’un variogramme surfacique montrant la présence d’une anisotropie selon une direction principale

Direction principale d’anisotropie

Page 54: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

45

Bien que dans la nature il existe une très grande variété d'anisotropies, en géostatistique, on ne peut modéliser aisément que les anisotropies géométriques.

IV.4.1. Anisotropie géométrique

Les Caractéristiques d’une anisotropie géométrique sont comme suit : - On observe dans diverses directions des paliers et des composantes pépitiques identiques mais des portées différentes (fig. 25b). - Les portées maximales (ag) et minimales (ap) s'observent selon deux directions orthogonales. Ce qui forme une ellipse (fig.25a).

Figure 25. (a) ellipse formé par ag et ap ; (b) variation de de la porté du variogramme dans le cas d’une anisotropie géométrique

Pour rendre les portées identiques (et égales à ag suivant toutes les directions en multipliant la composante de la portée parallèle à ap par le facteur (ag/ap). Bref, les portées décrivent une ellipse dont l'axe majeur est orienté parallèlement à ag.

1)²sin()²cos(

22=+

pa

a

a

a θθ θ

θ

θ (39)

Connaissant ag et ap, on peut trouver aƟ, où Ɵ désigne l'angle mesuré par rapport à la direction où est rencontrée la potée ag (la direction privilégiée).

5.022 ²sin²cos θθθ

gp

pg

aa

aaa

+= (40)

On peut ainsi évaluer γ (h, Ɵ) soit en utilisant aƟ , soit en corrigeant la distance h pour tenir compte de l'anisotropie et on aura :

γ (hƟ, Ɵ) = γ(hg)

Avec hg calculé comme suit :

Page 55: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

46

2

sin)²cos(

+= θθ ϑθ h

a

ahh

p

gg (41)

Exemple

Un gisement 2D est modélisé par un modèle avec anisotropie géométrique. Le modèle est sphérique avec C=17%2 et effet de pépite C0=13%2 et les portées sont de 100m dans la direction de la plus grande continuité (30o) et de 60m dans la direction de la plus petite continuité (120o).

- Quelle est la valeur du variogramme entre deux observations situées aux coordonnées (x1,y1)=(10,30) et (x2,y2)=(40,20)

Solution

On peut résoudre le présent problème par deux méthodes :

- Première méthode :

On calcul la distance séparent les deux points et la direction qui les définissent :

mxxyyh 63.31)²30()²10()²1040()²3020()²()²( 1212 =+−=−+−=−+−=

°−=

−=

−= 43.18

)30(

)10(arctanarctan

12

12

xx

yyθ

Cette direction forme un ange de 48.43° (30° -(-18.43°) = 48.43°) avec la direction de la plus

grande continuité. On calcul la portée dans cette direction aƟ (éq. 40)

5.0)43.48²(sin*)²100()43.48²(cos*)²60(

60*100

+=θa =70.8m

On calcule la valeur du variogramme en utilisant l’équation du modèle sphérique (eq.37) pour la distance calculée plus haut (31.63 m) et avec la portée 70.81m :

%²63.2381.70

63.315.0

81.70

63.31*5.1*%²17%²13)63.31(

3

=

−+=γ

- Deuxième méthode Elle consiste à calculer la distance équivalente dans la direction de meilleure continuité avec la formule précédente, où Ɵ représente l’angle entre la direction de meilleure continuité et la direction définie par les deux points (48.43°). On calcul donc hg en employant l’équation (41) :

mhg 65.44)43.48sin(*63.31*60

100)]43.48cos(*63.31[

22 =

+=

Page 56: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

47

Etant donné que : γ (hƟ, Ɵ) = γ(hg), on calcul la valeur du variogramme en utilisant l’équation du modèle sphérique (éq.37) pour la distance 44.65 m et avec la portée ag = 100m :

%²63.23100

65.445.0

100

65.44*5.1*%²17%²13)65.44(

3

=

−+=γ

IV.5. Stratégie pour le calcul de variogrammes et l’ajustement des modèles

Pour le calcul et l’ajustement des variogrammes il faut tenir compte des points suivants : - On accorde plus de poids aux points du variogramme expérimental calculés avec

beaucoup de paires. - On essaie d’avoir un nombre de couple supérieur à 30 minimum (idéal 50 couples)

pour chaque point expérimental du variogramme. Si ce n’est pas possible pour certaines classes, on accorde moins d’importance à ces points. Si le nombre de paires est très faible, on ne considère plus du tout le point.

- On accorde plus de poids aux premiers points du variogramme (h petit) car ce sont ces valeurs qui ont le plus d'impact dans les calculs géostatistiques.

- Lorsque « h » dépasse environ dmax/2, on ne tient pas compte des valeurs du variogramme. (dmax est la taille du phénomène étudié dans la direction considérée).

- On cherche à obtenir des modèles les plus simples possible qui rendent bien compte des valeurs expérimentales.

IV.6. Exercices corrigées

1. On vous donne 2 portions de forage sur lesquelles sont indiquées les teneurs d’un

polluants du sol (en ppm) pour des carottes séparées de 3m. les 2 forages sont espacés de 9m de centre à centre (le dessin n’est pas à l’échelle).

- Calculez le variogramme expérimental omnidirectionnel à la distance h=9m exactement

en prenant soin d’indiquer toutes les paires utilisées.

Solution à 9m on a les paires : (5.2 , 9.1) ; (2.3, 4.3) ; (5.2, 8.1) ; (4.6, 2.7) ; (5.2, 5.2) ; (2.3,4.6) ; (3.7, 6.3) ; (9.1, 8.1) ; (4.3, 2.7) m(h) = 9 couples

[ ]²)7.23.4()²1.81.9()²3.67.3()²6.43.2()²2.52.5()²7.26.4()²1.82.5()²3.43.2()²1.92.5(9*2

1)( −+−+−+−+−+−+−+−+−=hγ

6.218

84.48)( ==hγ

Page 57: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

48

2. La figure suivante montre les mesures du pH du sol sur une carotte de 20 cm de profondeur en certains points.

- Quelle est la valeur du variogramme expérimental dans la direction 90o (azimut)

pour la distance h=20m? Indiquez clairement toutes les paires considérées dans votre calcul.

Solution La direction 90° à partir de l’azimut est la direction horizontale dans la figure, on a quatre

couples (voire figure ci-dessous) :

[ ] 07.08

57.0)²3.72.7()²9.75.7()²6.74.7()²4.78.6(

4*2

1)( ==−+−+−+−=hγ

3. Les variogrammes de la figure ci-dessous sont obtenues dans de différentes directions.

a) Décrivez le modèle de variogramme illustré sur ces figures.

b) Soit deux points espacés de 20m et définissant un azimut de 43°. Quelle est la covariance entre ces deux points?

c) Les données ayant servi au calcul des variogrammes ont été obtenues à partir d’une procédure analytique assurant une bonne précision. Quelle serait la conséquence sur le variogramme d’utiliser une procédure d’analyse moins précise ?

Page 58: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE III : LA MODELISATION DU VARIOGRAMME

49

Solution 3. a. Modèle sphérique avec C0=2, C=10 (C0 + C = 12) et portées décrivant une anisotropie

géométrique, avec ag=100 dans la direction 55° et ap=30 dans la direction 145° (voir figures)

b. L’angle entre la direction 43° et la direction 55° est de 12° (55° - 43°= 12°). La portée dans cette direction est obtenue en cherchant aƟ qui est calculé en appliquant l’équation (40) :

ma 4.83

)12²(sin*)²30()12²(cos*)²100(

30*1005.012 =

+=°

La valeur de la covariance dans cette direction (12°) et une distance 83.4m.

48.64.83

205.0

4.83

20*5.1*102)4.83(

3

=

−+=γ

c. Le modèle va présenter un effet de pépite plus important.

Page 59: INTRODUCTION A LA GÉOSTATISTIQUE

Chapitre V

Estimation d'une teneur ponctuelle (krigeage)

Page 60: INTRODUCTION A LA GÉOSTATISTIQUE

CHAPITRE V : ESTIMATION D'UNE TENEUR PONCTUELLE (KRIGEAGE)

50

CHAPITRE V

IV. ESTIMATION D'UNE TENEUR PONCTUELLE (KRIGEAGE)

V.1. Introduction

Le krigeage, le deuxième outil de la géostatistique, est une méthode d’interpolation applicable à des données spatiales et qui consiste a estimé la teneur ponctuelle de la variable étudiée en des sites non échantillonnés. La théorie du krigeage a été développée par un mathématicien français G. Matheron, école des Mines de Paris au début des années 1960 (voir chapitre III), à partir des travaux de l’ingénieur minier sud-africain D. G. Krige. En effet, durant les années 50, Krige a développé une série de méthodes statistiques empiriques afin de déterminer la distribution de minerais à partir d’un ensemble de forages. Pour rendre hommage à D. Krige, Mathéron a nommé ce deuxième outil de la géostatistique par le « Krigeage ». Il existe plusieurs types de krigeages, nous allons exposer, dans le cadre de ce chapitre, le krigeage ordinaire (KO) et le krigeage simple (KS) V.2. Le krigeage ordinaire

Le krigeage est défini comme un estimateur Y* d'une propriété Y en un point quelconque de l'espace géographique. Cette estimation est faite à partir des observations effectives y(x) de cette propriété. Il fournit ensuite un indicateur de la précision de l'estimation faite à travers une variance d'estimation.

V.2.1 Aspects théoriques

L’objectif du krigeage est d’estimer la valeur de la variable régionalisée à interpoler Y(.) en un site non échantillonné noté x0. La première étape pour atteindre ce but consiste à déterminer le « voisinage de krigeage ». Ce voisinage se définie par le domaine du champ D contenant x0 ainsi que les sites x1 à xn associés aux observations utilisées dans la prévision de Y(x0). Ces sites doivent former un sous-ensemble de l’ensemble du site d’observation. Le choix du voisinage de krigeage se base sur une certaine connaissance de la structure de dépendance spatiale entre les observations. La taille n de ce voisinage doit cependant être assez grande pour mener à une estimation précise.

La forme la plus simple et la plus employée de cette technique est celle du krigeage linéaire. L'estimation y*(x0 ) faite en un point x0 par le krigeage linéaire est telle que:

)()(*1

0 ∑=

=n

iii xYxY λ (42)

Ou : n est le nombre expérimentaux pris en compte dans l’estimation

iλ est le poids affecté au point expérimental xi

Page 61: INTRODUCTION A LA GÉOSTATISTIQUE

51

Cadran 01 : Développement de l’équation du krigeage ordinaire. Si on cherche à estimer un bloc v centré au point x0. On note Yv la vraie valeur (inconnue) de ce bloc

et *

vY l'estimateur que l'on obtient.

)()(1

0* ∑

=

=n

iiiV xYxY λ

Y(xi) désigne la variable aléatoire correspondant aux points échantillonnés

Si on cherche à minimiser ; on écrit :

][2][][][ ***2 YYCovYVarYVarYYVar vvve −−+=−=σ

La substutution de l’expression de l’estimateur dans cette équation , on obtient :

],[2],[][11 1

2j

n

iviji

n

i

n

jjive YYCovYYCovYVar ∑∑∑

== =

−+= λλλσ

Pour que l’estimateur soit sans biais, il faut :

11

=∑=

n

iiλ

En effet, dans ce cas :

∑∑==

===n

iii

n

iiv mmYEYE

11

* ][][ λλ

Nous avons un problème de minimisation d’une fonction quadratique (convexe) sous contrainte d’égalité que nous pouvons solutionner par la méthode de Lagrange

−+−+=

−+=

∑∑∑∑

=== =

=

n

iij

n

iviji

n

i

n

jjiv

n

iie

YYCovYYCovYVar

L

111 1

1

2

12],[2],[][

12)(

λµλλλ

λµσλ

Où µ est le multiplicateur de Lagrange.

Le minimum est atteint lorsque toutes les dérivées partielles par rapport à iλ et par rapport à µ

s’annulent. Ceci va conduire un système d’équation du krigeage ordinaire qui s’écrit comme suit :

1

....1 ],[],[

1

1

=

=∀=+

=

=

n

jj

jiji

n

jj niYYCovYYCov

λ

µλ

La variance d'estimation minimale, appelée variance de krigeage, est obtenue en substituant les équations de krigeage dans l'expression générale pour la variance d'estimation:

µλσ −−= ∑=

],[][1

2iv

n

iivK YYCovYVar

On note que Cette variance de krigeage ne dépend pas des valeurs observées, elle ne dépend que du variogramme et de la configuration des points servant à l'estimation par rapport au point (ou bloc) à estimer. Le système du krigeage s’écrit en termes de variogramme :

Page 62: INTRODUCTION A LA GÉOSTATISTIQUE

52

1

...1 ),(),(

1

1

=

=∀=−

=

=

n

jj

iji

n

jj nixvxx

λ

γµγλ

On obtient alors :

µγγλσ −−∑=

),(),(1

2 vvxv i

n

iiK

La forme matricielle du système de krigeage ordinaire :

0'0

22

000

0K

KK

vK λσσ

λ

−=

=

•••••

0111

1),(),(

1),(),(

1),(),(

221

22

12

1212

σ

σ

σ

YYCovYYCov

YYCovYYCov

YYCovYYCov

nn

n

n

•=

µ

λ

λ

λ

λ

nvn

v

v

YYCov

YYCov

YYCov

2

1

0

2

1

,

1

),(

),(

),(

Plus simple, pour résoudre le système d’équation induit par la recherche des poids iλ , il

faut introduire les conditions d’optimisation. Ces conditions sont les suivantes : - non biais

0)]()(*[ =− xYxYE (43)

- variance d’estimation minimale

minimale)]()(*[ xYxYVAR − (44)

Le problème à résoudre pour estimer la valeur d'une propriété Y consiste donc à calculer le

poids iλ affecté à chaque point observé.

Quand l'hypothèse intrinsèque est vérifiée (Chapitre IV), l'ajustement d'une fonction autorisée au variogramme expérimental permet de résoudre le système défini par les équations

42, 43 et 44. De la sorte, on peut calculer les poids iλ de l'équation 42 et donc la valeur de

l'estimation Y*(x0).

Le calcul du poids affecté à un point observé ne dépend pas du tout de la valeur de la variable étudiée en ce point. Il dépend uniquement: - de la structure spatiale de la variable révélée par le variogramme - de la distance géographique du point observé au point à estimer.

Page 63: INTRODUCTION A LA GÉOSTATISTIQUE

53

V.2.2. Compréhension par l'exemple.

La figure 26 illustre sur un cas fictif le calcul des poids iλ de l'estimation par krigeage

en relation avec des variogrammes différents.

On considère dans tous les cas: - que le point à estimer a pour coordonnées (0,0); - qu'on dispose de vingt points observés.

On indique, en chaque point observé, le poids qu'il prend dans l'estimation avec trois types de variogrammes différents.

- Cas (A), le variogramme est de type pépitique indiquant une distribution aléatoire de la variable dans l'espace. Il n'y a donc pas lieu de privilégier dans l'estimation les points proches par rapport aux points éloignés. Les poids affectés à l'ensemble des points observés sont donc identiques. L'estimation consiste dans ce cas à faire une moyenne locale.

- Cas (B), le variogramme est de type linéaire croissant. Les points proches du point à

estimer sont donc beaucoup plus corrélés au point à estimer que les points éloignés. De ce fait, les quatre points situés à une distance "1" du point à estimer sont prépondérants dans l'estimation: ils se voient attribuer 88 % du poids total.

- Cas (C), le variogramme est de type exponentiel avec une portée de l'ordre de 2. Le poids

affecté aux points observés est donc maximal pour les points distants de "1" et minimal pour ceux distants de "3". Mais pour une distance de "1", la valeur de la semi-variance est déjà importante, de l'ordre de 75 % de celle observée au palier. Entre les distances "1" et "3", le niveau de corrélation entre les points observés et le point à estimer varie donc relativement peu. Ceci explique que les poids sont proches les uns des autres dans ce cas de figure.

Page 64: INTRODUCTION A LA GÉOSTATISTIQUE

54

Figure 26. Poids affectés (* 100) aux points observés dans l'estimation par krigeage en un point de coordonnées (0,0). Trois situations sont présentées:

A: Le variogramme est de type pépitique: )(hλ = 0,079

B: Le variogramme est linéaire croissant: )(hλ = 0.05h

C: Le variogramme est exponentiel: )(hλ = 0.79 (1- exp(-h/0.7))

Page 65: INTRODUCTION A LA GÉOSTATISTIQUE

55

V.3. Le krigeage simple

Si la moyenne "m" du champ D à estimer est connue (ou du moins on en possède un estimé fiable), on peut alors former un estimateur sans biais sans imposer la contrainte que la somme des poids soit égale à 1.

)(* mYmY i

n

iiv −=− ∑λ (45)

La variance d’estimation est donné par l’équation suivante ;

),(2),()(11 1

2iv

ni

iijij

ni

i

nj

jive YYCovYYCovYVar ∑∑∑∑

=

=

=

=

=

=

−+= λλλσ (46)

Comme pour le krigeage ordinaire, l’idée est de choisir les λi de façon à minimiser la

variance d’estimation2eσ . Pour cela, il faut trouver le minimum, on dérive

2eσ par rapport à

chacun des valeurs de λi et l’on pose ces dérivées partielles égales à 0. Il faut retenir que :

Le systeme de krigeage simple (KS) ne peut s’écrire directement en termes de

variogrammes puisqu’on n’a pas 11

=∑=

n

iiλ

En termes pratiques, les estimés obtenus par krigeage ordinaire (KO) et simple (KS) sont très similaires lorsqu’on effectue le krigeage à courte distance par rapport aux points connus et par rapport à la portée du variogramme et que ce dernier montre une structure importante.

N.B : En règle générale, l’estimation par Krigeage ordinaire est préférable au krigeage simple car elle beaucoup plus fiables

V.4. Propriétés du krigeage

Les principales propriétés et caractéristiques associées au krigeage sont : - Linéaire, sans biais, à variance minimale, par construction. - Interpolateur exact. : si l’on estime un point connu, on retrouve la valeur connue. - Présente un effet d'écran: les points les plus près reçoivent les poids les plus

importants. Cet effet d'écran varie selon la configuration et selon le modèle de variogramme utilisé pour le krigeage (voir exemple plus haut). Plus l'effet de pépite est important, moins il y a d'effet d'écran.

- Tient compte de la taille du champ à estimer et de la position des points entre eux. - Par l'utilisation du variogramme, le krigeage tient compte de la continuité du

phénomène étudié (effet de pépite, anisotropie, etc.). - Effectue généralement un lissage, i.e. les estimations sont moins variables que les

teneurs réelles (point ou bloc) que l'on cherche à estimer. - Transitif. Si l’on observe en un point une valeur coïncidant avec la valeur krigée pour

ce point, alors les valeurs krigées en d'autres points ne sont pas modifiées par l'inclusion de ce nouveau point dans les krigeages. Par contre les variances de krigeage, elles, sont diminuées. De même, si l’on krige un certain nombre de points et que l’on utilise les valeurs krigées comme si c’étaient de nouvelles

Page 66: INTRODUCTION A LA GÉOSTATISTIQUE

56

V.5. La variance d'estimation Il est indispensable de disposer d'une grandeur indiquant la précision des estimations

faites. Cette grandeur est fournie en un point x0 par la variance d'estimation )( 02 xeσ

La résolution des équations (42), (43) et (44) conduit à une écriture de la variance

d'estimation telle que:

ψγλσ +=∑=

),( 01

2 xxi

n

iie (47)

où : x0 est le point à estimer

xi sont les points observés

λi sont les poids des points observés γ(x

i,x

0) est la semi-variance entre un point observé et le point à estimer

Ψ est un multiplicateur de Lagrange

Cette écriture montre que la variance d'estimation dépend:

- de la structure spatiale de la variable étudiée, à travers la forme générale du variogramme. La variance d'estimation sera d'autant plus grande que le variogramme présente des valeurs de semi-variance élevées.

- de la distance du point à estimer aux points observés. L'estimation en un point proche d'un point observé sera en règle générale plus précise que celle en un point très éloigné de tout point observé.

La façon la plus simple pour interpréter la variance d'estimation 2eσ est la suivante :

- Si les erreurs d'estimation sont supposées normales, la connaissance de la variance

d'estimation )( 02 xeσ et donc de l'écart-type d'estimation )( 0xeσ permet de définir

un intervalle de confiance à 95% de la vraie valeur Y(x0) d'une propriété Y en un point x

0 tel que:

[y*(x0) - 2 )( 0xeσ , y*(x0) + 2 )( 0xeσ ] (48)

où: y*(x0) est l'estimation par krigeage de Y au point x

0.

Cet intervalle de confiance est d'abord à comparer à l'étendue générale de la variable sur le domaine d'étude pour savoir si l'estimation effectuée présente un intérêt. Cet intervalle de confiance doit ensuite être confronté aux exigences de précision de l'utilisateur.

Page 67: INTRODUCTION A LA GÉOSTATISTIQUE

57

Exemple :

Si l'utilisateur cherche à estimer la Conductivité électrique du sol (CE) avec une précision de ± 0.1 dS/m et que l'intervalle de confiance lui indique une précision de ±0.5 dS/m, ses exigences de précision ne sont pas satisfaites. La solution passe alors en règle générale par un échantillonnage supplémentaire.

Cadran 2 : La variance d’estimation En résumé, la variance d'estimation, révélatrice de la précision d'une estimation dépend de deux grands facteurs : - d'une part, de la structure spatiale de la propriété étudiée. La variance d'estimation est d'autant plus faible que le variogramme présente des valeurs faibles. On conçoit en effet intuitivement qu'il est plus facile d'avoir une estimation fiable d'une propriété qui varie peu, que d'une propriété très chaotique. - d'autre part, de l'échantillonnage effectué. Là encore, on conçoit que la précision d'une estimation soit d'autant meilleure que l'échantillonnage est important.

V.6. Autres formes de krigeage.

- le krigeage-bloc est une simple extension du krigeage ordinaire ponctuel que nous avons présenté. Au lieu de faire une estimation en un point, l'estimation porte sur la valeur moyenne d'une propriété sur une surface. Cette technique est utilisée pour obtenir des cartes plus lissées ou pour estimer des stocks.

- le krigeage disjonctif: l'estimation d'un point à estimer se fait par une fonction plus générale qu'une simple combinaison linéaire des valeurs aux points observés. Cette technique permet de tracer des cartes de probabilité qu'une variable dépasse un seuil donné. Elle est donc souvent utilisée dans des problèmes de pollution.

- le co-krigeage: il exploite la corrélation pouvant exister entre deux variables. Il est utilisé quand on dispose de deux variables corrélées entre elles, l'une étant difficile à acquérir (par exemple, mesure physique de laboratoire), l'autre étant facile d'accès (par exemple, observation de terrain). Le co-krigeage permet de cartographier une variable peu échantillonnée en utilisant les observations plus nombreuses d'une variable facile d'accès. Un exemple d’emploi est la cartographie d’une propriété du sol en se fondant sur ses corrélations avec la topographie déduite d’un Modèle Numérique de Terrain.

- le krigeage d’indicatrices: permet de traiter des variables nominales ou qualitatives ordonnées. Il s’agit d’une approche non paramétrique reposant sur une transformation préalable de la variable étudiée en indicatrices prenant la valeur 0 ou 1 selon des seuils choisis de la variable. Cette approche est bien adaptée au cas où l’on s’intéresse particulièrement aux valeurs extrêmes (par exemple, valeurs élevées en cas de pollution) qui ont tendance à être éliminées par le krigeage ordinaire.

Page 68: INTRODUCTION A LA GÉOSTATISTIQUE

58

V.7. La validation croisée

La validation croisée consiste à enlever un nombre de points Parmi les points échantillonnés, pour faire la validation des méthodes de krigeage Ces points ne sont pas introduits dans le calcul des variogrammes et d'estimation par krigeage, mais ils sont, pour toutes les variables confondues, estimés en leurs localisations à partir d'autres points mesurés, ce qui permet de comparer les valeurs de variables mesurées Y(.) à celles estimés Y*(.). Les critères retenus pour cette validation sont :

• L'erreur moyenne (EM) : elle doit être proche de zéro pour qu'il n'y ait ni surestimation, ni sous-estimation systématique. Elle est calculée par la formule suivante :

EM = ))()(*(1

1i

n

ii xYxY

n−∑

=

(49)

• La racine quadratique de l'erreur moyenne (RQEM) : elle est calculée par la formule (50), autant sa valeur est faible, autant l'estimation est bonne.

RQEM = ∑=

−n

iii xYxY

n 1

)]²()(*[1

(50)

• L'erreur standardisée moyenne (ESM) : qui est le rapport entre l'écart quadratique et la variance d'estimation, elle vérifie la précision de l'estimation de l'écart type d'estimation. Les meilleurs résultats sont obtenus lorsque sa valeur est proche de 1.

ESM = )(

)]²()(*[1 1

i

n

iii

x

xZxZ

n σ

∑=

(51)

• La racine de l'erreur standardisée quadratique moyenne (RQESM) : on aura une sous-estimation si sa valeur est inférieure à 1, et dans le cas contraire une surestimation. Elle est calculée par la formule suivante :

RQESM = )(

)]²()(*[1 1

i

n

iii

x

xZxZ

n σ

∑=

(52)

V.8. Exercices corrigées

1. On vous présente les six profils suivants obtenus par krigeage ordinaire avec des modèles différents et en utilisant les observations indiquées par des ∆ .

Page 69: INTRODUCTION A LA GÉOSTATISTIQUE

59

a) Associez à chaque modèle de variogramme le profil de krigeage correspondant (A à F)

N Modèle Figure

1 Sphérique C0/C = 0 ; a = 50

2 Sphérique C0/C = 0.1 ; a = 50

3 Sphérique C0/C = 1.0 ; a = 50

b) À la question précédente, seul le ratio C0/C est fourni au lieu des valeurs séparées de C0 et C. Qu’est-ce quichange dans le krigeage si le ratio C0/C=1 est obtenu avec C0=10,C=10 plutôt que C0=5 et C=5?

Solution

a. 1) fig.C ; 2) fig.F ; 3) fig.B

b. Les estimés demeurent inchangés. La variance de krigeage serait deux fois plus grande avec C0=10 et C=10 qu’avecC0=5 et C=5.

2. Dans un krigeage ponctuel, a) Est-il possible d’avoir les poids λi , i=1...n, de krigeage simple(KS) tous égaux à zéro? Si oui, indiquez dans quelle situation. Si non, dites pourquoi. b) Est-il possible d’avoir les poids λi , i=1...n, de krigeage ordinaire(KO) tous égaux à zéro? Si oui, indiquez dans quelle situation. Si non, dites pourquoi.

Page 70: INTRODUCTION A LA GÉOSTATISTIQUE

60

Solution a. Pour KS oui, si tous les points disponibles sont à une distance supérieure à la portée du point à estimer.(indépendamment de la distance des points entre eux). b. Pour KO, Non. La contrainte dans ce cas est que la somme des poids (λi) =1 l’empêche. 3. Soit les points X0 (0,1), X1 (1,0) , X2(0,0) et X3(3, 0) sur les quelles on a mesuré la propriété Z dont les valeurs sont comme suit : Z1 = 9 ; Z2 = 9 et Z3 = 4 (voir figure ci-dessous

- On cherche à estimer la propriété Z0 sur le point x0 (0,1)

On suppose que la variable Z possède un variogramme sphérique avec :effet de pépite C0 =1 ; un pallier C=1 et une portée a = 3. Solution

- Tout d’abord, on calcule les distances (hij) entre les différents points que nous présentons dans la matrice suivante :

- Exemple : distance entre X0 (0,1) et X1 (1,0) se calcul comme suit :

41.1211)²01()²10(1,0 ==+=−+−=xxh

Points X0 X1 X2 X3 X0 0 1.41 1 3.16

X0 1.41 0 1 2

X1 1 1 0 3

X3 3.16 2 3 0

- Connaissant le variogramme de Z, on calcul les différentes covariances selon les différents h obtenues :

Page 71: INTRODUCTION A LA GÉOSTATISTIQUE

61

3h0 si

3h si 11

3*5.0

3*5.1101

0h si 0

)(3

<<

−+

=

=hh

Points X0 X1 X2 X3 X0 0 7.53 5.81 11 X0 7.53 0 5.81 9.52

X1 5.81 5.81 0 11 X3 11 9.52 11 0

- On calcule la covariance correspondante en utilisant la relation C(h) =σ2 - γ(h) = 11 -

γ(h). On obtient le tableau suivant :

Points X0 X1 X2 X3 X0 11 3.47 5.19 0 X0 3.47 11 5.19 1.48

X1 5.19 5.19 11 0 X3 0 1.48 0 11

Ceci permet de construire le système de krigeage présenté plus haut :

1

0

19.5

47.3

*

0111

111048.1

101119.5

148.119.511

3

2

1

=

µ

λ

λ

λ

Le système s’écrit :

1

01148.1

19.51119.5

47.348.119.511

321

31

21

321

=++

=++

=++

=+++

λλλ

µλλ

µλλ

µλλλ

La résolution des systèmes d’équation donne

188.0 ; 578.0 ; 234.0 321 === λλλ

La valeur estimée de la propriété Z en x0 (0,0) est :

∑=

=++==n

iii xZxZ

10 6.44*188.03*578.09*234.0)(*)( λ

Z(x0) = 4.6

Page 72: INTRODUCTION A LA GÉOSTATISTIQUE

Bibliographie

Page 73: INTRODUCTION A LA GÉOSTATISTIQUE

BIBLIOGRAPHIE

62

BIBLIOGRAPHIE

ALLARD D. (2012). Statistiques spatiales : introduction à la géostatistique. Cours Université Montpellier II (France). 42P.

BAJJALI W.(2018). ArcGIS for Environmentaland Water Issues. Ed. Sringer. 363p

https://doi.org/10.1007/978-3-319-61158-7

BOURENNANE H, KING D, CHERY P, BRUAND A (1996) Improving the kriging of a soil variable using slope gradient as external drift. European Journal of Soil Science 47, 473-483.

BOURGAULT G, JOURNEL AG, RHOADES LI, CORWIN DL, LESH SM (1997)

Geostatistical analysis of a soil salinity data set. Advances in Agronomy 58, 241- 292. BOSSER P. (2012). Interpolation Spatiale. Cours de l’Ecole Nationale Des Sciences Géographiques

(ENSG)- France. 53P BURGESS T.M. et WEBSTER R. (1980a) - Optimal interpolation and isarithmic mapping of soil

properties. I. The semi-variogram and punctual kriging. J. of Soil Sci., 31: 315-331

BURGESS T.M. et WEBSTER R. (1980b) - Optimal interpolation and isarithmic mapping of soil properties. II.Block kriging. J. of Soil Sci., 31: 333-341

BURGESS T.M., WEBSTER R. et McBRATNEY A.B. (1981) - Optimal interpolation and isarithmic mapping of soil properties. IV. Sampling strategy. J. of Soil Sci., 32: 643-659

BURROUGH P., MCDONNELL R. (1998) Principles of Geographical Information Systems, Oxford University Press, 194 p.

CRESSIE N. (1991) - Statistics for spatial data. Wiley Series in Probability and Mathematical

Statistics. John Wiley and Sons, 900 p.

DELHOMME J.P. 1976. Application de la théorie de la variable régionalisée dans la science de l'eau. Thèse Doc. Ing.. ENSM de Paris. 130P

DOUAOUI A., 1993. Variabilité spatiale de quelques propriétés physico-chimiques des sols du moyen Chéliff,

incidences cartographique. Thèse Magist., INA Alger. PP 22 – 97 ESRI (2014). Geostatistical Analyst Tutorial. GASCUEL-ODOUX C., BOIVIN P. et WALTER C. (1994) - Eléments de géostatistique. In

Laudelout H., Cheverry C. et Calvet R., «Modélisation mathématique des processus pédologiques », Actes Editions, Manuels Scientifiques et Techniques, 217-248.

GOOVAERTS P. (1999) Geostatistics in soil science: state-of-the-art and perspectives. Geoderma 89, 1-46.

Page 74: INTRODUCTION A LA GÉOSTATISTIQUE

BIBLIOGRAPHIE

63

GOOVAERTS, P. 1997. Geostatistics for natural resources evaluation. Oxford University Press New York, 483 p.

JOURNEL A.G., 1977. Géostatistique minière. Centre de géostatistique. Ecole des mines; Fontainebleu. 737 P

MARSMAN B.A. et GRUIJTER De J.J (1986) - Quality of soil maps. A comparison of soil survey

methods in a sandy area. Soil Survey Papers n° 15, Stiboka, Wageningen

MATHERON G. (1965) - Les variables régionalisées et leur estimation. Paris. MASSON 305 p.

McBRATNEY A.B. et WEBSTER R. (1981a) - The design of optimal sampling schemes for local estimation and mapping of regionalized variables. I. Theory and method. Computers and Geosciences, Vol.7(4), 331-334.

MYERS J. 1997 Geostatistical Error Management (GEM). Quantifying Uncertainty For Environmental Sampling and Mapping. Van Nostrand Reinhold, New York, 571 p.

OLEA R. (1999) Geostatistics for Engineers and Earth Scientists. Kluwer, 328 p. OLIVER M.A. et WEBSTER R. (2015). Basic Steps in Geostatistics: The Variogram and Kriging.

Ed. Springer. DOI 10.1007/978-3-319-15865-5 ROUSSON V. (2013). Statistique appliquée aux sciences de la vie. Ed.,SBN 978-2-8178-0393-7

Springer Paris Berlin Heidelberg New York. 327P SAMARA D.D. (2002).Geostatistics with Applications In Earth Sciences, Second Edition. Ed.

Springer. ISBN 978-1-4020-9380-7 (e-book). 220p WACKERNAGEL H. (1995) ‘Multivariate geostatistics: An introduction with applications’.

(Springer Verlag, Berlin), 256 p. WEBSTER R. et OLIVER M.A. (1990) - Statistical methods in soil and land resource survey.

Spatial Information Systems, Oxford University Press, 316 p.

SITES WEBS DES LOGICIELS ET APPRENTISSAGE

- En perpétuel renouvellement, voir le site AI-GEOSTAT : http://www.ai-geostats.org/ SITES INTERNET

- du Centre de Géostatistique de l’Ecole des Mines : http://www.cg.ensmp.fr/ - du Stanford Center for Reservoir Forecasting : http://ekofisk.stanford.edu/SCRF.html - de la liste AI-GEOSTAT : http://www.ai-geostats.org/ - de la revue Computer and Geosciences : http://www.iamg.org/candg.html - du Centre d’Agriculture de Précision de l’Université de Sydney :

http://www.usyd.edu.au/su/agric/acpa/

Page 75: INTRODUCTION A LA GÉOSTATISTIQUE

ANNEXE 1

EXEMPLE D’ETUDE

Cartographie de la salinité des sols de la plaine du Bas-Cheliff

Page 76: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

64

ANNEXE 1 : EXEMPLE D’ETUDE

1. CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE DU BAS-CHELIFF

1.1. Introduction

La présente partie du cours « introduction à la géostatistique » illustre un exemple de cartographie de la salinité des sols de la plaine du Bas-Cheliff. Il est issu d’un ensemble de travaux effectués sur les sols de la plaine du Bas-Chéliff (nord-ouest d’Algérie). Nous présentons l’exemple en ce focalisant sur les étapes telles qu’elles sont présentées dans les séances de travaux pratiques du cours.

1.2. Echantillonnage et analyse au laboratoire

Les échantillons du sol sont prélevés et analysés durant l’été 2006, au total 401 échantillons ont été prélevés. Le choix de cette période coïncide avec une couverture végétale très faible voire inexistante dans certaines zones de la plaine. C’est aussi durant cette période que l’accumulation des sels est la plus importante à la surface du sol et par conséquent plus facilement détectable. L’échantillonnage adopté est de type stratifié (fig.1) ; il s’est basé sur les classes issues travaux de Douaoui et al., (2006).

Figure 1. Plan d’échantillonnage (2006)

280000 285000 290000 295000 300000 305000 310000 315000 320000 325000

3970000

3975000

3980000

3985000

3990000

3995000

0 10000 20000

Page 77: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

65

Les analyses au laboratoire ont concerné la conductivité électrique de l’extrait dilué (1/5) selon le protocole d’analyse présenté par Baise et al. (1994)

La moyenne trouvée pour l’ensemble des 401 échantillons est égale à 0,98 dS/m (tab.1).

Cette valeur moyenne exprime une salinité appartenant à la classe moyenne si on se réfère à la valeur de la CE de la pâte saturée déterminée par l’équation suivante (Douaoui, 2005) :

CE(pâte saturée) = 5,98 CE(extrait dilué 1/5) + 0,52

Si la valeur minimale est égale à 0,07 dS/m marquant la présence de sols classés comme étant non salés, il existe par contre des valeurs de salinité très élevées avec un maximum de 9,56 dS/m. Tableau1. Statistiques descriptives de la CE

Nbr échant. Moyenne Médiane Minimum Maximum Ec-Type Coef applat.

Coef. D’assym

401 0,98 0,4 0,07 9,56 1,42 10,45 2,96

La valeur de la médiane égale à 0,4 dS/m indique que la distribution des valeurs de la CE est dissymétrique comme le montre les coefficients d’asymétrie (tab.1).

La droite de Q-Q plote effectuée par les valeurs de la CE1/5 montre bien cette

dissymétrie et que la variable étudiée ne suit pas une loi normale, ce qui est indispensable pour la cartographie des phénomènes naturel par krigeage ordinaire

Figure 2. La droite de Henry effectuée par les valeurs mesurées de CE1/5

On procède par transformation des valeurs de la variable étudiée en « Log », la nouvelle droite montre une répartition autour de la droite (fig.3), ce qui est recherché dans une étude géostatistique.

Page 78: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

66

Figure 3. La droite de Henry effectuée par les valeurs mesurées de CE1/5 transformées en

Log.

2. Cartographie de la salinité par krigeage ordinaire 2.1. Variographie

2.1.1. Variogramme moyen Le variogramme expérimental omnidirectionel moyen calculé sur la moitié de la

distance entre les deux points les plus éloignés montre une régularité dans la variabilité spatiale de la salinité. Cette régularité est confirmée par une bonne continuité de la structure de la CE qui montre une diminution de la variance au-delà d’une certaine distance qui commence ici à partir de 1000 m (fig.4 ).

Figure 4 . Variogramme expérimental ominidirectionnel moyen

0 3000 6000 9000 12000 15000 18000 21000 24000 27000 300000

0.3

0.6

0.9

1.2

1.5

1.8

2.1

2.4

|h|

(|h|)γ

Page 79: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

67

Comme le krigeage est de type ordinaire, c'est-à-dire que l’interpolation se fera autour d’un voisinage de point, il n’est pas nécessaire d’ajuster le variogramme sur la distance de calcul de 30 km retrouvée ici.

En général pour tracer un variogramme expérimental, il faut veiller à ce que celui ci

soit d’une robustesse tel qu’il reste le même si on venait à changer l’échantillonnage. Pour cela il faut tenir compte d’un certain nombre de conditions parmi lesquelles on peut citer le nombre de couples qui doit être supérieur à cinquante et la distance de calcul qui doit être équivalente au maximum à la moitié de la distance entre les points les plus éloignés (Journel, 1977 ).

Dans notre cas, ces deux conditions ne constituent pas une contrainte dans la mesure ou le nombre de couples par classe est toujours supérieur à 50 au vu du nombre d’échantillons (401 échantillons) et à la distance de calcul du variogramme qui est de plusieurs kilomètres offrant ainsi plusieurs possibilités quant à sa détermination.

Le tableau 2 représente le nombre de couples par classe, les distances moyennes des

classes et les valeurs des semi-variances correspondantes.

Tableau 2. Valeurs numériques du variogramme expérimental retenu

Classes Pairs H moyenne Variogramme γ(h)

0 848 470,75 0,027 1 4484 1614,88 8.61759e-02 2 7620 3.03512e+03 1.82012e-01 3 8818 4.51886e+03 2.95203e-01 4 10086 6.00011e+03 4.27869e-01 5 10044 7.49542e+03 5.25481e-01 6 10310 9.00332e+03 5.99480e-01 7 10202 1.04904e+04 6.27745e-01 8 9838 1.19949e+04 5.95108e-01

Le variogramme expérimental moyen retenu donc pour faire l’objet d’ajustement a été calculé sur une distance de 12 km avec des classes distantes de 1500 m en moyenne.

Comme il a été déjà avancé au chapitre IV, il existe plusieurs modèles théoriques qui

peuvent être calés sur le variogramme expérimental. Pour retenir le meilleur ajustement, le logiciel Variowin v.2.2 propose un indice de meilleur ajustement appelé IGF ( Index Goodness Fit en Anglais) qui indique un meilleur ajustement d’autant plus qu’il est proche de zéro. l’IGF se calcule de la façon suivante :

Page 80: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

68

IGF= 1/N ∑∑ [P(i)/ ∑P(i)].[D(k)/d(i)][ (γ(i) -γ’(i))/σ²]2 (1)

N : nombre des variogrammes directionnels

P(i) : nombre de classes relatives au variogramme k

D(k) : La distance maximale relative au variogramme k

d(i) : la moyenne de la distance par classe du variogramme k

γ(i) : Les mesures expérimentales de la continuité spatiale pour le pas de calcul i.

γ’(i) : les mesures estimées de la continuité spatiale pour d(i).

Ce variogramme a été ajusté par un modèle sphérique avec un effet de pépite de 0,96 (dS/m)2, un palier de 2,43 (dS/m)2 et une portée égale à 10680 m (fig.5 ).

Figure 5 . Variogramme théorique moyen de la CE ajusté à un modèle sphérique

La valeur élevée de l’effet de pépite qui représente près de la moitié de la variance totale, exprime une variabilité locale importante qui ne sera pas sans conséquence sur la qualité des estimations. La valeur élevée du palier par rapport à la CE moyenne traduit aussi la grande variabilité de la CE à l’échelle de la plaine du Bas-Chéliff.

2.1.2. Variogrammes directionnels

Le calcul des variogrammes directionnels sont importants en géostatistique dans la mesure, ils permettent de voir l’évolution de la variable étudiée (la CE du sol dans notre cas) selon différentes direction, et par conséquent déterminer la valeur de l’anisotropie.

0 2000 4000 6000 8000 10000 120000

0.3

0.6

0.9

1.2

1.5

1.8

2.1

2.4

|h|

(|h|)γ

Distance (m)

Page 81: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

69

Le variogramme surfacique est un bon outil qu’offre le logiciel Variowin v2.2 pour connaître directement les deux principales directions anisotropiques de la CE à l’échelle de la plaine.

L’établissement du variogramme surfacique a été calculé sur des incréments de 2500 m

et 1200 m respectivement pour X et Y avec un nombre de 11 classes. Il montre l’existence d’une anisotropie dans plusieurs directions (fig.6 ). Comme l’anisotropie moyenne se calcule en fonction de deux directions perpendiculairement opposées, il a été retenu les deux directions principales qui sont les plus apprentes à savoir la direction 50° (NO-SE) et la direction 140° (NE-SO). Cette anisotropie qui est égale à 1,7 n’est certes pas très marquée, mais témoignent d’un changement de comportement de la CE selon plusieurs directions.

Figure 6. Variogramme surfacique de la conductivité électrique

Les valeurs élevées de gamma (γ(h)) qui peuvent atteindre jusqu’à 6 (dS/m)² traduisent une forte dissimilarité qui indique que la continuité spatiale n’est pas toujours bonne dans la plaine du Bas-Chéliff. Il est aussi à remarquer que les valeurs élevées de gamma aux faibles distances et particulièrement dans la direction NO-SE indiquent une variabilité locale élevée.

Les deux variogrammes directionnels établis en fonction du résultat du variogramme surfacique ont été ajusté en même temps à un variogramme moyen en tenant compte du variogramme moyen théorique de la CE (fig.7 ). Le modèle d’ajustement est de type sphérique avec un effet de pépite de 1.11 (dS/m)² , un palier 2.94 (dS/m)² et une portée de 11400 m.

Page 82: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

70

Figure 7. Ajustement des deux variogrammes directionnels (50° et 140°)

La figure 8 représente graphiquement les deux directions principales de l’anisotropie. On peut voir, effectivement, la présence d’une variabilité sous forme d’ellipse avec un rayon majeur et un rayon mineur dont il faut tenir compte lors de l’interpolation spatiale par krigeage. Il est à rappelé que les mêmes paramètres ayant été utilisés dans le calcul du variogramme surfacique sont utilisés pour représenter graphiquement l’anisotropie.

2.2. Krigeage

Le krigeage a été fait en tenant compte des résultats de la variographie. En effet, l’anisotropie a été respectée en choisissant un rayon de krigeage selon une ellipse dont le rapport entre le rayon majeur et le rayon mineur est égal à 1,7 tout en étant inférieurs à la portée moyenne (4000/2350 m). Le nombre de points maximal retenus dans le voisinage pour l’estimation est de 10.

0 2000 4000 6000 8000 10000 120000

0.4

0.8

1.2

1.6

2

2.4

2.8

3.2

|h|

(|h|)γ Direction 140

0 2000 4000 6000 8000 10000 120000

0.4

0.8

1.2

1.6

2

2.4

2.8

3.2

|h|

(|h|)γ Direction 50

Page 83: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

71

Figure 8. Représentation graphique de l’anisotropie

L’existence de plusieurs structures spatiales de la CE selon les différentes régions de la plaine du Bas-Chéliff ainsi qu’un effet de pépite relativement élevé traduisant une variabilité parcellaire importante ont des incidences négatives sur l’estimation de la salinité. Le coefficient de détermination entre les valeurs de CE mesurées et les valeurs de CE estimées égal à 0,86 indique que l’estimation est de façon générale acceptable (fig.9 ).

Figure 9. Relation entre les valeurs de CE mesurées et les valeurs estimées

L’ajustement par une droite du nuage de points entre la CE mesurée et les résidus montre que la tendance générale de l’estimation est marquée par une forte sous estimation des valeurs élevées de CE (fig. 10).

Les résultats du krigeage ordinaire à voisinage glissant montre que pour les valeurs de

CE inférieures en moyenne à 1,5 dS/m la tendance est à la surestimation, alors que pour les

y = 0,7957x + 0,2543R2 = 0,86

0.00

0.50

1.00

1.50

2.00

2.50

3.00

0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50

CE

est

imée

dS

/m

CE mesurée dS/m

Page 84: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

72

valeurs de CE supérieures à cette limite moyenne la tendance est à la sous-estimation : ainsi, toutes les valeurs qui sont supérieures ou égales à 2 dS/m sont systématiquement sous-estimées. Ce n’est pas le cas des valeurs inférieures à 1,5 qui sont presque tous sur-estimées et sont en nombre plus élevées que celles qui sont sous-estimées.

Figure 10. Relation entre les valeurs de CE mesurée et les résidus

L’interpolation ponctuelle au lieu de l’interpolation par surface a été retenue ici. L’estimation a été faite sur les points échantillonnés selon une grille de 100 m de coté. Le nombre total de points estimés est de 132612, ce qui fait en moyenne une estimation à chaque hectare.

La moyenne de la CE estimée est la même que celle mesurée alors que la variance

estimée est nettement plus faible que la variance mesurée, ce qui montre un lissage important du krigeage ordinaire (tab. ).

Tableau 3. Statistiques de la conductivité électrique des données mesurées et estimées

Points Moyenne (dS/m)

Variance (dS/m)2

Min. (dS/m)

Max. (dS/m)

Données 401 0,98 2,02 0,07 9,56 KO 401 0,98 0,50 0,14 3,80

2.3. Validation

Un nombre de 40 points aléatoirement choisis parmi les échantillons, soit 10 % de la totalité des points échantillonnés et mesurés, ont été utilisés pour la validation des méthodes de krigeage (fig.11).

y = -0,2043x + 0,2543R2 = 0,28

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

0.80

0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50

Rés

idu

s d

S/m

CE mesurée dS/m

Page 85: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

73

Figure 11 . Localisation des 40 points de validation choisis aléatoirement au sein du jeu de données initial

Le principe de la validation exige que les 40 points retenus ne soient pas utilisés dans le krigeage. Toutefois, ces points ont été introduit dans le calcul des différents variogrammes.

La validation statistique effectuée sur 40 points (tab.4) montre que la qualité de l’estimation est bonne en général. Ceci est vérifié par l’erreur systématique moyenne (EM) et l’erreur du krigeage standardisée moyenne (EKSM) respectivement égales à -0,0158 et -0,0016. Par contre, l’estimation globale indique une sur-estimation non négligeable de la variabilité spatiale de le CE comme le montrent la racine de l’erreur standardisée quadratique moyenne (RESQM) qui est inférieure à 1. Cette sur-estimation a été également montrée par la valeur de l’erreur standard moyenne du krigeage (ESMK) qui est supérieure à la racine de l’erreur quadratique moyenne (REQM)

Tableau 4. Validation statistique de la qualité de l’estimation pour les 40 points Validation de CE (dS/m) estimée sur 40 points EM* REQM* ESMK* ESM* REQSM*

KOVG -0.0158 0.808 1.122 -0.0164 0.74

*Erreur moyenne (EM), racine de l’erreur quadratique moyenne (REQM), erreur standard moyenne du krigeage (ESMK) erreur standardisée moyenne (ESM), racine de l’erreur standardisée quadratique moyenne (RESQM)

2.4. La carte de la salinité établie par krigeage ordinaire La carte de la salinité obtenue par krigeage ordinaire montre que les sols les moins salés

(CE< 0,6 dS/m) se localisent sur les périphéries de la plaine. On peut, en effet, les voir sur le plateau de Benziane, la colline de partage, le périmètre de Ouarizane et dans le périmètre de Guerouaou.

280000 285000 290000 295000 300000 305000 310000 315000 320000 325000

3980000

3985000

3990000

3995000

0 10000 20000

Page 86: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

74

Les superficies dont la salinité est supérieure à 2 dS/m couvrent la région centrale de la plaine et se prolongent vers l’ouest. Cette région couvre une partie du périmètre de Hmadna et la Gaa. Le reste de la partie centrale jusqu’à l’extrême ouest est occupé essentiellement par une salinité comprise entre 1 et 2 dS/m qui varie d’une salinité moyenne à élevée (USSL, 1954). Cette classe de salinité apparaît également à l’est de la plaine aux alentours de Merdjet Sidi Abed.

Figure 12 . Carte de la salinité estimée par KO de la plaine du Bas-Chéliff

La carte de l’écart-type d’estimation (fig. 13 ) montre des zones plus ou moins bien estimées. Ces zones ne sont pas spécifiques à une région donnée mais se répartissent sur toute la plaine. Il apparaît également que la qualité de l’estimation est due essentiellement à la densité du krigeage. Ceci est vérifié au niveau de périmètre de Ouarizane qui montre des superficies importantes dont l’écart estimé reste inférieur à 1,1. C’est en effet, la région qui été la plus échantillonnée en termes du nombre de points prélevés par unité de surface. Les superficies ayant un écart-type d’estimation supérieure à 1,15 sont minoritaires et se localisent essentiellement dans les zones les moins échantillonnées telles que la Gaa dont la densité d’échantillonnage est la plus faible dans la plaine.

Page 87: INTRODUCTION A LA GÉOSTATISTIQUE

EXEMPLE D’ETUDE : CARTOGRAPHIE DE LA SALINITE DES SOLS DE LA PLAINE

DU BAS-CHELIFF

75

Figure 13 . Carte des écarts-types d’estimation de la CE par KOVG

Le tableau 5 montre que les superficies les plus importantes reviennent à la classe des sols non salés avec 21298 ha soit 37 % de la superficie totale. Les sols moyennement salés à salés occupent respectivement 14826 ha (26 %) et 16170 ha (28 %). Ce dernier chiffre montre l’ampleur de la salinité dans la plaine du Bas-Chéliff qui couvre presque 30 % de la plaine.

Les classes représentant les sols à salinité élevée occupent une superficie de 5186 ha, ce

qui totalise 9 % des sols de la plaine du Bas-Chéliff.

Tableau 5. Superficies des classes de salinité et leurs pourcentages respectifs

classes de CE1/5 (dS/m) 0-0,6 0,6-1 1-2 2-3 >3

CE estimée par KO Total ha 21 298 1 4826 1 6170 3 403 1 783 57 480 % 37,05 25,79 28,13 5,92 3,10 100

Page 88: INTRODUCTION A LA GÉOSTATISTIQUE

Cours Géostatistique

Présenté Par

Mr. BRADAÏ Abdelhamid

Page 89: INTRODUCTION A LA GÉOSTATISTIQUE

1. Aperçue théorique et historique

Variable régionalisé??? Une variable est dite régionalisée lorsque les valeurs qu'elle prend dépendent de sa position dans l'espace. Cette variable est caractéristique d'un phénomène qui présente une certaine structure ou régionalisation.

- Un aspect Aléatoire et un aspect Structuré

Deux Aspects contradictoires

La variable étudiée présente des irrégularités dans l'espace, imprévisibles d'un point à l'autre.

Le phénomène régionalisé présente une certaine organisation de la variable dans l'espace.

Page 90: INTRODUCTION A LA GÉOSTATISTIQUE

Historique - 1930 - 1950 Théorème des fonctions aléatoires (Kolmogorov, wiener) - 1955 Daniel Krige (Géologue Sud Africain) : Approche empirique (régression) pour corrigé les problème de biais conditionnel observé dans les mines - 1960 – 1970 Matéron (école des mines – Paris), Gandin (Météorologie) développent ensemble la théorie de la variable régionalisée. Le terme géostatistique est né, réponse aux question de Krige. Mathéron (hommage à Krige) donne le nom «Krigeage» à la méthode d'estimation développée. - fin des années 60 début année 70, les chercheurs russes ont utilisé la géostatistique pour estimer la lame d'eau écoulé (précipitation) Delhomme (1976) est le premier à utiliser la géostatistique en hydrologie de surface et souterraine. Les années 80 c'est les pédologues : Les travaux de Webster pour l’estimation de certains propriétés du sol - Actuellement, ces les écologistes (Les sciences de l’environnement))

Page 91: INTRODUCTION A LA GÉOSTATISTIQUE

La géostatistique peut s'appliquer à toutes les sciences de la nature, et plus généralement, à n'importe quelle discipline manipulant des données localisées dans l'espace et nécessitant des modèles décrivant la dépendance spatiale entre ces données.

D’une manière générale….

Page 92: INTRODUCTION A LA GÉOSTATISTIQUE

* Les Enseignements tirés de méthodes intuitives d'estimation spatiale

Pour quoi la géostatistique

Le problème 01 - Soit une propriété Y qui varie dans l'espace géographique, connue de façon discontinue en n points d'observation localisés par leurs coordonnées géographiques Xi. Ex : hauteur de pluies mesurées dans quelques stations météorologiques, profondeur du sol mesurée à la tarière, teneurs en métaux lourds dans le sol, teneur en or dans des couches sédimentaires à partir de quelques forages... - Soit X0 un point quelconque de cet espace.

Peut - on estimer la valeur de Y en X0 à partir des valeurs Y(xi) connues?

peut-on obtenir la carte des variations de la propriété Y dans l'espace géographique?

Page 93: INTRODUCTION A LA GÉOSTATISTIQUE

- Deux méthodes intuitives vont nous aider à introduire les problèmes que nous aurons à résoudre :

1. On prend la valeur du point observé le plus proche: la méthode des polygones de Thiessen

2. On fait une moyenne pondérée des observations les plus proches.

Page 94: INTRODUCTION A LA GÉOSTATISTIQUE

Méthode des polygones de Thiessen" ou de "Proximal approximation".

Pour estimer la valeur en un point quelconque, on peut prendre la valeur du point

Théorie

Construction des polygones de Thiessen (in Arc/info, ESRI)

Page 95: INTRODUCTION A LA GÉOSTATISTIQUE

Elle présente l'avantage d'être très facilement programmable et entièrement automatique

Avantage de la méthode.

Les limites de la méthode : -l'information utilisée pour estimer la valeur en un point est faible, elle se limite à la prise en compte d'un seul point observé. -elle suppose sans le vérifier que le point estimé est corrélé au point observé. Or, si la variable est distribuée de façon aléatoire dans l'espace, cette hypothèse est invalide. - il est impossible d'avoir une idée de la précision des estimations obtenues

Page 96: INTRODUCTION A LA GÉOSTATISTIQUE

2. On fait une moyenne pondérée des observations les plus proches.

C’est une méthode également intuitive et peut être illustrée par la lecture d'une carte topographique

Connaissant l'altitude en deux courbes de niveaux, une estimation simple de l'altitude en un point quelconque « M » peut être effectuée

Page 97: INTRODUCTION A LA GÉOSTATISTIQUE

AAltBAltAlt ..B)Distance(A

(AM) distanceM

Ce qui peut être calculer comme suite :

(AB) Distance

(AM) Distance

Alt.B))(Alt.A-(1lt.M

Avec

A

Ou encore :

Page 98: INTRODUCTION A LA GÉOSTATISTIQUE

- La méthode dite "d'interpolation linéaire" utilise plus d'information que celle des polygones de Thiessen, mais les limites citées précédemment sont toujours valables: - La supposition de la variation de la propriété d'un point observé à l'autre est considéré linéaire sans le vérifier ; -Aucune idée sur la précision des estimations faites.

Les limites de la méthode

Page 99: INTRODUCTION A LA GÉOSTATISTIQUE

CONCLUSION

Ces deux exemples montrent bien que l'estimation d'une

propriété dans l'espace géographique suppose deux étapes: - une phase d'analyse de la structure spatiale de la propriété

étudiée, pour savoir comment sont corrélés entre eux les

points observés. - une phase d'estimation proprement dite tenant compte de la

structure spatiale précédemment identifiée.

Solution : La géostatistique ou "Théorie des Variables Régionalisées

Page 100: INTRODUCTION A LA GÉOSTATISTIQUE

DES LOGICIELS En perpétuel renouvellement, voir le site AI-GEOSTAT : http://www.ai-geostats.org/ SITES INTERNET (ÉCHANTILLON) du Centre de Géostatistique de l’Ecole des Mines : http://www.cg.ensmp.fr/ du Stanford Center for Reservoir Forecasting : http://ekofisk.stanford.edu/SCRF.htmlde la liste AI-GEOSTAT : http://www.ai-geostats.org/ de la revue Computer and Geosciences : http://www.iamg.org/candg.html du Centre d’Agriculture de Précision de l’Université de Sydney : http://www.usyd.edu.au/su/agric/acpa/

Sites Web Utiles

Page 101: INTRODUCTION A LA GÉOSTATISTIQUE

Autres Sites

Page 102: INTRODUCTION A LA GÉOSTATISTIQUE

I – La variographie (variogramme) Idée fondamentale : La nature n'est pas entièrement "imprévisible". Deux observations situées l'une près de l'autre devraient, en moyenne, se ressembler davantage que deux observations éloignées.

Exp. : Soit trois localisations x0, x1 et x2, que l'on promène dans un espace géographique. On mesure la variable Y en chacun de ces points. x1 x0 x2

-La teneur au point x1 devrait ressembler plus (en moyenne) à celle observée en x0 qu'à celle en x2. -Mais … On a peut-être intérêt à utiliser l'information contenue en x1 et x2 pour fournir un meilleur estimé de x0 que si l'on n'utilisait que x1.

Notion de "continuité" de la minéralisation : Implicitement toutes les méthodes d'estimation reposent sur ce concept plus ou moins défini. En géostatistique, on cherche à quantifier cette continuité préalablement à tout calcul effectué sur le gisement.

Page 103: INTRODUCTION A LA GÉOSTATISTIQUE

1. Introduction à la notion de variogramme

Considérons une propriété du sol notée Y connue en n points de l'espace géographique, chacun de ces points étant repérés par le vecteur x de ses coordonnées géographiques (longitude et latitude). De la sorte, la notation "y(xi)" représente la valeur observée de la propriété Y au i ème point d'échantillonnage de coordonnées xi. Dans un cas très simple, prenons deux points pour lesquels on connaît des valeurs y(x1) et y(x2) de la propriété Y. On cherche à comparer ces deux valeurs. Une façon simple est :

Page 104: INTRODUCTION A LA GÉOSTATISTIQUE

La meilleure façon…. Utiliser la variance entre les observations de ces deux sites, notée s². Elle est par définition égale à :

….(1)

Cette variance S², qui traduit l'importance des écarts à la moyenne, est d'autant plus grande que les observations sont différentes. On peut d'ailleurs développer l'équation (1) pour obtenir une autre expression de cette valeur s²:

nsobservatiodeux entre Moyenne :Y

]²)([]²)([² 21 YxyYxyS

)]²()([2

1² 21 xyxyS ………..(2)

Page 105: INTRODUCTION A LA GÉOSTATISTIQUE

Cette équation peut être écrite pour tout couple de sites. Pour

cela, considérons deux sites y(xi) et y(xi +h) où y(xi)

y(xi) y(xi+h)

h :est un vecteur caractérisant la distance entre les sites.

h

L'équation (2) s'écrit alors :

)]²()([2

1² hxyxyS ii (3)

Page 106: INTRODUCTION A LA GÉOSTATISTIQUE

Calculons à présent la distance géographique séparant chacun des points d'observation et considérons les m couples de points séparés par une même distance géographique h.

On peut comme précédemment, calculer la variance des observations pour les sites pris deux à deux. La moyenne ŝ² de ces m variances s'écrit en employant (3)

²)()(2

2

m

i

ii hXYXYm

S (4)

Page 107: INTRODUCTION A LA GÉOSTATISTIQUE

Pour une distance h séparant deux points d'observation, ŝ² rend compte de la ressemblance des observations faites en ces deux points : il sera d'autant plus grand que ces observations sont différentes. ŝ² est qualifiée de "semi-variance". De façon intuitive, on conçoit que deux observations soient en général d'autant plus semblables qu'elles sont proches géographiquement l'une de l'autre. Le calcul de ŝ² pour différentes distances h, va permettre de quantifier cette idée : il permet de suivre l'évolution des écarts entre des observations en fonction de la distance qui les sépare.

Page 108: INTRODUCTION A LA GÉOSTATISTIQUE

L'intérêt de cette notion simple et les conditions de sa généralisation ont été définis par la théorie des variables régionalisées (Matheron, 1965). Cette théorie montre que la généralisation de l'équation (4) suppose deux conditions, regroupées sous le terme d’hypothèse « Intrinsèque »

- l'espérance de Y est constante quelle que soit la position géographique x : E [Y(x)] = constante (5) - pour toute distance h, la différence [Y(x) -Y(x+h)] a une variance finie, qui ne dépend que de la distance « h » séparant les points.

²Y(x)-h)Y(xE

(6) )(2²)()(

hxYhxYVAR

Page 109: INTRODUCTION A LA GÉOSTATISTIQUE

Quand ces deux conditions sont vérifiées, la valeur « S² » définie dans l'équation (4) constitue un estimateur non biaisé de la fonction définie en (6). Cette fonction est nommée variogramme.

)(h )(h

²)()(2

1)(

2

m

i

ii hXYXYm

h

Page 110: INTRODUCTION A LA GÉOSTATISTIQUE

2 Le calcul du variogramme On cherche à construire un graphique représentant en abscisse les distances « h » séparant les points et en ordonnée les semi-variances.

La construction du variogramme est illustrée ci-dessous par des schémas établis à partir de 8 points d'observation répartis à distance égale de 1 mètre le long d'un transect.

Page 111: INTRODUCTION A LA GÉOSTATISTIQUE

Le schéma montre que le nombre de points participant au calcul du variogramme diminue au fur et à mesure que la distance augmente. Les valeurs de semi-variance risquent donc d'être moins précises pour les grandes valeurs de h.

Page 112: INTRODUCTION A LA GÉOSTATISTIQUE

1 2 3 4 3 2 1

Exemple de calcul

h = 1 m

1 3 2 3 1 2 4

Les deux séries présentes les mêmes caractéristiques statistiques (moy, E. type, ..) sauf leur positionnement dans l’espace…

A

B

Page 113: INTRODUCTION A LA GÉOSTATISTIQUE

h N(h) Y(h)

1 6 0,5

2 5 1,6

3 4 2,5

4 3 1,33

h N(h) Y(h)

1 6 1,25

2 5 1,25

3 4 1,125

4 3 0,83

Variogramme (A)

0

0,5

1

1,5

2

2,5

3

0 1 2 3 4 5

Distance "h" (m)

Y (

h)

Variogramme (B)

0

0,2

0,4

0,6

0,8

1

1,2

1,4

0 1 2 3 4 5

Distance "h" (m)

Y (

h)

A

B

Page 114: INTRODUCTION A LA GÉOSTATISTIQUE

Généralement le graphe obtenue :

Page 115: INTRODUCTION A LA GÉOSTATISTIQUE

• Portée (range) a : Distance (au-delà de laquelle) deux observations ne se ressemblent plus du tout en moyenne, elles ne sont plus liées (covariance nulle) linéairement. À cette distance, la valeur du variogramme correspond à la variance de la variable aléatoire. • Palier (Sill) σ² = C0 + C : Variance de la v.a. (Var (Z(x)); Écarts les plus grands, en moyenne entre deux v.a. • Effet de pépite (nugget effect) C0 : Variation à très courte échelle, erreurs de localisation, erreurs d'analyse et précision analytique.

Page 116: INTRODUCTION A LA GÉOSTATISTIQUE

En étudiant l'évolution du variogramme γ (h) en fonction de la distance "h" séparant des couples d'observation, on va analyser la façon dont se détériore l'information acquise en un point au fur et à mesure que l'on s'éloigne de ce point

Intérêt du variogramme

Page 117: INTRODUCTION A LA GÉOSTATISTIQUE

II. Variogramme Expérimental

Page 118: INTRODUCTION A LA GÉOSTATISTIQUE

La vérification de l'admissibilité d'un modèle donné est relativement complexe. Dans la pratique on se limite à des modèles éprouvés et à des modèles construits à partir de modèles éprouvés en utilisant des propriétés comme : - une combinaison linéaire (avec coefficients positifs) de variogrammes admissibles donne un modèle admissible; -un produit de modèles de covariance admissibles donne un modèle de covariance admissible;

- un modèle admissible en Rp est admissible en Rp-1 (l’inverse n’est pas nécessairement vrai).

Page 119: INTRODUCTION A LA GÉOSTATISTIQUE
Page 120: INTRODUCTION A LA GÉOSTATISTIQUE

Les principaux modèles

Page 121: INTRODUCTION A LA GÉOSTATISTIQUE
Page 122: INTRODUCTION A LA GÉOSTATISTIQUE
Page 123: INTRODUCTION A LA GÉOSTATISTIQUE
Page 124: INTRODUCTION A LA GÉOSTATISTIQUE

Le cas particulier : Variogramme linéaire (b = 1)

Page 125: INTRODUCTION A LA GÉOSTATISTIQUE

D’une manière générale, les équations de modèles de variogramme sont en deux types : A- Modèles croissants non bornés (fig. 01) : * Modèle linéaire : γ (h) = C0 + bh…………………………..(1) Avec : C0 : L'ordre à l'origine b : la pente de la droite h : distance séparant les points - le cas particulier du linéaire : γ (h) = C0 ………………………(2)

C'est le cas d'un variogramme plat appelé pépitique - fonction puissance : γ (h) = C0 + bhα……………..……………(3) 0 < α < 2 Avec : b : la pente de la droite α : un coefficient fixant la forme de la courbe

Page 126: INTRODUCTION A LA GÉOSTATISTIQUE

Distance h

0 0,5 1 1,5 2

m o d è le lin é a i

m o d è le p é p it iq

fo n c t io n p u issa n1 ,8

fo n c t io n p u issa n0 ,2

fo n c t io n p u issa n0 ,5

Figure 01 : Modèles croissants d'ajustement à des variogrammes : linéaire, pépitique et fonction puissance de l'ordre 1.8, 0.5 et 0.2

Page 127: INTRODUCTION A LA GÉOSTATISTIQUE

B- Modèles croissants bornés (fig. 02) : * Modèle sphérique : γ (h) = C0 + C[3h/2a – 1/2(h/a)3]……...……….si h < a

γ (h) = C0 + C……………………...si h > a …………………….(4) Avec : C0 : l'ordre à l'origine C : est le palier moins l'ordonnée à l'origine a : la portée * Modèle exponentiel : γ (h) = C0 + C[1 – exp (-h/r)]…………………….……………….(5) Avec : C0 : l'ordre à l'origine r : paramètre de la distance égale environ le tiers de la portée

Page 128: INTRODUCTION A LA GÉOSTATISTIQUE

Distance h

m o d è le sp h é riq

m o d è le e xp o n e n

Figure 02 : Modèles d'ajustement aux variogrammes bornés : Modèle expérimental et sphérique

Page 129: INTRODUCTION A LA GÉOSTATISTIQUE

Problèmes courants avec les variogrammes et solutions possibles

-Le variogramme étant une moyenne de différences au carré, la contribution d'une donnée extrême peut être déterminante. -Si la valeur extrême est située en périphérie du domaine, elle introduira une tendance croissante sur le variogramme. - Si elle est située au centre, elle introduira plutôt une tendance décroissante.

A. Données extrêmes

Page 130: INTRODUCTION A LA GÉOSTATISTIQUE
Page 131: INTRODUCTION A LA GÉOSTATISTIQUE

Solutions possibles: • Si la donnée extrême est une erreur, on l'enlève tout simplement. • Enlever la donnée extrême pour le calcul et la modélisation du variogramme afin de mieux cerner la structure spatiale sous-jacente. Toutefois, il faut remettre cette donnée au moment de l'estimation. • Transformer les données de façon à diminuer l'influence des données extrêmes (ex. couper les valeurs extrêmes à un seuil maximal, prendre le logarithme, la racine carrée, etc.). • Utiliser un estimateur robuste aux données extrêmes (ex. au lieu de prendre la moyenne des écarts-carrés, on pourrait en prendre la médiane). Toutefois cet estimateur sous-estime la variabilité spatiale et il doit être modifié pour tenir compte de ce fait.

Page 132: INTRODUCTION A LA GÉOSTATISTIQUE

B. Pas d'échantillonnage variable selon les zones

Page 133: INTRODUCTION A LA GÉOSTATISTIQUE

-Le variogramme A est plus bas car la zone A est moins variable. -Le variogramme B est le plus élevé car la zone B est la plus variable -Le variogramme A+B est un mélange des 2 zones. Toutefois, comme les pas d'ordre impair (1,3,5..) n'apparaissent pas dans la zone A, le variogramme A+B est identique au variogramme B pour ces pas. Solutions possibles: • Séparer en 2 zones d'étude distinctes si possible, sinon • Uniformiser l'échantillonnage, par exemple en prenant 1 point sur 2 dans la zone B.

Page 134: INTRODUCTION A LA GÉOSTATISTIQUE

Ré-échantillonnage des zones riches

Échantillonner à proximité des valeurs fortes que l'on rencontre (pour confirmer). -Les distributions des teneurs des gisements typiques sont fortement asymétriques avec peu de valeurs fortes, les chances sont très grandes qu'une valeur forte ne sera pas "confirmée". -On aura donc ainsi plusieurs valeurs fortes accompagnées de valeurs nettement plus faibles à proximité. -Les seules paires de données à petite distance peuvent provenir précisément de ces ré-échantillonnages. -ceci aura pour effet de faire paraître la continuité spatiale beaucoup moins forte qu'elle ne l'est réellement

Page 135: INTRODUCTION A LA GÉOSTATISTIQUE

Exemple: -On simule 225 valeurs sur une grille régulière de pas 1 (15*15). -On décide d'échantillonner les 10 valeurs les plus fortes en se plaçant à 0.1 (en direction x) du point. Voici les 3 variogrammes obtenus en utilisant: 1- les 225 points 2- les 225 points + les 10 "doublons" 3- les 225 points et les 225 "doublons" (i.e. chaque point est ré-échantillonné à 0.1 de façon systématique.

Page 136: INTRODUCTION A LA GÉOSTATISTIQUE

Solutions possibles: • Éviter les stratégies d'échantillonnage biaisées vers les valeurs fortes • Décimer l'échantillon pour assurer une couverture uniforme partout

Page 137: INTRODUCTION A LA GÉOSTATISTIQUE

Variogramme directionnel C'est un variogramme calculé selon certaines directions spécifiques

²)()(),(2

1),(

),(

2

hN

i

ii hXYXYhN

h

où N(h,θ) = nombre de paires séparées de h dans la direction θ.

Page 138: INTRODUCTION A LA GÉOSTATISTIQUE

3 6 5

7 2 2

4 X0 0

Le calcul du variogramme selon la direction horizontale donne (0°):

Exemple numérique Soit une matrice de données 3 x 3 ayant les valeurs suivantes (la distance horizontale et verticale entre 2 éléments consécutifs est de 1 m et X0 indique une donnée manquante).

h N(h) γ(h)

1 4 4,38

2 3 7,5

Page 139: INTRODUCTION A LA GÉOSTATISTIQUE

Dans la direction verticale, on calcule (90°) :

h N(h) γ(h)

1 5 5,4

2 2 6,5

Dans la direction 45°, on calcule

h N(h) γ(h)

1,41 3 2,33

2,82 1 0,5

Page 140: INTRODUCTION A LA GÉOSTATISTIQUE

Variogrammes directionnels selon les quatre principales directions

On peut calculer l’anisotropie

Page 141: INTRODUCTION A LA GÉOSTATISTIQUE

Anisotropie Le phénomène d'anisotropie se présente quand la variabilité spatiale n'est plus la même dans toutes les directions c'est à dire qu'il y a des directions privilégiées vis à vis du phénomène étudié (Journel, 1977). L'orientation préférentielle de ces directions incite à rechercher une éventuelle anisotropie dans la variabilité spatiale étudiée

Page 142: INTRODUCTION A LA GÉOSTATISTIQUE

Le calcul de l'anisotropie nécessite la construction de deux variogrammes directionnels modélisés. -Le premier est construit dans la direction principale de l'anisotropie -Le second dans la direction perpendiculaire à la première (c.a.d + 90°). Le rapport entre les valeurs des deux portées relatives aux deux variogrammes directionnels donne la valeur de l'anisotropie, étape qui permet de passer par la suite, au krigeage et donc à l'interpolation.

Page 143: INTRODUCTION A LA GÉOSTATISTIQUE

Direction principale

d’anisotropie

Exemple d’un variogramme surfacique montrant la présence d’une anisotropie

Page 144: INTRODUCTION A LA GÉOSTATISTIQUE

NOTES - La continuité spatiale n'est pas nécessairement la même dans toutes les directions. Dans la nature il existe une très grande variété d'anisotropies, en géostatistique, on ne peut modéliser aisément que les anisotropies géométriques

Anisotropie géométrique Caractéristiques : - On observe dans diverses directions des paliers et des composantes pépitiques identiques mais des portées différentes. - Les portées maximales (ag) et minimales (ap) s'observent selon deux directions orthogonales

Page 145: INTRODUCTION A LA GÉOSTATISTIQUE

Les portées décrives une ellipse On constate différentes portées

suivant l’angle d’orientation (même palier, même effet de pépite, ≠ Portée)

Page 146: INTRODUCTION A LA GÉOSTATISTIQUE

Pour rendre les portées identiques (et égales à ag suivant toutes les directions en multipliant la composante de la portée parallèle à ap par le facteur (ag/ap). Bref, les portées décrivent une ellipse dont l'axe majeur est orienté parallèlement à ag.

1)²sin()²cos(

22

pa

a

a

a

On peut ainsi évaluer γ (h, Ɵ) soit en utilisant aƟ , soit en corrigeant la distance h pour tenir compte de l'anisotropie et on aura :

γ (hƟ, Ɵ) = γ(hg)

Avec hg calculé comme suit :

2

sin)²cos(

h

a

ahh

p

g

g

Page 147: INTRODUCTION A LA GÉOSTATISTIQUE

Remarques concernant le calcul de variogrammes et

l’ajustement de modèles - On accorde plus de poids aux points du variogramme expérimental calculés avec beaucoup de paires. - On essaie d’avoir un nombre de couple supérieur à 30 minimum (idéal 50) pour chaque point expérimental du variogramme. Si ce n’est pas possible pour certaines classes, on accorde moins d’importance à ces points. Si le nombre de paires est très faible, on ne considère plus du tout le point. - On accorde plus de poids aux premiers points du variogramme (h petit) car ce sont ces valeurs qui ont le plus d'impact dans les calculs géostatistiques. - Lorsque « h » dépasse environ dmax/2, on ne tient pas compte des valeurs du variogramme. (dmax est la taille du phénomène étudié dans la direction considérée). - On cherche à obtenir des modèles les plus simples possible qui rendent bien compte des valeurs expérimentales.

Page 148: INTRODUCTION A LA GÉOSTATISTIQUE

- Vérifier les critères Suivants : N(h) >30, h < dmax/2 - Si nécessaire, augmenter la tolérance angulaire ou le pas de calcul de façon à augmenter N(h). -Déterminer s'il y a anisotropie (différences de palier ou de portées qui ne peuvent raisonnablement être imputées à des fluctuations aléatoires du variogramme). Une bonne méthode consiste d'abord à ajuster le variogramme omnidirectionnel et de vérifier si ce modèle est acceptable pour les différents variogrammes directionnels. L'effet de pépite et le palier en particulier devraient être estimés à l'aide du variogramme omnidirectionnel et gardés constants lors de l'ajustement des variogrammes directionnels. Si les paliers changent d’une direction à l’autre, on peut soit essayer de modéliser une anisotropie zonale, soit adopter un palier compromis, surtout si l’ajustement est adéquat à courte distance.

Stratégie de modélisation

Page 149: INTRODUCTION A LA GÉOSTATISTIQUE

MERCI

Page 150: INTRODUCTION A LA GÉOSTATISTIQUE

Chapitre II - La seconde étape : l'estimation par krigeage

Page 151: INTRODUCTION A LA GÉOSTATISTIQUE

Le deuxième outil de la géostatistique est le krigeage.

-Il définit un estimateur Y* d'une propriété Y en un point quelconque de

l'espace géographique. Cette estimation est faite à partir des observations

effectives y(x) de cette propriété.

- Il fournit ensuite un indicateur de la précision de l'estimation faite à

travers une variance d'estimation.

Page 152: INTRODUCTION A LA GÉOSTATISTIQUE

Aspects théoriques

La forme la plus simple et la plus employée de cette technique est celle du krigeage linéaire. L'estimation y*(x0 ) faite en un point x0 par le krigeage linéaire est telle que :

n

n

ii xyxY1

0 )()(* ……………….(a)

n : est le nombre de points expérimentaux pris en compte dans

l'estimation

λi : est le poids affecté au point expérimental xi .

Page 153: INTRODUCTION A LA GÉOSTATISTIQUE

Pour résoudre le système d'équations induit par la recherche des

poids λi, il faut introduire des conditions d'optimisation. Ces

conditions sont les suivantes :

- non biais

E [ Y*(x) - Y (x) ] = 0………………………….(b)

- variance d'estimation minimale :

VAR [ Y*(x) - Y(x) ] minimale………… (c)

Page 154: INTRODUCTION A LA GÉOSTATISTIQUE

Le problème à résoudre pour estimer la valeur d'une propriété Y

consiste donc à calculer le poids λi affecté à chaque point observé

On montre que :

Quand l'hypothèse intrinsèque est vérifiée, l'ajustement d'une fonction autorisée au variogramme expérimental permet de résoudre le système défini par les équations a, b et c. De la sorte, on peut calculer les poids λi de l'équation (a) et donc la valeur de l'estimation y*(x0).

Page 155: INTRODUCTION A LA GÉOSTATISTIQUE

Le calcul du poids affecté à un point observé ne

dépend pas du tout de la valeur de la variable

étudiée en ce point. Il dépend uniquement de:

-La structure spatiale de la variable révélée par le

variogramme.

- de la distance géographique du point observé au

point à estimer.

Page 156: INTRODUCTION A LA GÉOSTATISTIQUE

.

les figures suivantes illustrent un cas fictif le calcul des poids λi de l'estimation par krigeage en relation avec des variogrammes différents.

On considère dans tous les cas : - que le point à estimer a pour coordonnées (0,0); - qu'on dispose de vingt points observés. - On indique, en chaque point observé, le poids qu'il prend dans l'estimation avec trois types de variogrammes différents.

Compréhension par l'exemple

Page 157: INTRODUCTION A LA GÉOSTATISTIQUE

Cas 01 : Variogramme pépidique

Page 158: INTRODUCTION A LA GÉOSTATISTIQUE

Le variogramme est de type pépitique indiquant une distribution aléatoire de la variable dans l'espace. Il n'y a donc pas lieu de privilégier dans l'estimation les points proches par rapport aux points éloignés. Les poids affectés à l'ensemble des points observés sont donc identiques. L'estimation consiste dans ce cas à faire une moyenne locale.

Cas 01 : Interprétation

Page 159: INTRODUCTION A LA GÉOSTATISTIQUE

Cas 02: Variogramme Linéaire

Page 160: INTRODUCTION A LA GÉOSTATISTIQUE

Le variogramme est de type linéaire croissant. Les points proches du point à estimer sont donc beaucoup plus corrélés au point à estimer que les points éloignés. De ce fait, les quatre points situés à une distance "1" du point à estimer sont prépondérants dans l'estimation : ils se voient attribuer 88 % du poids total.

Cas 02 : Interprétation

Page 161: INTRODUCTION A LA GÉOSTATISTIQUE

Cas 03 : Variogramme Exponentiel

Page 162: INTRODUCTION A LA GÉOSTATISTIQUE

le variogramme est de type exponentiel avec une portée de l'ordre de 2. Le poids affecté aux points observés est donc maximal pour les points distants de "1" et minimal pour ceux distants de "3". Mais pour une distance de "1", la valeur de la semi-variance est déjà importante, de l'ordre de 75 % de celle observée au palier. Entre les distances "1" et "3", le niveau de corrélation entre les points observés et le point à estimer varie donc relativement peu. Ceci explique que les poids sont proches les uns des autres dans ce cas de figure.

Cas 03 : Interprétation

Page 163: INTRODUCTION A LA GÉOSTATISTIQUE

Définition

Le Krigeage est une technique de prédiction

prenant en compte l'information fournie par

le variogramme et permettant ainsi une

estimation avec précision connue des

propriétés de la variable étudiée en des sites

non échantillonnés.

Page 164: INTRODUCTION A LA GÉOSTATISTIQUE

Best

Linear

Unbiaised

Estimator

Erreur d’estimation est de variance minimum

)()(* 00 XYXY

Combinaison linéaire des données

Sans biais

Estimateur autorisé pour la classe de modèles utilisées

0)]()(*[ 00 XYXYE

Systèmes D’équations

Précision connue : La solution : BLUE

Page 165: INTRODUCTION A LA GÉOSTATISTIQUE
Page 166: INTRODUCTION A LA GÉOSTATISTIQUE
Page 167: INTRODUCTION A LA GÉOSTATISTIQUE
Page 168: INTRODUCTION A LA GÉOSTATISTIQUE
Page 169: INTRODUCTION A LA GÉOSTATISTIQUE

Propriétés du Krigeage

1. Linéaire, sans biais, à variance minimale, par construction

2. Interpolateur exact

3. Tient compte de la taille du champ a estimer et la position des points entre eux.

4. Tient compte de la continuité spatiale du phénomène étudié ;

5. Effet de lissage

Page 170: INTRODUCTION A LA GÉOSTATISTIQUE

INTERPOLATEUR EXACT

Exemples d'interpolation par krigeage en 1D, utilisant différents modèles de variogrammes:

Page 171: INTRODUCTION A LA GÉOSTATISTIQUE

Aux points échantillons, le krigeage retourne la valeur de l'échantillon. Pour éviter les discontinuités dans des cartes il est donc recommandé de ne pas kriger un point échantillon. En somme, on s'assure d'avoir au moins une distance "epsilon" entre le point à kriger et le point échantillon. Comme souvent l'effet de pépite représente une erreur de mesure, il est justifié de s'écarter des valeurs observées.

Interprétation

En présence d’un effet de pépite, les valeur interpolées sont discontinues ;

→ Éviter d’estimer un point observé

Page 172: INTRODUCTION A LA GÉOSTATISTIQUE

INFLUENCE DE LA TAILLE DU CHAMP

Page 173: INTRODUCTION A LA GÉOSTATISTIQUE

Lorsque la taille du champ estimé augmente, - Les poids tendent à devenir égaux - La variance d'estimation diminue puis augmente si on cherche à estimer un champ plus grand que celui renfermant les données (extrapolation)

Interprétation

Page 174: INTRODUCTION A LA GÉOSTATISTIQUE

POSITION DES POINTS ENTRE EUX

« Redondances des données »

Contrairement aux méthodes de type "inverse de la distance", la position des

points entre eux est très importante. Chaque point est pondéré

automatiquement en fonction de sa "zone d'influence". (Les poids par inverse

de la distance auraient été 1/3 pour chaque point dans les 2 cas). (Toujours

variogramme sphérique avec a=100, C=100, C0=0).

Page 175: INTRODUCTION A LA GÉOSTATISTIQUE

INFLUENCE DE L'EFFET DE PEPITE ET DE LA PORTÉE

Plus l'effet de pépite est important (relativement à un plateau fixe), plus la variance d'estimation augmente. Inversement, plus la portée augmente, plus la variance d’estimation diminue.

Page 176: INTRODUCTION A LA GÉOSTATISTIQUE

INFLUENCE DU MODELE

Page 177: INTRODUCTION A LA GÉOSTATISTIQUE

Le choix du modèle a peu d'influence sur les résultats du

krigeage pour autant que chaque modèle fournisse un

ajustement équivalent pour les courtes distances. Ici, le champ

fait 100m x 100m et chaque point est espacé de 33.3m. On

estime le point au centre de la grille. Les modèles théoriques

fournissent à peu près les mêmes valeurs pour les distances de

0 à 25m, or les points centraux, recevant les poids les plus

élevés, sont à 24m du point à estimer.

Interprétation

Page 178: INTRODUCTION A LA GÉOSTATISTIQUE

INFLUENCE DE L’ANISOTROPIE

On doit adapter l'échantillonnage en augmentant la densité d'échantillonnage dans la direction de plus faible portée. Les 3 exemples ci-contre correspondent au même nombre d'échantillonnage. Pour le même coût d'échantillonnage on peut donc obtenir des estimations beaucoup plus précises si l'on ajuste la stratégie d’échantillonnage à l’anisotropie.

Page 179: INTRODUCTION A LA GÉOSTATISTIQUE

La Validation

Parmi les points analysés, on prend un nombre de points aléatoirement

(10 -15 %) pour faire la validation des méthodes de krigeage (fig.).

Ces points ne sont pas introduits dans le calcul des variogrammes et

d'estimation par krigeage, mais ils sont, pour toutes les variables

confondues, estimés en leurs localisations à partir d'autres points

mesurés, ce qui permet de comparer les valeurs de variables mesurées

(Z) à celles estimés (Z*). Les critères retenus pour cette validation sont :

Page 180: INTRODUCTION A LA GÉOSTATISTIQUE

#*

#*

#*

#*

#*

#*

#*

#*#*

#*

#*#*

#*

#*

#*#*

#*

#*

#*#*

#*

#*

#*

#*

#*

#*

#*

#*

#*#*

#*

#*

#*#* #*

#*

#*

#*#*

#*

#*

#*#*

#*#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

#*

&

&

&

&

&

&

&

CHLEF

Moufkia

Chettia

Oum Drou

Boukadir

Oued Sly

Ouled Fares

350 000 360 000 370 000 380 000 390 000

310

000

320

000

330

000

Légende

& Communes

#* Point d'eau

#* Point de validation

Zone d'étude

Page 181: INTRODUCTION A LA GÉOSTATISTIQUE

L'erreur moyenne (EM) : elle doit être proche de zéro pour qu'il n'y ait ni surestimation,

ni sous-estimation systématique. Elle est calculée par la

formule suivante :

))()(*(1

1

i

n

i

i xZxZn

EM

La racine quadratique de l'erreur moyenne (RQEM)

Autant sa valeur est faible, autant l'estimation est bonne.

)]²()(*[1

ii xZxZn

RQEM

Page 182: INTRODUCTION A LA GÉOSTATISTIQUE

L'erreur standardisée moyenne (ESM) :

C’est le rapport entre l'écart quadratique et la variance d'estimation, elle vérifie la précision de l'estimation de l'écart

type d'estimation. Les meilleurs résultats sont obtenus

lorsque sa valeur est proche de 1.

)(

)]²()(*[1 1

i

n

i

ii

x

xZxZ

nESM

La racine de l'erreur standardisée quadratique moyenne (RQESM) : on aura une sous-estimation si sa valeur est

inférieure à 1, et dans le cas contraire une surestimation. Elle

est calculée par la formule suivante :

)(

)]²()(*[1 1

i

n

i

ii

x

xZxZ

nRQESM

Page 183: INTRODUCTION A LA GÉOSTATISTIQUE

Différents types de Krigeage

A- Le krigeage ordinaire La forme la plus simple et la plus employée de

cette technique est celle du krigeage linéaire.

L'estimation de Y*(x0) faite en un point x0 par le krigeage

linéaire est :

n

Y*(x0) = ∑ λi Y(xi)

i=1

Où :

n : est le nombre de points expérimentaux pris en

compte dans l'estimation λi : est le poids affecté au point expérimental xi

Page 184: INTRODUCTION A LA GÉOSTATISTIQUE

B- Le krigeage en bloc : Il est considéré comme une simple extension du

krigeage ordinaire. Au lieu de faire une estimation en un

point, l'estimation porte sur la valeur moyenne d'une

propriété sur une surface.

Cette technique est utilisée pour obtenir des cartes plus

lissées ou pour estimer des stocks.

Page 185: INTRODUCTION A LA GÉOSTATISTIQUE

C- Le krigeage disjonctif

L'estimation d'un point à estimer se fait par une fonction plus

générale qu'une simple combinaison linéaire des valeurs aux

points observés. Cette technique permet de tracer des cartes

de probabilité qui ne dépassent un seuil donné, elle est

souvent utilisée pour cartographier un polluant.

Page 186: INTRODUCTION A LA GÉOSTATISTIQUE

D- Le co-krigeage Dans cette technique de krigeage, on exploite la corrélation

entre deux variables. En effet, lorsque une corrélation existe

entre deux variables, le co-krigeage est employé, chose qui

peut être difficile (par exemple mesure physique au

laboratoire) ou facile (observation sur terrain). Le co-krigeage

permet de cartographier une variable peu échantillonnée en

utilisant les observations plus nombreuses d'une variable

facile d'accès.