225
ACADÉMIE DE MONTPELLIER , UNIVERSITE MONTPELLIER 1 - UNITES DE FORMATION ET DE RECHERCHE PHARMACEUTIQUES - Choix de composantes optimales pour l'analyse spatiale et la modélisation : application aux pluies mensuelles du Nordeste brésilien. Thèse présentée pour obtenir le grade de : , DOCTEUR DE L'UNIVERSITE MONTPELLIER 1 ECOLE DOCTORALE: Information, Structure et Systèmes FORMATION DOCTORALE: Biostaiistique N° de DISCIPLINE: 42 N° de SECTION DU CNU : 26 SPECIALITE : Statistique PAR Emeline SICARD soutenue publiquement le 3 décembre 2004 devant le JURY: M. BACRO Jean-Noël M. CADIER Eric M. CAZES Pierre M. DURBEC Jean-Pierre Mme. NIEL Hélène M. RIBSTEIN Pierre M. SABATIER Robert M.WACKERNAGELHans Professeur, Université Montpellier II Chercheur, IRD Quito Professeur, Université Paris Dauphine Professeur, Univ. de la Méditerranée Ingénieur de recherche, IRD Montpellier Professeur, Université Paris VI Maître de Conf., Université Montpellier 1 Chercheur, Ecole des Mines de Paris Président Co-Directeur de thèse Rapporteur Invité Invité Examinateur Directeur de thèse Rapporteur

Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

  • Upload
    trandan

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

ACADÉMIE DE MONTPELLIER

,UNIVERSITE MONTPELLIER 1

- UNITES DE FORMATION ET DE RECHERCHE PHARMACEUTIQUES -

Choix de composantes optimales pour l'analysespatiale et la modélisation : application aux pluies

mensuelles du Nordeste brésilien.

Thèse présentée pour obtenir le grade de :

,DOCTEUR DE L'UNIVERSITE MONTPELLIER 1

ECOLE DOCTORALE: Information, Structure et SystèmesFORMATION DOCTORALE: Biostaiistique

N° de DISCIPLINE: 42 N° de SECTION DU CNU : 26SPECIALITE : Statistique

PAR

Emeline SICARD

soutenue publiquement le

3 décembre 2004

devant le JURY:

M. BACRO Jean-Noël

M. CADIER Eric

M. CAZES Pierre

M. DURBEC Jean-Pierre

Mme. NIEL Hélène

M. RIBSTEIN Pierre

M. SABATIER Robert

M.WACKERNAGELHans

Professeur, Université Montpellier II

Chercheur, IRD Quito

Professeur, Université Paris Dauphine

Professeur, Univ. de la Méditerranée

Ingénieur de recherche, IRD Montpellier

Professeur, Université Paris VI

Maître de Conf., Université Montpellier 1

Chercheur, Ecole des Mines de Paris

Président

Co-Directeur de thèse

Rapporteur

Invité

Invité

Examinateur

Directeur de thèse

Rapporteur

Page 2: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 3: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Remerciements

Je tiens à remercier tous ceux qui ont participé à la réalisation de ce travail, eten particulier Robert Sabatier, mon directeur de thèse, pour sa disponibilité et sonenthousiasme, et sans qui cette thèse n'aurait pu aboutir.

Je remercie ensuite Eric Cadier, qui a été mon co-directeur de thèse au sein du labora­toire Great-Ice, et qui a fourni les données utilisées dans cette thèse ainsi que d'indispen­sables informations hydrologiques sur la région étudiée et les phénomènes impliqués. Je leremercie également pour sa présence au sein du jury malgré l'éloignement géographique.

Je suis reconnaissante à Hélène Niel qui a été mon interlocutrice privilégiée au seindu laboratoire Hydrosciences. La qualité de son encadrement lors de mon stage deDEA a été un élément déterminant de ma poursuite en thèse à la Maison des Sciencesde l'Eau. Je la remercie pour sa gentillesse, pour sa rigueur scientifique qui a permisd'améliorer de beaucoup les interprétations des résultats de ce manuscript, ainsi quepour sa présence dans mon jury.

Je remercie Pierre Ribstein, Pierre Chevallier et Bernard Pouyaud, responsables suc­cessifs du laboratoire Great-Ice, dans lequel s'inscrit mon travail de recherche. Je lesremercie également de m'avoir permis de participer à différentes conférences et forma­tions qui m'ont beaucoup apporté. Merci à Pierre Ribstein d'avoir également accepté defaire partie du jury.

Je remercie Eric Servat qui m'a accueillie au sein du laboratoire Hydrosciences etqui a mis à ma disposition salle et matériel informatique, ainsi que les compétences deson personnel. Je pense en particulier aux personnes qui m'ont aidée au niveau informa­tique, notamment Bernard Cappelaere et François Delclaux pour les problèmes sur lesstations Unix, et Claudine Dieulin pour les problèmes de mise en forme de documentset d'impression de qualité.

Je n'oublie pas Luc Maury qui m'a acceptée dans le laboratoire de PhysiqueMoléculaire et Structurale de la faculté de Pharmacie pendant quelques mois.

Je remercie enfin Pierre Cazes et Hans Wackernagel qui ont gentiment accepté d'êtrerapporteurs malgré leur emploi du temps très chargé. Merci à Pierre Cazes pour sa lecturetrès précise qui a permis de corriger un certain nombre d'erreurs dans mon manuscript.

Je remercie également Jean-Noël Bacro pour avoir accepté de faire partie du jury,ainsi que Jean-Pierre Durbec même s'il ne peut être présent lors de ma soutenance.

Page 4: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 5: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Table des matières

Notations 9

Acronymes 13

Introduction générale 15

1920222424283234

analyses1919

1 Description des données du Nordeste brésilien etpréliminaires1.1 La région du Nordeste brésilien .. . . . . . . . . . . . . . . ....

1.1.1 Les différentes zones physiographiques du Nordeste, d'après Cadier(1993) .

1.1.2 Mécanismes à l'origine des précipitations .1.1.3 Origines de la variabilité inter-annuelle des précipitations

1.2 Analyses préliminaires sur les données brutes.1.2.1 Description des données .1.2.2 Analyse des totaux annuels de pluie . . .1.2.3 La méthode du STATIS sur les objets Zk1.2.4 Résultats du STATIS .

2 Prise en compte de l'information spatiale sur les individus 432.1 Matrices de voisinage . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44

2.1.1 Décomposition de la variance totale en variance locale et variancecomplémentaire . . . . . 44

2.1.2 Opérateurs de voisinage . . 452.1.3 Cas où D = JnIn . . • • • • 45

2.2 Covariance spatiale et variogramme 482.2.1 Cas univarié . . . . 482.2.2 Cas multivarié. . . . . . . . 54

2.3 Application à nos données . . . . . 612.3.1 Paramètres d'estimation des variogrammes expérimentaux 612.3.2 Etude variographique des variables compromis. . . . . . 622.3.3 Etude variographique après transformation des données . 64

3 Méthodes d'analyse de données multivariées spatialisées 673.1 Utilisation des coordonnées géographiques . . . . . . . . . 69

3.1.1 Analyse des surfaces de tendance (AST) 693.1.2 Utilisation de la matrice des distances euclidiennes 70

5

Page 6: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

6 Table des matières

3.2 ACP locale et globale . . . . . . . . . . . . . . . . . . . . . . . . . . .. 723.2.1 Description à partir des opérateurs de voisinage . . . . . . . .. 723.2.2 Liens avec le variogramme et la fonction de covariance spatiale. 73

3.3 Méthode des facteurs d'autocorrélation maximale (MAF) 753.3.1 Critères optimisés et solutions . . . . . . . . . . . . . . 753.3.2 Propriétés......................... 763.3.3 Aides à l'interprétation, d'après Faraj & Cailly (2001) . 793.3.4 Généralisation pour deux pas h . . . . . . . . . . . . . 803.3.5 Application au cas d'un modèle de corégionalisation à deux struc-

tures . . . . . . . . . . . . . . . . . . . . . . 823.4 Etude du tableau des variogrammes discrétisés . . . . . . . . . . . . 843.5 Etudes des matrices de variog. et/ou de covariance 85

3.5.1 Diagonalisation de la somme des matrices de variogrammes . 863.5.2 STATIS dual .... . . . . . . . . . . . . . . . . . . . . . 883.5.3 Common Principal Components Analysis (Common PCA) 893.5.4 TSVD . . . . . . . 923.5.5 L'analyse krigeante 93

3.6 Synthèse...... 96

4 SeM et applications 1014.1 SCM: généralités . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.1.1 Nature du critère . . . . . . . . . . . . . . . . . . . . . 1024.1.2 Choix du modèle de variogramme et de ses coefficients 1034.1.3 Obtention des composantes suivantes . . . . . . . . . . 105

4.2 Ajustement itératif de u dans la SCMu . . . . . . . . . . . . . 1064.2.1 Tentative d'algorithme de relaxation basé sur le Lagrangien. 1064.2.2 Reparamétrisation du problème . . . . . . . . . . . . . . . . 1074.2.3 Etude de la positivité de la matrice du Hessien à la convergence 108

4.3 Ajustement itératif de u et () dans la SCMu() . 1104.3.1 Critère \{I3 . . • . 1104.3.2 Critères \{Il et \{I2 1114.3.3 Critère 'l15 . . . . 112

4.4 Variantes 1144.4.1 Variante 1: complément à l'ACP de la matrice des variogrammes

discrétisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.4.2 Variante 2 : ajustement à une combinaison linéaire de variogrammes1154.4.3 Variante 3 : extension au cas de plusieurs tableaux 116

4.5 Applications sur nos données. . . . . 1184.5.1 ACP totale, locale, et globale " . . 1184.5.2 Méthode des MAF . . . . . . . . . . 1204.5.3 Etude des matrices de variogramme . 1234.5.4 Application de la méthode SCM . 127

5 Régression multivariée5.1 Description des variables et analyses préliminaires

5.1.1 Introduction des décalages ..5.1.2 Rappels sur la régression PLS .

137139140141

Page 7: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Table des matières

5.1.3 Comparaison de plusieurs régressions PLS2 .5.1.4 Régression PLS sur les mois de février à mai

5.2 Combinaison PLS/krigeage ....5.2.1 Description de la méthode5.2.2 Applications........

5.3 Méthodes de régression locale . .5.3.1 Principe de la régression locale multivariée, et extension à

régression PLS .5.3.2 Variante: régression locale sur les composantes PLS .5.3.3 Etude théorique de la régression PLS1 locale.5.3.4 Applications.......................

Conclusion

Bibliographie

Annexes

1 Les stations étudiées

2 Compléments STATIS

3 Le krigeage ordinaire

4 Quelques programmes

143145152152153158

la159163163171

181

185

199

199

203

209

211

7

Page 8: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 9: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Notations

Les objets en gras et majuscule sont des matrices, les objets en gras et minusculesont des vecteurs, les objets en italique sont des scalaires.

In : matrice identité n x n.Un : matrice n x n dont chaque terme vaut 1.ln : vecteur colonne de longueur n constitué uniquement de 1.On : vecteur colonne de longueur n constitué uniquement de O.

Opérations standards sur les matrices/vecteurs

X : matrice quelconque.xt : transposée de la matrice X.IIXllHs : norme de Hilbert-Schmidt de X.tr(X) : trace de la matrice X.diag(X) : vecteur composé des éléments diagonaux de la matrice X.

u : vecteur colonne quelconquePu : projecteur D-orthogonal sur l'espace engendré par u.Ilulli> : carré de la norme de u au sens de la métrique D.diag(u) : matrice diagonale composée des éléments du vecteur u.

Notations statistiques :

u, v : variables aléatoires quelconques.E(u) : espérance de u.var(u) : variance de u.cov(u, v) : covariance entre u et v.cor(u,v) : corrélation entre u et v, égale à cov(u, v)/Jvar(u) var(v).

u, v : vecteurs des réalisations des variables aléatoires u et v.varD(u) : D-variance expérimentale usuelle du vecteur u.COVD (u, v) : D-covariance expérimentale usuelle entre u et v.corD (u, v) : D-corrélation expérimentale usuelle entre u et v.

Soient An et Bn deux suites aléatoires réelles :- An = op(Bn) si pour tout €> 0, liffin-too P(IAn/ Bnl > €) = O.- An = Op(Bn) si pour tout € > 0, il existe À et M tels que P(IAn/ Bnl > À) < €, pour

Page 10: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

10

tout n> M (Wand & Jones, 1995).

Notations de statistique spatiale :

M : matrice n x n de voisinage, d'élément courant mi,i"

E : opérateur de voisinage local associé à M.S : opérateur de voisinage global associé à M.Dm : matrice des pondérations locales.I(z) : coefficient de Geary pour la variable z.c(z) : coefficient de Moran pour la variable z.

Notations

Xi ,Xi' : vecteurs de coordonnées spatiales dans JR2.h : pas, égal à Xi - Xi'h : norme de hw : direction de hN(h) : classe regroupant les vecteurs reliant deux points d'observation séparés par unedistance comprise dans h ± t:lh et par une direction comprise dans w ± t:lw.IN(h) 1 : le nombre de paires distinctes de l'ensemble N(h).M h : matrice n x n de voisinage au pas h, d'élément courant m~~}.mh : nombre de points voisins pour la matrice M h. .D h : métrique égale à diag(1/ y'(mh)).Eh : opérateur de voisinage local associé à M h .

Z(X) : variable régionalisée.Z(Xi) : valeur régionalisée.z : vecteur des n valeurs régionalisées Z(Xi), prises aux points Xl ••. Xn .

Z(x) : fonction aléatoire.Z(Xi) : variable aléatoire.

,,(h) : fonction de semi-variogramme au pas h (souvent appelée variogramme par abusde langage).9(h) : son estimateur, en général celui de Matheron (1963), aussi appelé semi­variogramme expérimental.Î'(h) : matrice des semi-variogrammes expérimentaux.C(h) : fonction de covariance spatiale au pas h.ê(h) : son estimateur, aussi appelé fonction de covariance spatiale expérimentale.ê(h) : matrice des covariances spatiales expérimentales.

Quelques objets du chapitre 3 et 4

Z : matrice de données à n lignes et P colonnes.i, i' : indices des lignes.j, j' : indices des colonnes.D : matrice n x n des poids des lignes d'éléments Pœ, en général diagonale et de somme1.

Page 11: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Notations Il

Q : matrice p x p des poids des colonnes, en général égale à la matrice identité.:E : matrice des variances-covariances usuelle de Z.CO : vecteur de longueur n = aème composante principale. Les Ca sont rangés dans unematrice C à n lignes.U o : vecteur de longueur p = aème facteur principal. Les Ua sont rangés dans unematrice A à p lignes.

Quelques objets du chapitre 4 :

y : matrice n x p des variables à expliquer.y : vecteur n x 1 pour une variable à expliquer.Z : matrice n x q des variables explicatives.a : nombre de composantes PLS retenues.r : degré du polynôme dans la régression polynomiale.f : paramètre de lissage dans la régression polynomiale de type LOESS.d : distance euclidienne.w : fonction noyau.

Page 12: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 13: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Acronymes

ACPACPVIACTAMAFASTCLIMANENSOEOFLOESSLOWESSLPLSILPLS2LRMAFMSEMSEPPCAPCNMPLSPLSIPLS2PLSIKPLS2KPLSILRPRESSRSSSCMSCMuSCMuOSOISTATIS

Analyse en Composantes PrincipalesAnalyse en Composantes Principales par rapport à des Variables InstrumentalesAnalyse Conjointe de Tableaux (ou STATIS)Ambi-rotational Maximum Autocorrelation FactorsAnalyse par Surfaces de TendanceCLImatic Monthly ANalysisEl Niiio / Southern OscillationEmpirical Orthogonal FunctionsLocally weighted regressionLOcally WEighted Scatter plot SmoothingRégression PLSI localeRégression PLS2 localeRégression multiple localeMaximum Autocorrelation FactorsMean Squared ErrorMean Squared Error of PredictionPrincipal Component AnalysisPrincipal Coordinates of Neighbour MatricesPartial Least SquaresRégression PLS avec 1 variables à expliquerRégression PLS avec plusieurs variables à expliquerKrigeage dans l'espace des composantes PLSIKrigeage dans l'espace des composantes PLS2Régression locale sur les composantes PLSIPRediction Error Sum of SquaresResidual Sum of SquaresMéthode d'analyse sur Composantes SpatialiséesSCM à 0 constantSCM à () variableSouthern Oscillation IndexStructuration des Tableaux A Trois Indices de la Statistique (ou ACT)

Page 14: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

14

SUDENETSMTSVDVIP

ZCIT

Superintendência do Desenvolvimento do NordesteTempérature Superficielle de la MerTensor Singular Value DecompositionVariable Importance in the ProjectionZone de Convergence InterTropicale

Acronymes

Page 15: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Introduction générale

L'analyse de données fournit un grand nombre de méthodes fondées sur le calcul ma­triciel et la diagonalisation, permettant de réduire la dimension de données multivariéeset d'en atténuer le bruit. Elles permettent l'appréhension de problèmes complexesen donnant une vue d'ensemble du problème à traiter. L'Analyse en ComposantesPrincipales (ACP) est la méthode d'analyse multivariée la plus utilisée de par lasimplicité de sa formulation mathématique et de ses résultats. Les fonctions empiriquesorthogonales (EüF) sont une autre formulation de l'ACP communément employée enclimatologie.L'ACP repose sur une réduction de la dimension par des critères purement géométriques:une transformation linéaire permet de passer d'un ensemble de p variables corréléesentre elles à un ensemble de a composantes orthogonales (a ~ p), qui permettentd'extraire une part maximale de la variabilité totale des variables initiales: c'est-à-direque dans la représentation des individus dans l'espace généré par les composantes, ladispersion du nuage de points est maximale. L'orthogonalité des composantes assure unedécomposition additive de la variance. L'opération de base permettant de réaliser cettedécomposition est la diagonalisation de la matrice de variance-covariance des variablesdu tableau (qui est aussi la matrice des corrélations si ces variables sont réduites), quiproduit les facteurs, ou de la matrice des produits scalaires entre les individus, quiproduit directement les composantes. Ces matrices sont calculées à partir des métriquesD et Q contenant respectivement des pondérations a priori pour les individus et lesvariables.Cependant l'ACP ne tient pas compte de la notion de contiguïté, c'est-à-dire de lanon-indépendance entre les individus statistiques. Cette contiguïté peut être spatialeou temporelle. Nous nous sommes intéressés dans cette thèse à la prise en comptedes proximités spatiales, dans les analyses basées sur le calcul de composantes optimales.

Un examen de la littérature sur ce sujet montre que cette problématique a suscitédeux grands groupes de méthodes.Le premier groupe de méthodes, que nous avons essentiellement rencontré dans le do­maine de l'écologie, est basé sur la définition d'une matrice de voisinage entre les in­dividus, et découle de la définition de la variance locale au sens de Lebart (1969). Cesméthodes regroupent les analyses locales et globales, qui sont reliées aux coefficients deGeary et de Moran.Le deuxième grand groupe découle de la géostatistique, et utilise les outils du vario­gramme et de la covariance spatiale, sous la forme de leur estimateur empirique ou deleur ajustement. Ces méthodes diffèrent de par les objets qu'elles utilisent. Certainesméthodes découlent ainsi de l'estimation du modèle linéaire de corégionalisation : c'est

Page 16: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

16 Introduction générale

le cas de l'analyse krigeante (Matheron, 1982; Wackernagel, 1998; Arnaud et al., 2001),mais aussi d'autres méthodes utilisant des techniques multi-tableaux classiques commela common PCA (Flury, 1988) ou la méhode STATIS (L'Hermier des Plantes, 1976).D'autres méthodes utilisent les matrices de variogrammes ou de covariances spatialesexpérimentales. Nous décrivons la méthode des MAF, ou des facteurs d'autocorrélationmaximale, introduite par Switzer & Green (1984) dans le contexte de l'analyse d'image,et rencontrée sous divers noms dans de nombreuses publications, ainsi que les méthodesbasées sur la diagonalisation d'une combinaison linéaire des matrices de variogrammesestimées aux différents pas. Enfin on rencontre plus marginalement l'étude de la matricedes fonctions de variogrammes discrétisées (De Iaco, 2001).Chacune de ces méthodes possède des propriétés spécifiques et peut être formulée parl'optimisation d'un certain critère. Le critère varie en fonction de ce que l'on recherchedans les données. Nous nous proposons donc dans un premier temps d'effectuer unesynthèse bibliographique, et de rechercher d'une part les liens quand ils existent entre lesdifférentes méthodes, et d'autre part de comparer les méthodes de par leurs propriétéset le critère qu'elles optimisent. Nous appliquerons aussi certaines de ces méthodes aprèsune programmation sous S-Plus©.

L'ensemble des critères rencontrés nous a conduit à envisager d'autres types decritères, qui permettent de formuler de nouvelles méthodes. Dans cette thèse nousprésentons ainsi une nouvelle approche, basée sur la définition d'un critère originald'ajustement entre un variogramme expérimental et un variogramme théorique. Cetteapproche a déjà été citée par Bailey & Krzanowski (2000) et Cornillon & Sabatier(1999) mais n'a pas encore été à notre connaissance exploitée de façon suffisante. Or ilnous semble que ce type de critère peut ouvrir la voie à tout un ensemble de méthodesintéressantes. Cependant il n'est pas sans poser de nombreux problèmes. Par exemple lechoix du critère n'est pas anodin, ainsi que le variogramme théorique choisi. L'obtentionde plusieurs composantes nécessite aussi de définir des contraintes d'orthogonalité quine sont pas évidentes. Nous proposons donc d'étudier ces différents aspects.

Les applications pratiques concernent des totaux mensuels de pluie du Nordeste duBrésil. C'est une vaste région pour laquelle les précipitations sont très irrégulières à lafois dans le temps et dans l'espace. La disposition des données engendre une complexitésupplémentaire: en effet elles sont disposées dans un tableau à trois dimensions, cesdimensions étant les stations de mesures, les mois, et les années. Il y a donc à lafois des dépendances spatiales et temporelles. Cette thèse se limitant à l'étude desdépendances spatiales, nous avons décidé de résumer tous les tableaux correspondantaux différentes années en un seul tableau au moyen de la méthode STATIS (L'Hermierdes Plantes, 1976), et de réaliser nos analyses spatiales sur le tableau compromis à deuxdimensions obtenu. L'objectif est d'étudier la structure spatiale du phénomène de pluiesur cette région, en calculant des composantes résumant cette structure, obtenues parl'optimisation de différents critères. L'étude des pluies de cette région a déjà été étudiéepar des méthodes de type ACP, mais jamais à notre connaissance en prenant en compteles proximités spatiales.

Pour l'instant nous nous sommes donc posés un problème théorique, qui est celui del'analyse de données spatiales multivariées afin d'en extraire des composantes, et nousnous sommes proposés d'appliquer les méthodes développées sur le jeu de données de

Page 17: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Introduction générale 17

pluies dont nous disposons. Cependant ces méthodes ne sont pas spécifiques à ce jeu dedonnées et pourraient s'appliquer ailleurs.L'objectif de cette thèse étant pluridisciplinaire, nous nous sommes aussi intéressésà une problématique inverse, c'est-à-dire consistant à partir du jeu de données pourtrouver des méthodes adaptées. Ainsi, de manière indépendante, nous avons étudiéles liens existant entre les totaux mensuels de pluies du Nordeste et des variablesexplicatives collectées sur les océans Atlantique et Pacifique. Pour cela nous avonsconsidéré deux méthodes, qui utilisent toutes deux des outils spatiaux, et qui sonttoutes deux basées sur le calcul de composantes des variables explicatives. La premièreméthode combine ainsi l'ACP et la méthode d'interpolation spatiale qu'est le krigeage.Elle a été développée par Biau et al. (1999). Nous en proposons une modificationutilisant la régression PLS (Tenenhaus, 1998), qui est une méthode de régression trèsrépandue dans le cas où les variables explicatives sont corrélées entre elles, et dans lecas où elles sont en nombre inférieur au nombre d'individus. La deuxième méthodeest la méthode non paramétrique d'estimation polynomiale locale, avec sa formulationde type LOESS introduite par Cleveland (1979). Nous l'avons modifiée en utilisant larégression PLS de plusieurs façons différentes.

Cette thèse est divisée en plusieurs chapitres. Le premier chapitre est consacré à ladescription des données, qui sont donc des données de pluies collectées dans la régiondu Nordeste du Brésil, et des problèmes qu'elles soulèvent. Des analyses classiques mul­tivariées sont également réalisées. Il s'agit des analyses en composantes principales destotaux annuels, et de la méthode STATIS. Nous avons utilisé non pas la méthode STATISla plus rencontrée qui est le STATIS sur les objets WD (matrices de produits scalaires),mais la méthode STATIS s'appliquant sur les tableaux initiaux eux-mêmes. Nous rap­pelIons donc les principes de cette méthode, et nous en établissons quelques propriétés.On remarque que les méthodes appliquées dans ce chapitre ne prennent pas en compteles proximités spatiales entre les individus.

Le deuxième chapitre décrit deux grands types d'outils utilisés pour prendre en compteces proximités spatiales: il s'agit des matrices de voisinages et des quantités associées(variance locale, opérateurs de voisinage, coefficients de Geary et de Moran) d'une part, etdes outils géostatistiques d'autre part (variogramme et fonction de covariance spatiale).Nous explicitons de plus les liens entre ces deux types d'outils. Cette partie se terminesur quelques applications pratiques sur nos données, en particulier l'étude variographiquedes variables du tableau compromis obtenu dans le chapitre précédent.

Le troisième chapitre est une revue bibliographique des principales méthodes utili­sant les outils décrits dans la deuxième partie. Nous essayons de voir à quels problèmesspécifiques répondent ces méthodes, quels sont leurs liens et de les comparer sur la basedu critère optimisé. Ce chapitre se termine par un tableau de synthèse récapitulatif.

Le quatrième chapitre est consacré aux méthodes originales que nous avonsdéveloppées. La plus grande partie est constituée par la méthode d'analyse sur com­posantes spatialisées (ou SCM). Nous distinguons deux formulations de la méthode,suivant que l'on fixe les paramètres du variogramme théorique choisi pour l'ajustement(SCMu), ou qu'on les ajuste en même temps que la composante (SCMuO). Nous expo­sons les algorithmes de résolution utilisés, discutons des problèmes de convergence etceux relatifs au choix du critère. Trois variantes sont aussi présentées. Il s'agit de l'utili­sation de la SCM pour compléter l'analyse de la matrice des variogrammes discrétisés de

Page 18: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

18 Introduction générale

De Iaco (2001), de l'ajustement à une combinaison linéaire de variogrammes théoriques,et de l'extension au cas multi-tableau, où l'on ajuste pour chaque tableau une compo­sante à un unique variogramme théorique. La dernière partie de ce chapitre présenteenfin les applications pratiques sur les données de pluies de ces méthodes, ainsi que dequelques méthodes présentées dans le chapitre précédent. L'application de la SeM a faiten particulier l'objet d'une publication dans Sicard et al. (2002).

Enfin, le dernier chapitre, indépendant des autres, introduit le nouveau jeu dedonnées constitué par les variables explicatives collectées sur l'océan. Les données depluies sont aussi disposées de façon différente de manière à n'obtenir qu'un seul tableaudes données de pluies à expliquer, ayant les mêmes individus que le tableau des variablesexplicatives. Nous présentons tout d'abord des analyses préliminaires par différentesrégressions PLS entre le tableau des variables de pluies et celui des variables explicatives.Puis nous présentons les méthodes d'estimation par krigeage et par régression PLSlocale, ainsi que les résultats obtenus et l'analyse asymptotique pour la régression PLS1locale à 1 composante.

Toutes les programmations et les différentes analyses de cette thèse ont été réaliséesavec le logiciel S-Plus© (A.T. & T. Bell Laboratories, 1984), à l'exception de quelquesprogrammes d'estimation pour les variogrammes et les covariances spatiales qui sonten langage Fortran. Les données ont été fournies par le laboratoire Great-Ice (IRD,Montpellier), où a été effectuée la plus grande partie de cette thèse, en collaborationavec le laboratoire de Physique Moléculaire et Structurale de la faculté de Pharmacie deMontpellier.

Page 19: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chapitre 1

Description des données duNordeste brésilien et analysespréliminaires

1.1 La région du Nordeste brésilien

La région du Nordeste brésilien est une immense région de 1600000 kilomètres carréssituée au nord-est du Brésil, à 1 - 18 degrés sud de latitude et 35 - 47 degrés ouest delongitude environ. Elle couvre à peu près 20% du territoire brésilien.Son climat est caractérisé par une grande irrégularité et une grande faiblesse desprécipitations, faiblesse qui dénote un comportement singulier pour la latitude, où l'onobserve d'ordinaire des précipitations plus élevées. La majeure partie de la surface duNordeste présente ainsi des totaux moyens annuels inférieurs à 800 millimètres, voiremême 400 millimètres. Cette zone semi-aride, délimitée par l'isohyète de 800 millimètres,couvre près de un million de kilomètres carrés et constitue le "polygone des sécheresses".Elle est bordée de bandes littorales (orientales) et continentales (occidentales) plus hu­mides (Cadier, 1993).Cette semi-aridité fait du Nordeste une zone sensible aux sécheresses. Des épisodesextrêmes de sécheresse aux conséquences graves pour la population ont été par exempleenregistrés en 1915, 1919, de 1930 à 1932, en 1942, 1958, de 1952 à 1953, et de 1979 à1983 (Cadier, 1993).L'iirégularité des précipitations est quant à elle à la fois spatiale et temporelle. La varia­bilité temporelle se traduit par exemple par des coefficients de variation des totaux depluie annuels toujours supérieurs à 0,25 (Cadier, 1993). Nous allons donc caractériserplus en détail cette variabilité en décrivant les différentes zones physiographiques quipeuvent être distinguées, ainsi que les différents mécanismes de perturbations affectantle Nordeste et les causes de leur variabilité dans le temps.

1.1.1 Les différentes zones physiographiques du Nordeste,d'après Cadier (1993)

Trois principales zones géographiques (voir figure 1.1) peuvent être distinguées, enfonction de leur végétation, de la nature de leur sol, et de leur climat. Les caractéristiques

Page 20: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

,-

Chap. 1. Description des données du Nordeste brésilien et analyses20 préliminaires

de leur saison pluvieuse sont résumées dans le tableau 1.1, d'après Cadier (1993), Onsouligne cependant qu'en raison de la grande variabilité temporelle, les dates des saisonspluvieuses varient selon les auteurs considérés. Les trois principales zones sont donc lessuivantes:

- La Zona da Mata est la zone côtière, étroite et humide. Elle présente un cli­mat tropical chaud et humide d'alizés, avec une pluviométrie annuelle variantde 1200 à plus de 2500 millimètres. La saison des pluies dure de mars à août environ.

- La zone de l'Agreste borde la Zona da Mata à l'ouest, et est une zone intermédiaireentre cette dernière zone humide et le Sertâo qui est plus sec. La période de lasaison des pluies est similaire à celle de la Zona da Mata.

- Enfin le Sertâo possède un climat semi-aride avec une pluviométrie annuelle variantde 400 à 800 millimètres, et une saison des pluies variant de janvier à mai pour lapartie nord à septembre à avril pour la partie sud.

Le polygone des sécheresses introduit précédemment comprend les deux zones del'Agreste et du Sertâo. Il faut noter qu'à l'intérieur du Sertâo se trouvent plusieurs zonesdont la pluviométrie dépasse 800 millimètres, en raison principalement d'un micro-climatd'altitude appelé Brejo, et qui ne peuvent être qualifiées de semi-arides. On remarqueaussi sur la carte 1.1 la zone préamazonique humide qui se trouve à l'ouest du Sertâo.La zone que nous allons étudier correspond à la partie du polygone des sécheresses situéeau dessus de 15 degrés de latitude sud, en excluant donc la partie de Zona da Mata.

Région Saison des pluies Maximum despluies

Nord du Sertâo janvier à mai février à avrilSud du Sertâo septembre à avril décembre

Agreste et Zona da mars à août avril à juinMata

TAB. 1.1 - Caractéristiques de la saison des pluies des différentes zones physiographiques du Nordeste(d'après Cadier (1993)).

1.1.2 Mécanismes à l'origine des précipitations

Nimer a identifié en 1993 quatre principaux systèmes de perturbations (Cadier,1993), provenant des quatre directions cardinales, et susceptibles d'atteindre des zonesdifférentes (voir tableau 1.2). Les zones les plus sèches, situées au centre du Nordeste,sont les plus difficilement atteintes par ces perturbations à cause de leur éloignement oud'un effet écran dû au relief (Cadier, 1993).Le système des perturbations du nord est le principal responsable des précipitations danstoute la moitié nord du polygone des sécheresses. Ainsi, dans la partie nord du Sertâo, la

Page 21: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.1 La région du Nordeste brésilien 21

BREJO (micro-climal d'allilude)

SERTAO (semi-aride) 1 Polygône des

AGRESTE (semi.aride) séclle"'sses

Latitude

·6

-10

·14

-18

-44 ·40

ZONA DA MATA

ZONES HUMIDES

-36Longitude

FIG. 1.1 - Les principales zones physiographiques du Nordeste (Cadier, 1993).

Page 22: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses22 préliminaires

zone de convergence intertropicale (ZCIT, aussi appelée équateur thermique par certainsauteurs), qui se trouve à une latitude moyenne de 5 degrés nord, se déplace vers le sudsous l'effet de l'anticyclone semi fixe de l'Atlantique sud pour atteindre sa position laplus extrême en février-mars. Cela marque le début de la saison des pluies, le retour dela ZCIT à sa position la plus au nord en marquant la fin. Parallèlement au déplacementde la ZCIT, on constate un déplacement du front des précipitations d'abord vers le sudlors de la descente de la ZCIT puis vers le nord lors de sa remontée (Dvo & Berndtsson,1996). Les pluies entre janvier et février dans le nord du Sertâo sont principalement in­fluencées par les fronts froids et/où leurs vestiges, ainsi que par la présence de tourbillonsde haute atmosphère (high level tropical vortices) (Bertacchi Dvo et al., 1998).Le système des perturbations de l'ouest affecte quant à lui principalement la moitié suddu polygone des sécheresses, en provoquant des pluies principalement en novembre etdécembre. Celui de l'est affecte la zone humide côtière (Zona da Mata) et l'Agreste.Quant au système des perturbations du sud, ses effets ne dépassent que rarement 15degrés de latitude sud, et ne concerne donc pas notre zone d'étude.

Provenance Cause Zone d'influencePériode

d'influence

déplacement de lamoitié nord du janvier à mai, avec

nordZCIT

polygone des un maximum ensécheresses mars-avril

contact entre lefront polaire moitié sud du

ouest atlantique et les polygone des septembre à avrilmasses d'air chaud sécheressesde la zone tropicale

est océan Atlantique est: Zona da mars à aoûtMata, Agreste

invasion d'airsud du Nordeste,

sudpolaire en dessous de 15 juillet à août

degrés sud

TAB. 1.2 - Les quatre principaux systèmes de perturbations identifiés par Nimer (d'après Cadier (1999)).

Nous avons donc décrit plusieurs systèmes de perturbations qui atteignent des zonesdifférentes à des moments différents de l'année. Ils sont donc, avec les effets locauxdu relief et de l'éloignement par rapport à l'océan, la cause de la grande irrégularitéspatiale des pluies sur le Nordeste. Nous allons maintenant nous intéresser à la variabilitéinterannuelle.

1.1.3 Origines de la variabilité inter-annuelle des précipitations

Les effets des différents systèmes de perturbations décrits au paragraphe précédentvarient beaucoup d'une année sur l'autre, ce qui entraîne une grande variabilitéinterannuelle des précipitations. La variabilité des précipitations du Nordeste sembleinfluencée par 3 grands mécanismes (Dvo & Berndtsson, 1996) :

Page 23: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.1 La région du Nordeste brésilien 23

- Les variations du déplacement de la zone de convergence intertropicale sur l'océanAtlantique. En effet, l'intensité et la durée de ce déplacement conditionnent ladurée de la saison des pluies dans le nord du Nordeste et donc la quantité deprécipitations. Le moment du retour de la ZCIT à sa position la plus au Nord aprèsle début de la saison des pluies est par exemple très variable : il peut varier demars pour une année sèche à mai pour une année humide. Lors de certaines annéessèches la ZCIT peut même rester au nord de l'Equateur (Bertacchi Uvo et al., 1998).

- Le phénomène de l'ENSO (El Nifio - oscillation australe) (échelle inter et pluriannuelle). Ropelewski & Halpert (1989) ont confirmé statistiquement sa corrélationavec les pluies annuelles. On peut en effet relier certains forts événements ElNifio (comme celui de 1983) à des sécheresses dans le Nordeste (Cadier, 1993).Cependant certains évènements El Nifio peuvent aussi y être associés à despluviométries normales voire élevées. Le tableau 1.3 montre un bref historique del'influence des 25 évènements El Nifio répertoriés de 1912 à 2002 sur les pluies duCeara (qui est un Etat du nord du Sertao) d'après FUNCEME (2002). Ce tableaumontre que malgré la prédominance des années sèches, on ne peut pas concluresur une relation systématique. Le lien est donc complexe et doit être envisagé enrelation avec d'autres facteurs.

- Les anomalies de température et de pression à la surface de l'océan Atlantique,ainsi que les alizés: des études (Hastenrath & HelIer, 1977; Markham & McLain,1977; Moura & Shukla, 1981) ont par exemple montré qu'en situation de pluiedéficitaire dans le Nordeste les anomalies thermiques sont globalement négativesau sud de l'Equateur et positives au nord (Cadier, 1993). On parle ainsi de"dipôle thermique" . En effet cette situation provoque des mouvements descendantsqui inhibent la formation des nuages, ce qui peut provoquer des sécheresses.Inversement quand les anomalies thermiques sont globalement positives au sudet négatives au nord, cela entraîne des mouvements ascendants qui accélèrent laformation des nuages et augmentent donc les précipitations (De Aragao, 1998).

Les périodes de pluie et de sécheresse ont donc des origines complexes, résultant de lacombinaison de tous ces mécanismes. Elles peuvent ainsi dépendre de la date, de la durée,et de l'intensité des évènements (associés à ces mécanismes) El Nifio et des événementsassociés au dipôle thermique de l'Atlantique (De Aragao, 1998).

Années Niiio Effet sur les pluiesdu Ceara

1912, 1924, 1926, 1940, 1947, 1964, 1973 Excédent de pluie

1931, 1933, 1952, 1954, 1966, 1977, 1978, 1994 Pluies normales1915, 1919, 1941, 1942, 1958, 1970, 1983, 1987, 1992, Déficit de pluie1998

TAB. 1.3 - Historique de l'influence des 25 évènements El Nino répertoriés de 1912 à 2002 sur les pluiesde la région du Ceara (FUNCEME, 2002).

Page 24: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses24 préliminaires

1.2 Analyses préliminaires sur les données brutes

1.2.1 Description des données

1.2.1.1 Origine et sélection des données

Les données de pluie sont issues de la banque de données de la SUDENE (Superin­tendência do Desenvolvimento do Nordeste). Nous disposons des totaux mensuels depluies sur 156 pluviomètres, résultant d'une sélection des 2200 pluviomètres répertoriésdans le Nordeste, en fonction de la longueur des chroniques pluviométriques (toutes lesséries sélectionnées ont une durée supérieure à 35 ans), de leur homogénéité et de leurcohérence avec les autres pluviomètres de la région. Cette sélection a été réalisée parMolinier (1992), en même temps qu'une homogénéisation avec la méthode du vecteurrégional (voir Caclier (1993) pour plus de précisions).

A partir de ces 156 stations nous avons réalisé une deuxième sélection à la fois surles stations et sur les années afin de diminuer le nombre de données manquantes. Unautre critère de sélection a été l'obtention d'une série temporelle continue comprenantl'année civile 1983, qui correspond à une très forte sécheresse dans le Nordeste brésilien,ainsi qu'à un évènement Niîio. Ce travail a abouti à un échantillon de 65 stations surla période de janvier 1937 à décembre 1984. Ces stations sont décrites en annexe 1, etreprésentées sur la figure 1.2. Elles sont repérées dans l'espace par leur longitude et leurlatitude, mesurées en degrés décimaux. Les valeurs manquantes résiduelles (moins de10%) ont été remplies avec la méthode du vecteur régional à l'aide du logiciel CLIMAN(voir Rossel (1997) p.131) .

1.2.1.2 Définition de l'année hydrologique

La coupure entre le mois de décembre et celui de janvier, qui est le découpage desannées civiles, n'est pas naturel d'un point de vue hydrologique. En effet, cette coupurepeut répartir de façon arbitraire des évènements sur deux années. Il s'est donc posé laquestion de la définition d'une période de 12 mois plus adaptée à nos données, le plusnaturel étant de fixer le changement d'année pendant la période la plus sèche. Cependantla grande diversité spatiale et temporelle des limites des saisons des pluies sur nos stationsrend difficile la détermination d'une telle période.C'est pourquoi nous avons commencé nos analyses sur les années civiles, en calculant letableau interannuel moyen contenant les stations en lignes et les mois en colonnes. Lamatrice des corrélations de ce tableau moyen est représentée dans le tableau 1.4. Ellemontre tout d'abord que certains mois sont beaucoup corrélés entre eux Qusqu'à 98%).Si l'on considère plus particulièrement les corrélations entre deux mois consécutifs onconstate que celles-ci sont les plus faibles pour les mois de mai et avril (46%) et pourles mois d'octobre et septembre (48%). Nous avons choisi de faire la coupure entre lesmois de septembre et octobre, qui sont aussi deux mois secs dans la zone du Sertào quicontient la majorité de nos stations.Nous avons donc défini l'année hydrologique k comme débutant au mois d'octobre del'année civile k - 1 et se finissant au mois de septembre de l'année civile k.

Page 25: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 25

Latitude'----"

CAE

STC.

l' Nord

SBU•• PAN

•STQ OLA SAR

•CED • •

CRS IBI EMA PAU

• • ·VICECPATVAR UMA • MA1i ,.eRU ARA

• POM1.VAA*"CA1J, CUE!IMASoII'~ASJAR SEG • TEl ITAPR'I;. SERÂGB ..-.kJE • CAU tTIM

SAL M'O•B~F 'BET

•IPU

-8

-4

NOA• •PM RIO

MAQ

• REM

SRB"'PlU

Océan Atlantique

MAI

• LACpoF'• PRe

FRP·!JSD

;J•IRA

PST

/~/'

PET

MAD•

DRM•

RIS

COT

BJL·

•SAN.

-12

-44 -40 -36Longitude

FIG. 1.2 - Représentation des 65 stations du Nordeste sélectionnées.

Page 26: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses26 préliminaires

Janv. Fev. Mars Avr. Mai Juin Juil. Août Sept. Oct. Nov. Déc.

Janv. 1 0.7 0.32 -0.1 -0.56 -0.56 -0.54 -0.46 -0.27 0.57 0.69 0.78

Fev. 0.7 1 0.86 0.54 -0.29 -0.55 -0.62 -0.6 -0.54 -0.03 0.04 0.17

Mars 0.32 0.86 1 0.82 -0.04 -0.42 -0.52 -0.56 -0.62 -0.45 -0.39 -0.27

Avr. -0.1 0.54 0.82 1 0.46 0.05 -0.08 -0.15 -0.29 -0.57 -0.64 -0.57

Mai -0.56 -0.29 -0.04 0.46 1 0.88 0.81 0.76 0.64 -0.2 -0.48 -0.54

Juin -0.56 -0.55 -0.42 0.05 0.88 1 0.98 0.95 0.87 0.06 -0.23 -0.32

Juil. -0.54 -0.62 -0.52 -0.08 0.81 0.98 1 0.98 0.91 0.15 -0.14 -0.24

Août -0.46 -0.6 -0.56 -0.15 0.76 0.95 0.98 1 0.96 0.25 -0.02 -0.13

Sept. -0.27 -0.54 -0.62 -0.29 0.64 0.87 0.91 0.96 1 0.48 0.22 0.11

Oct. 0.57 -0.03 -0.45 -0.57 -0.2 0.06 0.15 0.25 0.48 1 0.92 0.88

Nov. 0.69 0.04 -0.39 -0.64 -0.48 -0.23 -0.14 -0.02 0.22 0.92 1 0.98

Déc. 0.78 0.17 -0.27 -0.57 -0.54 -0.32 -0.24 -0.13 0.11 0.88 0.98 1

TAB. 1.4 - Matrice des cOrTélations du tableau interannuel moyen.

1.2.1.3 Disposition de nos données

Les totaux mensuels de pluie ont été disposés en 47 tableaux Zk (k = 1 ... 47, indicedes années hydrologiques de 1938 à 1984), constitués par les stations en lignes (i =1 ... 65) et les mois d'octobre (PlO) à septembre (P9)) en colonnes (j = 1 ... 12) (voirfigure 1.3).

1 1··········j········· 12········stations ~··········65 L...- --Y

FIG. 1.3 - Le cube des données.

1.2.1.4 Problèmes de normalité et de stationnarité temporelle

Les histogrammes des moyennes interannuel1es de chaque variable-mois (figure 1.4)montrent des distributions fortement asymétriques en raison en particulier du nombre de

Page 27: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 27

zéros pour les mois secs. La distribution de nos données, comme c'est souvent le cas pourdes données de pluies, ne suit donc pas une loi normale. Cependant nos essais de trans­formations n'ayant pas été concluants nous avons décidé de n'en réaliser aucune, étantdonné que les analyses que nous avons utilisées ne nécessitent pas d'hypothèse stricte denormalité. Cependant, nous avons conscience que cela est susceptible de perturber nosanalyses, notamment dans le calcul des variogrammes expérimentaux qui peuvent êtrenon structurés, avec des valeurs élevées pour toutes les classes de distances même prèsde l'origine.D'autre part, une rapide analyse de stationnarité temporelle a été réalisée en utilisant lestotaux annuels de pluie par station. Les tests utilisés (Lee & Heghinian, 1977; Pettitt,1979; Hubert et al., 1989) permettent de détecter des tendances et des points de rup­ture. Les résultats ont montré que pour la plupart des stations, les totaux annuels sontaléatoires. Pour les autres stations, aucune tendance générale n'a pu être montrée quisuggèrerait un changement climatique à une échelle globale. Nous avons donc supposé lastationnarité temporelle de nos données à l'échelle annuelle.

Octobre

200 400 «xl 800

Janvier

1000 1500

Avril

Novembre

5110 1000 15110 2lXXl

Février

500 1000 1500 2lXXl

Mai

Décembre

:L~

~: 1 •• _5110 1000 1500 2lXXl

Mars

1000 15110 2lXXl 25IlO 3000

Juin

5110 1000 1500 2lXXl 2500 500 1000 15110 2lXXl 5110 1000

~ I. ~ ~ =t::........:_=_-'---'__=__~_Juillet

1000 15110

Août

200 400 «xl 800 1000

Septembre

~I -200 400 600

FIG. 1.4 - Histogrammes des moyennes interannuelles de chaque variable.

Page 28: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses28 préliminaires

1.2.2 Analyse des totaux annuels de pluie

Dans un premier temps nous avons réalisé une analyse par ACP des totaux annuelsde pluies, c'est-à-dire du tableau dont les deux entrées sont les stations et les totauxannuels. Ces totaux annuels sont obtenus en faisant la somme des 12 variables mois pourchaque station et chaque année hydrologique. Deux dispositions sont possibles pour laréalisation de l'ACP :

- sous la forme d'un tableau avec les stations en lignes et les années en colonnes,

- sous la forme du tableau transposé avec les années en lignes et les stations encolonnes.

Nous avons réalisé les ACP des deux tableaux pour comparer les résultats obtenus.

1.2.2.1 ACP du tableau stations x années

Nous avons donc réalisé l'ACP centrée-réduite du tableau 65 x 47 avec les stationsen individus et les années en variables. Cela correspond à l'ACP en mode T. Lecentrage-réduction est effectué par rapport à la métrique D = isI6s. Toutes les annéesont donc un poids similaire dans l'analyse, que ce soient des années sèches ou pluvieuses.Les résultats sont représentés sur la figure 1.5.

Le graphe 1.5(a) montre tout d'abord le premier plan principal, constitué par les deuxpremières composantes qui expriment une majeure partie de la variabilité totale (respec­tivement 47.48% et 14.07%, pour un total de 61.55%). On note que les deux axes ne sontpas à la même échelle, si c'était le cas le nuage de points paraîtrait beaucoup plus aplati.Ce graphe ne permettant pas de visualiser un groupe de stations se détachant nettementdes autres, nous avons représenté dans les figures 1.5(c) et 1.5(d) les deux représentationsspatiales correspondantes, sous la forme de symboles de taille proportionnelle à la va­leur des composantes Cl et C2. Ces représentations permettent de repérer les groupesde stations qui sont distingués par ces composantes. La première composante opposeainsi deux groupes de stations: un groupe de stations du nord du Sertao, de l'extrêmesud-ouest et de l'Agreste (valeurs positives), et le groupe des stations restantes (valeursnégatives). Par contre la deuxième composante traduit plus clairement un gradient dusud/sud-ouest (valeurs négatives) vers le nord/nord-est (valeurs positives).Pour mieux appréhender la signification des composantes nous avons examiné le cercledes corrélations (figure 1.5(b) ), sur lequel nous avons projeté les deux variables suivantes:- la variable lat qui correspond au vecteur 65 x 1 des latitudes, centré-réduit par rapportàD- la variable sum qui correspond au vecteur 65 x 1 du total des pluies sur toutes lesannées, également centré-réduit par rapport à D.Ce cercle montre que la première composante est fortement corrélée avec la variablesumo On peut donc l'interpréter en disant qu'elle distingue les stations où le total despluies d'octobre 1938 à septembre 1984 est le plus important (valeurs positives pour lacomposante), de celles où il est moins élevé (valeurs négatives).La deuxième composante est par contre fortement corrélée avec la variable lat, etreprésente donc un gradient nord/sud: elle distingue les stations du nord de celles dusud de façon presque régulière. D'autre part les corrélations permettent de définir deux

Page 29: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 29

1.0.0.5·1.0

Cl':"'--.--__--+--__--.--J

(a) Individus (b) Cercle des corrélations

•~0~~ ~

0 ' "

~ ~(j, •• 0 0

" " <,f}~"al ,1lt,A!l0Œ) al .~"'C • "'C l "

=" B •0l!J .. =" , ,.. ..., . ..'i • 0

~0i '"~~ ~~ •

~ • .. '

~0 l!J

~ <# ~.. el If':" .

•;

• 8,. G>; • l3;Jl!J 0

-44 -42 -40 -38 -3ll -44 -42 -40 -38 -36

Longitude Longitude

(c) Carte de Cl (d) Carte de C2

FIG. 1.5 - Graphes issus de l'ACP du tableau stations x années. Les années hydrologiques sontreprésentées par leurs deux derniers chiffres (par exemple 1950 est représentée par 50). Dans les car­tographies les carrés représentent les valeurs négatives et les cercles les valeurs positives, la taille dessymboles étant proportionnelle à la valeur de la composante en valeur absolue.

Page 30: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses30 préliminaires

groupes d'années, un groupe corrélé positivement et l'autre négativement. L'oppositionnord/sud correspond donc à une opposition entre ces deux groupes d'années: les stationsdu nord sont celles pour lesquelles il a le plus plu pendant les années corrélées positive­ment (par exemple 1974) et les stations du sud sont celles pour lesquelles il a le plus plupendant les années corrélées négativement (par exemple 1958). En conclusion, cette ACPnous a permis d'abord de distinguer les stations pluvieuses sur la période considérée desstations sèches, de par son premier axe. Les stations sèches sont situées plutôt dans lecentre du Nordeste, à l'écart des principaux systèmes de perturbations vus dans le cha­pitre 1.1. La deuxième composante permet quand à elle de retrouver presque exactementla situation géographique des stations sur l'axe nord-est/sud-ouest. Les corrélations avecles variables années permettent de repérer les années où il a plu dans les stations du sudet les années où il a plu au nord. L'ACP pennet donc de distinguer des années où larépartition spatiale des pluies est homogène.

1.2.2.2 ACP du tableau années x stations

Nous avons ensuite réalisé l'ACP centrée-réduite du tableau 47 x 65 avec les annéesen individus et les stations en variables. Cela correspond à l'ACP en mode S. Ce typed'analyse permet d'identifier des régions où la variabilité temporelle est homogène.Le centrage-réduction est effectué par rapport à la métrique D = 417147' Toutes lesstations ont donc un poids similaire dans l'analyse, que ce soient des stations sèches oupluvieuses. Les résultats sont représentés dans la figure 1.6.Les deux premières composantes expriment une proportion de la variabilité totalesimilaire à l'ACP précédente (respectivement 49.76% et 12.42%, pour un total de62.18%). Le graphe 1.6(a), qui montre la représentation euclidienne des années sur cesdeux composantes permet de repérer deux années qui se distinguent fortement sur lapremière composante: ce sont 1974 et 1964, qui sont toutes deux des années où il abeaucoup plu. Or, si on projette sur le cercle des corrélations 1.6(b) la variable sumcorrespondant au vecteur 47 x 1 du total des pluies par année sur toutes les stations, onconstate qu'elle est très fortement corrélée avec ce premier axe. La première composantedistingue donc plus généralement les années sèches (valeurs négatives) des annéeshumides (valeurs positives). Plus précisément, cet axe est corrélé avec les stations pourlesquelles il a beaucoup plu pendant les années humides.Nous avons associé le cercle des corrélations avec deux cartes des corrélations 1.6(c)et 1.6(d), qui représentent spatialement les valeurs des corrélations de chaque variablestation avec les deux premières composantes. On voit que les corrélations avec ladeuxième composante forment une opposition nord/sud. Cette composante distinguedonc les années pour lesquelles le total des pluies (centré-réduit) des stations du nord estsupérieur à celui des stations du sud (coordonnées positives) des années pour lesquellesc'est le total des pluies des stations du sud qui est supérieur(coordonnées négatives).Le cercle des corrélations associé aux cartes nous a donc permis de déterminer lasignification de chaque composante. Cependant il nous permet aussi de réaliser uneclassification sommaire des stations. En effet, trois groupes de stations se distinguentnettement:- un premier groupe situé au nord du Nordeste : fortes corrélations sur le premier axedonc où il a beaucoup plu pendant les années pluvieuses et corrélations positives avecle second axe,

Page 31: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 31

74C!

,...... ,......*- *-~~ .. ~'<:1' ~C'i ~.-l .-l",-"" '-"ci

'" '"u III

456

'\1 'Il

68 <;>

..,6.ib 78 C!.,.

·10 -5°Cl(49.76~

15 ·1.0 -0.5al t%9.76tYo)

1.0

(a) Individus (b) Cercle des corrélations

~ ~..,

"00..,

.• 8Q)

.~• C1l 0 0

'" '" ~i~·.Cl)

~ 0~Cl)

~ ~ 1 •

='''' o .' Œl ='''' • . ....... ~ iii •-..::30 o ~

...... • ~CO cil •.....::I~ (!) @) .....::I~ I§I

01311"

.. &'0 <::> .. ~

G.,. ® @ .,. Il jgjJ• 0... ®"GlG>- ... 0ll:FŒJG.,.

-44 ~ -3lI -3lI.,.

-3lI -38~ -44 ~ ~

Longitude Longitude

(c) Carte des corrélations (ad (d) Carte des corrélations (a2)

FIG. 1.6 - Graphes issus de l'ACP du tableau années x stations. Les années hydrologiques sontreprésentées par leurs deux derniers chiffres (par exemple 1950 est représentée par 50). Dans les car­tographies les carrés représentent les valeurs négatives et les cercles les valeurs positives, la taille dessymboles étant proportionnelle à la valeur de la corrélation en valeur absolue.

Page 32: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses32 préliminaires

- un deuxième groupe situé plus au centre: corrélations intermédiaires avec le premieret le second axe, et où il a donc moins plu pendant les années pluvieuses,- un dernier groupe situé au sud-ouest : faibles corrélations avec le premier axe etcorrélations fortement négatives avec le second, et où il a donc peu plu pendant lesannées pluvieuses.La station SEG se distingue car tout en étant au nord, on a vérifié que ce poste n'apas reçu beaucoup de précipitations pendant certaines années pluvieuses, comme parexemple 1967, 1964, et 1968.En conclusion, cette ACP nous a permis d'abord de distinguer les années pluvieuses desannées sèches, de part son premier axe : les années de sécheresses extrêmes indiquées parCadier (1993) ont ainsi toutes des coordonnées négatives sur ce premier axe (soit 1942,1952 à 1953, 1958, et 1979 à 1983). D'autre part, son deuxième axe permet de distinguerles années où il a plu majoritairement au nord et celles où il a plu majoritairementau sud. A part l'année 1982, les années de sécheresses citées précédemment ont toutesune coordonnée négative sur ce deuxième axe, ce qui signifie que ces sécheresses ontété principalement marquées au nord du Nordeste. Enfin, cette ACP nous a permis dedistinguer plusieurs groupes de stations de comportement temporel homogène.

Pour l'instant, nous n'avons pas considéré le niveau mensuel. Pour le prendre encompte, nous appliquons maintenant la méthode STATIS afin de considérer les troisdimensions existant dans nos données (années, mois et stations).

1.2.3 La méthode du STATIS sur les objets Zk

Dans la littérature (Lavit, 1993) on rencontre le cas fréquent du STATIS sur lesopérateurs de produits scalaires WD (dans le cas où les individus sont communs àtous les tableaux), et du STATIS sur les opérateurs de covariances VQ (dans le casoù les variables sont communes à tous les tableaux). Dans ce dernier cas on parle de laméthode STATIS duale. Ces deux formes de STATIS aboutissent à l'obtention d'un objetcompromis (respectivement WcD et VcQ), de même nature que les opérateurs initiaux,que l'on peut diagonaliser afin d'obtenir une représentation compromis respectivement·des individus et des variables. Cependant dans ces deux cas il n'est pas possible dedéterminer un tableau compromis Zc de type individus x variables qui soit de dimensionsn x p. Or la méthode d'analyse sur composantes spatialisées que nous allons introduirepar la suite ne s'appliquant que sur des tableaux de type individus x variables, et nonsur des opérateurs de produits scalaires ou de covariances, il nous a été nécessaire detrouver une alternative.Une première solution consiste, dans le cas par exemple du STATIS sur les objets WD,à utiliser la matrice n x pq constituée par la juxtaposition en colonnes des q tableauxinitiaux Zk multipliés par les coefficients ..fiik (ak étant les coefficients du compromis).En effet on peut simplement montrer que l'ACP de cette matrice aboutit à la mêmereprésentation euclidienne pour les individus que la diagonalisation de WcD. Cependantle nombre important de colonnes rend difficile l'exploitation de cette matrice. Nous avonsdonc choisi d'utiliser une autre variante de la méthode STATIS, qui s'applique dans le casoù à la fois les individus et les variables sont communs à tous les tableaux, et qui utiliseles objets Zk' Nous allons présenter les principaux points de cette méthode, qui suit lemême principe que les deux STATIS introduits plus haut. On rappelle que l'on dispose

Page 33: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 33

(1.2)

de q tableaux Zk de dimensions n x p, associés aux métriques D de dimensions n x n et Qde dimensions px p. Chaque tableau est centré-réduit par rapport à la métrique D. Onchoisit de plus d'utiliser les tableaux normés Zk/IIZkIIHS, afin d'éliminer les disparitésde norme.

1.2.3.1 Interstructure

On utilise la matrice n des produits scalaires de Hilbert-Schmidt entre les objetsnormés Zk/IIZkIlHs, avec:

(ZkIZ~,)HS = tr(Z~DZk'Q) (1.1)

Cela correspond aussi, les tableaux étant normés, à la matrice des coefficients RV (Robert& Escoufier, 1976). On l'associe à la matrice diagonale a des poids 1rk associés à chaquetableau Zk. La diagonalisation de na permet d'obtenir une image euclidienne des qétudes, les coordonnées des q tableaux sur l'axe m étant données par le vecteur .;r;;;.'Ymavec 'Ym mième vecteur propre normé de na associé à la valeur propre Tm.

1.2.3.2 Compromis

Le tableau compromis recherché Zc est la combinaison linéaire de norme maximaledes tableaux Zk normés:

~ Zk ~ Zk 2Zc = L.,., Ok IIZ Il avec Ok = argmax(11 L.,., Ok IIZ Il IIHS)k=1 k HS k=1 k HS

sous la contrainteL::%=1 o~ = 1.La solution est la suivante:

1Œk = JT7rk'Yk (1.3)

avec 'Y premier vecteur propre normé de na associé à la plus grande valeur propre T.

On remarque que les éléments de la matrice n ne sont pas forcément positifs, contraire­ment aux cas des STATIS sur les objets WD et VQ pour lesquels ils le sont tous. Parconséquent on ne peut pas appliquer le théorème de Frobenius qui garantirait que leséléments du vecteur 'YI soient tous du même signe. Les coefficients Œk ne sont donc pasforcément tous positifs. Cependant cela ne compromet pas le sens de l'analyse, étantdonné qu'il n'y a pas de contrainte de positivité sur le compromis qui est un tableaude type individus x variables. De plus, on a constaté en pratique que les coefficientsŒk étaient très rarement négatifs, sauf dans les cas où l'on considère des matricesentièrement aléatoires.

On obtient donc un tableau compromis Zc, de dimensions n x p, qui en tant quecombinaison linéaire de tableaux centrés réduits est un tableau centré, mais non réduit.Cherchons à déterminer la signification de la variance de chaque variable compromis.Soit Z{ la lme variable du tableau compromis et Z{ la lme variable du tableau initialZk centré-réduit. On a d'après la définition du tableau compromis:

q

z{ = LO~Z{ (1.4)k=1

Page 34: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses34 préliminaires

avec o:~ = IIzIoÎIHs O:k et var(Z{) = (Z{)tDZ{ = 1.D'où:

var(~) = (~)tDz{q q

= (L o:~(Z{)t)D(Lo:~Z{)k=l k=lq

= L(0:~)2var(Zi) +L 20:~0:~,(Zi,)tDZi,k=l k'::;ék

q

=L(0:~)2 + L 20:~O:k' cov(Zi" Zi)k=l k'::;ék

(1.5)

Pour j fixé les coefficients o:~ sont constants, donc la variance est uniquement fonctiondes covariances entre les variables j de chaque tableau. Plus précisément on peut écrire:

q

var(Z{) = L var(o:~Zi) + L cov(o:~zi, o:~,Zi,)k=l k'::;ék

(1.6)

car var(Zi) = 1 (t/k,j) de par le centrage-réduction initial des tableaux. C'est donc lasomme des éléments de la matrice de covariance de la matrice formée par la juxtapositionde variables zi multipliées par les coefficients o:~, pour k = 1, ... , q. En pratique, dansle cas le plus général où les coefficients o:~ sont tous positifs, on peut donc dire que si lavariance de Z{ est forte, cela signifie que les variables zi (k = 1, ... , q) pondérées paro:~ ne varient pas beaucoup suivant les tableaux (covariances fortes en moyenne). Aucontraire, une variance faible de 74 signifie que les variables Z{ (k = 1, ... , q) pondéréespar o:~ présentent une forte variabilité suivant les tableaux.

1.2.3.3 Intrastructure

Elle consiste dans un premier temps à représenter l'image euclidienne compromisdes individus et des variables, par l'ACP du tableau ZC' On choisit de ne pas réduirele tableau Zc, la représentation des variables ne correspond donc pas à un cercle descorrélations.On projette ensuite les individus de chaque tableau Zk comme individus supplémentairesdans cette image euclidienne. Les coordonnées des n individus du tableau Zk sur l'axe0: de l'ACP du compromis sont données par:

(1.7)

avec 8a o:ième vecteur propre de Z~DZc associé à la valeur propre p.Q'

1.2.4 Résultats du STATIS

Plusieurs choix sont possibles quant à la configuration des données pour appliquerla méthode STATIS. En effet nous pouvons choisir de prendre un tableau par mois,

Page 35: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 35

ou un tableau par station ou encore un tableau par année, chaque cas donnant desrésultats très différents. L'objectif de l'application de la méthode STATIS étant dansnotre cas de s'abstraire de la composante annuelle de nos données par l'obtention d'untableau résumant toutes les années, on choisit d'utiliser les 47 tableaux stations x moiscorrespondant à chaque année hydrologique de 1938 à 1984, tous les tableaux étantcentrés et réduits par rapport à la métrique D = 615165' On a de plus Q = 1 12 et a = 147 ,

1.2.4.1 Interstructure

Le premier plan de l'interstructure est représenté dans la figure 1.7. Le premier axede l'interstructure explique 97.46% de la variabilité, on peut donc dire que les tableauxont bien une structure commune révélée par cet axe, structure que l'on peut résumer parle tableau compromis.On remarque que la configuration choisie (stations en ligne et années en profondeur)

~..,.C")'=!+-+------------=-iHr--'8° 5...

Col

7%06%0 70

~~ 839L...j... ~---~---~---..,...J

0.0 0.2 0.4Cl (97.46%)

0.6 0.8

FIG. 1.7 - Premier plan de l'interstructure. Les années (hydrologiques) sont représentées par leurs deuxderniers chiffres (par exemple 1950 est représenté par 50).

est celle qui aboutit à la meilleure interstructure en terme de ressemblance entre lestableaux: nous avons en effet réalisé les autres STATIS (non représentés ici), qui ont despourcentages d'inertie inférieurs sur le premier axe. En particulier les configurations avecles mois ou les stations en profondeur ne permettent pas de calculer un tableau compromissatisfaisant, c'est-à-dire qui résume de façon satisfaisante les tableaux initiaux.On remarque que les années ne sont pas du tout ordonnées, ce qui montre l'absence decorrélation entre deux années successives. Le calcul de la matrice E (non représentée ici enraison de ses dimensions importantes) montre que les coefficients RV entre les différentstableaux varient entre 0.30 pour les années 1966 et 1952, et 0.65 pour les années 1963et 1946. Plus généralement les RV les plus faibles s'observent pour les années 1952,1966, 1981 et 1983, qui ont des faibles coordonnées sur le premier axe de l'interstructure.Ce sont donc des années qui seront mal représentées dans le tableau compromis. Nousessaierons de voir à l'étape de l'intrastructure quelles en sont les raisons.

Page 36: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses36 préliminaires

1.2.4.2 Compromis

L'examen de l'interstructure a permis de montrer l'intérêt du calcul d'un tableaucompromis Zc. Ce tableau est calculé par la formule suivante:

(1.8)

avec les coefficients a~ définis dans les équations 1.3 et 1.4. Leur tracé est représentédans la figure 1.8. On voit que les années qui contribuent le plus au compromis sont lesannées 1949 et 1963, tandis que celles qui contribuent le moins sont 1952, 1966, 1981 et1983. Ces résultats sont cohérents avec les coordonnées des années sur le premier axe del'interstructure (figure 1.7).

§o'--~~~~_~~~~_~~~~_--'

1940 1950 1960 1970Années

1980

FIG. 1.8 - 1h.Icé des coefficients oi:(k = 1, ... ,48) du compromis.

Des cartographies sommaires (avec la fonction interp du logiciel S-Plus) des 12 va­riables du tableau compromis Zc sont représentées dans la figure 1.9. Ces cartes tra­duisent une moyenne pondérée des variables sur les différentes années, et permettent devisualiser une variation de la localisation des pluies au cours de l'année. L'ACP de Zcpermet de distinguer plus précisément les différentes sources de variabilité qui en sont àl'origine.

Signification de la variance des variables compromis :Nous avons représenté la variance des 12 variables du compromis dans la figure 1.10. Onconstate que ce sont les mois juin à septembre qui ont les variances les plus fortes, etdonc la variabilité interannuelle la plus faible (d'après l'équation1.6). Au contraire lesmois de janvier à avril ont les variances les plus faibles (facteur de 1/2 par rapport à lavariance maximale), et donc la variabilité interannuelle la plus forte.

Les deux premiers plans de l'ACP du compromis sont représentés dans la figure 1.11.On remarque que le premier plan explique une très grande partie de la variabilité totale(86%). Chacune des trois premières composantes est aussi représentée spatialement dans

Page 37: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 37

Octobre Novembre Décembre Janvier

1 1 1 1

Q,lop op op op'1:lEop op op

·~o~ ~...::1':"

~ ~ ~

~ ~ ~... ~ -<0 ·38 ·38 ... ~ -<0 -38 -36 ... ..2 -40 -38 ·38 ... ~ ..0 -38 ·36

LongitudeFévrier Mars Avril Mai

1 1 1 1

op op op op

op op

~ ~

~ ~ ~

~..

~... ~ -<0 ·38 ·36 ... ~ -<0 -38 -36 ... ..2 -40 ·38 ·36 ... ~ -<0 ·38 -36

Juin Juillet Août Septembre

1 1 1 1

, op op ,op , , op

~ ~ ~ ~

~ ~ ~ ~

~ ! .. !... ~ -<0 ·38 ·36 ... ~ -<0 -38 -38 ... ..2 -40 -38 -38 ... ~ -<0 ·38 -36

FIG. 1.9 - Représentation de chaque variable du tableau compromis avec la fonction interp de Splus.L'intensité du grisé est proportionnelle à la hauteur de pluie.

Août Oct. Dec. Fev.Mois j

Avr. Juin

FIG. 1.10 - Diagramme en bâton de la variance de chaque variable du compromis.

Page 38: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses38 préliminaires

la figure 1.12, afin de mieux visualiser les zonations spatiales qu'elles permettent d'iden­tifier.Les variables sont quant à elles représentées dans la figure 1.13. On souligne que ce nesont pas des cercles de corrélations puisque les variables compromis ne sont pas réduites.On remarque de plus que ces représentations forment des cercles déformés sur lesquellesles variables se succèdent dans le sens inverse des aiguilles d'une montre: ceci est dû auxcorrélations entre les différents mois, déjà montrées par le tableau 1.4. Le premier axe

MAB IRAsRtif'ST RRE

F

(a) Plan défini par Cl et C2

D

POF

CSBtfM!B MABITAFRP

r» PlUIRA N D

TIM

MT-0.5 0.0 Of ~06Cd )1.5 2.0

CH54.~ /0

(b) Plan défini par Cl et C3

FIG. 1.11 - Représentation des individus dans l'ACP du tableau compromis.

(54%) distingue les stations de l'Agreste. Ces stations ont en effet une coordonnée posi­tive sur cet axe, au contraire de toutes les autres. Si on compare avec la représentationdes variables (figure 1.13) on constate que cet axe est lié aux variables de pluie de juinà août, et dans une moindre mesure avec celles de mai et septembre. Cela est confirmépar l'examen des contributions relatives des variables (tableau 1.5). Cet axe semble doncrefléter l'influence de l'Atlantique sur les stations de l'Agreste de mai à septembre, en­trainant des pluies importantes dans cette zone par rapport aux autres stations.Le deuxième axe (32%) oppose les stations du nord (valeurs négatives) à celles du sud(valeurs positives), selon un gradient régulier. L'examen de la représentation des va­riables et des contributions relatives montre qu'il est lié aux pluies des mois d'octobre àdécembre. Il se peut donc que cet axe reflète l'influence des fronts froids venus de l'ouestsur le sud du Sertao, influence qui diminue progressivement quand on va vers le nord. Cesfronts entrainent des pluies importantes dans le sud pendant cette période de l'année.Enfin le troisième axe (11%) a une interprétation moins évidente. Il oppose les stationsdu Nord, de l'extrême Sud-Ouest, ainsi que quelques stations de l'Agreste (coordonnéesnégatives), aux stations situées plus au centre de la région ainsi qu'aux autres stationsde l'Agreste (coordonnées positives). L'examen des contributions relatives (figure 1.13)montre que les variables contribuant le plus sont celles des pluies de février à avril, ce quicorrespond à une période de forte influence de la ZCIT sur le nord du Sertao. Cependantl'examen des cartes correspondant à chacune des variables initiales (figure 1.9) montrequ'à cette influence viennent se superposer celle des fronts froids sur le sud (en février)et celle de l'Atlantique sur l'Agreste (en avril). Cela explique donc les fortes coordonnées

Page 39: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes

III'f 'f

'", -," '" 'lB.. , , .. li!I '"QI'l' •. : l@ QI'l' .. , I!I l'"t:l "t:l ..

= l ,,".. , 1 = 1 " "il "1..., ...,

~'l' .. "1 ~'l',

",...:l

Il .. ...:l@ "

0 0 ,':" @ ':"

* .'@ 0 CS>

N I!l Ill"N fi)':" ':"

I!I

iii 1Qm. ,; '"':"

-44 -42 CO .-38 d -36-44 -42 J1> .-38 d -36ongltu e ngItu e

(a) Cl (h) C2

..

39

'f

QI'l'"t:l

=...,.... 'l'1d...:l

00':"

N B ,0':"

'. ,'"':" ... -42

. ..., ' "~ .. riJ'• '-"0 III

CS> 800 ~

o <'1.c:J,

~ ·38 -36

Longitude

(c) C3

FIG. 1.12 - Représentation spatiale des trois premières composantes du compromis. Les carrésreprésentent les valeurs négatives et les cercles les valeurs positives, la taille des symboles étant pro­portionnelle à la valeur de la composante en valeur absolue.

Page 40: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chap. 1. Description des données du Nordeste brésilien et analyses40 préliminaires

pft1

PlO

Pl P9

~~";.1; P6

p3 P5P4

-0.1

(a) Plan défini par al et a2

~p~'1

~PH P9p6'1

*!! P12 PlOcoq~!!0'1-,-,0 P5... '"CCI '1..

;j Pl

-0.1

(b) Plan défini par al et &3

FIG. 1.13 - Représentation des variables dans l'ACP du tableau compromis.

des stations de l'extrême sud-ouest et de l'Agreste. Le troisième axe relève donc de plu­sieurs influences mélangées.

Cl Cz Ca

PlO 44 1943 317

PH 51 2990 95

P12 138 2581 261

Pl 262 332 1355

P2 386 2 2180

P3 348 525 2376

P4 1 852 2148

P5 1074 323 870

P6 1944 14 172

P7 2195 12 33

P8 2187 77 65

P9 1370 348 128

TAB. 1.5 - Contributions relatives des variables du compromis aux trois premières composantes.

1.2.4.3 Intrastructure

Nous avons représenté en annexe 2 les représentations de l'intrastructure pour lesdeux premières composantes. Nous ne détaillerons pas l'analyse de ces graphes en raisonde leur nombre, cependant quelques commentaires peuvent être réalisés.Tout d'abord ces graphes permettent de repérer des stations qui se distinguent fortementdu compromis pour certaines années. Nous pouvons citer l'exemple de la station PRT

Page 41: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

1.2 Analyses préliminaires sur les données brutes 41

qui appartient au nord du Sertao, pour l'année 1941. En effet la coordonnée de cettestation sur la première composante est beaucoup plus élevée en 1941 que pour les autresstations du Sertao: alors que celles-ci ont des coordonnées négatives sur la premièrecomposante, la station PRT a une coordonnée positive comparable à celle des stationsde l'Agreste. On peut donc supposer que PRT a reçu un excédent de pluie pendantla période de mai à septembre de l'année 1941, qui est la période caractérisée par lapremière composante. Effectivement, si l'on se reporte aux données initiales brutes, onretrouve un excédent de pluie surtout pour les mois de mai à juillet. Des commentairessimilaires peuvent être réalisés pour d'autres stations qui se distinguent sur d'autresannées ou sur d'autres composantes.D'autre part, il est intéressant de se demander si ces graphes permettent d'appréhenderles variations de structure selon les années. On remarque qu'il est assez difficile derepérer pourquoi les années mal représentées dans l'interstructure le sont. Pour l'année1952, on constate que les stations du sud du Sertao ont des coordonnées beaucoup plusfaibles que le compromis sur le deuxième axe (les stations du compromis ayant descoordonnées positives), ce qui pourrait expliquer la mauvaise représentation de cetteannée dans l'interstructure. Par contre, pour les année 1966, 1981 et 1983, la différencede structure est moins évidente.

La méthode STATIS appliquée sur les totaux mensuels a donc permis de retrouver lezonage physiographique du Nordeste, et de repérer les grands mécanismes générateursde pluie dans cette région, ainsi que leur période et leur zone d'influence.Nous allons maintenant aborder la prise en compte de l'information spatiale disponiblesur les stations, en présentant d'abord quelques outils permettant cette prise en compte,puis en réalisant une synthèse bibliographique des diverses méthodes dérivées de cesoutils.

Page 42: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 43: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chapitre 2

Prise en compte de l'informationspatiale sur les individus

La prise en compte de l'information spatiale sur les individus peut se réaliser de nom­breuses manières. Une idée naturelle semble de considérer les coordonnées géographiquesdes individus, quand celles-ci peuvent être définies. Cependant de nombreux autres ou­tils ont été développés, et ceci de manière indépendante dans de nombreux domaines.Leur diversité reflète la diversité des données pour lesquelles ces outils ont été créés. Lapublication de Dale et al. (2002) en fait un recensement assez large, bien qu'incompletétant donné le nombre d'outils existants. Les relations conceptuelles et mathématiquesentre les différents outils présentés sont de plus explicités.Nous allons pour notre part nous limiter à la présentation de deux grands types d'outilsque sont la matrice de voisinage, issue notamment de l'écologie, et la fonction de vario­gramme (associé à la fonction de covariance spatiale), issue de la géostatistique. En effetce sont ceux sur lesquels sont basés les méthodes d'analyses que nous présenterons parla suite.

Page 44: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

44

2.1

Chap. 2. Prise en compte de l'information spatiale sur les individus

Matrices de voisinage

Les matrices de voisinage utilisent les relations de voisinage entre individus. Ces re­lations sont définies a priori de façon assez souple. Elles peuvent être de type 0 - 1 ouêtre une distance ramenée entre 1 et o. Des exemples classiques sont les relations detype linéaire (pour des données temporelles, ou spatiales dans le cas par exemple d'unerivière), circulaire, ou de la tour (Cornillon, 1998). Pour des données spatiales dans unespace à deux dimensions, on peut se baser sur la distance euclidienne entre les individus,avec introduction éventuelle d'un seuil de distance. Il est possible de prendre égalementen compte les obstacles.L'objet de base qui décrit toutes les relations de voisinage entre les individus est la ma­trice M de voisinage. C'est une matrice de dimensions n x n dont les éléments sont lessuivants (dans le cas d'une matrice booléenne donc d'une relation de voisinage de type0-1) :

{1 si les points i et if sont voisins

mii' = 0 sinon (en particulier pour i = if).

D'autres types de matrices, non booléennes, peuvent aussi être définis. A partir de cettematrice M des opérateurs de voisinage peuvent être établis, qui permettent d'analyserles données à différentes échelles, locales et globales (Méot et al., 1993).

2.1.1 Décomposition de la variance totale en variance locale etvariance complémentaire

Soit Z le vecteur constitué des n réalisations Zi d'une variable aléatoire z. D est lamétrique diagonale n x n des poids Pi affectés à chaque réalisation. On suppose queE~=1Pi = 1.

La variance locale d'une variable z a été introduite par Lebart (1969) à partir de ladécomposition de la variance totale VT(z) en deux parties, une variance locale VL(z) etune variance complémentaire Vc(z) :

1 n n

VT(z) = "2 LLPiPdzi - Zi,)2i=1 i'=1

1 n n 1 n n (2.1)= "2 L L mii'PiPi' (Zi - Zi,)2 + "2 L L (1 - mii' )PiPi' (Zi - Zi,)2

i=1 i'=1 i=1 i'=1= VL(z) + Vc(z)

VL(z) est la variance locale associée au graphe M définie par Lebart (1969). Vc(z) est lavariance complémentaire, c'est aussi la variance locale associée au graphe complémentaireU - M - l, où U désigne la matrice n x n dont chaque terme vaut 1. La matrice identité1 permet d'exclure qu'un point soit voisin de lui-même.La variance locale est élevée lorsque les données sont peu structurées selon M et prochede 0 dans le cas contraire. Le fait que les valeurs mii' soient comprises entre 0 et 1 garantitla positivité des deux termes (Cornillon, 1998).

Page 45: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.1 Matrices de voisinage 45

(2.2)

2.1.2 Opérateurs de voisinage

L'écriture matricielle de VL(z) permet de définir l'opérateur de voisinage local. SoitD* = diag(pi ... p~) avec pi = E~=1 mii'Pi'· pi est donc égal à la somme des poids desvoisins du point i. Alors,

1 n n

VL(z) = 2L L mii'PiPi'(Zi - Zi,)2i=1 i'=1

n n n

= L p;Pizl - L L mii'PiPi' ZiZi'i=1 i=1 i'=1

= ztD(D* - MD)z

L'opérateur de voisinage local s'écrit donc (Méot et al., 1993) :

E=D*-MD (2.3)

De la même façon, l'écriture matricielle de Vc(z) permet d'obtenir l'expression del'opérateur de voisinage global S. En effet, si on considère le graphe complémentaireMc = U - M - l, on montre simplement que la matrice des poids des voisins D~ associéeest D~ = 1 - D* - D. D'où,

Vc(z) = ztD(D~ - McD)z

=ztD(1 - D* - D - (U - M - I)D)z

=ztD(I- D* - D - UD+MD +D)z

= ztD(1 - E - UD)z

= zlDSz

avec S opérateur de voisinage global qui s'écrit donc:

S=I-E-UD

On a alors la décomposition:

VT(z) = ztDEz + ztDSz = ztD(1 - UD)z

(2.4)

(2.5)

ce qui correspond bien à la définition de la variance totale de l'équation 2.1 (pour z nonnécessairement centrée).Les deux opérateurs local et global sont D-symétriques et positifs, et leurs valeurspropres sont comprises entre 0 et 1. Ils ont les même vecteurs propres, en particulier lnest vecteur propre associé à la valeur propre 0 pour E et 1 pour S (Méot et al., 1993).

Cette approche a l'avantage d'être très simple, cependant dans beaucoup de cas lamajorité des couples de points sont non voisins: la variance locale ne représente alorsqu'une petite partie de la variance totale et a donc peu d'intérêt pratique.

2.1.3 Cas où D = )mInOn trouve aussi dans la littérature (Chessel & Sabatier, 1994; Thioulouse et al., 1995;

Sabatier, 1998), le cas particulier de la pondération uniforme D = *1 avec m =

Page 46: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

(2.6)

46 Chap. 2. Prise en compte de l'information spatiale sur les individus

E~=l E~=l mii"Dans ce cas la variance locale est directement reliée au coefficient de Geary c(z) (Cliff &Ord, 1973) :

1 n n

avec VL(z) = 2m LLmii'(Zi - Zi'?i=l i'=l

Ce coefficient représente le quotient entre la variance locale et la variance totale nonbiaisée. Quand il est proche de zéro cela veut dire que la variance locale est négligeablepar rapport à la variance totale, donc il y a une structuration selon M. Quand il est prochede 1 au contraire les deux quantités sont les mêmes, révélant l'absence de structuration.Si on recalcule les quantités définies précédemment on obtient:

D* = Jm diag(mi)

DD* = ~ diag(mi) = Dmm

1DMD = -M = P (table de contingence)

m

DUD=~Um

D'où les nouvelles expressions des opérateurs de voisinage local et global:

DE = D(D* -MD) = Dm-P1

DS = D(I-E- UD) = D -Dm +P --Um

(2.7)

(2.8)

(2.9)

(2.10)

L'utilisation de la pondération uniforme D = )ml permet donc de simplifier les expres­sions des opérateurs de voisinage local et global.On voit que la matrice Dm (équation 2.7) est une matrice diagonale constituée par lenombre de voisins de chaque point rapporté au nombre total de voisins. Elle permet doncde définir une pondération de voisinage. Si on choisit de centrer Z par rapport à Dm (cequi donne zc) on a alors, d'après l'équation 2.8 :

z~DEzc = z~Dmzc - z~Pzc

z~Dmzc = z~DEzc + z~Pzc

Le deuxième terme correspond à la variance locale définie par l'équation 2.6 (numérateurdu coefficient de Geary). C'est aussi dans ce cas la covariance entre Zc et le vecteur desdifférences entre chaque point et la moyenne de ses voisins (Thioulouse et al., 1995).Comme Zc est centré par rapport à Dm, le premier terme correspond à la variancetotale de Zc calculée avec la pondération Dm' Enfin, en raison de ce même centrage,le troisième terme correspond à la variabilité globale, ou auto-covariance spatiale, ouencore covariance entre Zc et le vecteur des moyennes des voisins de chaque point. Cen'est pas une variance car elle peut être négative. C'est aussi le numérateur du coefficientde Moran (1948) :

(2.11)

Page 47: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.1 Matrices de voisinage 47

Ce coefficient représente le quotient entre la variabilité globale et la variance totalebiaisée. Contrairement au coefficient de Geary il peut être négatif, et est comprisentre 1 et -1. Quand une structuration selon M est présente alors le numérateur estfort et l'indice est proche de 1 en valeur absolue. Ce coefficient est plus sensible auxvaleurs extrêmes que celui de Geary, mais il détecte mieux les structurations selon M(Cornillon, 1998).

Seuls les deux premiers termes de la décomposition 2.10 (variances totale et locale)sont toujours positifs, la variabilité globale pouvant être négative (Chessel & Thioulouse,2001). Leurs importances relatives respectives en fonction du type de processus sontrésumées dans le tableau 2.1.

Variance locale Variabilité globaleProcessus "lisse",

fortement faible et positive forte et positivecartographiable

Processus à fortesforte et supérieure à

variations entre négativevoisins la variance totale

TAB. 2.1 - Importance relative de la variance locale et de la variabilité globale en fonction du type deprocessus considéré.

Les opérateurs définis dans ce paragraphe sont donc basés sur la définition a priorid'une matrice de voisinage, qui a l'avantage de pouvoir s'adapter à la configuration desdonnées (obstacles, configuration linéaire, données temporelles, etc). Cependant le choixde cette matrice reste subjectif.Dans le contexte de la géostatistique d'autres outils ont été développés afin de répondreà la problématique d'estimation en présence de variables spatialisées. Il s'agit du vario­gramme et de la fonction de covariance, que nous allons présenter dans le paragraphesuivant. Nous allons voir qu'ils peuvent aussi s'exprimer en fonction d'une matrice devoisinage particulière.

Page 48: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

48

2.2

Chap. 2. Prise en compte de l'information spatiale sur les individus

Covariance spatiale et variogramme

Les deux outils de covariance spatiale et de variogramme ont été définis dans lecontexte particulier de la géostatistique (Matheron, 1963). C'est une branche à partentière de la statistique, qui s'est d'abord développée dans l'industrie minière pours'étendre à toutes sortes de domaines dont l'hydrologie. Elle regroupe tout un ensemblede définitions et d'hypothèses qui permettent d'appréhender le cas où des observationssont mesurées en différents points de l'espace. Un des grands problèmes auquels elle per­met de répondre est l'estimation en des points non mesurés, par le krigeage et toutesles méthodes dérivées. Les outils de base sont les fonctions de covariance spatiale et devariogramme, qui reposent sur l'hypothèse que la structure de corrélation des variablesest une fonction de la distance et éventuellement de la direction. Nous nous limiteronsdans cette présentation à la description des fonctions de covariance spatiale et de va­riogramme, d'abord dans le cas univarié, puis dans le cas multivarié. Nous exposeronspréalablement les principales définitions et hypothèses de la géostatistique.

2.2.1 Cas univarié

2.2.1.1 Definitions et hypothèses

Soient n observations z(Xi) (i = 1 ... n) mesurées en n points Xi de D C ]R2 (on seplace en dimension 2, mais il est aussi possible de considérer des dimensions plus élevées).Etant donné que beaucoup plus de points auraient pu être mesurés (en fait une infinité),on définit Z(Xi) comme étant une valeur régionalisée parmi l'infinité de valeurs que peutprendre la variable régionalisée z(x), x E D.D'autre part, on considère que cette valeur régionalisée est aussi la réalisation d'unmécanisme aléatoire, c'est-à-dire d'une variable aléatoire Z(Xi). A chaque point Xi cettevariable aléatoire est susceptible d'être différente, Z(Xi) est donc membre d'une famillede variables aléatoires appelée la fonction aléatoire Z(x), x E D (Wackernagel, 1998).Les différents liens sont résumés dans la figure 2.1.

~~~~ ~

(élément de élément de)

B IZ(Xo) 1~

FIG. 2.1- Schéma des liens existants entre valeur régionalisée z(Xo), variable régionalisée z(x), variablealéatoire Z(xo) et fonction aléatoire Z(x) (d'après Wackernagel (1998)).

Page 49: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme 49

Le nombre de répétitions étant dans la plupart des cas égal à un, des hypothèsesplus ou moins strictes de stationnarité des deux premiers moments sont rajoutées pourla fonction aléatoire Z(x) .

(2.12)

(2.13)

V(x,x+h) E D x D

V(x, x + h) E D x D

• L'hypothèse la moins forte est l'hypothèse de stationnarité intrinsèque de Ma­theron (1963), qui assure la stationnarité des écarts. Sous cette hypothèse (Wackernagel,1998) :

E(Z(x + h) - Z(x)) = 0,

var(Z(x + h) - Z(x)) = 2')'(h),

Z(x + h) signifiant que la fonction aléatoire est évaluée au point x translaté du vecteurh. 2')'(h) est appelé variogramme, ')'(h) étant le semi-variogramme.

• L'hypothèse la plus forte est celle de stationnarité de second ordre:

E(Z(x)) = m (constante),

cov(Z(x), Z(x + h)) = C(h) < 00,

VxE D

V(x, x + h) E D x D

(2.14)

(2.15)

C(h) étant la fonction de covariance spatiale au pas h. La stationnarité de second ordreimplique l'existence du variogramme et de la fonction de covariance spatiale entre toutespaires de sites x et x + h, les deux étant liés par la relation suivante :

')'(h) = C(O) - C(h) (2.16)

Par contre, la stationnarité intrinsèque implique seulement l'existence du variogrammeet aucunement celle de la fonction de covariance spatiale, qui n'existe que si le vario­gramme est borné.

L'hypothèse de stationnarité de second ordre implique celle de stationnarité in­trinsèque, mais la réciproque n'est pas vraie. En général on préfère travailler avec lesemi-variogramme plutôt qu'avec la fonction de covariance spatiale car il est défini dansle cadre intrinsèque qui est plus général, sachant que les deux outils sont équivalentsdans le cadre stationnaire de second-ordre.

2.2.1.2 Estimateurs ponctuels classiques

Estimation du semi-variogramme au pas h

Nous avons vu (équation 2.13), que le semi-variogramme se définit par:

1')'(h) = "2 var(Z(x + h) - Z(x)), V(x, x + h) E D x D

Soit N(h) la classe regroupant les vecteurs reliant deux points d'observation dont ladistance est comprise dans un certain intervalle h ± .6.h et la direction dans un certainintervalle d'angle w±.6.w, h et w étant respectivement la norme et la direction du vecteurh, et .6.h et .6.w étant les tolérances associées.L'estimateur ponctuel classique du semi-variogramme directionnel (Matheron, 1963) au

Page 50: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

50 Chap. 2. Prise en compte de l'information spatiale sur les individus

pas h est basé sur "la méthode des moments" :

(2.17)

où IN(h)1 est le nombre de paires distinctes de l'ensemble N(h).Dans le cas omnidirectionnel, on considère uniquement la norme h du vecteur h et passa direction w. On remplace donc le vecteur h par sa norme h car dans la formule seulecelle-ci intervient.

Une autre estimation plus robuste a été définie par Cressie & Hawkins (1980), pourlaquelle l'influence des points aberrants est diminuée:

{ }

4

-- 1 1,(h) = 0.457 + .Q:m.. 2IN(h) 1 L v'IZ(Xi) - z(Xï') 1

IN(b)1 (Xi -Xi' )EN(b)

(2.18)

En général le semi-variogramme est une fonction croissante en h, qui atteint un paliersi la fonction aléatoire considérée est stationnaire. Dans ce cas la distance à partir delaquelle ce palier est atteint est appelée la portée. On peut alors en déduire une fonctionde covariance correspondante par (2.16). Dans le cas où l'ordonnée à l'origine est nonnulle, on dit qu'il y a un effet de pépite égal à cette ordonnée.Les tolérances Âh et Âw sont déterminées au cas par cas, elles sont un compromisentre la nécessité d'avoir un nombre suffisant de paires de points pour le calcul du semi­variogramme et le risque d'un lissage trop important de la courbe si ce nombre est tropélevé. Si Âw = 271" le semi-variogramme estimé est dit omnidirectionnel, et ne dépendplus de l'angle w.

Estimation de la covariance au pas h

L'estimateur ponctuel classique omnidirectionnel de la covariance spatiale au pas hs'écrit (Arnaud & Emery, 2000) :

.... 1 ~C(h) = IN(h)1 L..J (Z(Xi) - Z)(Z(Xi') - Z)

(Xi-xi' )EN(b)

(2.19)

avec Z = ~ ~~=l Z(Xi)' Cet estimateur est plus robuste que celui du semi-variogrammemais il est biaisé (Arnaud & Emery, 2000).

2.2.1.3 Lien avec la matrice de voisinage

Pour le semi-variogramme

D'après l'équation 2.17, l'estimateur classique du semi-variogramme au pas h s'écrit:

Page 51: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme 51

Les localisations sont supposées reliées entre elles par la matrice de voisinage M h àl'ordre h, d'éléments

m~~) = {1 si (Xi - Xi') EN(h)n o sinon.

L'estimateur peut alors s'écrire:

où mh = ~ .., m~~).L.."u uD'où, d'après Cornillon (1998) :

(2.20)

(2.21)

où z = (z(xd, ... ,z(:xn))t, Dh = diag(v;k-), et &t est l'opérateur de voisinage associéà M h : Eh = Dh- MhDh (d'après l'équation 2.3). L'opérateur de voisinage Eh, associéà une métrique Dh fonction du graphe de voisinage, est donc directement relié au semi­variogramme. Le semi-variogramme au pas h correspond en fait à la variance localecalculée par rapport à la matrice de voisinage M h .

Pour la covariance

D'après l'équation 2.19, l'estimateur classique de la covariance au pas h s'écrit (Ar­naud & Emery, 2000) :

..... 1 ""'C(h) = IN(h) 1 L...J (Z(Xi) - Z)(Z(Xi') - Z)(Xi-xi' )EN(h)

avec Z = ~ E~=l Z(Xi)' De la même façon que Cornillon (1998) a établi le lien entre M h

et le semi-variogramme, nous pouvons établir les résultats suivants.Dans le cas où z est centré par rapport à ~1 alors :

ê(h) = _1 L m~~)Z(Xi)Z(X~)mh ii'

= ztphz (2.22)

Page 52: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

52 Chap. 2. Prise en compte de l'information spatiale sur les individus

Dans le cas où z est centré par rapport à Dm = ~h diag(m~h)), alors:

(2.23)

Dans les deux cas de centrage la matrice de voisinage Mh est donc directement reliée àla fonction de covariance spatiale.

2.2.1.4 Expression du semi-variogramme comme une décomposition de lavariance

Long (1994) a exprimé le semi-variogramme comme une décomposition spatiale de lavariance dans les différentes classes de distance, dans le cas où les classes de distanceN(h) forment une partition de l'ensemble des couples de points possibles. En effet

L IN(h)19(h) = L ~ L (Z(Xi) - Z(Xi')?h h (Xi-Xi' )EN(h)

1 n n n n

= 2L L (Z(Xi) - Z(Xï' ))2 = L L(Z(Xi) - Z(Xi' ))2i=l i'=i+l i=l i'=i

(2.24)

(2.25)

par définition des classes N(h), chaque couple de points se trouvant dans une seule classe.D'où:

(2.26)

avec VT(x) variance totale définie dans l'équation 2.1 (métrique identité). Ladécomposition de Long (1994) est en fait un peu différente car il considère l'estima­teur non biaisé de la variance.En pratique on limite h à la moitié de la distance maximale entre deux points, pourgarantir un nombre de points suffisant dans chaque classe, donc la décomposition quel'on réalise est incomplète.

2.2.1.5 Ajustement

L'ajustement des fonctions de covariance ou de variogramme est un des problèmescruciaux de la géostatistique. Il est en effet nécessaire à la prédiction du processus auxpoints non mesurés.

Page 53: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme 53

Condition nécessaire

Les estimateurs de la fonction de covariance et du semi-variogramme doivent satis­faire respectivement les conditions de positivité et de négativité conditionnelles pourêtre valides. Dans le cas du semi-variogramme, la condition de négativité conditionnelles'exprime ainsi (Cressie, 1991) :Vk E N*, VWl,"" Wk E RI E:=l Wi = 0 et VXl ... Xk E D, on doit avoir :

n n

L L WiWi''Y(Xi - Xi') :::; 0i=l i'=l

(2.27)

Plusieurs types d'estimations sont possibles, paramétriques ou non paramétriques. Laméthode la plus répandue est l'estimation non paramétrique ponctuelle des moments deMatheron (1963), suivie d'un ajustement paramétrique de cette estimation à des modèlesde variogrammes valides.

Méthode des moments suivie d'un ajustement paramétrique

C'est la méthode la plus répandue. Elle consiste à utiliser tout d'abord l'estima­teur non paramétrique de Matheron (équation 2.17), qui permet d'obtenir ce que l'onappelle le variogramme expérimental. Cet estimateur ne satisfaisant pas forcément lacondition de négativité conditionnelle, on le fait suivre par un ajustement à un modèleparamétrique de coefficients (), constitué de fonctions de variogrammes valides (voir ta­bleau 2.2), afin d'obtenir un variogramme ajusté. Le choix du type de modèle se faitsurtout visuellement en tenant compte du comportement à l'origine et de l'existence ounon d'un palier, le plus important étant le choix du type de continuité à l'origine etdu type d'hypothèse de stationnarité (Wackernagel, 1998). L'ajustement entre le varia­gramme expérimental et le variogramme théorique peut être réalisé par la méthode desmoindres carrés, ce qui est le plus fréquent, ou par la méthode du maximum de vraisem­blance (Cressie, 1991).L'ajustement par moindres carrés est réalisé en cherchant les coefficients () qui mini­misent la distance entre le variogramme expérimental, défini en un nombre r fini de pas,et le modèle paramétrique considéré en ces mêmes pas. La distance choisie peut être deplusieurs types. La plus fréquente est celle des moindres carrés ordinaires, mais il existeaussi celle des moindres carrés pondérés et celle des moindres carrés généralisés (Lahiriet al., 2002).

(2.29)

(2.28)Moindres carrés ordinaires (MCO) :

Moindres carrés pondérés (MCP) :

h r

L (9(h) - 'Y(h,()))2h=hl

h r

L wh«())(9(h) - 'Y(h, ()))2h=hl

Moindres carrés généralisés (MCG) : g«()tE«())-lg«()) (2.30)

où Wh«()) sont des fonctions de poids non négatives, g«())t (29(hd -2'Y(hll ()), ... , 29(hr ) -2'Y(hr, ())) est le vecteur 1 x r des différences, et E«()) est la matricede covariance de g«()). Lahiri et al. (2002) ont établi une formulation plus générale ayant

Page 54: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

54 Chap. 2. Prise en compte de l'information spatiale sur les individus

Modèle Formule

Effet pépite pur -y(h) = 81 si h> 0

0 si h = 0,avec (h ~ 0

Linéaire -y(h) =81 + 82 havec 81, 82 > 0

Exponentiel -y(h) =81(1- exp-h/92 )

avec 81, 82 > 0

8 8 (3 h 1 h3

) si 0 ~ h < 83-y(h) = 1 + 2 -- - -D!"

Sphérique 293 293

81 + 82 si h > 83,avec (JI ~ 0 et 82, (J3 > 0

8 eh2 35h3 7h~ 3h7) si 0 ~ h ~ 83

Cubique -y(h) = 1 + 82 82'"" - 489""" + 295" - W3 3 3 3

81 + 82 si h > 83,avec (JI > 0 et 82, (J3 > 0

Gaussien -y(h) =81(1 - exp-h/9~)

avec (JI, 82 > 0

Puissance -y(h) =81 + 82 h93

avec (JI, 82 > 0 et 0 < 83 < 2

TAB. 2.2 - Exemples de modèles de variogramme valides. Rappel de notation: h est la norme du vecteurh.

pour cas particuliers les trois méthodes MCO, MCP et MCG, ainsi que les propriétésasymptotiques de ces estimateurs.

Estimation non paramétrique

L'inconvénient des méthodes décrites précédemment est que le choix du modèlede variogramme détient une forte part de subjectivité. De plus, elles nécessitent uncertain comportement à l'origine (par exemple linéaire ou hyperbolique) pour le va­riogramme expérimental, comportement qui détermine en partie le choix du modèle.D'autres méthodes, non paramétriques, ont donc été recherchées pour s'affranchir duchoix d'un modèle de variogramme. Elles sont basées sur le théorème de Bochner (Gen­ton & Gorsich, 2002). Nous ne les détaillerons cependant pas ici.

2.2.2 Cas multivarié

On suppose que l'on a p variables régionalisées Zj(x), j = 1 .. . p, xE JR2 mesurées enn points Xï, i = 1 ... n. On les regroupe dans une matrice Z de dimensions n x p telle

Page 55: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme

que:

55

(2.31)

(2.32)

Soit

Z = (Zl ... Zj ... zp) avec zj = (zj(xd ... Zj(Xi) ... Zj(xn )).

En chaque point d'observation toutes les variables sont donc supposées disponibles, cequi correspond à des données isotopiques (Wackernagel, 1998). Si ce n'est pas le cas lesdonnées sont dites hétérotopiques, ce qui pose des problèmes pour l'estimation, même sicelle-ci est toutefois possible.

2.2.2.1 Définitions et hypothèses

De la même façon que l'on a défini au paragraphe 2.2.1.1 les fonctions de covariancespatiale et de semi-variogramme au pas h pour une seule fonction aléatoire Z(x), onpeut définir des fonctions de covariance et de variogramme croisées entre deux fonctionsaléatoires Zj(x) et Zj'(x), sous les hypothèses étendues de stationarité intrinsèque et/oude second-ordre conjointes.

Hypothèse de stationnarité intrinsèque conjointe

Sous cette hypothèse on a, 'i(x, x + h) E D x D et 'ij,j' = l. .. n (Wackernagel,1998) :

E(Zj(x + h) - Zj(x)) = 0,cov[(Zj(x + h) - Zj(x)), (Zjl(x + h) - Zjl(x))] = 2)'jjl(h)

Ces équations définissent le semi-variogramme croisé au pas h qui s'écrit:

1)'jjl(h) = 2E[(Zj(x + h) - Zj(x))(Zjl(x + h) - Zjl(x))]

Propriétés :- Si j = j'on retrouve le semi-variogramme de Zj(x).- Le semi-variogramme croisé est une fonction paire:

- Le semi-variogramme croisé satisfait l'inégalité suivante:

(2.33)

(2.34)

(2.35)

- La matrice r(h) de dimensions p x p regroupant tous les semi-variogrammes entreles variables est une matrice symétrique, semi-définie positive quel que soit h.

Page 56: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

56 Chap. 2. Prise en compte de l'information spatiale sur les individus

Hypothèse de stationnarité de second-ordre conjointe

Sous cette hypothèse on a, V(x, x + h) E D x D1998) :

E(Zj(x)) = mj (constante),

E[(Zj(x) - mj)(Zj/(x + h) - mjl)] = Cjj'(h)

et Vj,j' = 1 ... n (Wackernagel,

(2.36)

(2.37)

Ces équations définissent la fonction de covariance croisée Cjj/(h).

Propriétés :- Si j = j'on retrouve la fonction de covariance de Zj(x) .- Contrairement au semi-variogramme croisé, la fonction de covariance croisée n'est

pas a priori paire ou impaire. En effet, sa valeur change si on change l'ordre desvariables ou le signe de h :

(2.38)

Par contre, si on change les deux on revient à la même valeur :

(2.39)

- Le maximum de la fonction de covariance croisée peut être décalée de l'origine parun certain vecteur r : c'est ce que l'on appelle un effet de "retard".

- L'inégalité suivante est vérifiée :

(2.40)

(2.41)

(2.42)

- La matrice C(h) de dimensions px p regroupant toutes les fonctions de covariancecroisées entre les variables au pas h n'est en général ni définie positive ni définienégative quel que soit h.

2.2.2.2 Lien entre semi-variogramme et fonction de covariance croisés

On se place pour que tout soit défini dans l'hypothèse de stationnarité de second-ordreconjointe. On peut obtenir facilement (Wackernagel, 1998) :

1'Yii,(h) = Cjj/(O) - "2 (Cjj/(-h) + Cjj/(+h))

Or on peut aussi décomposer la fonction de covariance croisée en deux termes pairs etimpairs:

1 1Cjj/(h) = "2 (Cjj' (+h) + Cjj'(-h)) + "2 (Cjj' (+h) - Cjj/( -h))

\ f , ,y T

terme pair terme impair

On peut constater que le semi-variogramme croisé correspond uniquement au termepair. Si le terme impair est important, le semi-variogramme croisé ne va donc pasexprimer toute l'information. La fonction de covariance croisée expérimentale devrait

Page 57: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme 57

donc toujours être tracée afin de détecter les asymétries éventuelles et l'importance dela partie impaire (voir Wackernagel (1998) pour des exemples).

En terme de matrices nous avons donc :

r(h) = C(O) - ~(C(h) + C(-h)) (2.43)

2.2.2.3 Estimateurs ponctuels classiques

Estimation du semi-variogramme croisé au pas h

L'estimateur ponctuel classique du semi-variogramme croisé au pas h entre les fonc­tions aléatoires Zj(x) et Zj'(x) s'écrit (Wackernagel, 1998) :

9jj/(h) = 2IN1(h) 1 ~ (Zj(Xi) - Zj(XiI ))(Zj/(Xi) - Zj'(Xi/))

(Xi -Xi' )EN(h)

avec les mêmes notations qu'au paragraphe 2.2.1.2.

(2.44)

Lien avec la matrice de voisinage

Comme pour le semi-variogramme expérimental, nous pouvons établir un lien simpleentre le semi-variogramme expérimental croisé 9jj/(h) et la matrice M h de voisinagedéfinie à l'équation 2.20 :

(2.45)

Soit Î'(h) la matrice symétrique p x p regroupant l'ensemble des semi-variogrammesexpérimentaux simples et croisés au pas h. Cette matrice s'exprime donc simplement:

(2.46)

Estimation de la covariance croisée au pas h

L'estimateur ponctuel classique de la fonction de covariance croisée au pas h entre lesfonctions aléatoires Zj(x) et Zj'(x) s'écrit (Wackernagel, 1998) :

(2.47)

avec Zj = ~ E~=l Zj(Xi) et zi' = ~ E~=l Zj/(Xi)' Soit ê(h) la matrice p x p regroupantl'ensemble des covariances expérimentales simples et croisées au pas h. Cette matricen'est généralement donc pas symétrique. Cependant en pratique on en utilise que lapartie symétrique de l'estimation, en moyennant les estimations au pas h et -ho Il y adonc une perte d'information. Pour la suite nous ne considèrerons plus que l'estimationsymétrique.

Page 58: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

58 Chap. 2. Prise en compte de l'information spatiale sur les individus

Lien avec la matrice de voisinage

Nous pouvons comme pour la covariance expérimentale établir un lien simple entre lacovariance expérimentale croisée omnidirectionnelle êjj' (h) et la matrice Mh de voisinagedéfinie à l'équation 2.20 :

(2.48)

(2.49)

Si les variables de la matrice Z sont toutes centrées par rapport à lIn, alors la matrice~ nC(h) peut alors s'exprimer simplement:

(2.50)

Si les variables de la matrice Z sont toutes centrées par rapport à Dm, alors :

(2.51)

Les matrices de covariance spatiale et de variabilité globale sont alors reliées par larelation suivante:

(2.52)

2.2.2.4 Ajustement: le modèle linéaire de corégionalisation

Pour simplifier, on remplace le terme semi-variogramme par le terme variogrammedans ce paragraphe. Comme dans le cas univarié, l'ajustement des fonctions de cova­riance croisées et des variogrammes croisés est le préalable nécessaire aux méthodesd'interpolation multivariées telles que le cokrigeage. Les estimateurs doivent de mêmesatisfaire les propriétés respectives de positivité et de négativité conditionnelles pourêtre valides. Cependant, des contraintes supplémentaires doivent être rajoutées, carles covariances (et les variogrammes) simples et croisées d'un ensemble de variables nepeuvent pas être modélisées indépendamment. Ainsi les matrices de variogramme r(h)doivent être symétriques et semi-définies positives quel que soit h.

Deux grands types d'estimations sont pour cela possibles, paramétrique, en utilisantune estimation ponctuelle préalable par la méthode des moments, et non paramétrique.

Page 59: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.2 Covariance spatiale et variogramme 59

Dans le cadre paramétrique, on introduit le modèle linéaire de corégionalisation, quipermet d'obtenir des fonctions ajustées valides dans la plupart des situations. Il supposedes fonctions paires de covariances croisées, et peut donc être formulé en terme devariogrammes. On donne ici sa définition dans le cadre de stationnarité de second ordre,d'après Arnaud et al. (2001).

p fonctions aléatoires Zj(x) conjointement stationnaires de second ordre obéissent aumodèle linéaire de corégionalisation lorsque leurs variogrammes simples et croisés sontdes combinaisons linéaires des mêmes variogrammes de base 9'1.1. (h).

sVj,j' = 1 .. . p, Vh, Î'jjl(h) = LbjjI9u(h) (2.53)

'1.1.=1

ce qui donne en notation matricielle :s

r(h) = L Bu9u(h), Vh'1.1.=1

(2.54)

où S est le nombre de variogrammes de bases 9u(h). Bu, matrice p x p des bjjl'est appelée matrice de corégionalisation. Chaque Î'jj'(h) apparaît donc comme unvariogramme gigogne à S composantes. Le nombre et la nature des variogrammes debase sont choisis par une étude préalable des variogrammes expérimentaux, en prenantgarde de choisir le nombre assez faible pour faciliter l'estimation ultérieure.

Un cas particulier est le modèle de corrélation intrinsèque, quand toutes les matricesde variogramme r(h) sont proportionnelles à une unique matrice B :

r(h) = B9(h), Vh (2.55)

On peut aussi écrire le modèle linéaire de corégionalisation en fonction des matrices decovariance spatiale symétriques :

sC(h) = LBuCu(h), Vh (2.56)

'1.1.=1

Il est aussi possible d'écrire une extension de ce modèle pour les matrices non symétriquesde covariance spatiale (voir pour cela Wackernagel (1998)).

Pour satisfaire la contrainte de symétrie et de semi-positivité de r(h), on impose lacondition suffisante que chacune des matrices de corégionalisation Bu soit symétriqueet semi-définie positive (Arnaud et al., 2001). On remarque que c'est une conditionsuffisante mais pas nécessaire.

La recherche des coefficients des matrices Bu est complexe. Goulard (1988) a proposéune procédure itérative qui fournit des matrices Bu ayant les bonnes propriétés (voir aussiGoulard & Voltz (1992)). Cet algorithme converge bien en pratique, mais sa convergencen'a pas pu être démontrée théoriquement (Wackernagel, 1998).Il est basé sur un critère des moindres carrés :

hr

L Wh tr [(f(h) - r(h))2]h=hl

(2.57)

Page 60: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

60 Chap. 2. Prise en compte de l'information spatiale sur les individus

Ce critère est minimisé sous la contrainte que les matrices Bu du modèle r(h) soientsemi-définies positives.L'inconvénient de cette technique est qu'elle devient rapidement très lourde quandle nombre de variables augmente. De plus le choix de la nature et du nombre destructures à utiliser est subjectif. Une alternative est donc constituée par l'estimationnon paramétrique des matrices de covariance, qui permet de traiter beaucoup plusde variables. L'idée est de transformer les matrices de covariance en matrices dequasi-densités spectrales en utilisant la transformée de Fourier. Ces matrices sontensuite lissées sous contraintes de positivité et de somme égale à un. La transforméeinverse de Fourier permet d'obtenir une estimation semi-définie positive des matrices decovariance (Yao, 1999).

Nous avons donc présenté plusieurs outils permettant de prendre en compte l'infor­mation spatiale sur les individus. Il en existe de nombreux autres, comme signalé enintroduction, mais nous nous sommes limités à ceux qui nous serons utiles pour la suite.En effet, ils sont à la base de techniques d'analyses spatiales multivariées, que nous allonsprésenter après quelques applications pratiques sur nos données de pluie.

Page 61: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.3 Application à nos données

2.3 Application à nos données

2.3.1 Paramètres d'estimationexpérimentaux

des

61

variogrammes

A partir de maintenant on remplacera par abus de langage le terme semi-variogrammepar le terme variogramme, afin de simplifier la rédaction. Les variogrammes ont étécalculés à partir de fonctions S-Plus© basées sur des routines Fortran, qui sont desroutines de Venables & Ripley (1994) que nous avons modifiées légèrement. Ils sont baséssur l'estimation de l'équation 2.17. Comme nos données sont irrégulièrement espacéesnous avons été obligés de définir des classes de distances N(h). On rappelle que lesvecteurs de distance h sont calculés à partir des coordonnées des stations exprimées endegrés décimaux.Dans le cas omnidirectionnel, celles-ci sont définies à partir du nombre total de classesnint et de la largeur de chaque classe 1/sc. Chaque classe est repérée sur les graphes parla moyenne des distances qu'elle contient. La première classe (hd contient les distancesde 0 (exclu car on ne considère que les paires de points distincts) à 1/sc exclu, la deuxièmeclasse (h2 ) les distances de 1/sc inclu à 2/sc exclu, etc. De cette manière un couple depoints n'appartient qu'à une seule classe.Nous avons choisi, pour avoir un nombre de couples de points suffisant dans chaqueclasse, de prendre une largeur de classe 1/sc = 0.75 et un nombre de classes nint =8. Avec ces paramètres le nombre minimal de couples est de 67 pour le variogrammeomnidirectionnel. La distance maximale considérée est donc de 6, ce qui est un peu plusde la moitié du diamètre maximum de la région.Dans le cas directionnel, on introduit un paramètre supplémentaire qui est la toléranceangulaire autour de l'angle considéré. Nous avons choisi une tolérance angulaire de 25degrés.Nous avons résumé dans le tableau 2.3 les caractéristiques de chaque classe dans le casomnidirectionnel, et dans deux directions que nous allons considérer par la suite. Onconstate qu'il y a toujours moins de points dans la première classe qui est donc toujoursmoins bien estimée, et que le faible effectif des classes dans les cas directionnels rendentles estimations des variogrammes directionnels moins bonnes.

hl h 2 h 3 ~ hs h6 h 7 hs

omnidirectionnelh 0.385 1.138 0.911 2.665 3.339 4.105 4.891 5.650

IN(h)1 67 202 285 241 249 244 161 128

45 degrésh 0.314 1.199 1.944 2.641 3.359 4.175 4.904 5.632

IN(h)1 21 72 71 61 68 57 61 58

135 degrésh 0.414 1.203 1.873 2.588 3.356 4.160 4.803 5.610

IN(h)1 13 39 87 79 86 75 32 18

TAB. 2.3 - Moyenne des distances h et effectif IN(h)1 de chaque classe dans les cas omnidirectionnel etdans les directions 45 et 135 degrés, les angles étant mesurés dans le sens des aiguilles d'une montre àpartir du nord.

Page 62: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

62 Chap. 2. Prise en compte de l'information spatiale sur les individus

2.3.2 Etude variographique des variables compromis

Nous avons examiné les variogrammes des 3 premières composantes principales del'ACP de Zc (voir figure 2.2).Trois types de variogrammes ont été représentés : le variogramme omnidirectionnel, etles variogrammes directionnels dans les directions 45 degrés et 135 degrés, qui sont lesdirections les plus significatives. On précise que les angles sont mesurés dans le sens desaiguilles d'une montre, à partir du nord. La direction 45 degrés correspond donc à la di­rection sud-ouest / nord-est et la direction 135 degrés à la direction nord-ouest / sud-est.

~r------------------------------:.---'~

~

~

".---------.~....~~~." ,

" """ " ".., , ~

... ' 'y

" ~.............•......•, .

~ ..!~.:.:::::: A..,..!:".:-" , .~'-- -- ---_- -...J

C!oL...- ---__---__---_----_------J3

h

FIG. 2.2 - Variogrammes des trois premières composantes de l'ACP du tableau compromis Zc. Les lignespleines représentent les variogrammes omnidirectionnels, les pointillés larges les variogrammes dans ladirection 135 degrés, et les pointillés fins les variogrammes dans la direction 45 degrés, la toléranceangulaire étant de 25 degrés.

On constate que ces trois composantes correspondent chacune à un modèle devariogramme omnidirectionnel différent: cubique pour la première, puissance pour la

Page 63: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.3 Application à nos données 63

deuxième, et sphérique pour la troisième.La première composante correspond à un variogramme cubique. On constate que lesvariogrammes omnidirectionnel et dans la direction 135 degrés sont presque confondus,alors que le palier du variogramme dans la direction 45 degrés est beaucoup plus bas.Cela indique donc la présence d'une anisotropie zonale, avec un axe de plus grandevariabilité dans la direction 135 degrés et un axe orthogonal de plus faible variabilité,dans la direction 45 degrés. Cela correspond à la signification de la première composante,qui est une opposition Agreste / Sertao. On remarque de plus que le variogramme dansla direction 135 degrés présente deux ruptures, au deuxième et à l'avant dernier pas.Une recherche plus approfondie de la localisation des couples de points dans ces deuxclasses nous a montré qu'elles ne contenaient que des couples de points du Sertao, où lavariabilité spatiale est plus faible, alors que les autres classes présentent des couples depoints à cheval sur les deux régions Agreste et Sertao, ce qui augmente l'estimation duvariogramme en raison du contraste existant entre ces deux régions.La deuxième composante correspond quant à elle à un modèle de variogramme puissance.Les trois variogrammes ont des hauteurs différentes, le plus haut étant celui dans ladirection 45 degrés. Cela indique donc là aussi la présence d'une anisotropie zonale, avecun axe de plus grande variabilité dans la direction 45 degrés et un axe de plus faiblevariabilité orthogonal, dans la direction 135 degrés. Cependant si on essaie d'ajusterles coefficients du modèle puissance au variogramme omnidirectionnel, on constate quel'exposant est nettement supérieur à 2, ce qui indique que l'hypothèse de stationnaritén'est pas respectée et qu'il y a une dérive. Cela correspond à la signification de lacomposante, qui est un gradient régulier sud-ouest / nord-est. Cette dérive peut êtreaussi la cause de l'anisotropie observée.Enfin, la troisième composante correspond à un modèle sphérique, les trois vario­grammes étant superposés. Le premier point et les deux derniers points de la direction135 degrés, qui sont à l'écart des deux autres courbes, peuvent être expliqués par lefaible nombre de couples de points dans les classes correspondantes (respectivement13, 32 et 18). On note aussi un effet pépite important pour le variogramme omnidi­rectionnel par rapport à sa hauteur maximale (il en représente en effet presque la moitié).

Au vu de ces résultats, des problèmes se posent donc quant au respect des hypothèsesde stationnarité et d'isotropie nécessaires à l'application éventuelle du krigeage :• Hypothèse de stationnarité: l'hypothèse de stationnarité intrinsèque (équation 2.13)n'est apparemment pas respectée, en particulier pour la deuxième composante, qui cor­respond à un modèle puissance d'exposant clairement supérieur à 2. Comme nos donnéesne sont pas disposées sur une grille, un moyen pour montrer cette dérive éventuelle estd'ajuster un modèle paramétrique sous la forme d'une expression polynomiale de lalongitude et de la latitude (Kalyznyet al., 1997) .• Hypothèse d'isotropie : Les variogrammes directionnels de la première et de ladeuxième composante ont suggéré l'existence d'une anisotropie zonale. L'hypothèsed'isotropie, nécessaire au krigeage, n'est donc pas respectée, car le variogramme nedépend plus seulement de la norme du vecteur h mais aussi de sa direction. L'anisotropiezonale peut être corrigée par l'ajustement d'un modèle approprié, ou par l'utilisationd'un modèle de variogramme gigogne, composé d'un variogramme omnidirectionnelet d'un variogramme à anisotropie géométrique (avec transformation des coordonnéesspatiales par rotation et/ou homothétie). Cela a été réalisé sur ces données par Sicard

Page 64: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

64 Chap. 2. Prise en compte de l'information spatiale sur les individus

(2001) et Sicard et al. (2002).

Nous avons donc tenté d'ajuster sur nos données un modèle en fonction des coor­données spatiales, afin de corriger la dérive et l'anisotropie zonale.

2.3.3 Etude variographique après transformation des données

Nous avons choisi d'ajuster un modèle paramétrique sur le tableau compromis ZClpar une régression linéaire des moindres carrés au moyen de la fonction lm de S-Plus©.Notre but étant uniquement d'estimer la dérive par une courbe de tendance, nous necherchons pas à obtenir une modélisation fine par un degré de polynôme élevé. Nousnous limitons donc aux deux variables prédictives que sont les vecteurs des longitudeset des latitudes, ce qui correspond à un polynôme de degré 1.

Les résultats de la régression linéaire des variables de Zc sur les variables longitudeet latitude sont résumés dans le tableau 2.4. On retrouve les principales directions

Variable R2 multiple Longitude Latitude Angle

PlO 0.800 -0.022 -0.080 15.376

PlI 0.901 -0.071 -0.075 43.352

P12 0.874 -0.086 0.056 56.929

Pl 0.629 -0.082 0.012 97.955

P2 0.520 -0.079 0.051 122.845

P3 0.644 -0.061 0.087 145.127

P4 0.577 -0.008 0.070 173.290

P5 0.353 0.083 -0.008 95.300

P6 0.495 0.123 -0.061 116.359

P7 0.520 0.127 -0.080 122.260

P8 0.497 0.119 -0.088 126.622

P9 0.522 0.085 -0.088 136.260

TAB. 2.4 - Coefficients de détermination multiple, coefficients du modèle de régression sur la longitudeet la latitude, et angles correspondants, mesurés en degrés dans le sens des aiguilles d'une montre àpartir du nord.

d'anisotropie relevées dans l'étude des variogrammes des composantes de Zc (figure2.2). Ainsi les variables P6 à P9, qui sont corrélées avec la première composante, ontune surface de tendance orientée dans une direction approchant 135 degrés, ce quicorrespond à la direction de plus grande variabilité relevée dans le variogramme de lacomposante. De la même façon, les variables PU et P12, qui sont corrélées avec ladeuxième composante, ont une surface de tendance orientée autour de 45 degrés, ce quicorrespond aussi à l'anisotropie relevée dans le variogramme.Les coefficients de détermination multiple sont les plus élevés pour les variables PlOà PU qui correspondent à la deuxième composante, dont le variogramme suggére ladérive la plus forte (avec un variogramme puissance de coefficient supérieur à 2).

Page 65: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

2.3 Application à nos données 65

Nous avons ensuite examiné les variogrammes des 3 premières composantes princi­pales de l'ACP de Z~ (tableau résidu de la régression), afin de les comparer à ceux issusde l'ACP de Zc de la figure 2.2. Dans le cas de la première composante, le modèle de

3

h4

.....-------------------------------,;;

_: ------=-.. ~ ~.::.:.:.:.;~;:::: : h ••••••••••••••••••••••

..e --=="'~_ ~.'F=~ ..~~~"' ....,...... """ '----

"'.... -------- .~

oL...- ----~---~----_----~-------l4

3

h4

FIG. 2.3 - Variogrammes des trois premières composantes de l'AC? du tableau résidu Z~' Les lignespleines représentent les variogrammes omnidirectionnels, les pointillés larges les variogrammes dans ladirection 135 degrés, et les pointillés fins les variogrammes dans la direction 45 degrés, la toléranceangulaire étant de 25 degrés.

variogramme est toujours le même (soit un variogramme cubique), avec une hauteurde palier inférieure et la présence d'un effet pépite de 0.1 environ. L'anisotropie esttoujours présente.Dans le cas de la deuxième composante, on voit que la dérive a bien été corrigée :le modèle de variogramme a en effet changé et est maintenant un modèle sphérique.L'anisotropie est encore présente, et on note la présence d'un effet pépite de 0.04environ. Enfin le modèle de la troisième composante est toujours un modèle sphérique,avec un effet pépite qui a diminué (de 0.05 environ il est passé à 0.01).

Page 66: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

66 Chap. 2. Prise en compte de l'information spatiale sur les individus

La régression linéaire sur l'axe des longitudes et des latitudes a donc permis de corrigerla dérive présente dans les données et d'obtenir des variogrammes tous acceptables, maispar contre l'anisotropie est toujours présente. Cependant on souligne que l'utilisation desvariogrammes des résidus introduit un biais lorsque l'on souhaite après krigeage reveniraux données initiales. Pour la suite, comme nous appliquerons les méthodes d'analysesspatiales uniquement dans une optique exploratoire, nous choisirons de ne pas utiliser letableau Z~ issu de la régression de Zc sur les variables longitude et latitude, qui entraîneune perte de l'information. En effet les hypothèses de stationnarité et d'isotropie ne sontnécessaires que pour la réalisation du krigeage.

Page 67: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chapitre 3

Méthodes d'analyse de donné-esmultivariées spatialisées

Dans ce chapitre nous allons essayer de faire une revue bibliographique de méthodess'appliquant à des données spatiales multivariées. Les données considérées sont disposéesdans un tableau individus x variables avec l'information spatiale disponible sur lesindividus.

Ce type de données est très fréquent quand on étudie des variables pluviométriques,la pluie étant collectée en différentes stations. Le plus souvent se rajoute une relationde contiguïté supplémentaire, sous la forme d'une dimension temporelle. On considèredonc dans ce cas que les données se rencontrent sous trois modes: spatial, temporel, etmultivarié. Nous avons constaté que la prise en compte des proximités spatiales est trèspeu répandue dans l'analyse des données de pluie.L'approche la plus rencontrée est en effet celle des ACP sous différents modes. C'estCattell (1952) qui a le premier développé cette idée, les modes correspondant à des"tranches" en deux dimensions d'un cube de données. Si il y a 3 modes (espace, temps,variables climatologiques), on en choisit deux et on les analyse en fixant le troisième.Cela aboutit à 6 types d'analyses, mais les plus fréquentes sont les ACP en mode T etS, qui sont adaptées à l'étude de phénomènes spatio-temporels (Jolliffe, 2002). L'ACPen mode T correspond ainsi à l'analyse d'une variable climatique, avec le temps encolonnes et les stations d'observation en lignes. En climatologie cette analyse permetd'identifier des types de circulation atmosphérique. L'ACP en mode S correspond quantà elle à l'analyse d'une variable climatique, avec cette fois-ci le temps en lignes et lesstations d'observation en colonnes. Elle permet d'identifier des régions où la variabilitétemporelle est homogène, et correspond aux EOF. Les EOF sont en fait le nom donnépar les climatologistes à l'ACP sur des séries temporelles dans un contexte multi-stationsau lieu de multi-variables (Wackernagel, 1998b).Cependant, dans ces analyses les observations sont considérées comme indépendantes,et les dépendances spatiales et temporelles ne sont pas prises en compte. L'étudevariographique et le krigeagejcokrigeage éventuel sont réalisés sur les composantesissues de l'ACP, mais celles-ci sont calculées sans prendre en compte l'aspect spatial.Nous avons donc recherché des méthodes d'analyse spatiale multivariée dans d'autresdomaines, principalement en écologie, géologie et analyse d'image.

Page 68: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

68 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Nous nous sommes intéressés plus particulièrement aux méthodes dérivées desanalyses factorielles classiques telles que l'ACP, qui sont basées sur l'optimisation d'uncritère spatial. Ces méthodes utilisent les outils de prise en compte de l'informationspatiale présentés dans la partie précédente. Elles peuvent donc se distinguer en deuxgrand types de méthodes :- les méthodes issues de l'analyse de données à la française, utilisées surtout en écologie,utilisant les matrices de voisinage ou les coordonnées géographiques- les méthodes utilisant les outils de la géostatistique : analyse krigeante, MAF, etc. Cesont les plus nombreuses.Nous n'avons pas abordé les méthodes basées sur la décorrélation préalable des indivi­dus. C'est par exemple le cas de la méthode proposée par Aragon & Caussinus (1980),voir aussi Goulard (1988).

Pour notre présentation nous avons choisi de distinguer d'une part les méthodess'appliquant directement sur les tableaux individus x variables, par le biais de larecherche de combinaisons linéaires des variables optimales suivant un certain critère,et d'autre part les méthodes qui s'appliquent plus spécifiquement sur les matrices desvariogrammes ou des covariances spatiales.

Nous essaierons lors de notre présentation de comparer les différentes méthodes parle biais du critère qui est optimisé. En particulier beaucoup des méthodes présentéespeuvent être formulées comme une ACP avec des métriques particulières. Nous avonsdans cette optique homogénéisé le plus possible les notations. Celles-ci sont les suivantes:on étudie une matrice Z de dimensions n x p avec l'information spatiale disponible surles n individus. Sa matrice de variance/covariance est donnée par :E = ZtDZ, avec Dmétrique n x n associée aux individus, généralement ~In' et Z centrée par rapport à D.On associe aux p variables une métrique Q, de dimensions p x p, qui est généralementremplacée en pratique par la matrice identité. L'estimateur de la matrice des vario­grammes de Z au pas h est donné par Î'(h) = ZtDhEhZ, d'après l'équation 2.21. Lesméthodes d'analyse aboutissent à l'obtention de facteurs u de longueur p, que l'on rangedans la matrice des facteurs A. Ces facteurs sont associés à des valeurs propres À, rangéesdans la matrice diagonale A, et permettent d'obtenir les composantes c de longueur n,rangées dans la matrice des composantes C.

Page 69: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.1 Utilisation des coordonnées géographiques 69

3.1 Utilisation des coordonnées géographiques

3.1.1 Analyse des surfaces de tendance (A8T)

Nous présentons tout d'abord la manière la plus naturelle d'utiliser l'informationspatiale, qui est d'utiliser directement les coordonnées géographiques des sites demesures, quand celles-ci peuvent être définies, comme variables prédictives dans desméthodes de régression. C'est le cas de la méthode de l'AST, Analyse par Surfaces deTendance ("trend surface analysis") (Thioulouse et al., 1995), qui permet de réaliserune décomposition du phénomène en une tendance spatiale et un effet purement local.Elle a été introduite en géologie (Lee, 1969), et a aussi été appliquée dans d'autresdomaines comme en écologie (Gittins, 1968) ou en hydrologie (Woo et al., 1997), où ellea été appliquée à des cumuls de pluie annuels et saisonniers du sud de la Chine.

Le principe est d'utiliser les coordonnées géographiques (en deux ou en troisdimensions) comme variables explicatives, pour former des polynômes dont on choisitle degré. Dans le cas par exemple d'un polynôme de degré deux, l'espace des variablesexplicatives est donc défini par les coordonnées des individus ainsi que par leurs carréset leur produit croisé. Soit Xi = (X~l), X~2») le vecteur de coordonnées dans un espaceD E ]R2 de dimensions 2, associé à chaque individu i du tableau n x p des variables Z.Les données considérées sont donc celles de la figure 3.l.Les variables ainsi obtenues peuvent être utilisées en régression multiple ou PLS, ou

z

111111n L..-__---J

Variables

à expliquer

111111

n

Variables

explicatives

FIG. 3.1 - Les données utilisées dans le cas d'un espace géographique de dimensions deux et d'unpolynôme de degré deux.

bien dans des analyses descriptives s'appliquant à deux tableaux de type analyse deredondance (van den Wollenberg, 1977) ou analyse canonique des correspondances (terBraak, 1986).Goulard (1988) a ainsi proposé l'ACPVI (Bonifas et al., 1984) entre le tableau Z et letableau X des coordonnées géographiques. Cette ACPVI est équivalente, du point devue de la représentation des individus, à l'ACP du tableau PxZ qui est le tableau desprojections orthogonales des variables du tableau Z dans l'espace engendré par X.

Ce type d'approche est satisfaisant quand le domaine d'échantillonnage est homogèneet le plan d'échantillonnage presque régulier. Cependant la méthode pose un certain

Page 70: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

70 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

nombre de problèmes techniques et méthodologiques. Elle induit par exemple un choixarbitraire quant au degré des polynômes utilisés. De plus, le nombre de paramètres aug­mente très vite avec le degré choisi, ce qui limite la modélisation de structures fines.Les variables explicatives utilisées, pour des polynômes de degré important, sont enoutre fortement corrélées entre elles, ce qui empêche la modélisation de structuresindépendantes à différentes échelles. Ce dernier problème peut être résolu en transfor­mant les polynômes en polynômes orthogonaux, par une procédure d'orthogonalisationde Gram-Schmidt ou par une simple ACP. Mais les nouvelles variables obtenues sontalors des combinaisons linéaires des variables initiales et ne peuvent dont plus être as­sociées à une échelle particulière (Borcard & Legendre, 2002).Enfin, la présence d'effet de bord peut entraîner une distorsion de la surface de tendance.

3.1.2 Utilisation de la matrice des distances euclidiennes

D'autre méthodes utilisent la matrice des distances euclidiennes qui découle directe­ment des coordonnées géographiques.

La PCNM de Borcard & Legendre (2002)

Pour pallier aux inconvénients décrits dans le paragraphe précédent, Borcard & Le­gendre (2002) ont introduit dernièrement une méthode nommée "principal coordinatesof neighbour matrices" (PCNM), basée sur la diagonalisation d'une matrice de voisinageconstituée par les distances euclidiennes entre les points de mesure, après tronquage decelle-ci: seules les distances inférieures à un certain seuil sont conservées, les autressont remplacées par la valeur du seuil multipliée par une constante. Les vecteurs propresassociés aux valeurs propres positives sont utilisés comme variables prédictives dans larégression multivariée, ou dans des méthodes du type ACPVI.

ACPVI par rapport à un modèle, d'après Goulard (1988)

Goulard (1988) a proposé de réaliser l'ACPVI (Bonifas et al., 1984) entre le tableauZ et une matrice n x n symétrique W, construite à partir d'une fonction positive etsymétrique f (ou fonction de covariance) : Wii' = f (dii, ), où du' est la distance eucli­dienne entre les individus i et i'. Le principe de l'ACPVI est alors de rechercher unesemi-métrique Q (symétrique et semi-définie positive) telle que la matrice des produitsscalaires ZQZtD associée à Z soit la plus proche possible de WD au sens de la normede Hilbert-Schmidt:

min IIZQZtD - WDIIt-s = min <PI(Q) (3.1)Q Q

sous la contrainte Q symétrique et semi-définie positive. La matrice Q solution de ceproblème est (Robert & Escoufier, 1976; Bonifas et al., 1984) :

Q = (ZtDZ)-IZtDWDZ(ZtDZ)-1 (3.2)

On réalise alors l'ACP du triplet (Z, Q, D). Soit Cl la première composante principaleainsi obtenue, Cl = ZQUI' qui est donc solution de :

min IIZQZtD - clc~DIlt-s = min <P2(CI' Q) (3.3)Cl =ZQul Cl =ZQulUiQUI=1 uiQUI=1

Page 71: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.1 Utilisation des coordonnées géographiques

On peut alors montrer facilement que:

De plus, on a :

avec WD - clctD, matrice symétrique d'élément ~(J(dii') - Ci Ci' ). D'où,

71

(3.4)

(3.5)

= L L (f(~ii') _ ~,)2h i,i'EN(h)

(3.6)

si l'ensemble des N(h) (définis comme dans le paragraphe 2.2.1.2) forment une partitionde l'ensemble des couples de points (i, i').Dans le cas où les points sont sur une grille régulière, la distance séparant les couples depoints dans chaque classe N(h) peut être alors définie précisément:

f(dii,) = f(h) 'v'(i,i') E N(h)

D'où:

IIWD - clc~DII~s = L L (f~h) _ ~,)2h i,i'EN(h)

(3.7)

(3.8)

On reconnait le terme Ci Ci' , qui est le terme élémentaire permettant de calculer la fonctionde covariance spatiale expérimentale ê(h) de la variable Cl (équation 2.19, en supposantZ centrée par rapport à D). Si Z est centrée, Cl est donc la combinaison des variables deZ dont la fonction de covariance spatiale est la plus proche de la fonction f suivant lecritère 3.8. Le bon ajustement dépend de l'existence d'une métrique Q permettant d'ob­tenir un critère q)l faible, et du bon pourcentage de variance expliquée par la premièrecomposante dans l'ACP utilisant la métrique Q (critère q)2), les deux critères étant ad­ditifs.Cette approche a l'avantage d'être très simple, cependant elle a des inconvénients.D'abord, le bon ajustement dépend de deux minimisations successives, qui n'assurent pasl'obtention du vrai minimum, puisque la deuxième minimisation (celle de q)2) ne se faitqu'en fonction de Ul, à Q constant. La méthode n'est de plus valable que pour une grillerégulière, et enfin le critère 3.8 ne s'exprime pas directement en fonction de la fonctionde covariance ê(h). Nous présenterons dans le chapitre 4 des méthodes introduisant denouveaux critères qui n'ont pas ces inconvénients.

Page 72: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

72

3.2

Chap. 3. Méthodes d'analyse de données multivariées spatialisées

ACP locale et globale

Ces deux analyses sont dérivées des matrices de voisinage introduites dans le para­graphe 2.1, mais peuvent aussi être reliées aux outils de variogramme et de covariancespatiale dans le cas où on utilise la matrice de voisinage à un certain pas h. Nous allonsdonc présenter d'abord leur formulation dans le cas général puis étudier le lien avec lesoutils géostatistiques.

3.2.1 Description à partir des opérateurs de voisinage

ACP locale

L'ACP dite locale consiste en la recherche d'une combinaison des variables de Z devariance locale maximale. On recherche donc la combinaison la plus variable d'un voisinà l'autre. La variance locale d'une variable z étant égale à ztDEz (équation 2.2), leproblème se résout par la réalisation de l'ACP non réduite du triplet (Z, Q, DE) (Méotet al., 1993). Dans le cas de la pondération D = )mIn, cette analyse est aussi appeléeanalyse de Geary par Chessel & Thioulouse (2001).

ACP globale

De par sa définition, une variance locale maximale équivaut à une structurationspatiale minimale selon le graphe choisi. En contexte de cartographie, la variabilitélocale s'opposant à la lecture des cartes et des zones homogènes, l'objectif des praticiensest donc plutôt de la minimiser. Dans ce but a été introduite l'analyse dite globale, quicomprend deux approches différentes.

La première approche consiste à réaliser l'ACP locale du graphe complémentaireU - M - In. Cependant Chessel & Sabatier (1994) soulignent l'inutilité de cettedémarche en général, car maximiser la variance locale du graphe complémentairerevient souvent à maximiser la variance tout court: c'est le cas quand la quasi-totalitédes couples de points sont non voisins, c'est à dire voisins pour le graphe complémentaire.

La deuxième approche, d'après Chessel & Sabatier (1994), consiste à reprendrel'idée de Wartenberg (1985), qui proposait de diagonaliser ZtpZ avec P = ~, afind'obtenir une combinaison linéaire des variables de Z maximisant le coefficient deMoran 1 (équation 2.11). Chessel & Sabatier (1994) ont ainsi proposé la diagonalisationde Z~PZc, Zc étant centrée par rapport à Dm = diag(~), avec m = Li mi (nombretotal de voisins). Il s'agit donc de réaliser l'ACP non centrée du triplet (Zc, Q, P). Cetteanalyse permet d'obtenir les composantes les plus lisses. Il est à noter que la métrique Pn'étant pas semi-définie positive, certaines des valeurs propres obtenues seront négatives.Cela veut dire que pour la composante correspondante une valeur fortement positive seraentourée par des valeurs fortement négatives aux points voisins (Thioulouse et al., 1995).

Cette dernière approche utilisant la pondération par Dm permet de relier les ana­lyses totales, locales, et globales. En effet, si on définit ces analyses comme étant lesACP non centrées des triplets respectifs (Zc, Q, Dm), (Zc, Q, DE) et (Zc, Q, P), alors la

Page 73: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.2 ACP locale et globale 73

décomposition 2.10 nous donne:

Z~DmZc Z~DEZc + Z~PZc (3.9)~ ~ '-v-"

variance totale variance locale variabilité globale

Si on prend la trace de chaque élément de cette expression, on obtient la décompositionde l'inertie totale en inertie locale et inertie globale. Chacune des analyses corresponddonc à la décomposition de l'inertie correspondante.On remarque cependant que les premières composantes de l'analyse locale ne corres­pondent en rien aux dernières composantes de l'analyse globale (comme on pourrait lepenser), car la variance totale n'est pas constante et dépend de la composante (Chessel& Thioulouse, 2001).

3.2.2 Liens avec le variogramme et la fonction de covariancespatiale

Lien avec le variogramme

Si on utilise la matrice M h au pas h définie au paragraphe 2.2.1.3 et les matricesD h = diag()n.;) et Eh qui en découlent, l'analyse locale équivaut à maximiser le va-riogramme expérimental au pas h. En effet, effectuer l'ACP du triplet (Z, Q, DhEh)revient à maximiser utQI'(h)Qu = 9c(h) sous la contrainte utQu = 1, avec c = ZQu.Ce problème se résout classiquement par la diagonalisation l'(h)Qu = Àu. On a alors:

À = 9c(h) (3.10)

ÀUj = ZjDhEhZQU = 9zj ,c(h) (3.11)

Les coordonnées des variables sur l'axe u correspondent donc à un facteur près auxvariogrammes croisés entre ces variables et la composante c au pas h.L'analyse locale avec la pondération D h = diag(. ~) est donc directement liée au

vmhvariogramme, et ce quel que soit le centrage de Z.

Lien avec la covariance spatiale

D'après l'équation 2.50, la matrice ZtphZ est égale à la matrice de covariance spatialeexpérimentale si la matrice Z est centrée en colonnes par rapport à ~In' Si on réalisel'analyse globale avec ce centrage, alors celle-ci sera donc équivalente à la maximisationde la covariance spatiale au pas h.Cependant, si on utilise l'approche de Chessel & Sabatier (1994) et que l'on centre Z parrapport à Dm, alors d'après l'équation 2.52 diagonaliser Z~PhZc revient à diagonaliserê(h) - ~Z~UZc' Il n'y a donc pas de lien simple entre la maximisation de la covariancespatiale à cause du centrage par rapport à Dm.

Décomposition

Dans le cas du centrage par rapport à D = ~In' on a donc la décomposition suivante:

ZtDZ = ZtDhEhZ + ZtphZ (3.12)~ "--...0-" '--"

variance totale l'(h) ê(h)

Page 74: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

74 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Les analyses reposant sur les diagonalisations respectives de l'(h) et ê(h) sont doncreliées à l'ACP centrée classique.

Les analyses locales et globales sont donc des analyses complémentaires, permet­tant d'obtenir pour l'une les composantes les plus variables localement pour le grapheconsidéré, et pour l'autre les composantes les plus lisses et par conséquent les plus car­tographiables. Les deux donnent des résultats différents dans le sens que les dernièrescomposantes de l'une des analyses ne correspondent pas aux premières de l'autre.Le centrage par rapport à Dm permet de donner une plus grande importance aux pointsayant beaucoup de voisins et donc de diminuer l'importance des points de bordure, etde relier les analyses aux coefficients de Moran et de Geary (Thioulouse et al., 1995). Ilpermet l'unification des analyses locale, totale, et globale à cause de la décomposition desinerties. Par contre, s'il permet de relier l'analyse locale au variogramme par l'utilisationde la matrice de voisinage M h , il ne permet pas de relier l'analyse globale à la fonctionde covariance spatiale.L'utilisation du centrage classique par ~In' si elle ne permet pas de diminuer l'impor­tance des points de bordure, permet quant à elle de relier les deux analyses locale etglobale aux outils géostatistiques. On a là aussi une décomposition additive de l'inertie.Nous allons maintenant pour la suite nous restreindre aux outils géostatistiques baséssur l'utilisation de la matrice de voisinage M h , et présenter une méthode optimisantla fonction d'autocorrélation spatiale, appelée méthode des facteurs d'autocorrélationmaximale.

Page 75: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.3 Méthode des facteurs d'autocorrélation maximale (MAF) 75

3.3 Méthode des facteurs d'autocorrélation maxi­male (MAF)

La méthode proposée par Switzer & Green (1984) dans le contexte du traitementd'image, consiste en la recherche d'une transformation linéaire des variables qui maxi­mise (ou minimise) la fonction d'autocorrélation spatiale entre les observations voisinespour un pas h donné. Le but est de séparer le bruit du signal, avec l'hypothèse que lesignal qui nous intéresse a une autocorrélation spatiale supérieure à celle du bruit.La méthode est décrite notamment (entre autres) sous diverses formulations dans Gou­lard (1988), dans Royer (1984) et Faraj & Cailly (2001) sous le nom de "spatial contiguityanalysis", dans Bailey & Krzanowski (2000) sous le nom de "spatial factor analysis", etdans Nielsen (1994), Larsen (2002) et Nielsen et al. (2000) sous le nom de MAF analysis(Maximum Autocorrelation factors).

3.3.1 Critères optimisés et solutions

On suppose préalablement Z centré par rapport à D = ~I. Dans la littérature, lamétrique Q est usuellement prise égale à Ip , nous procèderons donc à cette simplificationdans notre présentation. On recherche une combinaison linéaire Cl = ZU1 d'auto­corrélation spatiale cor(Z(x)Ull Z(x + h)ud maximale, sous la contrainte ut~U1 = 1,avec ~ = ZtDZ matrice de variance/covariance classique. Plus l'autocorrélation spatialesera élevée, plus la composante correspondante aura une forte liaison spatiale aupas h, et au contraire plus elle sera faible, plus le comportement de la composantesera chaotique. On recherche ensuite une deuxième composante C2 = ZU2 telle queut~U2 = 0, et ainsi de suite. La méthode peut être formulée sous deux approchesdifférentes, suivant qu'on formule le critère en terme de covariance spatiale ou devariogramme (Bailey & Krzanowski, 2000) .

• En terme de covariance spatiale (hypothèse de stationnarité de second ordre), leproblème d'optimisation s'écrit:

utC(h)umax cor(Z(x)u, Z(x + h)u) = max t~

u t Eu=l u t Eu=l U U(3.13)

La maximisation de ce terme se résout par la recherche des vecteurs propres uc:",(0' = 1 .. . p) de ~-lC(h). Si on range ces derniers dans l'ordre croissant de leurs valeurspropres (..\1 ~ "\2' .. ~ ..\p), les premiers seront ceux d'autocorrélation spatiale minimale.C'est la formulation indiquée dans Switzer & Green (1984) et Bailey & Krzanowski(2000) .

• En terme de variogramme (hypothèse de stationnarité intrinsèque) :Si C(h) est symétrique alors on a r(h) = ~ - C(h) (d'après l'équation 2.43), donc onen déduit que

utr(h)ucor(Z(x)u, Z(x + h)u) = 1 - t~

U U(3.14)

Page 76: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

76 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Le problème d'optimisation 3.13 peut donc aussi s'écrire:

. utr(h)umzn ,

utEu=l utEu(3.15)

ce critère étant aussi appelé coefficient de Rayleigh. Cette minimisation se résout par ladiagonalisation de la matrice E-1r(h). Si on range les vecteurs propres obtenus dansl'ordre décroissant de leurs valeurs propres (À1 ~ À2 •• . ~ Àp ), les premiers seront ceuxd'autocorrélation spatiale minimale. Cette dernière approche correspond à celle indiquéepar Goulard (1988) et Bailey & Krzanowski (2000). Elle est aussi présentée par Faraj &Cailly (2001), Larsen (2002) et Nielsen et al. (2000), mais ceux-ci rangent les vecteurspropres dans l'ordre croissant de leurs valeurs propres, ce qui fait que les premiers sontceux d'autocorrélation spatiale maximale.

Contrairement au cas des ACP locale et globale, qui aboutissent à des composantesdifférentes en raison de la non constance de la somme de la variance locale et de lacovariance locale, ici les deux critères 3.13 et 3.15 sont équivalents pour une matriceC(h) symétrique dans le sens où ils donnent les mêmes vecteurs propres mais dans unordre opposé. Ceci est dû à leur somme qui est constante, étant égale à 1. La somme desvaleurs propres de même rang de E-1C(h) et de E-1r(h) est aussi égale à 1. Le choixde l'utilisation de l'un ou de l'autre dépend de l'hypothèse de stationnarité présentedans les données, et des facilités d'estimation. Les matrices r(h) et C(h) utilisées enpratique sont les estimations des équations 2.46 et 2.50, mais on peut aussi utiliser lesmatrices ajustées par un modèle de corégionalisation, ce qui a été réalisé par exemplepar Grunsky & Agterberg (1992).

Une difficulté de calcul réside dans le fait que les matrices E-1r(h) et E-1C(h) nesont pas symétriques, ce qui rend difficile l'extraction numérique des vecteurs propres.Une possibilité est de diagonaliser la matrice symétrique F-1r(h)(F-1)t, où F est lamatrice des vecteurs propres de E normés à leur valeur propre: E = FF t

• Cela produitles vecteurs propres e normés à 1 et les valeurs propres À. Les facteurs MAF sont alorsdonnés par u = (F-l )te , et les valeurs propres sont identiques. La méthode est similairesi on utilise C(h) (Bailey & Krzanowski, 2000).

On remarque enfin que la méthode des MAF peut aussi s'écrire comme une analysede corrélation canonique entre les groupes de variables Z(x) et Z(x + h) (Bailey & Kr­zanowski, 2000). Pour la suite nous utiliserons la formulation par le critère 3.15 utilisantla matrice de variogramme.

3.3.2 Propriétés

3.3.2.1 Comparaison avec l'ACP

On peut établir un lien entre la méthode des MAF et l'ACP du triplet (Z, E-1,DhEh),qui est aussi l'ACP locale au pas h de Z, avec une matrice Q particulière. Ces deux ana­lyses donnent des représentations identiques pour les individus. En effet, l'ACP aboutità la diagonalisation suivante :

ZtDhEhZE-1u(acp) = Àu(acp)

Page 77: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.3 Méthode des facteurs d'autocorrélation maximale (MAF)

Si on prémultiplie par E-1 :

E-lztDhEhZE-lu(acp) = ÀE-1u(acp)

Soit si on pose u = E-1u(acp) :

77

qui est le problème de diagonalisation pour la méthode des MAF. Les valeurs propresÀ sont donc les mêmes dans les deux analyses, et les axes sont reliés par la relationsuivante:

(3.16)

Si on définit les composantes associées par:

c(acp) = ZE-1u(acp)

c= Zu

alors on constate que c = Zu = ZE-1u(acp) = c(acp). Les composantes principales sontdonc identiques dans les deux analyses.

3.3.2.2 Non influence d'une transformation linéaire des données

Les composantes obtenues, contrairement à celle issues d'une ACP, sont invariantes visà vis d'une transformation linéaire des données. Le centrage et/ou la réduction préalablede Z n'a donc pas d'influence.En effet, d'après Nielsen (1994) : soit T une matrice de transformation inversible, onconsidère donc la matrice ZT. La minimisation du coefficient de Rayleigh se résout alorspar la diagonalisation suivante :

Ttr(h)Tv = ÀTtETv

E-1r(h)Tv = ÀTv

(3.17)

(3.18)

Les valeurs propres sont donc identiques à celles issues de l'analyse de Z, et les facteurssont reliés par la relation u = Tv. On a alors ZTv = Zu = c donc les composantesobtenues sont identiques.

3.3.2.3 Normes des axes et composantes et orthogonalités

Si A est la matrice des facteurs u, on a par définition AtEA = I. On a donc, siC = ZA et A est la matrice diagonale des valeurs propres :

CtDC = AtZtDZA = AtEA = I

CtDhEhC = AtZtDhEhZA = AtEE-1r(h)A = AtEAA = A

(3.19)

(3.20)

Les composantes c sont donc d'une part normées à 1 par rapport à D et orthogonalesstatistiquement par rapport à cette même métrique. D'autre part, elles sont aussi ortho­gonales spatialement, leurs variogrammes croisés au pas h étant nuls, et le variogrammesimple de chaque composante au pas h est égal à la valeur propre correspondante.

Page 78: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

78 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

3.3.2.4 Formule de reconstitution

La formule de reconstitution à l'ordre p de l'ACP du triplet (Z, E-l, DhEh) nousdonne:

fi

Z =~ c(acp)u(acp)tL.J 0 0

0==1

avec u~acp) et c~acp) normés respectivement à 1 par rapport à Q et à >. par rapport àDhEh. D'où, en utilisant 3.16 :

On en déduit :

fi fi

Zj = L co(Z~DZuo) = L co(ZjDco)0=1 0==1

fi

=L Co cor(Zj, co)0=1

puisque Z est centré-réduit par rapport à D.

(3.21)

(3.22)

3.3.2.5 Décomposition des variogrammes des variables initiales

D'après 3.22, les variogrammes des variables initiales Zj se décomposent alors de lafaçon suivante (Faraj & Cailly, 2001) :

fi

'T'jj,(h) = L cor(Zj, co) cor (Zj', cohca(h)0=1

fi

'T'j(h) = L cor2(Zj, cohca (h)0=1

fi

avec L cor2(Zj, co) = 10=1

En effet, pour montrer 3.23 :

'rH,(h) = Z}D.E.Zj, = (~c. cor(Zj, Ca)) ,D.E. (~c.cor(Zj', c.))fi fi

= L L C~DhEhCo'COr(Zj,co)cor(Zj',Co')0=10'==1

(3.23)

(3.24)

Or, si a =1= a' alors C~DhEhCo' = 0, d'où la solution. 3.24 s'en déduit facilement.Les variogrammes de chaque variable de départ peuvent donc s'écrire comme desmoyennes pondérées des variogrammes des composantes.

Page 79: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.3 Méthode des facteurs d'autocorrélation maximale (MAF) 79

(3.25)

(3.26)

3.3.3 Aides à l'interprétation, d'après Faraj &. Cailly (2001)Faraj & Cailly (2001) ont défini des aides à l'interprétation afin de faciliter l'analyse

des résultats. Ils ont ainsi défini d'après 3.23 la quantité cnt(Zj, ca) suivante:

cnt(Zj, ca) = cor(Zj, ca)1 cor(Zj, Ca)I~;(~)

L Icnt(Zj, ca)1 = 1a

Ce coefficient, compris entre -1 et 1, mesure la contribution de la variable Zj à la varia­bilité spatiale de la aème composante. Si sa valeur absolue est proche de 1, cela veut direque la variable Zj contribue beaucoup. Il joue un rôle similaire à celui des corrélationsen ACP centrée réduite, et peut de la même façon être utilisé pour représenter les va­riables initiales sur des cercles de contribution de rayon 1. Il permet donc d'interpréterles composantes d'un point de vue spatial.On peut aussi définir la quantité cnt(ca), comprise entre 0 et 1 :

~jcor2(Zj,ca)Àa

cnt(ca) = ~j 'Yj(h)

Lcnt(ca) = 1a

Elle mesure la contribution absolue de la a ème composante à la variabilité spatiale desdonnées, et est d'autant plus grande que cette composante décrit des structures spatialescommunes à un grand nombre de variables initiales. Elle permet donc de sélectionner lescomposantes les plus significatives, et joue un rôle similaire à celui des valeurs propresen ACP. Faraj & Cailly (2001) suggèrent donc de trier les composantes sur la base dece critère, et non pas sur le critère des valeurs propres.

Cependant ces deux indices ne tiennent pas compte de la variance des données, et nepermettent donc pas d'évaluer la part de variabilité totale expliquée par chaque compo­sante. A cette fin d'autres critères ont été définis:

cntV(Zj, ca) = cor(Zj, ca)1 cor(Zj, ca)1

L IcntV(Zil ca)1 = 1a

(3.27)

Ce coefficient, compris entre -1 et 1, mesure la contribution de la variable Zj à lavariance de Ca'

(3.28)

a

(la norme étant calculée par rapport à D). Ce coefficient, compris entre 0 et 1, mesurela contribution de la composante Ca à la variance totale de Z.

Page 80: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

80 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Les composantes à fort cntV sont des composantes régionales qui expriment la struc­ture des données à une grande échelle, tandis que les composantes à fort cnt sont descomposantes locales qui expriment la structure à une échelle faible.

3.3.4 Généralisation pour deux pas h

Grunsky & Agterberg (1992) ont proposé une extension de la méthode des MAF pourestimer simultanément des composantes correspondant à 2 pas hl et h2 prédéterminés.Cette extension découle de la formulation des MAF sous la forme d'un modèle à deuxpoints Xo et Xl séparés par un vecteur h, Xo correspondant à l'origine du vecteur h etXl à son extrémité.

Modèle à deux points

La méthode des MAF que nous avons décrite peut être formulée à partir du modèleà deux points suivant :

z(xo)t = Z(XI)tUh + et (3.29)

où z(xo)t est le vecteur 1 x p des p variables aléatoires Zj(xo), Z(XI)t le vecteur 1 x pdes p variables aléatoires Zj(XI), Uh la matrice de transition de dimensions p x p et et levecteur ligne des résidus. Soit nh = IN(h)lle nombre de couples (xo, Xl) dont les pointssont séparés par le vecteur h. On définit Zo, la matrice nh x P des réalisations Zj(xo) etZl, la matrice nh x P des réalisations Zj(XI)'Le modèle s'écrit alors:

(3.30)

où E est la matrice nh x P des résidus.La régression multiple donne la solution:

Ûh = (Z~Zd-IZ~ZO (3.31)

Or ZtZI = ê(O) = ~ et ztzo = ê(h). D'où Ûh = E-Iê(h), qui est la matrice que l'ondiagonalise dans la méthode des MAF. La méthode des MAF au pas h est donc baséesur la diagonalisation de l'estimateur de la matrice des coefficients de la régression desmoindres carrés entre les deux ensembles de points séparés du vecteur h.

Modèle à trois points

Sur le même principe on peut construire une matrice à diagonaliser permettant deconsidérer deux pas h à la fois. Il faut pour cela considérer un modèle à trois pointsxo, Xl, et X2, les deux derniers étant séparés de Xo respectivement par hl et h2. Xocorrespond à l'origine des vecteurs hl et h2, Xl à l'extrémité de hl et X2 à celle de h2(voir figure 3.2).Le modèle s'écrit, par extension de 3.29 :

(3.32)

avec les notations évidentes.Soit nh le nombre de triplets (Xo, Xl, X2) dont les points sont situés dans la configuration

Page 81: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.3 Méthode des facteurs d'autocorrélation maximale (MAF) 81

Xl

FIG. 3.2 - Configuration des points XQ, Xl, et X2 pour le modèle à trois points.

de la figure 3.2. Zo est la matrice nh x P des réalisations Zj(xo), Zl la matrice nh x P desréalisations Zj(XI), et Z2 la matrice nh x P des réalisations Zj(X2)'Le modèle s'écrit alors:

Zo = ZIUhl + Z2Uh2 +E

= [Zl Z,] [~::] +E

La régression multiple permet d'obtenir

Or Zï Zl = Z~Z2 = ê(O) = ~,Zï Zo = ê(hl ),Z~Zo = ê(h2),et Z~ZI = Zï Z2 = ê(hl - h2).On a donc:

(3.33)

(3.34)

(3.35)

Les deux ensembles de facteurs Al et A2 associés respectivement au pas hl et h2

peuvent donc être obtenus par les diagonalisations de Ûh1 et Ûh2 .

Les vecteurs hl et h2 peuvent être choisis de même direction (hypothèse d'isotropie,on considère uniquement les distances), ou non (hypothèse d'anisotropie, les vecteurspointant alors les principales directions de cette anisotropie). Dans ce dernier cas la diffi­culté réside dans l'estimation des covariances spatiales directionnelles, qui sont difficilesà obtenir (moins de couples de points).L'avantage de cette approche est l'estimation simultanée des deux jeux de coefficientspour les deux pas considérés, en contrepartie le risque de non inversibilité est augmentéà cause du nombre de coefficients à estimer qui est doublé.

Page 82: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

82 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

3.3.5 Application au cas d'un modèle de corégionalisation àdeux structures

Il a été montré précédemment que la méthode des MAF au pas h permet d'obtenirdes composantes non corrélées spatialement au pas h considéré. Dans l'hypothèse oùle modèle linéaire de corégionalisation est respecté avec deux structures emboîtées,Vargas-Guzman & Dimitrakopoulos (2003) ont montré que la méthode MAF permetaussi d'obtenir des composantes non corrélées spatialement quel que soit h. Leurdémonstration est basée sur la formulation des MAF comme une procédure à deuxétapes, d'abord une ACP du tableau original Z avec la diagonalisation de E, puisune deuxième diagonalisation de la matrice des covariances spatiales ou de la matricedes variogrammes au pas h des composantes obtenues dans la première ACP (Bailey& Krzanowski, 2000). Nous proposons une démonstration plus simple basée sur laformulation originelle.

Ainsi soit le modèle linéaire de corégionalisation à deux structures suivant (d'aprèsl'équation 2.56), avec C1(0) = C1(0) = 1 :

Pour h = 0, on a C(O) = E = BI + B2 . Le modèle s'écrit donc:

C(h) = B IC1(h) + (E - B1)C2(h)= B 1(C1(h) - C2 (h)) + EC2 (h)

D'où:

(3.36)

(3.37)

(3.38)

La matrice à diagonaliser pour obtenir les MAF est donc une combinaison linéaire de deuxmatrices E-1BI et Ip indépendantes de h, h intervenant uniquement dans les coefficientsaffectés à ces deux matrices. On peut donc facilement montrer que la diagonalisationpermet d'obtenir des facteurs A identiques quel que soit h#-O (car si h = 0 alorsCl (h) - C2 (h) = 0), ce sont uniquement les matrices des valeurs propres Ah qui diffèrent.De plus les composantes C = ZA parce qu'elles sont identiques pour tous les h#-Osont donc par définition indépendantes spatialement à tous les h, avec une matrice desvariogrammes diagonale :

(3.39)

Les composantes C étant indépendantes spatialement, il est donc possible de lesmodéliser séparément et de les estimer séparément par krigeage au lieu du cokrigeage.De cette façon il n'y a pas de variogramme croisé à modéliser, ce qui est beaucoupplus simple. L'estimation des variables initiales peut alors s'obtenir par rotation descomposantes C réestimées (Desbarats & Dimitrakopoulos, 2000). Néammoins, unetelle transformation introduit un biais. Pour répondre à ce problème, Vargas-Guzman(2004) a proposé la méthode des AMAF (Ambi-rotational MAF), qui permet d'ajusterun modèle linéaire de corégionalisation sur les variables initiales, dans le cas de deuxstructures emboîtées. Cet ajustement est réalisé par rotation inverse de la matrice

Page 83: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.3 Méthode des facteurs d'autocorrélation maximale (MAF) 83

de covariance des composantes MAF, une fois celle-ci modélisée. La rotation inverseest permise par une légère modification de la méthode des MAF formulée commela procédure à deux étapes utilisée par Vargas-Guzman & Dimitrakopoulos (2003).La modification permet de compenser la perte d'information due à l'utilisation de lamatrice des variogrammes des composantes de lJ (ou de manière équivalente de la partiepaire de leur matrice de covariance).La méthode des AMAF est une alternative intéressante aux méthodes d'ajustementdu modèle linéaire de corégionalisation évoquées dans le paragraphe 2.2.2.4, car ellene nécessite la modélisation que d'au plus p variogrammes (la matrice de covarianceà modéliser étant diagonale), et qu'elle implique des calculs simples, sans itérations.L'inconvénient est que le nombre de structures modélisées est limité à deux.

La méthode des MAF est donc une méthode très riche qui possède beaucoup depropriétés intéressantes. Elle permet ainsi d'obtenir des composantes orthogonales à lafois statistiquement et spatialement au pas considéré, et cette propriété s'étend à tousles pas si un modèle linéaire de corégionalisation à deux structures est respecté.

Page 84: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

84

3.4

Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Etude du tableau des variogrammes discrétisés

Une approche peu présente dans la littérature est l'étude de la matrice Vde dimen­sions r x p dont les colonnes sont les variogrammes simples expérimentaux des variablesde Z aux pas hl, ... ,hr :

(3.40)

On peut aussi utiliser la matrice des variogrammes modélisés V :

(3.41)

Ces matrices sont ensuite centrées en colonnes par rapport à une métrique diagonaler x r de poids. De Iaco (2001) a réalisé ainsi l'analyse des corrélations canoniques entre

.- ...-les matrices VI et V2 correspondant à deux groupes de variables. Le but est de calculerdes variogrammes composantes qui résument au mieux le comportement spatial des deuxgroupes. Ces variogrammes composantes sont centrés. On peut aussi réaliser l'ACP dutableau Vou du tableau V, centrés ou non centrés.L'inconvénient d'une telle approche est qu'elle ne prend pas en compte les variogrammescroisés (une variante serait donc d'ajouter les variogrammes croisés dans la matrice V), etqu'il est impossible de revenir aux variables initiales. En effet on ne peut pas déterminer àquelle combinaison linéaire des variables initiales correspond la composante variogrammecalculée.

Page 85: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 85

3.5 Etude des matrices de variogrammes et/ou decovariance

On considère les matrices p x p des semi-variogrammes expérimentaux au pas h :Î"(h), h = hl' .. hr , les différents pas étant déterminés empiriquement selon les critèresdonnés dans le paragraphe 2.2.1.2. Ces matrices sont symétriques et semi-définiespositives. On peut aussi considérer les matrices des covariances spatiales expérimentalesê(h), h = hl", hr , qui contrairement aux précédentes ne sont pas semi-définiespositives. Dans les deux cas on peut disposer ces données sous la forme d'un tableauà 3 dimensions p x p x T, avec en profondeur les pas h, et y appliquer des méthodesclassiques d'analyse pour les tableaux à trois dimensions. Une synthèse de ces méthodesest proposée dans Vivien (2002).

De très nombreuses méthodes ont été développées pour analyser des tableaux dedonnées à 3 dimensions. Plusieurs approches sont possibles, que l'on peut distinguer endes méthodes angl~saxonnes et des méthodes françaises, les deux s'étant développéespresque indépendamment (Kiers, 1988).Dans la littérature angl~saxonne, le modèle le plus ancien est le modèle de TUCKER3(Thcker, 1966). De très nombreuses variantes ont été proposées, qui concernent lesalgorithmes de résolution (par exemple l'algorithme TUCKALS3) ou des modificationsdans la formulation du modèle (par exemple les modèles TUCKER2 et TUCKER1). Ledeuxième type de modèles est celui qui comprend tous les modèles dérivés du modèleCANDECOMP/PARAFAC, développé indépendamment par Carroll & Chang (1970)sous le nom de CANDECOMP et par Harshman (1970) sous le nom de PARAFAC.Dans le cas où le modèle PARAFAC est appliqué à des matrices symétriques, Ten Berge& Kiers (1991) ont clarifié mathématiquement l'équivalence avec le modèle INDSCAL,équivalence qui n'avait été jusqu'alors que justifiée empiriquement. Pour tous cesdifférents modèles on renvoie à la thèse de Vivien (2002) pour plus de détails.Les méthodes dites françaises concernent entre autres les approches de type"interstructure-compromis-intrastructure", comme par exemple la méthode STA­TIS (L'Hermier des Plantes, 1976; Lavit, 1993).

Notre cas est celui d'un tableau cubique, composé de r matrices symétriques etsemi-définies positives r(h), h = hl' .. hr.Dans la littérature nous n'avons rencontré que trois techniques d'analyse cubique quiont été appliquées aux matrices des variogrammes expérimentaux ou des covariancesspatiales: diagonalisation de la somme des matrices (Capobianchi & Lasinio, 1998),common PCA (Xie et al., 1995) et TSVD (Long, 1994), la TSVD étant une méthodedéfinie spécifiquement par Long (1994) pour son problème.

Une autre approche pour analyser les matrices de variogrammes ou de covariancesspatiales est d'ajuster un modèle linéaire de corégionalisation, et d'analyser les matricesde corégionalisation ainsi obtenues. La méthode la plus célèbre basée sur ce principeest l'analyse krigeante (Matheron, 1982; Wackernagel, 1998; Arnaud et al., 2001), quiest basée sur la diagonalisation de chaque matrice de corégionalisation. Mais il est aussipossible d'appliquer toutes les méthodes citées précédemment.

Page 86: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

86 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

(3.42)

(3.43)

3.5.1 Diagonalisation de la somme des matrices de vario..grammes

3.5.1.1 Formulation de Capobianchi &; Lasinio (1998)

Capobianchi & Lasinio (1998) ont proposé la synthèse de l'information contenue dansles matrices Î'(h) au moyen d'une matrice de synthèse l' qui est la somme de toutes lesr matrices (voir aussi Jona-Lasinio (2001) et Jona-Lasinio & Mancuso (2001)) :

hr hr

l' = L Î'(h) = L ZtDhEhZh=hl h=hl

d'après l'équation 2.21. La matrice l'Q est ensuite diagonalisée: l'Q = AAAtQ, avecAtQA = l, où A est la matrice p x p dont les colonnes sont les vecteurs propres uo ,

(a = 1 .. .p), et A est la matrice px p diagonale contenant les valeurs propres >'0'Cette diagonalisation répond au problème d'optimisation suivant:

hr

min Il L Î'(h)Q - AAAtQII 2

AtQA=Ih=hl

Il est ensuite possible de décomposer la matrice des valeurs propres>' en terme decontributions sur chaque pas h :

h r

AAAt = L Î'(h)h=hl

h r h r

A = L AtQÎ'(h)QA = L A(h) .h=hl h=hl

h r

>'0 = L >'o(h)h=hl

(3.44)

avec >'o(h) éléments diagonaux de la matrice A(h) (qui n'est pas diagonale). Ils corres­pondent aussi aux variogrammes expérimentaux au pas h des composantes Co = ZQuo '

Cette décomposition permet de définir une portée globale pour le phénomène multivarié,correspondant au pas h pour lequel la contribution >'o(h) pour la première composanteCl (qui prend en compte le maximum de variabilité) est maximale (Jona-Lasinio & Man­cuso, 2001). Cela correspond en fait au palier observé pour le variogramme de cettecomposante.

3.5.1.2 Formulation en terme de maximisation d'un critère

Cette approche a été pour l'instant abordée comme un problème de diagonalisation.On peut cependant montrer simplement que cette diagonalisation répond à un problèmede maximisation d'un certain critère. En effet, cela revient à chercher les facteurs u telsque:

hr

U = Argmax L utÎ'(h)QuutQu=1 h=hl

(3.45)

Page 87: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 81

En utilisant la méthode des multiplicateurs de Lagrange, le Lagrangien obtenu est lesuivant:

h r

r, = L: utf(h)Qu + À(utQu - 1)h=hl

(3.46)

où Àest le multiplicateur de Lagrange associé à la contrainte utQu :;::: 1. En dérivant parrapport à u et en annulant cette dérivée on obtient facilement

hr

L:f(h)Qu:;:::Àuh=hl

hr

et L: utf(h)Qu :;::: À

h=hl

On en déduit de manière évidente que la solution Ul est le vecteur propre de r associé àla plus grande valeur propre Àl , qui est égale à la valeur du critère maximisé. On montrefacilement que les vecteurs U o suivants, cherchés sous la contrainte d'orthogonalité parrapport à Q, sont les vecteurs propres suivants.

Soit C :;::: ZQA matrice des composantes c. Le critère 3.45 pour chaque compo­sante c est alors égal à L~:'hl ctDhEhc, qui est la somme sur h du semi-variogrammeexpérimental de la variable c. Cette somme est un estimateur de l'aire sous la courbe devariogramme pour h variant de hl à h,.. Les composantes c sont de plus L~:'hl DhEh­orthogonales. On cherche donc une combinaison linéaire c des variables initiales telleque son variogramme expérimental cumulé soit le plus élevé possible, puis une deuxièmeorthogonale à la première et ainsi de suite. Les composantes retenues représentent doncune proportion maximale de la variabilité spatiale.

3.5.1.3 Variantes

Une variante simple de la méthode précédente consiste à rajouter un vecteur de coef­ficients 0' :;::: (O'hl! ... ,O'hr ) dans la définition de la matrice de synthèse r :

h r

r = L O'hf(h)h=hl

(3.47)

Il est possible par exemple d'utiliser une pondération réduisant les effets de bordure(Jona-Lasinio, 2001). On peut ainsi poser O'h = IN(h)l, nombre de couples de pointsdans la classe N(h), ce qui permet de donner plus de poids aux pas qui sont les mieuxestimés. Les poids affectés aux pas intermédiaires seront donc en général plus élevés queles pas affectés aux poids très faibles et très élevés.Wagner (2003) a utilisé en écologie la pondération O'h = IN(h)l/n appliquée sur les ma­trices des covariances spatiales expérimentales ê(h), dans le cas où les classes N(h)forment une partition de l'ensemble des distances. On retrouve alors la matrice devariances-covariances classique E.Nous proposons aussi d'utiliser O'h = l/tr(f(h)) (pondération par l'inverse de la trace) etO'h = l/tr(f(h)f(h)) (pondération par l'inverse de la norme), pour compenser la hausse

Page 88: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

88 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

de la variabilité quand h augmente.Une dernière possibilité est d'estimer les coefficients ah de manière à optimiser un certaincritère. C'est le principe de la méthode STATIS dual (Glaçon, 1981).

3.5.2 8TATI8 dual

3.5.2.1 Principe

Dans le cas du STATIS dual de r matrices Zll' .. , Zr (Glaçon, 1981), on recherchel'objet compromis VcQ = EkakVkQ combinaison linéaire des r objets initiaux VkQ(avec V k = Z~DZk), tel que sa norme au sens du produit scalaire de Hilbert-Schmidtsoit maximale et la somme des coefficients de la combinaison linéaire soit égale à un.La recherche du vecteur a des coefficients ak peut s'exprimer mathématiquement de lafaçon suivante, si les 1rk sont des poids a priori affectés aux différents objets:

a = Argmin(L 1rklIVkQ - L a IV ,QII1rs) (3.48)Ek~=l k 1

Dans notre cas les r matrices de variogrammes r(h) peuvent être assimilées à desobjets V k et on recherche donc les coefficients ah tels que:

h r h r

a = Argmin( L 1rhllr(h)Q - L a1r(l)Qllks) (3.49)Eh Qh=l h=hl l=hl

Cela revient au STATIS dual sur le cube formé par le tableau Z répété r fois, avecchaque répétition associée à une métrique différente, égale à DhEh. On recherche doncune structure spatiale commune à toutes les classes de distance.La solution a du problème 3.49 est obtenue par la diagonalisation de la matrice nades produits scalaires entre les objets, avec a matrice diagonale des poids 1rh associés àchaque pas :

(3.50)

(3.51)Vh = hl,"" hr

Vh, h' = hl, ... , hrnh,h' = tr(r(h)Qf(h')Q)1fh'Yh

ah = hEh:hl 1fh'Yh

avec 'Y premier vecteur propre de na (Vivien, 2002). On a indiqué ici la solution avecles objets non normés mais on peut aussi les normer préalablement et utiliser donc lesobjets r(h)Q/llr(h)QIIHs.

Une fois le compromis r c calculé à l'aide des coefficients a, on peut effectuer l'étapede l'intrastructure du STATIS dual, c'est-à-dire diagonalisation de r cQ et projection dechaque f(h)Q initial sur les plans principaux obtenus.La diagonalisation de r cQ répond au problème d'optimisation suivant:

h r

min Il L ohf(h)Q - A(a)A(a)A(a)tQII~s (3.52)A(B)lQA(B}=I

h=hl

Si on définit des composantes c(a) = ZQA (a) , alors ces composantes sontE~:hl ahDhEh-orthogonales, et de norme Àa par rapport à E~:hl ahDhEh' Cela re­vient donc à l'ACP du triplet (Z, E~:hl ahDhEh, Q).

Page 89: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 89

3.5.2.2 Résultats dans le cas de la corrélation intrinsèque et de lacorégionalisation (Goulard, 1988)

Goulard (1988) a étudié une telle utilisation de STATIS dual dans le cas où uncertain modèle est respecté: d'abord un modèle de corrélation intrinsèque, puis unmodèle de corégionalisation.

Dans le cas d'un modèle de corrélation intrinsèque Î'(h) = Bg(h) (équation 2.55), ilmontre que si on utilise Q =~ = 1 et si on travaille sur les objets non normés, la matricedes produits scalaires décrivant l'interstructure s'exprime alors de la façon suivante:

n = tr(B2)vvt avec v t = (g(h l ), ... ,g(hr )) (3.53)

Cette matrice est de rang 1, avec une seule valeur propre non nulle égale à tr(B2)vtvassociée au vecteur propre normé v/Vvtv. Les coordonnées de chaque matrice devariogramme sur l'axe de l'interstructure sont alors données par vi Jtr(B2) (c'est unvariogramme), et le compromis vaut BIJtr(B2).Dans le cas où l'on utilise les objets normés, la matrice des cosinus entre matricesdécrivant l'interstructure a tous ses éléments égaux à 1, donc la représentation del'interstructure est réduite à un point, toutes les matrices de variogramme ayant lamême coordonnée.

Dans le cas d'un modèle de corégionalisation à S structures Î'(h) = 2::~=1 gu(h)Bu(équation 2.54), Goulard (1988) montre que la matrice décrivant l'interstructure (objetsnon normés) est n = VHyt, avec Vku = gu(hk), et H matrice décrivant l'interstructuredes matrices Bu non normées. L'analyse est donc équivalente à la représentation desindividus h dans l'ACP des courbes discrétisées gu(h), u = 1, ... , S avec la métrique H.Par conséquent la représentation de chaque matrice de variogramme sur le premier axede l'interstructure est une moyenne pondérée des variogrammes gu(h), la pondérationdépendant de H. C'est aussi un variogramme, que l'on peut appeler g(h). Le compromis

1 .-.vaut donc LI> g(h)2 2::h g(h)r(h).

3.5.3 Cornrnon Principal Cornponents Analysis (CornrnonPCA)

Cette méthode a été décrite dans Flury (1988) pour répondre au problème de larecherche de la meilleure approximation d'un ensemble de r matrices p x p symétriquesYI, ... ,y r' Pour cela il cherche à réaliser la diagonalisation "presque simultanée" deces matrices, par la recherche d'une matrice orthogonale A de facteurs u telle que lesmatrices utY kU soient "presque diagonales", c'est-à-dire que les carrés de leurs élémentsdiagonaux soient relativement faibles (selon un certain critère).Il est possible d'appliquer cette méthode sur les matrices de variogrammes, soit avantmodélisation soit après.

3.5.3.1 Common PCA avant modélisation

Cette approche a été proposée par Xie et al. (1995). Il applique donc la commonPCA sur les matrices de variogrammes Î'(h), h = hl'" hr • Nous ajoutons dans notre

Page 90: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

90 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

présentation l'utilisation de la métrique Q pour la pondération des variables (usuellementl'identité). Le critère minimisé est alors le suivant:

(3.54)

où les nh pour h = hl ... hr sont des poids. Ce critère mesure l'écart absolu à la "dia­gonalité". Il est de signe positif ou nul, et s'annule quand la diagonalisation simultanéeest obtenue exactement. L'algorithme utilisé pour réaliser cette minimisation est de typedes moindres carrés. A la convergence on a alors :

...... tr(h) ~ AAhA h = hl" .hr

AtQZtDhEhZQA ~ AtQAAhAtQA h = hl ... hr

Î'c(h) ~ Ah h = hl", hT (3.55)

avec Ah matrice diagonale. Cela implique que les variogrammes croisés des composantesconstituées par les colonnes de C = ZQA sont approximativement nuls à tous les pasconsidérés, et donc que ces composantes sont approximativement non corrélées spatiale­ment à tous les pas h. Les estimations au pas h des variogrammes simples des compo­santes sont quant à elles indiquées par la diagonale de Ah'Le critère 3.54 peut aussi s'exprimer de la façon suivante (Long, 1994) :

(3.56)

dans le cas où les poids nh, h = hl'" hr sont égaux à 1. Long (1994) montre que laminimisation de ce critère revient à la maximisation de :

~ p ~ p

L L IIQÎ'(h)Q(Uj ® Uj)112 = L L(ujQÎ'(h)QUj)2h==hl j==l h==hl j==l

(3.57)

où ® est le produit tensoriel. On maximise donc les produits scalaires définis avec lamétrique Q entre chaque r(h) et l'ensemble des p matrices Sj = Uj 0 Uj, qui sontsymétriques, d'ordre 1, et mutuellement orthogonales.Si 9j,j = 1, ... ,p sont les variogrammes ajustés de chaque composante, on peut établirle modèle de corégionalisation suivant (Long, 1994) :

(3.58)

où les 9j(h) sont les éléments diagonaux de Ah et chaque Sj est une matrice de rang 1semi-définie positive.

3.5.3.2 Critères d'orthogonalité spatiale

L'indépendance spatiale des composantes obtenues peut se mesurer par la faiblesserelative des éléments non diagonaux des matrices de variogramme correspondantes, par

Page 91: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 91

(3.59)

rapport aux éléments diagonaux. Cela correspond à une faiblesse relative des vario­grammes croisés entre ces composantes. Xie et al. (1995) ont proposé un coefficient pourmesurer l'efficacité de la diagonalisation simultanée de r matrices Î'(h) par une matriceorthonormale A, égal à :

""A = 1 _ '11(AI~(h), nh, h = hl hr )

'11(Iplr(h), nh, h = hl hr )

avec

(3.60)

où nh(h = hl", hr ) sont des poids. On a ""A = 0 si A = Ip • On dit que A diagonalisesimultanément Î'(hd, ... , Î'(hr ) avec l'efficacité ""A, Xie et al. (1995) suggèrent pourréférence de considérer que AtQÎ'(hdQA, ... , AtQÎ'(hr)QA sont presque tous diago­naux si ""A ~ 0.90.

Jona-Lasinio (2001) ont utilisé un critère similaire à '11, avec nh = P(P~I) et enenlevant le carré appliqué au variogramme. Il en ont proposé une distribution dansle cas où les variables sont gaussiennes, afin de définir un test statistique pour testerl'hypothèse d'indépendance spatiale.

Par la méthode de cornmon PCA, l'étude des matrices de variogrammesexpérimentaux conduit donc à l'obtention de composantes C = ZQA approximative­ment non corrélées spatialement à tous les pas h, et l'ajustement a posteriori des vario­grammes des composantes permet d'aboutir à un modèle linéaire de corégionalisation.Il est également possible de faire l'inverse et d'appliquer la méthode de common PCAaprès ajustement du modèle linéaire de corégionalisation.

(3.61)h = hl", hr

3.5.3.3 Common PCA après modélisation

Bailey & Krzanowski (2000) décrivent ainsi l'application de la méthode de cornmonPCA sur un autre ensemble de matrices, fonctions des matrices de corégionalisation, afinde chercher un ensemble de facteurs qui approximent le mieux le modèle de corrélationintrinsèque.Soit le modèle de corégionalisation suivant (en terme de variogramme) :

sr(h) = L gu(h)Bu

u=l

Ce modèle revient à un modèle de corrélation intrinsèque si toutes les matrices Bu ontles mêmes vecteurs propres et ne diffèrent que par leurs valeurs propres. Dans ce cas ona:

r(h) = g(h)I; h = hl'" hr (3.62)

c'est-à-dire que tous les variogrammes simples et croisés sont proportionnels au mêmevariogramme de base g(h).

Page 92: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

92 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Les facteurs c = Zu qui approximent le mieux le modèle de corrélation intrinsèque sontdonc solutions des équations:

Vu = 1, ... ,8 (3.63)

Soit la diagonalisation E = FFt, avec F = LVA, A étant la matrice diagonale des

valeurs propres et L la matrice des vecteurs propres normés à 1.On définit alors la matrice Qu = F-IBu(Ft)-I. Soit e le vecteur de longueur p tel queu = (Ft)-le. Alors e est solution des équations:

(Qu - Àul)e = 0 Vu = 1, ... ,8 (3.64)

La solution est obtenue par common PCA des matrices Qu, Vu = 1, ... ,8. Cette commonPCA produit des facteurs e que l'on range dans la matrice E, tels que:

Vu= 1, ... ,8 (3.65)

avec EtE = 1.On peut donc écrire la matrice des variogrammes des composantes C = Zu = Z(Ft)-lEobtenues:

rc(h) = EtF-II'(h)(Ft)-IEs

=L 9u(h)EtF- IB u(Ft)-IEu=ls

= L9u(h)EtQuEu=ls

~ L 9u(h)EtEAuEtEu=ls

~ L9u(h)Auu=l

(3.66)

C'est donc une matrice diagonale. Les composantes C sont donc approximativement noncorrélées spatialement à tous les pas h, c'est-à-dire que leurs variogrammes croisés sontapproximativement nuls, et peuvent donc être estimées indépendamment par krigeage.

3.5.4 TSVD

Dans la même optique que Xie et al. (1995) au paragraphe 3.5.3.1, Long (1994) a pro­posé l'application d'une méthode d'analyse multi-tableau appelée TSVD (Tensor Singu­lar Value Decomposition), qu'il utilise pour analyser les matrices f(h), h = hl ... hr à laplace de la common PCA. On rappelle que le critère minimisé par la common PCA peuts'exprimer également comme la maximisation du critère 3.57. A la place de ce critère, laméthode TSVD utilise la maximisation de :

L 1IÎ'(h)(Qu ® Qu)11 2 = L(ut Qf(h)QU)2h h

(3.67)

Page 93: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 93

Une première maximisation permet de trouver la première composante UI, puis on re­cherche U2 orthogonale à UI, et ainsi de suite jusqu'à l'obtention de la matrice A.Les deux approches de common PCA et TSVD sont décrites comme similaires, mais alorsque la common PCA va sacrifier du poids sur la première composante afin d'avoir unemeilleure deuxième composante, la méthode TSVD va aboutir à un poids maximal donnéà la première composante. La méthode TSVD va donc donner de meilleurs résultats pourun processus multivarié à une seule structure de corégionalisation, tandis que la commonPCA est plus adaptée en présence de plusieurs structures (Long, 1994).

3.5.5 L'analyse krigeante

L'analyse krigeante (Matheron, 1982; Wackernagel, 1998; Arnaud et al., 2001) estune technique d'analyse spatiale multivariée basée directement sur le modèle linéaire decorégionalisation présenté au paragraphe 2.2.2.4. Elle se rencontre sous d'autres nomsnotamment "factorial kriging analysis" (Goovaerts, 1992) ou "regionalized principalcomponent analysis" (Wackernagel, 1998).Le préalable à la méthode est l'estimation des matrices de variogramme par le modèlelinéaire de corégionalisation. Les matrices de corégionalisation obtenues sont alorsdiagonalisées, dans le but de réaliser une décomposition de type factorielle des fonctionsaléatoires, les composantes obtenues se distinguant par des structures spatiales fixées. Laméthode permet donc d'isoler des sources de variation agissant à des échelles spatialesdifférentes et avec des structures de corrélation différentes. Dans une dernière étape onpeut réaliser l'estimation par cokrigeage des composantes en chaque point de l'espaceconsidéré (Arnaud et al., 2001).La description de la méthode se limitera au cadre stationnaire de second ordre, sachantque tous les résultats s'étendent sans difficulté au cadre intrinsèque (voir pour cela parexemple Arnaud et al. (2001)).

On considère que les variables de Z obéissent au modèle de corégionalisation linéairesuivant (en terme de variogramme) :

sr(h) = ~ 9u(h)Bu

u=I

(3.68)

L'analyse krigeante consiste à réaliser la diagonalisation de chaque matrice Bu, ce quiproduit des facteurs Au tels que A~Au = Ip et Bu = AuAuA~. Pour chaque structureU, on obtient donc un certain nombre de composantes spatiales Cu = ZAu, qui sontassociées chacune à une valeur propre ,\; mesurant leur importance. On ne retient quecelles d'importance la plus élevée.

La justification théorique de la méthode est la suivante (dans le cadre stationnaire desecond ordre) :On considère que les colonnes de Z sont p fonctions aléatoires Zj(x) stationnaires conjoin­tement du second ordre, obéissant à un modèle linéaire de corégionalisation composé de

Page 94: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

94 Chap. 3. Méthodes d'analyse de données multivariées spatialisées

\-1'" 1vJ,J = ,... ,p,

S variogrammes de base gu, que l'on prend par convention de palier unité:

s'v'h E ]R2, 'Yjj,(h) = Lbjj,gu(h)

u=l

(3.69)

L'analyse krigeante consiste à décomposer dans un premier temps chaque fonction Zj(x)prise indépendamment en un ensemble de composantes spatiales Zj(x), u = 1... S, spa­tialement non corrélées et dont les variogrammes sont proportionnels aux variogrammesde base gu(h) :

s'v'j = 1, ... ,p, 'v'x E D, Zj(x) = L Zj(x)

u=l

avec 'Yz;(h) = bjjgu(h).

(3.70)

Chaque structure u représente une certaine échelle du phénomène. Pour chacune onremarque que les p fonctions aléatoires Zf(x) ... Z;(x) sont en corrélation intrinsèque,c'est-à-dire que leurs variogrammes sont proportionnels au même variogramme gu(h). Onpeut donc les décomposer en composantes spatiales YdU(x) non corrélées spatialement etde même variogramme gu(h) (cette décomposition étant complètement conventionnelle,Chauvet (1999)) :

p

'v'j = 1, ... ,p, 'v'x E D, Zj(x) = La~dYdU(X)d=l

D'où, en combinant les deux décompositions 3.70 et 3.71 on obtient:

S p

'v'j = 1, ... ,p, 'v'x E D, Zj(x) = L L a~dYdU(X)u=l d=l

Le rapprochement entre les équations 3.69 et 3.72 conduit à la relation suivante:

(3.71)

(3.72)

\-1'" 1vJ,J = , ... ,p, (3.73)

l'indice u étant supposé fixé.Les Y;(x) peuvent donc être obtenus par ACP de la matrice Bu des bjj, :

'v'x E D, [0\fY1U(x), ... ,~~U(x)] = [(Zf(x), ... , Z;(x)] Au (3.74)

où Au est la matrice orthogonale des vecteurs propres de Bu et Au = diag(.x~, ... , .x;)est la matrice diagonale des valeurs propres associées :

(3.75)

Les composantes Ydu correspondent ainsi aux composantes Cu définies précédemment.

Les composantes Cu sont spatialement non corrélées aux composantes d'uneautre structure Cu" par contre pour une même structure u les composantes sont

Page 95: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.5 Etudes des matrices de variog. et/ou de covariance 95

orthogonales statistiquement mais pas spatialement. L'estimation des différentescomposantes d'une structure nécessite donc l'utilisation du cokrigeage et ne peut passe réaliser par krigeage séparé. La difficulté de la méthode réside dans le choix initialdes structures et dans l'estimation des matrices de corégionalisation Bu qui peut êtreréalisée par l'algorithme des moindres carrés pondérés décrit par Goulard & Voltz (1992).

Il est aussi possible de faire l'analyse des matrices Bu par rapport à la métriqueconstituée par la matrice de variance covariance ~. Les facteurs sont alors obtenus parla diagonalisation de ~-1Bu. Ils représentent le contraste entre la structure de covarianceglobale représentée par ~ et celle à une échelle spatiale particulière représentée par Bu(Bailey & Krzanowski, 2000). Cela revient à appliquer la méthode des MAF sur lesmatrices de corégionalisation.

Page 96: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

96

3.6

Chap. 3. Méthodes d'analyse de données multivariées spatialisées

Synthèse

Dans cette partie nous proposons un résumé sous forme de tableaux de la plupart desméthodes présentées dans ce chapitre. Ces tableaux ne sont pas exhaustifs car certainesméthodes sont difficilement classables.

Le tableau 3.1 propose un classement en fonction du moment de la modélisation,et du nombre de pas ou de structures considérés. L'avantage du travail sur les matricesexpérimentales est qu'il n'y a pas besoin d'effectuer le travail de modélisation qui devientlourd quand le nombre de variables est élevé. Si l'on désire réaliser l'estimation parkrigeage ou cokrigeage des composantes obtenues, celles-ci seront en nombre inférieur auxvariables et l'ajustement sera plus facile. De plus, certaines méthodes comme la commonPCA permettent d'obtenir des composantes orthogonales spatialement à tous les pas,et donc de modéliser les variogrammes croisés par des variogrammes nuls. L'estimationpar krigeage séparé des composantes est alors possible. Un des inconvénients de cetteapproche d'estimation des composantes est qu'il est difficile de revenir à l'estimationdes variables de départ. La méthode AMAF est une solution possible pour pallier à cetinconvénient, mais seulement dans le cas où l'on modélise deux structures emboîtées.Les analyses basées sur les matrices après ajustement permettent de ne considérer queles variations dues au modèle choisi, et donc d'enlever du bruit.

Nombre de pas r r=l r=2 r>2

ACP locale (3.2) Common PCA (3.5.3.1)Modélisation a posteriori

ACP globale (3.2) Capobianchi (3.5.1)des variogrammes oucovariances spatiales MAF (3.3.1) MAF (3.3.4) TSVD (3.5.4)

STATIS dual (3.5.2)

ACP vario. discrétisés (3.4)

Nombre de structures 8=1 8=2 8>28

Modélisation a priori des Analyse krigeante (3.5.5) Common PCA (3.5.3.3)

variogrammes ou MAF (3.3.1) ACP vario. discrétisés (3.4)covariances spatiales

TAB. 3.1- Classification des méthodes en fonction du moment de la modélisation et du nombre considéréde pas ou de structures. On a indiqué entre parenthèses le numéro du paragraphe correspondant.

Le tableau 3.2 propose une comparaison des méthodes en fonction des critères opti­misés, des matrices éventuellement diagonalisées, et de l'orthogonalité des composantesobtenues. On rappelle que l'on analyse un tableau Z de dimensions n x p, associéaux métriques D = ~In et Q, et centré en colonnes par rapport à D. La matrice descovariances spatiales expérimentales au pas h est donnée par ê(h), et celle des vario­grammes expérimentaux par f(h). :E est la matrice des variances-covariances classiquepar rapport à D. Dans le cas où l'on utilise un modèle linéaire de corégionalisation à Sstructures, celui -ci s'écrit f(h) = E~=l Bugu(h).

Page 97: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

3.6 Synthèse 97

On recherche des facteurs u de longueur p, rangés dans une matrice A, et associés à descomposantes c de longueur n, rangées dans une matrice C = ZQA. Ces composantessont optimales suivant un certain critère (indiqué dans la deuxième colonne), et sontorthogonales suivant une certaine matrice (indiquée dans la quatrième colonne). Quandl'obtention des facteurs se résout par une simple diagonalisation, nous avons indiqué lamatrice diagonalisée dans la troisième colonne. Dans le cas de la méthode de CommonPCA et de TSVD, la résolution se fait par un algorithme et ne peut se résumer à unesimple diagonalisation.

Certaines méthodes n'ont pas été classées dans ce tableau parce qu'elles ne pouvaientpas s'y intégrer facilement. Il s'agit des méthodes basées sur la distance euclidienne (AST,PCNM, ACPVI par rapport à un modèle), et de l'analyse des variogrammes discrétisés.On remarque que l'on a choisi d'exprimer toutes les méthodes en fonction du vario­gramme et de la covariance spatiale, en particulier les analyses locales et globales, quis'expriment classiquement en fonction des opérateurs de voisinage. Nous nous sommesplacés dans le cas du centrage par rapport à D justement pour avoir le lien entre l'analyseglobale et la matrice ê(h).On souligne enfin que l'on a intégré la métrique Q dans la formulation de toutes lesméthodes, même quand notre description initiale ne l'intégrait pas, et ce afin de pouvoirfaciliter les comparaisons.

Page 98: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

NomCritère d'obtention des Matrice

.L des C § Référence(s)facteurs diagonalisée

ACP locale max utQÎ'(h)Qu Î'(h)Q DhEh 3.2.2 Méot et al. (1993)u'Qu=l

Wartenberg (1985);

ACP globale max utQê(h)Qu ê(h)Q Ph = Mb. 3.2.2 Chessel & Sabatieru'Qu=l m (1994); Thioulouse

et al. (1995)

maxutQê(h)Qu

u'Eu=l utEu E-lê(h)Q ou Switzer & GreenMAF (1 seul pas) ou E-lÎ'(h)Q D et DhEh 3.3 (1984) et autresutQÎ'(h)Qu

max utEuu'Eu=l

h.U~~~l L utQÎ'(h)Qu

Capobianchi &Etude de la somme h=hl hO' h. Lasinio (1998);des matrices de ou L Î'(h)Q L DhEh 3.5.1

Jona-Lasînio &variogrammes hO' h=hl h=hl Mancu80 (2001)

min Il L Î'(h)Q - AAAt QII 2

A'QA=I h=hl

TAB. 3.2: Comparaison des méthodes en fonction du critère opti­misé, de la matrice éventuellement diagonalisée et de l'orthogona­lité des composantes obtenues (suite page suivante).

~.

Page 99: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

NomCritère d'obtention des Matrice

.l des C § Référence(s)facteurs diagonalisée

h~

max L ahutQI'(h)Quu'Qu=l h=h1

ou

h~ h~ h~

STATIS dual min Il L ahl'(h)Q-AAAtQW L l'(h)Q L ahDhEh 3.5.2 Goulard (1988)des matrices A'QA=I h=h1

de variogrammesh=h1 h=h1

avec a solution de

h~ h~

min_ L IIr(h)Q- L alr(I)QIIEh Qh-

1h=hl l=h1

h~ p

rna~ L L(u~QI'(h)Qui)2u Qu-1 h h .

Common PCA des = 11=1 DhEh Long (1994); Xie etmatrices de ou aucune (approx.), 3.5.3.1

al. (1995)variogrammes Vh = h1, ... ,hr

h~

min L III'(h)Q - AAhAtQII2A'QA=I

h=h1

h~ DhEhTSVD uPc5~~l L (utQI'(h)Qu)2 aucune (approx.), 3.5.4 Long (1994)

h=h1 Vh = hl,'" ,hr

TAB. 3.2: Comparaison des méthodes en fonction du critère opti­misé, de la matrice éventuellement diagonalisée et de l'orthogona­lité des composantes obtenues (suite page suivante).

Page 100: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

NomCritère d'obtention des Matrice

.1 des C § Référence(s)facteurs diagonalisée

Cornmon PCA des smatrices de min L IIQuQ - EAuE tQII2 DhEh Bailey &variogrammes E'QE=lu=1 aucune (approx.), 3.5.3.3

Krzanowski (2000)Yb = hl,'" ,hraprès modélisation

avec A = (Ft)-IE, E = FF t etQu = F-IBu(Ft)-1

max utQB..QuMatheron (1982);u'Qu=1

Analyse krigeante ou B ..Q D 3.5.5 Wackernagel(1998); Arnaud et

min IIB..Q - AAu A t QII 2al. (2001)A'QA=I

TAB. 3.2: Comparnison des méthodes en fonction du critère opti­misé, de la matrice éventuellement diagonalisée et de l'orthogona­lité des composantes obtenues.

Page 101: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chapitre 4

Méthode d'analyse sur composantesspatialisées et applications

Dans ce chapitre nous présentons une méthode que nous avons développée et quimélange ACP et géostatistique. Il s'agit de l'analyse sur composantes spatialisées, quenous avons appelée par le terme SCM (Spatialized Component Method) en référence à lapublication de Sicard et al. (2002). Comme indiqué en introduction, cette analyse reposesur la définition de nouveaux critères, différents de ceux que l'on a vus dans la partieprécédente. Il s'agit en effet de critères originaux d'ajustement entre le variogrammeexpérimental de la composante recherchée et un certain variogramme théorique. Nousprésentons ici un développement de la présentation effectuée dans le rapport de stage deDEA de Sicard (2001). Nous considérons en particulier les questions relatives au choixdu critère, aux algorithmes d'optimisation et à leur convergence, et enfin au calcul descomposantes suivantes. Nous distinguons deux cas, suivant que les paramètres du va­riogramme théorique sont supposés constants ou sont estimés en même temps que lacomposante.Nous présentons ensuite trois variantes de la méthode d'analyse sur composantes spa­tialisées. La première permet de compléter une méthode que nous avons présentée dansle chapitre précédent: il s'agit de l'ACP de la matrice des variogrammes discrétisés, quiproduit une composante qui peut être assimilée à un variogramme. Nous appliquons laSCM afin de chercher une combinaison linéaire des variables qui s'ajuste au mieux àce variogramme. La deuxième variante est une extension de la SCM au cas où l'on uti­lise plusieurs modèles de variogrammes théoriques au lieu d'un seul. Enfin la troisièmevariante est une extension au cas où l'on considère plusieurs tableaux Zk' Dans ce cason recherche une composante par tableau, de façon à ce qu'elles s'ajustent toutes à unmodèle de variogramme théorique commun.Enfin nous exposons dans une dernière partie les applications pratiques des méthodesd'analyse spatiale multivariée, sur les données du Brésil présentées dans le chapitre l.Nous utilisons en particulier le tableau compromis calculé en synthétisant les différentesannées de mesure. Les méthodes appliquées sont tout d'abord quelques méthodes du cha­pitre 3: il s'agit des analyses locales et globales, de la méthode des MAF, et de la diagona­lisation de diverses combinaisons linéaires des matrices des variogrammes expérimentaux.Après ces analyses préliminaires nous présentons les résultats de la SCM et de ses va­riantes. On note que l'application de la SCM sur les données du Brésil a fait l'objet d'unepublication (Sicard et al., 2002).

Page 102: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

102 Chap. 4. SCM et applications

4.1 Méthode d'analyse sur composantes spatia­lisées : généralités

Le principe de la méthode d'analyse sur composantes spatialisées est de réduire ladimension des données en utilisant un critère d'ajustement à un certain variogrammepour tous les pas h considérés. On recherche donc une composante c = ZQu telle queson variogramme 1c(h) = ctDhEhC soit le plus proche possible pour tous les h d'unmodèle de variogramme théorique 'Ys(h) de paramètres 8. Les paramètres 8 peuvent êtrefixés a priori ou estimés en même temps que les facteurs u. On appelle la méthode à 8constant SCMu et la méthode à 8 variable SCMu8. Des composantes suivantes peuventêtre définies sur le même critère sous une certaine contrainte d'orthogonalité, l'objectifétant d'obtenir un ensemble de composantes qui résume au mieux le processus spatialmultivarié à tous les h.Pour la suite nous supposerons pour simplifier l'isotropie du processus, et nousconsidèrerons donc seulement les normes h des vecteurs de distance.

Nous avons déjà décrit une méthode développée pour répondre à un problème simi­laire. Ainsi nous avons vu au paragraphe 3.1.2 la méthode d'ACPVI par rapport à unmodèle de covariance, proposée par Goulard (1988). Cette méthode permet d'obtenir unecomposante dont la fonction de covariance se rapproche du modèle choisi par rapport àun certain critère. Cependant elle est limitée au cas d'une grille de points régulière, et lecritère d'ajustement ne peut pas s'exprimer en fonction de ê(h).Cette méthode ayant donc des inconvénients nous nous sommes tournés vers une méthodebasée sur la définition d'un critère parfaitement défini d'ajustement au variogrammethéorique, ce critère étant de type des moindres carrés. Cette approche a été déjà pro­posée par Bailey & Krzanowski (2000) sur des fonctions d'autocorrélation spatiale, etpar Cornillon & Sabatier (1999) sur des fonctions de variogrammes, mais dans les deuxcas peu de développements ont été réalisés. Nous développons ici la méthode en terme devariogramme en précisant les cas 8 constant et 8 variable, en comparant différents critèreset en fournissant les gradients et les matrices du Hessien afin d'étudier la convergencede nos algorithmes.

4.1.1 Nature du critère

Dans le cas où 8 est constant, le problème est comparable à celui de l'estimationdes coefficients du variogramme théorique pour une variable fixée. Dans chaque cas oncherche à minimiser l'écart entre deux ensembles de points, théoriques et expérimentaux,mais dans un cas c'est la courbe théorique qui change et dans l'autre cas ce sont les pointsexpérimentaux. Il est donc naturel de reprendre les critères d'ajustement existant pourl'estimation des coefficients 8. On a vu au paragraphe 2.2.1.5 que cette estimation sefaisait principalement par maximum de vraisemblance et par estimation des moindrescarrés. Nous avons choisi d'utiliser l'approche des moindres carrés qui est la plus simpleet nécessite moins d'hypothèses.Le critère le plus simple est celui des moindres carrés ordinaires de l'équation 2.28. Ilest aussi possible d'ajouter une pondération sur les h. Cressie (1991) a ainsi proposé

Page 103: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.1 seM: généralités

d'utiliser le critère suivant:

103

(4.1)L 'N(~ld ['Yu(h) - 'Y0(h)]2h 'Yo

La multiplication par IN(h)1 permet de privilégier l'ajustement pour les classes dedistances contenant beaucoup de points, et la division par 'Y0(h)2 permet de privilégierles faibles distances. Nous avons choisi de conserver ce critère.

Dans le cas où (J est variable, le problème est un peu différent car les deux courbes quel'on cherche à rapprocher bougent en même temps. Or, à chaque itération de l'algorithme,si (J bouge alors la hauteur du variogramme théorique de référence bouge aussi et lecritère de chaque itération n'est plus comparable. Il parait donc nécessaire d'utiliser uncritère relatif. Il y a plusieurs façons de construire un tel critère. On peut choisir dediviser le critère absolu par le variogramme théorique ou le variogramme expérimental,et on peut mettre cette division à l'intérieur de la sommation sur h ou à l'extérieur (ondivise alors par le variogramme cumulé). Le tableau 4.1 résume les différents critèrescorrespondants. Tous les critères sont susceptibles de donner des résultats différents. Ilsrésultent d'un compromis entre l'écart courbe expérimentale / courbe théorique et lahauteur du variogramme théorique.

4.1.2 Choix du modèle de variogramme et de ses coefficients

Un autre problème soulevé par la méthode est le choix du modèle de variogrammethéorique à utiliser pour l'ajustement, ainsi que de ses coefficients quand on choisit deréaliser l'ajustement à (J constant.Une possibilité est de choisir le modèle de variogramme théorique résultant de l'ajus­tement de la première composante de l'ACP, qui est celle qui capture le maximum devariabilité sans tenir compte des proximités spatiales. On peut aussi utiliser le modèlede la composante résultant d'une analyse spatiale à un pas h donné.Le choix des paramètres (J est plus difficile. En effet ils permettent de déterminer la"hauteur" du variogramme de la composante recherchée. L'utilisation des paramètresajustés sur le variogramme d'une composante donnée a peu de sens car même si onutilise un critère des moindres carrés légèrement différent pour les deux ajustements(d'abord (J puis u), la composante après ajustement de u ne sera pas très différentede celle sur laquelle on a ajusté les (J car celle-ci sera déjà très proche de l'optimum.La différence constatée ne sera due qu'à l'utilisation d'algorithmes de convergencedifférents. Il est donc nécessaire d'utiliser l'information a priori dont on dispose sur leprocessus spatial multivarié. L'ajustement prend alors tout son intérêt et permet alorsde déterminer la composante qui a une certaine portée, un certain effet pépite et uncertain palier.Dans le cas où l'on ajuste les paramètres (J en même temps que u, ce problème nese pose pas et il faut juste prendre plusieurs points de départ pour vérifier que l'onconverge à chaque fois vers le même point.

On rajoute une remarque sur les pas h considérés. Dans le cas d'une grille régulière,chaque classe contient des couples de points tous séparés par une distance identique h.

Page 104: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

104 Chap. 4. SCM et applications

Critère Nom

L [9u(h) - 'Ye(h)]2 'li 1

h

L IN(h)1 [9u(h) - 'Ye(h)]2 'li2

h

L IN(~jJ [9u(h) - 'Ye(h)]2 'lish 'Ye

L IN(h)1 ~ 2 'li4~ (h)2 bu(h) - 'Ye(h)]h 'Yu

Eh IN(h)1 [9u(h) - 'Ye(h)]2 'lisEh IN(h)l'Ye(h)2

Eh IN(h)1 [9u(h) - 'Ye(h)]2 'li6Eh IN(h)19u(h)2

TAB. 4.1 - Différents critères permettant de mesurer l'ajustement entre le variogramme expérimental etle variogramme théorique (non exhaustifJ.

Page 105: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.1 seM : généralités 105

On ajuste donc chaque point expérimental9u(h) au variogramme théorique 'Yo(h) évaluéà la même distance. Par contre, dans le cas d'une grille non régulière, chaque classe estalors un mélange de multiples distances. Il est donc nécessaire de choisir une distanceh à laquelle évaluer le variogramme théorique. Nous avons choisi de prendre h commeétant la moyenne arithmétique de toutes les distances de la classe.

4.1.3 Obtention des composantes suivantes

Dans tous les cas, pour obtenir la composante suivante C2, on propose comme l'ont faitBailey & Krzanowski (2000) de projeter le tableau Z = Z(l) sur la première composanteobtenue Cl en utilisant la métrique D, et de recommencer l'ajustement sur le résiduZ(2) de la projection, en utilisant si nécessaire un autre modèle de variogramme : Z(2) =(In - PCI)Z{I), avec P CI = cI(c~DcI)-IC~D, projecteur D-orthogonal sur Cl. Alors quelque soit U2 appartenant à ]RP, si C2 = Z(2)QU2 alors C~C2 = o. En recommençant lamême procédure plusieurs fois on obtient une décomposition en composantes toutesorthogonales entre elles. On remarque qu'il n'y a aucune orthogonalité spatiale entre lescomposantes obtenues, et aucune orthogonalité particulière entre les facteurs u successifs.On pourrait prendre d'autres critères d'orthogonalité pour les composantes successives.Par exemple, en s'inspirant de la méthode de diagonalisation de la somme des matricesde variogrammes du paragraphe 3.5.1, on peut proposer d'utiliser à la place du projecteurpar rapport à la métrique D celui par rapport à la métrique Eh DhEh. Les composantessuccessives auront alors des variogrammes croisés dont la somme sur h sera nulle.Un résumé de la procédure est indiqué dans le tableau 4.2 dans le cas où () est constant.La procédure pour () variable est similaire mais en rajoutant () dans les paramètres ajustéspar l'algorithme de convergence.

Etape 0

Etape 1

Etape 2

Etape 3

Etape 5

i = 1 j Z{i) = Z.

Initialisation: choix du modèle de variogramme 'Yo etde ses paramètres () j choix d'un vecteur Uo initial delongueur p et de norme 1

lancement de l'algorithme de convergence, qui renvoieune solution Ui.

Calcul de Ci = Z{i)QUi, et du tableauZ{i+l) = (In - P cJZ{i).

Si i = A fin, sinon i = i + 1 et revenir à l'étape 1.

TAB. 4.2 - Résumé de la procédure pour l'obtention de A composantes, avec 0 constant.

Page 106: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

106

4.2

Chap. 4. SCM et applications

Ajustement itératif de u dans la SCMu

(4.2)

(4.3)

Le critère choisi est le critère des moindres carrés 4.1, c'est-à-dire que nous voulonsminimiser la fonction objectif:

"IN(h)1 __ 2W3(U) = 7 10(h)2 [1u(h) -10(h)]

sous la contrainte: utQu = 1. Nous supposons par la suite Q = Ip pour simplifierles notations. On peut montrer que cette fonction objectif est non convexe et que l'oncherche un minimum dans un espace non convexe, on ne peut donc pas garantir a prioril'obtention d'un minimum global.On peut faire une remarque sur le nombre de pas h considérés. En effet si r + 1 estsupérieur au nombre de paramètres inconnus (soit p) alors le problème d'annulation dela fonction objectif est un système d'équation sur-déterminé, et il n'est en généralementpas possible d'obtenir une solution exacte (on rajoute 1 à r à cause de la contrainte).La minimisation de l'objectif ne peut donc pas conduire à son annulation. Par contre, sir + 1 = p, alors le système d'équation est bien déterminé, et une solution exacte peutêtre attendue. Enfin, si r + 1 < p, alors l'annulation de la fonction objectif peut avoirplusieurs solutions (Fletcher, 1981a). Nous nous plaçons dans le cas où r + 1 > p.

4.2.1 Tentative d'algorithme de relaxation basé sur le Lagran­gien

Une possibilité pour réaliser la minimisation sous contraintes du critère 4.1 est derechercher les points stationnaires du Lagrangien correspondant :

.c(u,.-\) = L IN(~1d [9u(h) - 10(h)]2 - .-\(utu - 1)h 10

avec .-\ multiplicateur de Lagrange associé à la contrainte utu = 1. Le système d'équationsfourni par l'annulation des dérivées partielles de ce Lagrangien est le suivant:

ô.c(u, .-\) = " IN(h)1 4 [-- (h) _ (h)] r(h) - 2.-\ôu L, (h)2 1u 10 u U

h 10ô.c(u, .-\) _ 1 _ t

Ô.-\ - uu

D'où:

=0

=0

(4.4)

(4.5)

(4.7)

(4.6)u = ~ L IN(~1212 [9u(h) -10(h)] r(h)uh 10

À =~ ':.<~i~ 2 Fiu(h) - 'Y.(h)] "Iu(h)

On remarque donc que .-\ n'est pas égal à la quantité minimisée, et peut prendre desvaleurs négatives. Ce système nous a inspiré l'algorithme de relaxation du tableau 4.3.Cependant cet algorithme n'est pas convergent. Pour r ~ p + 1, .-\ oscille entre deux

Page 107: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.2 Ajustement itératif de u dans la SCMu 107

valeurs. Pour r > p il oscille aussi mais l'amplitude de l'oscillation diminue au fil desitérations, avec des moments où elle remonte brusquement (figure 4.1).Nous avons donc choisi de procéder différemment, en réalisant une reparamétrisation denotre fonction, de façon à transformer notre problème en une minimisation sans aucunecontraint@,et en choisissant un algorithme de résolution numérique par la fonction nlminbde S-Plus c

.

Etape 0

Etape 1

Etape 2

Etape 3

Initialisation: choix du modèle de variogramme "18 etde ses paramètres (); choix d'un vecteur Uo initial delongueur p et de norme 1, et d'un paramètre Ào.

Calcul du nouveau À à partir de l'équation 4.7.

Calcul du nouveau u à partir de l'équation 4.6.

Si (critère d'arrêt) fin, sinon revenir à l'étape 1.

(4.8)

TAB. 4.3 - Algorithme de relaxation proposé pour la résolution de l'optimisation du Lagrangien 4.3.

100 20CI a» 400 !IOO

itérations

FIG. 4.1 - Exemple de comportement de l'algorithme de relaxation 4.3 pour h > p : oscillations de lafonction objectif.

4.2.2 Reparamétrisation du problème

On pose v = ~. Alors v est automatiquement normé à 1 et la minimisation devu·u

obj(v) peut se faire sans rajout de contrainte (Fletcher, 1981b). Nous considérons doncla nouvelle fonction objectif suivante:

\li' (u) = \lI 3 (v) = '" IN(h) 1 [9u (h) _ 'Y8(h)] 23 L.: 'Y8(h)2 utu

Cette nouvelle fonction a été minimisée en utilisant la fonction nlminb de S-Plus©.C'est une fonction de minimisation non linéaire, qui permet de minimiser une fonction

Page 108: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

108 Chap. 4. SCM et applications

dérivable au moins deux fois sur l'intervalle considéré. Elle a été intégrée dans une bouclepermettant de la relancer si elle n'aboutit pas à la convergence. La fonction correspon­dante a été mise dans l'annexe 4.L'introduction du gradient et du Hessien de la fonction à minimiser permet d'augmenterla vitesse de convergence de nlminb. Si le gradient n'est pas fourni, la fonction effec­tue une approximation par la méthode de quasi-Newton. Pour augmenter la vitesse deconvergence nous avons donc recherché les expressions du vecteur de gradient et de lamatrice du Hessien:

a\{1~(u) = "2 IN(h)1 [9u(h) _ 'YB(h)] [2r(h)U _ 29u(h)U] (4.9)8u L.: 'Y(J(h)2 utu utu (UtU)2

B2\lJ~(u) =8" IN(h)1 [r(h)u _ 9u(h)U] [r(h)U _ 9u(h)U] t

8uut L.: 'Y(J(h)2 utu (UtU)2 utu (utu)2

+4 '" IN(h)1 [9u(h) _ 'YB(h)] [r(h) _ 4 r(h)uut + 49u(h)uu

t_ 9u(h)I]

L- rB(h)2 utu utu (utu)2 (UtU)3 (utu)2h

=1lu (4.10)

L'ajustement par la fonction nlminb, contrairement à notre algorithme de relaxation, aconvergé pour toutes nos tentatives, vers un minimum. L'obtention de ce minimum esttrès peu dépendante du point de départ utilisé: on a constaté que 2 points de départdifférents étaient suffisants pour être sûr d'atteindre le minimum global supposé. Nousnous sommes donc demandé s'il est possible de garantir l'existence d'un minimum pournotre problème. Nous avons pour cela étudié plus précisément la matrice du Hessien.

4.2.3 Etude de la positivité de la matrice du Hessien à laconvergence

Afin de voir s'il est possible de démontrer que les points stationnaires de la fonction4.8 correspondent à un minimum, nous avons étudié la positivité de la matrice du Hes­sien à la convergence. Pour simplifier les notations nous avons enlevé dans cette partieles termes (h), en remplaçant donc r(h) par r, 9u(h) par 9u, et 'YB(h) par 'YB.Soit u· point stationnaire de la fonction 4.8. Il vérifie donc l'équation suivante, corres­pondant à l'annulation du gradient 4.9, en posant ~~(:N = a :

Soit, en post-multipliant par 4u·tju·tu· :

Page 109: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.2 Ajustement itératif de u dans la SCMu 109

D'autre part, si on développe l'expression de la matrice du Hessien 4.10 en posant ':((~lJ =a:

(4.12)

Les termes de cette équation avec une accolade s'annulent car ils correspondent àl'équation normale 4.11.Soit un vecteur w quelconque de JRP. Etudions le signe de w t1lu.w :

(4.13)

Le premier terme est forcément positif ou nul, par contre on ne peut rien dire sur ledeuxième qui peut être négatif. Si le signe de ce dernier terme est indéfini, on peut parcontre en trouver une interprétation simple. En effet dans le cas où ce terme est positifou nul et où donc la condition nécessaire d'obtention d'un minimum est satisfaite, celaveut dire que les termes (Jr~. - 1'8) et (.2~ - u1r~.) sont globalement du même signesur tous les h, et donc que le variogramme de w normé est globalement plus éloigné duvariogramme théorique que celui de u* normé.Nous ne pouvons donc pas garantir l'obtention d'un minimum, il est donc nécessairede vérifier la positivité de la matrice du Hessien aux points stationnaires obtenus aprèsapplication de l'algorithme d'optimisation. Cependant en pratique nous en avons toujourstrouvé un.

Page 110: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

(4.14)

110 Chap. 4. SCM et applications

4.3 Ajustement itératif de u et () dans la SCMu()

Au lieu d'ajuster uniquement les coefficients u de la composante, nous ajustons main­tenant à la fois u et (), coefficients du variogramme théorique. On suppose que r+no > p,avec no longueur de (). Nous avons vu que de nombreux critères pour réaliser cet ajus­tement étaient possibles. Nous considérons plus précisément les critères WI, W2' W3 etws.

4.3.1 Critère 'li3

Nous considérons tout d'abord le critère utilisé dans la SCMu, c'est-à-dire le critère W3du tableau 4.1, et plus précisément sa version w~ correspondant à sa reparamétrisation.L'objectif considéré est donc identique à celui de l'équation 4.8, mais il est maintenantfonction à la fois de u et de () :

W' (u,()) = '" IN(h)1 [9u(h) _ 'Yo(h)]2

3 L.J 'Yo(h)2 utuh

Cette fonction est minimisée en utilisant de nouveau la fonction nlminb. Les contrainteséventuelles de bornes inférieures et/ou supérieures pour les paramètres () sont mises enentrée de la fonction (par exemple: paramètre de pépite positif ou nul), ainsi que lesfonctions de gradient et de Hessien. Leurs expressions sont données par les formulessuivantes.Pour le gradient :

8w~(u, ()) = '" 4IN(h)1 [9u(h) _ 'Yo(h)] [r(h)U _ 9u(h)U] (4.15)au L.J 'YO(h)2 utu utu (utu)2

h

8w~(u, ()) = _~ 2IN(h) l'Do(h) 9u(h) [9u(h) _ 'Yo(h)] (4.16)8() L- 'YO(h)3 utu utu )

h

Pour le Hessien :

8w~(u,()) = 8~ IN(h)1 [r(h)u _ 9u(h)U] [r(h)u _ 9u(h)U]t8uut L- 'Yo(h)2 utu (UtU)2 utu (UtU)2

h

+ 4~ IN(h)\ [9u(h) _ 'Yo(h)] [r(h) _ 4 r(h)uut + 49u(h)uu

t_ 9u(h)I]

L- 'Yo(h)2 utu utu (utu)2 (UtU)3 (utu)2h

(4.17)

8w~(u, ()) =~ 4IN(h)l'Do(h) [1 _ 2 9u(h) ] [r(h)u _ 9u(h)U] t (4.18)8()ut L- 'Yo(h)2 'Yo(h)utu utu (utu)2

h

8w~(u, ()) = _L 2 IN(h)1 9u(h)2 [1lo(h) _ 3'Do(h)'Do(h)t]8()()t h 'Yo(h)2 (utu)2 'Yo(h) 'Yo(h)2

+L 2IN(h)19u(h) [1io(h) - 2'Do(h)'Do(h)t] (4.19)h 'YO(h)2 (utu) 'Yo(h)

'Do(h) est le vecteur des dérivées premières de 'Yo(h) par rapport à (), et 1io(h) la matricedes dérivées secondes. Donnons les expressions de 'Do(h) et 1io(h) dans le cas de quelques

Page 111: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.3 Ajustement itératif de u et (J dans la SCMu(J 111

modèles de variogramme.Pour un modèle de variogramme cubique, et h ~ (J2 :

h2 h3 hS h7

'"'f(J(h) = (JI + (J3(7 (J2 - 35 4(J3 + 72(Js - 34

(J7)2 222

1)(J(h) = [(J3(-14~ + 105J - 35~ + 21~)]2 2 2 2

7h2 35 h3 7 h

5 3 h7

(fI - 48! + ~ - 4B12 2 2 2

1l(J(h) = [~ (J3(42~ - 105~0+ 105~ - 42~)2 222

o -14~ + 105~ - 35~ + 21~2 2 2 2

(4.20)

(4.21)

o ]h2 h3 h 5 h7-1483" + 105484" - 35~ + 21~

2 2 2 2

o(4.22)

Pour un modèle de variogramme puissance, et h i= 0 :

(4.23)

(4.24)

(4.25)

Nous ne présenterons pas ici la recherche de la positivité du Hessien qui n'aboutit àaucun résultat exploitable. En pratique, les applications nous ont montré l'importancedu lancement de la procédure de minimisation à partir de plusieurs points de départ,contrairement au cas où (J est constant. En effet l'algorithme converge souvent vers desminimums locaux, plus ou moins éloignés du minimum global supposé. On suppose quecette sensibilité au point de départ vient du fait que les deux courbes expérimentales etthéoriques bougent en même temps, contrairement au cas où (J est constant.

4.3.2 Critères 'li! et W2

Nous avons aussi, dans un objectif de comparaison, considéré les critères WI et W2.Ces deux critères ne différant que par l'introduction d'une pondération par IN(h)1indépendante de u et (J, nous nous limiterons au cas du critère W2 qui est le plus général,et plus précisément à sa version reparamétrisée w~ :

(4.26)

Les dérivées premières et secondes de cette fonctions s'obtiennent par les formules sui­vantes.

Page 112: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

112

Pour le gradient :

Chap. 4. SCM et applications

a\ll~(u,0) = "" 4IN(h)1 [9u(h) _ 'Y(J(h)] [r(h)u _ 9u(h)U]au ~ utu utu (UtU)2

h

a\ll~(u, 0) = _L 2IN(h)IV(J(h) [9u(h) - 'Y(J(h)]ao h utu

Pour le Hessien :

(4.27)

(4.28)

a\ll~(u, 0) = 8'"" IN(h)1 [r(h)u _ 9u(h)U] [r(h)u _ 9u(h)U] t

auut L..J utu (UtU)2 utu (UtU)2h

+ 4 '"" IN(h)1 [9u(h) _ 'Y(J(h)] [r(h) _ 4r(h)uut + 49u(h)uu

t_ 9u(h)I]L.;: utu utu (UtU)2 (UtU)3 (UtU)2

(4.29)

a\ll~(u, 0) = _ '"" 4IN(h)IV(J(h) [r(h)u _ 9u(h)U] t (4.30)aOut L.;: utu (UtU)2

8'I!;;: 8) = _~ 2IN(h}l1le(h} [u;~l:~u _'l'e(h}] +~ 2IN (h}IVe(h}V.(h}'

(4.31)

où V(J(h) est le vecteur des dérivées premières de 'Y(J(h) par rapport à 0, et 1i(J(h) lamatrice des dérivées secondes.

4.3.3 Critère W5

Pour le critère \115, nous n'avons rentré dans la fonction nlminb que le vecteur dugradient du critère reparamétrisé \II~ :

(4.32)

Le gradient s'exprime de la façon suivante:

En conclusion, l'intérêt de l'analyse sur composantes spatialisées est d'obtenir des va­riables "résumés" de toutes les variables dont la structure spatiale est presque totalementdéterminée, l'ajustement du variogramme expérimental avec le variogramme théorique

Page 113: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.3 Ajustement itératif de u et () dans la SCMu() 113

choisi étant maximal. Cela permet donc de simplifier les données, par l'extraction de va­riables sous-jacentes au comportement spatial déterminé. Dans le cas où les coefficients ()sont fixés cela permet de déterminer à quelle composante correspond approximativementun variogramme donné, si celle-ci existe. Dans le cas où les coefficients sont variables,on obtient aussi les paramètres du variogramme qui résument le mieux le phénomènespatial multivarié au sens du critère considéré, soit dans le cas d'un variogramme bornéun certain effet pépite, un certain palier et une certaine portée. Nous allons maintenantprésenter quelques variantes de la méthode.

Page 114: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

114

4.4 Variantes

Chap. 4. SCM et applications

Nous avons présenté deux algorithmes de base permettant d'obtenir des composantesqui suivent un certain variogramme théorique, en distinguant le cas où l'on fixe les pa­ramètres du variogramme théorique et le cas où on les cherche en même temps que lacomposante. Nous avons également souligné les problèmes du choix de ces coefficientsdans le premier cas. Ces algorithmes nous ont inspiré diverses méthodes d'analyse spa­tiale.

4.4.1 Variante1: complément à l'ACP de la matrice des va­riogrammes discrétisés

Dans le cas de l'analyse de la matrice des variogrammes discrétisés vue au paragraphe3.4, nous avons vu qu'un inconvénient est qu'on ne peut pas revenir à des combinaisonslinéaires des variables de Z une fois que l'on a calculé une composante combinaisonlinéaire des variogrammes. Une solution est donc d'appliquer l'algorithme de SCM à ()fixé, en utilisant le modèle et les coefficients résultant de l'ajustement de cette compo­sante. Cela permet d'obtenir une combinaison linéaire des variables qui a pour vario­gramme cette composante. On peut alors étudier les coefficients de cette combinaisonlinéaire, calculer les coefficients de corrélation avec les variables initiales, et réaliser sacartographie.Détaillons un peu plus la méthode. Tout d'abord on réalise l'ACP non centrée du ta­bleau V (r x p) des variogrammes simples expérimentaux ou théoriques des variablesde Z. On utilise les métriques D = ~Ir et Q = Ip pour les lignes et les colonnes de V.Le non centrage permet d'obtenir une première composante à valeurs toutes positives,puisqu'elle résulte alors de la diagonalisation d'une matrice dont les valeurs sont toutespositives. Cela nous permet de la modéliser comme un variogramme simple.On recherche donc une combinaison linéaire Ic(h) = Vu des variogrammes colonnes deV telle que sa norme soit maximale sous la contrainte utu = 1. Soit IC le vecteur delongueur r des variogrammes Ic(h). On maximise donc:

h r 1Il,c112= L ;,c(h)2

h=hl

h r 1 p

= L ;(LUjlj(h))2

h=hl j=l

hr p P 1= L LL ;UjUjlIj (h}/jl (h)

h=hl j=l j'=l

(4.35)

sous la contrainte utu = 1. De plus les différentes composantes obtenues sont, pardéfinition de l'ACP, orthogonales par rapport à D. Cette contrainte d'orthogonalité

Page 115: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.4 Variantes

s'écrit, pour les composantes 'Yco. et 'Yco.' :

'Y~'Yco.' = 0hr

L 'Yco. (hhcar' (h) = 0h=hl

h r P P

L L L ujuf''Y;(hh;,(h) = 0h=hl ;=1 ;'=1

115

(4.36)

On ajuste ensuite la première composante obtenue 'Yc(h), à valeurs toutes positives, parun modèle théorique 9c(h) (si on travaille sur les variogrammes expérimentaux, car si ontravaille sur les variogrammes théoriques l'ajustement est déjà réalisé). Puis on appliquel'analyse sur composantes spatialisées en recherchant la composante c = Za dont levariogramme expérimental se rapproche le plus possible du variogramme 9c(h) au sensdu critère suivant:

~ IN(h)1 [9a(h) _ (h)] 2L...J 9c(h)2 ata 9ch=hl

(4.37)

Les composantes suivantes ne peuvent pas être modélisées directement en raison de leursigne variable, il faudrait les modéliser comme des variogrammes croisés en utilisant unecombinaison linéaire de modèles de variogrammes, et en respectant les contraintes denégativité conditionnelle.

4.4.2 Variante 2 : ajustement à une combinaison linéaire devariogrammes

Une autre variante est d'ajuster le variogramme expérimental de la composante re­cherchée à une combinaison linéaire de p' variogrammes théoriques, au lieu d'un seulvariogramme théorique. Ces variogrammes théoriques peuvent être choisis par exemplecomme étant les variogrammes simples ajustés des variables de Z, les variogrammessimples ajustés des composantes obtenues par une analyse quelconque (ACP, ana­lyse locale, etc), ou les variogrammes résultant de l'ajustement du modèle linéaire decorégionalisation. On choisit donc de minimiser le critère suivant :

(4.38)

avec G(h) = dia9(91(h),92(h)"",9p,(h)) matrice diagonale de p' variogrammesthéoriques 9;(h), et a vecteur colonne de longueur p' de coefficients. Les divisionspar utu et ata sont les reparamétrisations correspondant aux contraintes utu = 1 etata = 1. Nous avons programmé la minimisation de ce critère avec la fonction nlminbde S-Plus©.On remarque que dans le cas où G(h) est de dimensions 1 x 1 et est égale à 'Yo(h), etoù de plus a = 1, alors on retrouve l'analyse sur composantes spatialisées classique.

Page 116: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

116 Chap. 4. SCM et applications

Dans le cas où ri =p, on peut imposer Cl: = u et minimiser alors le critère suivant :

(4.39)

(4.40)

~ IN(h) 1 [utr(h)U _ utG(h)U] 2

L...J utu utuh::::hl

sous la contrainte utu = 1. Cela revient à chercher une combinaison linéaire des variablesde Z telle que son variogramme soit obtenu par la même combinaison linéaire des vario­grammes théoriques.Les composantes suivantes sont dans tous les cas obtenues après projection orthogonalede Z sur la composante obtenue à l'étape précédente.

4.4.3 Variante 3 : extension au cas de plusieurs tableaux

Dans le cas où l'on a plusieurs tableaux de variables Z}, ... , Zq, on peut choisirde rechercher une composante par tableau par la méthode d'analyse sur composantesspatialisées à () constant, en prenant pour tous les tableaux le même variogrammethéorique à un coefficient multiplicatif près. Ce variogramme théorique peut résulter parexemple de l'étude du tableau compromis calculé par la méthode STATIS. Cela permetd'obtenir une composante par tableau, telle que toutes les composantes aient le mêmevariogramme à un coefficient près.Cette approche peut se rapprocher de la notion de variogramme climatologique, utiliséepour les données de pluies (Campling et al., 2001). Cette notion est définie dans le cas oùune variable est mesurée en plusieurs points de l'espace et à plusieurs temps t. Au lieude modéliser un variogramme par temps t, on modélise un unique variogramme appelévariogramme climatologique. Chaque variogramme au temps t est alors modélisé par cevariogramme climatologique, multiplié par un coefficient correcteur égal à la variancede la variable au temps t. Cependant l'hypothèse de l'existence d'un tel variogrammecommun est très forte et n'est pas forcément vérifiée.Dans notre cas, on calcule un variogramme théorique, et on recherche une variablepar tableau telle que l'hypothèse du variogramme climatologique soit vérifiée. Lescoefficients multiplicatifs sont inconnus et sont donc recherchés en même temps que lescoefficients des composantes.

Le variogramme théorique g(h) est déterminé par exemple par l'ajustement de lapremière composante principale normée à l'unité du tableau compromis résultant del'application de STATIS sur les objets Zk (équation 1.2). Cela permet d'obtenir unmodèle de variogramme et des coefficients associés. On norme la composante à l'unitéafin de standardiser le variogramme.Le critère minimisé, pour le tableau Zk, et le variogramme théorique global g(h), estalors le suivant:

t IN(h~1 [9u:(h) _ Wk9(h)]2

h::::hl g(h) UkUk

Il est à minimiser en fonction de Uk et Wk, les coefficients Wk étant les coefficientsmultiplicatifs à appliquer au variogramme théorique. La résolution de ce problèmepermet donc d'obtenir une composante Ck = ZkUk par tableau.

Page 117: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.4 Variantes 111

Il est aussi possible de définir les coefficients Wk comme étant la norme de la compo­sante Ck' Le critère s'écrit alors:

(4.41 )

avec E k matrice de variance-covariance du tableau Zk.

Les deux critères 4.40 et 4.41 ont été minimisés en utilisant la fonction nlminb, lestentatives d'algorithmes de relaxation ne convergeant pas. On se limite à l'obtentiond'une seule composante par tableau. Les points de départ fournis à la fonction nlminbsont les premières composantes principales de chaque tableau Zk.

Les variantes proposées ne sont pas exhaustives et on pourrait en proposer d'autresen modifiant les critères et/ou les divers coefficients utilisés.

Page 118: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

118

4.5

Chap. 4. SCM et applications

Applications sur nos données

Dans cette partie nous présentons les applications pratiques de diverses méthodesprésentées dans le chapitre 3, ainsi que des méthodes que nous avons proposées dans cechapitre.Nous avons choisi de réaliser ces applications sur la matrice compromis Zc obtenue à lafin du chapitre 1. Cette matrice résume les différentes années de mesure, et nous permetdonc de nous affranchir de la dimension annuelle de nos données, pour ne laisser que ladimension spatiale. On remarque tout de même que les variables étant des mois, il nousreste une dimension temporelle mais que nous n'allons pas considérer.Les paramètres pour les variogrammes sont toujours ceux indiqués au paragraphe 2.3.1.On ne considère que les variogrammes omnidirectionnels. Nous changerons les paramètrespour l'application de l'analyse sur composantes spatialisées pour augmenter le nombrede pas par rapport au nombre de paramètres à ajuster.

4.5.1 ACP totale, locale, et globale

Nous avons appliqué les ACP totale, locale et globale, qui sont respectivement lesACP non centrées des triplets (Zm, Q, Dm), (Zm, Q, DhEh) et (Zm, Q, Ph), Zm étant le

(h)tableau compromis Zc centré par rapport à Dm = diag(:~h»)' et Q étant égal à I. Cettepondération permet d'avoir la décomposition 3.9 et donc de pouvoir comparer les troisanalyses. Nous avons choisi de considérer les pas (omnidirectionnels) hl, ha et ha, quicorrespondent à deux pas extrêmes et un pas intermédiaire. D'après le tableau 2.3, lesdistance moyennes correspondantes sont respectivement 0.385, 0.911 et 5.650.

Nous avons tout d'abord calculé dans le tableau 4.4 les inerties des tableauxZ:nDmZm, Z:nDhEhZm et Z:nphZm. Pour le pas hl, on voit que l'inertie globale est

inertie totale inertie locale inertie globale

hl 9.371 1.985 7.386

h3 8.341 5.589 2.751

hs 12.927 16.525 -3.597

TAB. 4.4 - Inerties totale, locale et globale pour les trois pas considérés hl, h3 et hs .

positive et forte, alors que l'inertie locale est faible. Par contre, pour le pas ha, l'inertieglobale est négative et l'inertie locale très forte. Le pas ha est intermédiaire entre cesdeux extrêmes. D'après le tableau 2.1, on peut donc dire que le processus multivariéconsidéré au pas hl est globalement lisse, contrairement à celui considéré au pas ha quiest globalement à fortes variations entre voisins.

Les différentes analyses totale, locale, et globale correspondent à une décompositionde ces trois inerties. Afin de simplifier l'interprétation nous n'avons examiné que lapremière composante de chaque analyse, qui représente à chaque fois un fort pourcentagede l'inertie correspondante (supérieure à 46%). Dans l'optique de comparer les résultats·des analyses spatiales avec ceux de l'ACP du tableau compromis Zc centré par rapport

Page 119: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données 119

à D = ~In que nous avons déjà commentés, nous avons calculé dans le tableau 4.5 lescoefficients de corrélation entre toutes les premières composantes spatiales et les troispremières composantes de l'ACP.On constate que les trois composantes totales pour les trois pas correspondent à la

Pas Analyse acp acp acpcl C2 c3

hl locale 0.383 0.079 -0.919

hl globale 0.968 0.157 0.188

hl totale 0.973 0.136 0.181

h3 locale 0.986 0.103 0.122

h3 globale -0.134 0.985 0.096

h3 totale 0.938 0.153 0.308

hg locale 0.986 0.099 0.123

hg globale 0.363 -0.886 0.038

hg totale 0.996 -0.027 0.0761

TAB. 4.5 - Coefficients de corrélation entre les premières composantes des analyses locales, globales ettotales pour les trois pas considérés et les composantes issus de l'ACP du tableau Zc.

première composante de l'ACP, avec des coefficients de corrélation supérieurs à 0.93.L'utilisation de la pondération Dm à la place de D ne modifie donc pas beaucoup lesrésultats de l'ACP.D'autre part, on constate que toutes les premières composantes des analyses localeset globales sont toutes corrélées avec l'une des trois composantes de l'ACP, avec descoefficients de corrélation compris entre 0.88 et 0.98. Les composantes issues de l'ACPsont donc non seulement optimales pour la maximisation de la variance, mais aussipresque optimales pour la variance locale ou la variabilité globale à un certain pas. Lapremière composante de l'ACP maximise ainsi pratiquement la variance locale (et doncle variogramme) pour une échelle moyenne à élevée (h3 et hs), la deuxième composantede l'ACP maximise pratiquement la variabilité globale à une échelle moyenne (h3), etla troisième composante de l'ACP maximise pratiquement la variance locale (et donc levariogramme) à l'échelle la plus faible (ht}. Cette dernière composante maximise doncl'effet pépite.

Les composantes de l'ACP du tableau compromis ont donc aussi une significationspatiale, que nous pouvons expliciter plus précisément par les analyses locales et glo­bales. Les deux premières composantes sont ainsi efficaces pour distinguer les structuresspatiales Agreste/Sertao et sud-ouest/nord-est, qui correspondent à deux systèmes deprécipitations différents. Cependant nous avons vu que la troisième composante de l'ACPétait un mélange de ces ces deux structures et d'un troisième système de précipitation dûà la zone de convergence intertropicale. Il serait donc intéressant de voir s'il est possibled'isoler l'influence de ce système de précipitation par sa structure spatiale. Cela n'a pasété permis par les analyses locales et globales qui donnent des composantes proches decelles de l'ACP. Nous avons donc essayé d'appliquer la méthode des MAF.

Page 120: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

120 Chap. 4. SCM et applications

4.5.2 Méthode des MAF

Afin de pouvoir appliquer la méthode des MAF nous l'avons programmée sousS-Plus© en intégrant les aides à l'interprétations proposées par Faraj & Cailly (2001).Le programme est présenté dans l'annexe 4.

4.5.2.1 MAF au pas hl

Nous avons d'abord appliqué la méthode des MAF au pas le plus faible, soit hl' Lescomposantes obtenues Ca sont classées dans l'ordre croissant de leur autocorrélation spa­tiale. Nous avons représenté dans la figure 4.2 la cartographie de toutes les composantesavec la fonction interp de S-Plus©.

-44 -42 -40 -36 -36

Cs

,Cl'

'"~

N.-44 -42 -40 -38 ·36

Cl2

,

'"'"0

~.-44 -42 -40 ·38 ·36

C2 C3

, ,~ ~

'" '"0

~

~ ~

· •-44 -42 -40 -38 -36 -4~ -42 -40 -38 -36

C6 C7

, ,

'" '"Cl' '"0

~

~

· ·-44 -42 -40 -38 -36 -4~ -42 -40 ·38 -36

ClO Cn

, ,'" '"'" '"0 0

N N

· ·-44 -42 -40 -36 -36 -4~ -42 -40 ·38 ·36

Cl

,Cl'

..~..~

-44 -42 -40 -36 -36

C5

,Cl'

Cl'

-44 -42 -40 -36 -36

Cg

~ <---------'·44 -42 -40 -36 -36

FIG. 4.2 - Représentation de chaque composante MAF pour le pas hl avec la fonction interp. L'intensitédu grisé est proportionnelle à la hauteur de la composante.

La figure 4.3 montre les coefficients cnt(ca ) et cntV(ca ) pour chaque composante(d'après les équations 3.26 et 3.28). Elle montre que les composantes qui contribuentle plus à la structure spatiale des données sont les composantes C5 et C6, mais queces composantes contribuent peu à la variabilité totale. Elles correspondent à uneautocorrélation spatiale moyenne. L'examen de leur cartographie ne permet pas de leurdonner une signification claire.

Page 121: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données 121

FIG. 4.3 - Diagrammes des coefficients cnt(co ) et cntV(co ) pour les composantes MAF au pas hl. Cesdernières sont classées dans l'ordre décroissant des coefficients cnt (co).

Les composantes qui contribuent le plus à la variance totale sont les composantesCu et C12, qui sont les composantes d'autocorrélation maximale et qui correspondentaux deux premières composantes de l'ACP. Par contre, si Cu (traduisant l'oppositionAgreste/Sertao) contribue beaucoup à la variabilité spatiale, ce n'est pas le cas de Cl2

(traduisant l'opposition sud-ouest/nord-est).La composante d'autocorrélation minimale au pas hl est la composante Cl, qui permetde distinguer une petite zone au nord du Nordeste correspondant à la station TEl, pourlaquelle la valeur de la composante est très élevée (4.13). Cette station est entourée devaleurs négatives, ce qui explique la faible autocorrélation.

4.5.2.2 MAF au pas h3

Nous avons ensuite appliqué la méthode des MAF au pas h3 • Les figures correspon­dantes sont les figures 4.4 et 4.5.

On peut tout d'abord faire les mêmes commentaires pour les composantes Cu et Cl2

qui ont les mêmes significations et les mêmes rangs.Par contre, on constate que les composantes ayant les plus forts coefficients cnt(co,)sont les composantes Cl et C3, qui ont des autocorrélations spatiales faibles au pas h3 ,

mais qui expliquent peu de la variabilité totale. Leur cartographie montre que la faibleautocorrélation concerne surtout une zone du nord du Sertao située approximativemententre -40 et -37 degrés de longitude et -8 et -6 degrés de latitude, et qui a desvaleurs élevées pour les deux composantes. Pour la composante Cl cette zone s'opposeaux stations situées sur sa bordure est, tandis que pour la composante C3 elle s'opposeavec les stations de sa bordure sud.Nous avons aussi représenté dans la figure 4.6 les contributions des variables de Zc àla variance de ces deux composantes, calculées à partir de l'équation 3.25. On constateque pour Cl les variables à forte contribution correspondent aux mois de janvier etde février, avec une baisse de février à avril, tandis que pour C3 les variables à plusforte contribution sont les variables de janvier à avril, avec un maximum en février. Lemaximum est donc décalé d'un mois pour C3 par rapport à Cl.

Nous pouvons relier l'ensemble de ces résultats aux cartes de chaque variable de la

Page 122: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

122 Chap. 4. SCM et applications

Cl C2 C3 C4

, , , ,~ ~

~,

0~

~ ~

· ;44 42 40 -38 ·36 44 42 40 ·38 ·36 4' 42 40 ·38 <Iii 44 42 40 ·38 ·36

C5 C6 C7 Cs

, , , ,, ~

,~

~,

0 0

~...

· . .44 42 40 ·38 ·36 44 42 40 ·38 ·36 44 42 40 ·38 ·36 ·44 42 40 ·38 ·36

Cg CIO cIl c}2

, , , ,,

~ ~

~ ~ ~

0 0

...~

...

· . .44 42 40 ·38 ·36 44 42 40 ·38 ·36 4' 42 40 ·38 ·36 44 42 40 ·38 ·36

FIG. 4.4 - Représentation de chaque composante MAF pour le pas h3 avec la fonction interp de 5-Plus©.L'intensité du grisé est proportionnelle à la hauteur de la composante.

=='

=='

=='

=='

FIG. 4.5 - Diagrammes des coefficients cnt(c",) et cntV(c",) pour les composantes MAF au pas h3 . Cesdernières sont classées dans l'ordre décroissant des coefficients cnt(co,).

Page 123: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données 123

figure 1.9. La composante Cl peut s'interpréter comme reflétant l'opposition entrela zone pluvieuse du nord du Sertao et les stations situées juste à l'est de celle-ci,opposition que l'on observe surtout pour le mois de janvier sur la figure 1.9, tandis quela composante C3 peut s'interpréter comme reflétant l'opposition entre la même zonepluvieuse et les stations situées au sud de celle-ci. On peut aussi interpéter de la mêmefaçon la composante C2, qui oppose la zone pluvieuse du Sertao avec les stations qui sontà l'ouest. Cependant cette composante contribue peu à la variabilité spatiale des données.

L'examen des composantes MAF au pas h3 a donc permis d'isoler plus précisémentla structure spatiale associée à la zone pluvieuse du nord du Sertao liée à l'influencede la zone de convergence intertropicale, ce qui n'avait pas pu être possible dans lesprécédentes analyses. De nombreuses autres analyses MAF auraient pu être possibles,comme par exemple des analyses directionnelles, chaque analyse donnant des résultatsdifférents.

goct dec fev avr mai oct dec fev avr mai juil

(4.42)

FIG. 4.6 - Diagrammes des contributions des variables de Zc à la variance des composantes Cl et C3.

4.5.3 Etude des matrices de variogramme

Nous avons comparé les résultats de la diagonalisation de :r

îi(h)Q =~ EŒkîi(hk)Q

k=l k Œk

avec différentes pondérations Œk' Nous avons considéré le cas Œk = 1, Vk = 1, ... ,r, lecas Œk = l/tr(r(hk)), le cas Œk = l/tr(r(hk)r(hk)) et enfin les cas Œk solutions desproblèmes du STATIS dual pour les objets îi(hk)Q normés et non normés. On a de plusfixé Q = I p .

Nous avons d'abord tracé les profils des coefficients Œk en fonction de k pour lesdifférentes pondérations (figure 4.7). On constate que les pondérations par la trace et lescoefficients du STATIS dual normé sont similaires. La pondération par la norme accordeplus de poids aux pas faibles, et moins aux pas plus élevés, avec une amplitude très forte.A l'opposé, la pondération par les coefficients du STATIS dual non normé accorde plusde poids aux pas élevés et moins aux pas faibles, mais avec une amplitude plus faible.

Page 124: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

124 Chap. 4. SCM et applications

On voit donc que les pondérations sont assez différentes entre elles.

o

~~ +

~ +--+--+--llE--llE~lÂ~.~llE--llE--llE--llE

o l!l=-__ + -=~ ~ l!l l!l<=> +-+ 0-0--0--0-_0cil.-__~ ~ ~ ~ ~__----.J

2 3

h4 5

FIG. 4.7 - Tracé des coefficients ah en fonction de h pour les différentes pondérations. Légende : lescarrés représentent la pondération par la trace, les ronds la pondération par la norme, les triangles lapondération par les coefficients du STATIS dual normé, les croix la pondération par les coefficients duSTATIS dual non nonné, et les étoiles à la pondération uniforme.

Les variogrammes des trois premières composantes issues de la diagonalisation sonttracés sur la figure 4.8. On constate que pour toutes les pondérations les variogrammes dela première composante sont similaires et avec un palier très élevé (par rapport à l'inertietotale du tableau Zc centré-réduit qui est égale à 12), sauf pour la pondération par lanorme où le variogramme est beaucoup plus bas. Par contre, pour les deux premiers pasil est au dessus des autres. On peut le relier au fait que la pondération par la normeaccorde plus de poids aux pas faibles, et donc la composante maximise le variogrammeplutôt pour les pas faibles contrairement aux autres pondérations.Pour la deuxième composante le phénomène inverse se produit, le variogramme pour lapondération par la norme ayant un palier beaucoup plus élevé mais avec des valeurs pourles deux premiers pas plus faibles. Ce variogramme correspond en fait à celui observépour la première composante des autres pondérations (graphe précédent).Pour la troisième composante les différences entre les variogrammes sont beaucoup moinsmarquées. La pondération par les coefficients du STATIS dual non normés se distingueun peu.

Afin de mesurer le degré d'indépendance spatiale des composantes obtenues dans lesdifférents cas nous avons tracé l'ensemble des variogrammes croisés pour chaque ensemblede composantes (figure 4.9). Cette figure est associée au tableau 4.6 où nous avons indiquéles coefficients K, (équation 3.59, d'après Xie et al. (1995)) pour chaque pondération. Onconstate que globalement les composantes obtenues présentent une orthogonalité spatialebeaucoup plus importante que les variables initiales, avec des coefficients K, supérieurs à0.90 pour trois des pondérations. La pondération la plus efficace est la pondération par latrace, juste avant la pondération uniforme. La moindre efficacité des autres pondérations

Page 125: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données

3

h

(a) Premières composantes

3

h

(b) Deuxièmes composantes

125

3

h

(c) Troisièmes composantes

FIG. 4.8 - Variogrammes simples des premières composantes obtenues pour chaque pondération.Légende : voir figure 4.7.

provient à chaque fois du variogramme croisé entre un seul couple de composantes. Ainsi,pour la pondération par la norme et par STATIS normé c'est le variogramme croisé entrela première et la deuxième composante qui est au dessus des autres. Pour la pondérationpar STATIS non normé c'est le variogramme croisé entre la deuxième et la troisièmecomposante qui est en dessous.

En complément nous avons représenté l'interstructure des 8 matrices de vario­grammes dans le cas des objets normés (figure 4.10). Ce graphe nous permet d'évaluerles proximités entre les différents pas. On constate que les deux premiers pas sontpresque superposés, ainsi que les quatre derniers. Ce graphe nous confirme que les pasutilisés dans les analyses locales, globales, et la méthode des MAF (soit hl, h3 , et hg)sont bien significatifs de la structure spatiale.

En conclusion, l'étude des matrices de variogramme nous a permis d'obtenir une ortho­gonalisation spatiale de nos données, qui est plus ou moins bonne suivant la pondérationutilisée. On pourrait donc utiliser l'estimation séparée par krigeage des composantesobtenues.

Page 126: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

126 Chap. 4. SCM et applications

Variables initiales Pondération uniforme Pondération par la traceN N N

3

hPondération par la norme

3

hSTATIS dual

3

hSTATIS dual normés

N

~ ~

$> $>a- «-

':"

~

3 3

h h3

h

~

'--~~-~-------'

..

FIG. 4.9 - Variogrammes croisés pour l'ensemble des variables initiales, et pour l'ensemble des compo­santes obtenues par chaque pondération des matrices des variogrammes expérimentaux.

FIG. 4.10 - Premier plan de l'interstructure pour le STATIS dual sur les matrices de variogrammesnormées.

Page 127: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données

Pondération K,

uniforme 0.9780

trace 0.9782

norme 0.7758

STATIS dual 0.9639

STATIS dual normé 0.8882

127

TAB. 4.6 - Coefficients K, mesurant l'efficacité de l'orthogonalisation spatiale effectuée par chaquepondération.

4.5.4 Application de la méthode SeM

Pour l'application de cette méthode et de ses variantes nous avons d'abord opéré unchangement dans les paramètres des variogrammes. En effet comme nous avons 12 va­riables dans le tableau Zc compromis, il est nécessaire d'avoir un nombre de pas supérieurà 13 dans le cas () constant et supérieur à 16 dans le cas où 8, de longueur 3 est variable.Nous avons choisi de prendre un nombre de pas égal à 20, et une largeur de pas de 3.33.

4.5.4.1 Ajustements à () variable

Nous avons réalisé les ajustements à 8 variable en considérant deux modèles devariogramme, le modèle cubique et le modèle puissance, qui correspondent aux modèlesdes deux premières composantes de l'ACP du tableau compromis. Pour chaque modèle,nous avons ajusté les versions reparamétrisées des quatre critères 'l'l, W2' W3 et 'lis dutableau 4.1. Pour les trois premiers critères, les expressions du gradient et du Hessienont été précisés, par contre pour le dernier seul le gradient a été indiqué. Enfin, pourchaque ajustement nous avons pris 11 points de départ différents, dont un est constituépar la première composante de l'ACP et les coefficients () correspondants. Les 10 autressont aléatoires et sont tirés selon une loi uniforme entre 0 et 1. De cette façon nouspouvons voir si les valeurs obtenues à la convergence sont des optimums locaux ouglobaux.

Pour chaque ajustement la plupart des 11 points de départ utilisés ont donné enpratique des résultats différents, faisant supposer l'existence de plusieurs minimumslocaux, plus ou moins éloignés du minimum global. Nous avons indiqué dans les tableaux4.7 et 4.8 le meilleur ajustement réalisé parmi les Il points de départ, pour chaquecritère et pour chaque modèle de variogramme. Les figures 4.11 et 4.12 montrent lesvariogrammes expérimentaux et théoriques correspondants. Rien ne nous confirme quele meilleur ajustement indiqué ici correspond à chaque fois au minimum global : ilfaudrait réaliser des optimisations supplémentaires avec d'autres points de départ. Parcontre, dans certains cas on suppose que le minimum global a été obtenu: par exemplepour la minimisation du critère W3 avec le modèle cubique, ou la valeur minimale ducritère a été obtenue 5 fois sur les 11 points de départ. Nous avons contrôlé à chaquefois que les matrices du Hessien calculées aux points minimums obtenues sont biensemi-définies positives.

Page 128: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

128 Chap. 4. SCM et applications

On remarque tout d'abord que pour les deux modèles de variogramme, les ajuste­ments réalisés sont visuellement très bons, sauf pour le critère ws. Les valeurs de '1'1correspondantes sont toutes de l'ordre de 10-6 , ce qui est très faible. Cependant lespourcentages d'inertie totale expliquée par les composantes sont très faibles: ils sontainsi inférieurs à 1% pour les trois premiers critères. Les composantes obtenues par lecritère '1'5 ont des pourcentages légèrement supérieurs (2.15% pour le modèle cubiqueet 15.54% pour le modèle puissance), mais c'est au détriment de l'ajustement entre levariogramme expérimental et le compromis, puisque les valeurs de '1'1 correspondantessont les plus élevés (respectivement 0.009 et 1.426). On voit sur les figures 4.11 et4.12 que les variogrammes correspondants ont bien des valeurs beaucoup plus élevéesque les autres variogrammes, mais que l'ajustement est aussi beaucoup moins bon. Lecritère '1'5 permet donc d'effectuer un compromis entre l'ajustement au variogrammeet le pourcentage d'inertie expliquée, mais ce compromis est au détriment d'un bonajustement.

Si l'on compare maintenant les trois premiers critères entre eux, on constate que dansle cas du modèle cubique les valeurs de u et de () à la convergence des critères '1'1 et '1'2sont presque identiques: la pondération par IN(h)1 n'est donc pas intervenue dans leminimum obtenu. Par contre dans le cas du modèle puissance les valeurs sont légèrementdifférentes pour u (non indiqué ici) et très différentes pour (), mais on peut supposerque le minimum obtenu par le critère '1'2 est un minimum local: en effet le coefficient(}3 correspondant est égal à 0, qui est la limite inférieure que nous avons rentrée dansla fonction nlminb pour ce paramètre. On peut donc supposer que l'algorithme deminimisation a été" bloqué" par la contrainte. On ne peut donc pas conclure dans cecas sur l'influence ou non de la pondération par \N(h)l.Le critère '1'3, qui privilégie l'ajustement pour les faibles distances, semble quant à luidonner des résultats intermédiaires entre le critère '1'1 et le critère ws, mais en étantbeaucoup plus proche du critère '111 ,

On remarque enfin que les ajustements par le modèle cubique ont convergé, saufpour le critère 'lis, vers des portées très élevées, supérieures à 9 et donc au pas hmaximal considéré. Les variogrammes obtenus ressemblent donc assez fortement auxvariogrammes obtenus par le modèle puissance. Les deux composantes correspondantaux ajustements pour les modèles cubique et puissance avec le critère '11 1 ont ainsiun coefficient de corrélation de 0.99. Les deux variogrammes ajustés correspondantsressemblent à un variogramme linéaire. Pour les autres critères les coefficients decorrélation ne sont pas significatifs. Les ajustements les meilleurs sur nos donnéescorrespondent donc à une structure de covariance linéaire, ce qui est à rapprocher de lafonction de dérive que nous avions mise en évidence dans le paragraphe 2.3.2.

L'application de la méthode SCMu() a donc permis d'abord de définir deux types decritères: les critères '1'1, '1'2, et '113sont ainsi efficaces pour obtenir un ajustement presqueparfait entre les variogrammes théoriques et expérimentaux, mais c'est au détrimentde la variance de la composante obtenue. A l'opposé, le critère '1'5 permet d'avoir desvariances plus élevées mais un ajustement moins bon. Le choix du critère à utiliserdépend de l'objectif de l'utilisateur. Nos résultats nous ont aussi montré l'importancedu lancement des algorithmes d'optimisation à partir de plusieurs points de départ, enraison des multiples minimums locaux.

Page 129: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Valeur minimale Nb.nombre

thCritère Valeur finale de IIt l min. (J2 final (J3 final %du critère d'obtention

d'itérationfinal

'11 1 1.105 x 10-6 1 1.105 X 10-6 97 0.0109 9.4498 0.0107 0.13%

'11 2 7.811 x 10-5 3 1.219 X 10-6 82 0.0109 9.1620 0.0108 0.14%

'113 0.844 5 7.296 x 10-6 118 0.0135 11.4167 0.0403 0.27%

'115 5.635 x 10-3 1 0.0090 55 0.1111 5.9238 0.1954 2.15%

TAB. 4.7 - Comparaison des résultats obtenus pour différents objectifs, avec le modèle cubique. 11 points de départ différents ont été considérés. Pourchaque critère les résultats indiqués font référence au minimum obtenu sur ces 11 points de départ. Les critères font référence au tableau 4.1 et lesparamètres (J à ceux du tableau 2.2.

Valeur minimale Nb.nombre

(JICritère Valeur finale de '11 1 min. (J2 final (J3 final %

du critère d'obtentiond'itératiom

final

'11 1 1.106 x 10-6 1 1.106 X 10-6 864 0.0097 0.0018 1.0159 0.14%

'112 2.138 x 10-4 2 4.080 X 10-6 51 0.0055 0.0041 0.0000 0.07%

'113 0.790 1 2.743 x 10-6 81 0.0101 0.0003 2.0000 0.12%

lit5 2.791 x 10-2 1 1.426 6 0.6278 0.8153 0.1878 15.54%

TAB. 4.8 - Comparaison des résultats obtenus pour différents objectifs, avec le modèle puissance. 11 points de départ différents ont été considérés. Pourchaque critère les résultats indiqués font référence au minimum obtenu sur ces 11 points de départ. Les critères font référence au tableau 4.1 et lesparamètres (J à ceux du tableau 2.2.

>"C"C­....(")

~....ofifi)

e;gfi)

Q.o§(1).(1)fi)

Page 130: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

130 Chap. 4. SCM et applications

\li l \li2

~ ~ci ci

,....... ,........e .e'-'" CIl '-'" CIl ......~C! ...... ~C!

0 0~

r ~ .. ~0 0ci ci

0 2 3 4 5 6 0 2 3 4 5 6

h h

\li3 IJfs

• •0 • •~

C') •ci ci • ••,....... ,....... •

~CII .eo'-'" CIl •~C! ~ci

0 ••0 •

0 ... •ci ci •0 2 3 4 5 6 0 2 3 4 5 6

h h

FIG. 4.11 - Tracé des variogrammes expérimentaux (points) et théoriques (lignes) correspondant auxminimums obtenus pour les quatre critères considérés, pour un modèle de variogramme cubique.

IJf l 1Jf2

~ ~0 0ci ci

,....... ,........e .e'-'" C\I '-'" C\I~o ~o

ci ci••• ft •••••••••••••• ••

0 0ci ci

0 1 2 3 4 5 6 0 1 2 3 4 5 6h h

1Jf3 IJfs

• •0~ C\Ï •0ci • •• •,....... ,.......10

• • • •~C\1 .e"';

'-'"~o ~

ci~....

•0 •ci0 1 2 3 4 5 6 0 1 2 3 4 5 6

h h

FIG. 4.12 - Tracé des variogrammes expérimentaux (points) et théoriques (lignes) correspondant auxminimums obtenus pour les quatre critères considérés, pour un modèle de variogramme puissance.

Page 131: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données 131

4.5.4.2 Composantes suivantes pour le critère \lI3

Dans le cas du critère \lI3 nous avons aussi ajusté les deux composantes suivantes,obtenues après projection par rapport à la métrique D = n- l In. Les trois composantesobtenues sont donc orthogonales par rapport à cette métrique. Les résultats des ajus­tements sont récapitulés dans le tableau 4.9, et les variogrammes correspondants dansla figure 4.13. Dans le tableau 4.9 on souligne que les résultats correspondant à Cl re­prennent ceux du tableau 4.7.On peut vérifier tout d'abord que la valeur de \lI3 à la convergence augmente avec lenuméro de la composante. Par contre la variance n'a pas une évolution continue, puisquec'est la deuxième composante qui a le pourcentage de variance le plus élevé. Les com­posantes n'ont donc aucune signification en terme de variance. Les valeurs de \lI l sontdu même ordre de grandeur pour Cl et C3, par contre elle est plus élevée pour C2 pourlaquelle visuellement l'écart entre les points expérimentaux et la courbe est plus impor­tant.Si on regarde l'évolution des paramètres B, on constate que le palier (B3 ) diminue avecle numéro de la composante, par contre l'effet pépite (Bd et la portée (B2) n'ont pasd'évolution particulière. La première composante a par contre une portée très élevéesupérieure au pas maximal considéré, alors que les deux autres ont des portées trèsfaibles.Enfin, le tracé des variogrammes croisés sur la figure 4.13 montre que ceux-ci sont presquenuls pour tous les pas, on peut donc considérer que même si aucune contrainte d'ortho­gonalité spatiale n'a été utilisée, les trois composantes obtenues sont approximativementorthogonales spatialement à tous les h.

Page 132: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Valeur minimale Nb.nombre fhCritère Valeur finale de '.[11 min. (}2 final (}3 final %du critère d'obtention

d'itératiomfinal

Cl 0.844 5 7.296 x 10-6 118 0.0135 11.4167 0.0403 0.27%

C2 1.662 1 3.113 x 10-5 54 0.0210 0.3821 0.0200 0.34%

Ca 2.158 2 7.916 x 10-6 531 0.0082 1.69007 0.0096 0.17%

TAB. 4.9 - Ajustement des troix premières composantes par le critère '.[13' On utilise la projection par rapport à la métrique D. Les paramètres () fontréférence au tableau 2.2. Pour chaque composante les résultats indiqués font référence au minimum obtenu sur les 11 points de départ.

~

.§"CS­....n~....ot:Il'Il

Page 133: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données

Cl C2 C3

~

~! ft ft , ft , !0 0 ( •• ft

~ tI ~0 .,r'........ ........ ........~ ~o ~'"'-0 --..0

?"- ?"- ?"-

~ ~ Sq

~ ~ !q q

0 3 3 0 3

h h h

Cl et Cl Cl et C3 C2 et C3

~ '" ..0 ô

.. .. ..0 ô 0

133

;:; ;:;

~ •• , ••••••••• , .• ' •• ,. ~"""""" •••••• " ~ ••••• , •••••••.• ,t'

o 3

ho 3

ho 3

h

FIG. 4.13 - En haut: tmcé des variogmmmes expérimentaux (points) et théoriques (lignes) pour lestrois premières composantes résultant de l'ajustement du critère q,3' avec la métrique D. En bas: tracédes variogrammes croisés expérimentaux correspondants.

4.5.4.3 ACP de la matrice des variogrammes discrétisés (variante 1)

Nous avons réalisé l'ACP non centrée de la matrice des variogrammes expérimentauxdes variables de Zc. Cette ACP permet de définir une première composante qui explique94.849% de la variabilité totale du tableau des variogrammes, la deuxième composanteen expliquant seulement 2.322%. Seule la première composante a donc une signification.Elle est représentée par des points sur la figure 4.14, qui nous confirme que tous lestermes sont bien positifs. Nous l'avons modélisée par un variogramme cubique, et ajustédes coefficients () à l'aide de la fonction d'ajustement par moindres carrés nls de S-Plus©.Les coefficients obtenus correspondent à un effet pépite de 0.335, une portée de 7.367et un palier de 8.002. Nous avons donc recherché la combinaison linéaire des variablesde Zc se rapprochant le plus de ce variogramme théorique. L'algorithme a convergéen 13 itérations de nlminb, vers une composante expliquant 38.19% de la variabilitétotale du tableau Zc. Son variogramme expérimental est tracé sur la figure 4.14, on voitque l'ajustement est de bonne qualité. La figure 4.15 montre les coefficients u de lacomposante et la carte de son interpolation avec interp. On voit que cette composantese rapproche de celle de la première composante principale de Zc, ce qui est confirmépar le calcul du coefficient de corrélation entre les deux variables qui est de 0.836. Elleoppose la région de l'Agreste à celle du Sertào, et les mois de juin à septembre à ceuxde janvier à avril.

Page 134: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

134 Chap. 4. SCM et applications

FIG. 4.14 - Variogramme expérimental de la composante obtenue par diagonalisation de la matrice desvariogrammes discrétisés (points), et variogramme expérimental de la combinaison linéaire des variablesde Zc ajustée par la SCM (ligne).

oct dec fev avr juin aout ·42 .." .J8

Longitude

FIG. 4.15 - Diagramme en bâton des coefficients de la combinaison linéaire ajustée par la méthode SCM(à gauche), et cartographie de la composante correspondante avec la fonction interp.

4.5.4.4 Ajustement d'une composante par année (variante 3)

Nous avons choisi d'ajuster une composante pour chaque tableau Zk initial centré­réduit (correspondant donc à chaque année), sur le variogramme ajusté de la premièrecomposante principale du tableau compromis Zc centré-réduit. Cela correspond donc àla variante 3 de la méthode SCM.Le variogramme ajusté est un variogramme cubique de coefficients ()1 = 0.10, ()2 = 6.8,et ()3 = 9.27, divisé par un coefficient égal à 5.75 afin de le normaliser par la norme de lapremière composante sur laquelle il a été ajusté. Nous avons utilisé les deux algorithmescorrespondants aux critères 4.40 (dans ce cas là les coefficients Wk sont quelconques) et4.41 (dans ce cas là les coefficients Wk correspondent à la norme des Uk)'

Nous avons représenté sur la figure 4.16 l'ensemble des variogrammes des q = 47 compo­santes obtenues pour les deux critères considérés. On constate que le nuage des courbesest plus homogène dans le cas de la pondération par la norme des Uk, surtout pour lespas élevés. Par contre, on constate sur la figure 4.17 que la courbe d'évolution du critère

Page 135: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

4.5 Applications sur nos données 135

4.40 (ligne pleine) est en dessous de celle du critère 4.41 (lignes pointillées). L'ajustementutilisant le critère 4.40 est donc meilleur en terme de minimisation du critère, même sivisuellement il paraît moins bon. Une explication peut être que le type de critère utiliséprivilégie les faibles distances, l'influence des pas élevés est donc peu importante. Onremarque que les deux courbes de critères sont toutefois très proches.Les pourcentages d'inertie des composantes obtenues par rapport à l'inertie totale destableaux correspondants (qui est égale à 12 car les tableaux sont centrés réduits) sonttrès faibles pour les deux critères (voir figure 4.17). Ils sont en effet en moyenne de 3.30%pour le critère 4.40, et de 2.79% pour le critère 4.41. Les composantes n'ont donc pasbeaucoup de sens en terme d'explication de la variance totale. L'utilisation d'un autremodèle de variogramme pour l'ajustement permettrait peut être d'obtenir des meilleurspourcentages.La proximité des résultats obtenus avec les deux critères en terme d'objectif final et devaleurs finales des coefficients nous montre que d'imposer une pondération par la normedes composantes n'est pas aberrant. Cela est confirmé par la figure 4.18, où l'on compareles coefficients Wk obtenus par la minimisation du critère 4.40, et la norme des vecteursUk correspondants. On constate que les deux courbes sont assez proches. L'avantage ducritère 4.40 est cependant qu'il converge plus vite, et que les ajustements sont meilleurs.Par contre, son inconvénient est que les coefficients n'ont pas l'interprétation claire deceux du critère 4.41, même s'ils se rapprochent de la norme des Uk.

Page 136: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

136 Chap. 4. SCM et applications

critère 4.40 critère 4.41

653 4h

2oo

I,---~-,........~---..---..--

653 4h

2oo

l,----~~,........~---..-..........-_

FIG. 4.16 - Variogmmmes des composantes obtenues pour chaque année après ajustement par les critères4.40 et 4·41.

Coefficients Wk Critères % d'Inertie:l

:; 1:l ~ :.

!

.~.

olt"~;l

;; §

a iii

:l

.. 50 eo 71l BD .. 50 BD 71l eo .. 50 eo 71l eoAnnées Années Années

FIG. 4.17 - Compamison des ajustements par les critères 4.40 (lignes pleines) et 4.41 (pointillés) :évolution des coefficients Wk (à gauche), des valeurs finales des critères (au centre), et des pourcentagesd'inertie des composantes (à droite).

40 50 60 70 BO

Années

FIG. 4.18 - Ajustement par le critère 4.40: compamison entre les coefficients Wk obtenus (ligne pleine),et la norme des vecteurs Uk correspondants (pointillés).

Page 137: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Chapitre 5

Utilisation des outils d'analysespatiale en régression multivariée

Dans ce chapitre nous nous intéressons à une autre problèmatique, qui est le lien entreles données de pluies mensuelles du Nordeste que nous avons étudiées, et des variablesexplicatives de plus grande échelle spatiale, collectées sur l'océan. En climatologie, ceproblème appartient à la problématique plus générale de désagrégation des données.Les techniques de désagrégation de données (en anglais downscaling), sont des tech­niques qui relient des variables climatiques à l'échelle locale ou régionale, à desvariables atmosphériques de plus grande échelle (Hewitson & Crane, 1996). Elles ont étédéveloppées en raison de la difficulté d'utilisation des modèles de circulation générales(en anglais MCG) pour la simulation des phénomènes d'échelle réduite telles que lesprécipitations, ou la formation des nuages. En effet ces modèles sont adaptés à unesimulation à une plus grande échelle (avec des tailles de grilles typiques de 200 à 500km) (Biau et al., 1999).On peut distinguer deux grandes catégories de techniques. La première catégorie com­prend les techniques basées sur des modèles dynamiques emboîtés de grande résolution.Elles sont prometteuses mais sont encore en développement, en raison d'un besoin trèsdétaillé en données de surface et de la capacité de calcul nécessaire. La deuxième grandecatégorie, à laquelle nous nous intéressons, comprend les techniques empiriques, baséessur des méthodes statistiques. Elles offrent des solutions plus immédiates et moinscoûteuses en temps de calcul. Elles se divisent elles-même en deux sortes, les méthodeslinéaires et les méthodes non linéaires.

Les méthodes linéaires comportent les méthodes d'analyses conjointes de tableaux, ouméthodes descriptives, dans lesquelles les tableaux sont traités de manière symétrique,et les méthodes de régression, ou méthodes explicatives, qui expliquent un tableau parun autre.Les tableaux sont classiquement composés de séries temporelles d'une variable mesuréesen plusieurs points/stations. Les méthodes de type ACP basées sur des calculs matricielspermettent une approche objective, par rapport à des méthodes plus simples basées surdes calculs d'indices et des stations de référence, qui impliquent des choix subjectifs.Bretherton et al. (1992) présentent et comparent quatre d'entre elles, de par leurméthodologie et leur efficacité dans le cas de variables climatiques.Les méthodes qu'ils envisagent sont la "combined peA", qui est en fait l'ACP des

Page 138: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

138 Chap. 5. Régression multivariée

tableaux juxtaposés (Kutzbach, 1967), la "single-field-based PCA" (Wallace et al.,1992), qui consiste à établir des cartes de corrélation entre les composantes issues del'ACP d'un tableau et les variables de l'autre tableau (voir aussi Vuille et al. (2000)),l'analyse des corrélations canoniques, et l'analyse inter-batterie (ou singular valuedecomposition). L'analyse des corrélations canoniques extrait des composantes decorrélation maximale, et a été largement utilisée en climatologie depuis sa première ap­plication par Glahn (1968). L'analyse inter-batterie extrait quant à elle des composantesde covariance maximale, et a été moins utilisée en dépit de sa simplicité et de sa facilitéd'interprétation. La première application en météorologie résulte de Prohaska (1976).Les méthodes de régression comportent la méthode de régression linéaire multipleclassique, qui produit un estimateur non biaisé. Dans le cas où les variables explicativessont fortement corrélées entre elles ou lorsque leur nombre est supérieur au nombred'individus, des méthodes biaisées peuvent être utilisées. On peut citer la régressionsur composantes principales, et surtout la régression PLS (Tenenhaus, 1998), qui s'estbeaucoup développée dans le domaine de la chimie, particulièrement pour les donnéesde chromatographie ou de spectrographie qui contiennent beaucoup plus de variablesexplicatives que d'individus. Par contre, la régression PLS est peu utilisée pour lesdonnées climatiques. Nous proposons donc dans un premier temps l'application de larégression PLS sur nos données.

Les méthodes non linéaires, souvent plus complexes, sont relativement peu nom­breuses (Biau et al., 1999), mais sont particulièrement adaptées quand les variableslocales et celles de grande échelle sont reliées par des lois de probabilités. C'est lecas des variables de circulation atmosphérique et de pluie journalière. Ces méthodescomprennent par exemple les réseaux de neurones (Hewitson & Crane, 1996), les arbresde classification et de régression, les chaînes de Markov cachées (Bellone et al., 2000),ou la méthode analogue (Zorita et al., 1995). Biau et Wackernagel se sont inspirés de ladernière pour proposer une méthode couplant ACP et krigeage. Nous avons considérécette méthode en proposant une amélioration par l'utilisation de la régression PLS.

La méthode de krigeage est aussi une méthode d'estimation non paramétrique. Ilexiste d'autres types de méthodes non paramétriques, comme par exemple la méthodede régression locale polynomiale, introduite par Cleveland (1979) sous sa forme LOESS.Chaque observation est estimée par un modèle différent, provenant de la régressionpolynomiale sur les sous-ensembles d'observations voisines de l'observation à estimer.L'avantage de ce type de régression est qu'il est beaucoup plus souple que les régressionsparamétriques. Nous proposons l'application d'une extension de la méthode LOESS uti­lisant la régression PLS, en nous inspirant ainsi de l'approche de Centner & Massart(1998).

Page 139: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires 139

5.1 Description despréliminaires

variables et analyses

Dans cette partie nous introduisons un deuxième jeu de données, constitué par desvariables explicatives collectées sur les océans Atlantique et Pacifique. Le but est d'expli­quer au mieux les variables de pluies décrites précédemment. Celles-ci font l'objet d'unenouvelle disposition, dans le sens où au lieu de considérer un cube à trois dimensions(stations - mois - années), on considère maintenant un tableau à deux dimensions, lesmois étant concaténés pour former des séries temporelles continues. La période de tempsest divisée en deux, une période de calibration sur laquelle nous appliquons nos analyseset à partir de laquelle nous établissons des modèles, et une période de validation permet­tant en dernier lieu de valider ces modèles, ce qui complète les résultats des validationscroisées. Nous avons donc deux tableaux dont nous pouvons expliciter les variables.

Variables à expliquer

Il s'agit des séries temporelles mensuelles de pluie par station que nous avons déjàdécrites précédemment. Chacune couvre la période de janvier 1950 à décembre 1984.La période de calibration est de janvier 1950 à décembre 1979, et celle de validation dejanvier 1980 à décembre 1984. Ces séries ont été disposées dans un tableau Y avec enlignes les mois et en colonnes les 65 stations. Elles ont été de plus centrées et réduitesen colonnes en utilisant les moyennes et variances de la période de calibration.

Variables explicatives

Nous avons choisi d'utiliser 8 variables explicatives, chacune correspondant égalementà une série temporelle mensuelle de janvier 1950 à décembre 1984. Elles proviennent dusite internet de la NOAA (National Oceanic and Atmospheric Administration) 1.

Ces variables sont décrites dans le tableau 5.1. Les 7 premières variables correspondentà des valeurs mensuelles brutes de TSM, c'est-à-dire de Température Superficielle dela Mer, en degrés Celsius. Elles sont définies pour quatre secteurs de l'océan Pacifique("blocs Nino", représentés dans la figure 5.1), pour l'océan Atlantique Nord et Sud, etpour les tropiques. La dernière variable est l'Indice d'Oscillation Australe (SOI), quenous avons utilisé non standardisé: cet indice correspond à la différence entre les pres­sions atmosphériques (ou Sea Level Pressure = SLP) mesurées respectivement à Tahiti(Polynésie) et à Darwin (Australie).Les 8 variables ont été disposées dans un tableau Z avec en lignes les mois, et ont étécentrées-réduites en colonnes en utilisant les moyennes et variances de la période de ca­libration.

Un schéma récapitulatif de l'ensemple des variables est indiqué en figure 5.2. Sur cettefigure nous avons introduit le codage suivant pour les mois de chaque année : chaquemois est codé par un nombre à quatre chiffres, les deux premiers indiquant l'année et lesdeux. derniers indiquant le numéro du mois dans l'année. Par exemple, le mois de janvier1950 est codé par 5001.

1 http://www.cpc. ncep.noaa.9011/data/indices/index.html

Page 140: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

140

Code

nino12

nino3

nino34

nin04

NATL

SATL

TROP

SOI

Chap. 5. Régression multivariée

Variable

Valeurs mensuelles brutes de TSM pour le bloc Nino 12 (O-10S et 90W-BOW)

Valeurs mensuelles brutes de TSM pour le bloc Nino 3 (SN-58 et 150W-90W)

Valeurs mensuelles brutes de TSM pour le bloc Nino 34 (5N-5S et 170-120W)

Valeurs mensuelles brutes de TSM pour le bloc Nino 4 (5N-5S et 160E-150W)

Valeurs mensuelles brutes de TSM pour la zone Nord Atlantique (5-20N et 60-30W)

Valeurs mensuelles brutes de TSM pour la zone Sud Atlantique (0-208 et 30W-lOE)

Valeurs mensuelles brutes de TSM pour la zone tropicale (lOS-lON et 0-360)

Indice d'Oscillation Australe

TAB. 5.1 - Codage et description des variables explicatives.

FIG. 5.1 - Situations des blocs Nino 1,2,3 et 4 (Rossel, 1997).

5.1.1 Introduction des décalages

Dans le but de préciser les relations océan/pluie qui ne sont évidemment pas simul­tanées, nous avons choisi de rajouter des variables explicatives supplémentaires pourprendre en compte des éventuels décalages. Nous avons ainsi considéré les décalages deoà 12 mois. Cela a impliqué le raccourcissement de notre période de calibration, commel'indique le tableau 5.2 indiquant les périodes couvertes par les variables explicativescorrespondant aux différents décalages. Les périodes correspondant aux variables à ex­pliquer sont identiques à celles du décalage O. Deux nouveaux tableaux Y et Z sont doncdéfinis.Nous avons par cette opération multiplié par 13 le nombre de variables explicatives. Si

l'on examine la matrice des corrélations pour le tableau Z (348 x 104) correspondant à lapériode de calibration (non représentée ici en raison de ses trop grandes dimensions), onconstate que les variables sont fortement corrélées entre elles, le maximum de corrélationétant atteint entre le décalage 0 et le décalage 12 de la variable SATL (corrélation de0.9481). Dans une telle situation la méthode de régression PLS est adaptée, comme al-

Page 141: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

S.l Description des variables et analyses préliminaires 141

500~

mois

8411

stations1----·---------·--------------· 65

Y: pluiesmensuelles

5001

mois

8412

~M~~~~~g g g g~~~o-................ z ..... "--'I:ll:ll:ll:l oo.,1J11- -- ------- -- .....------- ------- 8

Z : variablesocéaniques

FIG. 5.2 - Les données utilisées.

Période de calibration :

Décalage 0 Décalage 1 +--510l 5012

Décalage 12

500l

7912 7911 7812

Période de validation :

Décalage 0 Décalage 1

800l 7912

+-- Décalage 12

790l

8412 8411 8312

TAB. 5.2 - Les périodes correspondant aux différents décalages pour les variables explicatives.

ternative à la régression multivariée classique. Nous avons donc appliqué la régressionPLS à nos deux tableaux. Comme il y a plus d'une variable à expliquer, la régressionPLS utilisée est celle appelée PLS2. Nous allons présenter les résultats obtenus, après unbref rappel sur la régression PLS.

5.1.2 Rappels sur la régression PLS

La régression PLS (Wold, 1966; Tenenhaus, 1998) est une méthode de régressionqui s'est beaucoup développée dans le cas où les variables explicatives sont fortementcorrélées entre elles ou quand le nombre de variables explicatives est supérieur au nombred'individus. Dans ces situations, la méthode de régression multiple ordinaire est plusdélicate à utiliser notamment dans sa partie test, à cause de l'obtention d'une matricenon inversible. Il est toujours possible alors d'obtenir des estimations des variables à

Page 142: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

142 Chap. 5. Régression multivariée

expliquer, mais les coefficients de régression ne sont plus uniques. Un autre inconvénientde la régression multiple est sa difficulté d'interprétation étant donné que les coefficientsde régression ne sont pas représentatifs de la corrélation entre les variables à expliqueret les variables explicatives (Elkettani, 2001). La régression PLS permet de remédier àces inconvénients.On distingue deux grands types de régression PLS, la régression PLS1 quand il n'y aqu'une variable explicative et la régression PLS2 quand il y en a plus.

Les données sont constituées par une matrice Z de dimensions n x q de variablesexplicatives, et une matrice Y de dimensions n x p des variables à expliquer. Dans lecas de la régression PLS1 cette matrice se réduit à un seul vecteur y. On suppose deplus que les matrices Z et Y sont toutes deux centrées en colonnes par rapport à lamétrique n- l In.La régression PLS est basée sur le calcul de deux jeux de a composantes orthogonalesentre elles T = [tl , ... ,ta] et C = [Cl, ... , Ca], qui sont respectivement les combinaisonslinéaires des tableaux Z et Y telles que les covariances entre les composantes de mêmerang ta = ZUa et Ca = YWa soient maximales. Les composantes T sont alors utiliséescomme nouvelles variables explicatives, l'estimateur PLS étant obtenu par régressiondes moindres carrés entre Y et T.Dans le cas de la régression PLS1le principe est similaire mais on calcule un seul jeu decomposantes T = [t l , ... , ta].

Plusieurs algorithmes ont été proposés pour calculer les composantes T et C. Les pluspopulaires sont les algorithmes NIPALS (Wold, 1966) et SIMPLS (De Jong, 1993), ledernier étant plus rapide et donnant des résultats plus faciles à interpréter (Hubert &Vanden Branden, 2003). Nous décrivons l'algorithme SIMPLS dans le cas de la PLS1,sachant qu'il est équivalent à l'algorithme NIPALS dans ce cas là (Hubert & VandenBranden, 2003).L'algorithme SIMPLS est le suivant: on initialise tout d'abord a = 0, Z(O) = Z, ety(O) = y.A chaque étape 1 ~ a :::; a, la composante ta est obtenue comme vecteur solution duproblème suivant :

max cov(t, y) = cov(z(a-l)u, y(a-l)) (5.1)utu=l

On peut montrer (Tenenhaus, 1998) que la solution Ua est le vecteur propre normé de lamatrice symétrique n-2 z(a-l)ty(a-l)y(a-l)tz(a-l) associé à la plus grande valeur propre.La a ième composante s'obtient donc par ta = z(a-l)ua .Puis z(a-l) et y(a-l) sont projetés sur la composante ta pour obtenir les résidus z(a) ety(a) .

5.1.2.1 Critères MBE et MBEP

Un outil classique pour évaluer la performance d'une régression PLS est le calcul ducritère M BE, ou Mean Squared Error. Il est défini, pour a composantes, par:

MBE(a) = t!.. [Yi - Yati=l n

(5.2)

Page 143: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires 143

dans le cas de la régression PLS1, avec fiai prédiction pour l'observation Yi calculée avecle modèle à a composantes. Dans le cas de la régression PLS2 la formule est la même, eton calcule un MSE pour chaque colonne de Y.Si l'on calcule les prédictions fiai' associées à n' nouvelles observations Yi' (qui n'ont passervi à calculer le modèle), alors on définit de manière similaire le critère MSEP, ouMean Squared Error of Prediction :

n'

MSEP(a) = '" ~ [Yi' - fiai,]2L- n,i'=l

(5.3)

Ces critères ne sont cependant pas suffisants pour évaluer la qualité de la régression. Enparticulier, pour choisir le nombre a de composantes optimales, on réalise habituellementla validation croisée.

Validation croisée

La validation croisée permet d'obtenir le nombre optimal a de composantes PLSà retenir. Dans le cas de la régression PLS1, pour chaque valeur de a on calcule lesprédictions fia[-i] à l'aide du modèle à a composantes, calculé en réalisant la régressionPLS utilisant toutes les observations sauf l'observation i. La statistique utilisée est alors lePRESS (ou PRediction Error Sum of Squares), défini par (d'après Tenenhaus (1998)) :

(5.4)

Le nombre optimal de composantes est choisi comme étant la valeur de a pour laquellePRESSl est minimal ou suffisamment faible.Dans le cas de la régression PLS2, on calcule une valeur partielle P RESSl(a, j) pourchaque colonne de Y, et on définit un PRESS2 global égal à la somme des PRESSlpartiels:

p

PRESS2 (a) = LPRESS(la,j)j=l

(5.5)

5.1.3 Comparaison de plusieurs régressions PLS2

Nous avons appliqué de nombreuses régressions PLS2 sur la période de calibration denos données, d'abord en considérant les tableaux complets puis en sélectionnant des sous­ensembles d'individus correspondant à une saison ou un mois précis. De façon généraleles résultats obtenus par la régression PLS2 (c'est-à-dire en conservant l'ensemble desstations) ne sont pas très bons en terme de pourcentage d'explication du tableau Y.Nous avons résumé les différentes analyses effectuées dans le tableau 5.3. Les tableauxmélangeant plusieurs mois ont été soumis à deux centrages/réductions différents, c'est­à-dire d'une part un centrage/réduction utilisant la moyenne et la variance de chaquemois (" par mois"), qui est fréquemment utilisé en hydrologie, et d'autre part le cen­trage/réduction classique utilisant la moyenne et la variance globale sur tous les indivi­dus (" global" ). La saison de février à mai a été sélectionnée car elle correspond à des

Page 144: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

144 Chap. 5. Régression multivariée

mois majoritairement pluvieux sur la zone, donc leur analyse est plus intéressante.Le tableau 5.3 indique pour chaque analyse le nombre de composantes optimales obtenupar validation croisée, et le pourcentage correspondant de variance expliquée de Y. Lenombre de composantes optimales pour les mois d'août et septembre n'a pas été indiquécar le nombre de zéros contenus dans ces mois entraîne une erreur dans le programmede validation croisée. Les pourcentages de variance indiqués pour ces deux mois cor­respondent à la première composante. On constate que les pourcentages de la variance

Nombre optimal de% cumulé correspondant

Individus Centrage/réduction composantesde la variance expliquée

selon la validationde Y (Rv)

croisée

tous les mois, n = 348par mois a=3 5.520%

global a=7 45.474%

mois de février à mai, n = 116par mois a=3 14.584%

global a=4 30.059%

mois de janvier, n = 29 global a=l 4.823%

mois de février, n = 29 global a=2 15.303%

mois de mars, n = 29 global a=2 16.963%

mois d'avril, n = 29 global a=2 24.058%

mois de mai, n = 29 global a=2 20.947%

mois de juin, n = 29 global a=l 4.026%

mois de juillet, n = 29 global a=l 9.745%

mois d'août, n = 29 global a =? 8.472%

mois de septembre, n = 29 global a=? 8.381%

mois d'octobre, n = 29 global a=l 8.683%

mois de novembre, n = 29 global a=l 6.293%

mois de décembre, n = 29 global a=2 18.482%

TAB. 5.3 - Comparaison de différentes PLS en fonction du pourcentage de la variance expliquée de Y.

expliquée de Y sont globalement faibles. Cela suggère que les variables explicatives quenous avons utilisées ne suffisent pas à expliquer la totalité du phénomène de pluie sur larégion du Nordeste. L'analyse la meilleure en terme de pourcentage est l'analyse sur tousles mois utilisant un centrage global, avec un pourcentage de 45% pour 7 composantes re­tenues. Ensuite vient l'analyse sur la saison de février à mai utilisant un centrage global,avec un pourcentage de 30% pour 4 composantes retenues. Ce fort pourcentage peut êtrerelié aux bons pourcentages des analyses séparées des mois correspondants (supérieurs à15%). On remarque que le centrage global est meilleur que le centrage mois par mois, etque l'analyse sur les mois de décembre a aussi un fort pourcentage de 18%. Nous avonsdécidé pour la suite de notre analyse de ne garder que l'analyse sur la saison de févrierà mai, avec un centrage global.

Page 145: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires 145

5.1.4 Régression PLS sur les mois de février à mai

On rappelle que les analyses que nous présentons ici sont effectuées sur la période decalibration.

5.1.4.1 Etude des composantes

Nous avons représenté dans les figures 5.3 et 5.4 les 4 premières composantes Ca: dutableau Y et les tracés des 4 premiers facteurs Ua: du tableau Z, en traçant une courbepar type de variable en fonction des décalages. Ces composantes correspondent à cellesretenues par la validation croisée (a = 4). On remarque que comme les tableaux sontcentrés et réduits, ces courbes correspondent aux corrélations entre les composantes ta:

et les variables de Z. Les graphes sont difficiles à interpréter en raison du nombre élevéde variables explicatives. On constate que la première composante Cl oppose plutôt les

Cl (l1.9%)

C\J

~ 01 0 .0·

00

<D ...1

~~~ 0(l)

~"'0 00 a ~oo .'0.3 1 0.~ 0 0 0

~~0

...:l ... ."1

C...

C\J ....6~o

6' 01 1

~...1

-44 -42 -40 -38 -36 o 1 2 3 4 5 6 7 8 9 101112Longitude Décalages

c2(8.4%) SOI nin034nino12 - NATLnino3 - SATL

~nino4 - TROP

1 OP)C\J

<D o~ 01 ~~ 0(l) ê 0 0 6"'0 00.3 1 0 0

0 0 ~ 0".;j0roO 0 .. 0

...:l ... <9 ~o1

C\JC\J...

1 0~ ... 1...

1

-40 -36 2 3 4 5 6 7 8 9 101112·44 -42 -38 o 1Longitude Décalages

FIG. 5.3 - Représentations spatiales des composantes Cl et C2 de Y (à gauche), et des facteurs UI etU2 de Z (à droite), pour la PLS des mois de février à mai sur la période de calibration. Les cerclesreprésentent les valeurs positives et les carrés les valeurs négatives.

Page 146: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

146 Chap. 5. Régression multivariée

c3(5.4%)

v~OD1

CD oot~o,....

,

~ oe0

Cl)

"0 00B 1 o 00 0 0'.g 0 0 ° . 0...:l,.... <9

0...,C\I 0

,....,.... 0 0 0 6' 0

1 0 1

V o <:Joo 0,....

1

-44 -42 -40 -38 -36 0123456789101112Longitude Décalages

SOI - nino34

c4(4.2%)nino12 - NATLnino3 - SATLnin04 - TROP

v ~o<o1 ,....

CD 000 0, ~~B~oCl) • o~o Q

0"goo 0.., , 0 00 0

~'z 0 ~G,....

Id 0 0...:l,.... 6> 0

1,

C\I 0 0 C\I,.... 0 0 0 (j) 0, 0 1

V o 0:>0 0,....

1

-44 -42 -40 -38 -36 0123456789101112Longitude Décalages

FIG. 5.4 - Représentations spatiales des composantes C3 et C4 de Y (à gauche), et des facteurs U3 etU4 de Z (à droite), pour la PLS des mois de février à mai sur la période de calibration. Les cerclesreprésentent les valeurs positives et les carrés les valeurs négatives.

stations de l'Agreste et de l'extrême nord du Sertao, et les stations plus à l'intérieurdes terres. Cette composante est la composante ayant la covariance la plus élevée avecla composante t 1 de Z définie par le facteur UI' On constate que ce facteur traduitune opposition entre les variables NATL et SATL, qui ont des évolutions périodiquessymétriques. Les décalages qui interviennent le plus pour la variable NATL sont ainsi lesdécalages 3 à 5, avec des corrélations positives, et 7 à 12, avec des corrélations négatives.Pour la variable SATL c'est la même chose mais avec un signe opposé. La variable SOIintervient peu dans la composante, et les variables Nino et TROP suivent approximati­vement la même évolution que SATL mais avec moins d'amplitude.La deuxième composante C2 représente quant à elle clairement l'opposition nord-est /sud-ouest que nom; a ions déjà observée pour la deuxième composante de l'ACP du ta­bleau compromis. La composante de Z associée est surtout corrélée avec les variablesNATL et SATL, qui ont là aussi une évolution presque symétrique. Ces deux variables

Page 147: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires 147

interviennent surtout pour les décalages faibles et dans le cas de NATL pour le décalageà 12 mois (correspondant au cycle annuel).La troisième composante C3 oppose un groupe de stations à la bordure sud et sud/est denotre zone d'étude, à toutes les autres stations. La composante de Z associée est corréléenégativement avec les décalages intermédiaires de la variable SOI, qui s'opposent à toutesles autres variables, et positivement avec les décalages intermédiaires des variables TROP,Nifi03, Nifi04, et Nifi034.Enfin, la quatrième composante C4 ne montre pas une répartition spatiale particulière.On remarque que toutes ses valeurs sont positives. La composante de Z associée opposela variable NATL et la variable SATL, avec des valeurs approximativement constantessur les différents décalages. Pour les autres variables les corrélations les plus fortes s'ob­servent uniquement pour le dernier décalage, avec un signe positif pour la variable SOIet un signe négatif pour les autres.En conclusion, l'analyse de ces graphes n'est pas évidente en raison du nombre élevé devariables, mais on constate que les variables NATL et SATL ainsi que la variable SOIinterviennent beaucoup dans les composantes des variables explicatives. Chaque compo­sante de Z est aussi corrélée avec des décalages différents. Pour la première composantel'évolution des corrélations des variables suivant les décalages forment des oscillations,pour la deuxième interviennent surtout les décalages extrêmes, en particulier les décalagesfaibles, pour la troisième ce sont plutôt les décalages intermédiaires, enfin la quatrièmecomposante est surtout représentée par le décalage à 12 mois.

5.1.4.2 Etude des coefficients de régression

Sur le graphe 5.5 nous avons représenté l'évolution des coefficients de régression ap­pliqués à chaque variable pour l'estimation de chaque station. Nous avons là aussi classéles variables par leur type et représenté l'évolution en fonction des décalages. Nous avonsaussi distingué trois groupes de stations en fonction de leur localisation géographique. Ils'agit du groupe des stations du Sertao Nord, du Sertao Sud et de l'Agreste. Le classementest indiqué dans le tableau 5.4. Ces groupes ont été déterminés à partir des coordonnéesdes stations sur les deux premières composantes de l'ACP du tableau compromis décritedans le chapitre 1.On constate que les profils des coefficients sont relativement homogènes à l'intérieur

Groupe Effectif Stations

AGB, CAU, STC, PET, SJE, SER, AFO, SAL,BET, BSF, CAE, STQ ,IPU, CED, OLA, SAR,

Sertao Nord 38 CRS, IBI, EMA, VAR, VAA, PAT, UMA, PRT,JAR, PAU, MAT, SVI, CRU, CEC, JAS, CAZ,POM, STZ, SEG, CUE, TEl, IMA

Sertao Sud 10 REM, BRM, COT, MAQ, SAN, BJL, PRN, NOA,RIS, RIO

Agreste 17 TIM, SBU, PAN, MAI, LAC, PRC, POF, FRP,NSD, SRB, PIU, MAB, RRE, IRA, FST, ARA, ITA

TAB. 5.4 - Classement des stations en trois groupes en fonction de leur localisation géographique.

de chaque groupe de stations. On remarque de plus que les coefficients les plus élevés

Page 148: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

148 Chap. 5. Régression multivariée

SOI nino12 nino3 nino4~ ~

.,; .,; ci .,;

0 0 0 0

.,; .,; ci .,;

~ :Il :!l :Il0.,; .,; .,; .,;

0 â â 0.,; .,;

~l'l III ~<i <;>

0 0 0 0

'? <i ~ <i

0 2 • • • 10 12 0 2 • • • 10 12 0 2 • 6 • 10 12 0 2 • • • 10 12

Décalages Décalages Décalages Décalagesnino34 NATL SATL TROP

~ ~ ~ ~

ci .,; ci .,;

0 0 0 0

.,; .,; ci .,;

:!l :<l ~ ~.,; .,;

0 0 â 0.,; .,; .,;

:<l~

:<l<i <i

0 0 0

9 ~ ~

0 2 • • • 10 12 0 2 • • • 10 12 0 2 • 6 • 10 12 0 2 • • • 10 12

Décalages Décalages Décalages Décalages

FIG. 5.5 - Evolution des coefficients de régression en fonction des décalages, pour chaque type de variableet chaque station.

Page 149: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires 149

en valeur absolue correspondent aux variables NATL et SATL, ce qui correspond à nosconclusions du paragraphe précédent, pour les décalages extrêmes.

5.1.4.3 Etude des MSE

Une représentation spatiale des valeurs des critères MSE par station (équation5.2) est donnée en figure 5.6. Les MSE varient entre 0.701 pour la station STQ à

Congitucte

~

Q)'l'

"0='+>.... '1'1d....:l

0';"

~ 00

~-44

-0 0

o o

FIG. 5.6 - Représentation spatiale des MSE pour la PLS sur les mois de février à mai de la périodede calibration. Les can-és représentent les valeurs inférieures à la moyenne et les cercles les valeurssupérieures à la moyenne, la taille des symboles étant proportionnelle à l'écart à la moyenne des M SEsur toutes les stations.

0.949 pour la station FST, pour une moyenne globale de 0.834. Ils varient suivant lalocalisation des stations. Ainsi, les stations du groupe Sertao nord ont une moyenne de0.813, donc inférieure à la moyenne globale, tandis que les stations du groupe Sertaosud et Agreste ont respectivement des moyennes de 0.847 et 0.874, donc supérieures à lamoyenne globale. Les stations du Sertao nord sont donc mieux prédites que les autres.Cependant même pour ces stations les MSE restent élevés par rapport à la variancedes variables qui est de 1. Au vu de ces résultats nous avons réalisé une sélection destations, dans le but de limiter les analyses suivantes à ces stations uniquement. Cesstations font partie du groupe Sertao nord, qui est le groupe le mieux prédit. Nousavons choisi les deux stations de ce groupe les meilleures en terme de MSE, soitSTQ, STZ et JAS (ces deux dernières étant très proches géographiquement), auxquellesnous avons rajouté les stations SAR, UMA et JAR (voir leur localisation sur la figure 1.2).

Les analyses réalisées jusqu'à présent nous ont permis de diminuer le nombre d'indivi­dus et le nombre de stations. Nous allons maintenant appliquer une méthode de sélectionde variables afin de diminuer le nombre de variables, qui est très élevé.

5.1.4.4 Sélection des variables par la méthode des VIP (Variable Importancein the Projection)

Nous avons choisi de diminuer le nombre de nos variables explicatives en utilisantla méthode des VIP. Le VIP est une aide à l'interprétation calculable à l'issue d'une

Page 150: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

150 Chap. 5. Régression multivariée

régression PLS, décrite dans Tenenhaus (1998). Il peut être utilisé pour sélectionner lesvariables de manière exploratoire.D'après Tenenhaus (1998), ·le VIP pour la variable j et la dimension du modèle a estdéfini par:

VIPaj =

avec:

(5.6)

p

• Rd(Y, ta) = ~ L COV2(Yk' ta) = part de variance de Y expliquée par tap k=1

a

• Rd(Y, t 1 ••• ta) = L Rd(Y, ta) = part de variance de Y expliquée par t 1 ••. taa=1

q

• Waj = coefficient de la variable Zj dans la composante ta, avec L W~j = 1j=1

La formule s'interprète de la façon suivante: pour mesurer la contribution de la variableZj à la construction de Y par l'utilisation de a composantes t 1 ... ta, il faut cumulerla contribution de Zj à chaque composante ta (par le biais de W~j)' et le pouvoir ex­plicatif des composantes ta (par le biais de Rd(Y, ta))' On pondère ensuite par q etRd(Y, t 1 •.. ta) afin d'obtenir E1=1 VIP;j = q.En pratique, on conserve les variables dont le VIP est supérieur à 1.

Résultats sur nos données

Les variables sélectionnées ont été indiquées dans le tableau 5.5, par la valeur1. Quand la case est vide cela veut dire que la variable n'a pas été sélectionnée, etdonc que le VIP correspondant est inférieur à 1. On constate que cette sélection estcohérente par rapport aux graphes des coefficients de régression. En effet, elle confirmeque les variables les plus importantes sont celles de l'océan Atlantique. Les variablesNiiio interviennent surtout pour les décalages de 0/1 mois et 11/12 mois, ces dernierscorrespondant au cycle annuel. On remarque la sélection du décalage de 2 à 3 mois pourla variable Niii012, et la totale absence de la variable SOr. Le nombre total de variablessélectionnées est de 44, ce qui correspond à moins de la moitié du nombre initial. Sion refait tourner la régression PLS avec ces 44 variables on obtient un pourcentagede variance expliquée de Y de 29.594% avec 4 composantes, ce qui correspond à unediminution très faible par rapport au modèle PLS avec les 104 variables. La validationcroisée correspondant à cette PLS redonne un résultat optimal de 4 composantes.Nous avons essayé, afin d'augmenter le poucentage d'explication de Y, de rajouter desvariables explicatives en considérant les carrés et les doubles produits des variablesinitiales, et en faisant une sélection par VIP sur l'ensemble des variables obtenues.Cependant nous n'en indiquons pas ici les sorties car cela n'a abouti à aucun résultatintéressant, les pourcentages d'explication étant inférieurs.Nous avons donc décidé pour la suite de nos analyses de ne conserver que les variablescorrespondant à celles sélectionnées dans le tableau 5.5.

Page 151: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.1 Description des variables et analyses préliminaires

Variable dO dl d2 d3 d4 d5 d6 d7 dB d9 dlO dll dl2

SOIninol2 1 1 1 1 1

nino3 1

nino4 1 1 1 1

nino34 1 1 1

NATL 1 1 1 1 1 1 1 1 1 1 1 1 1

SATL 1 1 1 1 1 1 1 1 1 1 1

TROP 1 1 1 1 1 1 1

151

TAB. 5.5 - Résultats de la sélection des variables par la méthode des VIP sur le modèle PLS à 4composantes, mois de février à mai. Les variables sélectionnées sont indiquées par la valeur 1.

En conclusion les régressions PLS ne nous ont pas permis d'obtenir des pourcentagesd'explication très élevés pour Y. Cela peut être dû à l'insuffisance de nos variables expli­catives, comme par exemple à l'absence de celles décrivant les vents qui pourraient four­nir une information complémentaire à nos variables. De plus, si nous avons sélectionnédes mois majoritairement pluvieux sur la zone d'étude et donc relativement homogènes,nous n'avons pas opéré de distinction entre les différentes années qui sont pourtant assezhétérogènes, comme nous l'avons vu dans le premier chapitre, avec des années plutôtsèches et des années plutôt pluvieuses. Suivant les années on peut donc imaginer queles liens entre la pluie et l'océan peuvent changer. Cela nous a conduit à considérer desapproches non paramétriques comme les régressions locales, afin de calculer des modèlesdifférents suivant les années. Mais auparavant nous avons testé une autre méthode nonparamétrique qui utilise l'estimation par krigeage.

Page 152: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

152

5.2

Chap. 5. Régression multivariée

Désagrégation des données de pluie par combi­naison PLSjkrigeage

Nous considérons dans ce paragraphe la méthode de désagrégation non linéaire pro­posée par Biau et al. (1999), qui associe ACP et krigeage. L'idée de la méthode est deconsidérer les composantes issues de l'ACP comme formant un espace dans lequel onpeut réaliser le krigeage d'une variable de pluie.

5.2.1 Description de la méthode

Dans sa formulation originale la technique consiste à réaliser l'ACP des variablesexplicatives en vue d'obtenir des composantes orthogonales. Ces composantes définissentl'espace dans lequel est réalisé le krigeage des variables de pluie.

Les données sont constituées par un tableau Z de dimensions n x q regroupant lesq variables explicatives, et par un vecteur y de longueur n contenant la variable àexpliquer.Soient t l , ... tj ... ta les a composantes (n x 1) retenues après l'ACP de Z (a ~ q). Cescomposantes définissent un espace Ta de dimension a.Soit x vecteur de longueur a appartenant à l'espace Ta défini par les composantes:x = (t l ... ta)t. x correspond à une certaine configuration des composantes tl'" ta,et par extension des variables explicatives Zl ... Zp. On peut donc lui associer unevaleur y(x) pour la variable à expliquer. Dans notre cas, une certaine configurationdes TSM dans l'océan et du SOI correspond au même moment à une certaine valeurde pluie pour une station donnée. On peut donc considérer que le vecteur y contientles n réalisations d'une variable régionalisée y(x) mesurée en n points Xi de Ta :y = (Y(XI) ... y(xn))t. C'est donc la réalisation d'une fonction aléatoire, on se retrouveplacé dans le contexte décrit par la géostatistique. Sous condition que les hypothèsesde stationnarité nécessaires soient respectées, il est donc possible d'estimer la valeurde la variable régionalisée y(x) en tout point Xo de Ta ne faisant pas partie del'échantillonnage initial, connaissant les réalisations y(xt} ... y(xn ).

On utilise pour cela la méthode du krigeage ordinaire, qui est la méthode de krigeagela plus répandue pour estimer la valeur d'une fonction aléatoire en un point d'unespace sur lequel la fonction de variogramme est connue, en utilisant les valeurs despoints avoisinants (Wackernagel, 1998). Un résumé de la méthode du krigeage ordinaireest proposé dans l'annexe 3. Contrairement au krigeage simple où l'espérance de lafonction aléatoire est supposée connue, dans le cas du krigeage ordinaire l'espérance estsupposée être une constante mais inconnue. L'estimation est réalisée par minimisationde l'erreur quadratique (Elkettani, 2001). L'estimateur obtenu est linéaire par rapportaux réalisations y(xt} ... y(xn ), mais par contre il se comporte non linéairement parrapport aux coordonnées spatiales et donc dans notre cas aux composantes t l ... ta'

Dans le cas où il y a plusieurs variables à expliquer regroupées dans un tableau Y dedimensions n x p, Biau et al. (1999) proposent de réaliser l'estimation par krigeage dechaque variable lj indépendamment des autres, après l'ACP du tableau Z qui permet decalculer un groupe de composantes communes à toutes les variables à expliquer. L'aspect

Page 153: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.2 Combinaison PLS/krigeage 153

multitableaux d'une part, les composantes étant calculées indépendamment des variablesà expliquer, et l'aspect multivarié des variables à expliquer d'autre part, ne sont donc pasexploités. Nous proposons un moyen d'améliorer l'efficacité de la méthode en utilisantles composantes obtenues par la régression PLS. De cette façon les composantes obte­nues seront optimales au sens de la covariance avec les variables à expliquer. Nous avonsdécrit le principe de la PLS dans le cas d'une variable à expliquer dans le paragraphe5.1.2. Seule la première partie de la régression PLS est considérée, c'est-à-dire l'obtentiondes composantes. Elles correspondent aux composantes obtenues par l'analyse d'inter­batterie entre les deux groupes de variables. L'étape de régression n'est pas réalisée etest remplacée par l'estimation par krigeage. Il est possible d'appliquer les deux types derégression PLS1 et PLS2, suivant que l'on fait l'analyse variable par variable, ou quel'on calcule un jeu de composantes communes à toutes les variables à expliquer. De cettefaçon nous recherchons des composantes plus optimales.Il est aussi possible dans ce dernier cas, de réaliser l'estimation par cokrigeage à laplace du krigeage, en utilisant les pluies des autres stations comme cofacteurs dansl'estimation d'une station. Cependant cela nécessite l'estimation du modèle linéaire decorégionalisation qui devient très lourde si on considère beaucoup de stations.

5.2.2 Applications

Nous avons appliqué la méthode aux individus, variables et stations sélectionnées àpartir des régressions PLS dans les analyses préliminaires. Nous considérons donc lesmois de février à mai, avec un centrage global, les variables explicatives sélectionnéesdu tableau 5.5, et les stations STQ, STZ, JAS, SAR, UMA, et JAR, qui sont toutessituées dans le nord du Sertâo (figure 1.2). Nous avons comparé les résultats obtenuspar combinaison ACP et krigeage, PLS et krigeage, et régression PLS uniquement.A chaque fois nous avons considéré les deux types de PLS, soient PLS2 et PLS1.Dans le cas de la régression PLS2 nous avons gardé en variables à expliquer toutesles stations de la zone du Sertao Nord (tableau 5.4). Dans un souci de simplification,comme nous ne disposons que du programme de krigeage dans un espace à deux dimen­sions, nous avons décidé de fixer arbitrairement le nombre a de composantes à deux.Il serait évidemment possible d'en considérer plus, comme l'ont réalisé Biau et al. (1999).

Nous avons représenté dans la figure 5.7 les nuages de points correspondant auxdeux premières composantes de l'ACP du tableau des variables explicatives, aux deuxpremières composantes de la régression PLS2, et aux deux premières composantes desrégressions PLS1 pour quelques stations considérées. On constate que les nuages depoints ne sont pas homogènes, surtout dans le cas de l'ACP. Les lettres V correspondentaux valeurs de la période de validation, on constate qu'elles sont pour la plupart àl'extérieur ou en bordure des nuages de points. Cela peut s'expliquer par le fait que cespoints contiennent par exemple des mois de l'année 1983 qui correspondent à un épisodeNino important et donc les variables Nino correspondantes ont des valeurs particulières.L'estimation par krigeage des valeurs des pluies en ces points est donc difficile dansnotre cas. Au vu de ces réultats nous avons décidé de ne pas comparer les différentesméthodes sur la base de la période de validation, mais de nous limiter à la validationcroisée.

Page 154: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

154 Chap. 5. Régression multivariée

.. ." ,,~ •• v " .. "..:

v(..l''lf .". 1.....

: ..v~v·:·:;~ "". """

: ...:::.:...-8 -4 -2 0

tlPLSI - station STZ

..•....• .. ..

..

•v •

·vv. .., .. v.:.,

v ,vv

::..r...!

-5 0

tlPLSI - station STQ

y. • .v·

• v. ".'4lvV·:· v: •••• .,•• 1 1 •••

.. "" -.." -:,," ,"... ...,

~ L- ....:......__----'

.. :~..-8 -4 ·2 0

t 1PLSI - station SAR

..

..... " ' .... "'; ,'O.. "

• ••• ~:. v Wj••v~·••• • •••.. " ." ."... "W'v •••">Jo.. ••. ......" '" ......

:" .:" ..

-4 ~2 0

tlPLSI - station JAS

.., ...

.. .. "" ".: ..>1 '1:1. IV. • • ••

: .If. r~\l.u .v•••• ' : •••·W>1. •

• Ik-.' •• • •....... ,,'.. .. ..

j: .. ""

~ '-----------~-------'

.. : .C'l

+00

".., ...

..;:'..,. .

.. -4

.. ..: ".v:",J~.v· .. ..•• Vt..~.:"•. :.

!ft '.:.:.:•••". -:"" "" ..

... : ,:.....• , .. 1 ..

" ".".'.. "v wv v.~, :.:• • 't"\o v

vvv ••• ~ •••1( •\" " ... "... "

", .. " ,." "",,.... "." .".-2

FIG. 5.7- Nuages de points correspondant aux deux premières composantes de chaque analyse effectuée:A CP, PLS2, et PLS1. Les points correspondent à la période de calibmtion et les lettres V à la périodede validation.

Page 155: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.2 Combinaison PLS/krigeage 155

Les résultats d'ajustement des variogrammes pour chaque station sont indiqués dansle tableau 5.6. La majorité des variogrammes modélisés a un palier (modèle cubiqueou sphérique), ce qui n'est pas le type de variogramme donnant les meilleurs résultatsd'après Biau et al. (1999). En effet sur leurs données les meilleurs résultats ont été obtenuspour des modèles puissance, ce qui correspond à un faible nombre de nos modèles. Onremarque aussi deux cas de variogrammes linéaires, obtenus avec la régression PLSl.Nous avons aussi calculé les différents variogrammes directionnels (non représentés ici),ce qui nous a permis de considérer l'hypothèse d'isotropie comme raisonnable.

Stations Type de régression Modèle de variogramme 81 82 83

STQ ACP sphérique 0.567 5.261 0.529

PLS2 sphérique 0.492 13.545 0.879PLSI linéaire 0.391 0.122

STZ ACP sphérique 0.720 5.808 0.344

PLS2 sphérique 0.473 6.051 0.557

PLSI sphérique 0.442 7.228 0.628

JAS ACP puissance 0.472 0.292 0.450

PLS2 sphérique 0.549 6.998 0.505

PLSI puissance 0.354 0.246 0.545

SAR ACP sphérique 0.437 1.997 0.592

PLS2 puissance 0.613 0.105 0.855PLSI linéaire 0.582 0.097

UMA ACP sphérique 0.061 0.921 0.882

PLS2 sphérique 0.654 4.905 0.324

PLSI cubique 0.709 5.743 0.257

JAR ACP sphérique 0.484 1.062 0.520

PLS2 sphérique 0.680 5.861 0.359

PLSI sphérique 0.519 5.841 0.529

TAB. 5.6 - Modèles et paramètres des variogrammes pour quelques stations, calculés à partir des co­ordonnées définies par les composantes de l'ACP, de la PLS2, et de la PLS1. Les paramètres 8 fontréférence à ceux du tableau 2.2.

Nous avons donc réalisé les validations croisées pour le krigeage des données de pluiesdans l'espace des composantes de l'ACP (noté ACPK), le krigeage dans l'espace descomposantes de la régression PLS2 (noté PLS2K), et de la régression PLS1 (noté PLS1K),et nous les avons comparées avec la validation croisée pour les régressions PLS2 et PLS1classiques. Pour cela nous avons calculé à chaque fois la statistique PRESS, d'aprèsl'équation 5.4. Les résultats sont indiqués dans le tableau 5.7. Ils nous montrent que pourtoutes les stations que nous avons considérées, la combinaison krigeage-ACP qu'avaientproposée Biau et al. (1999) est la plus mauvaise en terme de PRESS. La différenceentre le résultat obtenu par cette méthode et le meilleur résultat obtenu pour chaquestation varie de 0.148 pour la station JAS à 0.47 pour SAR, ce qui est très important parrapport aux valeurs de PRESS obtenues. Il est par contre assez difficile de classer lesperformances des méthodes PLS1K et PLS2K et celles des régressions PLS classiques.

Page 156: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

156 Chap. 5. Régression multivariée

En effet le krigeage est le meilleur pour 3 des stations, (dont 1 pour le PLSIK et 2 pourPLS2K), et la régression PLS est la meilleure pour les 3 autres stations (dont 2 pour laPLSI et 1 pour la PLS2). Il y a de plus peu d'écarts entre les résultats de ces 4 méthodes.Nous avons aussi comparé les moyennes et les variances des variables réestimées par lavalidation croisée dans les tableaux 5.8 et 5.9, sachant que les variables à expliquerétant centrées et réduites on doit comparer les valeurs obtenues aux valeurs 0 et 1respectivement. Le krigeage étant un estimateur sans biais, on voit que les moyennesobtenues sont presque nulles. Par contre les variances sont sous estimées, ce qui estune propriété du krigeage, qui effectue un lissage. Cependant les variances obtenues parrégression PLS2 et PLSI sont elles aussi sous estimées.

Stations ACPK PLS2K PLS1K PLS2 (a =2) PLS1 (a =2)

STQ 0.799 0.588 0.561 0.574 0.568

STZ 0.819 0.671 0.642 0.638 0.617

JAS 0.782 0.697 0.662 0.661 0.634

SAR 1.058 0.588 0.647 0.682 0.699

UMA 1.058 0.671 0.760 0.773 0.792

JAR 1.067 0.908 0.872 0.826 0.836

TAB. 5.7 - PRESS par station calculés pour les régressions PLS2 et PLSl (en utilisant des modèles à2 composantes), et pour le krigeage dans les différents espaces considérés (espaces des deux premièrescomposantes de l'ACP, de la PLS2, et de la PLS1).

Stations ACPK PLS2K PLS1K PLS2 (a = 2) PLS1 (a = 2)

STQ 0.003 -0.003 -0.000 0.002 0.003

STZ 0.003 -0.002 -0.001 0.001 0.001

JAS 0.004 -0.002 0.000 0.001 0.004

SAR 0.010 -0.003 0.000 0.003 0.005

UMA 0.010 -0.002 0.000 0.003 0.001

JAR 0.005 -0.000 -0.001 0.001 0.002

TAB. 5.8 - Moyennes des variables réestimées par validation croisée.

Stations ACPK PLS2K PLS1K PLS2 (a = 2) PLS1 (a = 2)

STQ 0.275 0.405 0.476 0.443 0.461

STZ 0.215 0.321 0.382 0.387 0.423

JAS 0.261 0.283 0.398 0.366 0.410

SAR 0.179 0.405 0.368 0.346 0.361

UMA 0.179 0.321 0.248 0.265 0.272

JAR 0.049 0.164 0.202 0.209 0.225

TAB. 5.9 - Variances des variables réestimées par validation croisée.

En conclusion, l'utilisation des composantes PLS et en particulier des composantesPLS2 a permis d'améliorer sur nos données les résultats de krigeage par rapport à

Page 157: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.2 Combinaison PLS/krigeage 157

En conclusion, l'utilisation des composantes PLS et en particulier des composantesPLS2 a permis d'améliorer sur nos données les résultats de krigeage par rapport àl'utilisation des composantes de l'ACP. L'avantage de la régression PLS2 est que le jeudes composantes calculées est commun à l'estimation de toutes les stations, ce qui estdonc plus facile à mettre en oeuvre que si on utilise la régression PLS1, puisque lesvariogrammes sont tous estimés dans le même système de coordonnées. Il est cependantdifficile d'évaluer sur nos données l'apport de ces techniques par rapport à la régressionPLS classique.On souligne que les inconvénients de cette méthode restent nombreux. Ainsi, elle estd'abord difficilement automatisable, car elle repose sur l'ajustements de variogrammesqui restent subjectifs. Si l'on veut appliquer le cokrigeage, la modélisation est encoreplus difficile et lourde en temps de calcul. De plus, nous avons vu l'importance del'homogénéité du nuage de points des coordonnées dans lequel on réalise le krigeage. Sicelui-ci est hétérogène et que les observations à estimer se retrouvent à l'extérieur dunuage ou même en bordure, l'estimation va être mauvaise. On peut même obtenir desvaleurs négatives dans le cas où toutes les observations sont positives, étant donné queles coefficients d'estimation peuvent être des deux signes (Elkettani, 2001), ce qui estun inconvénient du krigeage.

Page 158: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

158

5.3

Chap. 5. Régression multivariée

Méthodes de régression locale

Dans le but d'améliorer nos modèles de régression nous nous sommes intéressés auxméthodes de régression locale, qui sont des méthodes non paramétriques, contrairementà la régression PLS. En effet, dans le cadre des régressions locales aucun modèle globalne doit être spécifié, car on ajuste séparément des portions de données au moyen depolynômes de faibles degrés, ces portions étant déterminées par des critères simples. Lescoefficients de régression son~ donc différents pour chaque point estimé. L'ajustementest réalisé par régression des moindres carrés, multiple dans le cas où il y a plusieursvariables explicatives. Cependant nous avons vu que la régression multiple a desinconvénients dans le cas où il y a beaucoup de variables explicatives et/où celles-cisont corrélées entre elles. La régression PLS (Tenenhaus, 1998) est alors l'alternativeclassiquement utilisée. On propose donc de considérer l'extension de la méthode derégression locale multivariée utilisant la régression PLS. Nous nous sommes inspirés plusprécisément de la méthode dite LOESS (ou LOWESS), utilisant une règle de voisinagedes plus proches voisins, qui a été proposée par Cleveland (1979) et qui a par la suiteété développée par Cleveland & Devlin (1988).

L'idée d'utilisation de la régression PLS dans le cadre de la régression locale n'estpas vraiment nouvelle. Elle a en effet d'abord été introduite par Aarhus (1994), qui l'aintégrée dans des algorithmes plus complexes. Une formulation de la régression locale detype LOESS utilisant la régression PLS a ensuite été explicitée par Centner & Massart(1998), qui l'ont comparée sur des données de mesures infra-rouges à la régression PCRlocale (utilisant la régression sur composantes principales). L'algorithme PLS qu'ilsutilisent est l'algorithme SIMPLS, pour une seule variable explicative. Ils envisagentaussi une pondération uniforme au lieu de la fonction tricube utilisée par Cleveland(1979). Parallèlement, Schaal et al. (1998) ont comparé la méthode de régressionPLS1 locale dans le cas d'une pondération par une fonction de poids gaussienne (sansintroduire de règle des plus proches voisins comme dans LOESS), à d'autres types derégressions locales sur des données de simulation de Monte-Carlo, afin d'évaluer sarobustesse. L'algorithme utilisé est aussi l'algorithme SIMPLS. Leurs simulations ontmontré les bons résultats obtenus par la régression PLS locale, associés à une simplicitéde calcul.Une particularité de la régression PLS est la nécessité de déterminer le nombre a decomposantes retenues, ce qui se fait usuellement par validation croisée, avec le calculdu PRESS (voir équation 5.4). Dans le cadre de la régression PLS locale, Centner &Massart (1998) ont considéré une validation croisée globale, en déterminant un nombrede composantes commun pour l'estimation de tous les individus. Schaal et al. (1998)ont par contre considéré une optimisation lors de l'estimation de chaque point, parun critère basé sur le MSE. Il est en effet peu envisageable de réaliser une validationcroisée pour l'estimation de chaque point, qui serait beaucoup trop lourde à mettre enoeuvre.

La régression PLS locale a donc été utilisée par les divers auteurs uniquementdans sa forme PLS1, avec une seule variable à expliquer. Cependant quand le nombrede variables à expliquer est important il devient très lourd de réaliser l'estimationvariable par variable. Nous proposons donc tout d'abord de comparer sur nos données

Page 159: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 159

les régressions de PLSI locales et PLS2 locales aux régressions PLS2 et PLSI et à larégression locale classique.De plus, si les performances et donc l'intérêt de la méthode de régression PLS locale ontdéjà été considérés par plusieurs auteurs, nous n'avons pas rencontré d'étude théoriquedes propriétés asymptotiques de l'estimateur obtenu. On propose donc une tentatived'étude asymptotique dans le cas de la régression PLSI locale à 1 composante.Enfin, n'a été considérée jusqu'à présent que l'utilisation de la régression PLS aprèsdétermination des voisins, ces voisins étant donc calculés à partir des données ex­plicatives initiales. Cependant il est aussi possible d'utiliser la régression PLS d'unemanière différente. Aarhus (1994) propose ainsi dans sa conclusion, sans le développer,d'effectuer la régression locale sur les composantes obtenues par la régression PLS. Lecalcul des voisins est alors effectué sur ces composantes, et la régression locale utilise larégression multiple classique. Nous nous proposons donc de reprendre cette approche etde la tester sur nos données.

Nous présenterons tout d'abord le principe de la régression polynomiale locale, puisde ses extensions utilisant la régression PLS. Nous développerons ensuite une propositiond'étude théorique dans le cas de la régression PLSI locale à une composante, et nousaborderons enfin les résultats pratiques sur nos données.

5.3.1 Principe de la régression locale multivariée, et extensionà la régression PLS

Comme indiqué en introduction nous considérons plus précisément la régressionlocale polynomiale multivariée de type LOESS de Cleveland (1979), qui utilise une règledes plus proches voisins et la pondération par la fonction tricube.Les données sont constituées par un tableau Z qui est le tableau n x q des variablesexplicatives et d'un tableau Y, de dimensions n x p, des variables à expliquer (voirfigure 5.8). Ces deux objets possèdent donc tout deux le même nombre n d'observations.Pour chaque observation Yi (ëème ligne de Y, pour i = 1, ... , n), un sous-ensemble desobservations de Y est ajusté par un polynôme en Z de faible degré T, pour le mêmesous-ensemble d'observations. Ce sous-ensemble rassemble les observations de Z les plusproches de la ligne Zi' au sens de la distance euclidienne classique. Le polynôme estajusté par la méthode des moindres carrés pondérés, c'est-à-dire en donnant plus depoids aux observations proches de celle pour laquelle la réponse est estimée. Les poidssont obtenus par application d'une fonction noyau w sur les distances normées entre Ziet l'ensemble des lignes voisines.Cette méthode ne nécessite donc pas la définition d'un modèle global car il y a unmodèle différent pour chaque observation Yi. Les trois paramètres à fournir sont leparamètre de lissage j, le degré du polynôme T, et la fonction de poids w.

- Le paramètre de lissage j permet de définir les sous-ensembles d'observationsutilisés pour chaque régression des moindres carrés pondérés. Il indique en effet lepourcentage des observations à considérer à chaque fois. Les observations utiliséespour l'estimation de l'observation Yi sont ainsi les nj (arrondies à l'entier supérieur)observations Zi' les plus proches de Zi. Ce paramètre doit être compris entre (T + 1)/n

Page 160: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

160 Chap. 5. Régression multivariée

et 1, r étant le degré du polynôme local utilisé. En général il est pris entre 0.25 et0.5 (NIST/SEMATECH, 2003). Des valeurs élevées rendent les fonctions de régressionlisses, peu influencées par les fluctuations des données. A l'opposé des valeurs faiblespermettent de s'approcher au mieux des données, au risque cependant de modéliser lapartie d'erreur aléatoire.

- Le degré r du polynôme est presque toujours de 1 ou de 2, ce qui correspond àun modèle respectivement linéaire et quadratique localement. Le degré 0 correspondquant à lui à une moyenne mobile pondérée. Des degrés plus élevés tendraient à êtrenumériquement instables et rendraient les calculs difficiles.

- La fonction de poids est aussi appelée fonction noyau. Quelques-unes des fonctionsnoyaux utilisables sont présentées dans le tableau 5.10. La fonction traditionnement uti­lisée par Cleveland (1979) est la fonction tricube, mais toute autre fonction satisfaisantles propriétés citées dans Cleveland (1979) peut aussi être employée.On applique la fonction de poids à la distance dii' entre chaque observation Z~ dusous-ensemble selectionné et l'observation Zi pour lequelle on estime la réponse Yi'Cette distance est préalablement normalisée de façon à ce que la distance maximalepour tous les points du sous-ensemble soit 1.

Dans le cas de l'utilisation de la régression PLS à la place de la régression multiple,le principe de la méthode est identique, la régression des moindres carrés pondérés étantjuste remplacée par la régression PLS pondérée. Il y a un paramètre de plus à définirpar rapport à la méthode LOESS, qui est le nombre a de composantes retenues.Un résumé des deux procédures est représenté dans le tableau 5.11. En complément lafigure 5.8 propose un schéma des transformations des données.

Nom Expression Caractéristiques

w(d) = { ~1 -Idl')' si Idl < 1- support complet

Fonction tricube - deux dérivéessi Idl ~ 1 continues aux bornes

Fonction w(d) = { ~(1 -Idl') si Idl < 1- support complet

d'Epanechnikov si Idl ~ 1- pas de dérivéecontinue aux bornes

- support infiniFonction gaussienne w(d) = vk exp-ldI

2/2, '1ldl - continuement

différentiable

TAB. 5.10 - Exemples de fonctions noyaux (Simonoff, 1998).

En conclusion, les avantages et inconvénients de l'approche polynomiale locale sontensuite résumés dans le tableau 5.12.

Page 161: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 161

Etape 0

Etape 1

Etape 2

Etape 3

Etape 4

Etape 5

Etape 6

Initialisation: choix du paramètre de lissage f, dudegré du polynôme T, de la fonction de poids w (et dunombre a de composantes); i = 1.

Détermination des voisins de la ligne Zi (en utilisant leparamètre de lissage 1). On calcule pour cela toutes lesdistances euclidiennes entre Zi et les autres lignes, eton conserve les nf lignes les plus proches.

Construction de Zi regroupant les nf lignes voisines deZi' et de Yi regroupant les nf lignes de Ycorrespondantes.

Calcul de la matrice nf x nf de poids Di en utilisantla fonction tricube appliquée sur les distancesnormalisées entre Zi et toutes les lignes voisines.

Régression multivariée (PLS) de Yi par Zi en utilisantla métrique Di (et a composantes). O~tention de lamatrice des coefficients de régression l3i' de dimensionsqxp.

Yi = zJk

Si i = n fin, sinon i = i + 1 et revenir à l'étape 1.

TAB. 5.11 - Résumé de la procédure de régression locale multivariée de type LOESS, pour un polynômede degré 1. Entre parenthèses est indiqué le cas de l'utilisation de la régression PLS.

Avantages Inconvénients

- pas de modèle global à définir- nécessité de jeux de donnéesimportants, avec échantillonnage dense- ne produit pas de fonction de

- flexible et simple à mettre en oeuvre régression sous la forme d'une formulemathématique

- possibilité d'utiliser les tests existantpour la validation des modèles de - couteux en temps de calculrégression de moindres carrés

- influencée par les observationsaberrantes, tout comme les autresméthodes de moindres carrés

TAB. 5.12 - Avantages et inconvénients de la régression polynomiale locale, d'après NIST/SEMATECH(2003).

Page 162: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

y Z

162

l--------L-------- pl

,

ft '--------'

Cbap. 5. Régression multivariée

1----- L_._ ---- -q

l,

,,

n'--------'

r--n~nn.n--i n1:i,rn...:;....nnl

~ Yi

~ / ~j .

! I·nnnnnn...n. p Jnn.nn·l ! \ 1·...·n.L.....q 1.0000...0000.0000 q

'0' 'ru 1 1

• - 1 - 1 • - -2

~ Yi ~ Di ~ l Zi Zi

~ /Régression multiple ou PLS

FIG. 5.8 - Schéma des transformations des données lors des méthodes de type LOESS multivarié (casd'un polynôme de degré 2).

Page 163: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 163

5.3.2 Variante: régression locale sur les composantes PLS

Nous considérons maintenant l'approche proposée par Aarhus (1994), qui consiste àréaliser une régression locale multivariée classique en utilisant comme variables explica­tives les composantes obtenues par régression PLS. Cette approche peut se comparer àcelle combinant régression PLS et krigeage décrite dans précédemment. Dans les deuxcas une régression PLS est d'abord effectuée sur les données, et un nombre a de com­posantes ta est retenu. Puis les composantes sélectionnées sont utilisées pour réaliserl'estimation par krigeage ou par régression polynomiale locale, ces deux méthodes étantdes méthodes non paramétriques.Nous présentons plus précisément dans la figure 5.91e principe dans le cas de la régressionPLS1, mais la méthode s'étend sans problème au cas de la régression PLS2.

5.3.3 Etude théorique de la régression PLSI locale

Nous allons maintenant présenter le cadre théorique de la méthode de PLS1locaie afinde préciser l'écriture de l'estimateur et d'étudier son comportement asymptotique. Dansle cas de la régression PLS1 il n'y a qu'une seule variable à expliquer représentée par unvecteur y. Nous avons choisi d'utiliser le cadre théorique de la régression polynomialelocale multivariée comme il est présenté par exemple dans Wand & Jones (1995).

5.3.3.1 Rappels sur la régression PLS

Nous avons décrit la régression PLS1 basée sur l'algorithme SIMPLS dans le pa­ragraphe 5.1.2. La formule de régression des moindres carrés entre les composantes Tobtenues et le vecteur y, peut s'écrire facilement en fonction des variables initiales Z :

(5.7)

avec:

(5.8)

et :

Ka = [sISsl ... Isa-ls]s = Z~Z

s = zty

On peut utiliser à la place de Ka n'importe quelle matrice engendrant le même espace.En particulier, dans le cas où a est grand et S est mal conditionnée, K~SKa est presquesingulière donc on préfère utiliser Ua = [U11 ... 1Ua], matrice des vecteurs de poids Uk

(Phatak, 1993).On remarque que l'estimateur obtenu n'est pas linéaire en y car celui-ci intervient dansle calcul de Ka et Ua'L'estimateur 5.8 est défini en utilisant la pondération implicite par n-l In, dans ladéfinition des covariances et le centrage de y et Z. Il est aussi possible d'utiliser dansla régression PLS une métrique D dans l'espace des variables Rn. Dans ce cas tous lesproduits scalaires dans Rn s'effectuent au sens de D (Cazes, 1997). C'est ce que nous

Page 164: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

164 Chap. 5. Régression multivariée

l---------.i---------q

1 zri

y

10PLS ~

10n +

J:Ô Smedion desv~ n: r;:-- al

+ / +~ Dy; ;1~! rtr--:--- y---~~--- al

~f ~~ ~fWl Ti Il Ti

~~Régression multiple

FIG. 5.9 - Schéma des transformations des données lors de la régression locale sur les composantesPLSl (dans le cas d'un polynôme de degré 2).

Page 165: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale

utilisons pour définir l'estimateur PLS local.

165

Nous avons donc rappelé la définition de l'estimateur PLS classique. C'est cet esti­mateur que nous allons utiliser à la place de la régression multiple dans le contexte de larégression polynomiale locale. Nous allons donc maintenant présenter le cadre théoriquede la régression polynomiale locale, et introduire notre estimateur.

5.3.3.2 Modèle et écriture de l'estimateur

On considère que y et Z contiennent chacun n tirages aléatoires indépendants desvariables aléatoires Y et Z = (Z1 ... Zq)t (variables explicatives). On suppose que lesdonnées ont été générées par le modèle suivant :

(5.9)

avec:- E(f) = 0,- var(f) = 1,- Z et f indépendants,- /72(Z) = var(YjZ = z) (variance conditionnelle),- m(z) = E(YjZ = z) (espérance conditionnelle).

On note t(.) la densité marginale (multivariée) de Z. 'Dm(z) est le vecteur de longueurq des dérivées partielles de men z, d'élément j donné par:

âm(z)âZ

j•

llm (z) est la matrice q x q du Hessien de m en z, d'élément (j,j') donné par:

82m(z)8zj 8zj 1 •

On suppose que K est une fonction de densité de probabilité multivariée, bornée et àsupport complet, vérifiant (u étant un vecteur de longueur q) :

- f K(u)du = 1,- f uK(u)du = 0,- f uut K(u)du = J1.2(K)Iq •

Plus généralement les moments impairs de K sont nuls. D'autre part, soit H = H n uneséquence de matrices q x q symétriques et définies positives. H1/2 est la matrice de largeurde fenêtre.On définit alors :

KH(u) = IHI-1/2K(H- 1

/2u)

IHI étant le déterminant de H (Wand & Jones, 1995).

(5.10)

(5.11)

Dans le cas particulier de la méthode LOESS de Cleveland (1979) que nous avonsreprise, la fonction noyau est de la forme :

K(u) = K(U1' ... ' uq ) = W {(t uj)1/2} ,)=1

Page 166: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

166 Chap. 5. Régression multivariée

(5.13)

(5.15)

(5.16)

où west la fonction tricube univariée du tableau 5.10, appliquée sur les distances eu­clidiennes. La matrice de largeur de fenêtre est du type des plus proches voisins, soitH = hoIq , et le poids associé à chaque observation Zi est (Fan & Gijbels, 1996) :

Kho(Zi - xo) = w {h(jld(Zi - xo)} (5.12)

En ~upposant que les (r + l)ièmes dérivées partielles de m(z) en Zo existent, on ap­proxime m(z) au voisinage de Zo par un polynôme de degré r. On choisit de prendrer = 1 pour simplifier la présentation. On utilise pour cela le développement de Taylor àl'ordre r = 1 :

~ 8m(zo)m(z) ~ m(zo) + L- 8z. (Zj - zo)

j=l J

Ce polynôme est ajusté localement (au voisinage de zo) par une régression des moindrescarrés, pondérée par la fonction noyau K. On minimise pour cela l'expression suivante:

t KH(Z, - zo) {Y; -/30 - t {Jj(Z'j - ZOj) } 2 (5.14)

par rapport à /3 = (/30" .. , /3q)l. D'après le développement de Taylor 5.13, l'estimateurde m(xo) est donné par Po, et celui du premier moment conditionnel de m(xo) par(Pl,' .. ,Pq)t.L'estimateur de m(zo) en Zo pour r = 1 et la matrice de largeurs de fenêtre H est doncla solution du problème de régression des moindres carrés pondérés, qui s'écrit:

m(zo) = Po = e~ (Z~WZO)-lZ~Wy

avec:

Zo = [~ (Zl ~ ZO):] ,y = [:] ,Wnxn = diag {KH(Zi - zo)},

1 (Zn - zo) Y n

où el est le vecteur de longueur q + 1 donc le premier terme est 1 et tous les autres sontnuls. Cette écriture suppose que Z&WZOsoit inversible.

On utilise maintenant l'estimateur PLS à la place de l'estimateur des moindres carrés.Cet estimateur s'écrit, d'après l'équation 5.8 à laquelle on rajoute la pondération W :

mpLS(zO) = e~Ka(K~SKa)-IK~s (5.17)

avec:

Ka = [sI8sl ... Isa-ls]s = Z~WZo

s = Z~Wy

a = nombre de composantes PLS retenues

W nxn = diag{KH(Zi - zo)}

On se propose d'étudier les propriétés asymptotiques de l'estimateur ainsi obtenu, etde les comparer avec celles de l'estimateur 5.15 classique.

Page 167: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 167

5.3.3.3 Etude asymptotique

L'analyse asymptotique du biais conditionnel et de la variance conditionnelle de l'es­timateur 5.15 est détaillée dans Ruppert & Wand (1994). Nous nous proposons de suivreune procédure analogue afin de réaliser une étude de notre estimateur, dans le cas oùa = 1.

Problème posé par l'estimateur PLS

Le problème essentiel qui se pose est celui de la non linéarité de l'estimateur PLSpar rapport à y, car y intervient dans le calcul de Ka par le biais de s. En raison decette non linéarité le comportement statistique de la régression PLS n'est pas biencompris, en particulier les propriétés statistiques de l'estimateur (Denham, 2000). Eneffet on ne peut pas en calculer simplement l'espérance, le biais, la variance ou le MSE(Phatak, 1993). L'usage est d'étendre le cadre de la régression linéaire des moindrescarrés ordinaires à la régression PLS, ou d'utiliser des méthodes non paramétriquestelles que le bootstrap (Phatak, 1993).

D'après Phatak (1993), Hoskuldsson (1988) fut un des premiers à étendre l'inférencedans le cadre de la régression linéaire des moindres carrés ordinaires à celle dans le cadrede la régression PLS. Son approche a été reprise par de nombreux auteurs. Elle consisteà supposer que même si Ka(K~SKa)-lK~ dépend de y, c'est une quantité non aléatoire.Le calcul de la variance approchée de jja s'en déduit donc simplement par la formule:

(5.18)

Phatak (1993) a amélioré cet estimateur en utilisant une linéarisation locale de l'es­timateur PLS. En effet, si on exprime l'estimateur comme une fonction de y, on peutécrire le développement de Taylor en Yo à l'ordre 1 :

(5.19)

où Jo est la matrice jacobienne de dimensions p x n, dont le (i, j)ième élément est ladérivée partielle du iième élément de fia en fonction du jième élément de y.Cette linéarisation locale permet d'obtenir une nouvelle approximation de la variance:

(5.20)

Le problème est donc de trouver une expression de Jo. Phatak (1993) a donné le calculen utilisant le calcul matriciel différentiel d'après Magnus & Neudecker (1988). Une autreexpression, obtenue par récurrence, a été fournie par Denham (1997).Cependant, pour notre démonstration nous avons choisi de prendre l'approximation laplus simple 5.18.

Calcul de l'espérance conditionnelle asymptotique

On suppose donc d'après Hoskuldsson (1988) que Ka est non aléatoire. L'espéranceconditionnelle s'écrit alors:

(5.21)

Page 168: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

168

avec m t = (m(Zd, ... ,m(Zn)).

Chap. 5. Régression multivariée

(5.23)

(5.24)

Pour réaliser l'approximation asymptotique, on introduit les hypothèsessupplémentaires suivantes (Wand & Jones, 1995) :(i) n-I IHI- I / 2 et toutes les entrées de H tendent vers 0 quand n ---+ 00.

(ii) Le quotient entre la plus grande et la plus petite valeur propre de H est borné pourtout n.

(iii) f(z), a 2(z), et toutes les entrées du Hessien 1lm (z) sont continues.

Une version du théorème de Taylor multivarié (Wand & Jones, 1995) nous donne:

m(Zi) = m(zo)+(Zi-Zo)"Dm(Zo)+~(Zi-Zo)t1lm(Zo)(Zi-zo)+ri(zo), Vi = 1. .. n

(5.22)

d'où:

m = Zo [m(zo)] + !Q(zo) + r(zo)"Dm (zo) 2

{ [t] [ t] tl(Zl - zo) (Zl - zo)

avec Q(zo) = diag : 1lm(zo) :

(Zn - zo)t (Zn - zo)t

et r(zo) le vecteur des termes résiduels. Quand ce vecteur est prémultiplié pareîKa(K~SKa)-IK~Z&W le scalaire obtenu est d'ordre négligeable par rapport auxscalaires obtenus par les autres termes du développement (5.23), pourvus que ceux-cisoient non nuls. Dans tous les cas ce terme est op(tr(H)) (Ruppert & Wand, 1994).

On remplace alors m par son développement dans l'équation 5.21 :

E(mpLS(zO' a)/Zl' ... ,Zn)

=etK (KtSK )-IKt ZtWZ [m(zo)]1 a a a a 0 0 "Dm (zo)

+ ~eîKa(K~SKa)-IK~Z~WQ(zo) + r(zo) (5.25)

On choisit de se limiter au cas où le nombre de composantes PLS retenues est égal à 1.L'espérance conditionnelle s'exprime alors de la façon suivante:

E(mpLS(zO' a = 1)/ZI"'" Zn)

1 tztw twz ZtWZ [m(zo)]= twz ZtWZ ZtW el 0 YoYo 0 0 0Yo 0 0 0 0 Yo "Dm (ZO)

+ 2Y&WZoZf~VZoZ&WYOeîZ~WYoy~WZoZ~WQ(ZO) +r(zo)(5.26)

Page 169: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 169

Les approximations asymptotiques de Z&WQ(zo) et de Z&WZOont été données parRuppert & Wand (1994), sous les hypothèses (i) à (iii) :

(ztWZO)-l = !. [ f(zo) + op(l) JL2(K)Vj (zo)tH + OP(ltH)]-ln JL2(K)HVj (zo) + op(Hl) f(zo)HJL2(K) + op(H)

(5.27)

(5.28)

(5.29)

Cherchons maintenant une approximation asymptotique de Z&WYo, qui peut aussi s'ex­primer par:

!.Z~WYo = !. [ I:~=1 YOiKH(Zi - zo) ]n n I:~1 YOi(Zi - zo)KH(Zi - zo)

On approxime les deux éléments du vecteur séparément, par une technique basée surl'approximation par une intégrale, puis un changement de variable z = t - Z00 Onréalise ensuite un développement de Taylor de f(zo + H 1/ 2Z) en Zo, et on utilise enfin lespropriétés des moments de K (en particulier les moments impairs qui s'annulent). Celadonne les résultats suivants :

1 n !~~ YOiKH(Zi - zo) = m(t)KH(t - zo)f(t)dt + op(ltHl)t=l

=!m(zo + H1/2Z)K(z)f(zo + H 1/2Z)dz + op(ltHl)

=! m(zo)K(z)f(zo)dz

+! m(zo)K(z)(H1/2z)tVj(zo)dz + op(ltHl)

= m(zo)f(zo) + op(l) (5.30)

1 n !~~ YOi(Zi - zo)KH(Zi - zo) = m(t)(t - zo)KH(t - zo)f(t)dt + op(Hl)t=l

=!m(zo)(H1/2z)K(z)f(zo)dz

+!m(zo)(H1/2z)K(z)(H1/2z)tVj(zo)dz + op(Hl)

= m(zo)H1/

2! zztK(z)dzH1/2V j (zo) + op(Hl)

=m(zO)HJL2(K)Vj (zo) + op(Hl) (5.31)

D'où:

(5.32)

Page 170: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

170 Chap. 5. Régression multivariée

Op(IHI1

/2

) ]

IHI-1/2H 1

/2{J K 2(u)uut du} H 1

/2a2(zo)f(zo)

+op(IHI-1/ 2H)(5.39)

En remplaçant toutes les approximations dans 5.26 on obtient:

n3(y~WZoZ~WZOZ~WyO)== m(zo)2 f(ZO)3 + op(l) (5.33)

n3e~Z~WyoY~WZoZ~WZo [m(zo)] == m(zo)3 f(zO)3 +op(l) (5.34)Vm(zo) .

n3~eiZ~WYoY~WZoZ~WQ(zo) == ~m(zo)2 f(zO)3 tr(H1lm (zO))J.l2(K) + op(tr(H))

(5.35)

D'où:

On retrouve donc la même expression du biais asymptotique que pour la régressionpolynomiale locale d'ordre r == 1 (Ruppert & Wand, 1994).

Calcul de la variance conditionnelle asymptotique

Dans le cas où Ka est considéré comme non aléatoire, la variance conditionnelle s'écrit:

var(mPLS(zO' a)/Zl"'" Zn) == e~Ka(K~SKa)-lK~Z~WVWZoKa(K~SKa)-lK~el(5.37)

Dans le cas où a == 1, cette expression se simplifie par:

D'après Ruppert & Wand (1994), on a sous les hypothèses (i) à (iii) :

Z~WVWZo==

[

IHI-1/ 2R(K)a2(zo)f(zo)(1 + op(l))Op(IHI 1/ 2)t

avec R(K) == JK(U)2du.En utilisant les approximations asymptotiques des équations 5.32, 5.33 et 5.39, on ob­tient:

Page 171: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale

avec

171

(5.41)

bl = m(zo)f(zo) + op(l)b 2 = m(zO)HJ.L2(K)Vf (zo) + op(Hl)

b3 = IHI- l/2R(K)a2(zo)f(zo)(1 + op(l))

b~ = Op(IHI 1/2)

B s = IHI-1/2H 1

/2{f K 2(U)UUt dU} Hl/2a2(zo)f(zo) + op(IHI-l/2H) (5.40)

D'où

var(mpLS(zO' a = l)/Zl" .. , Zn)

_ 1 t [b~ blb~] [b3 bi] [b~ blb~]- n(m(zo)2 f(ZO)3 + op(1))2 el b2bl b2b~ b 4 Bs b2b1 b2b~ el

_ 1 t [ b~b3 + blb~b4 b~bi + blb~Bs ] [b~ blb~]- n(m(zo)2 f(ZO)3 + op(1))2

elb2bl b3+ b2b~bi b 2blbi + b2b~B5 b2bl b2b~ el

_ 1 [ 2 t 2 t t] [ b~ ]- n(m(zo)2 f(ZO)3 + op(l))2 bl b3+ blb2b4 blb 4+ blb 2Bs b 2bl

bib3 + bfb~b4 + bfbib2+ b~b~Bsb2

n(m(zo)2 f(zo)3 + op(1))2Si on ne garde que le premier terme on obtient :

var(mpLS(zO' a = l)/Zl' ... , Zn)

( ;4 f( )6 m(zo)4 f(zO)4IHI- l/2R(K)a2(zo)f (zo)(l + op(l))nm Zo Zo

= ~IHI-l/2~~~j a2(zo)(1 + op(l)) (5.42)

On retrouve donc la même expression pour la variance asymptotique que pour larégression polynomiale locale d'ordre r = 1 (Ruppert & Wand, 1994).

5.3.4 Applications

Nous avons récapitulé dans le tableau 5.13 l'ensemble des méthodes abordées danscette partie ainsi que les codages correspondants ~tilisés dans les graphes). Ces méthodesont toutes été codées dans des fonctions S-Plus C • La fonction correspondant à LPLS1et LPLS2 a été mise en annexe 4.

Nous avons comparé l'ensemble de ces méthodes par validation croisée et calcul desRMSEP sur la période de validation. Nous avons utilisé à chaque fois un polynômede degré 1, et nous avons fait varier le nombre de voisins utilisés. Pour 20 essais, nousavons ainsi fait varier le nombre de voisins de nf = 12 à nf = 36. Cela correspond à unparamètre de lissage f variant de 0.10 à 0.31. Nous avons aussi fait varier le nombre decomposantes retenues de 1 à 5 dans chaque analyse basée sur la PLS.

Page 172: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

172 Chap. 5. Régression multivariée

Code Méthode

PLS1 Régression PLS1 classique

PLS2 Régression PLS2 classique

LPLS1 Régression PLS1locale

LPLS2 Régression PLS2 locale

LR Régression multiple locale

PLS1LR LR sur les composantes PLS1

TAB. 5.13 - Codage des différentes méthodes abordées dans cette partie.

5.3.4.1 Choix du nombre de composantes PLS1

Afin d'étudier le nombre de composantes à retenir pour effectuer la régression LPLSl,nous avons considéré les résultats obtenus par validation croisée. Cette validation a étéeffectuée de manière globale, c'est-à-dire que le nombre de composantes utilisées pourla réestimation est identique pour toutes les observations. La figure 5.10 montre ainsil'évolution du PRESS en fonction du nombre de composantes, pour chaque stationet chaque nombre de voisins considérés. On constate que les valeurs minimales sontobtenues à chaque fois pour un nombre très faible de composantes. Dans la plupart descas le nombre optimal de composante est ainsi égal à 1, mais il est aussi parfois de 2 voire3. Pour la suite nous avons considéré les régressions LPLSI utilisant le nombre optimumde composantes pour le voisinage et la station considérés, c'est-à-dire correspondant auxdifférents minimums du graphe 5.10. Nous avons réalisé la même chose pour la régressionPLSI classique de chaque station. Le nombre optimal de composantes est de 4 pour lastation STQ, 3 pour les stations STZ, JAS, et SAR, et 2 pour les stations UMA et JAR.

5.3.4.2 Comparaison LR et LPLS1

Dans le but d'appréhender l'apport de la régression PLSI dans le cadre des régressionslocales sur nos données, nous avons comparé dans un premier temps les résultats obtenuspar LPLSI et LR. Les résultats sont montrés dans la figure 5.11 en ce qui concerne lesPRESS obtenus par la validation croisée, et la figure 5.12 en ce qui concerne les MSEPcalculés sur la période de validation. On rappelle que dans le cas de la LPLSl, le PRESSet le MSEP indiqués pour chaque station et chaque voisinage ont été calculés en utilisantle nombre optimum de composantes déterminé d'après le graphe 5.10.On constate que la régression LPLSI permet d'améliorer notablement les valeurs duPRESS et du MSEP pour l'ensemble des voisinages considérés. Quand le nombre devoisins est faible la différence est peu marquée, cependant quand celui-ci augmente lesrésultats de la LR deviennent très mauvais contrairement à ceux de la LPLSI qui restentstables.

5.3.4.3 Comparaison LPLS1, PLS1LR et PLS1

Nous avons ensuite comparé la méthode LPLSI à la régression PLSI classique et àla méthode PLSILR utilisant 2 composantes. Les résultats de la validation croisée sont

Page 173: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 173

STQ STZ JAS

!md ~

li!~d ~ ~~" ~ ~tilci til:: til ..~::l ~ ~"

o..d 0.. 0..ci :;

1ll,;

3 3 3

a a aSAR UMA JAR

D

""

- ;!;!

~o ~ ~~- ~ ~Ntil til .. til""~'" ~- ~0.." 0.. 0..

" "~ ""

~3 3 3

a a a

FIG. 5.10 - Résultats de validation croisée pour la LPLS1. Les différentes courbes correspondent auxdifférentes valeurs de nf.

représentés sur la figure 5.13, et ceux de la période de validation sur la figure 5.14.

Dans le cas de la validation croisée on constate tout d'abord que le nombre de voisinsinflue beaucoup sur les résultats. La station la mieux réestimée est la station STQ parla régression PLS1 sur la majorité des nombres de voisins, et par la méthode PLS1LRpour nt = 28 et nt = 31. La régression PLS1 est en général meilleure pour les nombresde voisins les plus faibles. Par contre, pour les nombres de voisins moyens à élevés desstations STZ, SAR, UMA et JAR, la méthode PLS1LR est meilleure.La LPLS1 est quand à elle en général plus mauvaise que les deux autres, sauf pour lesnombres faibles de voisins où elle permet d'améliorer les valeurs du PRESS par rapportà la PLS1LR, tout en restant plus mauvaise que la PLS1.Il faut relativiser les résultats obtenus par PLS1LR par le fait que le nombre decomposantes a été fixé arbitrairement à 2, et n'est donc pas le nombre de compo­santes optimum. Il faudrait comparer les résultats obtenus avec d'autres nombres decomposantes pour voir si les résultats pourraient être améliorés. Cependant même enfixant a = 2, les résultats sont meilleurs que la régression PLS1 pour beaucoup de sta­tions et sur une plage de voisins importante. Cela montre donc l'intérêt de cette approche.

Les résultats sur la période de validation sont quant à eux beaucoup moins sensiblesau nombre de voisins. Cependant ils sont aussi beaucoup plus mauvais pour beaucoupde stations, puisque pour les stations JAR, UMA et SAR les valeurs restent autour dela valeur 1. La station la mieux réestimée est la station STQ par la méthode LPLS1,avec des valeurs autour de 0.5.

Page 174: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

174 Chap. 5. Régression multivariée

STQ STZ JAS

1. 2. n1 30

SAR

3520 n1 30

UMA

.." 20 n1 3D

JAR

35

- .•.....•....._-..-........•.•........•.•.............-------_._--•..•..........._-.._---._---_..--_.................-.-.............................•.

,. 2. n1 3D '" ,.20 n1 30 35 ,.

20 n1 30 35

FIG. 5.11 - Evolution des PRESS obtenus par la validation croisée des méthodes LR (ligne pleine) etLPLSl (pointillés).

STQ STZ JAS

........................................__.- .

~m~~~

N ••••••••••--••••••••----•••••••••••••••••••••••••

1520 n1 30

SAR

.. ,. 2. n1UMA

30 35" 20 n1 30

JAR

35

- LR.......... LPLS1

~m ~m ~D

~: /~.~~.~ .

,.20 n1 30 35 ,.

20 n1 30 ..20 n1 3D 35

FIG. 5.12 - Evolution des M SEP obtenus sur la période de validation par les méthodes LR (ligne pleine)et LPLSl à 2 composantes (pointillés).

Page 175: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 175

Contrairement à la validation croisée, la méthode LPLS1 est meilleure que les autrespour tous les nombres de voisins des stations STQ, STZ, et UMA. Les résultats de laméthode PLS1LR sont par contre en général très mauvais.

Les performances des différentes méthodes sont donc plutôt meilleures en validationcroisée pour PLS1LR, et en période de validation pour LPLSl.

5.3.4.4 Comparaison LPLS1 et LPLS2

Nous avons comparé la régression PLS1locale, obligeant à réaliser l'estimation stationpar station, et la régression PLS2 locale, permettant d'estimer toutes les stations enmême temps, par le même jeu de composantes. La régression PLS2 est définie en gardantcomme variables à expliquer les 6 stations sélectionnées. Les résultats sont donnés dansles figures 5.15 et 5.16. Ils montrent que dans les deux cas (validation croisée et périodede validation), la méthode LPSL2 est meilleure que la méthode LPLS1 sur toutes lesstations et tous les nombres de voisins. La différence est plus ou moins importante selonles stations.

Page 176: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

176

STQ STZ

Chap. 5. Régression multivariée

JAS! f----·-.···.·······.··.·..···--···---··.·····..···.·1 le ; ••••••__ : ! f··········--·--·········----····---·--·----····---·l

1 : d ,i 1 1 :

li \,. 1.: 00' ,il i li! i i~ !CI): 1 i~! j \.... :~ i .'. ,CI):; 1 ,

~ i \. /" \,. \ i ~!j .. /' ! i ~ ! i

"'ll~~hl~ 1"':li '1~L _ _..J ~ 1... _ _.,] ! l.=====~==~~.,]

15 20 nj 30 35 15 20 n; 30 35 15 20 nl 30 35

SAR UMA JAR~ 1"······ · · ·..·..·· ·..·..· 1 ~ 1' ··· · · · 1 ~ r~~ ·..·..· :::::::::: ~;~·~·~'

~JI ::' ~1i Ill]! \ - pPLSILRo \. -- LSI

CI)! 1\ i Cl)li! i: Cl)s j \CI) i'... Cl)o j , Cl)o : .

~t:~ ~:I \_i-\_/,_---- ~:I---\j~ .::::.:1: 01 o!0j 1 !! t .. . . i ~1 .__ .: 5t __ . ..:

15 20 nj 30 35 15 20 n1 3D 35 15 ZD n1 30 35

FIG. 5.13 - Evolution des PRESS obtenus par la validation croisée des méthodes PLS1LR (2 compo­santes), PLSl (nombre optimal de composantes), et LPLSl (nombre optimal de composantes).

STQ STZ JAS

LPLSI :PLSILRlPLSI i

~:[---: ~:I··-----·····i ~: 'li---,CI) CI) iCI)~!

~:L~~-;j~:t:~:=~:j~:r~~::_~~'~__ i15 20 nj 30 35 15 20 nJ 30 35 15 20 n1 30 35

SAR UMA JAR~1' ~. ~1:

1 ~iJo..,~l i o..,~ i 0..,~ : : ~ ---_.,.,.----_._- : ~

~:t:'"~_:~~~:1 ~: Lm~~~~_:m:::~~~] ~:L=~:_:__ ~~~~15 20 nj 30 35 15 20 n1 30 35 tS 20 nj 30 35

FIG. 5.14 - Evolution des MSEP obtenus sur la période de validation par les méthodes PLS1LR (2composantes), PLSl (nombre optimal de composantes), et LPLSl (nombre optimal de composantes).

Page 177: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale

STQ STZ JAS

~:[\------1 ~:[r,~~:;::~:····1~:r--;~::::~;~1~~J i~djI...j~:~dj~

C1.~j /1C1.~1~ !C1.~1!

~ t _ J :ll _ _! :lt _ _:15 20 n1 30 36 15 20 n7 30 35 15 20 nJ 30 35

SAR UMA JAR~ 1,:..· ·····..····.. · · ..···· · ..· 1 ~ 1' : ,- ,

001 ~ : :.:. .'~ li: ~ .,! 1\................... jci ~ • • .

~:I~lll~i~t~--;·!::.C1. 0' :C1.! :C1.""

:L__ J,l __ .__ ~ :I .__~~~j15 20 nl 30 35 15 20 n1 30 35 15 20 nI 30 35

177

FIG. 5.15 - Evolution des PRESS obtenus par la validation croisée des méthodes LPLSl et LPLS2(nombre optimal de composantes).

STQ STZ JAS~ f·--·-----······················-------··············1 ~ f············--········----············---·--········j

i i:

cii

L .__.__ J ~ t _.._~. __._.. .__.. __ _.. _..,15 20 nl 30 35 15 20 n1 30 35

SAR UMA

~ f'-----········--·----·················-------········

1~d

J

~1L•••._•••__••••_•••~_•••_•••~ ....~._._._ ......_:

15 20 nJ 30 35

JAR~ (' · · · ·..· · ·..· ·1 :;: 1··..· ..· ·· .. · ····· · ..··.... , ,

, m.l .:\ ~: :....... : .

o-'I~IJ, !o-:I!V~., t~t~~~mj !~ 1 / \ j ~ol /\ ;;;~ : ...

o! 1~j~i ~l' \J --v--m: , l ,

ci L _ _...l :ll _ _..J ~ t _ _.15 20 n1 30 36 15 20 nJ 30 35 15 20 nJ 30 35

FIG. 5.16 - Evolution des M SEP obtenus sur la période de validation par les méthodes LPLSl et LPLS2(nombre optimal de composantes).

Page 178: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

178 Chap. 5. Régression multivariée

5.3.4.5 Synthèse

Nous avons enfin synthétisé dans le tableau 5.15 les meilleures valeurs des critèresPRESS et MSEP obtenues pour chaque méthode. Pour les régressions PLS1 et PLS2les résultats sont différents de ceux du tableau 5.7 car on considère ici le nombre optimalde composantes, et car la régression PLS2 utilise seulement les 6 stations considérées aulieu de l'ensemble des stations du groupe Sertâo nord.On constate que pour la validation croisée la méthode qui donne les meilleurs résultatspour 4 des 6 stations est la méthode PLS1LR. La méthode LPLS2 donne le meilleurrésultat pour la station STQ, et la régression PLS2 pour la station JAS.Sur la période de validation ces résultats changent : la méthode donnant les meilleursrésultats sur l'ensemble des stations est en effet la méthode LPLS2. On note pour lastation STQ la très bonne performance des méthodes LPLS1 et LPLS2 qui permettentde faire baisser le MSEP de 54% pour la LPLS1 par rapport à la PLS1 et de 44% pourla LPLS2 par rapport à la PLS2.La méthode LPLS2 n'a donc pas seulement l'avantage d'estimer en même temps toutesles stations, mais elle permet aussi d'avoir de meilleurs résultats en terme de M SEP.L'inconvénient est qu'elle est assez longue à tourner.

Stations PLS1 PLS2 LPLS1 LPLS2 PLS1LR (a = 2)

STQ 0.534 0.533 0.536 0.524 0.531

STZ 0.600 0.590 0.634 0.619 0.588

JAS 0.620 0.612 0.633 0.622 0.632

SAR 0.668 0.660 0.717 0.697 0.649

UMA 0.792 0.772 0.829 0.794 0.759

JAR 0.836 0.827 0.845 0.827 0.797

TAB. 5.14 - Meilleures valeurs des PRESS par station pour chaque méthode considérée.

Stations PLS1 PLS2 LPLS1 LPLS2 PLS1LR (a = 2)

STQ 0.747 0.705 0.399 0.388 0.762

STZ 0.788 0.792 0.644 0.536 0.720

JAS 0.797 0.824 0.776 0.749 1.032

SAR 0.981 1.051 0.901 0.843 0.887

UMA 1.291 1.277 0.983 0.907 1.600

JAR 1.007 0.961 0.937 0.859 1.035

TAB. 5.15 - Meilleurs valeurs des M SEP par station pour chaque méthode considérée.

En conclusion, nous avons représenté sur la figure 5.17 les valeurs réelles et estiméesde la station STQ, qui est la mieux prédite, pour la régression PLS2 (MSEP = 0.705)et la régression LPLS2 (MSEP = 0.388, correspond au MSEP minimal obtenu). Onsouligne que la série temporelle est discontinue étant donné que seuls les mois de févrierà mai de 1980 à 1984 sont considérés. On constate que la LPLS2 améliore les résultatspar rapport à la PLS2 surtout pour les mois peu pluvieux, qui sont beaucoup moins sur-

Page 179: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

5.3 Méthodes de régression locale 179

estimés. Par contre, pour les pics de pluie (correspondant aux mois de mars), la régressionPLS2 est un peu meilleure, surtout pour le dernier mois de mars de l'année 1984. Enfin,la sécheresse de 1983, qui se manifeste par une absence de pic, n'est convenablementestimée par aucune des deux méthodes, même si la régression LPLS2 prédit un pic unpeu moins élevée que pour les autres années.

Page 180: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

180 Chap. 5. Régression multivariée

PLS2 LPLS2

: ,

V

8102 8203 8304 8405mois

ll'l

9

oci

C!...­,

Il'!'7 L.-_~--~-----r"----.-'

!\f \.

1\\ 1;:

~

0\l",! l,f:,!

V

8102 8203 8304 8405mois

&.q'7 L-_~-----r"---""'----.-'

C!...­,

oci

I.t)

9

FIG. 5.17 - Représentation des valeurs réelles (ligne pleine) et estimées (pointillés) de la station STQpour les régressions PLS2 et LPLS2, sur les mois de février à mai de la période de validation.

Page 181: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Conclusion

Notre travail pluridisciplinaire a permis d'obtenir des résultats intéressants et nou­veaux tant du point de vue statistique que du point de vue hydrologique. Nous détaillonsdonc les conclusions et les perspectives relatives aux deux points de vue.

Point de vue statistique

Nous avons collecté dans le chapitre 3 un grand nombre de méthodes s'appliquant àdes données multivariées et spatialisées. Les liens entre les outils de matrice de voisinageet de variogrammejcovariance spatiale démontrés dans le deuxième chapitre nous ontpermis d'établir les liens entre les méthodes basées sur les matrices de voisinage etcelles issues de la géostatistique. Ainsi l'analyse locale utilisée en écologie peut aussis'exprimer comme la maximisation du variogramme expérimental à un certain pas h, sion utilise la matrice de voisinage correspondant à la classe de distance au pas h utiliséedans l'estimation du variogramme. L'analyse globale peut aussi s'exprimer comme lamaximisation de la fonction de covariance spatiale à un certain pas h, mais seulementdans le cas du centrage par rapport à la métrique lIn.. nLes méthodes d'analyse spatiales présentées peuvent se classer en fonction du nombrede pas qu'elles considèrent. Ainsi les analyses locales, globales, et la méthode desMAF ne s'applique qu'à un seul pas h. Les propriétés d'orthogonalité spatiale ne sontdonc valables qu'au pas considéré. C'est la méthode MAF qui a les propriétés les plusintéressantes en terme d'orthogonalité, étant donné qu'elle fournit des composantesorthogonales à la fois statistiquement et spatialement au pas considéré, contrairementà l'analyse locale au pas h pour laquelle l'orthogonalité est uniquement spatiale. Deplus, dans le cas où un modèle de corégionalisation à deux structures est respecté, laméthode MAF fournit des composantes orthogonales spatialement à tous les pas h.Les trois méthodes induisent un choix quant au pas à utiliser, choix qui reste subjectif,sachant que chaque pas donne des résultats différents. Le choix peut se faire à partir desconnaissances a priori sur les données, à partir d'une étude variographique préliminaire,ou par l'application de méthodes considérant plusieurs pas h.Les méthodes considérant plusieurs pas h regroupent les méthodes basées sur l'étudedes fonctions de variogrammes discrétisées, et des matrices de variogrammes (oul'équivalent en terme de covariances spatiales). Ces dernières reposent pour la plupartsur la diagonalisation d'une combinaison linéaire des matrices de variogrammes. Lescoefficients de la combinaison linéaire peuvent être choisis de plusieurs manières. Nousen avons comparé plusieurs, et constaté que la pondération uniforme était celle quiavait les meilleures propriétés sur nos données, étant donné qu'elle permet d'obtenir

Page 182: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

182 Conclusion

l'orthogonalisation spatiale la meilleure pour les composantes.Après cette synthèse bibliographique, nous avons proposé un nouveau type de méthodesbasées sur des critères originaux d'ajustement au variogramme. Nous avons considéréplusieurs critères, et calculé les dérivées des fonctions optimisées correspondantes. Dansle cas où () est constant, le critère et le point de départ pour l'ajustement influentpeu sur le résultat obtenu, contrairement au cas où () est variable. Dans ce derniercas, selon le critère, l'ajustement obtenu est plus ou moins bon et la variance de lacomposante plus ou moins élevée, les critères résultant d'un compromis entre les deux.Il est de plus nécessaire de considérer plusieurs points de départ en raison des multiplesminimums locaux. Ce dernier aspect est un inconvénient car les temps de convergencedes algorithmes sont assez longs. Il serait donc intéressant d'essayer d'augmenterla vitesse de convergence par l'utilisation d'une fonction plus adaptée que nlminb,éventuellement en utilisant un codage dans un autre langage que S-Plus.Pour l'obtention des composantes suivantes, nous avons proposé une procédure itérativebasée sur une projection orthogonale du tableau des données sur la composante obtenueà l'étape précédente. Plusieurs métriques sont pour cela utilisables. Il serait cependantintéressant de définir de nouveaux critères, utilisant les variogrammes croisées, afin defaire le lien avec le modèle linéaire de corégionalisation.Nous avons proposé enfin trois variantes à la SCM. La première donne une applicationpratique possible de la SCMu au cas de la matrice des variogrammes discrétisés. Nousdonnons ansuite une extension de la SCM au cas où on ajuste à une combinaisonlinéaire de variogrammes. Enfin, l'extension de la SCMu au cas multi-tableau permetde la relier à la notion de variogramme climatologique utilisée pour les données de pluie.Nous avons proposé donc plusieurs méthodes qui offrent la possibilité de nombreusesautres variantes que celles présentées ici, la difficulté est de choisir laquelle utiliser entretoutes ces méthodes et les méthodes existantes. Cela ne peut se réaliser qu'en fonctiondes données et de l'objectif du praticien.Nous rajoutons une remarque sur les hypothèses considérées. En effet, nous n'avonsconsidéré dans la présentation de la méthode SCM que l'hypothèse d'isotropie. Il seraitaussi possible de considérer une éventuelle anisotropie sur les données en réalisantl'ajustement dans une certaine direction. Les applications ont de plus été réalisées surles données dont nous disposions, qui ont l'inconvénient d'être non gaussiennes, avecune anisotropie zonale et une dérive. Il serait donc nécessaire de compléter nos résultatsen utilisant des données issues de simulation.

En ce qui concerne les méthodes de régression, nous avons proposé plusieursaméliorations de techniques existantes en considérant les composantes obtenues parrégression PLS. L'utilisation de la régression PLS2 ou PLSI permet en effet d'améliorerles résultats de valisation croisée de la méthode de krigeage dans l'espace des compo­santes. Cependant le problème d'homogénéité de cet espace reste entier, et peut com­promettre l'estimation des points de validation. Les résultats de la méthode dépendentdonc beaucoup des données.Dans le cadre des régressions locales nous avons confirmé sur nos données les très bonsrésultats de la régression PLS locale, tant en validation croisée que sur notre périodede validation. Nous avons montré également que les approximations asymptotiquesdu biais et de la variance conditionnelles de l'estimateur PLSI local à 1 composantessont identiques à celles de l'estimateur de régression locale multiple classique. Cepen-

Page 183: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Conclusion 183

dant nous n'avons seulement abordé le cas où les résidus sont supposés statistiquementindépendants, ce qui n'est pas le cas sur nos données, qui sont des séries temporelles etprésentent donc une autocorrélation. Cette autocorrélation peut modifier les propriétésasymptotiques de l'estimateur local (Simonoff, 1998). Si la prise en compte de l'auto­corrélation a déjà été réalisée dans le cadre de la régression locale multivariée, il seraitintéressant de l'étendre au cas de la régression PLS locale.Enfin, la comparaison des différentes méthodes n'a été envisagée que par le biais descritères PRESS et MSE. Cependant le problème du choix et la "véritable" robustessedu modèle reste à déterminer. Il est difficile de savoir quel critère il faut considérer pourrépondre à ce problème.

Point de vue hydrologique

Les études préliminaires du premier chapitre et en particulier l'utilisation de laméthode STATIS, ont permis de retrouver les principaux mécanismes générateurs depluies, de par leur période et leur zone d'influence. La méthode STATIS a aussi permisde voir que la structure des données en terme de produits scalaires de Hilbert-Schmidtest assez homogène suivant les années et peut être résumée par le tableau compromis.Les analyses locales et globales ont permis de montrer que les composantes obtenues parl'ACP du tableau compromis ont aussi des propriétés spatiales, ce que nous relions àla très forte structuration spatiale de nos variables, en particulier à cause des gradientsdans les directions 45 et 135 degrés. La méthode des MAF a complété ces analyses endistinguant plus précisément la zone du Sertào déjà repérée par la troisième composantede l'ACP.L'analyse variographique des composantes de l'ACP de tableau compromis a montréla présence d'une dérive et de deux axes d'anisotropie zonale, dans les directions45 et 135 degrés. Cependant nous avons choisi de ne pas en tenir compte dans lesanalyses suivantes, à caractère exploratoire. Nous n'avons en effet pas réalisé decartographie dans cette thèse, hormis les interpolations rudimentaires avec la fonc­tion interp de S-Plus©. Cependant des cartographies pour les composantes les plusintéressantes peuvent être réalisées par krigeage ou cokrigeage, suivant les besoins. Ilserait alors nécessaire de prendre en compte la non stationnarité spatiale et l'aniso­tropie zonale mise en évidence dans le deuxième chapitre, en s'inspirant par exempledes travaux réalisées dans Sicard (2001), et en utilisant la méthode du krigeage universel.

Nous n'avons pas abordé le problème de l'échelle temporelle dans sa totalité. Ainsinous avons choisi d'étudier les pluies à une échelle mensuelle, avec une variable parmois. Mais nous aurions aussi pu définir des saisons et étudier les structures spatiales àl'échelle saisonnière. Nous avons aussi écarté les variables de nombre de jours de pluie etde nombre de séquences pluvieuses, que nous avions définies dans le travail préliminairede Sicard (2001). Il serait donc possible d'envisager la prise en compte de ces variables.

En ce qui concerne le lien avec les variables caractéristiques de l'état de l'océan et duclimat global, les méthodes introduites ont permis d'améliorer les résultats de validationobtenus sur les données, mais les pourcentages d'explication restent cependant faibles.Les variables explicatives utilisées devraient donc être complétées afin obtenir des pour-

Page 184: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

184 Conclusion

centages d'explication supérieurs. Ainsi, nous n'avons pas tenu compte des données devent, qui en général permettent de fournir une information complémentaire à celle denos variables. Il est également possible d'utiliser les données de température de surfacede la mer en tous les points d'une grille d'une partie de l'océan, plutôt que d'utiliser lesvariables synthétiques que nous avons présentées. En effet ces variables synthétiques nesont pas spécifiquement adaptées à la région du Nordeste brésilien. La difficulté seraitcependant le nombre élevé de variables ainsi obtenues, qui rendrait très lourde l'applica­tion des différentes méthodes de régression. Enfin, une séparation des années selon leurcaractère humide ou sec permettrait peut-être d'obtenir de meilleurs résultats.Malgré tout, les résultats que nous avons obtenus ont montré l'intérêt des méthodesde type PLS local, même si d'un point de vue hydrologique ils ne sont pas totalementopérationnels en l'état.

Page 185: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie

AARHUS, L. (1994) - Nonlinear empirical modeling using local PLS models - Cand.Scient. ThesisjMathematical modeling, University of Oslo. 92pp.

ARAGON, Y., & CAUSSINUS, H. (1980) - Une analyse en composantes principalespour des unités statistiques corrélées - In Diday et al. (editors), Data analysis ininformatics, North Holland, 121-131.

ARNAUD, M., & EMERY, X. (2000) - Estimation et interpolation spatiale: méthodesdéterministes et méthodes géostatistiques - HERMES Science Europe, Paris, 221pp.

ARNAUD, M., EMERY, X., de FOUQUET, C., BROUWERS, M., & FORTIER, M.(2001) - L'analyse krigeante pour le classement d'observations spatiales et multivariées- Revue de statistique appliquée, XLIX(2), 45-67.

A.T. & T. BELL LABORATORIES (1984) - PORT Mathematical subroutine librarymanual.

BAILEY, T.C., & KRZANOWSKI, W.J. (2000) - Extensions to spatial factor methodswith an illustration in geochemistry - Mathematical Geology, 32(6), 657-682.

BELLONE, E., HUGUES, P.J., & GUTTORP, P. (2000) - A hidden Markov modelfor downscaling synoptic atmospheric patterns to precipitation amounts - ClimateResearch, 15, 1-12.

BERTACCHI UVO, C., REPELLI, C.A., ZEBIAK, S.E., & KUSHNIR, Y. (1998) - Therelationships between tropical pacific and atlantic SST and northeast Brazil monthlyprecipitation - Journal of climate, 11, 551-562.

BIAU, G., ZORITA, E., von STORCH, H., & WACKERNAGEL, H. (1999) - Estimationof Precipitation by Kriging in the EOF Space of the Sea Level Pressure Field - Journalof climate, 12, 1070-1085.

Page 186: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

186 Bibliographie

BONIFAS, L., ESCOUFIER, Y., GONZALEZ, P.L., & SABATIER, R (1984) - Choixde variables en analyse en composantes principales - Revue de Statistique Appliquée,32, 5-15.

BORCARD, D., & LEGENDRE, P. (2002) - All-scale spatial analysis of ecological databy means of principal coordinates of neighbour matrices - Ecological Modelling, 153,51-68.

BRETHERTON, C.S., SMITH, C., & WALLACE, J.M. (1992) - An Intercomparison ofMethods for Finding Coupled Patterns in Climate Data - Journal of climate, 5,541-560.

CADIER, E. (1993) - Hydrologie des petits bassins du Nordeste brésilien semi-aride :transposition à des bassins non étudiés - Thèse d'état/Mécanique, génie mécanique etgénie civil, Université des Sciences et Techniques du Languedoc, Montpellier, France.Editions de l'ORSTOM, Paris. 414pp. (Collection Etudes et Thèses)

CAMPLING, P., GOBIN, A., & FEYEN, J. (2001) - Temporal and spatial rainfallanalysis across a humid tropical catchment - Hydrological processes, 15, 359-375.

CAPOBIANCHI, A., & LASINIO, G. (1998) - Exploring multivariate spatial data: linetransect data - In M. Vichi & O. Optiz (editors), Classification and data analysis :Theor'y and application, Springer and Verlag, Series: Classification. Data analysis andknowledge organization.

CARROLL, J.D., & CHANG, J.J. (1970) - Analysis of individual differences inmultidimensional scaling via an n-way generalization of Eckart-Young decomposition- Psychometrika, 35, 283-319.

CATTELL, RB. (1952) - Factor Analysis - Harper and Row, New-York.

CHAUVET, P. (1999) - Aide-mémoire de géostatistique linéaire - Les Presses de l'Ecoledes Mines, Paris. 367pp.

CAZES, P. (1997) - Adaptation de la régression PLS au cas de la régression aprèsanalyse des correspondances multiples - Revue de statistique appliquée, XLV(2), 89-99.

CENTNER, V., & MASSART, D.L. (1998) - Optimization in locally weighted regression- Analytical chemistry, 70(19), 4206-4211.

CHESSEL, D., & SABATIER, R (1994) - Couplage de triplets statistiques et graphesde voisinage - In J.D. Lebreton & B. Asselain (éditeurs), Biométrie et Analyse des

Page 187: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie

Données Spatio-temporelles, ENSA de Rennes, 58-37.

187

CHESSEL, D., & THIOULOUSE, J. (2001) - Analyse de données spatialisées - Fichede biostatistique - http://pbil.univ-lyon1.fr/R/donnees/bsa.pdf.

CLEVELAND, W.S. (1979) - Robust locally weighted regression and smoothingscatterplots - Journal of the American Statistical Association, 74, 829-836.

CLEVELAND, W.S., & DEVLIN, S.J. (1988) - Locally weighted regression : anapproach to regression analysis by local fitting - Journal of the American StatisticalAssociation, 83, 596-610.

CLIFF, A.D., & ORD, J.K. (1973) - Spatial processes : models and applications - Pion,London.

CORNILLON, P.A. (1998) - Prise en compte de proximités en analyse factorielleet comparative - Thèse de DoctoratjBiostatistiques, Ecole Nationale SupérieureAgronomique de Montpellier, Montpellier, France. 224pp.

CORNILLON, P.A., & SABATIER, R. (1999) - Analyse sur composante spatialisée ­XXXIème journées de statistiques, 17-21 mai 1999, Grenoble, France, 957-960.

CRESSIE, N. (1991) - Statistics for spatial data - John Wiley & Sons, New-York. 900pp.

CRESSIE, N., & HAWKINS, D.M. (1980) - Robust estimation of the variogram : l ­Mathematical Geology, 12, 115-125.

DALE, M.R.T., DIXON, P., FORTIN, M.-J., LEGENDRE, P., MYERS, D.E., &ROSENBERG, M.S. (2002) - Conceptual and mathematical relationships amongmethods for spatial analysis - Ecography, 25, 558-577.

De ARAGAO, J.O.R. (1998) - Impact of ENSO and Atlantic dipole in North-easternBrazil - In : Variations climatiques et ressources en eau en Amérique du Sud :importance et conséquence des événements El Niiio - Bulletin de l'Institut Françaisd'Etudes Andines, 27(3), 839-844.

De IACO, S. (2001) - A space-time multivariate analysis for environmental data ­Paper presented at the 2001 Annual Conference of the International Association forMathematical Geology, Cancun, Mexique. 21pp.

Page 188: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

188 Bibliographie

De JONG, S. (1993) - SIMPLS : an alternative approach to partial least squaresregression - Chemometrics and Intelligent Laboratory Systems, 18, 251-263.

DENHAM, M.C. (1997) - Prediction intervals in partial least squares - Journal ofchemometrics, 11, 39-52.

DENHAM, M.C. (2000) - Choosing the number of factors in partial least squaresregression : estimating and minimizing the mean squared error of prediction - Journalof chemometrics, 14, 351-361.

DESBARATS, A.J., & DIMITRAKOPOULOS, R. (2000) - Geostatistical simulation ofregionalized pore-size distributions using min/max autocorrelation factors - Mathe­matical Geology, 32(8), 919-941.

ELKETTANI, Y. (2001) - Analyse des redondances et régression PLS appliquées auxdonnées spatiales. Comparaison avec l'estimation par krigeage et par l'inverse de ladistance - Revue de statistique appliquée, XLIX (2), 69-84.

FAN, J., & GIJBELS, I. (1996) - Local polynomial modelling and its applications ­Chapman & Hall, London, 341pp.

FARAJ, A., & CAILLY, F. (2001) - Spatial contiguity analysis : a method for describingspatial structures of seismic data - Journal of Petroleum Science and Engineering,31,93-111.

FLETCHER, R. (1981a) - Practical methods of optimization : volume 1, unconstrainedoptimization - John Wiley & Sons, New-York, 120pp.

FLETCHER, R. (1981b) - Practical methods of optimization : volume 2, constrainedoptimization - John Wiley & Sons, New-York, 224pp.

FLURY, B. (1988) - Common principal components and related multivariate models ­John Wiley & Sons, New-York, 258pp.

FUNCEME (Fundaçao Cearense de Meteorologia e Recursos Hidricos) (2002) - Boletimde monitoramento do EI-Nino Agosto de 2002 - http://www.junceme.br.

GENTON, M.G., & GORSICH, D.J. (2002) - Nonparametric variogram and covariogramestimation with Fourier-Bessel matrices - Computational statistics & data analysis,41, 47-57.

Page 189: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie 189

GITTINS, R (1968) - Trend surface analysis of ecological data - J. Ecol., 56, 845-869.

GLAÇON, F. (1981) - Analyse conjointe de plusieurs matrices de données: comparaisonde plusieurs méthodes - Thèse de Doctorat/Statistiques, Université Scientifique etMédicale de de Grenoble, Grenoble, France. 73pp.

GLAHN, H.R (1968) - Canonical correlation and its relationship to discriminantanalysis and multiple regression - J. Atmos. Sei., 25, 23-51.

GOOVAERTS, P. (1992) - Factorial kriging analysis, a useful tool for exploring thestructure of multivariate spatial information - Journal of soil science, 43, 597-619.

GOULARD, M. (1988) - Champs spatiaux et statistique multidimensionnelle - Thèsede Doctorat/Statistiques, Université des Sciences et Techniques du Languedoc,Montpellier, France. 179pp.

GOULARD, M., & VOLTZ, M. (1992) - Linear coregionalization model : tools forestimation and choice of multivariate variograms - Mathematical Geology, 24, 269-286.

GRUNSKY, E.C., & AGTERBERG, F.P. (1992) - Spatial relationships of multivariatedata - Mathematical Geology, 24 (6), 731-758.

HARSHMAN, R.A. (1970) - Foundations of the PARAFAC procedure: models andconditions for an explanatory multi-modal factor analysis - UCLA Working Papers inPhonetics, 16, 1-84.

HASTENRATH, S., & HELLER, L. (1977) - Dynamics of c1imate hazards in NortheastBrazil- Quart. J. Roy. Meteor. Soc., 103, 77-92.

HEWITSON, B.C., & CRANE, RG. (1996) - Climate downscaling : techniques andapplication - Climate Research, 7, 85-95.

HOSKULDSSON, A. (1988) - PLS regression methods - Journal of chemometrics, 2,211-228.

HUBERT, P., CARBONNEL, J.P., & CHAOUCHE, A. (1989) - Segmentation des sérieshydrologiques: application à des séries de précipitations et de débits de l'Afrique del'Ouest - Journal of hydrology, 110, 349-367.

Page 190: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

190 Bibliographie

HUBERT, M., & VANDEN BRANDEN, K. (2003) - Robust methods for partialleastsquares regression - Journal of chemometrics, 17, 537-549.

JOLLIFFE, 1. (2002) - Multivariate Statistical Methods in Atmospheric Science :The sky's the limit? - ESSG meeting on Multivariate Techniques in environmentalSciences, 15 mai 2002, Londres.

JONA-LASINIO, G. (2001) - Modeling and exploring multivariate spatial variation:a test procedure for isotropy of multivariate spatial data - Journal of multivariateanalysis, 77, 295-317.

JONA-LASINIO, G., & MANCUSO, F. (2001) - Exploring multivariate spatial data, anapplication to election data - In S. Borra, R. Rocci, M. Vicci, & M. Schader (editors),Advances in classification and data analysis, Springer, 325-332.

KALUZNY, S.P., VEGA, S.C., CARDOSO, T.P., & SHELLY, A.A. (1997) ­S+SpatialStats - Springer, 327pp.

KIERS, H.A.L. (1988) - Comparison of" anglo-saxon" and "french" three-mode methods- Statistique et analyse de données, 13(3), 14-32.

KUTZBACH, J. (1967) - Empirical eigenvectors of sea-Ievel pressure, surface tem­perature, and precipitation complexes over North America - Journal of appliedmeteorology, 6, 791-802.

LAHIRI, S.N., LEE, Y., & CRESSIE, N. (2002) - On asymptotic distribution andasymptotic efficiency of least squares estimators of spatial variogram parameters ­Journal of statistical planning and inference, 103, 65-85.

LARSEN, R. (2002) - Decomposition using maximum autocorrelation factors - Journalof chemometrics, 16, 427-435.

LAVIT, C. (1993) - Analyse conjointe de tableaux quantitatifs - Masson, Paris, 252pp.(Collection Méthode + Programmes).

LEBART, L. (1969) - Analyse statistique de la contiguïté - Publication de l'institut destatistiques de l'université de Paris, 28, 81-112.

LEE, P.J. (1969) - Theory and application of canonical trend surface analysis - Journalof Geology, 77, 303-318.

Page 191: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie 191

LEE, A.F.S., & HEGHINIAN, S.M. (1977) - A shift of the mean level in a sequence ofindependent normal random variables: a Bayesian approach - Technometrics, 19(4),503-506.

L'HERMIER DES PLANTES, H. (1976) - Structuration des tableaux à trois indices dela statistique: Théorie et application d'une méthode d'analyse conjointe - Thèse deDoctorat, Université des Sciences et Techniques du Languedoc, Montpellier, France.98pp.

LONG, A.E. (1994) - Cokriging, kernels, and the SVD : toward better geostatisticalanalysis - Dissertation, University of Arizona, 254pp.

MAGNUS, J.R, & NEUDECKER, H. (1988) - Matrix diJJerential calculus with appli­cations in statistics ans econometrics - John Wiley & Sons, New-York.

MARKHAM, C.G., & MCLAIN, D.R (1977) - Sea surface temperatures related to rainin Ceani, northeastern Brazil - Nature, 265, 320-323.

MATHERON, G. (1963) - Principles of geostatistics - Economie Ceology, 58, 1246-1266.

MATHERON, G. (1982) - Pour une analyse krigeante des données régionalisées ­Publication N-732, Centre de Géostatistiques, Fontaineblau, France, 22pp.

MEOT, A., CHESSEL, D., & SABATIER, R(1993) - Opérateurs de voisinage et analysedes données spatio-temporelle - In J.D. Lebreton & B. Asselain (éditeurs), Biométrieet Environnement, Masson, Paris, 45-71.

MOLINIER, M. (1992) - Homogeneizaçao e zoneamento da pluviometria anual noNordeste - Convenio SUDENE/ORSTOM, Recife.

MORAN, P.A.P. (1948) - The interpretation of statistical maps - Journal of the RoyalStatistical Society, B, 10, 243-251.

MOURA, A.D., & SHUKLA, J. (1981) - On the dynamics of droughts in northeastBrazil : Observations, theory and numerical experiments with a general circulationmodel - J. Atmos. Sei., 38, 2653-2675.

NIELSEN, A.A. (1994) - Analysis of regularly and irregularly sampled spatial, mul­tivariate, and multi-temporal data - Ph. D. Thesis, Department of MathematicalModelling, Technical University of Denmark. 213pp.

Page 192: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

192 Bibliographie

NIELSEN, A.A., CONRADSEN, K., PEDERSEN, J.L., & STEENFELT, A. (2000) ­Maximum autocorrelation factorial kriging - In W.J. Kleingeld & D.G. Krige (editors),Proceedings of the 6th International Geostatistics Congress, Geostats 2000, CapeTown, South Africa, 538-547.

NIST/SEMATECH (2003) Handbook of Statistical Methodswww.itl.nist.gov/div8g8/handbook/pmd/section1/pmd144.htm. (novembre 2003).

PETTITT, A.N. (1979) - A non-parametric approach to the change-point problem ­Applied Statistics, 28(2), 126-135.

PHATAK, A. (1993) - Evaluation of some multivariate methods and their applicationsin chemical engineering - Ph. D. Thesis/Chemical engineering, Department ofMathematical Modelling, University of Waterloo, Waterloo. 411pp.

PROHASKA, J. (1976) - A technique for analyzing the linear relationships between twometeorological fields - Monthly weather review, 104, 1345-1353.

ROBERT, P., ESCOUFIER, Y. (1976) - A unifying tool for linear multivariate statisticsmethods: the RV coefficient - Applied statistics, 25(3),257-265.

ROPELEWSKI, C.F., & Halpert, M.S. (1989) - Precipitation patterns associated withthe high index phase of the southern oscillation - Journal of climate, 2(2), 268-284.

ROSSEL, F. (1997) - Influence du Nifio sur les régimes pluviométriques de l'Equateur ­Thèse de doctorat/Mécanique, génie mécanique et génie civil, Université des Scienceset Techniques du Languedoc, Montpellier, France. 289pp.

ROYER, J.J. (1984) - Proximity analysis : a method for multivariate geodata processing- Proc. of the Int. Coll. : "Computers in Earth Sciences for Natural ResourcesCharacterization",Nancy, France.

RUPPERT, D., & WAND, M.P. (1994) - Multivariate locally weighted least squaresregression - The Annals of Statistics, 22(3), 1346-1370.

SABATIER, R. (1998) - Analyse en Composantes Principales d'observations spatialisées- Océanis, 34 (3), 37-53.

SCHAAL, S., VIJAYAKUMAR, S., & ATKESON, C.G. (1998) - Local dimensionalityreduction - In M.J. Kearns & S.A. Solla (editors), Advances in neural informationprocessing systems 10, MIT Press, Cambridge, 633-639.

Page 193: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie 193

SICARD, E. (2001) - Nouvelle approche en analyse spatio-temporelle - Rapport de stagede DEA/Biostatistiques, Ecole Nationale Supérieure Agronomique de Montpellier,Montpellier, France. 74pp.

SICARD, E., SABATIER, R., NIEL, H., & CADIER, E. (2002) - A new approach inspace-time analysis of multivariate hydrological data: application to Brazil's Nordesteregion rainfall- Water resources research, 38(12),55.1-55.10.

SIMONOFF, J.S. (1998) - Smoothing methods in statistics - Second edition, Springer,New-York, 338pp. (Springer series in statistics)

SWITZER, P., & GREEN, A.A. (1984) - Min/max autocorrelation factors for multi­variate spatial imagery - Technical Report No. 6, Department of Statistics, StanfordUniversity, Stanford, CA. 14pp.

TEN BERGE, J.M.F., & KIERS, H.A.L. (1991) - Sorne clarifications of the CANDE­COMP algorithm applied to INDSCAL - Psychometrika, 56, 317-326.

TENENHAUS, M. (1998) - La régression PLS - Editions Technip, Paris, 254pp.

ter BRAAK, C.J.F. (1986) - Canonical correspondence analysis : a new eigenvectormethod for multivariate direct gradient analysis - Ecology, 67, 1167-1179.

THIOULOUSE, J., CHESSEL, D., & CHAMPELY, S. (1995) - Multivariate analysis ofspatial patterns : a unified approach to local and global structures - Environmentaland Ecological Statistics, 2, 1-14.

TUCKER, L.R. (1966) - Sorne mathematical notes on three-mode factor analysis ­Psychometrika, 31, 279-311.

UVO, C., & BERNDTSSON, R. (1996) - Regionalization and spatial properties ofCearaState rainfall in northeast Brazil- Journal of geophysical research, 101 (D2), 4221-4233.

van den WOLLENBERG, A.L. (1977) - Redundancy analysis. An alternative forcanonical correlation analysis - Psychometrika, 42, 207-219.

VARGAS-GUZMAN, J.A. (2004) - Fast modeling of cross-covariances in the LMCa tool for data Integration - Stochastic environmental research and risk assessment,18(2), 91-99.

Page 194: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

194 Bibliographie

VARGAS-GUZMAN, J.A., & DIMITRAKOPOULOS, R (2003) - Computationalproperties of min/max autocorrelation factors - Computers and geosciences, 29(6),715-723.

VENABLES, W.N., & RIPLEY, B.D. (1994) - Modem applied statistics with S-Plus ­Springer, 462pp. (Statistics and Computing)

VIVIEN, M. (2002) - Approches PLS linéraires et non-linéaires pour la modélisation demulti-tableaux: théorie et applications - Thèse de Doctorat/Biostatistiques, UniversitéMontpellier l, Montpellier, France. 294pp.

VUILLE, M., BRADLEY, RS., & KEIMING, F. (2000) - Climate variability inthe Andes of Ecuador and its relation to tropical Pacifie and Atlantic sea surfacetemperature anomalies - Journal of climate, 13(14), 2520-2535.

WACKERNAGEL, H. (1998) - Multivariate Geostatistics, An Introduction with Appli­cations - Second edition, Springer-Verlag, Paris, 291pp.

WACKERNAGEL, H. (1998b) - PCA for autocorrelated data: a geostatistical pers­pective - Technical Report N-22/98/G, Centre de Géostatistique, Ecole des Mines deParis, Fontainebleau. 41pp.

WAGNER, H. (2003) - Spatial ordination in plant communities : integrating ordination,geostatistics, and variance testing - Ecology, 84 (4), 1045-1057.

WALLACE, J.M., SMITH, C., & BRETHERTON, C.S. (1992) - Singular valuedecomposition of wintertime sea-surface temperature and 500-mb height anomalies ­Journal of climate, 5, 561-576.

WAND, M.P., & JONES, M.C. (1995) - Kernel Smoothing - Chapman & Hall, London,212pp.

WARTENBERG, D. (1985) - Multivariate spatial correlations: a method for exploratorygeographical analysis - Geographical analysis, 17(4), 263-283.

WOLD, H. (1966) - Estimation of principal components and related models by iterativeleast squares - ln Krishnaiah, P.R (editors), Multivariate analysis, Academie Press,New-York, 391-420.

WOO, M., HUANG, L., ZHANG, S., & LI, Y. (1997) - Rainfall in Guangdong province- Catena, 29, 115-129.

Page 195: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Bibliographie 195

XIE, T., MYERS, D.E., & LONG, A.E. (1995) - Fitting matrix-valued variogram modelsby simultaneous diagonalization (part II : application) - Mathematical Geology, 27(7),877-888.

YAO, T. (1999) - Non parametric cross-covariance modeling as exemplified by soil heavymetal concentrations from the Swiss Jura - Geoderma, 88, 13-38.

ZORITA, E., HUGUES, P.J., LETTENMAYER, D.P.,& von STORCH, H. (1995)- Stochastic characterization of regional patterns for climate model diagnosis andestimation of local precipitation - Journal of climate, 8, 1023-1042.

Page 196: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 197: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Annexes

197

Page 198: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 199: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Annexe 1

Les stations étudiées

AltitudeLongitude Latitude

Zone Code Nom de la station en degrés en degrésen m

décimaux décimaux

1 AFO Afogados da Ingazeira 525 -37.39 -7.45

1 AGB Agua Branca 710 -37.39 -7.31

8 ARA Araruna 580 -35.44 -6.31

1 BET Betania 431 -38.02 -8.17

5 BJL B. Jesus da Lapa 435 -43.25 -13.16

5 BRM Barra do Mendes 706 -42.04 -11.49

1 BSF Belem de S. Francisco 305 -38.58 -8.46

3 CAE Carire 157 -40.28 -3.57

9 CAU Caraubas 460 -36.31 -7.43

6 CAZ Cajazeiras 291 -38.34 -6.53

1 CEC Cerro Cora 590 -36.21 -6.03

1 CED Cedro 190 -39.04 -4.58

4 COT Cotegipe 484 -44.16 -12.02

3 CRS Crateus 275 -40.4 -5.11

1 CRU Acude Cruzeta 140 -36.47 -6.25

6 CUE Curemas 220 -37.58 -7.01

1 EMA Erna 210 -38.21 -5.46

8 FRP Frei Paulo 272 -37.32 -10.33

8 FST Feira de Santana 257 -38.58 -12.16

1 IBI Ibicua 273 -39.26 -5.56

1 IMA Imaculada 750 -37.3 -7.23

3 IPU Ipueiras 238 -40.43 -4.33

8 IRA Irara 283 -38.45 -12.02

(Suite page suivante)

Page 200: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

200 Annexe 1. Les stations étudiées

Zone Code Nom de la station Altitude Longitude Latitude

8 ITA Itabaiana 45 -35.2 -7.2

1 JAR Jardim 630 -39.17 -7.35

1 JAS J ardim do Serido 220 -36.47 -6.35

8 LAC Lagoa da Canoa 235 -36.44 -9.5

7 MAB Monte Alegre da Bahia 424 -40.09 -11.42

9 MAI Major Isidoro 217 -36.59 -9.32

4 MAQ Mariquita 750 -44.15 -12.24

6 MAT Martins 645 -37.55 -6.05

5 NOA Novo Acre 590 -41.06 -13.26

8 NSD N. S. Das Dores 200 -37.13 -10.3

1 OLA Olho dagua 150 -38.51 -4.45

9 PAN Panelas 620 -36.02 -8.4

6 PAT Patos 270 -39.04 -6.45

1 PAU Parau 38 -37.06 -5.47

1 PET Petrolina 376 -40.3 -9.23

7 PlU Pindobacu 600 -40.21 -10.44

9 POF Porto da Folha 45 -37.16 -9.55

6 POM Pombal 178 -37.49 -6.46

8 PRC Porto Real do Colegio 30 -36.5 -10.11

5 PRN Paramirim 593 -42.14 -13.27

6 PRT Porteiras 520 -39.08 -7.31

4 REM Remanso 378 -42.04 -9.41

5 RIO Rio de Contas 1002 -41.49 -13.34

5 RIS Riacho de Santana 627 -42.56 -13.36

1 RRE Rio Real 220 -37.56 -11.28

1 SAL Salgueiro 415 -39.07 -8.04

4 SAN Santana 580 -44.03 -12.59

1 SAR Sto Antonio de Russas 40 -38.1 -4.5

9 SBU S. Bento do Una 645 -36.22 -8.31

6 SEG Serra Grande 585 -38.19 -7.15

1 SER Serrita 425 -39.19 -7.56

1 SJE S. Jode so Egito 575 -37.17 -7.28

7 SRB Senhor do Bonfim 544 -40.11 -10.27

1 STC Santa Cruz 489 -40.15 -8.16(Suite page suivante)

Page 201: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Zone Code Nom de la station Altitude Longitude Latitude

3 STQ Santa Quiteria 190 -40.1 -4.2

1 STZ Santa Luzia 290 -36.56 -6.52

1 SVI S. Vicente 320 -36.41 -6.13

6 TEl Teixeira 770 -37.16 -7.13

8 TIM Timbauda 190 -35.19 -7.31

6 UMA Umari 350 -38.42 -6.39

6 VAA Varzea Alegre 345 -39.18 -6.47

6 VAR Varzea 224 -39.07 -6.28

TAB. 1.1: Caractéristiques des 65 stations retenues (Ca-dier, 1993). La première colonne correspond aux zonesdéfinies par Cadier (1993) par zonage pluviométrique despluies de courie durée, et représentées en figure 1.1.

12

FIG. 1.1 - Zonage pluviométrique de Cadier {1993}.

201

Page 202: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 203: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Annexe 2

Compléments STATIS

Page 204: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

204 Annexe 2. Compléments STATIS

1938 1939 1940

III III ~~ ~ ~

C! C! C!~~~ ~ ~

10 10 10"'0 "'0 "'0Y o Y o Y o

0 0 0

C! C! C!~ ~ ..

·1 0 2 ·1 0 2 ·1 0 2

Cl Cl Cl

1941 1942 1943

III RIO ~ ~~ ~ ~

C! C! C!~ ~ ~

10 III III{Jo "'0 "'0

0 t)o t)o0 0 c 0

C! q C1~ .. ';', ,

·1 0 2 ·1 0 2 ·1 0 2

Cl Cl Cl

1944 1945 1946

III III ~~ ~ ..C! C! C1~ ~ ~

III III III"'0 "'0 "'0Y o t)o Y o

0 0 0

C! C! C!';' ~ ~

·1 0 2 ·1 0 2 ·1 0 2Cl Cl Cl

1947 1948 1949

III SAN III ~~ ~ ..C! C! q~ ~ ~

10 10 III"'0 "'0 "'0Y o t)o t)o

0 0 0

C! C! q~ ~ .., , ,

-1 0 2 ·1 0 2 ·1 0 2

Cl Cl Cl

FIG. 2.1 - Graphes de l'intrastructure pour le plan constitué par la première et la deuxième composante.

Page 205: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

205

1938 1939 1940

III-Wt

III III~ ~ ~

Cl Cl Cl~~~ ~ ~

1/) 1/) 1/)

"'0 E "'0 "'0(,Jo (,Jo (,Jo

0 0 0

Cl Cl Cl~ ~ ~, ,

·1 0 2 ·1 ·1 2Cl Cl Cl

1941 1942 1943

III RIO III III~ ~ ~

Cl Cl Cl~ ~ ~

1/) 1/) 1/)

"'0 "'0 [jo(,Jo (,Jo 0

0 0 c 0

Cl Cl Cl';" ';" ~

·1 2 -1 2 ·1

Cl Cl Cl

1944 1945 1946

III III III~ ~ ~

Cl Cl Cl~ ~ ~

1/) 1/) 1/)

"'0 "'0 "'0(,Jo (,Jo (,Jo

0 0 0

Cl Cl Cl~ ~ ~, ,

-1 2 ·1 2 ·1

Cl Cl Cl

1947 1948 1949

III SAN III III~ ~ ~

Cl Cl Cl~ ~ ~

1/) 1/) 1/)

"'0 "'0 "'0(,Jo (,Jo (,Jo

0 0 0

Cl Cl Cl';" ~ ~

·1 2 ·1 2 -1 2Cl Cl Cl

FIG. 2.2 - Graphes de l'intrastructure pour le plan constitué par la première et la deuxième composante(suite).

Page 206: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

206 Annexe 2. Compléments STATIS

1962 1963 1964

III III Il?.. .. ..C! C! C!.. .. ..III III III

""0 PRC ""0 ""0~o ~o ~o

0 0 0

C! C! C!.. .. .., ,·1 0 2 ·1 2 ·1 0 2

Cl Cl Cl

1965 1966 1967

III~

III III.. .. ..C! C! C!.. .. ..ID III ID

[Jo ""0 ""00 ~o ~o

0 0 0

C! C! C!':' ':' ..

·1 0 2 ·1 0 2 ·1 0 2Cl Cl Cl

1968 1969 1970

III COT III III..IRA

.. ..C! C! C!.. .. ..ID ID III

""0 ""0 ""0~o ~o ~o

0 0 0TIM

C! C! C!.. .. ..,·1 2 ·1 0 2 ·1 0 2

Cl Cl Cl

1971 1972 1973

III III.. ..~C! C!.. ..

III ID

-lIt""0 ""0~o ~o P

0 0

C! C!.. ..,·1 0 ·1 0 ·1 0

Cl Cl Cl

FIG. 2.3 - Graphes de l'intrastructure pour le plan constitué par la première et la deuxième composante(suite).

Page 207: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

207

1974 1975 1976

ll1 ll1 ll1~ ~ RIO ~

C! C! C!~ ~ ~

III III IIINO NO NO(,le (,le (,le

0 0 0 C

C! C! C!~ ~ ~, , ,

·1 2 ·1 0 2 ·1 2Cl Cl Cl

1977 1978 1979

ll1 ll1 111~ ~ ~

C! C! C!~ ~ ~

III III IIINO NO NO(,le (,le (,le

0 0 0TIM

C! C! C!~ ';" ~,

·1 2 ·1 ·1

Cl Cl Cl

1980 1981 1982

ll1 111 ll1~ ~ ~

C! C! C! RJB't~ ~ ~

~ TIMIII III IIINO NO NO(,le (,le (,le

0 0 0

C! C! C!~ ';" ~, ,

·1 0 2 ·1 2 ·1 0 2cl Cl Cl

1983 1984

III III~ MAQ ~

C! C!~ SAN ~

IIITI III

NO NO(,le (,le

0 0

C! C!~ ';",

·1 0 2 ·1 0 2Cl Cl

FIG. 2.4 - Graphes de l'intrastructure pour le plan constitué par la première et la deuxième composante(suite).

Page 208: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER
Page 209: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Annexe 3

Le krigeage ordinaire

C'est la méthode de krigeage la plus largement utilisée pour estimer une valeur en unpoint Xo connaissant celles des points de son voisinage, après avoir choisi un variogramme,(h) pour la fonction aléatoire Z(x) dont les n valeurs Z(Xi) constituent les réalisations.Notre présentation reprend celle de Wackernagel (1998).L'estimateur recherché, linéaire, est de la forme:

n

Z(xo) = L WiZ(Xi)i=l

(3.1)

avec Xi les n points de voisinage dont la valeur est connue, et Wi les poids à estimer.Dans le cas où toutes les valeurs Z(Xi) sont égales à une constante, il est logique desupposer que Z(Xo) soit égal à cette constante. La contrainte ~~1 Wi = 1 est donc ra­joutée. Cette contrainte assure le non biais de l'estimateur Z(xo) : E(Z(xo) -Z(Xo)) = o.

Les poids sont estimés de telle sorte qu'ils minimisent la variance d'estimation, sousla contrainte ~~=1 Wi = 1.La variance s'écrivant:

var(Z(Xo) - Z(xo)) = E[(Z(Xo) - Z(XO))2]

=E[(Z(XO))2 + (Z(Xo))2 - 2Z(xo)Z(xo)]n n

= - L L wiWi',(Xi - Xi') -,(xo - xo)i=l i'=ln

+ 2L WiI(Xi - Xi')i=l

La minimisation en utilisant la méthode des multiplicateurs de Lagrange permetd'aboutir au système suivant:

n

L Wi,,(Xi - Xi') + J1 = ,(Xi - xo)i'=l

n

LWi' = 1i'=l

pour i = 1 ... n

Page 210: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

210 Annexe 3. Le krigeage ordinaire

où IL est le multiplicateur de Lagrange associé à la contrainte.La variance d'estimation au point Xo s'écrit:

n

â(XO)2 = IL - ,(xo - xo) +L: W("y(Xi - xo)i=l

(3.2)

L'estimateur obtenu Z(xo), est exact, dans le sens où si Xo = Xi alors Z(xo) = Z(Xi).

Une fois l'estimation réalisée, il est nécessaire de la valider afin de contrôler lavalidité des hypothèses. La validation croisée est un moyen simple pour s'en assurer etpour en comparer plusieurs entre elles.

Validation croisée

Chaque point de l'échantillon Xi est retiré à tour de rôle et sa valeur est estimée àpartir des n - 1 points restants (Wackernagel, 1998).La différence Z(Xi) - Z(X[i]) est l'erreur de validation croisée. Les crochets autourde i signifient que l'estimation est réalisée au point Xi en utilisant tous les pointsd'échantillonnage sauf le point Xi .

• Si la moyenne de ces erreurs ~ E~=l (Z(Xi) - Z(X[i])) est proche de 0, on peutconsidérer qu'il n'y a pas de biais apparent. Si elle s'en éloigne, c'est qu'il peut y avoirune surestimation ou sous-estimation systématique.• La variance des erreurs doit également être la plus faible possible.

Cette étude des erreurs est complétée par un examen similaire de la moyenne et de lavariance des erreurs standardisées, c'est-à-dire des erreurs divisées par les écarts-typesde krigeage correspondants :

Z(Xi) - Z(X[i])â'(X[i])

(3.3)

Ainsi on tient compte du fait qu'un site éloigné des autres tend à produire une erreurd'estimation élevée quel que soit le modèle de variogramme utilisé.

Page 211: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Annexe 4

Quelques programmes

Méthode des MAF

MAF<-function(X.ZDEZ.D.graph=T){

# X CENTRE ET REDUIT par rapport a D# Q=I# D=(l/n)I# aides a l'interpretation d'apres faraj et cailly (01)

p<-ncol(X)n<-nrow(X)Sigma<-t(X)%*%D%*%Xdiago<-solve (Sigma) %*%ZDEZeg<-e igen (diago) ##matrice non symetrique donc vecteurs propreslInon normes a 1valp<-eg$valuesinertiaX<-sum(valp)forCi in l:ncol(diago))if(valp[i]<O)valp[i]<-O

# calcul des composantes principalesA<-matrix(NA.p.p)for (i in 1:12) A[.i]<-eg$vectors[,i]/sqrt(t(eg$vectors[.i])%*%Sigma%*%eg$vectors[,i])Iton norme les valeurs propres a Sigma

C<-X%*%Adimnames(C)<-list (dimnames (X) [[1]] .paste(" c ll ,format (1:p) .sep="ll))

# matrice R des correlations entre C et X (metrique D)

Page 212: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

212 Annexe 4. Quelques programmes

R<-matrix(NA,nrow=p,ncol=p)for(i in 1:p) {for (j in 1:p){R[i ,j] <-t (C [,j] )%*%D%*%X[,i] / ( sqrt(t (C [, j] )%*%D%*%C [,j]) *sqrt(t(X[,i])%*%D%*%X[,i]) )}}dimnames (R) <-list (dimnames (X) [[2]] ,paste (" C " ,format (1 :p) , sep='"I»

# calcul des contributions CNT ##faraj et caillyCNT<-matrix(NA,nrow=p,ncol=p)for(i in 1:p) {for (j in 1:p){CNT[i,j]<-(R[i,j]) * abs(R[i,j]) * (valp[j]) / (ZDEZ[i,i])}}dimnames (CNT) <-list (dimnames (X) [[2]] ,paste (" C " ,format (1 :p) , sep=""»

# calcul des contributions CNTVCNTV<-matrix(NA,nrow=p,ncol=p)for(i in 1:p) {for (j in 1:p){CNTV [i, j] <- (R[i ,j]) * abs (R[i, j])}}dimnames (CNTV) <-list (dimnames (X) [[2]] ,paste (" C " ,format (1 :p) , sep=""»

# calcul des contributions absolues CNTA ##faraj et caillyCNTA<- apply( (R-2)%*%diag(valp) ,2,sum) / sum(diag(ZDEZ»names (CNTA) <-paste (" Cil, format (1: p) , sep="")# calcul des contributions absolues CNTVACNTVA<-apply( diag(diag(Sigma» %*%(R-2) ,2,sum) /sum(diag(Sigma»names (CNTVA) <-paste (" C " , format (1: p) , sep="")

##***********************************************************## GRAPHES##***********************************************************

if (graph==T) {

Page 213: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

213

##graphe des CNTA et des CNTVAcat(II \n ll )

repeat{cat(IIHistogramme des contributions absolues non ordonnees (o/n) ?\n ll )plta<-scan(1I11 , characterO ,1)

if «length(plta) ==0) 1 (plta==lInll) )breakelse {par(mfrow=c(1,2))barplot(CNTA,space=2,names=names(CNTA));title(IICNTAII)barplot(CNTVA,space=2,names=names(CNTVA));title(IICNTVAII)break}}

cat(II \n ll )

repeat{cat(IIHistogramme des contributions absolues ordonnees (o/n) ?\n ll )plta<-scan(III1,characterO ,1)

if «length(plta) ==0) 1 (plta==lIn ll) ) breakelse {par(mfrow=c(1,2))barplot (rev(sort (CNTA)) , space=2 ,names=names (rev(sort (CNTA)))) ;title (l'CNTAII)barplot(CNTVA[names(rev(sort(CNTA)))],space=2,names=names(rev(sort(CNTA))));title(IICNTVAII)break}}

par(mfrow=c(1,1))

##graphe des composantescat(II \n ll )

repeat{

cat(lIgraphique pour les u.s. (o/n) ?\n ll)

pltc<-scan(III1,characterO ,1)if «length(pltc) ==0) 1 (pltc==lInll))break

else{cat(lI axe horizontal «=II,p,lI) ?\n ll

)

pltch<-scan('''',numericO ,1)cat(lIaxe vertical «=II,p,lI) ?\n ll )pltcv<-scan('"',numericO ,1)par (mfrow=c (1,1) ,pty=II S Il)

axespar<-c(pltch,pltcv)Ctot<-Cplot (Ctot [,axespar] ,xlab=paste(lI c ll , axespar [1] , Il Il , round (valp [axespar [1]] ,

Page 214: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

214

}}

Annexe 4. Quelques programmes

digits=4),II(II,round(valp[axespar[1]]/inertiaX*100,digits=2),11%)11),ylab=paste (II Cil, axespar [2] ,II Il, round (valp [axespar [2]] ,

digits=4),II(II,round(valp[axespar[2]]/inertiaX*100,digits=2),11%)11),type=lI n ll)

abline(h=O)abline(v=O)text (Ctot [,axespar] ,dimnames(Ctot) [[1]])

##graphe des CNTVcat(II \n ll )

repeat{

cat(lIgraphe des CNTV (o/n) ?\n ll )plta<-scan(lIl1, characterO ,1)if «length(plta)==O) 1 (plta==lIn ll) ) break

else{

cat(lI axe horizontal «=11 ,p, Il) ?\n ll )pltah<-scan(1I11 ,numericO ,1)cat(lI axe vertical «=11 ,p, Il) ?\n ll )pltav<-scan(1I11 ,numericO ,1)par(mfrow=c(l,l) ,pty=II S Il)

axespar<-c (pItah ,pltav)theta<-seq(0,20, .05)x<-cos (theta)y<-sin(theta)plot (x,y, type=1I11l ,xlab=paste (lla ll ,axespar [1] ,II Il ,round(valp [axespar [1]] ,digits=4),II(",round(valp[axespar[1]]!inertiaX*100,digits=2),11%)11),ylab=paste(lIa ll ,axespar[2] ,II Il ,round(valp[axespar[2]],digits=4),II(II,round(valp[axespar[2]]/inertiaX*100,digits=2),11%)11),

type=lIn ll)

abline(h=O)abline(v=O)text(R[,axespar] ,dimnames(R) [[1]])

}}

##graphe des CNTcat(II \n ll )

repeat{

cat(lIcercle des contributions spatiales (o/n) ?\n")plta<-scan(1I11 ,characterO ,1)

if «length(plta) ==0) 1(plta==lIn ll) ) breakelse

{

cat(lI axe horizontal «=II,p,lI) ?\n ll )

Page 215: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

215

pltah<-scan(lIl1. numericO .1)

cat("axe vertical «=". p.") ?\n")pltav<-scan (" Il .numericO .1)par (mfrow=c 0.1) .pty=II S ")

axespar<-c(pltah.pltav)theta<-seq(O.20 •. 05)x<-cos(theta)y<-sin(theta)plot(x.y. type="P .xlab=paste("a".axespar[l].11 Il • round (valp [axespar [1]],digits=4) , Il (" • round (valp [axespar [1]] /inertiaX*100 .digits=2) ,"%) ") •ylab=paste("a" ,axespar[2]. Il Il ,round(valp[axespar[2]] •digits=4).I(",round(valp[axespar[2]]!inertiaX*100.digits=2)."%)").

type="n")abline(h=O)abline(v=O)text (CNT [.axespar] .dimnames(CNT) [[1]])

}}

} #fin graphes

return(C,A.CNT.CNTA.CNTV,CNTVA,valp)}

Page 216: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

216

Méthode SCMu

Annexe 4. Quelques programmes

SCMu<-function(u,teta,H,nph=NULL,gammafonc,ZDEZ,ftobj=lagISO,gradient=DHlagISO,hessien=T,plot=T,itermax=50,tolx=O.000001,tolobj=O.000001){

## ajustement omnidirectionnel de u avec nlminb #### teta constant ##

## sans contrainte : reparametrisation de la ft ##

##_---------------------------------------------------------------_##

# u px1 : composante de depart# teta : vecteur de parametre de la fonction gammafonc# H : vecteur des pas correspondants a ZDEZ# nph : vecteur du nb de couple dans chaque pas de H# gammafonc : fonction variogramme# ZDEZ : liste des matrices P*P des variogrammes experimentaux# ftobj : critere minimise = psi3# gradient : fonction donnant le gradient et le Hessien de ftobj# itermax : nombre maximal d'iterations# tolx et tolobj : criteres d'arret

#### initialisation des variables ...

if (plot==T) par(mfrow=c(1,1),err=-1)vectobjectif<-rep(O,itermax)u<-as.vector(u)teta<-as.vector(teta)nh<-length(H)if (length(ZDEZ) !=nh) stop("pb de nombre de pas")if (is.null(nph» nph<-rep(1,nh)else {if (length (nph) !=nh) stop (" pb de nombre de pas")}

#### calcul objectif initialobjectif<-ftobj(u,varioteta,ZDEZ,H,nph)objectifold<-Ocat(lobjectifO=" ,objectif, "\n")

uO<-uvarioteta<-gammafonc(H,teta)iter<-1uold<-u+1

## BOUCLE

Page 217: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

while ((iter<itermax)&(abs((objectif-objectifold)/objectifold»tolobj)& (sum(abs((u-uold)/uold»>tolx»{#################################

uold<-uobjectifold<-objectif

#### calcul de la composante u

res<-nlminb(start=u,objective=ftobj, gradient=gradient,hessian=hessien,control = nlminb.control(scale.upd=1),H=H, nph=nph, varioteta=varioteta,ZDEZ=ZDEZ)u<-res$parameters

cat ("nl minb : Il ,"\n")cat (res$message, "\n")cat (" objectif : Il ,res$objective, "\n")cat("iterations :",res$iterations,"\n")

#### affichage de l evolution de l objectifobjectif<-ftobj(u,varioteta,ZDEZ,H,nph)vectobjectif[iter]<-objectif

if (plot==T) {tsplot(vectobjectif[1:iter] ,xlab="Evolution de l'objectif")}

iter<-iter+1###########################}

u<-u/sqrt(sum(u*u»hesmat<-DHlagISO(u,varioteta,ZDEZ,H,nph)$hesmatgrad<-DHlagISO(u,varioteta,ZDEZ,H,nph)$grad

return(u,teta,objectif,hesmat,grad)}

#*****************************************************

lagISO<-function(u,varioteta,ZDEZ,H,nph){

# Critere psi3# reparametrisation on renorme u avant

217

Page 218: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

218 Annexe 4. Quelques programmes

u<-u/sqrt(sum(u*u»nh<-length(H)variou<-rep(O.nh)for (h in 1:nh) variou[h]<-t(u)%*%ZDEZ[[h]]%*%ures<-sum( (nph/varioteta)*(variou-varioteta)-2 )return(res)}

#*****************************************************

DHlagISO<-function(u.varioteta.ZDEZ.H.nph){

# Derivee et hessien du lagrangiennh<-length(H)p<-length(u)normu<-as.numeric(t(u)%*%u)variou<-rep(O.nh)for (h in 1:nh) variou[h]<-t(u)%*%ZDEZ[[h]]%*%u

#gradientDlagISO<-rep(O.p)for (h in 1:nh) DlagISO<-DlagISO+(1/varioteta[h])*4*nph[h]*(variou[h]/normu-varioteta[h])*( ZDEZ[[h]]%*%u/normu-variou[h]*u/(normu-2) )

# Hessienres<-matrix(O.p.p)for (h in 1:nhHres<-res + (1/varioteta[h])*8*nph[h]*( ZDEZ[[h]]%*%u/normu-variou[h]*u/(normu-2) ) %*%t( ZDEZ[[h]]%*%u/normu-variou[h]*u/(normu-2) )res<-res + (1/varioteta[h])*4*nph[h]*( ZDEZ[[h]]/normu-4*ZDEZ[[h]]%*%u%*%t(u)/(normu-2)+4*variou[h]*u%*%t(u)/(normu-3)-variou[h]*diag(p)/(normu-2) )*(variou[h]/normu-varioteta[h])}

HlagISO<-rep(NA.(p*(p+1)/2»indice<-Ofor(i in 1:pHfor (j in 1:iHindice<-indice+1HlagISO[indice]<-res[i.j]}}list(gradient=DlagISO.hessian=HlagISO.hesmat=res)}

Page 219: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

219

Page 220: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

220

Régression PLS locale

Annexe 4. Quelques programmes

pls.loess<-function(X,Y,Xtest,Ytest,Qy=1,Q,D=1,Fp=0.5,flis=1,corX=T,corY=T,A=3,impres=T){# PLS loess# voisins calcules sur X## Entrees: voir la fonction pIs# X matrice des variables explicatives# y matrice des variables a expliquer# Xtest matrice des variables explicatives test pour la prediction# Ytest valeurs reelles des observations test# Qy metrique pour les colonnes de Y, par defaut identite# Q choix de ce qu'on veut: 1 si que estimation input,# 2 si que estimation test, 3 si les deux# A nombre de couples de composantes PLS# Fp %d'observations pour le lissage# flis fonction de lissage utilisée: =0 identité, = 1 tricube,# = 2 bicube, =3 paneshnikov,# =4 gaussienne, =5 lineaire## Fonctions appelees# PLS : regression PLS (non indiquee ici)## Sorties# Xini matrice X apres transformations eventuelles# Yini matrice Y apres transformations eventuelles# vois matrice nxn des voisins de chaque observation de X# Yp matrice de la prediction associee a X# Xinitest matrice Xtest apres transformations eventuelles# Yinitest matrice Ytest apres transformations eventuelles# Yptest matrice de la prediction associee a Xtest# voistest matrice des voisins de chaque observation de Xtest##

### lecture des donnees input

Xinitial<-as.matrix(X)Yinitial<-as.matrix(Y)n<-nrow(Xinitial)p<-ncol(Xinitial)q<-ncol(Yinitial)if(is.null(dimnames(Xinitial»)

dimnames (Xinitial) <-list (format (1: n) ,paste ("X" ,1: p, sep=""»if(is.null(dimnames(Yinitial»)

Page 221: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

221

dimnames (Yinitial)<-list (format (1 :n) ,paste ("Y" , 1: q, sep=""»if (length(dimnames (Xinitial) [[1]])==0)

dimnames(Xinitial) [[l]]<-format(l:n)if (length(dimnames (Yinitial) [[1]])==0)

dimnames(Yinitial) [[l]]<-format(l:n)if (length(dimnames(Xinitial) [[2]])==0)

dimnames(Xinitial) [[2]]<-paste(IX II ,1:p,sep="I1)if (length(dimnames (Yinitial) [[2]])==0)

dimnames (Yinitial) [[2]] <-paste ("Y" , 1: q, sep: Il ")

#calcul du nombre de voisinsif(Fp<O Il Fp>1) returnOnF<-round(n*Fp)

### calcul de la metrique si D=l

if(length(D)==l) D<-rep(l/n,n) else D<-as.vector(D)

### centrage et reduction

centX<-Dcentred(Xinitial,D=D)centY<-Dcentred(Yinitial,D=D)if(corX) Xini<-as.matrix(centX$Xcr) else Xini<-as.matrix(centX$Xc)if(corY) Yini<-as.matrix(centY$Xcr) else Yini<-as.matrix(centY$Xc)

if(impres) {cat("PLS loess\n")cat("---------------------------\n")cat (" un instant S. V.P. ! ... . \n")}

### estimation des points inputif«Q==l) 1 (Q==3» {

Yp<-vector(lIlist ll ,A)for (k in l:A) {Yp[[k]]<-matrix(O,nrow=n,ncol=q)

dimnames(Yp[[k]])<-dimnames(Yini)}vois<-matrix(O,nrow=n,ncol=n)dimnames (vois)<-list(dimnames (Xinitial) [[1]] ,dimnames(Xinitial) [[1]])WD<-WDop(X=Xini)for(i in l:n)

{

if(impres)cat(i," ")disi<-rep(O,n)for(j in l:n) disi[j]<-sqrt(WD[i,i]+WD[j,j]-2*WD[i,j])disim<-sort(disi) [nF]

Page 222: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

222 Annexe 4. Quelques programmes

masque<-(disi<=disim)XXi<-Xini[masque,]YYi<-Yini[masque,]nvois<-sum(masque)DDi<-disi[masque]for(j in 1:n) {

if ( disi[j]<=disim ) {vois[i,j]<-1

}}

if(flis==O) DDi<-rep(1,nvois)if(flis==1) DDi<-(1-(DDi/max(disi))A3)A3if(flis==2) DDi<-(1-(DDi/max(disi))A2)-2if(flis==3) DDi<-1-(DDi/max(disi))-2if(flis==4) DDi<-exp(-«DDi/max(disi))-2)/2)if(flis==5) DDi<-1-(DDi/max(disi))DDi<-DDi/sum(DDi)moyXXi<-matrix(Dcentred(XXi,DDi)$moy,ncol=1)moyYVi<-matrix(Dcentred(YYi,DDi)$moy,ncol=1)plsresuli<-pls(X=XXi,Y=YYi,D=DDi,centrX=T,centrY=T,corX=F,

corY=F,A=A,graph=F,impres=F,iter=150)for (k in 1:A)

Yp[[k]] [i,]<-plsresuli$BETALCR[[k]]%*%as.matrix(Xini[i,]-moyXXi)+moyYYi

}}

if (impres) cat (lI\n ll)

### lecture des donnees tests

if «Q==2) 1(Q==3)) { #*#

Xtest<-as.matrix(Xtest)Ytest<-as.matrix(Ytest)ntest<-nrow(Xtest)if(lncol(Xtest)==p) return()if(lncol(Ytest)==q) return()if(is.null(dimnames(Xtest)))

dimnames (Xtest) <-list (format (1: ntest) ,paste (IIX II ,1:p, sep=III1))if (length(dimnames(Xtest) [[1]])==0)

dimnames(Xtest) [[1]]<- format(1:ntest)if (length(dimnames (Xtest) [[2]])==0)

dimnames (Xtest) [[2]] <- paste (IIX II ,1:p, sep=lIl1)

Page 223: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

### centrage reduction

Xinitest<-sweep(Xtest, 2,centX$moy)if(corX) Xinitest<-sweep(Xinitest,2,sqrt(centX$var),FUN=I/")dimnames(Xinitest)<-dimnames(Xtest)Yinitest<-sweep(Ytest,2,centY$moy)if(corY) Yinitest<-sweep(Yinitest,2,sqrt(centY$var),FUN="/II)dimnames (Yinitest) <-dimnames (Ytest)

### estimation des points test

Yptest<-vector(lIlist ll ,A)for (k in 1:A) {Yptest[[k]]<-matrix(O,nrow=ntest,ncol=q)

dimnames(Yptest[[k]])<-dimnames(Ytest)}voistest<-matrix(O,nrow=ntest,ncol=n)dimnames(voistest)<-list(dimnames(Xtest)[[1]],dimnames(Xini) [[1]])XXini<-rbind(Xini,Xinitest)WD<-WDop(X=XXini)forCi in 1:ntest)

{

if(impres)cat(i,1I Il)

disi<-rep(O,n)for (j in 1:n)

disi[j]<-sqrt(WD[n+i,n+i]+WD[j,j]-2*WD[n+i,j])disim<-sort (disi) [nF]masque<-( disi<=disim )ii<-OXXi<-Xini[masque,]YYi<-Yini[masque,]nvois<-sum(masque)DDi<-disi[masque]for (j in 1:n) {

if ( disi[j]<=disim ) {voistest[i,j]<-1}

}

if(flis==O) DDi<-rep(1,nvois)if(flis==1) DDi<-(1-(DDi/max(disi»-3)-3if(flis==2) DDi<-(1-(DDi/max(disi»-2)-2if (flis==3) DDi<-1-(DDi/max(disi»-2if (flis==4) DDi<-exp(-«DDi/max(disi»-2)/2)if(flis==5) DDi<-1-(DDi/max(disi»DDi<-DDi/sum(DDi)moyXXi<-matrix(Dcentred(XXi,DDi)$moy,ncol=1)moyYYi<-matrix(Dcentred(YYi,DDi)$moy,ncol=1)plsresuli<-pls(X=XXi,Y=YYi,D=DDi,centrX=T,centrY=T,corX=F,

corY=F,A=A,graph=F,impres=F,iter=150)

223

Page 224: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

224 Annexe 4. Quelques programmes

for (k in 1:A)Yptest[[k]] [i,]<-plsresuli$BETALCR[[k]]y'*y'

as.matrix(Xinitest[i,]-moyXXi)+moyYYi}

if (Q==l) return(Xini,Yini,Yp,vois,A,Fp,flis)if (Q==2) return(Xinitest,Yinitest,Yptest,voistest,A,Fp,flis)if (Q==3) return(Xini,Yini,Yp,vois,

Xinitest,Yinitest,Yptest,voistest,A,Fp,flis)

}

Page 225: Choix de composantes optimales pour l'analyse spatiale et ...horizon.documentation.ird.fr/exl-doc/pleins_textes/divers17-04/... · ACADÉMIE DE MONTPELLIER, UNIVERSITE MONTPELLIER

Résumé

Ce travail rentre dans la problématique d'analyse de données spatiales multivariées,par le biais de composantes optimales. Une synthèse bibliographique des différentesméthodes existantes est· réalisée. Elles sont basées sur le calcul de composantes quioptimisent un certain éritère spatial. Nous introduisons de nouveaux critères, quipermettent de définir de nouvelles méthodes. Il s'agit de l'analyse sur composantesspatialisées à () constant ou variable, et de ses variantes. Elles permettent d'obtenirdes composantes dont le variogramme expérimental s'ajuste au mieux à un certainvariogramme théorique. Nous avons testé les méthodes sur des données de pluie duNordeste brésilien, mesurées sur 65 stations de janvier 1937 à décembre 1984. Ladeuxième partie de ce travail est de nature un peu différente. Il s'agit en effet de testerdes méthodes de régression non paramétrique utilisant comme variables explicativesdes composantes calculées par régression PLS. Ces méthodes de régression utilisent desoutils d'analyse spatiale, par le biais du krigeage et de la distance euclidienne. Nousles avons appliquées sur les données de pluie en utilisant comme variables explicativesdes variables de température superficielle de la mer et l'indice d'oscillation australe(SOI).

Mots-Clefs: Nordeste brésilien - données de pluies - géostatistique - données spatialesmultivariées - composantes optimales - régression PLS - régression LOESS.

Abstract

This work deals with the calculation of optimal components for spatial and multi­variate data analysis. First we realize a bibliographical synthesis of various existingmethods that are based on the optimization of various criteria. Next, we introducesorne new criteria that make it possible to define the new method of spatializedcomponent analysis. This new methodology calculates components so that theirexperimental variogram best fits a certain theoretical model. We make a distinctionbetween the case where the coefficients of the theoretical models are constant and thecase where they are estimated simultaneously with the components, and we definea few variants. We implement the methods on monthly amounts of rainfall in theNordeste region of Brazil, recorded on 65 stations from january of 1937 to decemberof 1884. The second part of this work deals with a slightly different problematics. Itactually aims to implement sorne non parametrical regression methods that use PLScomponents as explanatory variables. They use also spatial tools, by means of krigingand euclidean distances. We tested them on the brasilian rainfall dataset, to ex­plain by variables of sea surface temperatures and the southern oscillation index (SOI).

Keywords : brasilian Nordeste - 'rainfall data - geostatistics - spatial multivariatedata - PLS regression - LOESS regression.