37

Méthodologie pour la valorisation des SlGs par la ...infoterre.brgm.fr/rapports/RP-50629-FR.pdf · Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

Embed Size (px)

Citation preview

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

Mots clés : SIG, Ressources Minérales, Data Mining, Signatex, Carte de prédictivité, Méthodologie, Traitements multicntères.

En bibliographie, ce rapport sera cité de la façon suivante :

Bouchot V., Tourlière B., Itard Y., Salleb A., Cassard D., Billa M., Deschamps Y., NicolN., Milesi J.P. (2000) - Méthodologie pour ta valorisation des SIG5 par la production de cartes de prédictivité. BRGMIRP-50629-FR, 40 p., 6 fig., 1 ann.

O BRGM. 2000, ce document ne peut être reproduii en totalité ou en pnrtie sans I'autorisation expresse du BRGM

Méthodologie pour la valorisation des SIGs par la production de caries de prédictivité

Synthèse

Méthodologie pour la valorisation des SlGs par la production de cartes de prédicfivité

L a valorisation des SIGs «Ressources minérales » par la production de couches à forte valeur ajoutée dites de prédictivité (Predictivity Mapping) est une évolution

vitale des SIGs du BRGM dans la mesure où elle doit permettre de distinguer nos produits de la concurrence. Le BRGM en a les capacités et l'expérience compte tenu de la diversité et de la complémentarité des métiers. En revanche, le manque de méthodologie rigoureuse entrave encore trop souvent la production de cartes prédictives qui soient didactiques et scientifiquement valides. Pour pallier ce manque, une méthodologie, comprenant 3 principales étapes de travail, est proposée :

Eîape 1 - Connaître les attentes du client, et si besoin, l'aider à les préciser, afin de déterminer le type de carte de prédictivité désiré. Le type de carte à produire sera largement fonction de la nature et de la quaiité des données du SIG fournies ;

Etape 2 - Elaborer le modèle de gisement en fonction des attentes du client et des données du SIG. Cette élaboration est fondée sur la complémentarité des 2 approches (c$ tableau ci-dessous) :

- l'approche déterministe consiste à adapter des modèles de gisements existants, extraits notamment de la base de modèles Signatex ;

-l'approche stochastique, via notamment le Data Mining, qui a pour but de faire émerger de nouvelles règles relationnelles entre les gisements et leur contexte géologique. Une forte réflexion métallogénique a pour but de valider les règles relationnelles émergeantes des traitements réalisés.

Eîape 3 - Pré-traiter les données couche par couche puis combiner les données utiles, en leur attribuant un poids, en fonction du modèle établi au cours de l'étape 2 ; le but étant de réaliser des cartes de prédictivité pertinentes, répondant aux attentes du client.

Dans la mesure où d'autres domaines des Sciences de la Terre utilisent le traitement multicritères pour la production de carte à valeur ajoutée, cette note méthodologique pourra s'appliquer notamment à l'hydrogéologie, aux risques naturels ou à l'environnement.

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

Ce travail méthodologique a été réalisé dans le cadre du projet de développement 00-RES-DO1 du BRGM, intitulé «Expertise et prospection B.

« At any t in~e it nlust be remembered that GIS does not [lave intelligence,

and geological reasoning nrust still be provided by the geologist ))

in Wybom et al., 1994.

Méthodologie pour la valorisalion des SlGs par la production de cartes de prédictivité

Sommaire

Introduction ..................................................................................................................... 9

1 . Étape 1 . Détermination du type de cartes de prédictivité à fournir et évaluation de la qualité des données du SIG ................................... 11

1.1. Les échelles des cartes de prédictivité ...................................................................... 11

1.2. Evaluation de la qualité des données du SIG ......................................................... 1

. . ............................................................................... 1.3. Recommandation pour 1 etape 1 12

2 . Étape 2 . Elaboration des modèles de gisements .................................................... 13

. . 2.1. Approche détemuniste .............................................................................................. 14

2.1.1. Définition d'un modèle de gisements ........................................................... 14

2.1.2. Variété des modèles de gisements .............................................................. 15

.................. 2.1.3. Base de modèle Signatex : les métallotectes et leurs signatures 17

2.1.4. Élaboration finale du modèle d'association de données ou « comment adapter un modele de gisement en fonction des données disponibles dans le SIG » ................................................................................................. 18

2.2. Approche stochastique .............................................................................................. 19

2.2.1. Recherche de règles dans un SIG via un traitement statistique impliquant deux couches de données ......................................................... 19

. ..................... 2.2.2. Recherche de règles dans un SIG via le Data Mining (ann 1) 19

2.2.3. Recherche de règles dans un SIG via l'Analyse Factorielle des Correspondances .................................................................................... 22

......................... 2.2.4. Comment passer de la règle relationnelle au métallotecte ? 24

2.3. Recommandations pour l'élaboration du modèle ..................................................... 24

......................................................................... . 3 . Etape 3 Traitements multicritères 29

....................................... 3.1. Traitement élémentaire couche par couche d'infomation 29

............... 3.2. Combinaisons multicritères pour la réalisation des cartes de prédictivité 31

3.3. Recommandations pour les traitements multicntères ............................................... 33

Méthodologie pour la vaforisation des SlGs par la production de car is de prédictivité

Conclusions . Recommandations ................................................................................. 35

.. . . References bibliographiques ......................................................................................... 37

........................................................ Annexe 1 - Data Mining : définition et exemples 39

Liste des figures

Fig . 1 . Extrait du SIG Andes ........................................................................................ 21

Fig . 2 . Exemple de graphique de résultats de I'AFC sur des compositions . . en mneraux lourds ............................................................................................ 23

Fig . 3 . Démarche progressive pour la production de cartes de prédictivité. à partir d'un test méthodologique réalisé sur le SIG Andes ......................................... 26

Fig . 4 . Test sur les Andes centrales . (Projet 00-RES-D01) ......................................... 27

Fig . 5 . Exemple d'arbre de classification de CAH avec une partition en 3 groupes .... 30

....... Fig . 6 . Projection des variables de classification sur les facteurs 1 et 2 de I'ACP 31

Liste des tableaux

............................................................ Tabl . 1 -Schéma de l'approche méthodologique 13

Tabl . 2 -Passage du modèle de métallotectes au modèle de signatures utiles ................ 15

Tabl . 3 -Deux exemples de classification à 3 niveaux de la base Signatex ................... 17

Tabl . 4 -Exemple de tableau de contingence utilisé pour 1'AFC : AN : Anatase. AX : amphibole. DT : disthène ; /N : nul ; t'ï : trace ; /M : moyen ; IF : fort .......... 24

Tabl . 5 -Exemple de pondération (poids compris entre O et 1) adaptée au modele de métallotectes et de signatures ...................................................... 25

Méthodologie pour la valorisation des SIGs par fa production de cartes de prédictivité

Introduction

L es SIGs «Ressources Mindrales » réalisés au BRGM (SIG Andes, Afrique, Arabie, Europe centrale, Gondwana) sont constitués de données géoréférencées

organisées en couches thématiques qui sont soit factuelles (e.g. MNT, géographie), soit ayant déjà franchi un premier niveau de synthèse (e.g. «géologie structurale », «districts miniers »). Ces données, en général au format ArcView, sont de nature quantitative (e.g. production, reserve, altitude, profondeur) ou qualitative (e.g. nom de formation, type d'altérations hydrothermales).

La valorisation de ces SIGs par la production de couches « à forte valeur ajoutée » dites de «prédictivité » (Predictivity Mapping) est une évolution vitale pour les SIGs « Ressources Minérales » du BRGM car elle doit permettre de distinguer nos produits de la concurrence. Le BRGM en a les capacités et I'expérience compte tenu de fa diversité et de la complémentarité de nos métiers : explorateurs, informaticiens, experts en métallogénie, géologie, géochimie, géophysique ou télédétection.

En revanche, le manque de méthodologie rigoureuse entrave encore trop souvent la production de cartes prédictives en ressources minérales qui soient didactiques et scientifiquement valides. L'objectif de cette note est donc de proposer une méthodologie qui pallie ce manque.

Cette méthodologie comprend 3 principales étapes de travail :

Étape 1 - Connaître les attentes du client, et si besoin, l'aider à les préciser, afin de déterminer le type de carte de prédictivité désiré. Le type de carte à produire sera largement fonction de la nature et de la qualité des données du SIG foumies ;

Étape 2 - Élaborer le modèle de gisement en fonction des attentes du client et des données du SIG (qualité, nature, échelle.. .) et suivant deux approches complémentaires dénommées «stochastique'» et « détemùniste » ;

Étape 3 - Pré-traiter les données couche par couche puis combiner les données utiles, en leur attribuant un poids, en fonction du modèle établi au cours de l'étape 2 ; le but étant de réaliser des cartes de prédictivité pertinentes, répondant aux attentes du client.

Le plan adopté pour ce rapport méthodologique suit les trois étapes de la procédure avec, pour chacune d'entre elles, des recommandations spécifiques.

Ce travail méthodologique a été réalisé dans le cadre du projet de développement 00-RES-DO1 du BRGM, intitulé «Expertise et prospection ».

' Stochastique : se dit du calcul des probabilités appliqué au traitement statistique des données. Approche opposée au déterminisme selon la définiuon du Petit Robert.

BRGMIRP-50629-FR

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

1 - Étape 1 - Détermination du type de caltes de prédictivité à fournir et évaluation

de la qualité des données du SIG

L'entretien avec le client doit permettre, dans un premier temps, de définir ses attentes et, si besoin, de l'aider à préciser la problématique : quelle substance et quel type de gisement sont recherchés ? Quelle est la dimension des cibles recherchées ? ïï convient alors de déterminer le type de carte de prédictivité à réaliser, en résolvant l'adéquation entre i) les attentes du client, ii) la qualité des données du SIG, et iii) i'échelle des cibles d'exploration recherchées.

1 .l. LES ÉCHELLES DES CARTES DE PRÉDICTIVITÉ

L'objectif d'une carte de prédictivité est de proposer à l'explorateur minier des cibles de prospection hiérarchisées en fonction de leur potentiel. La taille des cibles sera largement fonction du degré de précision (échelle de connaissance) des données du SIG. En effet, il sera impossible, par exemple, de réaliser une carte de prédictivité à l'échelle locale (cibles de la taille d'un petit prospect) si les données du SIG sont exclusivement d'échelle régionale.

En fonction des données, on pourra réaliser des cartes de prédictivité pour identifier :

- de vastes zones fertiles de la taille d'une province métallifère (> 100 x 100 kmz), à couvrir en prospection stratégique ;

- de permis de recherche de la taille d'un district minéralisé (< 50 x 50 km2), impliquant un « follow-up » ultérieur (géochimie sol, prospection marteau, . . .) ;

-de cibles économiques de la taille du gisement, visant l'implantation de tranchées, sondages.

1.2. ÉVALUATION DE LA QUALITÉ DES DONNÉES DU SIG

Durant cette première étape, il est important d'évaluer la qualité des données du SIG, par les méthodes classiques: statistique de hase, histogrammes, d i a g r m e s de fréquences, etc.

Plusieurs composantes influent sur la qualité des données :

-précision de la iocalisation : elle correspond à l'écart entre la position de l'objet sur le terrain et ses coordonnées dans la base de données. Ceci est fonction du type de

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

mesure, du modèle de représentation (vecteur ou raster) et du type d'objet utilisé pour la représentation (point ou polygone pour une mine par exemple). C'est à ce niveau qu'intervient la qualité de la saisie (digitalisation, ..) avec la prise en compte du support utilisé pour la numérisation, les types de projections et les conversions nécessaires, les interpolations et les transformations de format (raster <---> vecteur) ;

- précision des attributs descriptifs (e.g. granite ou granitoïde), numériques (variable continue ou discrète/classifiée) ou relationnels (relation entre objets). Ces descriptions doivent être les plus détaillées et homogènes possibles ;

- résolution : elle correspond à la plus petite entité à stocker, utiliser ou représenter. Cette taille minimum doit être déterminée en fonction des objectifs visés. Elle s'appuie sur le bon choix des échelles de données par rapport à l'échelle de travail et de restitution des résultats (ex. de mauvais choix : données au 1/50 000 et restitution au 115 000) ;

- cohérence : c'est le respect des relations logiques ou des contraintes entre les données que ce soit au niveau des attributs ou des relations spatiales ;

- exhaustivité : au niveau de la disponibilité ou de l'acquisition des données par rapport à la zone d'étude, les données sont-elles complètes ou partielles sur la zone, ou complètes mais avec des dates différentes d'acquisition ? ;

-homogénéité dans la répartition spatiale des données du SIG : les données de type géochimie par exemple ne couvrent pas l'ensemble de la surface prise en compte par le SIG. Dans ces conditions il sera impossible de les interpoler sur l'ensemble de la surface :

- temps : prise en compte de la date de l'acquisition, de la saisie et de l'évolution des données dans le temps, paramètre fondamental pour les approches environnementaies.

L'évaluation des données est déterminante car la qualité de la carte de prédictivité dépendra très fortement de la qualité intrinsèque des données du SIG. Dans le cas où cette qualité est insuffisante par rapport aux attentes du client, il faudra alors envisager la réalisation d'un délivrable différent, généralement moins ambitieux.

Méthodologie pour la valorisation des SlGs par la production de caties de prédictivité

2. tape 2 - labor ration du modèle de gisements

Pour établir un modèle de gisements, deux approches complémentaires sont possibles (tabl. 1) :

-approche déterministe basée sur des modeles de gisement existants et donc relativement indépendants des données du SIG (5-2.1). Ii s'agit de choisir (ou éventuellement d'élaborer) un modèle de gisements a priori qui soit applicable à la région explorée du SIG (ex. recherche de minéralisations épithermales dans les Andes centrales), puis de l'adapter en fonction des données disponibles dans le SIG. Au cours de l'étape 3, ce modele sera testé sur la région du SIG via le traitement multicritère. Cette approche a le mérite de pouvoir être utilisée pour explorer des zones vierges, dépourvues d'indices minéralisés connus ;

- approche « stochastique2» réalisée à partir des données du SIG (5-2.2). Ii s'agit, à partir de techniques novatrices de traitement de données (Data Mining, ...), d'identifier et surtout de quantifier des règles relationnelles existant entre des données quantitative et qualitative du SIG^. Ensuite, ces règles doivent être validées scientifiquement avant de faire l'objet d'un modèle, qui sera in fi te étendu à l'ensemble du SIG. Cette approche a le mérite de s'affranchir des modèles connus et d'éventuels a priori, susceptibles d'entraver la découverte de nouveaux gisements.

Tabl. 1 - Schéma de l'approche méthodologique.

' Stochastique : se dit du calcul des probabilités appliqué au traitement des données statistiques. Approche opposée au déterminisme selon la définition du Petit Robert.

En i'absence de ces techniques, le nombre « astronomique » de données du SIG ne permettait pas au géologue d'identifier correctement et de quantifier ces rkgles.

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

2.1. APPROCHE DÉTERMINISTE OU AUTREMENT DIT « ON NE TROUVE QUE CE QUE L'ON CHERCHE ... ».

2.1.7. Définition d'un modèle de gisements

Pour élaborer un modèle de gisement, le gîtologue/métaliogéniste identifie, parmi l'ensemble des attributs d'un groupe de gisements appartenant à une même famille, les critères favorables à la recherche de cette famille de gisement. En d'autres termes. il doit faire la différence entre un attribut du gisement et un véritable métallotecte. Ce métallotecte sera ensuite traduit en terme de signatures4.

On entend par

Métallotectes = objets (ou entité) géologiques physiques (ex. : faille, pluton, halo d'altération, ...), considérés comme favorables à l'identification d'un gisement ou d'une zone fertile susceptible de contenir ce type de gisement.

Signatures = caractérisation géochimique (anomalie potassium, .. .), géologique (unité lithologique ou faille cartographiée,. . .), géophysique (gradient magnétique, . . .), satellitaire (plage radiométrique, faisceau de linéaments,..) topographique (forte pente, ...) des métallotectes (= objets physiques), en utilisant les outils d'exploration adaptés (cartographie géologique, aéromagnétisme, géochimie - sol, image satellitaire,...). Parmi l'ensemble des données susceptibles de correspondre à des signatures, seules les données disponibles dans le SIG pourront être prises en compte pour établir le modèle final qualifié «d'association de données ». C'est ce modèle qui sera testé sur l'ensemble du SIG.

MI^ d'établir le modèle d'association de données, il convient au préalable de constituer successivement: 1) le modèle de métallotectes puis 2) le modèle de signatures (tabl. 2).

Des modèles de gisements sont :

- disponibles dans la littérature scientifique ( ex. : Cox D., Singer D.A., 1987 ; Hodgson C.J., Troop D.G., 1988) (cf: 3 2.1.2) ;

-extractibles depuis la banque de modèles Signatex, développée au BRGM (cf: 2.1.3) ;

- à élaborer à la demande par un gîtologue/métallogéniste.

' La distinction entre a méiallotecte * et «signature » a pour but de lever la confusion qui est souvent faite entre ces deux notions.

Méthodologie pour la valoriçation des SlGs par la production d e caries d e prédictivité

1 - Modèle de + 2 - Modèle de Métallotectes signatures signatures utiles

= Moùèle d'association

Cortstiturion dit modèle indéperidamment des données drr SIG

Si nature 2.a Métallotecte 2 Si-nature 2.b

Si nature 2.n

Métallotecte m

Faille crustale, lintirant d u r blocs & cortsrituant

Tabl. 2 - Passage du modèle de métallotectes au modèle de signatures utiles.

2.1.2. Variété des modèles de gisements

L'établissement d'un modèle de gisements est le résultat d'une analyse comparative factuelle ou d'un raisonnement conceptuel :

- les modèles factuels sont élaborés à partir d'une analyse descriptive et comparative de nombreux gisements ;

- les modèles conceptuels ou génétiques sont établis à partir de concepts génétiques sur la formation de gisements, et résultent le plus souvent de l'analyse de quelques gisements de référence (sans représentativité statistique). Les critères retenus relèvent principalement de l'interprétation du métalfogéniste qui sélectionne, parmi les paramètres de gisements, ceux qui lui paraissent essentiels à leur formation ;

- les modèles, combinant les raisonnements conceptuels et factuels (cf. (j 2.1.3), et qui traduisent une démarche intégrée, classiquement utilisée au BRGM.

Suivant l'un et/ou l'autre de ces raisonnements, deux sortes de modèles peuvent être élaborés :

- un modèle synthétique, résultant de la comparaison de plusieurs gisements similaires, c'est le cas le plus fréquent ;

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

-un modèle local, établi à partir d'un seul gisement de référence, en général un « monstre » (giant deposit).

Pour chacun des modèles, l'intérêt et leurs limites sont analysés ci-après.

=1 Modèles synthétiques issus du raisonnement factuel :

- ce raisonnement ne permet de rechercher que des types de gisements déjà connus ;

-les corrélations résultant de l'approche statistique doivent impérativement être validées, afin de s'assurer de la fiabilité du résultat (critère d'exploration ou biais analytique ?) ;

- ce type de modèle induit automatiquement une simplification, et ne prend pas en compte des associations complexes, entravant ainsi la découverte de gîtes atypiques ;

- contrairement au modèle génétique où les critères sont reliés les uns aux autres par un même concept, des critères seront mis en évidence, même si leur rôle dans la formation des gisements n'est pas (encore ?) compris.

+ Modèles synthétiques issus du raisonnement conceptuel :

- un risque classique de ce type de modèle est de n'avoir été défini qu'à partir de rares gisements bien connus, mais souvent de petite taille et donc de peu d'intérêt économique et ainsi de faire abstraction de la majorité des gisements exploités mais non étudiés ou génétiquement incompris, d'où le problème de représentativité ;

- parfois élaboré à partir d'une idée ou d'un concept ayant déjà fait ses preuves dans un autre domaine que le secteur minier, ce type de modèle permet d'ouvrir le champ de recherche vers des gisements n'ayant pas d'équivalent connu à ce jour ;

-seule une démarche objective et rigoureuse permettra d'éviter les effets de mode, susceptibles de menacer ce type de modèle.

+ Modèles synthétiques, combinant les raisonnements factuel et conceptuel :

- dans la mesure où ces modèles intègrent l'essentiel des deux approches, la démarche paraît la meilleure ;

- cependant dans de nombreux cas, l'approche comparative entre gisements similaires prend en considération un grand nombre de gisements mais n'utilise pas toujours les outils statistiques pour estimer les poids relatifs entre les critères, d'où ie risque d'en sous-estimer ou surestimer certains.

=., Modèles locaux, élaborés à partir d'un seul gisement de référence :

- la découverte d'un gisement géant, souvent atypique (ex. : Olympic Dam), débouche généralement sur un rush minier. Un modèle est alors rapidement élaboré puis exporté. En l'absence d'étude détaillée du gisement d'une part et de gisements comparables d'autre part, le modèle retenu risque de contenir des critères non validés. Dans ce cas, l'analyse critique des résultats est la clef de l'élaboration de modèles pertinents ;

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

- dans le cas d'un critère d'exploration fondé sur une relation géométrique entre deux objets (ex. croisement de failles suivant 2 orientations réputées favorables), ce raisonnement est souvent dangereux. Ainsi, on doit, au préalable, s'assurer du bien fondé de l'effet d'intersection par une analyse structurale et chronologique des accidents (cas de failles tardives recoupant la minéralisation et par conséquent ne la contrôlant pas).

2.1.3. Base de modèle SignateX : les métallotectes et leurs signatures

Les modèles de gisements existant dans la littérature sont en générai constitués exclusivement par un ensemble de métallotectes et par peu ou pas de signatures. C'est en partie pourquoi le BRGM a concu la base SignateX : ainsi, SignateX propose un faisceau de signatures susceptibles d'identifier chacun des métallotectes.

La classification des modèles de la base SignateX en grande famille de gisement (tabl. 3) est fondée sur un raisonnement génétique prenant en compte : i) la distinction entre gisements syngénétiques et gisements épigénétiques, ii) le contexte géodynamique (ex. : gisements épithermaux versus gisements mésothermaux ....) et iii) la substance recherchée (ex. : Or, PGE, métaux de base).

Famille : gisements d'or épithermaux Modèle de type : Adulaire-séricite

Modèle de sous-type : néant.

Farnille: gisements de métaux de base associés aux amas sulfurés volcanogéniques

Modèle de type : VMS dans série bimodale phanérozoïque (type Kuroko) Modèle de sous-type : VMS dévono-dinantiens de la Province Sud-Ibérique

Tabl. 3 - Deux exemples de classificatiorz à 3 niveaux de la base SignateX.

Chaque famille de gisements est constituée de modèles de types etlou de sous-types de gisements (tabl. 3). Ces modèles synthétiques sont élaborés à partir d'une comparaison d'un grand nombre de gisements de référence. Les critères sélectionnés, à partir d'une analyse gîtologique factuelle et génétique, correspondent à des caractéristiques physiques des gisements. Ces caractéristiques concernent notamment leur morphologie (ex. : stockwerk aurifère associé à des VMS), leur paragenèse (ex. : disséminé à arsénopyrite aurifère) ou le contexte lithologique ou structural de mise en place des minéralisations (ex. : VMS dans série turbiditique à intercalations basiques type Besshi).

L'originalité de la base SignateX est que chaque modèle de gisement est caractérisé par des métallotectes et des signatures spécifiques, constituant les critères d'exploration :

- une série de métallotectes à rechercher, répartis suivant les trois échelles d'exploration régionale, semi-régionale et locale. Ces métaliotectes, qui

Méfhodologie pour la valorisation des SIGs par la production de caries de prédicfivifé

correspondent à des objets physiques affectés d'un poids, sont reconnus comme tels car ils contrôlent, directement ou indirectement, la minéralisation. Ainsi, en fonction de l'échelle, les métallotectes correspondent à des entités géologiques fertiles à l'échelle régionale, des structures ou lithologies porteuses (drain, encaissant favorable) à l'échelle semi-régionale, et des zones pièges des gisements à l'échelle locale. JI s'agitpar exemple de : i) drains des fluides minéralisateurs (failles, lithologies poreuses,...), ii) pièges des concentrations métalliques (lithologie carbonatée ou riche en fer; tronçon de faille en dilatance ou charnière de plis) ; iii) corps minéralisés S.S.

distingués en fonction de sa morphologie (veine, disséminé, amas...), de leur gangue et de leur paragenèse métallique ;

- un ensemble de signatures typiques de chacun des métallotectes recherchés, au travers les outils d'exploration les plus adéquats : outils géophysiques, géochimiques, minéraux lourds, géologiques (ex. : carte géologique, carte des gîtes minéraux), satellitaires.

Dans le détail, la base est constituée de :

-modèles standards, faisant l'objet d'un large consensus intemational et ayant étd caractérisés dans un grand nombre de provinces métailifères (ex. : modèle Or mésothermal encaissé dans les BE, modele Or épithermal de type high ou low sulfidation) ;

-modèles locaux, n'ayant été reconnus que dans une province métallogénique (ex. Modèle Or mésothermai de type disséminé à arsénopyrite aurifère, élaboré au Ghana). Ce type de modèle est intéressant pour l'explorateur, dans la mesure où il peut être exporté dans une province comparable à celle où le modele a été défini (ex : modele à arsénopyrite aurifère développé au Ghana 3 exporté sur le craton des trois Guyanes) ;

-modèles émergeants, mis en évidence par le BRGM (ex. : modèle Or supergène de type silico-barytique aurifère [ex. Hassaïl) ou par quelques équipes à travers le monde mais ne faisant pas l'objet d'un consensus (ex. : modèle à PGE hydrothermal de type tardi-orogénique). Ce type de modèle est particulièrement intéressant pour l'explorateur, car il est susceptible de permettre la découverte de nouveaux gisements.

L'intérêt de ce type de modèle synthétique est qu'il peut aussi bien être recherché dans des zones déjà explorées que dans des aires mai connues, vierges ou à réhabiiiter.

2.1.4. Élaboration finale du modèle d'association de données ou «comment adapter un modèle de gisement en fonction des données disponibles dans le SIG a.

Les signatures proposées dans la base SignateX est évidemment indépendant du type de données contenues dans le SIG exploré et de leur qualité. De fait, il s'agit à ce stade final de l'étape 2, de retenir les signatures pour lesquelies on dispose de données dans le SIG. Par exemple, la signature ((faisceau rectiligne de linéaments satellitaires » ne sera naturellement pas utilisée pour rechercher le métallotecte « faille crustale, limitant deux blocs litho-structuraux différents » si la couche « linéament satellitaire » n'existe pas

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

dans le SIG ! Dans le cas d'un modèle de gisement extrait de la littérature, n'étant composé que de métallotectes, il s'agira d'attribuer à chacun des métallotectes les signatures utiles en fonction des données du SIG.

2.2. APPROCHE STOCHASTIQUE OU AUTREMENT DIT « À LA RECHERCHE DE REGLES RELATIONNELLES DANS UN SIG >>

Les méthodes stochastiques permettent, à travers les données disponibles dans le SIG, de déterminer des règles d'association entre des données géologiques, géochimiques, géophysiques, topographiques, télédétection. Ces règles, ou du moins celles que l'on retiendra après validation scientifique, permettront de définir ou de compléter un modèle d'association de données.

Les règles d'association sont, en théorie, construites sans a priori de l'utilisateur. En pratique, la totalité des paramètres utilisables n'est pas mise en œuvre car l'acquisition de ces paramètres, notamment géographiques, n'est pas triviale. En effet, les paramètres géographiques (prédicats spatiaux) doivent être calculés à partir des données du SIG. ils sont du type : « est inclus », « dans », « intersecte », «est proche de », «est plus haut que », « a une déclivité moyenne de »... Plus il y a de couches dans un SIG, plus il y a de combinaisons de paramètres possibles. Les règles peuvent être élaborées à partir d'un sous-ensemble de la population ; ces règles seront ensuite appliquées à l'ensemble du SIG.

Préalable aux techniques statistiques S.S., la simple superposition de plusieurs couches d'information du SIG permettra, dans certains cas, de mettre en évidence des règles relationnelles entre les données du SIG et in fine des métallotectes originaux, spécifiques à la zone d'étude. Cette approche qualitative est classiquement réalisée par les géologues d'exploration5.

2.2.1. Recherche de règles dans un SIG via un traitement statistique impliquant deux couches de données

On utilise pour ce faire des outils standards fournis par les logiciels SIG. il s'agit, par exemple, d'outils permettant i) d'associer à chaque point d'une couverture le code de la formation géologique qui le porte, ou, ii) de localiser la zone d'intersection entre deux couvertures de polygones, ou, iii) de créer une couverture de points à partir des intersections de lignes (failles) .... Un ensemble d'applications pour ArcInfo a été développé au sein du Service Ressources Minérales en 2000 (J.M. Angel, B. Tourlière, in prép.) et sera disponible en 2001 pour les autres services du BRGM.

* A rive d'exemple, la modélisation 3D du plan de Bénioff construite à partir des données séismiques iendent à montrer que les districts auriferes épithermaux se situent à l'aplomb de tronçons particuliers du plan de Bénioff.

Méthodologie pour la vaforisation des SIGs par la production de caries de prédictivité

Les attributs créés lors de ces traitements permettent de faire des classements par exemple du type «formation portant le plus d'indices d'un certain type » ou, « classement des intersections de familles de faille ». Cette détermination de règle relationnelle non automatisée demande une analyse critique des résultats.

2.2.2. Recherche de règles dans un SIG via ie Data Mining (ann. 1)

Le Data Mining, ou fouille de données, peut être défini comme un processus d'extraction de connaissances implicites non connues à l'avance et potentiellement utiles à partir d' « entrepôts » de données (= Base de données). Selon les connaissances que l'on désire apprendre, on peut classifier de façon générale les tâches de la fouille de données en :

- Description : généralise, résume et compare des données ; - Classification : catégorise les données en classes ; - Regroupement: identifie des groupes homogènes de données ; - Association : extrait des corrélations entre les données6 ; - Prédiction : permet de prédire les données manquantes.

On recherche dans la base de données les items les plus fréquents et les associations les plus fréquentes entre items, qu'ils soient numériques ou symboliques. Autrement dit, on recherche des règles «solides » ayant un support et une confiance suffisants par rapport à des seuils fixés par l'utilisateur. La définition de support et de confiance est présentée dans l'annexe 1.

Les SIGs gèrent les données géographiques d'une part sous forme d'objets géométriques : points, lignes, polygones, et d'une autre part sous forme de couches thématiques regroupant les objets d'un même thème (voir exemple ci-dessous, fig. 1).

C'est essentiellement la tâche a association » qui a Eté mise en auvre en 2000 (thèse d'A. Salteb en cours).

Méthodologie pour la valorisation des SlGs par la production de cartes de pfWctivit6

Fig. 1 - Erlrait du SIG Andes : v v & n de 3 couches :failles, dndnes etgéOtOgi& Chacune des couches est &!&te par une table atidbuttzàrc décrivant chacun des objets de la couche.

Chaque couche est sauvegardée sous forme d'une BD spatiale (contour et positions des objets) et d'une BD relationnelle dam laquelle on retrouve des attributs descriptifs des objets spatiaux (voir schema ci-dessus).

Points, Usde8 Pdyeo-

Car, Flottant Entier, Chah, .,.

L'extraction des associations dans les SIGs revient A rechercher des liens possibles entre couches thématiques en prenant en considération: 1) les proximités spatiales entre objets de différentes couches (intersection, inclusion, proximité,...), et 2) les caractéristiques non-spatiales de ces objets.

Méthodologie pour la valorisation des SIGs par la production de cartes de prédicfivifé

A l'aicle d'un assistant de requête, l'utilisateur sélectionne deux couches à associer7, leurs attributs spatiaux, ainsi que le buffer (= une distance) de proximité, un support minimal (= MinS~tp) et une confiance minimale (= ~MittCorzf) mesurant la qualité des règles. Il précisera également les relations spatiales qtli l'intéressent :

- à l'étape 1, une table des liens est créée. Elle relie tout objet géographique de la première couche thématique à des objets de la seconde couche, vérifiant des relations spatiales (parmi celles choisies par l'utilisateur). Ces relations sont évidemment calculées en fonction du buffer de proximité choisi. On dira, par exemple, que deux objets Ol et O2 sont proches l'un de l'autre si d(O1, OZ) < = b ~ ~ f f e r ,

- à l'étape 2 du processus, et en se basant sur la table des liens, on recense l'ensemble des valeurs possibles pour chaque attribut de la table, on constiuit ainsi l'ensemble des prédicats fréquents, ayant un support suffisant (apparition dans la table des liens) par rapport au support minimal MinS~ip.

- à l'étape 3 les ensembles de prédicats fréquents permettent d'extraire les règles solides ayant une confiance (cf: aun. 1) att moins égale à la confiance minimale MivtConf.

Irt f i e , l'extraction des règles d'association doit permettre d'attirer l'attention des géologues s ~ t r d'éventuelles corrélations enfouies dans les données de la base (mais non prévisibles) ou parfois de confirmer certaines évidences afin de pouvoir les extrapoler à d'autres zones. Il est fondamental que ces règles soient validées, ou invalidées, par les géologues, gîtologues, géophysiciens,. . .

2.2.3. Recherche de règles dans un SIG via l'Analyse Factorielle des Correspondances

L'Analyse Factorielle des Coi~espondances ( M C ) est voisine de l'Analyse en Composante Principale (ACP), et elle s'en distingue par la classification de variables qualitatives. Les facteurs mis en évidence ont la même signification, c'est-à-dire qu'ils traduisent des associations de phénomènes (au même titre d'ailleurs que les règles du Data Mining) et bien évidemment pas des relations de cause à effet.

Cette métliode a été mise au point pour l'étude des tableaux de contingence, c'est-à-dire des tableaux de comptage des modalités (= valeur discrète prise par la variable) croisées de toutes les variables deux à deux (la modalité 1 de la variable A apparaît n fois simiiltanément à la modalité 1 de la variable B, m fois avec la modalité 2 de B, ...). Dans le cas de variables qualitatives celles-ci peuvent être ramenées à un tableau de contingence à l'aide d'un codage préalable (découpage en classes, chaque classe constituant une modalité) (tabl. 4).

' Jusqu'h maintenant, le traitement a permis d'associer 7 couches. En 2001, il est projeté de traiter du multicouches (> 2).

MBthodcJbgie pour la val~saiion des SlGs par la pmduction de cartes de prédictiv2B

Pour I'AFC, les résultats sont présentés sous forme graphique par projection simultanée des points et des modalités dans les plans formés par les axes principaux (exemple fig. i). L'interprétation intègre l'étude des contributic& des modalit6s et les proximités entre points et axes.

A titre d'exemple d'application à partir de variables qualitatives et quantitatives, les différentes altérations des granites sur une centaine de monuments bretons ont été analysées avec des parametres environnementaux comme la proximité à la mer, la position topographique, les types de mousses développées sur ces monuments, les vents dominants, la présence d'élevages importants. L'analyse des correspondances met en évidence un facteur liant les altérations internes des bâtiments et la teneur en chlore (traduisant un conthement en milieu maritime) et un facteur associant les fortes altérations extérieures et la présence d'élevages importants.

-

lndlvldus et cat8gorieeair lesaxes 1 et 2 (12%)

a . , b

- .*- "

O .". ' * 8, . 4.

o ." '. 00

*" " -. O l

*"" O , . ' * ' *

0 . 8 .

,. , . o." " 4 " ' ' " .q. 2 "

#' "' 0 , ,.

Fig. 2 - Exemple de graphique de dsuUats de I'AFC sur des composiîiom en mingraux lounlr.

Les points muges correspondent aux éclaantiüons, les losanges bleus aux modalités des variables (T : trace, F . faible, M : moyen, A : abondant).

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

AN/N ANK ANlM ANIF ANKA ANIA AWN AWF AWF ANTA AWM AWA DTIN DTK OTIF OT/M DT/A

A N / N & T a q O O O O O 6 0 2 9 6 3 5 3 7 6 1 9 6 5 O

AN I T O.Bj#GË: O O O O 33 15 4 2 2 2 38 15 2 2 1 :k,-2*&al

AN / M 0 0 :*.~.-~,$, &&>) O O 0 1 6 3 0 0 0 0 8 1 0 1 0 0

AN I F O O 0 - 3 0 .&xs*%~ O 8 4 0 0 1 0 7 6 0 0 0

AN /TA 0 0 0 0 ~ ~ ~ 0 2 0 0 O 0 0 1 1 0 0 0

AN / A O O O O 0 . 2 0 0 0 0 0 2 0 0 0 0

AX I N 60 33 16 8 2 2 O O O O O 75 34 8 3 1

AX / T 29 15 3 4 O O 0<*33 a&&j O 0 0 0 3 6 1 1 1 3 0

AX I F 6 4 O O O O 0 0 ~ ~ ~ 0 0 0 8 2 0 0 0 g&&B AX /TA 3 2 O O O O 0 0 0 ~ ~ ~ 0 0 4 1 0 0 0 T&SX,-I

AX / M 5 2 O 1 O O O 0 0 0 ~ ~ M ~ 0 6 1 0 1 0

AX / A 3 2 O O O O O 0 0 0 2 m g 3 2 0 0 0 ,-,,,,-A-

OT I N 76 30 B 7 l 2 75 36 8 4 6 3:zJa O O O O

OT / T 19 15 10 6 1 O 34 11 2

OT I F 6 2 1 O O O 8 1 0

DT / M 5 0 0 0 0 3 3 0 O ~ O O O O . ? A = * ' 7 O

DT I A 0 1 0 0 0 0 1 0 0 o o o o o o ~ ~ ~ ~ ~ ~ A*&-,*- ...-,YI.,, 2sx*a*l

Tabl. 4 - Exernple de tableau de contingence utilisé pour 1'AFC : AN : Anatase, AX : ampltibole, DT : disthène ; /N : rzul ; /T : trace ; /IV : rnoyerz ; /F :fort. Ln diagonale (en grisé) indique le nombre d'éclzantillons ayarit une modalité donnée : 121 écl~. n'orit pas d'ainphibole. Les autres cellules donnerit la façon dont une modalité d'une variable se répartit sur les autres variables : sur les 121 éch. smzs AX, 60 n'ont pas d'anatase. C'est ce qr~'il11cstrent de rilanière syntliétiqite les axes factoriels (fig. 2).

2.2.4. Comment passer de la règle relationnelle au métallotecte ?

Une règle relationnelle identifiée par l'approche stochastique doit être scientifiquement validée afin de déterminer si la relation spatiale relève également d'un lien temporel. En d'autre terme, il s'agit de déterminer si le lien entre 2 objets - granite et gisement par exemple - peut être utilisé en terne de métallotecte ou alors si il s'agit seulement d'un lien purement spatial voire d'un biais analytique relevant de la qualité des données (répartition hétérogène par exemple).

Si le lien spatio-temporel est effectivement validé alors la règle peut être intégrée au modèle en tant que métallotecte.

2.3. RECOMMANDATIONS POUR L'ÉLABORATION DU MODELE

Afin d'élaborer des modèles de gisements adaptés au mieux à la zone explorée du SIG, il est recommandé d'utiliser les approches complémentaires « déterministe » et « stochastique » qui déboucheront sur l'élaboration d'un modèle combinant des métallotectes classiques et nouveaux (tabl. 1). Dans certains cas, un métallotecte

24 BRG M/RP-50629- FR

Méthodologie pour la valorisation des SIGs par fa production de cartes de prédictivifé

classique, extrait de Signatex, pourra être affiné via l'analyse stochastique intégrant les spécificités du SIG. La figure 3 permet de visualiser, à partir d'un exemple, la démarche globale de l'étape 2.

Pondération - Après avoir sélectionné les données «utiles » du SIG permettant de tester le modèle par traitement multicritère, l'équipe devra fixer un poids relatif à chacun des métallotectes et à chacune des signatures utiles constituant le modèle d'association de données (voir l'exemple du SIG Andes, fig. 4 et tabl. 5) :

- poids variables des métallotectes les uns par rapport aux autres. Cette pondération est établie en fonction de i) l'expérience du aéolopue dans le cas d'un métallotecte extrait - d'un modèle prédéterminé '(type signatex) ou ii) de la «solidité » de la règle relationnelle (support/confiance) et de sa validité métallogénique ;

- poids variables des signatures les unes par rapport aux autres d'un même métallotecte. Cette pondération est largement établie en fonction i) des spécificités de la zone explorée (relief, climat, ...), ii) de la qualité des données prises en compte pour le traitement multicritère. Par exemple, même si la signature géochimique de volcanites acides (K, Ba) est intrinsèquement valable, on attribuera à cette signature un poids faible, si on considère que la donnée analytique est de mauvaise qualité.

Métallotecte no 2 3 Poids = 0 3 L

Modèle de métallotectes 3

Métallotecte no 1 3 Poids = 1

Signature 3.a 3 Poids 0,s Métallotecte no 3 3 Poids = 1 Signature 3.b 3 Poids 0,8

Modèle des signatures utiles Signature 1 .a 3 Poids 0,s Signature 1 .b 3 Poids 1 Signature 1.c 3 Poids 1

Tabl. 5 - Exemple de pondération @oids compris entre O et 1) adaptée au modèle de métallotectes et de signatures.

D'autre part, la pondération probabiliste, appliquée aux données du SIG, est également envisageable. Les méthodes ou règles de BAYES appliquées à la combinaison de données utilisent la notion de probabilité et permettent d'estimer le poids des critères par rapport à une information de référence (= prédiction). Par information de référence, on entend par exemple des gisements métalliques ou indices connus, des anomalies caractéristiques, des intersections de failles. La méthodologie a été développée en 1992 pour des sujets à finalité minière et présentée dans une étude pour Ia délimitation de secteurs favorables à la présence d'or (Braux et al., 1994). Elle a vu son champ d'application élargi avec l'introduction, en 1995, dans SynARCR d'une fonction basée sur ce principe.

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

MODELE DE MÉTALLoTECTES ET DE SIGNATURES (étape 2)

POUR LA RECHERCHE DE PROVINCES FERTILES EN PORPHYRES Cu-Au D'AGE TERTIAIRE DANS LE TRONÇON CENTRAL DES ANDES

PUIS TRAITEMENT MULTICRITÈRE (étape 3)

Métailotectes Signatures par recherchés métallotecte

(affectées d'un poids) Caties intermédiaires (affectés d'un poids) par métallotecte

/ poids= 1 1 (affectées du poids

A iinéament 1 du métaiiotecte) / 1 satellitaire 1, 1 -

f ooids = 1 3 1 poidç=l j ' Failles faille cartographiée transverses

j sur la chaine (cialonnees U B ) ~ / poids = 1

métallotecte

de prédictivité du modèle recherché

240 et 340 km

poids = 0,5

métallotecte graphie ' en 1 1 paléozoïque /

(modèle Signale porphyre) 1-1 / i( adakite identifiée /

par analyse

Fig. 3 - Démarclie progressive pour ùI production de cartes de prédictivité, à partir d'rtn test métliodologique réalisé sur le SIG Andes.

26

Méthodologie pour la valorisation des S

lGs par la production de cartes de prédictivité

Fig. 4 - T

est sur les Andes centrales - (P

rojet 00-RE

S-DO

l).

Méthodologie pour fa valorisation des SlGs par la production de cartes de prédictivité

3. Étape 3 - Traitements multicritères

Après avoir établi un modèle d'association de données, l'objectif de cette étape est de pré-traiter les données «utiles » couche par couche (5 3.1) afin de les préparer à la combinaison multicritères (5 3.2).

3.1. TRAITEMENT ÉLÉMENTAIRE COUCHE PAR COUCHE D'INFORMATION

À titre indicatif, deux modes de représentations du monde réel existent pour un ordinateur :

- le mode vecteur qui utilise des objets de type point, ligne ou polygone auxquels sont rattachées des tables attributaires ;

- le mode raster qui utilise de petites unités de surface (pixels) affectées d'un ou plusieurs attributs (on parle alors de grille ou d'image).

Dans les outils de traitement et de combinaisons, on distingue donc les logiciels vecteurs (ArclInfo, GDM, ArcView, Mapinfo..) et les logiciels raster (Synergis, Idrisi, Spatial Analyst, les logiciels de télédétection...). Chaque type de logiciel possède des outils spécifiques liés à un modèle de données. Un logiciel comme SYNARC permet de travailler dans les deux modes. Le mode raster consiste à créer une image à partir de fa description du monde réel (ex. : les images satellites). Dans le cas où l'on part d'un ensemble de points discontinus (échantillon de géochimie, levé géophysique, relevés de puits...), il va falloir vaioriser l'ensemble des pixels de la grille et pour cela, on va interpoler les valeurs associées aux valeurs ponctuelles. Cette interpolation est un calcul qui, en fonction des valeurs du paramètre dans le voisinage va permettre d'estimer l'évolution de ces valeurs sur l'ensemble de la surface. Il existe plusieurs méthodes d'interpolation (moindres carrés, inverse des distances, krigeage ...) plus ou moins performantes mais, toutes induisent des biais dont il faut avoir conscience lors de l'interprétation (par principe, on crée des valeurs là où il n'y en a pas !).

À partir d'une couche thématique, il est possible d'élaborer des couches dérivées composées de nouvelles informations, grâce à l'utilisation de logiciels spécialisés. La cartographie de ces informations nouvelles contient déjà une plus-value car on y a introduit des résultats de calculs et « d'intelligence thématique ».

Cette analyse peut notamment être réalisée à partir d'outils de statistiques multivariées comme la CAH ou I'ACP, ou par autres méthodes statistiques comme les régressions, les nuées dynamiques :

Méthodologie pour la valorisation des SfGs par la production de cartes de prédicfivifé

- la Classification Ascendante Hiérarchique (CAH) permet de regrouper des individus en familles d'affinités à partir d'un noyau de variables continues. Cette méthode permet d'affecter à chaque individu un code représentant sa famille et donc de cartographier ces familles (fig. 5) ;

-l'Analyse en Composantes Principales (ACP) permet de connaître les associations entre différentes variables continues analysées pour une population. Cette méthode aboutit à la création de nouvelles variables composites (facteurs scores) représentant cette association de variables élémentaires (fig. 6).

In fine, le traitement préliminaire couche par couche a pour but de sélectionner dans la couche analysée, l'information utile qui sera prise en compte dans la combinaison multicritère finale. Par exemple, 1) de mettre en évidence la signature géochimique des « volcanites acides » , on ne retiendra que les points appartenant à la classe « K, Ba » de la CAH, les autres points de la couche dérivée seront exclus; 2) si l'on s'intéresse à la signature géochimique des zones de circulations arséniées, on ne retiendra, dans la couche arsenic, que les points anomaux supérieurs à 100 ppm As car le traitement préliminaire des données aura montré que ce seuil délimite les zones structurées.

Dendrogramme

indice

Fig. 5 - Exemple d'arbre de classification de CAH avec une partrrtrtion en 3 groupes.

Méthodologie pour la valorisation des SfGs par la production de cartes de prédicfivité

Cercle d e s corrélations : axes 1 et 2 (58%)

Fig. 6 - Projection des variables de classification sur les facteurs 1 et 2 de I'ACP.

COMBINAISONS MULTICRITÈRES POUR LA RÉALISATION DES CARTES DE PRÉDICTIVITÉ

A ce stade, il s'agit de rechercher les zones les plus semblables au modèle retenu, impliquant la combinaison de couches multiples prétraitées, en tenant compte des pondérations attribuées lors de l'étape 2.

Du point de vue générique, la combinaison est basée sur les opérateurs de type :

- addition,

- union additive8,

- soustraction,

- multiplication,

- division,

L'addiuon est équivalenie à une intersection alors que l'union additive, classiquement utilisée, permet que le résultat de 1 + a rien D (et non pas 0) donne 1 (au lieu de rien pour l'addition).

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

- opérateurs unaires comme la trigonométrie ou les logarithmes.

Afin de réaliser l'analyse multicritère S.S., il est recommandé de traduire le modèle de signatures pondérées de chaque métallotecte (étape 2) par une matrice multicritère, réalisable dans SynArc.

D'autres approches multicritères peuvent être mises en œuvre, notamment la similitude et l'analyse des écarts9.

Similitude, à partir d'une zone d'apprentissage

Au lieu de prendre en compte un modèle de gisement synthétique, extrait de Signatex, il est possible d'établir un modele local (cf. §-2.1.2) correspondant à l'agrégation des signatures d'un gisement dans son environnement immédiat. Ainsi, dans un espace raster multivarié, cette zone géographique est définie comme étalon. La fonction de similitude calcule automatiquement l'écart (distance) entre la valeur de chaque pixel et la valeur de l'étalon. Plus la distance est proche de zéro, plus la zone est semblable au modèle. Les zones classées comme différentes par rapport au noyau de référence ne sont pas nécessairement semblables entre elles. D'autres algorithmes permettent, à partir d'une approche équivalente, de créer des classes de ressemblance à partir d'étalon (ex. : Malahanobis). Cette méthode peut être qualifiée de centrifuge (cf. Knox-Robinson, Groves, 1997).

Analyse des écarts

C'est une démarche en retour (feed back), qui consiste à rechercher, représenter et interpréter les exceptions aux règles relationnelles, c'est-à-dire les écarts positifs ou négatifs par rapport à un comportement médian. Les cartes de prédictivité permettent de circonscrire des sites favorables pour un ou plusieurs critères, la pertinence du résultat étant validée par la présence d'indices ou de gisements. L'analyse des écarts consiste, dans ce cas, à identifier et focaliser l'attention sur des zones favorables ne contenant pas

Pour des informations sur d'autres méthodes possibles, se référer au guide technique de C. Braux (1996).

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

de gisements connus. Ces zones représentent l'opportunité de découvrir de nouveaux sites minéralisés, après contrôle bibliographique et de terrain. Cette démarche peut être réalisée de différentes manières :

- avec un ou plusieurs critères ;

-sur la totalité du SIG ou se limiter à des zones d'emprise plus limitée (province métallifère, unité géologique : par ex. greenstone belt, sous unité géographique ...) ;

- sur différentes thématiques (recherche minière, matériaux, risque. ..).

Elle a été testée en Bretagne pour le kaolin et en Afrique de l'Ouest pour l'or et, avec un taux de succès significatif. Un contrôle de terrain, dans le cas de la Bretagne, a permis de montrer que 25 % des zones sélectionnées correspondent à de nouveaux indices de kaolin.

3.3. RECOMMANDATIONS POUR LES TRAITEMENTS MULTICRITÈRES

Le rôle des thématiciens est primordial dans la combinaison multicritère débouchant sur des cartes de prédictivité pertinentes. En effet, les outils informatiques permettent de combiner «tout et n'importe quoi » et, seule une étude critique amont (qualité des couches, pertinence des modèles et des combinaisons qui en découlent) et aval (pertinence du résultat) garantira que l'on a bien répondu aux questions posées lors de l'étape 1. Il faut également à tout moment être capable de justifier scientifiquement le choix des couches utilisées («transparence du modele») et chaque étape de combinaison.

Pour ce faire, il est fortement recommandé de réaliser des cartes de prédictivité par métallotecte. Elles seront élaborées par combinaison multicritère des signatures spécifiques de chacun des métailotectes. Ce type de carte intermédiaire aura pour avantage :

- de suivre le raisonnement des thématiciens ayant fait la carte de prédictivité finale, et éviter que le traitement multicritère soit opaque («boîte noire ») ;

-de pouvoir aisément modifier les modèles testés en terme de métallotectes, de signatures et de poids ;

-de déterminer quel(s) métailotecte(s) et quelle(s) signature(s) ont été décisifs pour l'identification des cibles de la carte de prédictivité finale.

Fiabilité d u délivrable - En complément des cartes de prédictivité, il est fortement recommandé de réaliser des cartes de fiabilité de la prédictivité qui prennent en compte notamment la densité de la donnée de base du SIG. La réflexion relative à la fiabilité devra être poursuivie en 2001.

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

Finalisation du délivrable - Les cartes de prédictivité finales sont les seuls documents utilisés par le client pour prendre des décisions et il convient d'y apporter un soin particulier et de budgéter cette phase finale. Ces documents engagent le BRGM et la qualité perçue est primordiale. Ainsi, le délivrable consistera en un document didactique dans la forme (habillage topographique, coordonnées, échelle, titres ...) et dans le fond (visualisation des cibles, choix des fiprés, légendes, ...) qui réponde clairement à la problématique du client.

Méthodologie pour la vatoriçation des SIGs par la production de cades de prédictivité

Conclusions - Recommandations

L 'élaboration de cartes de prédictivité, didactiques et pertinentes, nécessite des moyens appropriés à savoir :

- le respect d'une méthodologie rigoureuse et transparente suivant les trois étapes proposéesafin d'être capable de justifier scientifiquement les choix effectués à chacune des étapes, depuis I'élaboration du modèle jusqu'à la combinaison finale ;

- l'élaboration d'un modèle d'association de données, fondée sur la complémentarité des deux approches « déterministe » et « stochastique » : . l'approche déterministe consistant à adapter des modèles de gisements existants,

extraits notamment de la base de modèles de gisements SignateX ; . l'approche stochastique, via notamment le Data-Mining, ayant pour but de faire

émerger de nouvelles règles relationnelles entre les gisements et leur contexte ai ue ; géol0,'q

-une bonne connaissance des modèles de gisements existants en vue d'une sélection pertinente en fonction de la zone d'exploration (= le SIG) ;

- l'adaptation des techniques innovantes de traitement des données géoréférencées (Data Mining, Réseaux de Neurones, . . .) au domaine des Sciences de la Terre ;

- une forte réflexion métallogénique, visant à valider les idées (= règles relationnelles) émergeantes des traitements réalisés ;

- un traitement multicritère adapté aux besoins, et l'élaboration de cartes prédictives intermédiaires par métallotecte.

L'expérience acquise dans le domaine en 2000, montre que lors de la constitution d'un SIG, on doit impérativement se poser la question suivante : « Quels types de cartes à valeur ajoutée (type de cibles, d'échelles, ...) est-il prévu de produire ? » afin de collecter les données et attributs associés indispensables à la résolution du problème. A défaut, le risque est de ne pas pouvoir réaliser le délivrable, du fait de l'inadéquation (qualité : précision, détail,. . .) des données.

I~zfi,ze, I'élaboration de cartes « à forte valeur ajoutée » nécessite impérativement 1) des données de base du SIG qui soient de qualité et adéquates, et 2) un traitement rigoureux.

Dans la mesure où d'autres domaines des Sciences de la Terre utilisent le traitement multicritère pour la production de carte à valeur ajoutée, ce rapport méthodologique pourra s'appliquer notamment à l'hydrogéologie, aux risques naturels et à l'environnement.

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

Références bibliographiques

Agrawal R., Imielinski T., Swami A.N. (1993) - Mining Association Rules between sets of items in Large Database- In proceeding mai 1993 ACM SIGMOD International Conference of Management of Data, p. 207-216.

Bohnam Carter G.F. (1995) - Geographic information Systems for geoscientist : modeling with GIS. Computer methods in the geosciences, vol. 13. Pergamon Editor.

Braux C., Joubert M. (1994) - Identification of areas fovourable for the presence of massive sulphides through interpretation of geophysical, geological and geocbemical data integrated in a Geographic Information System. SME annual meeting, Albuquerque, New Mexico, USA. Preprint No 94-216

Braux C., Kosminski G., Vaillant F.X., Récoché G. (1991) - Etude multicritère dans la partie nord-est du bouclier Arabe pour la délimitation de secteurs favorables à la présence d'or (Arabie Saoudite, Al Jardhawiyah Région). Rapport BRGM inédit.

Braux C. (1996) - Cartographie multicritère : guide technique. Rapport BRGM R 39146,71 p.

Cox D., Singer D.A. (1987) - Mineral Deposit Models. US Geol. Survey Bull. 1693, 379 p.

Hodgson C.J., Troop D.G. (1988) - A new Computer-Aided Methodology For Area Selection in Goid Exploration : A case Study from the Abitibi Greenstone Belt Econ. Geol., vol. 83, p. 952-977.

Knox-Robinson C.M., Groves D. 1. (1997) - Gold prospectivity mapping using GIS with examples from the Yilgam Block of Western Australia. Chron. Rech. Min., no 529, p. 127-138.

Koperski K., Adhikary J., Han J. (1996) - Spatial Data Mining: Progress and challenges- in SIGMOD'96 Workshop DMKD 96 Canada, juin 1996.

Koperski K., Han J. (1995) - Discovery of Spatial Association Rules in Geographic Information Databases -Lecture Notes in Computing Science, 951, p. 47-66.

Prévot J.C., De Gramont X., Braux C., Tourlière B., Conn H., Apel R. (1995) - Tecnologia S.I.G. y estudios multicntenos en apoyo a la exploracion minera a escala regional : Ejemplos en Guyana Francesa (Estudio multicriterios del Paramaca) y en Chile (Carta Metallogénica de la Quinta Region). Presentacion al M congreso Latinoamericano de geologia de Caracas.

Méthodologie pour la valorisation des SlGs par la production de cartes de prédictivité

Wybom L.A., Gallagher R., Jaques A.L. Jagodzinski E.A., Thost D., Ahmad M. (1994) - Developping Metallogenic Geographic Information Systems : Exampies from Mount Isa and Pine Creek. The AusiMh4 Annual Conference, Danvin, 5-9 August 1994.

Méthodologie pour la valorisation des SIGs par la production de cartes de prédictivité

ANNEXE 1

Data Mining : définition et exemples -

(par A. Salleb)

Définition (Agrawal et al., 1993)

Etant donné : 1 = ensemble d'items, T = ensemble de transactions (BD)

Une règle d'association est une implication de la forme : X -+ Y / X et Y ensenzbles d'items

Support d'une rEgle : pourcentage de transactions de T qui contiennent X et Y

Srrpporr ( X -t Y ) = Slipport ( X u Y ) = Fréqrretice ( X u Y )

Card ( T )

Confiance d'une règle : Pourcentage de transactions de T qui contiennent Y parmi celles qui contiennent X.

On recherclie dans la base de données les ensembles d'items qui apparaissent fréquemment et qui apparaissent souvent ensemble, autrement dit, on recherche des règles solides ayant un support et une confiance suffisants par rapport à des seuils fixés par l'utilisateur.

Srrpport ( X u Y ) - Fréqrtence ( X u Y ) Cotflderrce ( X -t Y ) = -

Srrpporr ( X ) Fréqrrence ( X )

Exemple

(2)

Age (,y, 251 ) -+ Occtlpntion (x, Etzidiant) (25 %, 57 %)

Cette règle exprime le fait que dans une base de données pop~rlation décrite par des attributs descriptifs tels que l'âge et I'occttpntion, on constate que 57 % des gens âgés entre 20 et 25 ans sont encore étudiants, c'est la confiance de la règle. De plus les gens ayant entre 20 et 25 ans et étudiants composent 25 % des enregistrements de la BD, c'est son slcppo,?.

Si on se fixe des seiiils de support et de confidence de 20 % et 50 % respectivement, on dira alors que cette règle est solide.

M6Utodokgi.s pour la valorisation des SlGs per la p d ~ c f M n de certes de p&didnité

Exemples (extrait des résultats du prototype réalise en DEA et testé sur le SIG Andes)

Gisement (x) A Geologie(y) A Code&, Tertiairevolcanique) A indns(x, y) + SubstancePrinc (x, Ag) ( Support = 4,43 %, con.dence - 40.56 % )

Cette règle s'interprète alors : 40,56 % des gisements inclus dans des géologies de c d Tertiaire volcanique renferment comme substance principale de l'argent.

On note ici que le type de relations spatiales entre couches ne se limite pas 4 l'inclusion et qu'il est possible de calculer d'autres relations spatiales telles que l'intersection, la proximité, l'orientation (nord, sud, . . .) et que l'utilisateur spécifie les relations spatiales dans sa requête.

A titre d'exemple l'application sur les couches Gisement et Failles a permis de génbrer entre autres, la régle suivante :

Gisement (x) A Faille (y) A Gitologie (x, « Al ») A Proche-de (x, y) -+ Stnim-faïlle(y, « Strike-Slip » ) (0,53 %, 20,29 %)