66
029-a NTE SGH août 2012 Rapport de stage Mise en place d’une Infrastructure de Données Spatiales hétérogènes dans le cadre d’un projet pluridisciplinaire dans l’objectif de la compréhension de la biodiversité en République Centrafricaine Siège social 25bis, rue Jean Dolent 75 014 PARIS Tél. (+33) 1 45 45 46 61 Fax. (+33) 1 43 31 62 24 contact@geo212.fr SARL au capital de 24 000 € SIRET : 422 598 441 00026 Code APE : 721Z Aurélie BATANY Master 2 SIG et Gestion de l’Espace Parcours Professionnel 2011-2012 Sous la direction de : Rousselin Thierry, maître de stage : Géo212 Guerin Karine, maître de stage : Géo212

Rapport de stage · Rapport de stage Mise en place d’une Infrastructure de ... particulièrement l‘entomologie m‘a permis de me replonger à nouveau dans le domaine de

Embed Size (px)

Citation preview

029-a NTE SGH – août 2012

Rapport de stage

Mise en place d’une Infrastructure de

Données Spatiales hétérogènes dans le

cadre d’un projet pluridisciplinaire dans

l’objectif de la compréhension de la

biodiversité en République Centrafricaine

Siège social

25bis, rue Jean Dolent

75 014 PARIS

Tél. (+33) 1 45 45 46 61

Fax. (+33) 1 43 31 62 24

[email protected]

SARL au capital de 24 000 € SIRET : 422 598 441 00026

Code APE : 721Z

Aurélie BATANY Master 2 SIG et Gestion de l’Espace

Parcours Professionnel 2011-2012

Sous la direction de :

Rousselin Thierry, maître de stage : Géo212 Guerin Karine, maître de stage : Géo212

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 2/66

Résumé

Ce projet s’inscrit dans le cadre d’un inventaire de la biodiversité dans un parc naturel en

République Centrafricaine. Parmi les contributions géospatiales prévues (GPS, Télédétection,

Géomatique), il est demandé de mettre en place une infrastructure de données spatiales (IDS).

Les travaux réalisés concernent la partie amont : analyse du besoin, modélisation, choix des

outils, développement de la base de données et tests de peuplement avec les multiples types

de données à mutualiser. Le caractère associatif, multipartenaires et international du projet a

orienté vers le développement d’une application webmapping pour la saisie de données en

ligne. Le rapport propose des recommandations pour la phase aval de déploiement de l’IDS,

pour la gestion des attentes variées des partenaires et pour l’utilisation de l’IDS tant pour les

échanges entre scientifiques que pour des besoins de communication et de vulgarisation.

Mots clés : Infrastructure de données spatiales, modèle de données, base de données,

biodiversité, données hétérogènes, interopérabilité, open source, webmapping, SIG, Bassin du

Congo, République Centrafricaine, Sangha.

Abstract

This study is in line with in a biodiversity inventory project in a National Park in Central

African Republic. Among other geospatial activities (through the use of GPS, Remote

Sensing and Geomatics), it is requested to set up a spatial data infrastructure (SDI). This work

deals with the initial steps of the project: gathering and analysis of user requirements,

modeling, software choice, development of the database and tests of data conversion and

integration. Due to the characteristics of the project (non profit, multi-national, …) it was

necessary to access data online through a very simple web base interface allowing all

involved parties to browse, search, analyse and export data. This report also contains technical

and organizational recommendations for the future phases of the project. It will help to gather

additional requirements, manage the project and use it as a platform for scientific exchanges

and communication.

Keywords : spatial data infrastructure, data model, database, biodiversity, heterogeneous data,

interoperability, open source, webmapping, GIS, Congo Basin, Central African Republic,

Sangha.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 3/66

TTaabbllee ddeess mmaattiièèrreess

1 Introduction ............................................................................. 7

2 Contexte et objectifs ................................................................ 8

2.1 Contexte...................................................................................... 8 2.1.1 Geo212 ............................................................................................ 8 2.1.2 Projet Sangha ................................................................................... 8 2.1.3 La zone d'étude ................................................................................10 2.1.4 Contexte relationnel et organisationnel ...............................................11

2.1.4.1 Impact des caractéristiques du projet ..............................................11 2.1.4.2 Place des travaux Géo212 dans le projet ..........................................12 2.1.4.3 Place des stages dans le projet .......................................................12

2.2 Objectifs .................................................................................... 13 2.2.1 Objectifs initiaux ..............................................................................13 2.2.2 Suivi et recadrage des objectifs ..........................................................15

3 Phase de conception .............................................................. 16

3.1 Définition du besoin .................................................................. 16

3.2 Bibliographie et état de l’art ..................................................... 18 3.2.1 Infrastructure de Données Spatiales ...................................................18 3.2.2 Etat de l’art des IDS existantes dans le domaine de l’environnement ......20

3.3 Objectifs de l’IDS ...................................................................... 22

3.4 Adaptation aux contraintes rencontrées ................................... 23

4 Mise en place de la base de données ...................................... 25

4.1 Méthode de conception ............................................................. 25 4.1.1 Méthode MERISE ..............................................................................25 4.1.2 Concepts retenus..............................................................................27

4.2 Démarche de création de la base de données ............................ 28 4.2.1 Données disponibles .........................................................................28 4.2.2 Démarche suivie ...............................................................................29 4.2.3 Niveaux d’analyse des données ..........................................................30

4.2.3.1 Modèle conceptuel des données ......................................................30 4.2.3.2 Modèle logique des données ...........................................................32 4.2.3.3 Modèle Physique des Données ........................................................36

4.2.4 Règles de création de tables à respecter ..............................................38

4.3 Choix du logiciel ........................................................................ 39 4.3.1 Critères de choix ..............................................................................39

4.3.1.1 Logiciel libre .................................................................................39 4.3.1.2 Lecture d’un grand nombre de format de données spatiales................39 4.3.1.3 Respect des normes et standards de l’OGC .......................................39 4.3.1.4 Logiciel suivi par l’OSGeo ...............................................................40 4.3.1.5 Logiciel connu de l’entreprise ..........................................................40 4.3.1.6 Autres critères ..............................................................................40

4.3.2 Liste des SGBD relationnels ...............................................................41

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 4/66

4.3.3 Logiciel sélectionné : PostgreSQL/PostGIS ...........................................41

4.4 Démarche de peuplement ......................................................... 42 4.4.1 Introduction .....................................................................................42 4.4.2 Méthodes utilisées ............................................................................42 4.4.3 Difficultés rencontrées.......................................................................43 4.4.4 Bilan de peuplement .........................................................................44

4.4.4.1 Travail réalisé ...............................................................................44 4.4.4.2 Tests et contrôle qualité .................................................................44 4.4.4.3 Modifications réalisées ...................................................................45

4.4.5 Recommandations pour la poursuite du projet ......................................45 4.4.5.1 Reprises d’optimisation de la base de données ..................................46

4.4.5.1.1 Choix d’une géométrie unique dans chaque table .................................... 46 4.4.5.1.2 Création d’index spatiaux ..................................................................... 46 4.4.5.1.3 Division de la table classification ........................................................... 46

4.4.5.2 Reprises suite à des erreurs d’intégration .........................................47 4.4.5.3 Reprises suite à des erreurs dans les données sources .......................47 4.4.5.4 Intérêt des informations sur le matériel scientifique de terrain ............47 4.4.5.5 Amélioration des travaux de contrôle et de tests ...............................49 4.4.5.6 Conseil pour la suite de la construction de la base de données ............49

4.5 Conclusion ................................................................................. 49

5 Interface Webmapping ........................................................... 51

5.1 Besoins et objectifs ................................................................... 51

5.2 Qu’est ce que le webmapping ? ................................................. 51

5.3 Démarche et méthode/Choix logiciel ........................................ 53 5.3.1 Road Map du projet d’interface webmapping Sangha ............................53 5.3.2 Critères d’évaluation des solutions ......................................................53

5.3.2.1 Respect des normes de l’OGC .........................................................53 5.3.2.2 Communauté large d’utilisateurs .....................................................54

5.3.3 Etat de l’art .....................................................................................55 5.3.3.1 Les clients légers...........................................................................55 5.3.3.2 Les serveurs cartographiques .........................................................57

5.3.4 Choix des logiciels ............................................................................58

5.4 Développement de l’interface .................................................... 58 5.4.1 Architecture mise en place .................................................................58 5.4.2 Fonctions disponibles ........................................................................60 5.4.3 Difficultés rencontrées.......................................................................61

5.5 Recommandations ..................................................................... 62

6 Conclusion .............................................................................. 63

7 Bibliographie .......................................................................... 65

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 5/66

TTaabbllee ddeess iilllluussttrraattiioonnss

Figure 1 : Situation du Parc Tri National de la Sangha ..................................... 9 Figure 2 : Situation de la zone étudiée ........................................................ 11 Figure 3 : Les grandes étapes du projet définies dans l’OT initial .................... 14 Figure 4 : Exemple d'architecture d'une IDS ................................................ 19 Figure 5 : Les principales fonctions d’un SGBD ............................................. 19 Figure 6 : Architecture du GBIF .................................................................. 21 Figure 7 : Nouvel Organigramme des Tâches prévisionnel ............................. 24 Figure 8 : Représentation en 3D des phases MERISE .................................... 26 Figure 9 : Acteurs de la mise en place du Modèle Conceptuel des Données ...... 30 Figure 10 : Modèle Conceptuel des données du projet SANGHA ...................... 31 Figure 11 : Termes utilisés pour la construction du MLD ................................ 32 Figure 12 : Association entre 2 tables ......................................................... 33 Figure 13 : Zoom sur la partie centrale du modèle logique des données .......... 34 Figure 14 : Exemple de cardinalités possibles .............................................. 35 Figure 15 : Exemple de typologie et de relations .......................................... 37 Figure 16 : La relation de type N:N dans le Modèle Physique des Données....... 38 Figure 17 : Données géométriques avant et après conversion ........................ 43 Figure 18 : Exemple d'inventaire présentant des point-virgules ...................... 44 Figure 19 : Exemples de mauvaises jonctions entre données multisources....... 44 Figure 20 : Exemple de symbole parasite dans les données attributaires ......... 45 Figure 21 : Proposition d’optimisation des tables géométriques ...................... 46 Figure 22 : Proposition d'optimisation de la table de classification des espèces . 48 Figure 23 : Architecture d'un outil de Webmapping ....................................... 52 Figure 24 : Exemple de rendu cartographique avec OpenLayers ..................... 56 Figure 25 : Exemple de rendu cartographique avec GeoExt ........................... 56 Figure 26 : Interface de visualisation de Géobretagne créée avec Mapfish ....... 57 Figure 27 : Architecture de la solution webmapping mise en place .................. 59 Figure 28 : Interface de saisie.................................................................... 60 Figure 29 : Lien vers d’autres pages web .................................................... 60

TTaabbllee ddeess ttaabblleeaauuxx

Tableau 1 : Synthèse de l'analyse des besoins des partenaires contactés ........ 17 Tableau 2 : Les trois niveaux de modèle suivis d'après la méthode MERISE ..... 27 Tableau 3 : Inventaire des données disponibles en juin 2012 ......................... 28 Tableau 4 : Les principaux SGBD analysés................................................... 41 Tableau 5 : Liste des outils de webmapping soutenus par l'OSGeo .................. 54 Tableau 6 : Comparaison des clients légers ................................................. 55 Tableau 7 : Comparaison des serveurs cartographiques ................................ 57 Tableau 8 : Liste des fonctions de l'interface ................................................ 61

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 6/66

Remerciements

Je tiens tout particulièrement à remercier :

Thierry Rousselin mon maître de stage à Géo212, qui m'a permis de réaliser ce stage. Par ces

questionnements et réflexions, il a permis de faire avancer mes travaux dans le bon sens.

Karine Guérin, également mon maître de stage à Géo212, qui a su m'épauler et me conseiller

tout au long du stage.

Nicolas et Sandy, qui par leurs connaissances en modèle de données et base de données, ont

pu m'aiguiller dans mes choix et m’aider à la mise en place des outils.

L’ensemble de l’équipe du projet Sangha pour les échanges constructifs que nous avons pu

avoir. Ma collaboration au sein d’une équipe spécialisée en biodiversité et plus

particulièrement l’entomologie m’a permis de me replonger à nouveau dans le domaine de

l’écologie.

Je tiens également à remercier toute l’équipe de Géo212 : Camille, Gilles, Alexandra,

Jacques, Pierre Noël, ainsi qu’à Bénédicte, pour leurs bonnes idées, leurs très bons conseils, et

leur soutien. Ils ont fait en sorte que ce stage se déroule dans de bonnes conditions.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 7/66

1 Introduction

La présente étude s’inscrit dans le projet SANGHA, une initiative pluridisciplinaire qui a pour

objectif de découvrir et inventorier la biodiversité dans un Parc National en République

Centrafricaine. Notre travail fait suite à deux missions de terrain de l’équipe de naturalistes du

projet Sangha 2012, l’une s’étant déroulé en 2010, la deuxième s’étant achevée en mars 2012.

Au retour des missions, des milliers d’échantillons, collectes, photographies, mesures

physiques (GPS, température, pression, luminosité), acquises de 2010 à 2012 peuvent être

corrélées avec un série temporelle constituée de dizaines d’images de télédétection de 1979 à

2012 acquises avec des capteurs optiques, radar et infra rouge divers.

Notre travail concerne la mise en place d’une infrastructure de données spatiales (IDS) afin de

satisfaire le besoin de mutualisation des données issues de nombreux domaines d’études.

Les objectifs visent la pérennisation des informations collectées, le soutien à l’analyse

pluridisciplinaire, de la communication tant interne qu’externe (le projet Sangha 2012 inclut

un volet pédagogique avec des interventions dans les écoles en France et en RCA).

Notre travail est présenté dans les chapitres suivants.

Suite à la présentation du contexte et des objectifs de ce stage dans le chapitre 2, le chapitre 3

présente la phase de conception de l’IDS : le recueil du besoin auprès des partenaires et futurs

utilisateurs, une recherche bibliographique et un état de l’art des projets de même type, suivi

de la définition des objectifs de l’IDS.

Le chapitre 4 présente les différentes étapes suivies pour mettre en place un des outils de

l’IDS : la base de données et tester son efficacité via un premier peuplement en données. Le

chapitre 5 traite de la mise en place d’un outil de saisie basé sur le développement d’une

interface de webmapping.

La conclusion (chapitre 6) discute des améliorations et des évolutions qui pourraient être

suivies pour la croissance et la gestion de l’IDS.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 8/66

2 Contexte et objectifs

Le stage s’inscrit dans le cadre des travaux menés par la société Géo212 pour un projet

naturaliste pluridisciplinaire visant à un inventaire de la biodiversité en forêt centrafricaine : le

projet « Sangha 2012 – Biodiversité en Terre Pygmée ».

2.1 Contexte

Dans ce chapitre sont présentés la société Géo212, le projet SANGHA, la zone d’étude

concernée par le projet, ainsi que les travaux connexes.

2.1.1 Geo212 La société Géo212, créée en 1999, est une SARL prestataire de services, spécialisée dans

l’imagerie satellite et la géomatique, qui travaille principalement comme sous-traitant.

L’équipe de la société est composé de 9 personnes, dont chacune est spécialisée dans un

domaine de compétence qui lui est propre : géographie-cartographie, géologie, agronomie,

spécialistes en SIG et qualité de l'information géographique, architecture en systèmes

d'information et expertise opérationnelle. Géo212 travaille essentiellement avec la défense

française, et a progressivement élargi son domaine d’intervention vers des clients civils

(pétrole, mines, environnement, risques, développement urbain, ...) généralement dans des

pays émergents. Le travail de la société se concentre autour de quatre domaines d’activités :

l’optimisation du choix de sources (images et sources ouvertes glanées sur Internet) appliquée

à la conception de chantiers cartographiques, les services de contrôle qualité (images et base

de données vecteurs), la définition de services thématiques (comme des services de

traficabilité réalisés en partenariat avec le BRGM et le SERTIT), la géomorphologie.

Géo212 s’implique également en recherche et développement par le biais de projets visant des

problématiques variées (système d’alertes sur l’obsolescence de l’information, exploitation de

l’imagerie radar, utilisation des sources ouvertes pour l’aide à la décision, définition du futur

programme géographie – hydrographie – océanographie – météorologie de la défense

française,…).

2.1.2 Projet Sangha Le projet Sangha 2012 s’inscrit dans le cadre d’une recherche pluridisciplinaire dont l’objectif

principal est l’évaluation la plus exhaustive possible de la biodiversité du Parc National de

Dzangha Ndoki en République Centrafricaine. Le terme biodiversité (Fondation pour la

recherche sur la biodiversité, 2008), introduit pour la première fois par Edward O. Wilson en

1988, désigne la dynamique des interactions dans des milieux en changement et se décline en

3 niveaux : la diversité des milieux, la diversité des espèces et la diversité génétique. La zone

forestière de Dzangha Ndoki est principalement connue pour les grands mammifères qui y

vivent, tels que les éléphants, les buffles, les gorilles,…, ainsi que les oiseaux et les arbres qui

s’y trouvent.

La région a fait l’objet de reconnaissances à la fin du 19e siècle (le fleuve Sangha constituait

la voie de passage entre le bassin du Congo et le Tchad) (Robineau, 1967) (Vallat, 1901).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 9/66

Les multiples missions naturalistes du 20e siècle ont entrainé la création de 3 parcs nationaux

au Cameroun, en République du Congo et en République Centrafricaine, l’ensemble

constituant une aire protégée transfrontalière dont le complexe forestier est géré par un accord

signé entre les pays riverains sous le nom de Tri-National de la Sangha. Sa préservation est

soutenue en premier lieu par les actions du World WildLife Fund (WWF). La zone a été

classée en juin 2012 au Patrimoine Mondial de l’Humanité par l’UNESCO (UNESCO, 2012).

Côté centrafricain, elle est également classée au titre de la convention RAMSAR sur les zones

humides (The Ramsar Convention on Wetlands, 2009).

Figure 1 : Situation du Parc Tri National de la Sangha

(Sources: Wikipedia, image Google Earth)

Pourtant, la faune entomologique est encore assez peu connue, très peu d’études ayant été

réalisées, alors que les insectes peuvent être de bons indicateurs de l’état de la biodiversité.

La toute première expédition entomologique date de 1985, et avait pour objectif d’étudier les

insectes de la zone dans la région de Bayanga (village situé à l’extrémité de la piste de

Bangui). Puis, suite à la création de l’association Insectes du Monde en 1997, les expéditions

ont pris progressivement une plus grande ampleur. Cette association (basée en Ariège) a pour

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 10/66

but principal de sensibiliser le grand public à l’entomologie au travers d’animations,

expositions, préparations naturalistes et production de supports pédagogiques. Elle s’attache à

enrichir les connaissances scientifiques, notamment grâce à des expéditions, des inventaires,

des recherches taxinomiques, la détermination de matériels, ainsi que la publication d’articles

scientifiques. Pour atteindre ses objectifs, Insectes du Monde développe des partenariats avec

des organismes publics et privés, tels que l’Education Nationale, des établissements de

recherche, des musées, des sociétés, mais aussi avec des spécialistes issues de diverses

disciplines (botanique, arachnologie, ornithologie, chiroptérologie…).

Les 7 expéditions conduites jusqu’en 2008 ont progressivement investigué de nouveaux

domaines scientifiques. C’est dans cette logique qu’Insectes du Monde a mis en place le

projet Sangha 2012.

Ce projet prévu sur 3 ans a démarré fin 2009. Il a pour but de promouvoir la recherche et de

développer des actions durables en encourageant et en accompagnant des actions locales. Les

expéditions précédentes, en plus de la mise en place progressive de la pluridisciplinarité

scientifique, ont permis de mieux appréhender la logistique complexe qu’apporte un plus

grand nombre de participants, que ce soit pour le transport, la nourriture ainsi que le matériel.

Le projet Sangha2012 est articulé autour de deux missions de terrain. Il est découpé en 6

phases majeures :

Septembre 2009 – Mars 2010 : Démarrage et conception du projet

Avril 2010 – Octobre 2010 : Préparation de la mission test

Novembre 2010 – Décembre 2010 : Réalisation de la mission test

Janvier 2011 – Décembre 2011 : Exploitation des résultats et préparation de la

mission 2012

Janvier 2012 – Mars 2012 : Réalisation de la mission 2012

Mars 2012 – Décembre 2012 : Exploitation des résultats de la mission 2012

2.1.3 La zone d'étude Le projet est mené en République Centrafricaine, appelée aussi Centrafrique. Enclavé au cœur

de l’Afrique, le pays est constitué de deux grands bassins : le bassin du Tchad qui s’écoule

vers le nord, et le bassin du Congo, formé par les affluents de l’Oubangui qui coulent vers le

sud. Les reliefs les plus importants se situent sur les bordures occidentales et orientales du

plateau, avec au nord ouest les gradins du massif granitique du Yadé compris entre 1000 et

1400 mètres.

La zone d’étude se situe à la pointe sud ouest du pays (Figure 2). Elle est bordée par la

frontière avec le Cameroun à l’ouest, matérialisée par la rivière de la Sangha, et par la

frontière avec la République du Congo au sud et à l’est.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 11/66

Figure 2 : Situation de la zone étudiée

(Source : image Google Earth)

2.1.4 Contexte relationnel et organisationnel

2.1.4.1 Impact des caractéristiques du projet

Le projet SANGHA étant un projet associatif défini hors du cadre officiel de la recherche

scientifique, les différents intervenants s’impliquent sur des bases de volontariat. Les

membres de l’association Insectes du Monde, même lorsqu’ils sont des scientifiques

reconnus, mènent leurs actions Sangha 2012 en marge ou en complément de leurs activités

professionnelles. Ils disposent donc de peu de temps pour s’y consacrer pleinement. Parmi

eux se côtoient des professionnels en taxinomie qui participent au projet en plus de leur temps

de travail, et des amateurs passionnées, qui présentent donc une méthode de travail moins

méthodique et rigoureuse que les professionnels. Ceci nous laisse supposer que chacun

travaille à sa manière et ne se sont pas concertés pour adopter une méthode de travail

commune. De plus cela signifie qu’au retour d’une mission de terrain lourde (qui a duré pour

certains participants plus de 2 mois) les acteurs n’étaient pas obligatoirement disponibles en

mars et avril pour répondre à nos questions (voir §3.1).

De même les sociétés impliquées dans le projet (pour fournir des prestations ou prêter des

équipements) le font sur une base volontaire et bénévole.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 12/66

2.1.4.2 Place des travaux Géo212 dans le projet

Le contexte de notre travail est assez particulier puisque la collaboration scientifique fait

intervenir une société spécialisée en imagerie spatiale et géomatique d’une part, et des

spécialistes en entomologie d’autre part, deux acteurs a priori assez « hermétiques ».

Les partenaires du projet SANGHA ont fait appel à Géo212 au départ pour les aider à

préparer les missions de terrain 2010 à l’aide d’images satellites de la zone. Puis

progressivement Géo212 s’est impliquée dans le projet et a proposé à ses partenaires d’utiliser

les possibilités de la géomatique et de la télédétection pour enrichir, étendre et pérenniser les

travaux de terrain menés au cours des expéditions. A l’issue de la première mission et face à

la faible qualité de la géolocalisation des observations, Géo212 a proposé de déployer lors de

la mission 2012 des moyens professionnels de topographie afin de constituer un référentiel

géométrique fiable. Cet acquis, couplé à la transversalité des travaux scientifiques, a induit un

besoin de rassembler les données dans une Infrastructure de Données Spatiales (IDS). Mais si

l’objectif d’ensemble de l’IDS a été validé par l’association, il n’est pas certain que tous les

participants étaient conscients des conséquences et contraintes liées à la mise en place d’une

base de données partagée. Notre travail s’est donc déroulé dans une phase de consolidation de

cette compréhension.

2.1.4.3 Place des stages dans le projet

Notre stage se situe après les 2 grandes missions de terrain, en 2010 (constituée de 40

personnes) et 2012 (70 personnes), et durant l’exploitation des résultats de la mission de 2012.

Lors d’un précédent stage réalisé de mars à août 2011 par Antoine Fivel, un premier travail de

catalogage et d’études sur la qualité des données collectées durant la mission 2010 a été

réalisé. Antoine Fivel a notamment réalisé différents tests de précision sur les données GPS

obtenues à la mission de 2010, ainsi qu’une première classification de la végétation de la zone

à partir des images satellites et des données collectées sur le terrain. Il a mesuré une

imprécision entre les images satellites et les données GPS de l’ordre de 15-20 mètres environ.

Cette conclusion a fait prendre conscience de la nécessité d’envoyer sur le terrain du matériel

GPS professionnel. Cette recommandation a été suivie pendant la mission de 2012, une

géographe de l’équipe de Géo212, Camille Netter, est en effet partie sur le terrain avec du

matériel DGPS pour réaliser plusieurs points d’appuis identifiables sur images satellites à très

haute résolution et plusieurs cheminements GPS permettant de caler les observations au sol

(localisation de capteurs, collecte d’échantillons, photos, mesures diverses).

Au retour de la mission 2012, deux stages ont démarré en parallèle.

Bénédicte Navarro, étudiante en Master 2 Télédétection et Géomatique Appliquées à

l'Environnement de Paris VII, travaille sur les images satellites dont dispose Géo212 sur la

zone, avec notamment deux images satellites acquises début 2012 et recalables précisément

avec les mesures de terrain. Elle constitue un référentiel géométrique commun avec toutes les

images (optiques et radar ; basse ou haute résolution) dont les plus anciennes remontent à

1979. Elle intègre également les mesures des capteurs de terrain laissés sur zone entre les 2

missions (15 mois d’observations en continu). Elle réalise enfin une nouvelle occupation du

sol plus précise que celle réalisée en 2011. Son travail (données et résultats) sera intégré dans

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 13/66

l’infrastructure spatiale de données et influence donc la structure de la base de données. Les

images satellites auront en effet une place importante dans la structure de l'IDS.

2.2 Objectifs

2.2.1 Objectifs initiaux

Le travail demandé dans le cadre du stage est de constituer une infrastructure spatiale de

données hétérogènes pour l’inventaire de la biodiversité en République Centrafricaine dans le

cadre du projet SANGHA à destination de l’ensemble des partenaires.

Les travaux définis dans la fiche descriptive initiale du stage portent sur :

la constitution d’une infrastructure spatiale de données hétérogènes : images satellites,

mesures GPS, relevés de terrain, des photographies géoréferencées, données provenant

de sources ouvertes…,

des analyses diachroniques permettant d’analyser les incertitudes (géométriques,

radiométriques, humaines et temporelles) entre données de télédétection et

observations naturalistes,

l’analyse des interactions entre entomofaune et microhabitats,

la production de cartographies multiéchelles et multi-temporelles permettant de mettre

en avant les évolutions du milieu.

L’objectif final est de participer à la compréhension du biotope actuel et de son évolution sur

les 3 dernières décennies.

Au démarrage du stage, un premier recadrage de ces objectifs a été réalisé en fonction des

retours de la mission de terrain (qui venait de s’achever).

Pour initier notre travail, nous avons écrit un cahier des charges et défini un organigramme

des tâches (OT) macroscopique définissant l'ensemble des grandes étapes du projet sur les 6

mois de stage. (Figure 3).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 14/66

Figure 3 : Les grandes étapes du projet définies dans l’OT initial

La première grande étape à accomplir est une recherche bibliographique sur les IDS et leurs

composants. Un état de l'art est à réaliser également, afin de déterminer s’il existe des projets

similaires déjà en fonctionnement ou prévus, et ainsi voir si certains éléments de ces projets

permettent d’aiguiller nos choix.

Simultanément, nous devons mener une analyse des besoins des partenaires et futurs

utilisateurs. La diversité des thématiques naturalistes oblige à collecter suffisamment de

besoins utilisateurs pour être sûr que l’IDS pourra satisfaire des besoins multiples. Ce travail

de conception nous permettra de définir le public intéressé par cet outil, et ainsi définir les

objectifs que doit viser l’outil. Ce premier travail permettra également d’apprécier les

compétences humaines nécessaires ainsi que les contraintes d’organisation et de budget.

Pour la mise en place du modèle de données, il nous faudra au préalable définir une méthode

de travail de développement informatique parmi les méthodes existantes. Par le suivi de

cette méthode nous allons alors créer la structure physique de la base de données en fonction

du logiciel de système de gestion de bases de données choisi. Une partie des données sera

par la suite intégrée progressivement dans la base de données.

De part l'hétérogénéité des données (nature et formats de données différents), nous allons

mettre en place une méthode de contrôle des données pour définir les problèmes éventuels

que pourrait contenir la base de données. Si la base de données présente en effet des

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 15/66

problèmes de fonctionnalités, une reprise de données devra être réalisée, sans pour autant

corriger toutes les erreurs. Nous allons pour cela définir les incertitudes possibles.

Après ce travail de mise en place et de gestion de la base de données, il est primordial de

tester la base de données. Nous allons donc définir une thématique d’étude en fonction des

données intégrées, et du temps qui nous est imparti. La thématique ne pourra être déterminée

qu'après implémentation des données, car nous ne travaillerons qu’avec les données intégrées

dans la base de données.

Enfin, si les données intégrées le permettent, nous prévoyons de produire quelques

cartographies illustrant les résultats. Ces cartographies permettront de communiquer sur

l’IDS tant en interne auprès des partenaires pour les convaincre de l’utilité du partage de leurs

données qu’en externe, pour valoriser le projet Sangha 2012.

2.2.2 Suivi et recadrage des objectifs

Au sein de la société, le mode de fonctionnement des stages est celui d’un projet classique.

Dès le début du stage nous avons fixé avec les tuteurs de stage des réunions régulières,

environ 2 fois par mois, afin de voir l’avancement du travail, et de discuter des travaux et des

difficultés éventuelles. Lors de ces réunions étaient également conviées les personnes de

l’équipe impliquées dans le projet de part leur spécialité à l’étape donnée, et Bénédicte

Navarro afin de connaître ses besoins au niveau de l’intégration des données et de les prendre

en compte dans le planning. Ainsi l’ensemble de l’équipe Géo212 a pu suivre l’avancement

du stage.

A titre d’exemple, suite à la réunion n°4 du 27 avril 2012, constatant que seulement 6

scientifiques du projet SANGHA sur les 25 contactés avaient listé leurs besoins, nous avons

pris l’initiative d’organiser un point d’urgence avec les responsables du projet SANGHA en

allant à leur rencontre sur Toulouse. Lors d’une réunion le 16 mai 2012 nous avons pu leur

présenter en détail le projet d’IDS et discuter en direct avec eux de leurs besoins en base de

données (les précédents échanges s’étaient faits la plupart du temps par mail et entretiens

téléphoniques). Cela a permis également d’en apprendre davantage sur les données qu’ils

possédaient et d’obtenir certaines d’entre elles, et ainsi de pouvoir avancer dans nos travaux.

Plus tard dans le projet, nous avons également choisi de modifier l’organigramme des tâches

initialement prévu. En effet, en analysant les difficultés rencontrées dans la collecte des

informations de chaque thématicien au début du stage, nous nous sommes rendus compte

qu’il était plus judicieux pour compléter l’IDS de disposer d’une interface de saisie web

permettant une communication plus simple avec les contributeurs et de leur laisser intégrer

leurs données au rythme de leurs analyses et travaux d’identification. La dernière partie de

l’OT a donc été modifiée en conséquence.

A chaque étape bimensuelle, le planning directeur du stage était présenté et les conséquences

des recadrages étaient analysées avec les tuteurs.

Les trois chapitres suivants se focaliseront sur la phase de conception (§3), sur la mise en

place de la base (§4) et sur l’interface de saisie web (§5).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 16/66

3 Phase de conception

Dans ce chapitre sera présentée la phase de conception de notre travail. Dans un premier

temps sera présentée l’analyse du besoin, puis la bibliographie et l’état de l’art réalisés, qui

permettront dans un troisième temps de présenter les objectifs à atteindre par l’outil. Nous

terminerons ce chapitre par la présentation des objectifs recadrés.

3.1 Définition du besoin

Il est indispensable dans tout type de projet de bien comprendre les besoins des partenaires et

futurs utilisateurs. Ceci permet de définir les objectifs que la base de données devra remplir.

Nous avons donc pris contact avec les scientifiques qui ont récolté des données lors de la

mission de 2012, et qui seraient susceptibles d’être intéressées par l’intégration de leurs

résultats dans l’infrastructure de données spatiales. 25 personnes ont été contactées par mail et

9 ont répondu à nos questions, lors de rencontres, de contacts téléphoniques ou par mail. Les

entretiens sont synthétisés dans le Tableau 1. Ces entretiens nous ont permis de mieux

comprendre le projet SANGHA, de bien référencer l'ensemble des données disponibles, de

connaître les informations que les thématiciens souhaitent intégrer dans la base de données.

Par contre, de part le fait qu'ils n'ont pas encore trié et analysé leurs échantillons (à l’issue

d’une mission naturaliste de ce type, le tri et l’analyse des données peut prendre plusieurs

années, cf. §2.1.2), ils ne connaissent pas encore toujours les informations qu’ils pourraient en

ressortir, et donc quels résultats ils souhaiteraient obtenir avec la base de données.

Personne

rencontrée

Fonction dans le

projet

Mission

réalisée Données récoltées

Besoins exprimés

Nicolas

Moulin

Entomologiste

spécialiste des mantes 2010 et 2012 Les mantes depuis 1985

Une base de données en ligne sur internet avec

accès réservé, qui permettrait :

-de réaliser des analyses statistiques

-de réaliser des cartes simples de localisation pour

mettre en évidence ces résultats (poster par

exemple)

-d’analyser ses résultats en les croisant avec celles

du milieu (les lacs)

-d’entrer ses données très facilement (interface

simple)

-éventuellement d’avoir un accès pour le grand

public (beaucoup moins scientifique pour l’aspect

pédagogique et communication)

Samuel

Danflous

Entomologiste

spécialiste des

arachnides, et

coordinateur

scientifique de

l'expédition 2012 2010 et 2012

Les codes des pièges

physiques et des données sur

les insectes et arachnides

Création de formulaires pour que chacun puisse

entrer ses données dans la base de données.

Pouvoir localiser les localités inspectées, mais

également être capable de localiser chaque

échantillon prélevé.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 17/66

Sergej

Buchet

Botaniste, a

participé au travail

de

spectrophotométrie 2010

Le travail réalisé sur la

spectrophotométrie de

2010

Une base de données pour localiser les différents

spécimens d’arbres inventoriés

Philippe

MORETTO

Entomologiste

spécialiste du

bousier

2010 et

2012

Les données sur les

bousiers de 2010 et 2012.

Souhaite continuer à travailler sur une base de

données existante en ligne, une base de données

(« Mantis ») spécialement adaptée pour

l’entomologie : http://www.catharsius.fr

Mathieu

SEVILA

Ichthyologue et

responsable des

pièges vidéos 2012

Les données d'inventaires

sur les poissons, des photos

et l'ensemble des vidéos

réalisées en 2012

Une base de données assez simple d’utilisation

même pour les noms spécialistes, qui permettrait

de localiser les différentes données relevées

Roland

PRUVOST

Etude des

foresteries 2012 Des photos

Des cartes pour situer les foresteries, les

différentes essences utilisées

Elodie

LERAT Botaniste

2012

(2ième

mois)

Des données d'inventaires

sur la botanique

Une base de données qui permette de rentrer tous

les inventaires ainsi que la localisation des

données.

Bertrand

Cosson Botaniste

2010 et

2012

des données d'inventaires

sur la botanique

Idem

Philippe

Annoyer

Entomologiste

spécialiste des

papillons de jours,

le coordinateur

principal des

missions.

Il s'occupe

également de

collecter des

données sur les

espèces de fourmis

A participé

à toutes les

missions

Beaucoup de données sur

les insectes depuis le début

:

-essentiellement sur les

papillons.

-Possède également des

données sur les fourmis

(étude de fourmilières).

-possède des coordonnées

GPS

-Possède des données sur

l’hydrographie et la météo

Une base de données très simple d’utilisation

pour tous les partenaires du projet. Il souhaiterait

pour ses études un outil qui lui permettre d’y

enregistrer ces données, de les retrouver, de les

localiser, et de les croiser avec d’autres données,

notamment celles sur la végétation.

Tableau 1 : Synthèse de l'analyse des besoins des partenaires contactés

Cette analyse des besoins, basée sur 9 entretiens n’est donc pas exhaustive de tous les besoins.

Nous pouvons tout de même lister les objectifs clés qui en ressortent :

Un outil simple d’utilisation accessible par des personnes de tous niveaux en

informatique,

Un outil qui permettrait d’enregistrer l’ensemble des données de terrain à l’aide de

formulaires de saisie,

Un outil qui permettrait de localiser les différents spécimens,

Un outil qui permettrait de croiser des données de différentes thématiques.

Nous devons tout de même garder à l’esprit que cet outil doit pouvoir s’adapter et rester

ouvert pour les thématiques des partenaires qui n’ont pas pu nous répondre pour le moment.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 18/66

3.2 Bibliographie et état de l’art

Dans ce chapitre nous allons dans un premier temps définir ce qu’est une Infrastructure de

Données Spatiales, puis nous allons présenter les différents outils similaires existants et/ou

auxquels nous pourrions nous inspirer.

3.2.1 Infrastructure de Données Spatiales

Il est souvent difficile d’avoir accès à des données géospatiales pour diverses raisons :

les formats ne sont pas interopérables,

les politiques de distribution sont restrictives,

nous n’avons pas d’information sur les données,

leurs coûts sont souvent élevés.

La mutualisation de l’information géographique par la mise en place d’une infrastructure de

Données Spatiales (IDS) permet de pallier à ces différents problèmes et favorise ainsi l’accès

à l’information. Une IDS est un système informatique qui permet de regrouper un ensemble

de services tels que des catalogues de données, des données, des logiciels, des applications,

des serveurs, ….connectés en mode interactif. Elle est utilisée dans la gestion d’informations

localisées telle que des cartes, des relevés de terrain, des images satellites et photos

aériennes… Les IDS sont accessibles généralement sur le web et respectent un ensemble de

conditions d’interopérabilité (telles que des normes, des spécifications...). Cela permet à

l’utilisateur de pouvoir utiliser les services à travers un simple navigateur web ainsi que de

combiner les services proposés par différentes IDS selon ses besoins.

Mais la mise en place d’un tel système nécessite l’accord de tous les partenaires concernés par

le projet (les producteurs, les utilisateurs, l’administrateur…) et doit éventuellement prendre

en compte des IDS existantes dans la région concernée afin de les coordonner. Un exemple

d’architecture d’une IDS est présenté Figure 4, mais toutes les IDS ont leur architecture

propre, adaptée aux besoins des utilisateurs.

Un projet d’IDS est donc plus qu’un simple projet technique et nécessite l’adhésion des

partenaires et la clarification de tous les enjeux liés à la propriété des données et des résultats.

Le cœur d’une IDS est l’ensemble des données qui sont gérées par un Système de Gestion de

Base de Données (SGBD), un logiciel qui permet de stocker, gérer et partager des

informations dans une base de données partagée par plusieurs utilisateurs simultanément. Ce

système gère la qualité des informations, ainsi que leur pérennité et leur confidentialité, sans

que l’utilisateur ne voie la complexité des informations (Figure 5).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 19/66

Figure 4 : Exemple d'architecture d'une IDS

Figure 5 : Les principales fonctions d’un SGBD

(D’après Georges Gardarin)

Suite à ce travail de recherche bibliographique, qui nous permet de mieux connaître le

fonctionnement des IDS, nous allons maintenant cibler notre recherche sur les IDS existantes

dans le domaine environnemental.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 20/66

3.2.2 Etat de l’art des IDS existantes dans le domaine de l’environnement

Il existe une association internationale : Global Spatial Data Infrastructure Association

(GSDI1) qui a pour but de promouvoir la coopération internationale et la collaboration dans la

création d’IDS qui permettraient de mieux aborder les problèmes environnementaux et

économiques. Cette organisation est notamment à l’origine du livre « The Spatial Data

Infrastructure Cookbook » qui permet d’aborder les principales étapes de construction d’une

IDS et ses principales fonctions. Depuis 2002, GSDI gère une lettre d’information mensuelle

dédiée à l’Afrique « SDI-Africa » basée au Centre régional pour la Cartographie des

ressources de développement (RCMRD) de Nairobi (Kenya), nœud africain du projet NASA /

GEOSS SERVIR. L’analyse des informations partagées depuis 10 ans nous a permis de

constater que s’il existe un grand nombre d’IDS opérationnelles, nous n’en avons pas trouvé

sur la zone d’étude du projet SANGHA.

Concernant la biodiversité, un projet international est important, le Système Mondial

d’Information sur la biodiversité (GBIF2), qui référence et rend accessible un grand nombre

de données concernant des collections biologiques et d’observation de la nature. Cet outil

permet de cataloguer l’ensemble des données référencées afin notamment de les rendre

accessible à tout public en garantissant leur interopérabilité, d’estimer les manques

d’expertises, d’aider à la conservation du patrimoine, ou encore d’établir des cartes

thématiques à différentes échelles. Son architecture est rapidement présentée par la Figure 6.

Un certain nombre de structures et associations sont amenées à mettre en place et gérer des

IDS plus restreintes telle que Birdlife International3, une ONG qui gère des banques de

données mondiales sur les oiseaux. En Europe, la directive européenne INSPIRE va permettre

la mise en place progressive d’IDS interopérables dans le domaine de l’environnement. Le

projet PEGASO4 suit ces recommandations pour mettre en place une IDS pour la gestion

intégrée des zones côtières en Mer Méditerranée et en Mer Noire. Au niveau national, en

France, de nombreuses IDS existent, tant au niveau régional que national, (Afigeo, 2010).

Nous pouvons citer dans le domaine environnemental le Système d'Information sur la Nature

et les Paysages (SINP5), une structure basée sur le serveur cartographique du Ministère de

l’écologie, Carmen6, qui permet d’accéder à des données cartographiques.

1 http://www.gsdi.org/

2 http://www.gbif.fr/

3 http://www.birdlife.org/

4 http://www.pegasoproject.eu/

5 http://www.naturefrance.fr/sinp/presentation-du-sinp

6 http://carmen.naturefrance.fr/

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 21/66

Figure 6 : Architecture du GBIF

Le Museum National d’Histoires Naturelles (MNHN) gère de grandes bases de données

concernant la biodiversité. Le Service du Patrimoine Naturel gère notamment l’Inventaire

National du Patrimoine Naturel et possède donc des référentiels pour classer les espèces

vivantes. Il a notamment mis en place le référentiel taxinomique TAXREF7 afin de lister les

noms scientifiques de l’ensemble des êtres vivant présents en France.

Il existe des solutions simples et prêtes à l’emploi pour créer des IDS interopérables et qui

respectent les normes actuelles. Nous pouvons notamment citer GeOrchestra8, sur laquelle

s’est basé notamment le portail GéoBretagne9, mais aussi EasySDI

10, qui sont deux IDS Open

Source qui permettent de respecter les normes et standards.

Suite à l’analyse des besoins réalisés auprès des partenaires et à la recherche d’outils

similaires existants, nous allons présenter les objectifs majeurs qui ont été définis auxquels

doit répondre l’outil demandé.

7 http://inpn.mnhn.fr/programme/referentiel-taxonomique-taxref

8 http://www.georchestra.org/

9 http://geobretagne.fr/accueil/

10 http://www.easysdi.org/

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 22/66

3.3 Objectifs de l’IDS

Sur la base des besoins exprimés par les partenaires, de notre compréhension des IDS et de

leur apport potentiel, et de l’observation d’IDS existantes dans le domaine environnemental,

nous allons définir et prioriser nos propres objectifs. Nos objectifs tiendront compte des

contraintes du projet (voir §2.1.4) et des capacités de Géo212 (environnement technique,

compétences accessibles, …).

Objectif Motivation

1 Aider à la compréhension de la

biodiversité de la zone d’étude, c’est-à-

dire la faune et la flore de l’extrême

sud de la RCA et des pays limitrophes.

Primordial Conforme aux buts de

l’association et du projet Sangha

Facteur d‘adhésion car c’est le

but partagé de tous les

participants

2 Aider à la compréhension du

fonctionnement de l’écosystème.

Important Conforme aux objectifs futurs de

l’association (passer d’un cadre

de missions scientifiques

ponctuelles de collecte

d’échantillons à un observatoire

permanent)

3 Référencer l’ensemble des données

récoltées sur le terrain dans la base de

données, mais aussi les données

obtenues à partir de « sources

ouvertes », mettre en « bibliothèque »

l’ensemble de ces données dans un

référentiel commun.

Primordial Demande exprimée par la

plupart des participants

4 Permettre de localiser les données

échantillonnées sur le terrain.

Primordial Demande exprimée par la

plupart des participants

5 Contribuer à l’analyse croisée de

données, notamment en permettant de

combiner des données d’échelles

spatiales et temporelles différentes.

Important Demande exprimée par un faible

nombre de participants mais

objectif primordial côté Géo212

(et cohérent avec l’objectif n°2)

6 Aider à la préparation des missions

futures, en étant utilisé comme support

logistique.

Important Demande exprimée par les

logisticiens

Pour atteindre ces objectifs de haut niveau, et sur la base de notre état de l’art et des

discussions internes avec l’équipe Géo212, nous fixons en entrée quelques choix

dimensionnant :

Nous allons tenter de nous baser sur le référentiel taxinomique du MNHN et l’adapter

à notre zone d’étude. Ceci nous permettra de rester ouvert et interopérable avec des

outils existants et certifiés, le MNHN travaillant avec de nombreux partenaires

nationaux et internationaux, comme le GBIF, et ainsi de rester concentrés sur notre

objectif principal : la compréhension de la biodiversité.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 23/66

La localisation des données échantillonnées sur le terrain peut se faire simplement à

l’aide de logiciels SIG. La base de données que nous allons mettre en place doit donc

donner la possibilité de géolocaliser des données géoréférencées.

Elle devra également donner la possibilité de stocker un maximum de données de

divers formats, car nous le rappelons, les données à référencer sont très hétérogènes.

Cette fonctionnalité devrait pouvoir donner la possibilité, à l’aide d’autres outils,

d’autres logiciels, de pouvoir travailler également à la fois sur des données de type

images satellites et des données GPS.

L’outil sera principalement destiné à réaliser des études scientifiques, mais il devra

également pouvoir être utilisé comme support technique, notamment pour tous les

aspects logistiques de préparation des missions, comme par exemple le choix de

zones à étudier, le choix des chemins à suivre pour atteindre ces zones…

Les groupes d'animaux et de végétaux qui seront intégrés dans la base de données

correspondront dans un premier temps aux domaines d'études des personnes qui nous

ont transmis des données et spécifié leur souhait concernant la base de données (voir

Tableau 1). Mais l’outil pourra être capable d’évoluer et d’intégrer les données des

partenaires qui n’ont pas encore pris le temps de répondre.

Les partenaires étant localisés en des lieux multiples (en Europe, au Canada et en

Afrique), l’IDS devra intégrer un outil de visualisation interactif de cartes et des

données, disponible en intranet ou en internet permettant de travailler directement (en

temps réel) sur la base de données.

Les utilisateurs devront pouvoir exploiter les données intégrées dans l’IDS à des fins

de communication sous des formes multiples à définir (cartographies, animations,

visualisations interactives). Ces formes de communication auront des publics variés

(présentation de résultats scientifiques, animations pédagogiques vers les écoles et les

passionnés, partenaires institutionnels et sponsors du projet, …).

Les moyens retenus devront être légers, faciles à administrer et peu coûteux afin de

respecter les caractéristiques organisationnelles et économiques du projet.

3.4 Adaptation aux contraintes rencontrées

La phase de recueil de besoin a pris plus de temps que prévu initialement et n’a abouti que

pour 9 des 25 scientifiques contactés. De plus, notre stage se situant juste au retour de la

mission 2012, certains scientifiques n’étaient pas en mesure de nous transmettre leurs données

(qu’ils n’avaient pas encore exploitées) pour tester leur intégration dans l’IDS. Enfin nous

avons constaté au travers de nos démarches parfois infructueuses et des échanges lors des

entretiens qu’il existait un déficit de communication entre les membres, lié aux contraintes

inhérentes d’un projet bénévole impliquant des acteurs répartis sur 3 continents.

Nous avons donc décidé de mettre en place un outil de saisie des données en ligne qui sera

construit dans un premier temps pour amener les partenaires à s’intéresser au projet de l’IDS

et à comprendre les avantages de la mutualisation et du partage des données. L’objectif est à

la fois pratique (permettre aux partenaires de saisir leurs données et consulter les données

partagées à leur rythme) mais aussi pédagogique (promouvoir les SGBD et SIG au sein du

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 24/66

projet SANGHA, pour que chacun voie progressivement l’intérêt du partage et du croisement

des données et vienne enrichir la base de données).

Les objectifs définis précédemment n’ont pas été modifiés, mais nous avons décidé en mai

2012 de recentrer les travaux initialement prévus sur l’outil de visualisation interactive et de

développer une interface de saisie et de consultation via une application de webmapping.

Nous avons donc modifié l’organigramme des tâches prévisionnel du stage (Figure 7) pour

pouvoir développer cet objectif.

Figure 7 : Nouvel Organigramme des Tâches prévisionnel

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 25/66

4 Mise en place de la base de données

4.1 Méthode de conception

Pour créer un système d’information, il est nécessaire de réfléchir à un ensemble de points

durs : les besoins des utilisateurs, l’organisation que l’on souhaite déployer et l’information

pertinente, etc. Cette complexité suggère donc d’appliquer une méthode de travail rigoureuse

notamment pour mettre en place un modèle sur lequel s’appuyer. La méthode d’analyse

permet de créer un langage commun à l’informatisation et aux acteurs du projet au travers de

différentes étapes allant de concepts/entités décrites en langage naturel, à une implémentation

informatique.

Il existe de nombreuses méthodes d’analyse et de conception de système d’information, la

méthode choisie ici pour le projet est la méthode MERISE. Nous avons choisi de travailler

avec cette méthode car d’une part c’est une méthode française, ce qui facilite la recherche de

documents et d’autre part elle est connue par la société qui possède des ouvrages de référence

de cette méthode. C’est une méthode qui semble être relativement simple à mettre en

application car elle ne demande aucune compétence en modélisation. Les termes utilisés sont

en effet facilement compréhensibles et facilitent les échanges lors de réunions avec les acteurs

du projet.

4.1.1 Méthode MERISE

MERISE est une méthode de développement de projets informatiques de gestion. C’est une

méthode classique adaptée aux bases de données relationnelles.

Pour passer d’une représentation réelle à une représentation virtuelle, le modèle MERISE

présente dans sa démarche d’analyse trois cycles fondamentaux (ou angle de vue) de

l’organisation étudiée :

Le cycle de vie qui décrit les différentes phases du système d’information. Il comprend

le développement du logiciel depuis la décision du développement de l’application,

jusqu’à sa mort.

Le cycle d’abstraction qui représente la démarche de spécification du système

(Organisation étudiée) ; pour passer de la réalité au modèle virtuel de données.

Le cycle de décision qui représente le point de vue des acteurs de l’organisation

étudiée quels que soient leur niveau de décision et d’action.

La démarche d’analyse peut être résumée par le schéma suivant en 3 dimensions (

Figure 8).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 26/66

Figure 8 : Représentation en 3D des phases MERISE

(D’après Véronique Sayasenh)

Pour résumer, MERISE est une méthode systémique, qui est caractérisée par :

l’étude séparée des données et des traitements

une analyse de ces éléments décomposée en 3 niveaux : Conceptuel, Logique et

Physique, ce dernier étant le niveau le plus concret.

Pour mettre en place la base de données du projet SANGHA, nous nous sommes basés sur

cette méthode, en adaptant MERISE au projet.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 27/66

4.1.2 Concepts retenus

Les 3 niveaux de démarche d’abstraction ont été repris :

le niveau conceptuel est celui de la description en langage « naturel » des fonctions,

entités, relations, etc.,

le niveau logique décrit l’information ou les traitements dans une forme optimisée

proche de son implémentation physique, mais sans tenir compte de la plate-forme

logicielle,

le niveau physique qui décrit l’informatisation finale en tenant compte de

l’environnement informatique (typage des données, langage, etc.).

Il a été choisi de ne travailler ni sur le modèle de communication et flux, ni sur les modèles de

traitement, car au moment où nous avons commencé cette étude, peu de partenaires ont

répondu à l’analyse des besoins, il n’était donc pas possible de définir les flux de

communication ni les traitements à effectuer sur les données. Nous nous sommes donc

concentrés uniquement sur les données. Concernant les différentes phases hiérarchiques du

cycle de vie (

Figure 8), et étant donné que cette hiérarchie semble assez naturelle à respecter, elles ne

figureront pas dans le rapport.

Dans un premier temps, après avoir défini les données disponibles, nous avons créé le modèle

conceptuel des données, qui impose de créer un dictionnaire des données, qui permettra de

définir les grands domaines (voir le tableau synthétique des 3 niveaux suivis : Tableau 2).

Puis a été mis en place le modèle logique ou organisationnel des données afin de définir les

relations possibles entre les tables. Et la troisième étape d’analyse a consisté à mettre en place

la structure de la base de données par la création d’un modèle physique des données sous

PostgreSQL/PostGIS (choix du logiciel § 4.3).

niveau modèle questionnement rôle

conceptuel MCD (Modèle Conceptuel des

Données)

Quoi ? Pour quoi

faire ?

Quelles données et quels liens

entre celles-ci ?

Logique MLD (Modèle Logique des

Données)

Qui ? Où ? Quand ?

Comment ?

Comment organiser le

stockage des données ?

Physique MPD (Modèle Physique des

données)

Avec quels moyens ? Comment stocker les

données ?

Tableau 2 : Les trois niveaux de modèle suivis d'après la méthode MERISE

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 28/66

4.2 Démarche de création de la base de données

4.2.1 Données disponibles Un précédent inventaire des données disponibles avait été réalisé en 2011 par Antoine Fivel

sur la base de la mission 2010. Cet inventaire a été mis à jour avec les données de 2012 et les

données analysées depuis 2011 par les différents partenaires (cf. Tableau 3).

Nature des données Contenu, description objectifs Relevés GPS Position GPS : points et traces Positionner géographiquement les différents relevés et

prélèvements réalisés en missions, et réaliser des prises de

points d’appui.

Positionnement géographique Position enregistrés dans des

fichiers Excel manuellement

Positionner géographiquement les différents relevés et

prélèvements réalisés en missions

Schémas de positionnement Position schématique et imprécise Positionner géographiquement les différents relevés et

prélèvements réalisés en missions

Inventaires entomologiques Données relevées sur les insectes

depuis 1985 jusqu’à 2012

Connaître et évaluer la biodiversité

Inventaires arachnologiques Données relevés sur les

arachnides en 2010 et 2012

Connaître et évaluer la biodiversité

Inventaires botaniques Données relevés en 2010 Connaître et évaluer la biodiversité

photographie Photographie de 2010 et 2012 Préciser la position de points remarquables, identifier et

représenter les espèces échantillonnés

vidéos Vidéos de mammifères relevées

en 2012

Préciser la position de points remarquables, identifier les

espèces animales

Collection d’animaux et

herbiers

Animaux et végétaux prélevés

depuis 1985

Connaître la biodiversité

Relevés météorologiques Relevés réalisés par capteurs

Hobo de 2010 à 2012

Permettre de mieux connaître le climat

Relevés hydrographiques Relevés réalisés par capteurs

Hobo de 2010 à 2012

Permettre de mieux connaître les variations de niveaux d’eau

des lacs

Relevés topographiques Relevés réalisés en 2012 Connaître l’altitude des pourtours des lacs

Images Landsat 15 dates s’étalant sur plus de 30

ans (1979- 2012)

Réaliser des études cartographiques diachroniques à petite

échelle

Images SPOT 23/10/2008, 04/03/2011 Réaliser des études cartographiques détaillées

Images Quickbird 19/01/2005 Réaliser des études cartographiques détaillées

Images Aster 02/08/2008 Réaliser des MNT, informations géostructurales, hydrologie et

hydrographie

Images radar 21/05/2011, 06/06/2011,

21/04/2012, 25/04/2012

Apporter des informations complémentaires aux images

optiques

Données météorologiques

RFE2

Données météorologiques par

décades disponibles depuis 2000

Réaliser des cumuls de précipitations

Tableau 3 : Inventaire des données disponibles en juin 2012

Cet inventaire nous a permis de définir plusieurs grands domaines de données classées par

type de données, car bien que certaines d’entre elles puissent nous transmettre des

informations similaires, elles ne peuvent pas, par la nature de la donnée, être classées dans le

même domaine :

Données brutes obtenues sur le terrain, telles que les relevés GPS, les inventaires, qui

nécessitent d’être inventoriées, analysées (identification, datation, …) et cartographiées ;

Données sources non relevées sur le terrain et susceptibles d’être traitées, telles que des

images satellites, des modèles numériques de terrain, des informations statistiques

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 29/66

climatiques, ou encore des données utilisées comme fond de carte (réseau routier, limites

administratives…);

Données traitées, c’est-à-dire le résultat des analyses et traitements effectués sur les

données brutes et/ou les données sources, que nous ne pouvons pas pour le moment définir

(hormis pour les traitements réalisés au sein de Géo212) du fait du faible nombre de

données disponibles et du manque de réponse des partenaires ;

Un quatrième grand domaine doit être défini pour obtenir des informations

complémentaires sur les données, des données sur les données : ce sont les métadonnées.

Suite à cette réflexion sur les données déjà disponibles, nous avons pris également en

compte :

les données relevées mais non encore disponibles (c’est-à-dire des données non transmises

et les inventaires qui n'ont pas encore été analysés par des spécialistes en taxinomie),

Des métadonnées additionnelles qui nous ont paru intéressantes pour la vie future du

système.

4.2.2 Démarche suivie

Cette réflexion s’inscrit dans la démarche de création du Modèle Conceptuel des Données,

une étape qui conditionne l’ensemble du travail. Nous avons donc consacré beaucoup de

temps à sa création, car les autres étapes dépendent de ce Modèle. Pour le créer, nous avons

entamé un travail de réflexion sur plus d’un mois, de fin mars à fin avril 2012. Plusieurs

versions du modèle ont vu le jour, en organisant régulièrement des réunions avec les

différents acteurs du projet (Figure 9), tant en interne Géo212 qu’auprès des scientifiques

utilisateurs, afin de bien orienter la réflexion.

La difficulté principale a été la recherche d’un consensus face à des contraintes, points de vue,

niveaux de maturité et de compréhension de multiples problèmes.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 30/66

Figure 9 : Acteurs de la mise en place du Modèle Conceptuel des Données

4.2.3 Niveaux d’analyse des données

4.2.3.1 Modèle conceptuel des données

Le premier niveau défini est le niveau conceptuel des données, où de grands domaines

permettant de distinguer les différentes données existantes, et celles produites prochainement

par l'analyse des données de terrain ont été définis. Nous avons au préalable mis en place le

dictionnaire des données, un document qui référence toutes les données existantes avec leurs

propriétés (une version courte est lisible en annexe 1). Par ce travail de référence, il est plus

facile de créer les grands domaines.

Le schéma suivant présente l'ensemble des grands domaines définis lors de cette réflexion

(Figure 10). La définition des domaines s’appuie à la fois sur les données disponibles et sur

les données prévues mais non encore disponibles, notamment les analyses possibles à réaliser

à partir de ces jeux de données. Les relations qui existent entre les différents domaines ont

également été déterminées par rapport aux différents objectifs définis.

Ce schéma présente bien un grand domaine central : toutes les données qui renseignent sur

l’écosystème. Les domaines biodiversité et biotope sont divisés au sein même de ce grand

domaine de l’écosystème. Les autres domaines « gravitent » tout autour, pour apporter des

informations complémentaires comme la localisation, les objets géographiques, les données

satellitaires, les résultats d’analyse et traitements possibles, et les métadonnées qui sont des

données utiles à connaître pour l'ensemble des missions mais sont uniquement descriptives.

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 31/66

Figure 10 : Modèle Conceptuel des données du projet SANGHA

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 32/66

4.2.3.2 Modèle logique des données

Suite à cette première étape, nous sommes passés au second niveau, le modèle logique des

données, dans lequel les entités sont progressivement définies ainsi que les relations qui

existeraient entre elles, en tenant bien compte des objectifs à atteindre avec l’outil.

Nous avons tout d'abord défini ce qu’est une entité : c’est une « Collection de propriétés, dont

on peut identifier sans ambiguïté chaque occurrence, grâce à une propriété particulière :

l''identifiant' " : à chaque valeur de cet identifiant correspond une seule occurrence »11

(cf.

Figure 11). C’est ce que nous appelons une table. Les domaines ont été divisés en entités, les

tables de la base de données. Les champs des tables ont été également proposés, toujours en

fonction des objectifs visés par la base de données.

Figure 11 : Termes utilisés pour la construction du MLD

Puis les relations (ou associations) entre les différentes tables ont été progressivement

définies. Dans le Modèle Logique des Données nous faisons apparaître des relations (ou

associations) entre les tables (Figure 13). Une association est un objet qui associe au

minimum deux entités, et dont chaque apparition est identifiée par la concaténation des

identifiants des entités concernées. L’association n’a donc pas d’existence propre. Dans

11

D’après Véronique Sayasenh

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 33/66

l’exemple ci-dessous (Figure 12), l’association existe, car l’identifiant de la table personne

(id_sangha) se retrouve dans la table inventaires arachnologiques sous le nom de

id_personne.

Figure 12 : Association entre 2 tables

Dans la Figure 13 ne figure qu’une partie du modèle logique des données. En effet seul le

domaine des inventaires de la biodiversité est présenté avec les entités avec lesquelles il serait

directement relié.

Sur cet extrait du Modèle Logique de Données, on peut remarquer que le domaine des

inventaires de la biodiversité a été éclaté en plusieurs entités. D’autres tables figurent

également dans le schéma, car ces tables possèdent une relation avec les tables du domaine

des inventaires de la biodiversité. Cela nous permet de présenter l’ensemble des relations que

nous rencontrons dans le Modèle Logique des Données. Ici un travail de distinction de chaque

entité est nécessaire, c’est-à-dire qu’un travail de définition des données contenu par chacune

des entités a été réalisé, afin de bien nommer chaque entité pour éviter tout synonyme ou

polysème, et ainsi éviter de douter lors du choix de l’entité dans laquelle serait enregistrée

chaque donnée. Par exemple, des données concernant l'hydrographie, récoltées sur le terrain,

sont des données brutes et entrent dans l'entité mesures du biotope du domaine étude de

l'écosystème. Par contre des données hydrographiques obtenues par photo-interprétation

d’images satellites n'entrent pas dans cette entité. Ce sont des données traitées et généralement

stables dans le temps (pas de mise à jour régulière à effectuer), qui sont intégrées dans le

domaine des objets géographiques.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 34/66

Figure 13 : Zoom sur la partie centrale du modèle logique des données

Il existe plusieurs types d’association, qui diffèrent par leurs propriétés. En effet chaque

association dans le Modèle Logique des Données possède une cardinalité, une étape

importante à ne pas négliger dans le modèle de données. La cardinalité permet de connaître le

nombre minimum et maximum de possibilités pour chaque enregistrement, dans une relation

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 35/66

liant 2 ou plusieurs entités. Le nombre de tables dans la base de données dépend en partie de

ces cardinalités.

La cardinalité minimale peut être de 0 ou 1, et la cardinalité maximale peut être de 1 ou N

(Figure 14).

Une cardinalité minimale à "0" signifie que nous autorisons le cas d'enregistrements de l'entité

considérée qui ne soient pas reliés à l'association (aucune valeur pour ce champ). En prenant

le premier exemple de la Figure 14, une personne peut n’avoir échantillonné aucun inventaire

arachnologique. Par conséquent, une cardinalité minimale à "1" exprime l'obligation de

relier tous les enregistrements de l'entité à l'association (ce qui se matérialisera ultérieurement

par une contrainte). En se basant toujours sur le premier exemple de la Figure 14, un

inventaire arachnologique est échantillonné par une et une seule personne.

Une cardinalité maximale à "n" signifie donc que nous autorisons le cas d'enregistrements de

l'entité considérée qui soient éventuellement reliées, chacun, à plusieurs enregistrements de

l'association. Pour illustrer cette cardinalité, prenons le cas du 3ième

exemple de la Figure 14,

où un enregistrement d’un inventaire peut être classé plusieurs fois ou pas, et inversement, un

enregistrement de classification peut correspondre à plusieurs inventaires ou non. Par

conséquent, une cardinalité maximale à "1" exprimera l'interdiction du "pluriel" comme dans

l’exemple 2 de la Figure 14 où un enregistrement d’inventaire peut correspondre à seulement

une seule géométrie brute ou aucune.

Figure 14 : Exemple de cardinalités possibles

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 36/66

4.2.3.3 Modèle Physique des Données

Ce travail est la dernière étape dans la conception d’un Modèle de Données. Pour pouvoir

mener à bien cette étape, il nous faut définir l’outil que nous utiliserons pour mettre en place

la base de données. Par souci de clarté, nous expliquerons au paragraphe (§ 4.3) notre choix

du logiciel de SGBD et l’utilisation d’un logiciel de création de modèles de données.

Les SGBD structurent différemment une base de données selon leur nature. Actuellement 2

types de gestion de base de données sont couramment utilisés :

Les Systèmes de Gestion de Base de Données Relationnels (SGBDR), fonctionnent

sur une structure centrale composée de tables et de relations, une table étant un tableau

à 2 dimensions où chaque colonne défini un type de données (ou propriété) à stocker

et chaque ligne décrit un enregistrement ou occurrence à stocker.

Les Systèmes de Gestion de Base de Données Orientés Objets (SGBDOO) permettent

de gérer des structures de données complexes. Ils utilisent à la fois la puissance de

modélisation des modèles objets et la puissance de stockage des bases de données

classiques.

Etant donné que le modèle Logique des Données créé nous oriente vers les SGBD de type

relationnels, nous n’avons étudié que ce type de SGBD.

Comme nous l’avons vu dans le chapitre précédent, différents types de relations seront mises

en place dans la future base de données. Nous devons donc redéfinir les relations en fonction

du logiciel choisi ainsi que la typologie de chaque champ, c’est-à-dire la manière de définir

leur nature.

Prenons comme exemple le domaine des objets géographiques qui comprend un grand

nombre d’entités (cf. Figure 15). Nous avons ajouté une table, « source », qui référence toutes

les données utilisées pour créer les données à intégrer dans ce domaine. Cet exemple permet

de mieux comprendre les typologies des champs les plus couramment utilisées:

le type numéric, pour les champs à valeur numérique,

le type bigint, un type numérique de 16 chiffres, utilisés pour l’ensemble des identifiants,

le type serial, un type numérique, utilisé pour les identifiants créés par le logiciel

PostgreSQL,

le type caractère qui permet d’enregistrer du texte, la longueur de celui-ci pouvant être

limité,

le type géométrique qui peut être défini soit en point, linéaire ou surfacique pour

enregistrer les valeurs alphanumériques des données spatiales.

Cette figure présente 2 types de cardinalités :

- les cardinalités reliant les tables des objets à la table source sont de type 1,1 : ce qui

signifie que tout objet géographique provient d’une seule source,

- les cardinalités reliant la table source aux tables des objets sont de type 1,N : c’est-à-dire

que la table source renseigne l’historique d’au moins un ou plusieurs objets.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 37/66

Figure 15 : Exemple de typologie et de relations

(relations définies pour le domaine des objets géographiques)

Mais les relations de type N : N sont traduites différemment. En effet nous observons

l’apparition d’une table de jointure qui permet de relier les 2 tables (Figure 16). Cette table de

jointure se compose de :

- l’identifiant de la première table (dans l’exemple la table classification : id_classif),

- l’identifiant de la deuxième table (la table inventaires : id_inv).

Ces deux champs constituent la clé primaire de cette table de jointure. En effet le premier

champ correspondant à la classification peut présenter plusieurs fois la même valeur tout

comme le deuxième champ. Mais la combinaison des deux est unique.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 38/66

Figure 16 : La relation de type N:N dans le Modèle Physique des Données

Lors de la création du Modèle Physique des Données, il nous est paru nécessaire de réfléchir

au problème d’erreurs de saisie des données textuelles, car chaque partenaire sera amené à

saisir dans la base ses propres données. Cette réflexion se trouve en annexe 2.

4.2.4 Règles de création de tables à respecter Pour pouvoir mettre en place ce Modèle de Données, nous nous sommes fixés des règles à

respecter pour la création des différentes tables. En effet, chacune d’entre elle doit respecter

certaines règles qui sont imposées par le logiciel ou définies pour le projet dont voici les

principales (l’ensemble de ces règles sont définies en annexe 3) :

Un champ correspondant à la clé primaire nommé « id_postgre » et de type serial,

l’identifiant à incrémentation automatique du logiciel PostgreSQL.

Un champ permettant d’identifier chaque table de la base de données, de type bigint et

nommé « id_sangha ».

Un champ géométrique nommé « the_geom » pour les tables qui possèdent une géométrie.

Une règle d’intégrité liée aux relations de type 1 : N.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 39/66

Des règles de codage pour limiter les risques d’orthographes multiples des champs

textuels.

4.3 Choix du logiciel

Avant de créer le modèle physique des données, il nous faut déterminer le logiciel à partir

duquel nous allons créer la base de données.

4.3.1 Critères de choix De l’expression de besoin des utilisateurs, de la compréhension des caractéristiques du projet

(associatif, pauvre, avec des acteurs géographiquement dispersés, …) et de l’analyse de

l’environnement Géo212, des critères de choix ont été établis.

4.3.1.1 Logiciel libre

Le projet SANGHA disposant de peu de moyens financiers, il est indispensable que les

logiciels choisis soient des solutions libres. Mais une autre raison nous amène également à

faire ce choix. En effet les solutions libres sont généralement plus flexibles et interopérables

avec d’autres logiciels.

De part le fait que le code source des applications libres soit disponible, il est alors tout à fait

possible de les modifier afin de répondre spécifiquement aux besoins, bien que leur utilisation

impose généralement de posséder de solides compétences. Les solutions libres étant

également animées par une communauté d’utilisateurs, elles évoluent donc très rapidement et

sont donc relativement fiables dans leur fonctionnement.

4.3.1.2 Lecture d’un grand nombre de format de données spatiales

Un critère important à prendre en compte est la capacité des logiciels à lire un grand nombre

de formats de données dont des données spatialisées, car tous les SGBD ne sont pas capables

de gérer ces données.

De part la multiplicité des partenaires, il est très probable que chacun utilise leurs données

avec leurs propres logiciels. L’outil choisi doit alors permettre une grande interopérabilité

avec le maximum de logiciels. Il doit donc être capable de proposer un grand nombre de

formats de données.

4.3.1.3 Respect des normes et standards de l’OGC

L’Open Geospatial Consortium (OGC) est une organisation à but non lucratif fondée en 1994

pour résoudre les problèmes d’interopérabilité entre les différents outils du domaine de

l’information géographique. Ce consortium international a plusieurs objectifs et notamment

de développer et de promouvoir les standards ouverts de la géomatique et de l’information

géographique, et de favoriser la coopération entre développeurs, fournisseurs et utilisateurs.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 40/66

Ce consortium regroupe aujourd’hui plus de 250 membres dont les principaux acteurs du

marché, aussi bien dans le domaine public que privé.

Concernant les SGBD spatiaux, ceux-ci doivent respecter deux spécifications internationales

pour les données de type géométrique :

- L’OGC Simple Feature for SQL (OGC SFS),

- La norme ISO SQL/MM.

4.3.1.4 Logiciel suivi par l’OSGeo

Parmi les logiciels libres du domaine de la géomatique, un certain nombre d’entre eux sont

soutenus par l’Open Source Geospatial Foundation (OSGeo), une organisation dont la mission

est d'aider et de promouvoir le développement collaboratif des données et des technologies

géospatiales ouvertes. La fondation fournit une aide financière, organisationnelle et légale à la

communauté géospatiale libre la plus large. De nombreux projets Open-Source sont

actuellement soutenus par l’OSGeo, ce qui signifie pour ces outils qu’une large communauté

s’intéresse à leur développement, et ainsi favorise leur utilisation sur le long terme. Cela

signifie également qu’il est possible d’avoir accès à des formations ou des tutoriels pour

s’approprier le logiciel le plus rapidement possible.

Obtenir le sceau de l'OSGeo donne aux utilisateurs potentiels du projet une confiance accrue

dans la viabilité et la santé de celui-ci, en effet la communauté qui supporte l’outil est

largement augmentée et l’OSGeo assure un suivi à long terme même si la structure initiale

porteuse du projet disparaît.

4.3.1.5 Logiciel connu de l’entreprise

Le dernier critère à ne pas négliger concerne les connaissances et compétences que possède

déjà l’entreprise d’accueil. En effet il est beaucoup plus simple d’apprendre à utiliser un

logiciel qui est déjà utilisé par l’entreprise, plutôt qu’un outil qu’elle ne maîtrise pas.

4.3.1.6 Autres critères

Le logiciel utilisé doit être simple d’utilisation à la fois côté administrateur et utilisateur.

En effet, après la fin du stage, le logiciel sera administré bénévolement par Géo212, qui ne

peut pas y consacrer trop de temps. Au-delà l’administration pourrait être reprise par un autre

partenaire du projet, avec les mêmes contraintes.

Côté utilisateurs, ceux-ci sont multiples et présentent une maîtrise variable des bases de

données (d’expert à béotien absolu). L’outil choisi devra donc proposer une interface pour les

utilisateurs relativement intuitive pour des personnes qui l’utiliseraient occasionnellement.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 41/66

4.3.2 Liste des SGBD relationnels Nous avons recensé les logiciels de SGBD couramment utilisés à l’heure actuelle. A partir des

critères énoncés plus haut, nous avons rédigé un tableau synthétique des principales

caractéristiques de ces outils (Tableau 4) pour définir le logiciel le plus adapté au projet

SANGHA.

Nom du

logiciel

licence Type de

SGBD

Respect des

normes de

l’OGC

Suivi par

OSGEO

Extension

spatiale

Utilisé par

Geo212

Access

Microsoft

Licence

propriétaire

Logiciel de

bureautique

non non non oui

ArcSDE Licence

propriétaire

SGBDR oui non oui non

IBM DB2 Licence

propriétaire

SGBDR non non DB2 Spatial

Extender

non

Microsoft

SQL Server

Licence

propriétaire

SGBDR oui non MSSQL

Spatial

non

MySQL Double licence :

GPL et

propriétaire

SGBDR libre oui non MySQL

Spatial

non

Oracle Licence

propriétaire

SGBDR oui non Oracle

Spatial

non

PostgreSQL Licence

PostgreSQL

SGBDR libre oui oui PostGIS oui

SQLite Licence

Domaine Public

SGBD libre

jeune

oui non SpatiaLite non

Tableau 4 : Les principaux SGBD analysés

4.3.3 Logiciel sélectionné : PostgreSQL/PostGIS Au regard du Tableau 4, seul le logiciel PostgreSQL respecte l’ensemble des critères. Ce

logiciel est un SGBD libre qui présente une extension spatiale (PostGIS), qui respecte les

normes de l’OGC, et est suivi par l’OSGeo.

En outre, Géo212 développe actuellement une partie de son activité avec le logiciel libre

PostgreSQL 9.1.3/PostGIS 2.0. Il nous a alors paru être le choix le plus judicieux.

Il est d’ailleurs actuellement packagé avec un logiciel SIG libre Open-source : QGIS (1.8) qui

a donc été choisi comme le principal outil SIG utilisé pour ce travail.

Ce logiciel de SGBD présente tout de même quelques inconvénients à ne pas négliger pour le

projet:

- L’interface d’utilisation n’est pas intuitive, elle n’est pas du tout adaptée pour des non

spécialistes en base de données, car elle demande un certain niveau de compétence en

langage SQL.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 42/66

- Les partenaires qui utiliseront les données devront utiliser un autre logiciel (soit en lien

direct avec PostgreSQL, soit après avoir récupéré les données) que celui dont ils disposent

sur leur propre ordinateur.

- L’organisme ou la personne qui dans le futur administrera cette base de données devra

posséder de solides compétences en informatique pour pouvoir utiliser ce logiciel.

Pour mettre en place le modèle physique de données, nous avons utilisé un logiciel de

conception de base de données utilisable en lien avec PostgreSQL. La modélisation de

structure de base de données, la génération et la modification se sont concentrées sur

PostgreSQL : DataBase Designer for PostgreSQL 1.8.2 de chez MicroOLAP. DB Designer

for PostgreSQL est un outil facile d’utilisation, de part son interface graphique intuitive, qui

permet de construire une structure de base de données claire et effective visuellement, de

visualiser le diagramme complet de la base de données, de représenter chaque table, de créer

toutes les relations entre les tables, etc… Cet outil est spécialement conçu pour mettre

directement sur le SGBD l’architecture de la base de données créée à partir de ce logiciel.

4.4 Démarche de peuplement

4.4.1 Introduction

Une étape clé du projet est l’intégration des données dans la base de données. Ce travail est

indispensable pour pouvoir travailler sur les données. Mais comme nous l’avons expliqué

dans le § 3.4, nous ne disposons que de très peu de données pour le moment.

Même si nous n’avons que quelques enregistrements par type de données, nous avons décidé

d’intégrer le plus large panel de types de données dont nous disposons, le plus représentatif de

cette forte hétérogénéité des données. L’objectif est de se confronter au maximum de

problèmes différents, représentatifs de ce qui se passera lorsque toutes les données seront

intégrées. Ce travail nous permettra de réaliser des recommandations pour la suite et de

réfléchir aux solutions qui pourraient exister pour tenter de pallier à ces problèmes.

4.4.2 Méthodes utilisées Pour intégrer les données existantes dans la structure de la base de données créée, 3 méthodes

de peuplement de données dans le SGBD PostgreSQL existent selon le type de données (elles

sont détaillées en annexe 4). Toutes ont été testées et utilisées, chacune ayant ses avantages et

inconvénients :

Données renseignées manuellement directement dans le logiciel PostgreSQL. Cette

technique est intéressante pour de petits jeux de données ne présentant pas de données

géométriques, telles que les métadonnées, des données purement descriptives.

Données intégrées par l’intermédiaire de QGIS. Cette méthode consiste à copier des

données d’un fichier de type .shp ou .dbf vers une table de la base de données. Cette

méthode est rapide pour copier quelques enregistrements (d’une centaine maximum), et

est très pratique pour les données géoréférencées. Dans la table source les champs

doivent se trouver dans l’ordre correspondant à celui de la table.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 43/66

Données entrées par la ligne de commande sur PostgreSQL. Un fichier entier de type

shapefile peut être intégré directement en ligne de commande par le convertisseur

shp2pgsql. Cette méthode est très utile pour de gros fichiers. Les données doivent être

présentées de la même manière que la table cible.

4.4.3 Difficultés rencontrées Durant le travail d’intégration de données nous avons été confrontés à différents problèmes.

Nous ne listons ici que les problèmes qui nous ont paru être les plus importants (liste

complète en annexe 4) :

Les données concernées par la base de données ont des origines très diverses qui constitue

un problème majeur de lecture : leur format est souvent incompatible avec le logiciel

PostgreSQL. Un long travail de mise en forme des données est nécessaire à l’aide de

nombreux logiciels.

Les coordonnées géométriques ont été généralement enregistrés manuellement dans un

fichier de type Excel, le format n’étant généralement pas lisible sous un SIG (Figure 17).

Figure 17 : Données géométriques avant et après conversion

Les fichiers Excel qui dans une même colonne contiennent plusieurs informations

correspondant à plusieurs attributs d’une même table dans la base de données.

Les données de type date ont été pour la plupart converties en un format lisible par

PostgreSQL.

Le point-virgule rencontré dans les données enregistrées manuellement a compliqué la

tâche de conversion des fichiers en .csv (Figure 18).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 44/66

Figure 18 : Exemple d'inventaire présentant des point-virgules

4.4.4 Bilan de peuplement

4.4.4.1 Travail réalisé

Un état des lieux des données intégrées a été établi. Un tableau de référencement de toutes les

données à été réalisé ainsi que des cartes permettant notamment de positionner les

échantillonnages (voir annexe 5).

4.4.4.2 Tests et contrôle qualité

Nous avons défini un protocole de test et avons demandé au personnel de la société de servir

d’utilisateurs initiaux de la base de données. Suite aux retours critiques récoltés, des tests ainsi

que des contrôles qualité ont été nécessaire pour vérifier l’intégrité de la base de données.

Ils sont présentés en détail en annexe 6 :

Vérification du système de projection pour l'ensemble des données géométriques.

Vérification de l’affichage des couches dans un SIG à l'affichage. Par exemple les données

concernant l'hydrographie, provenant à la fois de deux sources ouvertes (Hydroshed et

FAO AQUASTAT) et de données créées par l'entreprise, présentent des problèmes de

raccordements des données au niveau des jonctions (Figure 19).

Figure 19 : Exemples de mauvaises jonctions entre données multisources

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 45/66

Vérification des relations entre les tables centrales par la mise en exécution de requêtes sur

les tables du domaine de la biodiversité.

Vérification de la qualité des données attributaires. Nous avons par exemple observé

l’apparition de caractères parasites qui sont apparus pour la plupart en remplacement de

caractères avec accent (Figure 20), une erreur due à l’utilisation de plusieurs logiciels.

Figure 20 : Exemple de symbole parasite dans les données attributaires

4.4.4.3 Modifications réalisées

Par rapport à la modélisation initiale, la modification que nous avons estimée être la plus

importante a concerné la table de classification des noms des spécimens et les tables des

inventaires. Cette table de classification est en relation avec toutes les tables des inventaires

par des tables de jointure.

Nous avions choisi de lier ces tables par des relations de type N : N (cf. Figure 16 du

§4.2.3.3), afin de contourner le problème de rectification possible d’identification des noms

scientifiques des spécimens récoltés. Après avoir récolté les données des partenaires et peuplé

les tables, nous nous sommes aperçus que ces rectifications seraient très rares. Nous avons

donc décidé de modifier ces relations, difficile à mettre en place, par des relations de type 1 :

N. La modification est détaillée en annexe 7.

Des modifications mineures ont également été réalisées (ajouts d’attributs dans les tables

d’inventaires, suppressions de tables de jointure).

4.4.5 Recommandations pour la poursuite du projet

Le peuplement de la base de données et les tests réalisés nous permettent de rédiger un certain

nombre de recommandations utiles pour la suite de la mise en place de la base de données.

Elles portent soit sur des reprises, soit sur des développements complémentaires, soit sur des

recommandations méthodologiques pour l’intégration future de nouvelles données.

Les reprises concernent des points qui n’ont pas été bloquants pour le bon fonctionnement de

la base, du fait du faible volume de données implémenté actuellement. Elles seront

nécessaires pour gérer l’intégration de gros volumes.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 46/66

4.4.5.1 Reprises d’optimisation de la base de données

4.4.5.1.1 Choix d’une géométrie unique dans chaque table

Un problème observé concerne le stockage des données géométriques. Pour des données de

même nature, il est possible de stocker dans la même table des géométries de type point,

linéaire, et surfacique (par exemple les relevés GPS peuvent représenter des points de

positionnement de pièges physiques, de photographies et de pièges vidéos, et des tracks

linéaires de parcours). Pour des raisons pratiques, l'ensemble des géométries ont été intégrées

dans le même champ.

Mais il s'est avéré que, pour des raisons d'optimisation de la base, cette solution n’est pas

adaptée si la base stocke un grand nombre de données. Un travail de séparation des

géométries, soit dans des champs différents, soit dans des tables différentes, sera à réaliser

(Figure 21).

Figure 21 : Proposition d’optimisation des tables géométriques

4.4.5.1.2 Création d’index spatiaux

La création d'index spatiaux dans une base de données de type PostgreSQL/PostGIS pour les

tables contenant une géométrie, est importante pour des raisons d'optimisation de base de

données volumineuses. Cela permet de réduire le temps de recherche lors de la mise en place

de requêtes lourdes, car un index spatial est une forme d'indexation utilisée pour optimiser les

calculs impliquant des positionnements ou des distances. Ce travail devra également être

réalisé par la suite.

4.4.5.1.3 Division de la table classification

Toujours pour des raisons d'optimisation, il serait intéressant de diviser la table classification

en plusieurs tables. En effet, pour faciliter les recherches des scientifiques parmi les différents

groupes d’animaux observés et échantillonnés sur le terrain, cette table unique pourrait être

remplacée par plusieurs tables (Figure 22), chaque champ correspondant à une table. Cela

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 47/66

permettrait de créer des listes déroulantes de choix, et ainsi imposerait un choix d'écriture lors

de nouveaux enregistrements.

Mais cette transformation de la table classification imposerait de la part de la structure qui

gèrera la base de données d’avoir de solides compétences en gestion de bases de données, car

cette structure de table améliorera les recherches mais compliquera le modèle.

Il serait également intéressant de retrouver dans la même colonne les noms de genre et espèce,

car les espèces sont toujours identifiées par leur nom de genre et espèce.

4.4.5.2 Reprises suite à des erreurs d’intégration

Des erreurs ont été observées, suite à l'intégration des données de différents formats. En effet,

des caractères textuels avec accents dans des fichiers .csv, ne sont pas bien lus en .dbf ou en

.shp (Figure 20), mais cela n'empêche aucunement l'utilisation de la base de données. Ces

problèmes seront à corriger par la suite.

4.4.5.3 Reprises suite à des erreurs dans les données sources

D'autres corrections à apporter ont également été notées, comme la rectification des

coordonnées des photographies réalisées en 2012 sur le terrain (cf.Annexe 6).

Des doublons ont été relevés dans la table classification (deux enregistrements identiques). Il

faudra vérifier dans l’ensemble des tables qu’il n’y ait pas d’enregistrements identiques

surnuméraires.

Dans la table des inventaires, ont été répertoriées des géométries de type ligne (cf. Annexe 6).

Bien qu’il soit effectivement possible de réaliser un inventaire le long d’une route ou d’une

ligne droite, ces données géométriques de type linéaire ne renvoient pas la bonne information

géométrique. Il serait préférable de les supprimer et d’en discuter avec les partenaires s’ils

souhaitent conserver ces informations et comment.

4.4.5.4 Intérêt des informations sur le matériel scientifique de terrain

Un point notable concerne le matériel scientifique de terrain. Même si cette table est purement

informative, nous ne disposons pas des renseignements nécessaires pour savoir, concernant

les pièges physiques et les GPS, qui a utilisé quel matériel, à quel moment, et à quel endroit.

Pour ce faire, il faudra continuer le travail de communication commencé avec les partenaires

pour obtenir ces informations. Ce point sera important si l’IDS est utilisée dans la

planification et l’optimisation des collectes dans les missions futures.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 48/66

Figure 22 : Proposition d'optimisation de la table de classification des espèces

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 49/66

4.4.5.5 Amélioration des travaux de contrôle et de tests

Il serait intéressant de réaliser un travail de vérification des noms de champs dans chaque

table, afin d’être sûr que chaque champ renvoyant à la même information dans les tables

possède exactement le même nom.

Nous n’avons pas pu tester l’ensemble des fonctionnalités de la base, faute de données

suffisamment importantes en volume. Il faudra réfléchir aux différents tests à réaliser,

notamment pour les tables des domaines des métadonnées, afin de vérifier le bon

fonctionnement de la base de données.

4.4.5.6 Conseil pour la suite de la construction de la base de données

Certains partenaires souhaitent obtenir des données génétiques sur leurs spécimens, et

travaillent généralement avec la base de données boldsystems (http://www.boldsystems.org/).

Certains souhaiteraient intégrer dans les tables d’inventaires un champ permettant de

renseigner le « code barre » correspondant à l’ADN de l’individu (ou de l’espèce), tandis que

d’autres souhaiteraient pouvoir y renseigner le lien vers la page web de l’espèce. De nouveaux

rendez-vous d’analyse des besoins seraient à prévoir avec les partenaires pour intégrer les

informations génétiques dans la base de données.

La base de données doit également permettre de pouvoir travailler avec des données en 3

dimensions. En effet une étude est actuellement en cours sur les fourmilières (cf. Tableau 1) et

les spécialistes souhaiteraient travailler avec des outils qui permettent de les visualiser en 3

dimensions. Cette étude nous amène donc à supposer que d’autres études pourraient être

conduites en 4 dimensions, en prenant en compte également la dimension temporelle. Ces

éléments doivent être gardés en tête, car la base de données doit évoluer au fur et à mesure de

son peuplement.

Un dernier point à ne pas négliger concerne les métadonnées. En effet la base de données

dispose de métadonnées, mais qu’en sera-t-il lorsque le volume de données sera plus

important ? Comment les utilisateurs vont-ils se retrouver parmi toutes les données

disponibles ? Il faut penser à mettre en place un catalogage des métadonnées pour pouvoir

recenser l’ensemble des données disponibles, et ainsi éviter des doublons d’information ou au

contraire un manque.

4.5 Conclusion

Bien qu’actuellement nous ne disposions pas d’un grand nombre de données, un grand

nombre de types de données peuplent maintenant la base.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 50/66

Ce travail nous a permis d’étudier une grande partie des problèmes que nous serons amenés à

rencontrer dans la suite du peuplement. Nous maîtrisons l’ensemble des problèmes

d’intégration qui pourraient concerner les données et métadonnées du domaine capteurs

satellites, et nous commençons à bien appréhender les données et métadonnées du domaine

naturaliste. Lorsque de nouveaux partenaires viendront collaborer au projet de la base de

données, nous serons en mesure d’appréhender les futurs problèmes à venir de part les

recommandations établies, et part la mise en place d’un outil de saisie pour minimiser les

problèmes d’intégration. En effet, pour faciliter l’intégration des données, que ce soit pour un

administrateur, ou pour les partenaires, il pourrait être proposé des formulaires types de saisie.

Cela a 2 avantages :

- éviter au maximum les pertes de données, lors des transformations possibles ou

nécessaires ;

- limiter les travaux préalables à l’intégration des données.

Ces formulaires peuvent être de différents formats numériques interopérables avec

PostgreSQL, le plus simple pour les données attributaires étant le format .csv.

Nous allons notamment voir dans le chapitre suivant la mise en place d’un formulaire de

saisie pour les données des inventaires.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 51/66

5 Interface Webmapping

5.1 Besoins et objectifs

L’interface que nous souhaitons développer doit répondre aux besoins exprimés par les

partenaires (cf. §3.1) et contribuer à simplifier et sécuriser le peuplement des données en

tenant compte des résultats des premiers travaux (cf. §4.4).

C’est un composant de l’IDS qui doit donc être construit dans la continuité de la base de

données comme un moyen d’avoir accès aux données de l’ensemble des partenaires.

La première fonction de cette interface sera de faciliter la saisie et l’intégration des données

des partenaires. L’utilisation de formulaires permettra de pallier aux problèmes de peuplement

de la base de données, il permettra ainsi de limiter les erreurs de saisie.

La deuxième fonction de cette interface sera de partager les données entre partenaires.

L’objectif est de faire en sorte que chaque partenaire ait accès à ses propres données mais

aussi aux données géolocalisées des partenaires. Elle permettra de travailler avec les données

d'autres domaines scientifiques, de pouvoir comparer les analyses, et ainsi augmenter les

capacités d’analyses.

Mais la visualisation des données pourra être également mise au service d’une troisième

fonction de communication et de pédagogie. Beaucoup de partenaires partis sur le terrain

réalisent des expositions et des animations dans des écoles et de multiples établissements

publics. Si la base de données est enrichie en données, l’interface pourrait à long terme

devenir un support de communication vers le grand public, ou encore un support d'aide à la

décision pour les missions futures.

Au-delà de ces trois fonctions, l’interface vise également à pallier au faible nombre de

réponses lors de l’expression de besoin en permettant à tous les partenaires impliqués de

constater l’utilité et la puissance que pourrait avoir l’IDS.

Nous allons voir dans ce chapitre ce qu’est un outil de webmapping, ses composants et la

manière utilisée ici pour le mettre en place.

5.2 Qu’est ce que le webmapping ?

Le terme « webmapping » est vaste car il regroupe des compétences et des techniques

diverses. Ce terme désigne « au sens large, tout ce qui relève de la cartographie en ligne sur

Internet. Sous ce terme générique, on englobe différents types d'applications cartographiques

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 52/66

allant du simple « visualiseur » à l'outil de cartographie thématique, voire au SIG en ligne.

Leur point commun est d'être accessible à travers un simple navigateur Internet. »12

.

Il existe 3 niveaux différents de webmapping, selon les fonctionnalités possibles (Pornon,

2008) :

Le webmapping simple où seule la consultation de données est possible, la visualisation

étant statique ;

Le webmapping « dynamique » signifie que la carte affichée en ligne est interactive. Il est

possible pour un utilisateur d’utiliser des fonctions simples comme le zoom, le choix

d’afficher des couches ou encore d’afficher des info-bulles. Ce niveau permet de dépasser

le téléchargement de cartes statiques et d'accéder à des données géographiques contenues

sur un serveur cartographique, comme par exemple une base de données ou des fichiers

SIG ;

Le webSIG qui permet des fonctions plus avancées comme la réalisation de requêtes

attributaires et spatiales avancées.

L'architecture d’un système de cartographie Web repose principalement sur quatre éléments

fondamentaux (Figure 23):

Les données sont la composante essentielle du système ;

Le logiciel de cartographie Web est un programme côté serveur qui peut produire une

carte dynamique (simple image) à partir des données en fonction de la demande du client ;

Les outils d’interaction de l’application Web: ils permettent à l'utilisateur de manipuler

et d'explorer la carte (zoom avant et arrière, panoramique) ainsi que de récupérer des

informations textuelles ;

Le Navigateur Web: il permet à l’utilisateur (client) d’ouvrir l'application Web et

d’explorer la carte.

Figure 23 : Architecture d'un outil de Webmapping

(D’après Territorial Intelligence)

12

D’après Social Change Online

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 53/66

5.3 Démarche et méthode/Choix logiciel

5.3.1 Road Map du projet d’interface webmapping Sangha

La décision de se lancer dans une telle interface n’ayant été prise qu’en juin 2012 (cf. §2.2.2),

il était clair que le développement complet serait achevé au-delà des limites de notre stage.

Nous avons donc proposé une road map planifiant les travaux à accomplir et détaillant plus

particulièrement les étapes à réaliser entre juin et août 2012 :

1. Etablissement du cahier des charges de l’outil (cf. §5.1)

2. Choix des outils qui permettront de mettre en place cette application.

3. Visualisation des données disponibles dans la base de données. Cette étape correspond à

un webmapping statique.

4. Mise en place des fonctions de zooms, de capture de cartes, de listes déroulantes à choix

multiples. L’outil webmapping devient alors progressivement dynamique.

5. Mise en place de fonctions supplémentaires : en particulier, le téléchargement des

données de la base de données sous différents formats possibles (kml, jpeg par exemple).

6. Capacité de réalisation de requêtes spatiales simples pour les utilisateurs.

7. Capacité de recherche des données par des requêtes spatiales et attributaires. Suite à

cette étape l’outil deviendra un véritable outil webSIG aux fonctionnalités avancées.

Notre travail, présenté ci-après concerne les étapes 2, 3 et 4.

5.3.2 Critères d’évaluation des solutions

Il existe une multitude de logiciels pour créer un outil webmapping. Mais lesquels choisir ?

Nous avons donc défini des critères de choix pour sélectionner les outils les plus appropriés

pour le projet, qui sont les mêmes que pour le choix du SGBD :

Solution peu couteuse s’appuyant sur des logiciels open sources

Interopérabilité avec le SGBD déjà retenu

Respect des normes de l’OGC (détaillé plus bas)

Communauté large d’utilisateurs (détaillé plus bas)

Connaissance des outils par la société Géo212

5.3.2.1 Respect des normes de l’OGC

Parmi ses recommandations, l’OGC s’applique pour les outils webmapping notamment à :

normaliser des formats de données libres afin de favoriser les échanges entre

plateformes. Parmi ceux-ci nous pouvons citer :

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 54/66

o le GML (Geographic Markup Language)

o le KML (Keyhole Markup Language).

normaliser les protocoles qui permettront à deux plateformes de communiquer entre

elles. Il existe plusieurs protocoles :

o Le Web Map Service (WMS) qui permet d’interconnecter des sites

cartographiques par l’échange de fichiers images sous différents formats ;

o Le Web Feature Service (WFS) qui permet d’interconnecter des sites

cartographiques par l’échange de fichiers vecteur grâce au format GML ;

o Le Web Feature Service Transactional (WFS-T, extension du WFS), qui

permet l’ajout, la suppression et la mise à jour d’entités géographiques ;

o Le Web Processing Service (WPS) qui permet de réaliser des traitements de

données à distance (union, intersection...).

Il est donc primordial de choisir un outil qui respecte les normes et les standards de l’OGC

afin de favoriser l’interopérabilité entre l’outil choisi et toute plateforme ou service

respectueux de ces normes.

5.3.2.2 Communauté large d’utilisateurs

Les solutions libres sont généralement suivies par une large communauté d’utilisateurs qui

permet aux outils d’évoluer. Afin de s’assurer que le logiciel est suivi à plus ou moins long

terme et est un projet qui perdure, il est donc préférable de se fier une nouvelle fois à l’OSGeo

(§ 4.3.1.4).

De nombreux projets Open-Source utilisés pour la création d’application de type

webmapping sont actuellement soutenus par l’OSGEO :

Tableau 5 : Liste des outils de webmapping soutenus par l'OSGeo

Certains outils sont actuellement en phase d’incubation auprès de l’OSGeo. Le but de cette

phase est de vérifier l’intégrité du projet candidat.

Passer l'incubation signifie que les éléments suivants sont réunis :

Une communauté ouverte autour du projet,

Un modèle de gouvernance du projet responsable,

Une vérification de la provenance du code,

Une vérification de la licence,

Une bonne gestion générale du projet.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 55/66

5.3.3 Etat de l’art L’état de l’Art complet traite habituellement de l’ensemble des logiciels libres existants, mais

dans un souci de clarté, nous nous sommes limités à l’étude de logiciels les plus utilisés

actuellement.

L’analyse a porté uniquement sur la question du client léger et du serveur cartographique

pouvant lui être associé, car bien entendu le choix du SGBD a déjà été réalisé.

5.3.3.1 Les clients légers

Dans ce paragraphe sont présentés les outils étudiés sous forme d’un tableau synthétique basé

sur les critères (Tableau 6). Il est illustré par des exemples de rendus cartographiques

construits à l’aide des différents outils présentés (Figure 24, Figure 25, Figure 26).

Nom du logiciel Type de

solution

License Communauté

OSGEO

Utilisé par

Geo212

description

Openlayers

(Figure 24)

Bibliothèque

JavaScript,

Moteur de rendu

cartographique

BSD

License

oui oui bibliothèque de fonctions

JavaScript qui permet la mise

en place

d'applications cartographiques

fluides. Il permet d'afficher des

fonds cartographiques

tuilés, ainsi que des données

provenant de sources

différentes (PostGis, shapefile,

GeoJSON, KML, GML).

GeoExt

(Figure 25)

Librairie

javascript

BSD

license

non oui librairie javascript permettant

de créer facilement des

interfaces cartographiques

riches (visualiser la légende, de

cocher/décocher les données

pour choisir de les afficher ou

non, de visualiser la liste des

données), est basée sur EXTJS

et Openlayers.

Mapfish

(Figure 26)

Framework de

développement

JavaScript

GPL3

License

Oui

oui un framework

cartographique

composé d’une partie client et

d’une partie serveur.

MAPFISH client est basé sur

les technologies suivantes : la

visionneuse cartographique

OpenLayers, et les

bibliothèques ExtJS et

GeoExt qui permettent de

développer des

éléments d’interface

utilisateur.

Tableau 6 : Comparaison des clients légers

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 56/66

Figure 24 : Exemple de rendu cartographique avec OpenLayers

(Source http://openlayers.org/)

Figure 25 : Exemple de rendu cartographique avec GeoExt

(Source http://nobmob.blogspot.fr/2010/11/geoext-04c-layer-tree-visibility.html)

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 57/66

Figure 26 : Interface de visualisation de Géobretagne créée avec Mapfish

(Source http://geobretagne.fr/mapfishapp/)

5.3.3.2 Les serveurs cartographiques

Dans ce paragraphe les outils étudiés sont présentés de la même manière que les clients légers

synthétisés au paragraphe précédent, c’est-à-dire sous forme d’un tableau synthétique

analysant les critères définis (Tableau 7).

Nom du logiciel Licence Communauté

OSGEO

Evolution Interopérabilité

PostGIS

Format Utilisé par

Geo212

Featureserver BSD

license

Non inscrit N’est plus

développé

oui WFS

WFS-T

KML

GML

Couramment

utilisé

Geoserver GNU

General

Public

License

Incubation

Evolution

rapide (le

plus utilisé)

oui WMS

WFS

WFS-T

WCS

KML

Connu, peu

utilisé

Mapserver MIT-style

license

inscrit Evolution

rapide (le

plus ancien)

oui WMS

WFS

WCS

KML

GML

Non utilisé

QGISmapserver GNU

license

Non inscrit Logiciel

jeune

oui WMS Non utilisé

Tableau 7 : Comparaison des serveurs cartographiques

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 58/66

5.3.4 Choix des logiciels

Nous avons choisi d’utiliser, après étude des critères à respecter :

- le serveur cartographique Geoserver car il propose de multiples fonctionnalités et est

relativement simple d’utilisation. Il peut lire de nombreux formats de fichiers

dont PostGIS. Grâce à Geoserver, il est également possible de se connecter à des globes

virtuels comme Google Earth, et aussi à des cartes à base de service web tels que

OpenLayers, Google Maps et Bing Maps ;

- Le client léger Mapfish qui est relativement bien conçu pour créer des interfaces web

riches et se combine facilement avec le serveur Geoserver, étant donné qu’ils sont tous les

2 inscrits à l’OSGeo.

Pour mettre en ligne l’outil nous devrons également utiliser un serveur http, un logiciel qui

respecte le protocole de communication client-serveur HTTP. Nous avons choisi d’utiliser le

serveur Apache, car il est actuellement utilisé par Géo212 et est un logiciel libre.

5.4 Développement de l’interface

L’utilisation de logiciels libres impose une certaine connaissance et compétence en

programmation qui implique d’utiliser quelques logiciels. Nous avons utilisé le logiciel de

déboguage Firebug, une extension du navigateur web Mozilla Firefox qui permet de

déboguer, éditer et modifier le HTML, le CSS et le JavaScript d'une page web. Nous nous

sommes également basés, pour la conception de l’interface de saisie, sur des sites existants

créés avec les outils que nous utilisons (http://sws.irsn.fr/sws/mesure/index et

http://dev4.mapgears.com/bdga-mapfish/). Nous avons en effet repris une partie de leurs

codes sources pour comprendre comment ils ont été construits. C’est un travail relativement

long et compliqué à mettre en œuvre pour toute personne ne disposant pas d’un minimum de

compétence en programmation.

Nous allons présenter l’architecture mise en place, les fonctions que peut réaliser à ce stade

l’interface mise en place et nous terminerons par les différents problèmes rencontrés.

5.4.1 Architecture mise en place

La Figure 27 récapitule l’architecture de l’outil de webmapping mise en place, c’est-à-dire les

différents logiciels qu’utilise cette interface.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 59/66

Figure 27 : Architecture de la solution webmapping mise en place

(D’après http://media.baliz-geospatial.com/fr/billet-de-blogue/opengeo-explique-son-

architecture-et-les-d%C3%A9ploiements-hybrides-possibles)

L’interface de saisie mise en place permet de choisir un fond de cartes, ainsi que les couches

de données à visualiser (Figure 28), et il est possible également d’avoir accès à d’autres pages

web (liens en cours de construction : Figure 29).

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 60/66

Figure 28 : Interface de saisie

Figure 29 : Lien vers d’autres pages web

5.4.2 Fonctions disponibles

L’outil créé présente une interface de type webmapping dynamique. Nous avons listé dans le

tableau suivant les différentes fonctions visées et celles qui sont d’ores et déjà opérationnelles

sur l’interface.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 61/66

Fonction souhaitée Fonction opérationnelle

Visualisation des données disponibles dans la base de données Oui

Zoom et dé Zoom Oui

Déplacement sur la carte Oui

Choix d’affichage de couches de données Oui

Création de cartes pour l’impression Non

Enregistrement de nouvelles données d’inventaires Oui

Modification de données d’inventaires Oui

Suppression de données d’inventaires Oui

Mise en place de listes déroulantes pour l’enregistrement de

données

Oui

Tableau 8 : Liste des fonctions de l'interface

5.4.3 Difficultés rencontrées

Lors de la mise en place de l’interface, dont la méthode de développement est détaillée en

annexe 8, nous avons été confrontés à différents problèmes que nous allons présenter :

Système de projection

Le problème que nous avons rencontré concerne le système de projection à mettre en place

dans l’interface. Dans la base de données, nous avons initialement défini un système de

projection. Or, le système de projection qu’utilise le fond de carte, est celui de Google

(EPSG = 900913). Nous avons défini une projection à la volée pour les données de la base de

données afin que nos données s’affichent sous le même système de projection que les fonds

de carte.

Affichage des données des inventaires en WFS

Nous avons appelé l’ensemble des couches géoréférencées par une fonction d’appel des

données en WMS, un format d’image raster. Nous avons donc du trouver une fonction qui

permet d’afficher les données en un format d’image vecteur ou fichier objet (WFS), afin de

pouvoir modifier les données des inventaires.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 62/66

Mise en place de l’interface sur le serveur http Apache

Pour avoir accès à l’ensemble des données de la base de données à partir de l’interface de

saisie, et pouvoir les modifier, il est nécessaire de placer l’interface de saisie sur le serveur

Apache. Au sein de la société géo212, ce type de travaux est réservé à l’équipe de support

informatique, seule habilitée à intervenir sur la configuration des logiciels sur les serveurs. Ce

travail sera réalisé par l’équipe de support dans la suite du projet.

Mise en place du formulaire de saisie

Un formulaire de saisie est assez simple à mettre en place. Pour certaines données, nous

souhaitons que le choix de remplissage soit déjà prédéfini par une liste déroulante. Pour cela

nous avons créé des tables supplémentaires dans la base de données (cf. Annexe 2). Nous

avons besoin de pouvoir afficher dans les listes déroulantes les données qui se trouvent dans

les tables de la base de données. Mais pour cela l’outil doit être interactif : il est en effet

nécessaire que les utilisateurs puissent ajouter de nouvelles valeurs qui s’enregistrent dans la

base de données, et qu’elles soient également visibles dans la liste déroulante. Une des

solutions consiste à appeler les valeurs de ces tables à l’aide d’une fonction php. Mais il ne

nous est pas possible pour le moment d’utiliser des fonctions php, car Geoserver n’est pas un

serveur mais un servlet, il n’est donc pas capable d’interpréter du php.

Nous avons à titre temporaire choisi d’utiliser un autre langage qui permet notamment de

structurer des données issues de tableaux, le JSON, mais cette méthode n’est pas interactive.

En effet, un utilisateur pourra enregistrer de nouvelles données dans la base de données, mais

dans les listes déroulantes de l’interface de saisie, les nouvelles valeurs saisies n’apparaitront

pas. Il faudra réaliser des mises à jour manuelles.

Ce problème devra être corrigé dans la version finale de l’interface avant déploiement.

5.5 Recommandations

Le prototype créé n’est pas totalement opérationnel mais, après avoir été testé en local, il est

prêt pour être installé sur un serveur http afin d’être testé en intranet. Ceci permettra

également de pouvoir travailler directement sur les données disponibles sur PostgreSQL.

Au-delà, la road map prévoit 3 autres étapes à réaliser (voir §5.3.1) mais il sera utile de

réaliser également quelques améliorations:

Créer une page de présentation du projet de mise en place de l’IDS.

Donner la possibilité de réaliser des vues sur certains groupes d’animaux et de pouvoir les

visualiser.

Donner la possibilité de zoomer sur certains points remarquables (par exemple les

campements, les points de rencontres, des arbres remarquables…).

Visualiser les photographies géolocalisées à l’aide de pop-ups.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 63/66

6 Conclusion

Les objectifs à atteindre par l’infrastructure de données spatiales que nous avons mise en

place, tels que définis au §3.3, ont été en partie atteints. En effet les objectifs primordiaux ont

été réalisés, les objectifs estimés moins importants seront atteints sur un plus long terme, car à

l’heure actuelle l’état d’avancement de l’IDS ne permet pas notamment de « comprendre le

fonctionnement de l’écosystème » de la zone d’étude.

Notre travail a été pénalisé par le fait que la phase d’expression de besoin qui nécessitait

beaucoup d’échanges entre partenaires, se déroulait au moment où les explorateurs rentraient

de 2 mois de terrain et avaient légitimement besoin de souffler. L’IDS a donc été conçue sur

la base des échanges avec une partie des scientifiques mais les choix de conception (très

ouverts et s’appuyant sur les choix des projets internationaux d’inventaire de biodiversité)

devraient permettre d’intégrer à l’avenir les besoins de nouveaux partenaires. Ces problèmes

de communication nous ont fait prendre conscience que pour le développement de l’IDS, un

travail régulier et quotidien de communication entre tous les acteurs est nécessaire pour

développer des échanges d’information et de données. Ce travail est une partie intégrante de

l’infrastructure.

L’IDS mise en place contient notamment une base de données fonctionnelle, contenant les

premières données disponibles, ainsi qu’une interface webmapping qui permet de visualiser

les données intégrées et de saisir de nouvelles données. Il reste à développer un outil de

catalogage, condition impérative d’un fonctionnement optimal de l’IDS.

Nous avons référencé un certain nombre d’IDS existantes, tant au niveau national

qu’international. Ce travail a notamment permis de découvrir le GBIF, le système mondial

d’information sur la biodiversité, qui semble être un acteur important dans ce domaine. Pour

développer notre IDS, il serait intéressant de prendre contact avec cet acteur, afin de recueillir

son expérience, découvrir d’autres institutions qui travailleraient à proximité de la République

Centrafricaine, et ainsi de développer dans de bonnes conditions notre IDS.

Notre travail s’est déroulé en parallèle avec les travaux de télédétection de Bénédicte Navaro.

Les outils mis en place vont permettre à l’équipe de Géo212 d’intégrer l’ensemble des

données capteurs (images, points et track GPS, mesures météorologiques). L’intégration de

ces données permettra de tester la base de données avec de gros volumes d’information et de

proposer aux partenaires et scientifiques un premier jeu de données utilisables pour leurs

analyses via l’interface de saisie mise en place. Cela permettra de voir les améliorations à

apporter à l’interface.

A titre personnel, le travail que nous avons réalisé au cours du stage nous a permis de

développer des connaissances et compétences dans les domaines des bases de données et de la

géomatique. Nous avons en effet découvert comment mettre en place une base de données, et

par l'hétérogénéité des données, nous avons été confrontés à un grand nombre de problèmes

que nous rencontrerons probablement dans notre futur professionnel. Ce projet nous a fait

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 64/66

prendre conscience des difficultés mais aussi de l'importance du rassemblement des acteurs

dans ce type de projet, ce qui nous a permis par la même occasion d'enrichir nos capacités à

travailler en équipe. Ce travail nous a surtout permis de concilier le domaine des SIG que

nous avons découvert il y a peu et l'écologie, domaine dans lequel nous souhaitions

initialement travailler.

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 65/66

7 Bibliographie

Afigeo. (2010). 5èmes rencontres des dynamiques régionales en information géographique.

Catalogue des infrastructures de données géographiques françaises.

Crépin, E. (2004). Qu’est ce que MERISE. Consulté le 24 août 2012:

http://www.ac-nancy-metz.fr/eco-gestion/eric_crepin/analys/chap01/accueil.htm

Fondation pour la recherche sur la biodiversité. (2008). Biodiversité ! (CNRS, Éd.) Consulté

le 20 août 2012, sur Saga Sciences : http://www.cnrs.fr/cw/dossiers/dosbiodiv/index.html

Gardarin, G. Bases de données : Introduction et Objectifs. Consulté le 24 août 2012 :

http://georges.gardarin.free.fr/

GéoTribu. WebMapping : Introduction et définition. Consulté le 13 juillet 2012 :

http://geotribu.net/node/149

Douglas, N. (2004). Developing Spatial Data Infrastructures: The SDI Cookbook v.2.0,

Global Spatial Data Infrastructure (GSDI). Consulté le 24 août 2012 :

http://www.gsdi.org/docs2004/Cookbook/cookbookV2.0.pdf

Pornon, H. (2008). Services Web géographiques : Etat de l’art et perspectives, Géomatique

Expert, 65, 44-50.

Robineau, C. (1967). Contribution à l'histoire du Congo : la domination européenne et

l'exemple de Souanké (1900-1960). Cahiers d'Etudes Africaines , 7 (26), 300-346.

Sayasenh, V. (2007). Merise classique. Consulté le 22 août 2012 :

http://www.compucycles.com/NouveauSite/articles/Merise/Article_07b_gif.htm

Social Change Online. What is Webmapping ? Consulté le 24 août 2012 :

http://webmap.socialchangeonline.com.au/webmapping/overview.html

Spanaki, M. & Lysandros, T. (2003) A holistic approach of map composition utilizing XML.

Consulté le 20 août 2012 :

http://www.svgopen.org/2003/papers/MapCompositionUtilizingXML/index.html#_3

Tardieu, H., Rochfeld, A., Colleti, R. (1987). La méthode MERISE. Tome 1 : Principes et

outils. Les Editions d’Organisation. 318pp.

Territorial Intelligence (2008). CaENTI Interactive Map. Consulté le 22 août 2012 :

Mise en place d’une infrastructure de données

spatiales

Rapport Batany Master 2 SIG et Gestion de l’Espace – août 2012 66/66

http://www.territorial-intelligence.eu/index.php/eng/What-is-new/Editorials/caENTI-

Interactive-Map-%E2%80%93-application-of-the-web-mapping-technology-in-socio-

economic-studies

The Ramsar Convention on Wetlands. (2009). Central African Republic. Consulté le 20 août

2012 : http://www.ramsar.org/cda/ramsar/display/main/main.jsp?zn=ramsar&cp=1-31-

218^16487_4000_1__

UNESCO. (2012). Trinational de la Sangha. Consulté le 20 août 2012, sur Liste du

patrimoine mondial: http://whc.unesco.org/fr/list/1380

Vallat, G. (1901). A la Conquête du continent noir, missions militaires et civiles de 1892 à

1900 inclusivement, d'après des documents officiels. Paris, France: A. Taffin-Lefort (Paris).