47
MASTER MENTION GEOMATIQUE DEVELOPPEMENT D’UNE METHODOLOGIE POUR LA CONSTRUCTION DE CARTES D’OCCUPATION DU SOL DE L’ILE DE LA REUNION Mónica María Londoño Villegas Stage effectué entre le 6 Mars et le 6 Septembre Soutenance le 11 septembre 2017 Maître de stage : Stéphane Dupuy (UMR-TETIS, CIRAD) Tuteur-enseignant: Jean-François Girres (Université Paul-Valéry)

DEVELOPPEMENT D’UNE METHODOLOGIE POUR LA …

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

MASTER MENTION GEOMATIQUE

DEVELOPPEMENT D’UNE METHODOLOGIE POUR LA

CONSTRUCTION DE CARTES D’OCCUPATION DU SOL DE

L’ILE DE LA REUNION

Mónica María Londoño Villegas

Stage effectué entre le 6 Mars et le 6 Septembre

Soutenance le 11 septembre 2017

Maître de stage :

Stéphane Dupuy (UMR-TETIS, CIRAD)

Tuteur-enseignant:

Jean-François Girres (Université Paul-Valéry)

2

REMERCIEMENTS

Tout d’abord je tiens à remercier Stéphane Dupuy, mon maître de stage et Raffaele Gaetano,

développeur de la chaîne de traitement, pour m’avoir fait confiance pour participer à cet

important projet, ainsi que pour leur attention, orientation et appui constants.

Je remercie également toutes les personnes qui font partie du CIRAD pour m’avoir permis de

travailler dans un environnement de travail agréable et collaboratif, notamment l’équipe

ARTISTS à La Réunion pour leurs conseils, leur aide et accompagnement.

Aux personnes du projet GABIR pour m’avoir accueillie et de la SAFER pour les informations

fournies.

Aux professeurs des trois instituts d’enseignement à Montpellier et aux membres du jury.

Merci à ma famille qui depuis La France et La Colombie m’ont toujours aidé sans conditions,

pour m’avoir encouragé et appuyé à chaque moment.

Finalement à mon copain et camarade du Master Bertrand Richard dont le soutien, l’amour et la

confiance m’ont été indispensables pendant ces deux années de Master.

3

TABLE DE MATIERES

INTRODUCTION ................................................................................................................................ 4

1. PRESENTATION DU PROJET ..................................................................................................... 5

1.1. Contexte institutionel : LE CIRAD, L’UMR-TETIS ET LE PROJET GABIR .............................. 5

1.2. Contexte de l’occupation du sol à l’île de La Réunion ...................................................... 6

1.3. Description de l’approche méthodologique : une classification supervisée orientée-objet ........ 9

1.4. Antécédents de la méthode dans le cadre de L’UMR-TETIS ........................................... 13

2. MATERIELS ET METHODE ....................................................................................................... 15

2.1. Les ressources informatiques ......................................................................................... 15

2.2. Les ressources en imagerie ............................................................................................. 17

2.3. Méthode .......................................................................................................................... 19

3. RESULTATS ET DISCUSSION.................................................................................................... 29

4. CONCLUSIONS ET PERSPECTIVES ........................................................................................... 34

BIBLIOGRAPHIE .............................................................................................................................. 37

LISTE D’ANNEXES ........................................................................................................................... 38

RESUME .......................................................................................................................................... 46

4

INTRODUCTION

Le CIRAD1 et plus particulièrement l’UMR-TETIS2 est partenaire de projets menés à l’échelle

mondiale reliés à la caractérisation et au suivi de zones agricoles en utilisant des ressources et

méthodes en télédétection. Cela avec l’objectif de générer des informations d’occupation du sol

précises pour améliorer la capacité de décision de la communauté mondiale face aux problématiques

de sécurité alimentaire et des effets du changement climatique sur les systèmes agricoles. Au travers

de ces projets, différentes méthodes ont été testées pour classifier des images satellites et générer

de façon automatique des cartes d’occupation du sol, en tirant profit des nouvelles ressources en

imagerie satellitaire, de plus en plus précises, accessibles et adaptées au suivi des zones agricoles. Les

méthodes affinées au travers de ces projets ont permis le développement de chaînes de traitement

pour la classification d’images satellites dans les pays du nord et les pays du sud.

La chaîne de traitement testée dans le cadre de ce stage, développée au sein de l’UMR-TETIS,

est conçue pour faire face aux problématiques de la caractérisation de l’occupation du sol dans les

« pays du sud », localisés notamment dans la zone tropicale, où la couverture nuageuse est très

importante et le paysage caractérisé par une forte hétérogénéité des cultures. Ainsi, cette chaîne de

traitement cherche à profiter du potentiel qu’offrent les séries temporelles d’images à haute

résolution spatiale (HRS) Sentinel-2, de libre accès, dont l’information radiométrique et les

résolutions spatiales et temporelles sont particulièrement adaptées pour les études qui portent sur

le type et la dynamique de la végétation, notamment pour la caractérisation et le suivi des systèmes

agricoles. La série temporelle d’images est complétée par des images Landsat-8 afin d’augmenter le

nombre d’images disponibles face aux problèmes de la couverture nuageuse. D’autre part, cette

chaîne de traitement adopte une approche orientée objet, en incluant des images à très haute

résolution spatiale (THRS) utilisées afin de générer des objets qui sont ensuite classés en utilisant

notamment l’information fournie par la série temporelle d’images HRS.

À l’échelle de La Réunion, le développement de méthodes automatiques pour la génération

de cartes d’occupation du sol s’avère indispensable pour combler les besoins d’information pour

l’aménagement du territoire de l’île. Le projet GABIR3, source de financement du stage, vise à

proposer des solutions pour améliorer la gestion de la biomasse à La Réunion. Une des tâches de ce

projet consiste à identifier les sources et puits de biomasse dans les zones agricoles. Ainsi la

possibilité de compter sur une méthode automatique pour la génération de cartes d’occupation du

sol pourrait apporter des bénéfices à long terme. L’information ainsi obtenue serait très utile en tant

que complément des sources d’information disponibles actuellement, dont le principal est constitué

par la BOS4, fournie par la DAAF5, dont la mise à jour dépend en grande partie des déclarations des

agriculteurs dans le cadre de la politique agricole commune.

Le but de mon stage est donc d’appliquer la chaîne de traitement Sitsproc, conçue au sein de

l’UMR-TETIS, dans le but de tester sa performance et de contribuer à son adaptation dans le contexte

de La Réunion afin de développer une méthode pour la production de cartes d’occupation du sol du

territoire de l’île.

1 Centre de coopération internationale en recherche agronomique pour le développement

2 Unité Mixte de Recherche « Territoires, environnement, télédétection et information spatiale »

3 Gestion Agricole des Biomasses à l’échelle de la Réunion

4 Base agricole de l’Occupation du sol

5 Direction de l’Alimentation, de l’Agriculture et de la Forêt de La Réunion

5

1. PRESENTATION DU PROJET

1.1. CONTEXTE INSTITUTIONEL : LE CIRAD, L’UMR-TETIS ET LE PROJET GABIR

Le CIRAD est un organisme français de recherche agronomique et de coopération

internationale pour le développement durable des régions tropicales. Il est sous la tutelle du

ministère de l’éducation nationale, de l’Enseignement supérieur et de la Recherche, et du

ministère des Affaires étrangères et du développement international. Avec ses partenaires du

sud, dans plus de 100 pays du monde, le CIRAD « produit et transmet des nouvelles

connaissances pour accompagner l’innovation et le développement agricole ». Son statut et son

expérience lui permettent aussi de nourrir les débats sur les principaux enjeux de l’agriculture au

niveau mondial6.

Le CIRAD est structuré en 33 unités de recherche dont l’UMR-TETIS (Territoires,

environnement, télédétection et information spatiale). Cette unité de recherche implémente

une approche intégrée pour le traitement de l’information spatiale au service de la gestion

durable des systèmes agro-environnementaux et du développement territorial7. Ainsi cette

unité est partenaire de différentes initiatives liées au développement de méthodes pour

exploiter l’information fournie par des images satellites pour ainsi améliorer le suivi et la

caractérisation des espaces agricoles du monde entier.

A la Réunion, les recherches menées par le CIRAD sont organisées au sein de 4 dispositifs de

programmation en partenariat, dont celui de « Services et impacts des activités agricoles en

milieu tropical »8, auquel est rattaché le projet GABIR. Ce dispositif porte sur 3 axes d’action, à

savoir : le recyclage des nutriments et maîtrise des flux de contaminants, la production et

valorisation de la biomasse à des fins alimentaires et non-alimentaires, et l'analyse et le

traitement de l'information spatiale pour l'aide à la production agricole et la gestion du

territoire.

Le but du projet GABIR est d’améliorer l’autonomie des exploitations, notamment du secteur

agricole, en proposant des solutions innovantes pour la gestion et la valorisation de la biomasse

à l’échelle de l’île de La Réunion, sous le principe d’une gestion circulaire et durable des effluents

d’élevage et d’autres produits résiduels organiques et des cultures. Ce projet est coordonné par

le CIRAD qui le mène en partenariat avec plusieurs acteurs impliqués, parmi lesquels se trouvent

la Chambre d’Agriculture de la Réunion, l’Institut Régional de la Recherche Agronomique (INRA),

la SAFER, la DAAF, la Fédération Régionale des Coopératives Agricoles de La Réunion (FRCA) et

l’Université de La Réunion9

6 Site internet CIRAD. http://www.cirad.fr/qui-sommes-nous/le-cirad-en-bref. Consulté en juillet 2017.

7 Site internet CIRAD. http://www.cirad.fr/nos-recherches/unites-de-recherche/tetis. Consulté en juillet 2017.

8 Site internet CIRAD La Réunion- Mayotte. https://reunion-mayotte.cirad.fr/recherche-en-partenariat/dispositifs-de-

recherche/services-et-impacts-des-activites-agricoles. Consulté en juillet 2017. 9 Source : CIRAD et al. 2016. Description synthétique du projet GABIR.

6

1.2. CONTEXTE DE L’OCCUPATION DU SOL A L’ILE DE LA REUNION

La Réunion est une île tropicale de 2510 km2 de surface qui est localisée dans le sud-ouest de

l’Océan Indien, 800 km à l’est de Madagascar, par 55° 30’ de longitude est et 21°05’ de latitude

sud. Cette île est un des départements d’outre-mer de la France, et son territoire est distribué en

24 communes dont la préfecture est à Saint-Denis.

Il s’agit d’une île volcanique très montagneuse, qui possède une variété de microclimats

inhabituels pour un territoire de cette taille (Raunet, 1991). Le relief, La grande diversité des

écosystèmes mais également la complexité des espaces agricoles, amplement distribués en

dehors du Parc National, font de la Réunion un territoire unique.

La population de l’île, estimée en 844 741 personnes10, se trouve localisé notamment vers le

littoral, distribuée sur plusieurs villes et villages. Il existe aussi des agglomérations urbaines dans

le haut plateau de l’île (à la Plaine des Cafres et la Plaine de Palmistes) et dans deux des trois

cirques situés dans la moitié ouest de ce territoire. Une portion de la population est aussi

dispersée dans les zones rurales.

Figure 1. Carte de localisation et territoire de l’Île de La Réunion

1.2.1. Relief et climat

L’un des traits caractéristiques de l’île de La Réunion est son relief qui a permis l’inscription

de ce territoire au Patrimoine Mondial de l’UNESCO. Les formes des Pitons, Cirques et Remparts

10

INSEE, recensement de la population 2013.

7

définissent un paysage unique au monde. Etant donné que l’île est en réalité le sommet d’un

volcan de 7000 m d’altitude placé sur le fond marin, l’un des plus actifs dans le monde, les

formations particulières sont le résultat d’une géomorphologie très dynamique influencée par

des éruptions qui peuvent se succéder à raison d’une ou plusieurs par an, et par une forte

érosion. Anciennement, l’activité volcanique se situait aux alentours du Piton des Neiges, qui

constitue le point le plus haut de l’île à 3 069 m d’altitude, et les trois cirques qui entourent ce

sommet correspondent à des anciens cratères effondrés. Actuellement les éruptions se

concentrent dans le complexe volcanique autour du Piton de la Fournaise, à l’est de l’île (Nehlig

& Bucelle 2005, Raunet 1991).

Par rapport au climat, La Réunion possède un régime assez instable, déterminé par son

caractère insulaire, sa localisation tropicale, son relief et la direction dominante du vent. Le

climat se caractérise ainsi par de très forts gradients de pluviosité (depuis 600 mm jusqu’à 9000

mm), des périodes cycloniques violentes et un fort gradient de température liée à l’altitude

(Raunet 1991). Les alizés, arrivant du sud-est, amènent les nuages chargés d’humidité qui

rencontrent dans leur passage les montagnes, déclenchant ainsi des pluies fréquentes vers cette

portion de l’île et une forte présence des nuages. Ce phénomène apporte également un climat

beaucoup plus sec ver l’ouest de l’île. On peut ainsi différencier une saison plus pluvieuse qui

s’étend de novembre jusqu’à avril et qui coïncide avec la période la plus chaude : l’été austral.

1.2.2. Les zones cultivées

La zone cultivée se trouve notamment dans une bande d’amplitude variable aux alentours

du littoral qui est interrompue dans la partie est de l’ile, zone couverte par des coulées de lave

récentes et qui est protégée par le Parc National de La Réunion. Les cultures s’étendent aussi

vers la plaine localisée entre les deux sommets de l’île et à l’intérieur de deux des cirques :

Salazie et Cilaos. Dans le cirque de Mafate, l’activité agricole est minimale en raison des

difficultés d’accès à cette zone.

La culture dominante de l’île est la canne à sucre, spécifiquement en-dessous de 800 m

d’altitude, et correspond à 24 000 ha soit 57% de la surface agricole utilisée11. Au-dessus de

cette limite les prairies prédominent et elles s’étendent jusqu’à 1700 m d’altitude

approximativement. Dans l’île il existe des prairies pâturées et des prairies « fauchées »

destinées à l’extraction et au stockage de foin pour l’alimentation du bétail.

D’autres cultures occupent une surface importante comme l’ananas, la banane, les vergers

et les cultures maraichères. Ces dernières correspondent habituellement à des parcelles

composées par une mosaïque de petites surfaces de différents types de légumes (carotte,

betterave, chou-fleur, brocoli, choux, tomate, haricot, lentille, poivron, oignon, etc). Les cultures

de maraichage sont souvent réalisées sous des serres en plastique.

La présence de quelques cultures est influencée par la région et les microclimats. Parmi les

vergers, le letchi prédomine dans le nord-est de l’île, autour de Saint-Benoît et Sainte-Rose, les

11

Site internet Chambre d’Agriculture Réunion. http://www.reunion.chambagri.fr/spip.php?rubrique56. Consulté en juillet 2017.

8

manguiers abondent dans le sud-ouest, spécialement aux alentours de Saint-Paul, et les agrumes

sont très concentrés dans le sud, surtout vers la commune de Petite Île. La distribution de

quelques cultures est restreinte à certains endroits comme les lentilles à Cilaos, les haricots à

l’Entre-Deux, le curcuma à la Pleine des Grègues (Saint-Joseph) et la pomme de terre dans la

zone haute du Tampon. Dans le cas de la cristophine, même si cette plante a tendance à envahir

les zones agricoles en friche et les bords de route, elle est seulement cultivée de manière

systématique dans le cirque de Salazie.

Les plantations forestières de cryptomeria, destinées à la production de bois, sont aussi

importantes dans la zone cultivée. Celles-ci se trouvent généralement localisées dans des zones

contigües à la forêt naturelle, et c’est la seule culture présente au-delà de 1700 m d’altitude.

1.2.3. Les zones naturelles

Bien que le but du projet GABIR ne soit pas l’identification des zones naturelles, leur prise en

compte dans la démarche est indispensable afin que l’algorithme de classification puisse les

différencier des zones agricoles.

Les friches, type d’occupation du sol très intéressante à la mission de la SAFER,

correspondent à des zones cultivables mais non cultivées ou abandonnées qui sont en

conséquence couvertes par de la végétation en transition. Ainsi, parmi les friches on peut

trouver des zones de savane herbacée, savane arbustive ou même des forêts dont le

comportement sur les images se confond avec la végétation naturelle des zones protégées. La

classification des zones couvertes par la végétation naturelle permettrait ainsi d’extraire les

friches à l’aide d’un croisement avec des informations reliées à l’aménagement du territoire

condensées par la SAFER dans une couche de « terres cultivables ».

Le paysage naturel de l’île constitue une mosaïque très hétérogène, non seulement à cause

de la variabilité climatique (humidité, température) et topographique, mais aussi comme

résultat des perturbations, d’origines naturelles (éruptions, glissements de terrain) et humaines.

L’arrivée de l’homme au milieu du XVIIème siècle, notamment avec la culture de canne à sucre

à partir du début du XIXème siècle, a produit de profondes transformations sur le paysage de l’île,

puisque la végétation d’origine a été détruite dans les zones propices au développement des

activités agricoles et à l’établissement des équipements humains. Ainsi, plusieurs espèces

introduites se sont répandues dans certaines zones de l’île, prenant la place des plantes

indigènes. Parmi ces espèces, la vigne marronne, qui tend à envahir la place des écosystèmes

naturels, fait actuellement l’objet de recherches et de mesures pour diminuer son impact sur la

végétation naturelle.

Les forêts naturelles sont notamment présentes dans la zone comprise dans le Parc National

de la Réunion, sur les endroits où l’altitude et la pente permettent le développement de cet

écosystème. Parmi ceux-ci, les plus représentatifs sont le reboisement d’Acacia decurrens et

d’Acacia heterophylla (Tamarins), et le bois de couleurs (Raunet 1991). Les forêts naturelles

9

longent aussi les ravines, mélangées à des cultures de vergers, et le littoral sur quelques

endroits, où dominent les Vacoas (Pandanus spp.) et les Filaos (Casuarina equisetofolia).

À partir d’une certaine altitude et dans quelques zones soumises récemment à des éruptions

la végétation est formée notamment par des savanes arbustives. Vers l’ouest de l’île, près du

littoral, les savanes arbustives et herbacées abondent parmi la végétation naturelle, et dans ce

cas elles sont dominées par des espèces introduites envahissantes adaptées aux climats secs (i.e.

Leucaena). Les savanes herbacées sont aussi présentes dans les zones naturelles plates

d’altitude où le niveau phréatique empêche le développement de la végétation vers des savanes

arbustives, ainsi que dans les murailles situées dans des zones sèches où le manque d’humidité

et la forte pente ne permettent pas le développement d’une végétation dense (i.e. Mafate).

Les sols minéraux sont aussi assez représentatifs de l’île, et ils correspondent aux coulées de

lave de différentes compositions et ancienneté, localisées dans l’enclos du Piton de la Fournaise,

au Piton des Neiges, à l’est de l’ile et vers le littoral. Les sols minéraux sont aussi présents sous

forme de roches massives, galets et sable dans le lit des rivières et ravines, et vers la plage, ainsi

que dans les zones découvertes par les glissements de terrain à cause de la forte pente.

1.3. DESCRIPTION DE L’APPROCHE METHODOLOGIQUE : UNE CLASSIFICATION SUPERVISEE

ORIENTEE-OBJET

La classification des images satellites part du principe que les éléments qui forment la

surface de la terre possèdent des propriétés particulières qui permettent de les différencier les

uns des autres sur les images. Parmi ces propriétés, la réflectance au niveau de pixel dans les

différentes bandes d’un capteur constitue l’unité fondamentale sur laquelle sont basées toutes

les approches de classification d’images optiques.

L’approche orienté pixel s’appuie seulement sur la valeur de chaque unité minimale de

l’image pour faire la classification. Ainsi, les pixels d’une image sont affectés à une classe en

fonction seulement de sa valeur de réflectance dans les différentes bandes ou néocanaux prises

comme variables de la classification. Néanmoins, les objets ne correspondent souvent pas à un

seul type de valeur radiométrique mais sont constitués de plusieurs couleurs (exemple d’une

parcelle de vigne constituée d’une alternance de pixels de sol nu et de végétation). Ces objets ne

sont donc pas seulement reconnaissables sur une image à partir de la réponse spectrale des

pixels individuels, mais aussi grâce à la sémantique contenue dans des objets formés par des

groupes de pixels et les relations entre eux (Baatz & Schäpe 2000). C’est la raison qui a motivé le

développement de l’approche orienté objet, qui commence par faire une partition de l’image en

entités, qui correspondent à des groupes de pixels ayant des propriétés relativement

homogènes, dans un processus appelé « segmentation ». L’approche orienté-objet s’avère

souvent plus efficace que l’approche orienté-pixel, surtout dans des paysages très hétérogènes

(Lebourgeois et al. 2017, Peña-Barragán et al. 2011).

10

La classification des objets issus de la segmentation peut être faite en prenant comme

référence des parcelles de vérité terrain, lesquelles servent à extraire les caractéristiques des

différentes classes visées sur les images ; dans ce cas on parle d’une classification supervisée.

1.3.1. Prétraitement des images

L’utilisation des images pour la classification implique la réalisation de prétraitements

conçus pour faire que les informations fournies par les images soient les plus précises possibles

et qu’elles représentent au mieux la réalité du paysage. Les prétraitements consistent, en

général, à faire des corrections radiométriques, des améliorations de la résolution spatiale et des

corrections géométriques.

Les corrections radiométriques comprennent un passage de la valeur des pixels à

réflectance, qui constitue la valeur physique qui reflète les propriétés optiques des cibles. L’idéal

serait d’éliminer les effets atmosphériques et calculer ainsi la réflectance TOC (Top of Canopy),

mais c’est un processus très compliqué car les données nécessaires sur les conditions

atmosphériques ne sont souvent pas disponibles dans les pays tropicaux. Nous avons donc

décidé de n’utiliser que des images du niveau TOA (Top of Atmosphere).

Le pansharpening, permet d’améliorer la résolution spatiale des images multispectrales par

rapport à une bande panchromatique (lorsque les capteurs en disposent). Cette bande

panchromatique possède une résolution spectrale plus basse parce qu’elle s’étend sur une

région vaste du spectre électromagnétique mais la taille du pixel est plus précise que dans le cas

des bandes multispectrales.

Les corrections géométriques consistent à faire une orthorectification de l’image pour

corriger les effets du relief, à l’aide d’un modèle numérique du terrain et des informations du

capteur. Lorsqu’il s’agit d’études qui portent sur des séries temporelles d’images, surtout quand

elles proviennent de capteurs différents, la mise en correspondance des informations contenues

sur les images par rapport à une image de référence (recalage) s’avère nécessaire.

1.3.2. La segmentation

Obtenir une segmentation satisfaisante de l’image en objets représentatifs est indispensable

pour aboutir ensuite à de bons résultats de classification. Néanmoins, ce n’est pas une tâche

simple et pour cette raison plusieurs méthodes ont été développées par différents experts.

Parmi celles-ci, la segmentation Multiresolution, proposée par Baatz & Schäpe (2000), crée les

objets en utilisant un algorithme de segmentation par croissance de régions, partant de l’unité

minimale (le pixel), dans un processus itératif qui cherche à minimiser l’hétérogénéité à

l’intérieur des segments générés, sur la base d’un critère radiométrique et d’un autre spatial. Le

critère radiométrique est basé sur la réponse spectrale des pixels tandis que l’hétérogénéité

spatiale est basée sur la forme des objets, spécifiquement la relation entre la surface et le

périmètre (Happ et al. 2010). La croissance des régions pour la formation de segments est ainsi

influencée par 3 paramètres définis par l’utilisateur :

11

L’échelle : ce paramètre est relié au degré d’hétérogénéité accepté pour fusionner des

segments. Il influence ainsi la taille de ceux-ci.

La forme : ce paramètre, qui varie entre 0 et 1, est relié à l’importance de la forme

contre la couleur. Une valeur de 0 donne toute l’importance à la couleur tandis que 0,5

confère la même importance au deux.

Compacité : variant entre 0 et 1, ce paramètre privilégie des formes plus compactes

lorsque sa valeur s’approche de 1, et des formes sinueuses dans le cas contraire.

L’utilisation des algorithmes de segmentation sur des images THRS implique des risques de

saturation de mémoire en raison de la taille de ces données. Afin d’éviter ce problème il existe

des algorithmes de segmentation qui permettent de faire une partition en tuiles de l’image,

lesquelles sont ensuite traitées indépendamment. Cette partition est faite en suivant le contour

des objets pour éviter la production d’artéfacts dans les bords des tuiles (Madhavi et al. 2017,

Happ et al. 2010).

1.3.3. L’extraction des variables pour la classification

Les variables de la classification sont calculées sur des caractéristiques des images, dont les

principales correspondent aux différentes bandes et indices radiométriques qui apportent des

informations utiles à différencier les objets en classes. Ces variables sont souvent calculées sur

des séries temporelles d’images afin d’inclure la variation temporelle des classes. Aussi, d’autres

caractéristiques telles que la texture (calculée sur des images THRS), l’altitude et la pente

(calculées à partir de modèles numériques de terrain –MNT-), peuvent fournir des informations

supplémentaires pour la classification (Lebourgeois et al. 2017, Peña-Barragán et al. 2011).

La variable la plus souvent utilisée est la moyenne des caractéristiques calculées sur les

objets issus de la segmentation, ainsi que sur les parcelles d’apprentissage utilisées pour la

modélisation, lorsqu’il s’agit d’une classification supervisée.

Les indices radiométriques sont obtenus à partir d’équations appliquées à la valeur des

pixels dans bandes différentes, dans le but de tirer profit des particularités du comportement

radiométrique de différents types d’objets. Par exemple le NDVI (indice normalisé de végétation)

utilise la haute réflectance de la végétation dans le proche infrarouge et sa basse réflectance

dans le rouge ; plus dense et vigoureuse est la végétation, plus cette tendance s’accentue.

La texture constitue une des caractéristiques importantes pour l’identification des objets sur

les images ; cette variable apporte des informations sur la distribution spatiale des pixels.

Haralick (1973) propose plusieurs indices pour mesurer la texture, calculés à partir d’une fenêtre

glissante dont on choisit la dimension et basés sur des matrices de dépendance de la variation

de gris dans des régions voisines de l’image. L’ensemble des variables fournit des informations

sur le contraste, l’homogénéité, l’existence des patrons dans les objets, ainsi que sur la

complexité et la nature des transitions de gris. D’autre part, les informations calculées sur les

MNT peuvent contribuer à l’identification des classes dont la localisation est restreinte à une

certaine altitude et/ou de pente.

12

1.3.4. Classification des objets issus de la segmentation

Les différentes variables extraites ainsi sur les différentes sources de données (série

d’images HRS, image THRS, MNT) permettent tout d’abord la génération d’un modèle de

classification. Dans le cas de la classification supervisée, ce modèle est construit à partir d’une

base de données d’apprentissage formée par des parcelles de types d’occupation du sol ciblés,

obtenues à partir de photo-interprétation ou de relevés de terrain, pour chacune desquelles les

variables sont calculées.

Pour calculer le modèle de classification il existe des options différentes d’algorithmes parmi

lesquels se trouve Random Forest. Ce type de modèle, développé par Breiman (2001), est une

méthode qui part de la création d’une « forêt » d’arbres de prédiction dont la combinaison

produit le résultat final de classification. Les arbres sont construits sur des sous-espaces de la

zone d’étude et à chaque nœud seulement quelques variables, sélectionnées de façon aléatoire,

sont disponibles pour faire une partition binaire. La classe de chaque objet est déterminée, après

l’application du modèle prédicteur des arbres, au travers d’un « Majority voting ». Dans la

structuration des arbres presque toutes les observations (données d’apprentissage) sont

utilisées au moins une fois, sauf une partie qui est destinée à l’estimation de la précision du

modèle. Les principaux paramètres du modèle sont le nombre maximal d’arbres dans la forêt et

la profondeur maximale de l’arbre (reliée au nombre de variables prises en compte). Random

Forest a l’avantage d’être facile à paramétrer et d’être performant dans le cas où un nombre

élevé de variables est utilisé. Enfin, implémenté sur le logiciel R, Random Forest permet

d’évaluer l’importance des variables et des différentes sources d’information dans la prédiction

des classes (Li et al. 2016, Rodriguez-Galiano et al. 2011, Cutler et al. 2007, Liaw & Wiener

2002).

1.3.5. Validation de la classification

La validation d’une classification supervisée est faite à l’aide d’une matrice de confusion qui

permet de confronter les résultats de la classification à un jeu de données de référence, qui doit

être différent des données utilisées pour faire la modélisation de la classification. Cette matrice

permet d’évaluer la précision de la classification (globale et par classe), et de détecter les

confusions entre classes. Les principaux indices calculés à partir de la matrice générée sont :

Pour la validation globale :

Précision globale (Overall accuracy index): c’est la proportion de données de validation

bien classées par la classification.

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑔𝑙𝑜𝑏𝑎𝑙𝑒 = 𝑛𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠) 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑚𝑒𝑛𝑡 𝑐𝑙𝑎𝑠𝑠é𝑠

𝑛𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠) 𝑑𝑒 𝑙𝑎 𝑏𝑎𝑠𝑒 𝑑𝑒 𝑑𝑜𝑛𝑛é𝑒𝑠 𝑑𝑒 𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛

Indice de Kappa (Kappa index) : le test de kappa mesure le niveau d’accord d’une

classification. Une valeur de 1 correspond à un niveau d’accord parfait, alors que 0

indique que le niveau d’accord obtenu n’est pas différent d’un accord aléatoire

(Rosenfield & Fitzpatrick-Lins 1986).

13

Pour la validation par classe :

Précision de l’utilisateur (Precision of classe) : c’est la proportion de données de

validation affectées à une classe qui correspondent vraiment à cette classe :

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑑𝑒 𝑙′𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟 =𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠) 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑚𝑒𝑛𝑡 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠) 𝑎𝑓𝑓𝑒𝑐𝑡é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

Précision du producteur (Recall of class): c’est la proportion de données d’une classe

dans le jeu de validation, qui a été bien classée :

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑑𝑢 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑒𝑢𝑟 =𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠)𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑚𝑒𝑛𝑡 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑖𝑥𝑒𝑙𝑠 (𝑜𝑢 𝑝𝑎𝑟𝑐𝑒𝑙𝑙𝑒𝑠) 𝑞𝑢𝑖 𝑎𝑝𝑝𝑎𝑟𝑡𝑖𝑒𝑛𝑛𝑒𝑛𝑡 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

F-Score : c’est la moyenne harmonique des précisions par classe

𝑓 − 𝑠𝑐𝑜𝑟𝑒 = 2 ∗(𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟) ∗ (𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑒𝑢𝑟)

(𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟 + 𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑒𝑢𝑟)

1.4. ANTECEDENTS DE LA METHODE

L’équipe TETIS du CIRAD est partenaire dans des projets menés à l’échelle mondiale afin de

développer des méthodes automatiques pour classifier des images satellites à des fins de suivi

des zones agricoles.

Un des projets dans lesquels le CIRAD est partenaire est le JECAM12 qui constitue la partie

recherche et développement de GEOCLAM13, initiative conçue pour renforcer la capacité de la

communauté internationale à faire des prédictions précises et efficaces sur la productivité des

systèmes agricoles dans le monde. Son objectif est d’améliorer les systèmes d’alerte précoces

pour mieux lutter contre l’insécurité alimentaire (Bontemps et al. 2015). Le but de JECAM est

d’unifier des approches pour réaliser le suivi des systèmes agricoles mondiaux et améliorer les

pratiques culturales. L’expérience est menée dans une série de 12 sites pilotes représentant

différents types de pratiques agricoles. Les données terrain récoltées sur ces sites sont mises à la

disposition des partenaires et sont utilisées pour tester des méthodes de classification14.

Plusieurs travaux ont été publiés à partir des résultats dérivés de cette expérience. Parmi

ceux-ci, Bontemps et al. (2015) ont consolidé une base de données de séries temporelles

d’images HRS et de données terrain, pour 12 sites pilotes, afin de contribuer à préparer le terrain

pour l’exploitation d’images qui seraient disponibles après le lancement du premier satellite de

Sentinel-2. Ensuite, Inglada et al. (2015) ont testé une méthode de classification orienté-pixel

12

Joint Experiment of Crop Assessment and Monitoring 13

Global Agricultural Monitoring 14

Site internet du projet JECAM. http://www.jecam.org/?/project-overview/france-OSR-2017. Consulté en Juillet 2017

14

avec Random Forest pour la production de cartes d’occupation du sol à partir d’images SPOT4 et

Landsat-8, dans les mêmes 12 sites pilotes, trouvant de bons résultats, sauf pour Madagascar et

le Burkina Faso. Ensuite, Lebourgeois et al. (2017) ont testé une méthode de classification

orienté-objet, en utilisant le même type de classificateur, pour la production de cartes

d’occupation du sol agricole à Madagascar, à partir d’une série temporelle formée par des

images HRS SPOT5 et Landsat-8 et d’une couverture d’images THRS Pléiades.

Les différentes expérimentations menées sur ces sites ont motivé le développement de deux

chaînes pour le traitement automatique d’images satellites dans le cadre du Centre d’expertise

scientifique « Occupation du Sol Opérationnelle » (CES OSO) du pole THEIA. La première est la

chaîne IOTA-2, développé par le CESBIO15, adaptée à la classification de l’occupation du sol

testée notamment sur l’ensemble de la Métropole avec une approche orienté-pixel. La chaîne

Sitsproc, qui est utilisée dans ce stage, est conçue pour le traitement orienté-objet des images

concernant la classification de l’occupation du sol dans les pays du sud. Ces chaînes de

traitement, qui intègrent plusieurs algorithmes pour l’application de diverses méthodes de

télédétection, sont différenciées notamment par le type d’approche de classification sur lequel

elles sont basées.

15

Site internet du Système d’Information Environnemental de CESBIO. http://osr-cesbio.ups-tlse.fr/~oso/

15

2. MATERIELS ET METHODE

La méthode est basée sur l’application de la chaîne de traitement Sitsproc mettant en œuvre

une classification orientée objet de type supervisée et utilisant une image à très haute résolution

spatiale (THRS) et une série temporelle d’images à haute résolution spatiale (HRS). La

construction de la base de données de vérité terrain ainsi que quelques autres manipulations

ont dû être faites en dehors de la chaîne de traitement. Dans ce cas, nous avons entre autres

utilisé QGis ainsi que la boite à outils Orfeo Toolbox (OTB).

Par rapport aux ressources utilisées, il est important de noter que tous les logiciels et

presque la totalité des images sont de libre accès. Les images SPOT6/7 ne le sont pas, mais le

CIRAD, parmi d’autres institutions, peut bénéficier d’un accès facilité à ces données dans le cadre

du projet GEOSUD.

2.1. LES RESSOURCES INFORMATIQUES

2.1.1. La chaîne de traitement SITSPROC

La structure de Sistsproc est développée en langage Python et elle fait appel à plusieurs

librairies de ce même langage de programmation. Dans cette chaîne sont intégrés des modules

de ressources destinées au traitement de l’information spatiale, notamment celles issues de la

télédétection, telles que GDAL, OTB et d’autres modules développés de manière indépendante.

La chaîne de traitement en développement au sein de l’UMR-TETIS, notamment par Raffaele

Gaetano, adopte une méthode basée sur l’expérience accumulée lors d’études réalisées par

cette unité de recherche dans le cadre de projets liés au suivi et à la caractérisation de

l’occupation du sol dans les « pays du sud ». Dans le cadre de ce stage, la chaîne de traitement

est appliquée sur l’île de la Réunion mais les mêmes traitements sont effectués sur d’autres sites

afin d’en évaluer la généricité. Des ajustements à faire sur la chaîne se sont avérés nécessaires

lors de son application et ceux-ci étaient communiqués à son développeur qui identifiait et

faisait les modifications pertinentes sur les algorithmes.

Du point de vue de l’utilisateur, la chaîne de traitement est structurée en 4 algorithmes qui

doivent être lancés indépendamment, à partir d’une fenêtre de commandes OSGeo4W

(disponible dans le dossier de QGis et configurée dans l’étape d’installation de la chaîne), ainsi

que par un fichier de configuration qui doit être renseigné. Les algorithmes sont les suivants :

getLandsat-8.py et getSentinel-2.py : génèrent des fichiers intermédiaires pour le

téléchargement des images Sentinel-2 et Landsat-8, en fonction des paramètres définis

par l’utilisateur.

genProcessScript.py : génère le fichier ProcessScript.bat qui doit être lancé pour faire le

prétraitement de la série temporelle d’images ainsi que la création des masques de

nuages.

16

launchChain.py : permet de lancer le cœur principal de la chaîne de traitement, lequel est

divisé en 6 étapes qui peuvent être exécutées de manière indépendante :

Étape 0 : prétraitement de l’image THRS (Conversion à TOA/raster virtuel/Pansharpening)

Étape 1 : Segmentation de l’image THRS

Étape 2 : Recalage de la série temporelle d’images HRS sur l’image THRS

Étape 3 : Extraction des caractéristiques de la série temporelle

Étape 4 : Statistiques zonales des caractéristiques (calcul des variables)

Étape 5 : Modélisation de la classification

Étape 6 : Classification

Toute la démarche nécessaire pour l’installation de la chaîne de traitement est décrite en

détail dans sa notice d’utilisation. D’abord il faut installer le logiciel QGis, disponible

gratuitement sur leur site internet, puis plusieurs dépendances : Wget, un build personnalisé

d’Orfeo Toolbox (OTB), un module de calcul de masques de nuages/ombres pyhton-fmask, un

module python appelé Rios et le programme Git pour l’installation et mise à jour de la chaîne.

La configuration de la chaîne de traitement se fait grâce au fichier d’extension .cfg qui se

trouve dans le dossier de la chaîne de traitement. Ce fichier permet de définir plusieurs

paramètres qui conviennent à l’utilisateur et qui sont répartis en plusieurs rubriques :

Configuration général, Configuration Sentinel-2, Configuration Landsat-8, Configuration de la

scène THRS, Recalage THRS - Série temporelle, Configuration de l’entraînement (modélisation de

la classification), configuration du résultat de la classification et caractéristiques additionnelles.

2.1.2. Orfeo ToolBox

OTB est un logiciel de libre accès initié par le CNES en 2006 et qui est constamment en

développement. Sa structure est constituée d’une librairie avec une série d’algorithmes

construits en langage C++ qui servent au traitement des ressources issues de la télédétection16.

L’utilisation des modules d’OTB peut se faire de plusieurs manières :

Par ligne de commande. Dans ce cas, nous utilisons la fenêtre de commandes OSGeo4W,

contenue dans le dossier de QGis.

Sur QGIS, accessible depuis la fenêtre de boîte à outils.

Sur l’interface graphique MAPLA, disponible dans le dossier d’OTB de la version

téléchargeable sur le site Internet.

OTB permet également aux développeurs la création de classes d’OTB afin d’étendre les

possibilités de traitements. Pour cette raison, on utilise dans ce travail une version personnalisée

16

Site internet OTB. https://www.orfeo-toolbox.org/. Consulté en Juillet 2017.

17

qui contient quelques classes qui n’ont pas été créées par les développeurs d’OTB, mais par

d’autres personnes qui suivent le protocole d’OTB.

2.1.3. QGis

L’installation de QGis nous fournit la fenêtre de commandes OSGeo4W sur laquelle sont

lancés les algorithmes de la chaîne de traitement, ainsi que les commandes d’OTB utilisées

indépendamment. La chaîne de traitement utilise certains modules de bibliothèques mis à

disposition par QGis (par exemple GDAL). L’interface de QGis, en tant que logiciel de SIG, nous a

permis de faire plusieurs démarches de la méthodologie ; par exemple, la création de la base de

données de vérité terrain et la création de mosaïques de l’image THRS.

2.2. LES RESSOURCES EN IMAGERIE

La chaîne de traitement utilise des images de trois satellites différents : (i) la série

temporelle d’images à haute résolution spatiale (HRS), formée par des images Sentinel-2 et

Landsat-8 ; ces dernières sont utiles en tant que complément des images Sentinel-2 pour

contourner les problèmes de la couverture nuageuse qui empêche l’exploitation de toute la série

Sentinel-2 disponible dans l’intervalle de temps défini, et (ii) une image à très haute résolution

spatiale (THRS) utilisée pour faire la segmentation et extraire quelques caractéristiques pour la

classification. Dans notre cas il s’agit d’une image SPOT6.

Sentinel-2 est une constellation de satellites de l’Agence Spatiale Européenne (ESA) qui fait

partie d’un programme de suivi de l’environnement (programme Copernicus). Ces deux satellites

sont placés à 180° l’un de l’autre. Le premier satellite, Sentinel-2A, a été lancé le 23 juin 2015 et

le deuxième, Sentinel-2B, le 7 mars 2017. Le premier satellite permet de revisiter le même

endroit tous les 10 jours, mais une image est disponible tous les 5 jours depuis que le deuxième

satellite a été lancé2.

Les bandes multispectrales de Sentinel-2 offrent beaucoup de potentiel dans les études de

l’environnement, en permettant le calcul de divers indices17. L’information captée par ce satellite

s’avère très utile pour la foresterie et l’agriculture. Ces images permettent également le suivi de

la croissance de la végétation, la cartographie du changement d’occupation du sol, le suivi des

forêts au niveau mondial, de la pollution des eaux et des catastrophes naturelles18.

Les images Sentinel-2 possèdent 12 bandes spectrales qui comprennent une plage du

spectre qui va du visible jusqu’au moyen infrarouge, avec des résolutions spatiales de 10, 20 et

60 m. Les trois bandes dans le « red-edge » fournissent des informations importantes sur l’état

de la végétation4.

17

http://www.sentinel-hub.com/data_sources. Consulté en Août 2017. 18

Site internet de l’ESA. http://www.esa.int/Our_Activities/Observing_the_Earth/Copernicus/Sentinel-2/Introducing_Sentinel-2

18

LANDSAT est un ancien programme développé par l’Agence Spatiale Américaine (NASA), qui

fonctionne depuis 1972. Le satellite le plus récent, Landsat-8, a été lancé en 2013. Les images

ont des applications en agriculture, cartographie, géologie, foresterie, aménagement de

territoires, suivi et éducation14. Landsat-8 comprend une bande panchromatique, avec une

résolution radiométrique limité mais d’une taille de pixel de 15 m, alors que la résolution

spatiale des bandes multispectrales est de 30 m.

SPOT est une famille de satellites de l’Agence Spatiale Française (CNES) dont le premier a été

lancé en 1985. SPOT6 et SPOT7, fabriqués et exploités par Airbus DS, ont été lancés

respectivement en septembre 2012 et juin 2014. Ils garantissent la disponibilité des données à

très haute résolution jusqu’à 2024 avec une couverture mondiale. Ces images ont des

applications en défense, agriculture, cartographie et suivi de l’environnement. Ces images sont

constituées par 4 bandes multispectrales (bleu, vert, rouge et proche infrarouge) de 6 m de

résolution spatiale et une bande panchromatique de 1,5 m19.

Les caractéristiques générales des images des trois satellites sont montrées sur le Tableau 1.

.

Tableau 1. Caractéristiques générales des images satellites utilisées. MS= Multispectrales, PAN= Panchromatique, RE = Red-edge, PIR = Proche Infrarouge, MIR= Moyenne Infrarouge

Caractéristique SENTINEL - 2 LANDSAT-8 SPOT6

Résolution spatiale

10 m (visible, PIR),

20 m (RE, MIR)

60 m (aerosoles,

vapeur d’eau, cirrus)

30 m (Bandes MS),

15 m (Bande PAN)

6 m (Bandes MS),

1,5 m (Bande PAN)

Fréquence de revisite

5 jours

10 jours

(avant le 7 mars 2017)

16 jours Sur programmation

Fauchée 290 km 185 km 60 km

Bandes

B1 (Aerosols)

B2 (Bleu)

B3 (Vert)

B4 (Rouge)

B5 (RE)

B6 (RE)

B7 (RE)

B8 (PIR)

B8A (RE)

B9 (Vapeur d’eau)

B10 (Cirrus)

B11 (MIR)

B12 (MIR)

B1 (Coastal/Aerosol)

B2 (Bleu)

B3 (Vert)

B4 (Rouge)

B5 (PIR)

B6 (MIR)

B7 (MIR)

B8 (PAN)

B9 (Cirrus)

B1 (Rouge)

B2 (Vert)

B3 (Blue)

B4 (PIR)

19

Site internet AIRBUS. http://www.intelligence-airbusds.com/fr/233-images-satellites-spot. Consulté en Août 2017.

19

2.3. METHODE

La Figure 2 présente les étapes impliquées dans la démarche méthodologique, ainsi que les

outils informatiques utilisés. Ces étapes sont ensuite décrites.

Figure 2. Schéma de la méthode suivi et les ressources utilisés pour la classification des images

2.3.1. Construction de la base de données terrain

La base de données terrain est formée par des polygones qui constituent des échantillons de

différents types d’occupation du sol présents dans l’île et qui ont été utilisés dans l’analyse. Pour

sélectionner les classes, quelques critères ont été pris en compte comme la possibilité

d’identifier le type d’occupation sur l’image, sa représentativité en termes de surface et une

taille des parcelles adaptée à la résolution des images disponibles.

La construction de la base de données de vérité terrain a été effectuée sur l’image SPOT6,

mais cela a impliqué l’utilisation de plusieurs sources d’information de référence :

Base de données d’occupation du sol 2014 : la BOS constitue la principale source

d’information d’occupation du sol dans l’île. Elle est élaborée par la Direction de

l’Alimentation, de l’Agriculture et de la Forêt de La Réunion (DAAF). Cette base de

données est formée par les parcelles de la Surface Agricole Utilisée. Sa mise à jour se

réalise annuellement sur la base des déclarations faites par les agriculteurs qui reçoivent

des aides financières pour leurs exploitations. Nous avons utilisé la BOS 2014 parce qu’au

premier semestre de 2017 c’était la dernière version disponible.

20

Expertise des collègues du CIRAD – La Réunion

Sorties terrain : en total nous avons réalisé 3 sorties terrain lors desquelles nous avons

pris des points GPS des cultures trouvées sur les parcours. Cela nous a permis d’identifier

l’apparence des certaines cultures sur l’image, ainsi que d’identifier les localisations où

sont restreintes ou concentrées quelques types d’occupation du sol.

Orthophotographies de l’IGN20 des années 2011 et 2013 : Ces images sont disponibles

dans le site AWARE du CIRAD et elles peuvent être chargées comme couche WMS sur

QGIS21. Nous avons utilisé cette source d’information en vérifiant que l’occupation du sol

n’avait pas changé par rapport à la date de la prise de l’image THRS.

Nous avons fait attention à ce que les parcelles comprennent seulement des pixels de la classe

visée et à éviter l’effet de bord laissant une bordure entre la limite du polygone et le contour de

la parcelle (Figure 3)

Figure 3. Exemple de parcelles de la base de données terrain

Les classes d’occupation du sol ont été organisées dans un système de nomenclature

emboitée inspirée du projet JECAM (Tableau 2). Pour chaque type d’occupation du sol et pour

tous les niveaux, un code provisionnel en format entier a été créé. Cette démarche est

indispensable puisque l’algorithme de classification ne gère pas les catégories ordinales.

20

Institute National de l’Information Géographique et Forestière 21

Pour plus d’information consulter le manuel utilisateur d’AWARE. CIRAD 2016. Disponible sur http://aware.cirad.fr/static/user_manual/Manuel_Utilisateur_AWARE.pdf

21

Tableau 2. Nomenclature utilisée pour faire la classification

Niveau 1 Niveau 2 Niveau 3 Niveau 4

Zone cultivée

Cultures annuelles et pluriannuelles

Cultures maraichères

Cristophine

Ananas

Curcuma

Pomme de terre

Autres cultures maraichères

Cultures sucrières Canne à sucre

Canne replantée

Cultures de rente Géranium

Cultures ligneuses Vergers

Mangue

Letchi

Agrumes

Cocotier

Banane

Plantations forestières Cryptomeria

Prairies Prairies Prairies

Zone non cultivée

Végétation naturelle

Forêt naturelle Forêt naturelle

Savane arbustive Savane arbustive

Vigne marronne

Savane herbacée savane herbacée

Sols minéraux Sols minéraux Sols minéraux

Surfaces construites Surfaces construites Surfaces construites

Cultures sous serre Cultures sous serre

Eau Eau Eau

Ombres Ombres Ombres

La base de données de vérité terrain a été divisée en deux couches : une couche

d’apprentissage et une couche de validation. Pour cela nous avons utilisé l’outil de QGis

« sélection aléatoire depuis des sous-ensemble ». Dans notre cas nous avons sélectionné 20%

des parcelles par classe pour la validation.

La base de données de vérité terrain est formée par 2650 polygones dont l’ensemble

représente 1% de la surface de la zone d’étude. La distribution du nombre de parcelles par classe

est montrée sur la Figure 4.

22

Figure 4. Distribution des parcelles de la base de donnés terrain

La construction d’une base de données avec un nombre si élevé de parcelles se justifie par la

forte variabilité qui existe dans la zone d’étude par rapport à la quantité de types d’occupation

du sol mais aussi en raison de l’hétérogénéité présente au sein de chaque classe.

2.3.2. Prétraitement de l’image THRS

Nous avons utilisé comme image THRS deux scènes de SPOT6 acquises le 8 avril 2016 pour

couvrir l’ensemble de l’île. L’une des images a été obtenue via la station de réception SEAS-OI

(déjà orthorectifiée) et l’autre via le projet GEOSUD (non orthorectifiée).

Le prétraitement a suivi la démarche suivante (Figure 5) :

Conversion à TOA des 4 images, à savoir les images panchromatique et multispectrale du

haut et du bas. Le passage des valeurs des pixels en réflectance TOA a été fait à l’aide de

l’outil OpticalCalibration d’OTB.

Orthorectification et recalage des images panchromatique et multispectrale du bas en

utilisant le modèle du capteur original, le MNT SRTM de l’USGS22, et un nouveau modèle

de capteur généré à partir de l’extraction de points homologues dans la zone de

chevauchement des images du haut et du bas. Pour cette partie, les outils

OrthoRectification, HomologousPointsExtraction et GenerateRPCSensorModel d’OTB ont

été utilisés.

Réalisation d’une mosaïque pour l’image multispectrale et une mosaïque pour l’image

panchromatique, sur QGis.

22

Source: © 2004. CGIAR - Consortium for Spatial Information (CGIAR-CSI). http://srtm.csi.cgiar.org/SELECTION/inputCoord.asp. Consulté en Mars 2017

23

Fusion des mosaïques des images panchromatique et multispectrale, au travers d’un

pansharpening, afin d’obtenir une image unique et complète de l’île avec la résolution

radiométrique de l’image multispectrale et la taille du pixel de l’image panchromatique.

Figure 5. Prétraitement de l’image THRS

Bien que l’étape 0 de la chaîne de traitement ait été conçue pour faire la conversion à TOA et

le pansherpening pour l’image THRS, ces deux étapes ont été faites autrement. Dans le cas de la

conversion à TOA, cela était nécessaire puisque nous utilisions deux images, alors que la chaîne

n’était prévue que pour une seule. Pour le pansharpening, nous avons trouvé que la méthode

Bayésienne, utilisée par la chaîne de traitement, ne convenait pas au cas de La Réunion puisque

elle produit des pixels de « no –data » dans la bande du proche infrarouge au niveau de chaque

bâtiment. Nous avons donc utilisé un autre algorithme disponible sur la boîte à outils d’OTB

(Bundle to Perfect Sensor).

2.3.3. Acquisition et prétraitement de la série temporelle d’images HRS

La série temporelle d’images Sentinel-2 et Landsat-8 a été téléchargée sur le site d’Amazon

web services au travers d’un algorithme annexe à la chaîne de traitement qui permet d’acquérir

les images en fonction d’une période de dates et d’un pourcentage maximal de nuages, parmi

d’autres paramètres définis par l’utilisateur. L’algorithme découpe chaque image en utilisant

une couche de type vecteur délimitant la zone d’étude.

Les prétraitements de la série temporelle Landsat-8 et Sentinel-2 sont également réalisés par

un des algorithmes annexes à la chaîne de traitement. Pour Landsat-8 les prétraitements

correspondent à la conversion en réflectance TOA, la concaténation de bandes (layer stack) et le

pansharpening (avec la méthode bayésienne), et pour les images Sentinel-2, le rééchantillonage

des bandes à 10 m de résolution et la concaténation des bandes ; les images Sentinel-2 étant

déjà en réflectance TOA au moment du téléchargement. L’algorithme de prétraitement créé

24

également un masque de nuages et d’ombres pour chaque image de la série temporelle à l’aide

du module Python f-mask23.

Les paramètres initiaux (50% maximum de couverture nuageuse, période comprise entre le 1

avril 2016 jusqu’au 31 mai 2017) nous ont permis le téléchargement de 29 images Sentinel-2 et

15 images Landsat-8 (Annexe 1). Pour les deux satellites, l’île de La Réunion est comprise sur une

seule scène. Sur ces images, nous avons fait une deuxième sélection puisque la distribution des

nuages était souvent concentrée sur la partie terrestre alors que le pourcentage de nuage est

calculé sur l’ensemble de la scène. Cette sélection nous a laissé 18 images Sentinel-2 et 12

images Landsat-8 (Figure 6).

Figure 6. Série temporelle d’images utilisées pour faire la classification

Dans l’étape de prétraitement des images nous avons remarqué que lors d’un premier essai,

les masques de nuages créés pour la série Sentinel-2 n’étaient pas assez précis, surtout au

niveau des zones urbaines qui étaient confondues avec les nuages. Nous avons donc utilisé les

masques de nuages générés par la chaine de traitement MUSCATE développée par le CESBIO,

disponibles via le site du pôle THEIA.

2.3.4. Segmentation

L’approche orienté-objet adoptée par la chaîne de traitement implique une segmentation de

l’image THRS. Ce processus est réalisé par l’étape 1 de l’algorithme principal de la chaîne de

traitement.

23

http://pythonfmask.org/en/latest/

0

1

2

3

4

No

mb

re d

'imag

es

LANDSAT

SENTINEL

25

L’algorithme de segmentation utilisé par la chaîne de traitement est celui de Baatz & Schäpe

(2000), pour lequel l’utilisateur doit définir 3 paramètres : échelle, forme et compacité. Sur la

version personnalisée d’OTB il existe deux outils qui permettent de faire la segmentation avec

cet algorithme : GenericRegionMerging et LSGRM (Large scale generic region merging). La

première, applicable à des images de petite taille, nous a permis de faire des essais de

segmentation sur des extraits d’image d’une taille de 1000 m x 1000 m approximativement, afin

de trouver la combinaison des paramètres qui s’adapte le mieux à notre image THRS. Le

deuxième outil, LSGRM, est celui adopté par la chaîne, qui applique le même algorithme

GenericRegionMerging mais en faisant une partition préliminaire de l’image en tuiles, en

fonction de la capacité de la mémoire RAM disponible sur l’ordinateur. Cette partition en tuiles

permet le traitement d’images de grande taille, comme c’est le cas de l’image THRS qui couvre

toute l’île.

Après plusieurs essais de segmentation, nous avons choisi la combinaison de paramètres

suivante : Echelle : 230, Forme : 0,5 et Compacité : 0,7.

Un aperçu de la segmentation est montré sur la Figure 7.

Figure 7. Aperçu de la segmentation produite avec les paramètres choisis. Source : Image SPOT6 du 8 avril 2016 (©2016 - AIRBUS DS - All rights reserved Diffusion SEAS-OI)

Après cette étape, la base de données d’apprentissage est intersectée avec la couche

résultant de la segmentation. Cela avec l’objectif d’avoir des parcelles d’apprentissage plus

homogènes du point de vue des critères de segmentation. C’est cette couche de données

d’apprentissage fractionnées qui va être utilisée par la chaîne de traitement dans les étapes

suivantes de sa méthode.

26

2.3.5. Recalage des images HRS sur l’image THRS

Le recalage de la série temporelle d’images Sentinel-2 et Landsat-8 est réalisé lors de l’étape

2 de la chaîne de traitement. Ce recalage prend comme référence l’image SPOT6. Ce processus,

similaire à celui décrit pour l’orthorectification d’une des scènes de l’image THRS, est basé sur la

création d’un nouveau modèle de capteur qui est généré à partir des points homologues extraits

sur les images de la série temporelle par rapport à l’image THRS.

2.3.6. Extraction des caractéristiques

L’extraction des caractéristiques, ainsi que le remplissage de trous sur les images, est fait par

l’étape 3 de l’algorithme principal de la chaîne de traitement.

Dans notre cas, la plupart des caractéristiques sur lesquelles les variables sont calculées

correspondent aux valeurs des indices radiométriques produits sur la série temporelle d’images

Landsat-8 et Sentinel-2, ainsi que plusieurs de ses bandes radiométriques. Les indices

radiométriques sont calculés pour chacune des images de la série temporelle, sauf le RNDVI (red-

edge NDVI) qui est adapté seulement aux images Sentinel-2. Nous avons également inclus les

bandes spectrales de l’image THRS.

D’autres variables ont été ajoutées : (i) plusieurs indices de texture basés sur l’image SPOT6

panchromatique et calculés avec l’algorithme de Haralick et al. (1973) implémenté sur OTB

(l’outil SelectiveHaralickTextures). Après plusieurs tests, nous avons choisi une fenêtre glissante

de 11 pixels et les indices « Energy », « Entropy » et « Contrast » parmi les 7 indices proposés ;

(ii) l’altitude et les pentes calculées à partir du MNT produit par IGN (MNT Litto3D® d’une

résolution spatiale de 5m).

Dans le fichier de configuration de la chaîne de traitement, l’utilisateur peut choisir les

bandes et les indices de la série temporelle qui l’intéressent ; pour l’instant la chaîne de

traitement permet de calculer de façon automatique 5 indices pour les images Landsat-8 et 6

indices dans les cas de Sentinel-2. Les autres caractéristiques peuvent être ajoutées en mettant

leur chemin de fichier sur ce fichier de configuration.

Les différentes caractéristiques sur lesquelles les variables ont été calculées sont montrées

sur le Tableau 3.

27

Tableau 3. Caractéristiques des images satellites utilisées pour calculer les variables de la classification.

Réflectance (bandes spectrales) de la série temporelle

Sentinel-2 (18 images) 2 (B), 3 (V), 4 (R), 5 (RE1), 6 (RE2), 7 (RE3), 8 (PIR), 8A (RE4), 11 (MIR1), 12 (MIR2)

Landsat-8 (12 images) 1 (Cirrus/coastal), 2 (B), 3 (V), 4 (R), 5 (PIR), 6 (MIR1), 7 (MIR2)

Indices Radiométriques de la série temporelle

Indice Equation

NDVI (Normalized Difference

Vegetation Index)

𝑃𝐼𝑅 − 𝑅

𝑃𝐼𝑅 + 𝑅

BRI (Brillance)

√𝐴2 + 𝑅𝐸12 + 𝑅𝐸22 + 𝑅𝐸32 + 𝑃𝐼𝑅2 + 𝑅𝐸42 + 𝑀𝐼𝑅12 + 𝑀𝐼𝑅22

(Sentinel-2)

√𝐵2 + 𝑉2 + 𝑅2 + 𝑃𝐼𝑅2 + 𝑀𝐼𝑅12 + 𝑀𝐼𝑅22

(Landsat-8)

MNDVI (Modified Normalized

Differences Vegetation Index)

𝑉 − 𝑀𝐼𝑅1

𝑉 + 𝑀𝐼𝑅1

NDWI (Normalized Difference Water

Indice)

𝑉 − 𝑃𝐼𝑅

𝑉 + 𝑃𝐼𝑅

MNDWI (Modified Normalized

Difference Water Indice)

𝑃𝐼𝑅 − 𝑀𝐼𝑅

𝑃𝐼𝑅 + 𝑀𝐼𝑅

RNDVI* (Red – edge NDVI)

(Pour Sentinel-2 seulement)

𝑃𝐼𝑅 − 𝑅𝐸2

𝑃𝐼𝑅 + 𝑅𝐸2

Texture (Haralick) Autres Caractéristiques auxiliaires

Indice Image Variable Ressource

Energy Image THRS (SPOT6)

d’avril 2016

Altitude MNT

Entropy Pente

Contrast Bandes spectrales de l’image SPOT6

Après l’extraction des variables, une étape consiste à remplir les trous de « no data »

présents dans les images de la série temporelle sur les régions couvertes par les nuages et les

ombres (Figure 8). Pour chacune des images, cette information est produite à l’aide d’une

interpolation faite avec les valeurs des images le plus proches temporellement, qui ont

l’information dans les régions manquantes déterminées par les masques de nuages générés dans

une des étapes précédentes. Le remplissage de trous est fait après le calcul des indices

radiométriques afin de compenser sur ces variables l’effet que pourrait avoir le décalage

radiométrique entre les différentes bandes, car ils sont moins sensibles à l’absence du passage

en TOC.

28

Figure 8. Exemple du remplissage des trous produits par les nuages sur la bande 2 de l’image Sentinel-2 du 17 avril 2016.

2.3.7. Statistiques zonales

Il s’agit de l’étape 4 de la chaîne de traitement.

Cette étape consiste à calculer les variables de la classification pour toutes les parcelles de la

base de données d’apprentissage ainsi que pour les objets issus de la segmentation. Chaque

variable correspond à la moyenne de la valeur des pixels pour chaque caractéristique. Pour

l’instant, la chaîne de traitement calcule seulement la moyenne, mais d’autres variables, comme

l’écart type, ont été utilisées dans d’autres études.

2.3.8. Classification

La classification est divisée en deux étapes : la modélisation et la prédiction, faites par les

étapes 5 et 6 de la chaîne de traitement. D’un côté, l’étape 5 réalise une modélisation de la

classification à partir des valeurs des variables des parcelles d’apprentissage. L’étape 6 classifie

les objets issus de la segmentation, en utilisant le modèle de prédiction.

La chaîne de traitement utilise pour la modélisation le module d’OTB TrainVecteurClassifier.

Le modèle de classification, ainsi que les paramètres du modèle, sont définis dans le fichier de

configuration de la chaîne de traitement. Le modèle utilisé pour faire la classification est Random

Forest avec comme paramètres une profondeur maximale de l’arbre de 10 et un nombre

maximal d’arbres dans la forêt de 400.

Pour faire la classification, la chaîne de traitement effectue une prédiction des classes sur les

objets issus de la segmentation en utilisant l’outil VectorClassifier d’OTB.

2.3.9. Validation de la classification

L’évaluation de la classification est basée sur un jeu de données de validation qui correspond

à 20% des parcelles de la base de données de vérité terrain, pour chaque classe. La construction

de la matrice de confusion a été réalisée avec l’outil ComputeConfusionMatrix d’OTB. Une

évaluation visuelle de la classification a également été réalisée afin de repérer les sources

d’erreur.

29

3. RESULTATS ET DISCUSSION

Les résultats de précision globale de la classification sont montrés pour les 4 niveaux de la

nomenclature dans le Tableau 4. On remarque une précision croissante du niveau 4 vers le

niveau 1 de la nomenclature, ce qui s’explique par l’élimination de la fraction de confusion

existant entre les classes qui sont regroupées, pour un niveau déterminé.

Tableau 4. Précision globale et indice de Kappa résultants de la classification dans le 4 niveau de la nomeclature

Indice de précision Niveau 1 Niveau 2 Niveau 3 Niveau 4

Indice de Kappa 0,9 0,88 0.87 0.86

Précision globale 95,0% 91,0% 89,0% 87,8%

Le Tableau 5 montre le f-score obtenu par classe pour tous les niveaux de la

nomenclature. Un aperçu des classifications est montré sur la Figure 9 et l’Annexe 3. Les

matrices de confusion avec les précisions Producteur et Utilisateur se trouvent sur l’Annexe 2.

Tableau 5. Précision des classes par niveau. En rouge : classes f-score supérieur à 70%

Niveau 1 Niveau 2 Niveau 3 Niveau 4

Classe f-score

(%) Classe

f-score (%)

Classe f-score

(%) Classe

f-score (%)

Zone cultivée

95,3

Cultures annuelles et pluriannuelles

92,9

Cultures maraichères

61,9

Cristophine 32,1

Ananas 68,1

Curcuma 6,4

Pomme de terre 71,5

Autres cultures maraichères

23,7

Cultures sucrières (2)

95,5 Canne à sucre 95,4

Canne replantée 59,8

Cultures de rente

56,0 Géranium 49,0

Cultures ligneuses 80,9 Vergers 76,4

Mangue 62,3

Letchi 78,2

Agrumes 0

Cocotier 23,3

Banane 47,7

Plantations forestières

86,9 Cryptomeria 87,0

Prairies 87,6 Prairies 88,9 Prairies 88,1

Zone non cultivée

94,6

Végétation naturelle 92,5

Forêt naturelle 91,2 Forêt naturelle 91,2

Savane arbustive 78,4 Savane arbustive 74,1

Vigne marronne 91,2

Savane herbacée 75,8 Savane herbacée 83,8

Sols minéraux 78,1 Sols minéraux 81,9 Sols minéraux 81,3

Surfaces construites 92,9

Surfaces construites

91,7 Surfaces

construites 91,9

Cultures sous serre

32,6 Cultures sous serre 32,5

Eau 98,2 Eau 98,2 Eau 98,2

Ombres 99,8 Ombres 99,0 Ombres 99,7

30

Figure 9. Résultat de la classification pour les 4 niveaux

31

La précision pour toutes les classes des niveaux 1 et 2 montre un f-score supérieur à 70%

(Tableau 5), alors que pour le niveau 3, seules les classes « cultures maraichères », « cultures de

rente » et « cultures sous serre » présentent un f-score inférieur à cette valeur (respectivement

69,2%, 56% et 32,6%). La Figure 9 montre que la proportion des vergers augmente par rapport

au niveau 4 au détriment de la canne à sucre, ce qui peut s’expliquer par l’inclusion dans la

classe « vergers » de la banane, culture très similaire à la canne sur l’image.

Les meilleures précisions (f – score) pour le niveau 4 ont été obtenues pour les classes

« canne à sucre » (95%), « forêt naturelle » (91%), « vigne marronne » (91%), « surfaces

construites » (91%) et « prairies » (88%). Ces classes correspondent aux classes majoritaires en

termes de surface sur la zone d’étude. Sur la Figure 9, on observe que les résultats de la

classification s’ajustent à la distribution générale d’occupation du sol sur l’île. En termes

généraux, les zones cultivées sont bien différenciées des zones naturelles et des surfaces

construites, et la zone dominée par la canne à sucre se distingue bien de celle où prédominent

les prairies. La Figure 10 illustre cela mais aussi la bonne détection des zones urbaines.

Figure 10. Différenciation de la zone de canne à sucre, des prairies et des zones urbaines dans la classification

Il existe néanmoins une tendance à la surestimation des classes majoritaires qui peut

être due à plusieurs raisons. D’un côté, les algorithmes tendent à classer comme telles d’autres

classes qui leur ressemblent en termes radiométriques, ce qui peut s’expliquer par la

configuration de la base de données, qui favorise en nombre et distribution de parcelles les

classes les plus représentatives. Pour la canne à sucre, une zone de confusion importante se

situe vers l’est de l’île, où des savanes arbustives ont été classées en canne (Figure 11). On peut

observer que dans ce cas, cela coïncide avec le décalage radiométrique localisé à l’endroit où les

deux scènes SPOT6 se rejoignent. Les bandes radiométriques ont donc dû participer de manière

importante dans la classification sur cet endroit. En effet, dans cette zone, la plupart des images

de la série temporelle sont couvertes par les nuages.

32

Figure 11. Confusion de savanes arbustives avec zones cultivées, notamment canne à sucre

Sur la Figure 11, il est possible d’apercevoir aussi une confusion des sols minéraux avec

les zones urbaines, phénomène qui est présent aussi sur quelques endroits situés au fond des

ravines. Les cultures sous serres ont aussi été confondues avec les zones urbaines, ce qui se voit

à la faible Précision Producteur de cette classe (18,6%) sur la matrice de confusion (Annexe 3A).

Par rapport aux prairies, la source principale de surestimation est générée notamment

par la ressemblance radiométrique avec les savanes herbacées et arbustives sur quelques zones

spécifiques (Figure 12) et avec certaines cultures maraichères, en particulier la cristophine et le

curcuma.

Figure 12. Confusion des savanes herbacées avec prairies dans les remparts du cirque de Mafate

33

Par rapport aux autres cultures, la pomme de terre ainsi que les vergers de letchi et les

plantations de cryptomeria ont eu des précisions supérieures à 70% (respectivement 74,5%,

77,4% et 87%). Même si les cultures d’ananas n’ont pas atteint cette précision (69,2%), des

parcelles ont été bien identifiées dans les zones où cette culture est la plus concentrée (Figure

13). La plupart des confusions par rapport à cette dernière culture correspond à des cas de

parcelles classées comme canne à sucre.

Figure 13. Zone de cultures d’ananas

Dans les figures précédentes, on remarque une surestimation des vergers de manguiers.

La plupart des confusions a lieu avec les autres vergers (agrumes, cocotiers) et avec les savanes

arbustives. D’une part, cela s’explique par la forte présence de cette culture à proximité de la

végétation qui longe les ravines, mais aussi dans les zones urbaines, aux alentours des maisons

dans les zones rurales et dans les bords des parcelles cultivées. D’autre part, les erreurs de

classification peuvent s’expliquer par la grande variation radiométrique de cette culture. C’est

également le cas avec la classe « autres cultures maraichères ».

Concernant les cultures de banane, la précision du producteur est de 91% alors que la

précision de l’utilisateur n’est que de 30%. Leur forte ressemblance radiométrique avec d’autres

classes majoritaires, notamment avec la canne à sucre, fait qu’elles sont souvent mal reconnues.

34

4. CONCLUSIONS ET PERSPECTIVES

Pendant ce stage, nous avons accompli l’objectif de tester la chaîne de traitement Sitsproc.

Cela nous a permis de générer une première classification mais aussi de faire évoluer certains

aspects de la méthodologie, liés aux spécificités de la Réunion. Les résultats de la classification

sont comparables à ceux obtenus sur d’autres sites sur des zones tropicales (Madagascar,

Burkina Faso et Brésil). Cela montre que la méthode et les outils informatiques mis en œuvre par

la chaîne de traitement, ainsi que les ressources en imagerie utilisées, pour la plupart gratuits,

ont beaucoup de potentiel pour la production automatique de cartes d’occupation du sol sur des

contextes variés. Le développement de cette méthode se positionne ainsi comme une

contribution importante dans le cadre des efforts menés par l’UMR-TETIS pour le suivi des zones

agricoles dans le monde.

L’application de la méthode nous a permis de réaliser une première classification basée

sur une nomenclature à 4 niveaux. Pour le niveau le plus détaillé, nous avons obtenu une

précision globale de 86% et un indice de Kappa de 87,8%. Ces indicateurs s’améliorent pour les

niveaux les moins détaillés de la nomenclature.

Les cultures dominantes dans la zone agricole (canne à sucre et prairies) ont présenté

des précisions supérieures à 85%, et parmi les autres cultures il y a trois classes (letchi, pomme

de terre et cryptomeria) dont le f-score est supérieur à 70%. Parmi les autres classes, même si

elles ont une précision inférieure, les résultats montrent que leur identification serait

améliorable en affinant la méthode. Les zones naturelles et les surfaces construites ont de bons

résultats de classification, ce qui montre que ces zones pourraient être isolées dès le départ afin

de construire un masque pour ne travailler que sur les agricoles.

La mise en place et l’adaptation de la chaîne de traitement ont pris beaucoup de temps.

Il a en effet été nécessaire d’effectuer des ajustements. Ceci était prévisible car il s’agissait de la

première expérimentation sur un nouveau site (la chaîne ayant été mise au point sur le site du

Burkina Faso). Il s’agit évidemment d’une contrainte car nous n’avons pas eu le temps de tester

d’autres stratégies utilisées en télédétection permettant d’affiner la méthode et ainsi les

résultats de classification. Il était toutefois très important, afin de valider la méthode, de la

tester dans un nouvel environnement de travail et sur un nouveau site.

Des post-traitements sont envisagés afin d’améliorer le résultat de la classification. D’un

côté des règles basées sur la localisation (par exemple pente, altitude couche de terres

cultivables, Parc Nationale de La Réunion) pourraient être appliquées pour la différenciation de

certaines classes. Il serait également possible d’appliquer des traitements de morphologie

mathématique pour améliorer le contour des objets et généraliser la classification afin d’éliminer

des petites zones mal classées au milieu de classes majoritaires et adapter la classification sur la

base d’une surface minimale cartographiable.

35

Comme expliqué dans l’introduction, la chaîne de traitement rassemble les briques

développées sur différents sites d’étude gérés par l’équipe TETIS. Elle est encore en cours de

développement et certaines fonctionnalités vont prochainement être incorporées. Voici

quelques évolutions en préparation évoquées dans l’article de Lebourgeois et al. 2017 :

L’utilisation de l’algorithme Random Forest disponible sur R permet d’évaluer

l’importance des différentes variables utilisées pour la classification. Ceci permet de faire

une optimisation de variables et contribue à éliminer le bruit, à améliorer la classification

et à diminuer le temps de traitement

La validation croisée consiste à partitionner la base de données terrain en données

d’apprentissage et données de validation. Random Forest permet de tester un grand

nombre de fois chacune des parcelles de la base en les utilisant selon les tests comme

des parcelles de validation et d’apprentissage. L’implémentation de cette fonction dans

la chaîne permettra d’exploiter au mieux la base de données.

Lors des traitements préliminaires réalisés sur le site de Madagascar (Lebourgeois et al.

2017), une approche hiérarchique de classification avait produit de meilleurs

résultats. Cette approche consiste à faire la classification dans le niveau le moins détaillé

de la nomenclature et à restreindre la classification des niveaux suivants aux domaines

isolés dans le niveau précédent. Puisque cela implique une partition de la zone d’étude,

cela s’avérerait utile pour réduire la variabilité et ainsi favoriser la production de

meilleurs résultats. Cependant, il faudrait obtenir de très bons résultats de classification

dans le niveau le moins détaillé pour ne pas transférer d’erreurs aux autres niveaux de la

classification. Les bons résultats obtenus pour les niveaux supérieurs de la nomenclature

dans notre cas montrent que cela serait applicable à la Réunion. Une approche basée sur

une classification hiérarchique pourrait être combinée avec une définition d’une

nomenclature qui regroupe les classes en fonction de leurs ressemblances sur l’image.

L’amélioration des sources d’informations offre également beaucoup de potentiel pour

améliorer les classifications. La possibilité d’obtenir des images corrigées au niveau de

réflectance Top of canopy diminuerait les décalages radiométriques existants entre les

différentes images de la série temporelle qui peuvent avoir un impact négatif sur l’étape de

remplissage des trous résultants du découpage des zones couvertes par les nuages.

L’amélioration de la détection des nuages sur les images Landsat-8 serait aussi à envisager.

Depuis quelques mois, la chaîne de prétraitement MAJA (issue de la chaine MUSCATE mise au

point par le CESBIO) est disponible. Elle permet d’effectuer des prétraitements performants sur

les images Landsat-8 mais surtout Sentinel-2 (passage en TOC et masques de nuages en tenant

compte de données historiques). Il est envisagé de l’intégrer prochainement dans la chaîne

Sitsproc afin de travailler sur des données plus fiables.

36

Les images du satellite Sentinel-2B commencent à être diffusées. L’accès à ces données

permettra de compter sur un plus grand nombre d’images (une image tous les 5 jours au lieu

d’une image tous les 10 jours). Dans les pays tropicaux, c’est un aspect important pour

augmenter la probabilité d’images sans nuages. Pendant le stage, nous avons testé la production

d’une classification n’utilisant que les variables issues de la série temporelle (images Sentinel-2

et Landsat-8) au niveau le plus détaillé. Le résultat montre un indice de Kappa inférieur de

seulement 0,2 par rapport à celui obtenu avec toutes les variables. Ceci montre la forte

participation de la série temporelle d’images HRS dans la prédiction des classes.

L’utilisation des images Pléiades en remplacement de SPOT6 comme images THRS,

permettrait, avec une meilleure résolution spatiale, d’améliorer les objets issus de la

segmentation et par conséquent les résultats de classification pour certaines classes (vergers,

maraichage…).

Enfin, la base de données de vérité terrain, élaborée pendant ce stage, pourra être

utilisée dans des études futures (sous réserve de mise à jour) pour actualiser la carte

d’occupation du sol.

37

BIBLIOGRAPHIE

Baatz, M.; Schäpe, A. 2000. Multiresolution Segmentation: An Optimization Approach for High

Quality Multi-scale Image Segmentation. Proceedings of the Angewandte Geographische

Information Sverarbeitung XII, Heidelberg, Allemagne, 5–7 July 2000: 12–23.

Bontemps, S.; Arias, M.; Cara, C.; Dedieu, G.; Guzzonato, E.; Hagolle, O.; Inglada, J.; Matton, N.;

Morin, D.; Popescu, R. et al. 2015. Building a Data Set over 12 Globally Distributed Sites to

Support the Development of Agriculture Monitoring Applications with Sentinel-2. Remote Sens. 7:

16062–16090.

Breiman, L. 2001. Random forests. Mach. Learn. 45: 5–32.

Cutler, D.R.; Edwards, T.C.; Beard, K.H.; Cutler, A.; Hess, K.T.; Gibson, J.; Lawler, J.J. 2007.

Random forests for classification in ecology. Ecology 88: 2783–2792.

Happ, P.N.; Ferreira, R.S.; Bentes, C.; Costa, G. A. O. P. & Feitosa, R. Q. 2010. Multiresolution

segmentation: a parallel approach for high resolution image segmentation in multicore

architectures. The International Archives of the Photogrammetry, Remote Sensing and Spatial

Information Sciences. Vol. XXXVIII-4/C7.

Haralick, R.M.; Shanmugam, K.; Dinstein, I. 1973 Textural features for image classification. IEEE

Trans. Syst. Man Cybern., SMC-3: 610–621.

Inglada, J.; Arias, M.; Tardy, B.; Hagolle, O.; Valero, S.; Morin, D.; Dedieu, G.; Sepulcre, G.;

Bontemps, S.;Defourny, P.; et al. 2015. Assessment of an operational system for crop type map

production using high temporal and spatial resolution satellite optical imagery. Remote Sens. 7:

12356–12379.

Lebourgeois, V. ; Dupuy, S. ; Vintrou, C. ; Ameline, M. ; Butler, S. ; Bégué, A. 2017 Combined

Random Forest and OBIA Classification Scheme for Mapping Smallholder Agriculture at Different

Nomenclature Levels Using Multisource Data (Simulated Sentinel-2 Time Series, VHRS and DEM).

Remote Sens. 9, 259.

Li, M.; Ma, L.; Blaschke, T.; Cheng, L.; Tiede, D. 2016. A systematic comparison of different

object-based classification techniques using high spatial resolution imagery in agricultural

environments. Int. J. Appl. Earth Obs. Geoinf: 49, 87–98

Liaw, A. & Wiener, M. Classification and regression by Random Forest. R News 2002, 2, 18–22.

Madhavi, S. & T.Swathi, 2016. Statistical Region Merging Algorithm for Segmenting Very High

Resolution Images. International Journal & Magazine of Engineering, Technology, Management

and Research. 3, 11: 126-132

Nehlig, P. & Bucelle, M. 2005. Connaissance géologique de La Réunion. Livret de l’enseignant.

Kit Pédagogique Sciences de la Terre. Région Réunion. 85 pp.

Peña-Barragán, J.M.; Ngugi, M.K. ; Plant, R.E. ; Six, J. 2011. Object-based crop identification

using multiple vegetation indices, textural features and crop phenology. Remote Sensing of

Environment. 115: 1301–1316

Raunet, M. 1991. Le milieu physique et les sols de l’île de La Réunion : conséquences pour la

mise en valeur agricole. CIRAD. Région Réunion. 438 p.

Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanch, J. P. 2011. An

assessment of the effectiveness of a random forest classifier for land-cover classification. Journal

of Photogrammetry and Remote Sensing 67: 93–104

Rosenfield, G.H.; Fitzpatrick-Lins, K. 1986. A coefficient of agreement as a measure of thematic

classification accuracy. Photogramm. Eng. Remote Sens. 52: 223–227.

38

LISTE D’ANNEXES

ANNEXE 1. Série temporelle d’images Sentinel-2 et Landsat-8 téléchargées initialement. ......... 39

ANNEXE 2 (A). Matrice de confusion de la classification pour le niveau 4. ................................... 40

ANNEXE 2 (B). Matrice de confusion de la classification pour le niveau 3 .................................... 41

ANNEXE 2 (C). Matrice de confusion de la classification pour le niveau 2. ................................... 42

ANNEXE 3 (A). Résultat de la classification pour le niveau 4. ........................................................ 43

ANNEXE 3 (B). Résultat de la classification pour le niveau 3. ........................................................ 44

ANNEXE 3 (C). Résultat de la classification pour le niveau 2. ........................................................ 45

ANNEXE 3 (D). Résultat de la classification pour le niveau 1. ........................................................ 46

39

ANNEXE 1. Série temporelle d’images Sentinel-2 et Landsat-8 téléchargées initialement. Cadre vert : Images Sentinel-2, Cadre bleu : Images Landsat-8. Texte en rouge : Images exclues de l’analyse.

40

ANNEXE 2 (A). Matrice de confusion de la classification pour le niveau 4. Les unités des valeurs de la matrice correspondent à des pixels de 1,5 m

2. Cadre vert : nombre de pixels correctement classés.

Classe Classes produites

Total Précision

Producteur (%) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Cla

sse

s d

e r

éfé

ren

ce

Cristophine 1 2308 0 0 0 0 0 0 0 0 0 0 0 0 0 7799 350 0 1611 0 0 0 0 0 0 12068 19,1

Ananas 2 0 29386 0 0 5207 18929 1898 0 1381 14 0 0 0 0 3 44 0 0 0 0 2 0 0 0 56864 51,7

Curcuma 3 0 0 255 0 4 897 0 0 230 0 0 0 0 0 5575 0 0 772 0 0 0 0 0 0 7733 3,3

Pomme de terre 4 0 0 0 5735 562 0 0 9 16 0 0 0 0 0 3267 0 714 0 0 0 0 0 0 0 10303 55,7

Autres cultures maraichères

5 0 0 0 0 6047 1121 0 0 1407 8 0 0 0 0 1142 600 7 0 0 0 0 0 0 0 10332 58,5

Canne à sucre 6 0 0 0 0 766 827142 0 0 1144 74 0 0 0 0 1629 149 0 0 0 0 0 0 0 0 830904 99,5

Canne replantée 7 0 0 0 0 10939 5 13120 0 45 0 0 0 0 0 2292 2418 40 0 0 0 0 0 0 0 28859 45,5

Géranium 8 0 0 0 0 286 0 0 3824 2 0 0 0 0 0 1566 1431 2731 0 0 0 0 0 0 0 9840 38,9

Mangue 9 0 53 0 0 0 6180 0 0 27154 432 0 0 0 0 2554 11 0 0 901 0 31 0 0 0 37316 72,8

Letchi 10 0 0 0 0 0 5377 0 0 573 18036 0 0 257 0 311 2848 0 0 0 0 0 0 0 0 27402 65,8

Agrumes 11 0 0 0 0 2394 76 0 0 6380 188 0 0 777 0 1780 3738 0 0 0 0 1 0 0 0 15334 0

Cocotier 12 0 0 0 0 0 959 0 0 5825 0 0 1661 16 0 1732 2385 0 0 0 0 11 0 0 0 12589 13,2

Banane 13 0 0 0 0 2 8331 0 0 2335 2 0 0 7788 0 2479 2359 0 0 0 0 0 0 0 0 23296 33,4

Cryptomeria 14 0 0 0 0 0 0 0 0 0 0 0 0 0 66002 0 19281 0 0 0 0 0 0 0 0 85283 77,4

Prairies 15 0 0 0 0 4504 15705 0 153 645 0 0 0 487 0 414604 16170 0 472 0 5927 20585 0 0 0 479252 86,5

Forêt naturelle 16 0 0 0 0 0 263 0 0 35 0 0 0 0 406 1498 454894 928 141 0 7146 0 0 0 0 465311 97,8

Savane arbustive 17 0 0 0 0 6589 17385 0 1774 2555 0 0 0 0 0 4535 20225 92936 0 832 0 417 312 0 0 147560 63

Vigne marronne 18 0 0 0 0 0 190 0 0 0 0 0 0 0 0 2175 4695 0 51885 0 0 0 0 0 0 58945 88

savane herbacée 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6332 0 4873 0 49093 5224 781 0 0 0 66303 74

Sols minéraux 20 0 0 0 0 3242 0 0 0 0 0 0 0 0 0 0 20 192 0 0 106984 2545 0 0 0 112983 94,7

Surfaces construites 21 0 0 0 0 71 115 0 0 85 0 0 0 0 0 414 0 0 0 0 23632 395226 0 0 0 419543 94,2

Cultures sous serre 22 0 0 0 0 0 0 0 0 1 0 0 0 0 0 78 32 0 0 0 0 20772 5097 0 0 25980 19,6

Eau 23 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 185 874 0 0 1283 3 0 63704 0 66057 96,4

Ombres 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 420 0 0 0 0 0 0 0 70651 71071 99,4

Total 2308 29439 255 5735 40613 902675 15018 5760 49821 18754 0 1661 9325 66408 461765 532255 103295 54881 50826 150196 440374 5409 63704 70651 3 081 128

Précision utilisateur (%) 100 99,8 100 100 14,9 91,6 87,4 66,4 54,5 96,2 0 100 83,5 99,4 89,8 85,5 90,0 94,5 96,6 71,2 89,7 94,2 100 100

Précision globale : 88%, Indice de Kappa : 0,86.

41

ANNEXE 2 (B). Matrice de confusion de la classification pour le niveau 3. Les unités des valeurs de la matrice correspondent à des pixels de 1,5 m

2. Cadre vert : nombre de pixels correctement classés.

Classes Classes produites

Total Précision producteur (%) 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Cla

sse

s d

e r

éfé

ren

ce

1 Cultures maraichères 64557 13856 0 3392 0 13012 60 2421 0 0 2 0 0 0 97300 66,3

2 Cultures sucrières 12866 841130 0 4322 0 1254 151 40 0 0 0 0 0 0 859763 97,8

3 Cultures de rente 419 0 3824 79 0 1410 1394 2714 0 0 0 0 0 0 9840 38,9

4 Vergers 5220 14775 0 85187 0 5278 4519 0 901 0 57 0 0 0 115937 73,5

5 Plantations forestières 0 0 0 0 66271 0 19012 0 0 0 0 0 0 0 85283 77,7

6 Prairies 10454 16100 0 1788 0 407987 15920 491 1291 5927 19294 0 0 0 479252 85,1

7 Forêt naturelle 581 198 0 4501 1050 660 444660 6515 0 7146 0 0 0 0 465311 95,6

8 Savane arbustive 13431 14782 0 7686 0 2077 22900 145615 0 0 0 14 0 0 206505 70,5

9 Savane herbacée 288 0 0 0 0 6332 0 5870 41830 5224 6759 0 0 0 66303 63,1

10 Sols minéraux 3242 0 0 8 0 0 12 192 0 106984 2545 0 0 0 112983 94,7

11 Surfaces construites 81 105 0 95 0 414 0 0 0 21632 397214 2 0 0 419543 94,7

12 Cultures sous serre 109 0 0 3 0 76 32 0 0 0 20698 5062 0 0 25980 19,5

13 Eau 0 0 0 8 0 0 191 874 0 1280 0 0 63704 0 66057 96,4

14 Ombres 0 0 0 0 0 0 1471 0 0 0 0 0 0 69600 71071 97,9

Total 111248 900946 3824 107069 67321 438500 510322 164732 44022 148193 446569 5078 63704 69600 3 081 128

Précision utilisateur (%) 58,0 93,4 100 79,6 98,4 93,0 87,1 88,4 95,0 72,2 88,9 99,7 100 100

Précision globale : 89%, Indice de Kappa : 0,87.

42

ANNEXE 2 (C). Matrice de confusion de la classification pour le niveau 2. Les unités des valeurs de la matrice correspondent à des pixels de 1,5 m

2. Cadre vert : nombre de pixels correctement classés.

Classes Classes produites

Total Précision producteur (%) 1 2 3 4 5 6 7 8

Cla

sse

s d

e r

éfé

ren

ce

1 Cultures annuelles et pluriannuelles 938614 3101 9900 15286 0 2 0 0 966903 97,1

2 Cultures ligneuses 32302 141697 1536 25642 0 43 0 0 201220 70,4

3 Prairies 46998 1000 385338 20747 5927 19242 0 0 479252 80,4

4 Végétation naturelle 33233 3053 3267 690114 7679 773 0 0 738119 93,5

5 Sols minéraux 3248 2 0 205 106710 2818 0 0 112983 94,4

6 Surfaces construites 330 39 225 32 38974 405923 0 0 445523 91,1

7 Eau 11 0 0 1192 1150 0 63704 0 66057 96,4

8 Ombres 0 0 0 230 0 0 0 70841 71071 99,7

Total 1054736 148892 400266 753448 160440 428801 63704 70841 3 081 128

Précision utilisateur (%) 89,0 95,2 96,3 91,6 66,5 94,7 100 100

Précision globale : 91,0%, Indice de Kappa : 0,88.

43

ANNEXE 3 (A). Résultat de la classification pour le niveau 4.

44

ANNEXE 3 (B). Résultat de la classification pour le niveau 3.

45

ANNEXE 3 (C). Résultat de la classification pour le niveau 2.

46

ANNEXE 3 (D). Résultat de la classification pour le niveau 1.

47

RESUME

L’UMR-TETIS du CIRAD est partenaire dans des projets reliés au développement de méthodes de

classification automatique d’images satellites pour le suivi des zones agricoles dans le monde. Dans ce cadre,

une chaîne de traitement pour la génération de cartes d’occupation du sol est en train d’être développée. Elle

est conçue pour utiliser une série temporelle d’images à haute résolution spatiale Sentinel-2 et Landsat-8,

combinée à une image à très haute résolution spatiale SPOT6/7 pour produire, avec une méthode orientée

objets et un algorithme de classification supervisé, des cartes d’occupation du sol agricole pour les pays du sud.

Au cours du stage cette chaîne de traitement a été appliquée au cas de l’île de La Réunion, dont le

paysage se caractérise par une grande diversité de zones naturelles et de cultures. Dans la zone agricole, les

cultures prédominantes sont la canne à sucre et les prairies, mais l’arboriculture et le maraichage occupent une

place importante.

À l’échelle de La Réunion, le développement d’une méthode de classification supervisée pour la

génération de cartes d’occupation du sol s’avère intéressante pour le projet GABIR, source de financement du

stage. Ce projet cherche des solutions innovantes pour le traitement des déchets de biomasse à l’échelle de

l’île. Les cartes d’occupation du sol ont aussi un intérêt pour d’autres institutions chargées de l’aménagement

du territoire.

L’application de la méthode nous a permis la réalisation d’une première classification basée sur une

nomenclature à 4 niveaux. Pour le niveau le plus détaillé, nous avons obtenu une précision globale de 86% et

un indice de Kappa de 87,8%. Ces indicateurs s’améliorent pour les niveaux les moins détaillés de la

nomenclature. Les classes ayant une meilleure précision correspondent en général aux types d’occupation qui

prédominent dans l’île, comme la canne à sucre, les pâturages et les forêts.

L’application de la méthodologie à un nouveau site d’étude et les résultats obtenus nous ont permis

d’en évaluer la robustesse et l’adaptation.

ABSTRACT

The CIRAD UMR-TETIS research unit is a partner in projects related to the development of automatic

classification methods of satellite imagery for the monitoring of agricultural areas in the world. In this context,

a processing chain for the generation of land use maps is being developed. It is designed to use a time series of

high spatial resolution Sentinel-2 and Landsat-8 images, combined with a very high spatial resolution SPOT6/7

image to produce, with an object-oriented method and a supervised classification algorithm, crop maps in

tropical countries.

During my internship, this processing chain was applied to the case of La Reunion Island, whose

landscape is characterized by a great diversity of natural areas and crops. In the agricultural zone, the

predominant crops are sugar cane and grassland, but fruit crops and vegetables represent an important area.

At La Reunion island scale, the development of a supervised classification method for the generation

of land use maps is interesting for the GABIR project, source of funding for the internship. This project seeks

innovative solutions for the treatment of biomass waste on the island scale. Land use maps are also of interest

to other institutions related to territorial planning.

The application of the method allowed to carry out a first classification based on a 4-level

nomenclature. For the most detailed level we obtained an overall accuracy of 86% and a Kappa index of 87.8%.

These indicators are higher for aggregated nomenclature. Classes with highest precisions generally correspond

to the predominant land uses on the island, such as sugarcane, pasture and forests.

The application of the methodology on La Reunion Island and the results obtained allowed us to

evaluate its robustness and adaptation.