46
Institut Supérieur d’ Informatique, de Modélisation et de leurs Applications Complexe Universitaire des Cézeaux BP125 63173 Aubière CEDEX Macaulay Land Use Research Institute Craigiebuckler Aberdeen AB15 8QH UK Projet de deuxième année Filière F4 Extension d’un logiciel permettant l’analyse de la biodiversité Responsable du projet : Alessandro G IMONA Responsable ISIMA : Vincent B ARRA Présenté par : Florian DUBUISSON Alexandre MARIÉ Mars 2007

Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

InstitutSupérieur d’Informatique, deModélisation et de leursApplicationsComplexe Universitaire des CézeauxBP12563173 Aubière CEDEX

Macaulay Land Use Research InstituteCraigiebucklerAberdeenAB15 8QHUK

Projet de deuxième annéeFilière F4

Extension d’un logiciel permettant l’analysede la biodiversité

Responsable du projet : Alessandro GIMONA

Responsable ISIMA : Vincent BARRA

Présenté par : Florian DUBUISSON

Alexandre MARIÉ

Mars 2007

Page 2: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

InstitutSupérieur d’Informatique, deModélisation et de leursApplicationsComplexe Universitaire des CézeauxBP12563173 Aubière CEDEX

Macaulay Land Use Research InstituteCraigiebucklerAberdeenAB15 8QHUK

Projet de deuxième annéeFilière F4

Extension d’un logiciel permettant l’analysede la biodiversité

Responsable du projet : Alessandro GIMONA

Responsable ISIMA : Vincent BARRA

Présenté par : Florian DUBUISSON

Alexandre MARIÉ

Mars 2007

Page 3: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Remerciements

Nous tenons tout particulièrement à remercier Monsieur Alessandro GIMONA pour l’attentionqu’il a porté à notre travail. Malgré des moyens de communication limités, sa disponibilité et sonimplication ont permis un bon déroulement de notre projet.

Nous tenons également à remercier Monsieur Vincent BARRA, notre tuteur ISIMA, pour sesconseils avisés et sa constante disponibilité.

Enfin, nous remercions Loïc YON pour l’aide précieuse qu’il nous a apporté dans la compré-hension et l’utilisation de l’environnement de travail Borland C++ ainsi que Katell GÉNIN, qui atravaillé sur ce logiciel lors de son stage d’avril à septembre dernier, pour nous avoir guidé dans lacompréhension de son travail.

Florian DUBUISSON & Alexandre MARIÉ

Page 4: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Résumé

Le Macaulay Land Use Research Institute est un institut de recherche international en écologieet environnement dont l’étude de la biodiversité, qui permet de développer des théories tentantd’expliquer la co-existance des espèces, est l’un des nombreux domaines d’activité.

Actuellement, le Macaulay Institute ne dispose que de peu de logiciels permettant une analyseautomatique et reproductible des données. Parmi eux, le logiciel Biodiversity Analyst récemmentcréé par des stagiaires de l’ISIMA permet de réaliser et d’étudier des modèles statistiques. Notreprojet a donc consisté à implémenter de nouvelles fonctionnalités afin d’améliorer l’étude de cesmodèles.

Tout d’abord, il nous a fallu nous familiariser avec le fonctionnement et le code source du lo-giciel existant ainsi qu’avec l’environnement de travail Borland C++. Ce travail a d’ailleurs mis enexergue quelques failles dans les fonctionnalités déjà existantes que nous nous sommes empressésde combler en spécifiant un format de fichier viable.

Ensuite, nous nous sommes interessés à l’étude du logiciel d’analyse statistique et graphiqueR et plus particulièrement aux fonctions incluses dans le package spdep permettant l’analyse dedonnées spatiales.

L’étape suivante a permis d’élaborer et d’implémenter les scripts R nécessaires à l’analyse et larégression spatiale des données sur la biodiversité.

L’étape finale, quant à elle, a consisté à créer une interface connectée avec le logiciel R afin d’ef-fectuer les différentes simulations proposées par spdep tout en réalisant une intégration graphiqueergonomique de ce travail dans le logiciel Biodiversity Analyst.

Mots clés: biodiversité, Biodiversity Analyst, format de fichier, R, spdep, régression spatiale desdonnées

Florian DUBUISSON & Alexandre MARIÉ

Page 5: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Abstract

The Macaulay Land Use Research Institute is an international centre for research and consul-tancy on environmental issues which study biodiversity. Its main objective is to learn how differentflying species coexist living in the British sky. To make this research easier, a software, called Biodi-versity Analyst, has been developed for a few years. Our project was to add new functionalities onthis software like implement spatial regressions.

First of all, we had to become familiar with this software and the Borland C++ compiler, thenwe had to understand the code which already existed.

We also worked with another software, R, which contains a package called spdep. R s a freewarewhich allows users to carry out statistics and graphics arithmetics on data. The functions to makeregressions and tests from spatial data we have to implement are in spdep package.

In learning how use R and spdep, we found that the Biodiversity Analyst software was notefficient enough. To improve it, we specified the data entrance formalist.Then, we were able towrite R scripts allowing R to work on spatial data.

Finally, we added these scripts to Biodiversity Analyst thanks to friendly graphical interfaces.These interfaces are obviously inspired by Biodiversity Analyst existing interfaces and as ergono-mic as possible.

Keywords: biodiversity, Biodiversity Analyst, data entrance formalist, R, spatial regressions, sp-dep

Florian DUBUISSON & Alexandre MARIÉ

Page 6: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Table des matières

Remerciements

Résumé / Abstract

Table des matières 4

Table des figures 6

Glossaire

Introduction 1

Le Macaulay Land Use Research Institute 2

I Introduction à l’étude 3

1 Sujet de l’étude 3

2 Analyse de l’existant 3

II Méthodes et matériel 5

1 Les formats de fichier utilisés 51.1 Le format de fichier ".long_xyz " . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le format de fichier ".txt" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Interface avec R 62.1 Présentation de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Utilisation du package rcom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Fiabilisation de la connectivité avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Utilisation du package spdep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5 Installation des packages nécessaires aux différentes fonctionnalités demandées . . . 8

3 Réalisation des fonctionnalités demandées 93.1 La régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Réalisation de l’interface pour Ordinary Regression . . . . . . . . . . . . . . . . . . . 103.3 Réalisation de l’interface pour Spatial Lag Model . . . . . . . . . . . . . . . . . . . . . 113.4 Réalisation de l’interface pour Spatial Error Model . . . . . . . . . . . . . . . . . . . . 11

III Présentation des résultats 13

1 Présentation globale de l’interface avec R 131.1 Fichiers d’entrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2 Présentation de l’interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Florian DUBUISSON & Alexandre MARIÉ

Page 7: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

1.3 Fichiers de sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Spécificité de chaque fonction 152.1 Interface pour la fonctionnalité Ordinary Regression . . . . . . . . . . . . . . . . . . . 162.2 Interface pour la fonctionnalité Spatial Lag Model . . . . . . . . . . . . . . . . . . . . 172.3 Interface pour la fonctionnalité Spatial Error Model . . . . . . . . . . . . . . . . . . . 18

3 Pertinence des résultats 19

4 Problèmes rencontrés 20

Conclusion 21

Références 22

Florian DUBUISSON & Alexandre MARIÉ

Page 8: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Table des figures

.1 Localisation des sièges du MLURI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2I.1 Menu principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4II.1 Exemple de fichier ".long_xyz " . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5II.2 Exemple de fichier ".txt" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6II.3 Environnement graphique du logiciel R . . . . . . . . . . . . . . . . . . . . . . . . . . 7III.1 Menu principal modifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13III.2 Interface d’installation des packages . . . . . . . . . . . . . . . . . . . . . . . . . . . 14III.3 Fenêtre de sélection du chemin du fichier d’entrée . . . . . . . . . . . . . . . . . . . . 15III.4 Interface pour la fonctionnalité Ordinary Regression . . . . . . . . . . . . . . . . . . 16III.5 Interface après utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17III.6 Erreur renvoyée par l’interface de la fonction Spatial Durbin Model . . . . . . . . . . 18III.7 Résultat graphique d’une régression linéaire . . . . . . . . . . . . . . . . . . . . . . . 20A.1 Ordinary Regression Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IA.2 Install Packages Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIA.3 Example of ".long_xyz " file . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIIA.4 Example of ".txt" file . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIIA.5 Simulation of an Ordinary Regression Interface . . . . . . . . . . . . . . . . . . . . . IVA.6 Simulation of a Moran’s I Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VA.7 Simulation of a Lagrange Multiplier Test . . . . . . . . . . . . . . . . . . . . . . . . . VIA.8 Spatial Lag Model Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIA.9 Simulation of a Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . IXA.10 Spatial Error Model Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XA.11 Simulation of an Spatial Error Model . . . . . . . . . . . . . . . . . . . . . . . . . . . XIIA.12 Simulation of a Spatial Durbin Model . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII

Florian DUBUISSON & Alexandre MARIÉ

Page 9: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Glossaire

Biodiversité : Néologisme désignant la diversité des organismes vivants au sein de la nature.

GNU : GNU est un acronyme récursif pour “GNU’s Not UNIX". Le projet GNU fut lancé par RichardStallman en 1984, alors qu’il travaillait au laboratoire d’intelligence artificielle du MIT, afinde créer un système d’exploitation libre et complet et, d’après ses mots, “ramener l’esprit decoopération qui prévalait dans la communauté informatique dans les jours anciens". Il vise àne pas laisser l’homme devenir l’esclave de la machine et de ceux qui auraient l’exclusivité desa programmation. Le projet GNU oeuvre pour une libre diffusion des connaissances.

GPL : General Public License. Il s’agit d’un modèle de licence pour logiciel libre proposé en 1991par la Free Software Foundation. Elle repose sur trois caractéristiques :

1. Tout le monde a accès au code source et a le droit de le modifier. Mais toutes les modi-fications doivent être re-publiées et faire mention des contributeurs et des modifications(sauf si l’usage est interne). C’est l’héritage obligatoire : tout travail basé sur un travailen GPL doit être en GPL ;

2. Par ailleurs, la licence GPL autorise la liberté de reproduction pour le licencié (copyleft) ;

3. Enfin la licence GPL contient une clause de non garantie. LGPL : c’est une forme mixte delicence qui autorise la combinaison d’éléments libres et non libres dans un même produit.

R : R est un système d’analyse statistique et graphique créé par Ross IHAKA et Robert GENTLEMAN.R est à la fois un logiciel et un langage qualifié de dialecte du langage S créé par AT&T BellLaboratories. R est distribué librement sous les termes de la GNU General Public License. Sondéveloppement et sa distribution sont assurés par plusieurs statisticiens rassemblés dans le RDevelopment Core Team.

SPDEP : SPDEP (pour Spatial dependence) est une librairie de fonctions, développée par l’équipede Roger Bivand, permettant l’analyse de données spatiale et l’estimation de modèles spatiauxgénéralisés.

Florian DUBUISSON & Alexandre MARIÉ

Page 10: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Introduction

Dans le cadre de notre deuxième année d’études à l’ISIMA, nous avons réalisé un projet de centheures réparties sur cinq mois, entre novembre 2006 et mars 2007, pour le compte du MacaulayLand Use Research Institute (MLURI), un institut de recherche en écologie et environnement situéà Aberdeen en Ecosse.

Un des thèmes de recherche du MLURI est l’analyse de la biodiversité des espèces. AlessandroGIMONA qui poursuit des recherches dans ce domaine, étudie le comportement des écosystèmesmulti espèces. Ses recherches s’appuient entre autres sur des analyses de terrain, recensant lesespèces végétales et les éléments présents dans les sols. Le logiciel nommé Biodiversity Analyst dé-veloppé par plusieurs générations de stagiaires issues de l’ISIMA constitue donc un outil de calcullui permettant d’effectuer diverses opérations statistiques sur ces données.

Cependant, toutes les fonctionnalités désirées ne sont pas encore présentes ; Alessandro GIMONA

propose d’y ajouter un ensemble de fonctionnalités permettant l’analyse de données spatiales et l’es-timation de modèles spatiaux généralisés.

Notre travail a donc consisté à intégrer ces fonctionnalités au logiciel existant par le biais d’uneinterface fiable avec le logiciel d’analyse statistique R et d’une intégration graphique ergonomique.De plus, nous nous sommes attelés à corriger les faiblesses révélées par l’utilisation du logiciel exis-tant.

Dans un premier temps, il est nécessaire de comprendre le fonctionnement du logiciel Biodi-versity Analyst afin d’en détecter les failles et d’intégrer les nouvelles fonctionnalités demandéesau mieux. Ensuite, il faut corriger les éventuelles erreurs détectées, puis concevoir les algorithmesnécessaires à la mise en place de ces fonctionnalités. Finalement nous analyserons les résultatsobtenus et nous proposerons des améliorations possibles.

Florian DUBUISSON & Alexandre MARIÉ 1

Page 11: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Présentation du Macaulay Land Use Research Institute

Le Macaulay Land Use Research Institute (MLURI) a été fondé en 1987 dans un contexteeuropéen et britannique de développement d’objectifs environnementaux. A l’époque, le butprincipal était de développer la recherche en matière d’agriculture industrielle tout en prenanten compte les interactions entre les différents utilisateurs des terres. Le siège social, localisé àAberdeen, a été ouvert en 1993. Trois sièges, Glasaugh, Hartwood et Sourhope, y sont rattachés.Ce sont trois fermes localises en Ecosse (Figure .1).

FIG. .1 – Localisation des sièges du MLURI

Actuellement, le Macaulay Institute étudie les impacts environnementaux, physiques et sociauxde l’utilisation des terres. Dans le but de permettre une meilleure compréhension de l’environne-ment et de son interaction avec les hommes, plusieurs axes de recherche sont développés :

– la qualité de vie, les problèmes de biens publics et de création de richesses ;– l’impact de l’utilisation des terres sur la qualité de notre environnement ;– l’évaluation des intéractions entre les objectifs environnementaux, économiques et sociaux

concernant l’utilisation des terres.

Des scientifiques spécialisés dans de différents domaines tels que celui du sol, des plantes, desanimaux, de la géographie, des sciences socio-économiques et de l’informatique unissent leursconnaissances dans ce but. Le Macaulay Institute compte ainsi environ 250 employés et 50 étu-diants, principalement localisés au siège social.

Le Macaulay Institute se divise en plusieurs départements :– Sciences écologiques ;– Sciences environnementales ;– Dimension humaine.

A ces trois principaux groupes de recherches s’ajoutent le service informatique et administratif.

Florian DUBUISSON & Alexandre MARIÉ 2

Page 12: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

I Introduction à l’étude

1 Sujet de l’étude

L’étude de la biodiversité repose essentiellement sur l’analyse du terrain et donc sur des relevésde données brutes comme l’emplacement précis de chaque représentant d’une espèce. L’ensemblede ces informations est en général stocké dans des fichiers de base de données, ce qui permet uneextraction aisée des éléments que l’on souhaite étudier.

En effet, à partir d’une telle base de données, il est possible de réaliser diverses opérations tellesque la jointure de deux tables, renommer des champs, et la création d’une table à partir d’uneautre en appliquant certaines contraintes. Par ailleurs, ces tables seront exportées dans un formatde fichier spécifique, plus facilement exploitable par le programme.

Les données stockées ainsi permettent la mise au point de modèles statistiques cohérentset exploitables. Une telle exploitation nécessitera donc un outil informatique assez puissant capabled’effectuer des calculs complexes sur des ensembles de données conséquents.

Pour le calcul statistique, on dispose déjà d’un outil intéressant, le logiciel R développé par lelaboratoire AT&T Bell Laboratories et distribué librement sous les termes de la GNU General PublicLicense. Mais celui-ci n’est pas d’un abord aisé puisqu’il s’apparente à un langage de programma-tion de haut niveau. Il s’avère donc peu commode à utiliser pour des non-informaticiens (syntaxeparticulière, lignes de commande, etc.).

Afin de faciliter l’utilisation des fonctions fournies par ce logiciel et d’offrir à l’utilisateur unenvironnement de travail plus intuitif, il s’avérait nécessaire de réaliser une interface avec lelogiciel Biodiversity Analyst. C’est le travail qu’a effectué Katell GÉNIN, étudiante à l’ISIMA, lorsde son stage d’avril à septembre 2006 mettant ainsi à la disposition des chercheurs du MacaulayInstitute un logiciel puissant et pratique pour réaliser leurs études.

Cependant, les fonctionnalités existantes se sont rapidement avérées insuffisantes et Ales-sandro GIMONA nous a proposé d’implémenter une nouvelle interface entre R et le logicielBiodiversité Analyst donnant à l’utilisateur un accès ergonomique et intuitif à un ensemble defonctions d’analyse des dépendances de données spatiales.

Le but de notre projet fut donc de :

– vérifier tout d’abord que la robustesse, l’intégrité et l’interopérabilité du logiciel existant.– développer une nouvelle interface ergonomique avec R.– ajouter les fonctionnalités permettant l’analyse de données spatiales.

2 Analyse de l’existant

Notre projet a consisté à ajouter de nouvelles fonctionnalités au logiciel Biodiversity Analystdéveloppé par Edith ENJOLRAS et Katell GÉNIN, étudiantes à l’ISIMA, lors de leurs stages repectifsau Macaulay Institute. Nous avions donc à notre disposition tout le travail réalisé précédemmentsur ce logiciel, ainsi que les documentations sur son utilisation. Parmi les principales fonctionnalitésexistantes, on remarque la visualisation de cartes à partir de fichiers au format ".long_xyz " (cf.description dans la partie suivante) sur lesquelles on peut effectuer certains calculs statisques, une

Florian DUBUISSON & Alexandre MARIÉ 3

Page 13: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

interface avec la base de données Database Management, ainsi que des interface avec R pour lessimulations Gam et INH.PP.

Le menu original de ce programme se présentait comme dans la figure I.1.

FIG. I.1 – Menu principal

Comme on peut le constater dans la figure I.1, l’interface avec R était déjà existante pour lessimulations Gam et INH.PP. Cependant, cette interface avec R ne prenait pas en charge l’analysede données spatiales. Il nous a donc fallu nous familiariser avec le logiciel R afin de réaliser unenouvelle interface donnant accès à la bibliothèque de fonctions "spdep" permettant l’analyse dedonnées spatiales. Pour cela, nous disposions de la documentation en ligne fournie sur le site deR [CRAN] ainsi qu’une documentation sur R en français [Paradis 2005]. Ensuite, nous nous sommesintéressés à l’étude du "package spdep" [Bivand 2006] permettant l’analyse de modèles spatiaux afind’être en mesure d’écrire les différents scripts R appellés par le logiciel Biodiversity Analyst lors dutraitement des données. Nous nous sommes inspirés pour cela d’un article publié par Luc ANSELIN

sur l’utilisation du "package spdep" [Anselin 2003].

Florian DUBUISSON & Alexandre MARIÉ 4

Page 14: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

II Méthodes et matérielL’ensemble du programme est écrit sous Borland C++ Builder 5. Son développement a toutefois

nécessité l’utilisation du logiciel R.

1 Les formats de fichier utilisés

1.1 Le format de fichier ".long_xyz "

Ce format est très couramment utilisé par le programme. Celui-ci comporte plusieurs colonnes,séparées par une virgule:

– une première colonne label, sans signification particulière ;– QDS : anciennement référence du nom de la cellule d’une zone qu’elle représente, désormais

sans signification particulière ;– X ;– Y ;– les colonnes suivantes : elles correspondent aux différentes espèces présentes (valeur 1) ou

absentes (valeur 0) aux coordonnées (x, y) précisées en début de ligne.

La figure II.1 est un exemple de fichier ".long_xyz ".

,QDS,X,Y,Sp1,Sp2,...,SpN1,QDS1,0.1,800.9,1,0,...,12,QDS2,1.7,20.2,0,0,...,0.....m,QDSm,500,10.9,0,1,...,1

FIG. II.1 – Exemple de fichier ".long_xyz "

1.2 Le format de fichier ".txt"

Ce format est également utilisé par le programme mais n’était pas encore bien défini. En effet,nous avons remarqué que les utilisateurs ne pouvaient pas utiliser la simulation Gam car le formatde fichiers ".txt" n’était pas respecté. Nous avons donc décidé, afin de fiabiliser le logiciel BiodiversityAnalyst de spécifier clairement le format de fichier ".txt".Désormais, ce dernier comporte plusieurs colonnes, séparées par une tabulation :

– une première colonne (row.names) sans signification particulière (à part peut-être numéroterles lignes) ;

– x ;– y ;

(ces deux dernières colonnes sont facultatives dans un des deux fichiers d’entrée du momentque les lignes de chaque fichier données en entrée correspondent entre elles) ;

– les colonnes suivantes dépendent du "type" de fichier :

Florian DUBUISSON & Alexandre MARIÉ 5

Page 15: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

– Si il s’agit d’un fichier d’espèces, celles-ci correpondent aux valeurs des espèces présentesaux coordonnées précisées en début de ligne (ou en début de la même ligne du fichier devariables) ;

– Si il s’agit d’un fichier de variables, les colonnes correspondent aux valeurs des variablespour les coordonnées précisées en début de ligne.

La figure II.2 est un exemple de fichier ".txt".

row.names x y var1 var2 ... varN1 1.191285 1.959461 1.315923 1.52523 ... 3.765812 2.427109 2.199274 14.84751 7.10015 ... 4.98776.....m 5.576756 9.497582 6.869145 3.55677 ... 5.24598

FIG. II.2 – Exemple de fichier ".txt"

Ce format de fichiers présente un interêt particulier car c’est sous cette forme que sont récoltées,par l’intermédiaire d’un autre logiciel utilisé au Macaulay Institute, les données sur lesquelles il seraintéressant d’appliquer des analyses spatiales.

2 Interface avec R

2.1 Présentation de R

R est un système d’analyse statistique et graphique créé par Ross IHAKA et Robert GENTLEMAN.R est à la fois un logiciel et un langage de haut niveau (écrit en C et certaines routines en Fortran)qualifié de dialecte du langage S créé par AT&T Bell Laboratories. R est distribué librement sous lestermes de la GNU General Public Licence. Son développement et sa distribution sont assurés parplusieurs statisticiens rassemblés dans le R Development Core Team.

De plus, R comporte de nombreuses fonctions pour les analyses statistiques et les graphiques ;ceux-ci sont visualisés immédiatement dans une fenêtre propre et peuvent être exportés sous diversformats (jpg, png, bmp, ps, pdf, emf, pictex, xfig ; les formats disponibles peuvent dépendre du sys-tème d’exploitation). Les résultats des analyses statistiques sont affichés à l’écran, certains résultatspartiels (coefficients de régression, résidus, . . .) peuvent être sauvés à part, exportés dans un fichierou utilisés dans des analyses ultérieures.

Enfin, le langage R permet, par exemple, de programmer des boucles qui vont analyser succes-sivement différents jeux de données. Il est aussi possible de combiner dans le même programmedifférentes fonctions statistiques pour réaliser des analyses plus complexes. Les utilisateurs de Rpeuvent bénéficier des nombreux programmes écrits pour S et disponibles sur internet, la plupartde ces programmes étant directement utilisables avec R.

Bien qu’assez flexible, R reste néanmoins un langage de programmation où il est nécessaired’effectuer les opérations en lignes de commandes comme on peut le constater figure II.3 et doncs’avère être d’une utilisation assez complexe pour les non-spécialistes.

Florian DUBUISSON & Alexandre MARIÉ 6

Page 16: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. II.3 – Environnement graphique du logiciel R

2.2 Utilisation du package rcom

Ce package, disponible en téléchargement sur le site de R [CRAN] a été réalisé par ThomasBAIER, un membre de l’équipe de développement de R (le R Development Core Team) et permet lacommunication entre R et un autre logiciel. Dans ce package se trouve le code C++ sous licenceGNU GPL permettant d’envoyer des instructions à R à partir de la console windows. Nous avonsdonc pu réutiliser et remanier le code C++ écrit afin de le faire correspondre à ce qui nous étaitdemandé. A partir de ce moment, il fut donc possible d’envoyer des instructions à R à partir dulogiciel Biodiversity Analyst. Il restait donc à définir et à écrire les scripts à faire exécuter par R pourobtenir les nouvelles fonctionnalités demandées.

2.3 Fiabilisation de la connectivité avec R

Au cours du développement de notre projet, Alessandro GIMONA nous a informé qu’il lui étaitimpossible d’utiliser la simulation Gam réalisée précédemment. Nous nous sommes donc penchéssur le problème et nous avons étudié le code de la simulation Gam. Celui-ci ne présentait aucuneerreur flagrante et aurait normalement dû fonctionner. De plus, son auteur nous avait assuré quecette simulation fonctionnait trés bien lors de son élaboration. Ce constat nous a donc orientésur un problème de connectivité entre le logiciel Biodiversity Analyst et R. En effet, il était fortpossible que l’utilisateur ait été amené à réinstaller le logiciel R sur sa machine impliquant doncune modification de la base de registre.

Afin d’éviter que ce genre de situation ne se reproduise à l’avenir, nous avons donc dé-cidé de proposer à l’utilisateur le tutorial suivant :

– Installez R sur votre ordinateur. Pour ce faire, téléchargez le depuis le site http://www.r-project.org/ en cliquant sur CRAN dans la colonne de gauche (choisissez la zone géo-graphique la plus proche).

Florian DUBUISSON & Alexandre MARIÉ 7

Page 17: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

– Installez le package rcom : démarrez R puis tapez install.packages("rcom"); dans le fenêtre dedialogue et enfin sélectionner le serveur. Le package sera alors installé.

– Enregistrez l’adresse de R afin de communiquer avec le logiciel Biodiversity Analyst :– Aprés avoir installé le package rcom, démarrez R et chargez ce package à l’aide de la com-

mande library(rcom).– Ensuite, enregistrez le serveur COM (un seul enregistrement est nécessaire) à l’aide de la

commande comRegisterRegistry().Cela va rajouter les informations concernant votre connexion à la base de registre. Aprésavoir effectué cette opération , il est recommandé de démarrer à nouveau R.

– Pour désinstaller correctement et retirer les informations concernant votre connexion de labase de registre, tapez comUnregisterRegistry().

2.4 Utilisation du package spdep

Notre projet avait pour but de rajouter certaines fonctions d’analyse de données spatiales, conte-nues dans le package Spdep écrit par Roger BIVAND [Bivand 2006], au logiciel Biodiversity Analyst.Une connection fiable entre notre logiciel Biodiversity Analyst et le logiciel R ayant été réalisé, il nenous restait plus qu’à écrire les scripts en langage R correspondants aux fonctionnalités demandées.

Pour ce faire nous avons étudié un article écrit par Roger BIVAND sur le package Sp-dep [Bivand 2006] ainsi qu’un tutorial [Anselin 2003] qui nous avait été fournit par AlessandroGIMONA. L’étude de ces documents nous a permis de comprendre l’interêt des fonctionnalité de-mandées ainsi que la stratégie à adopter pour les mettre en place.

2.5 Installation des packages nécessaires aux différentes fonctionnalités de-mandées

Quelle que soit la fonction que l’on souhaite utiliser, celle-ci nécessite l’installation de différentspackages permettant son exécution. Bien que ceux-ci puissent être installés directement depuis R, ils’avérait plus facile de pouvoir le faire directement à partir du logiciel Biodiversity Analyst. Commecela avait été fait avec les simulations Gam et INH.PP, nous avons ajouté cette possibilité pour lesfonctions de Spdep. Ainsi, quelque soit le fonction choisie, on peut installer facilement les packagesnécessaires. Pour que les fonctionnalités ajoutées se comportent correctement, six packages sontnécessaires :

– "rcom" ;– "SparseM" ;– "sp" ;– "maptools" ;– "tripack" ;– "spdep".

Le package "rcom"doit être installé en premier, car il permet la communication entre BiodiversityAnalyst et R. Il doit être installé directement depuis R. Le package "SparseM" fournit des fonc-tionnalités basiques de R pour l’algèbre linéaire avec les matrices creuses. L’utilisation du packageest illustré par une famille de modèles linéaires ajustant les fonctions qui implémentent des mé-thodes de moindres carrés pour les problèmes de représentation des matrices creuses. Le package"sp" quant à lui fournit les classes et les méthodes pour les données spatiales du type points, grilles,lignes, et polygones. Le package "maptools" contient un ensemble d’outils pour manipuler et lire des

Florian DUBUISSON & Alexandre MARIÉ 8

Page 18: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

données géographiques. Enfin, le package "tripack" permet de faire des triangulations de Delaunayen deux dimensions.

3 Réalisation des fonctionnalités demandées

Dans cette section, nous allons définir la méthodologie et les techniques que nous avons utilisésafin d’implémenter les nouvelles fonctionnalités demandées. Ce travail fait suite au travail réalisédans le but de permettre la communication entre le logiciel Biodiversity Analyst et R. Ainsi, nousne détaillerons que la partie pertinente des scripts R réalisant les fonctions d’analyse spatiale desdonnées.

Mais avant cela, il nous a semblé intéressant de décrire les méthodes mathématiques mises enjeu lors de la programmation d’une régression linéaire telle qu’elle a été conçue dans le logiciel R.

3.1 La régression linéaire

En statistiques, il arrive que deux grandeurs X et Y apparaissent liées par relation affine :

Y = a.X + b

La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier lavalidité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables

Y = a0 + a1.x1 + a2.x2 + ... + ap.xp

s’appelle la régression linéaire multiple.La régression linéaire est donc un cas particulier d’estimation très usité car très bien formalisé etcorrespondant à des modèles simples (car linéaires). C’est l’outil de base de la modélisation dedonnées.

Par exemple, si à partir de mesures de couples de valeurs (xi, yi), on a représenté dansun graphe, un ensemble de points Mi(xi, yi)|i = [1...n] représentant des mesures d’une grandeur yen fonction d’une autre x, par exemple la taille yi des enfants en fonction de leur âge xi.Les points Mi paraissent alignés. On peut alors tenter une régression linéaire, c’est-à-dire chercherla droite D dont l’équation est y = ax + b et qui passe au plus près des points Mi. Un des moyensles plus utilisés pour déterminer cette droite D est la méthode des moindres carrés. Cette méthodeconsiste à rendre minimale la somme :

n

∑i=1

(yi − a.xi − b)2

où (yi − a.xi − b)2 représente le carré de la distance verticale du point expérimental Mi à la droiteconsidérée comme la meilleure.Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficientdirecteur de la droite et son ordonnée à l’origine) qui minimisent la somme ci-dessus.

La méthode des moindres carrés, indépendamment élaborée par Gauss et Legendre, per-met donc d’effectuer des régressions linéaires qui seront à la base des fonctionnalités que nousallons maintenant vous présenter.

Florian DUBUISSON & Alexandre MARIÉ 9

Page 19: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

3.2 Réalisation de l’interface pour Ordinary Regression

Nous vous présentons tout d’abord dans le listing 1 un exemple complet de script R effectuantune régression linéaire (Ordinary Regression) sur un ensemble de données. La spécificité des don-nées qui seront founies en entrée de cette fonction sera détaillée dans la partie III de ce rapport. Ilest à noter qu’un tel script généré dans R par l’interface du logiciel Biodiversity Analyst sera fournien sortie dans un fichier texte.

Listing 1 – Script R de la fonction Ordinary Regression1 l i b r a r y ( " rcom " )2 setwd ( "C:/ Documents and S e t t i n g s / U t i l i s a t e u r /Bureau/ Donnee_init / i r r e g u l a r 2 " )3

4 sp<−read . t a b l e ( "C:/ Documents and S e t t i n g s / U t i l i s a t e u r /Bureau/ Donnee_init / s p e c i e s . t x t ", header=TRUE, sep=" " )

5 e l t <−read . t a b l e ( "C:/ Documents and S e t t i n g s / U t i l i s a t e u r /Bureau/ Donnee_init / i r r e g u l a r 2 .t x t " , header=TRUE, sep=" " )

6 s i ze<−dim( sp ) [2]7 s i z e e l t <−dim( e l t ) [2]8 data<−data . frame ( e l t , sp [ , 2 : s i z e ])9 ordered . sp<− data [ order ( data$y , data$x ) ,1 : ( s i z e+s i z e e l t −1)]

10

11 s ink ( " summary_lm . t x t " )12 mymodel . lm<−lm( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \ $var2 )13 p r i n t (summary(mymodel . lm) )14 jpeg ( f i l e=" lm_birds1 . jpeg " )15 p lo t (mymodel . lm , pages=1)16 dev . o f f ( )17

18 s ink (NULL)

Comme vous pouvez le constater, le script du listing 1 consiste tout d’abord à charger le package"rcom"(ligne 1), on précise le répertoire qui va contenir les résultats à la ligne 2, on lit les données(lignes 4 et 5), on récupère le nombre de colonnes que comporte chaque fichier (ligne 6 à 8), ontrie les données (ligne 9) et on effectue une régression linéaire (fonction lm) à la ligne 12. Lesautres lignes correspondent à l’impression des résultats sous différentes formes et à la gestion desentrées-sorties sous R.

Nous avons effectué sensiblement la même démarche pour implémenter les autres fonctionnali-tés d’analyse spatiale des données. C’est pourquoi nous ne vous présenterons que les points carac-tèristiques des autres scripts que nous avons implémenté sans s’encombrer de toutes les finesses dulangage R.

Listing 2 – Script R de la fonction Moran I1 l l i b r a r y ( " rcom " )2 l i b r a r y ( " spdep " )3 l i b r a r y ( " boot " )4 l i b r a r y ( " spdep " )5

6

7 mymodel . lm<−lm( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \ $var2 )8 sp2 <− ordered . sp [1 : dim( sp ) [1] ,2 :3]9 sp . nb <− t r i 2nb ( sp2 )

10 sp . l i s t w <− nb2l i s tw ( sp . nb)11 mymodel . moran <− lm . morantest (mymodel . lm , sp . l i s t w )12

Florian DUBUISSON & Alexandre MARIÉ 10

Page 20: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

La grosse différence qui intervient pour la régression linéaire contenant l’option Moran I dulisting 2 provient de la nécessité de travailler sur un objet de type ".listw" obtenu à l’aide de la fonc-tion nb2listw appliquée sur un objet de classe "nb" généré par la fonction lm utilisée précédemment.Ensuite, il suffit d’appliquer la fonction adéquate morantest.

Listing 3 – Script R de la fonction Lagrange1 mymodel . lm<−lm( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \ $var2 )2 sp2 <− ordered . sp [1 : dim( sp ) [1] ,2 :3]3 sp . nb <− t r i 2nb ( sp2 )4 sp . l i s t w <− nb2l i s tw ( sp . nb)5 mymodel . lagrange <− lm . LMtests (mymodel . lm , sp . l i s tw , t e s t=c ( " LMerr " , " RLMerr " , " LMlag " , "

SARMA" ) )

On travaille exactement de la même manière que précédemment pour la régression linéairecontenant l’option Lagrange du listing 3 à la seule différence que l’on appliquera à l’objet ainsigénéré la fonction LMtests.

3.3 Réalisation de l’interface pour Spatial Lag Model

De même, la simulation de modèles spatiaux tel que Spatial Lag Model nécessite une démarchesimilaire à la précédente.

Listing 4 – Script R de la fonction Spatial Lag Model1 sp2 <− ordered . sp [1 : dim( sp ) [1] ,2 :3]2 sp . nb <− t r i 2nb ( sp2 )3 sp . l i s t w <− nb2l i s tw ( sp . nb)4 mymodel . lag<−l agsar lm ( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \$var2 , data=sp , sp .

l i s t w )

Comme vous pouvez le constater dans le listing 4, on génére un objet de type ".listw", aprèsavoir au préalable trié les données et généré un objet de classe "nb", sur lequel on va appliquer lafonction de modélisation spatiale fournie par le package spdep lagsarlm.

3.4 Réalisation de l’interface pour Spatial Error Model

Ensuite, la modélisation spatiale Spatial Error Model ne sera pas particulièrement plus surpre-nante puisqu’elle va utiliser exactement le même démarche que pour la modélisation Spatial LagModel hormis le fait que l’on appliquera la fonction errorsarlm sur l’objet de type ".listw" ainsigénéré (cf listing 5).

Listing 5 – Script R de la fonction Spatial Error Model1 sp2 <− ordered . sp [1 : dim( sp ) [1] ,2 :3]2 sp . nb <− t r i 2nb ( sp2 )3 sp . l i s t w <− nb2l i s tw ( sp . nb)4

5 mymodel . err<−er ror sa r lm ( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \$var2 , data=sp , sp. l i s t w )

Pour finir, la modélisation Spatial Durbin Model se trouve être une option de la modélisationprécédente. Ainsi, après avoir appliqué une modélisation Spatial Error Model et une modélisation

Florian DUBUISSON & Alexandre MARIÉ 11

Page 21: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Spatial Lag Model sur un objet ".listw" généré par la méthode habituelle, on appliquera sur l’objetla fonction de modélisation Spatial Durbin Model LR.sarlm (cf listing 6).

Listing 6 – Script R de la fonction Durbin Lag Model1 sp2 <− ordered . sp [1 : dim( sp ) [1] ,2 :3]2 sp . nb <− t r i 2nb ( sp2 )3 sp . l i s t w <− nb2l i s tw ( sp . nb)4

5 mymodel . err<−er ror sa r lm ( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \$var2 , data=sp , sp. l i s t w )

6 mymodel . durbin<−l agsar lm ( ordered . sp$b i rds~ordered . sp$var1+ ordered . sp \$var2 , data=sp ,sp . l i s t w )

7 durbin . t e s t 1 <− LR . sarlm (mymodel . durbin , mymodel . e r r )

Florian DUBUISSON & Alexandre MARIÉ 12

Page 22: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

III Présentation des résultatsSur la figure III.1, on peut observer le menu tel qu’il se présente désormais.

FIG. III.1 – Menu principal modifié

1 Présentation globale de l’interface avec R

Il y a donc au total trois nouvelles interfaces qui ont été ajoutées à ce logiciel lors de ce projet.Ces trois interfaces présentent un certain nombre de similitudes. Nous allons, dans cette partie,présenter l’ensemble de ces points communs, notamment les fichiers d’entrée, puis les interfaces enelle-mêmes et enfin les résultats que renvoient ces interfaces.

1.1 Fichiers d’entrée

Toutes les interfaces, et donc toutes les fonctions utilisées dans ces interfaces, nécessitent lemême nombre de fichiers d’entrée : deux. Le premier fichier correspond aux caractéristiques desespèces, tandis que le second renferme les caractéristiques "géographiques" des points ainsi que lesvaleurs pour les variables explicatives.Il existe deux extensions possibles pour ces fichiers d’entrée (aussi bien pour les espèces que pourles variables explicatives) : ".txt" et ".long_xyz" (cf figures II.2 et II.1).

Comme présenté précedemment, ces extensions présentent des particularités bien spécifiques.Cependant, ces deux fichiers représentant les deux grilles géographiques, il se peut qu’un des deuxfichiers ne comporte pas les colonnes "x" et "y" donnant les coordonnées des points de la grille.Dans ce cas, il faut bien vérifier que les lignes de chaque fichier s’inter-correpondent. Dans notreimplémentation, nous avons eu affaire à des fichiers d’espèces sans coordonnées. Ces dernières setrouvant dans le fichier des variables explicatives.

Par contre, s’il y a des colonnes de coordonnées dans les deux fichiers il faut faire attentionà ce que les coordonnées correspondent pour les deux fichiers afin que les calculs puissent êtrecohérents.

1.2 Présentation de l’interface

Le rendu pour l’utilisateur est également sensiblement identique pour l’ensemble des interfacesque nous avons implémenté. Pour la partie graphique des interfaces, nous nous sommes inspirés del’interface créée par Katell GÉNIN, pour l’utilisation de Gam notamment, afin d’offrir à l’utilisateurune présentation cohérente. Pour cela, chacune des interfaces comporte :

Florian DUBUISSON & Alexandre MARIÉ 13

Page 23: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

– Un bouton permettant d’établir la liaison avec R (Link to R). Cette liaison est effective si lamention "Can access to R" est mentionnée à côté de ce bouton. Dans le cas contraire, il fautcliquer sur le bouton Link to R et spécifier le dossier dans lequel se trouve R.

– Un bouton install package qui permet d’installer les différents packages utiles pour l’utilisationdes fonctions. Cliquer sur ce bouton ouvre une nouvelle fenêtre qui va permettre de lancerl’installation des packages directement depuis le logiciel Biodiversity Analyst (cf figure III.2).Pour l’ensemble des interfaces que nous avons créées, le même package est utile : "spdep".L’installation de ce package n’est utile qu’une seule fois.

FIG. III.2 – Interface d’installation des packages

– Ensuite viennent les deux lignes permettant de sélectionner les fichiers de données d’entrée,avec dans l’ordre le fichier des espèces suivi par le fichier des variables explicatives. Chaqueligne comporte un bouton browse (cf figure III.3) permettant d’accéder à une fenêtre de sélec-tion du chemin du fichier à sélectionner.

– Puis deux cadres résument les variables présentes dans les fichiers sélectionnés. La colonnede gauche permet de lister les espèces présentes dans le fichier. L’utilisateur peut alors sélec-tionner l’unique espèce sur laquelle il veut effectuer les calculs grâce à un clic de souris. Dans

Florian DUBUISSON & Alexandre MARIÉ 14

Page 24: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. III.3 – Fenêtre de sélection du chemin du fichier d’entrée

la colonne de droite se trouve la liste des variables explicatives. L’utilisateur peut sélectionnerplusieurs variables dans cette liste en maintenant appuyée la touche Ctrl de son clavier duranttoute la sélection.A droite de ces deux cadres se trouve un autre cadre d’options si l’interface le nécessite. Cecadre et son utilité sera détaillé ultérieurement.

– Enfin l’interface comporte un bouton d’éxecution ainsi qu’un cadre de communication avecl’utilisateur. Le bouton permet, une fois toutes les informations utiles pour l’exécution de lafonction renseignées, de lancer le logiciel R qui va exécuter automatiquement la fonction de-mandée. En dessous de ce bouton se trouve un cadre qui permet à l’utilisateur de connaîtrel’état d’avancement du processus. Si quelque chose ne fonctionne pas correctement, l’utilisa-teur peut trouver dans cet espace un message d’erreur indiquant la cause du problème.

1.3 Fichiers de sortie

Dès que l’on lance un calcul, un fichier se créé. Il s’agit d’un fichier texte dans lequel se trouve lerésumé de la fonction que l’on vient de créer. Chaque fonction, et chaque option, créé un fichier d’unnom différent. Cependant, il n’y a qu’un seul fichier par fonction et si jamais on veut lancer plusieursfois la même fonction sur différentes données, il faudra faire attention à imprimer ou à déplacer lefichier généré après chaque lancement de la fonction. Une extension possible et future du logicielserait d’apporter la possibilité de pouvoir stocker plusieurs résumés d’utilisation provenant de lamême fonction.

2 Spécificité de chaque fonction

Après avoir présenté toutes les parties communes des interfaces, nous allons voir maintenant lesdifférentes spécificités des interfaces que nous avons implémentées.

Florian DUBUISSON & Alexandre MARIÉ 15

Page 25: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

2.1 Interface pour la fonctionnalité Ordinary Regression

Il s’agit de la première interface que nous avons implémenté. Cette interface permet de fairetourner, au choix, trois fonctions différentes permettant dans chaque cas de faire une régressionsur les données. Pour choisir parmi les trois fonctions possibles, il suffit de sélectionner l’optioncorrespondant à cette fonction dans le cadre intitulé "Residual Autocorrelation".

La figure III.4 nous présente un aperçu de l’interface ainsi créée.

FIG. III.4 – Interface pour la fonctionnalité Ordinary Regression

Les trois fonctions possibles sont :– "Nothing" qui permet de faire une régression linéaire ordinaire. Cette fonction renvoie un

fichier texte intitulé "summary_lm.txt" ainsi qu’un graphique représentant la régression.

Florian DUBUISSON & Alexandre MARIÉ 16

Page 26: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

– "Moran’s I" qui permet d’effectuer un test statistique pour une autocorrélation spatiale, appe-lée Moran’s I, sur les données résultant d’une régression ordinaire. Cette fonction nécessiteaussi en entrée un fichier de poids spatiaux. Ce dernier n’a pas besoin d’être envoyé en en-trée car le script génère lui-même ce fichier. Cette fonction renvoie un fichier texte intitulé"summary_lmmoran.txt".

– "Lagrange Test" qui permet d’effectuer un test appelé Lagrange Test Mutiplier sur les donnéesrésultant d’une régression ordinaire par rapport à un fichier de poids spatiaux. Cette fonctionrenvoie un fichier texte intitulé "summary_lmlagrange.txt".

La figure III.5 représente l’option cochée dans l’interface ainsi que le cadre renvoyant l’étatd’avancement de la fonction.

FIG. III.5 – Interface après utilisation

2.2 Interface pour la fonctionnalité Spatial Lag Model

Cette interface a la particularité de ne pas avoir de cadre d’option. En effet, cette interface nepermet de faire qu’une seule fonction : on fait tourner un modèle d’étude sur les données spa-tiales intitulé "spatial lag model". Cette fonction permet de calculer l’estimation du maximum deprobabilité du décalage spatial des données. Cette fonction renvoie un fichier texte intitulé "sum-mary_spatlagmodel.txt" comme on peut le constater dans le listing 7.

Florian DUBUISSON & Alexandre MARIÉ 17

Page 27: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Listing 7 – Résumé de l’execution de la fonction Spatial Lag Model1 Ca l l : lagsar lm ( formula = ordered . sp$b i rds ~ ordered . sp$var1 + ordered . sp \$var2 ,2 data = sp , l i s t w = sp . l i s t w )3

4 Res idua l s :5 Min 1Q Median 3Q Max6 −11.6081 −5.9728 −1.2381 5.9930 15.27097

8 Type : lag9 C o e f f i c i e n t s : ( asymptot ic standard e r r o r s )

10 Est imate Std . Er ror z value Pr(>|z |)11 ( I n t e r c e p t ) 10.10584 2.55936 3.9486 7.861e−0512 ordered . sp$var1 −0.18000 0.24656 −0.7300 0.4653813 ordered . sp$var2 0.69692 0.39059 1.7843 0.0743814

15 Rho : 0.079452 LR t e s t value : 0.17167 p−value : 0.6786416 Asymptotic standard e r ro r : 0.17749 z−value : 0.44765 p−value : 0.6544117 Wald s t a t i s t i c : 0.20039 p−value : 0.6544118

19 Log l i k e l i h o o d : −271.0330 for l ag model20 ML r e s i d u a l var iance ( sigma squared ) : 51.254 , ( sigma : 7.1592)21 Number of obse rva t ions : 8022 Number of parameters es t imated : 523 AIC : 552.07 , ( AIC for lm : 550.24)24 LM t e s t for r e s i d u a l a u t o c o r r e l a t i o n25 t e s t value : 0.0087505 p−value : 0.92547

2.3 Interface pour la fonctionnalité Spatial Error Model

Cette dernière interface comporte un cadre d’option qui permet de choisir entre deux fonctions.La première fonction est un simple calcul sur un modèle d’étude de données spatiales, intitulé "spa-tial error model", qui estime le maximum de probabilité de l’erreur spatiale des données. De mêmeque précedemment, cette fonction renvoie un fichier texte intitulé "summary_spaterrormodel.txt".

La seconde et dernière option que nous avons implémenté permet, en réalité, de faire deuxcalculs distincts. Le premier est un test semblable au test "spatial error model" appelé "spatial durbinmodel". Cependant, ce test s’appuie sur le facteur courant d’hypothèse. Le second calcul, quant àlui, ne fait ni plus ni moins qu’une comparaison entre les deux calculs, à savoir entre "spatial errormodel" et "spatial durbin model".

FIG. III.6 – Erreur renvoyée par l’interface de la fonction Spatial Durbin Model

Florian DUBUISSON & Alexandre MARIÉ 18

Page 28: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Sur la figure III.6 représentant le cadre d’option ainsi que le cadre d’avancement de la fonctiondans le cas de l’utilisation de l’option "spatial durbin model", on peut constater que le logicielindique que l’éxécution a échoué. Nous verrons dans le paragraphe suivant les raisons de cet échec.

3 Pertinence des résultats

Dans cette dernière partie nous allons donc analyser les résultats renvoyés par les différentesfonctions que nous avons implémenté.

Tout d’abord, nous allons nous intérresser à la fonction "spatial dubin model". Comme nousl’avons vu précedemment, une erreur apparaît dans le cadre de dialogue. Ce modèle fait tournerdeux fonctions : un calcul de modèle d’erreur spatiale, qui lui ne pose pas de problèmes, maiségalement une comparaison entre la fonction précédente et le résultat de la fonction "spatial lagmodel". C’est cette dernière fonction que R ne parvient pas à exécuter. Il semblerait que le nombrede variables explicatives ne soit pas assez important pour que R puisse faire la comparaison.

L’ensembles des autres tests renvoient une valeur qui permet à l’utilisateur de vérifier la validitéde son test. C’est le cas des fonctions Moran’s I, Lagrange Test, Spatial Lag Model ou encore SpatialError Model. N’ayant pas la possibilité de discuter autrement que par courier électronique avec Mr.GIMONA, nous n’avons malheureusement pas pu étudier les résultats.

Enfin, la fonction de régression linéaire renvoie, en plus des détails d’exécution, un graphiqueplanaire qui représente les segments de droite qui en résultent. Nous pouvons voir un exemple deces graphiques dans la figure III.7.

L’avenir du logiciel Biodiversity Analyst sera donc l’exploitation de données réelles grâce auxfonctions que nous avons implémentées durant ce projet.

Florian DUBUISSON & Alexandre MARIÉ 19

Page 29: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. III.7 – Résultat graphique d’une régression linéaire

4 Problèmes rencontrés

La réalisation de ce projet s’est trouvé être particulièrement intéréssante notamment par lesproblèmes qui ont émaillés notre parcours. En effet, nous avons principalement rencontré des pro-blèmes de communication avec notre responsable de projet Mr. Alessandro GIMONA, chercheur enécologie au Macaulay Institute situé à Aberdeen en Ecosse, malgrès de gros efforts de sa part. Ceprojet nous a donc montré a quel point la collection des informations et des attentes de l’utilisateurest une étape importante dans la conception et la réalisation d’un projet scientifique. Il nous a doncfallu apprendre à nous exprimer clairement, dans un anglais correct, pour obtenir les informationsqui nous étaient nécessaires auprès d’un non-informaticien. Ainsi, la collection de l’expression desbesoins de l’utilisateur s’est avéré être la première étape de notre travail. Ensuite, il nous a fallucomprendre correctement le travail réalisé précédemment afin de répondre aux questions de l’utili-sateur et de réaliser le "service après-vente". Enfin, il nous a fallu réaliser une documentation claireet transparente afin de faciliter le travail de Mr. GIMONA et en lui faisant perdre le moins de tempspossible dans l’apprentissage des nouvelles fonctionnalités du logiciel Biodiversity Analyst.

Florian DUBUISSON & Alexandre MARIÉ 20

Page 30: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Conclusion

L’ensemble des fonctionnalités demandées ayant été implémentées, la plupart des objectifs fixéssont atteints malgrès quelques améliorations envisageables. Cependant, l’absence de ces dernièresne conditionnent pas l’utilisation du produit réalisé. Les difficultés rencontrées ont bien sûr étéd’ordre technique, à cause de la découverte simultanée d’un langage et d’un nouvel environnementde travail, mais avant tout d’ordre pratique. En effet, nous avons rencontrés d’importants problèmesde communication du fait de l’éloignement de l’utilisateur. Nous avons surmonté ces difficultésen effectuant un effort de communication, de vulgarisation de notre science et d’anticipation desbesoins de l’utilisateur. L’étude d’articles spécialisés et le suivi de notre responsable de projet àl’ISIMA, M. Vincent BARRA, nous a aidé à résoudre les difficultés de conception. Ce projet nousa donc permis d’appréhender un nouvel environnement de développement et de découvrir unlogiciel statistique trés puissant, mais il a surtout mis en exergue l’importance de la collection desattentes et des besoins de l’utilisateur. Ainsi la confrontation aux problèmes de communicationrencontrés fut, paradoxalement, une expérience trés enrichissante. Désormais, nous concevonsmieux la mise en oeuvre d’un projet scientifique dans un contexte professionnel.

Cet outil que nous avons développé dans le cadre de ce projet laisse une large perspec-tive d’exploitation. En effet, les fonctionnalités ajoutées permettront d’interpréter les donnéesspatiales collectées par les chercheurs du Macaulay Institute. Ainsi, il serait désormais souhaitabled’effectuer de nombreux jeux d’essai sur des données réelles et d’analyser les résultats renvoyéspar les fonctionnalités implémentées afin d’en tester la pertinence.

Florian DUBUISSON & Alexandre MARIÉ 21

Page 31: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Références

[Anselin 2003] ANSELIN L., An Introduction to Spatial Regression Analysis in R, University of Illi-nois, Urbana-Champaign, Mai 2003.

[Bitouzé 2006] BITOUZÉ D. & CHARPENTIER J-C., LATEX, Pearson Education, 2006.

[Bivand 2006] BIVAND R., Spatial dependence : weighting schemes, statistics and models, Cam-bridge University Press, Novembre 2006.

[CRAN] Site internet du Comprehensive R Archive Network,http://www.r-project.org/

[Enjolras 2005] ENJOLRAS E., Réalisation d’un logiciel pour l’analyse de la biodiversité, ISIMA,Septembre 2005.

[Génin 2005] GÉNIN K., Extension du logiciel Biodiversity Analyst permettant l’analyse de labiodiversité, ISIMA, Septembre 2006.

[Ihaka 1996] IHAKA R. & GENTLEMAN R., R : a language for data analysis and graphics, Journal ofComputational and Graphical Statistics, 1996, pp. 299-314.

[Paradis 2005] PARADIS E., R pour les débutants, Institut des Sciences de l’évolution, Université deMontpellier II, 2005.

[Yon 2006] GARCIA L. & YON L., Introduction à Borland C++ Builder 6 Version Professionnelle,ISIMA, Août 2006.

Florian DUBUISSON & Alexandre MARIÉ 22

Page 32: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

ANNEXES

Page 33: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Table des Annexes

A Documentation Biodiversity Analyst : Interface with R IA.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IA.2 Using Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I

A.2.1 Buttons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIA.2.2 Input . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIA.2.3 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIIA.2.4 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV

A.3 Using Spatial Lag Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIA.3.1 Buttons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIA.3.2 Input . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIIA.3.3 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIIA.3.4 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII

A.4 Using Spatial Error Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIIIA.4.1 Buttons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IXA.4.2 Input . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XA.4.3 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIA.4.4 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI

Florian DUBUISSON & Alexandre MARIÉ

Page 34: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

A. Documentation Biodiversity Analyst : Interface with R

A.1 Preliminaries

To use R in Biodiversity Analyst, first of all you need :– R installed on your computer (download on http://www.r-project.org/ : download is on

the left (CRAN) after selected a mirror.– rcom library installed : run R, then type install.packages("rcom"); select a mirror, the package

will also be installed.– Register the adress of R to communicate with Biodiversity Analyst :

– After installing the rcom-package, start R and load the package using library(rcom).– Then register the COM-server (this is a one-time registration) : comRegisterRegistry().

This will add registry information about the COM server.– To uninstall correctly and remove the information from the registry, call comUnregisterRe-

gistry().After performing registration using comRegisterRegistry() it is recommended to restart R(and reload rcom).

A.2 Using Regression

Do R interface > Spdep > Ordinary Regression. Here is the interface that we can see on fi-gure A.1.

FIG. A.1 – Ordinary Regression Interface

Florian DUBUISSON & Alexandre MARIÉ I

Page 35: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

Firstly, check that the message "can access to R" is printed near the button Link to R. If not, useLink to R button to specify the right Rdirectory ( directory in which you installed R).

A.2.1 Buttons

– Link to R : to specify R directory. Once it is done, it is not necessary to do it again at the nextuse of Biodiversity Analyst. If you want to use a newer version than the one you used before,don’t forget to specify the new directory of R. The directory must be like "R \R number ofversion".

– Install packages : A new window opens to allow you to install the necessary packages to runregressions as we can see on figure A.2.

– Browse : To select the files to use.– Run Regression : Once you have selected all the parameters you wanted, start to run regression,

R will start to run and to do the simulation of the regression.

FIG. A.2 – Install Packages Interface

Florian DUBUISSON & Alexandre MARIÉ II

Page 36: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

A.2.2 Input

Once the link to R is possible and the packages installed, you can use the regression.Two files in input are needed :– Species file : it can be in two different formats : ".txt" (tab separated) or ".long_xyz ". This

format is very particular. For each point, the value for a specy is one (present) or zero (absent).You can see an example of this type of file on the figure A.3.

,QDS,X,Y,Sp1,Sp2,...,SpN1,QDS1,0.1,800.9,1,0,...,12,QDS2,1.7,20.2,0,0,...,0.....m,QDSm,500,10.9,0,1,...,1

FIG. A.3 – Example of ".long_xyz " file

– Explanatory variables file : this file as a particular format : the columns are separated by tabs(if we have a ".txt"), the first column is a number, the second one X, the third one Y and thenext are variables. You can see an example of this type of file on the figure A.4.

row.names x y var1 var2 ... varN1 1.191285 1.959461 1.315923 1.52523 ... 3.765812 2.427109 2.199274 14.84751 7.10015 ... 4.98776.....m 5.576756 9.497582 6.869145 3.55677 ... 5.24598

FIG. A.4 – Example of ".txt" file

These two files represent grids. In order to have the good results, you need to have the samegrid for the two files (x and y must be the same, or almost). However, if there is no coordinates inthe species files, just make sure that each line of the file coincides with the same line of the otherfile. Then the program will regroup files and do the simulation.

A.2.3 Options

Once you have chosen the files, you have to select the parameters. Select the specie and theexplanatory variables on which you want to do the simulation : you have to choose only one species,but you can select several explanatory variables by keeping the button Ctrl of your keyboard pushed,and cliking the variables you want.Then, you have to choose the type of simulation you want to do by selecting an option of residualautocorrelation list in the right of the window : "nothing" will simulate an ordinary regression,Moran’s I will test the data by Moran’s I test and finally Lagrange Test will simulate a LagrangeMultiplier Test Statistics.Finally push the button Run Regression and R will start and do the simulation.However you have to make sure that the grid you want to test is not a regular grid because it’simpossible tu run a Moran’s I or a Langrange Test with regular data.

Florian DUBUISSON & Alexandre MARIÉ III

Page 37: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

You can see an example for an ordinary regression on the figure A.5, an example for a Moran’s ITest on the figure A.6 and an example for a Lagrange Multiplier Test on the figure A.7.

FIG. A.5 – Simulation of an Ordinary Regression Interface

Under the Run Regression button, there is an area where are written what happens : if somethingis wrong, you can check there to find the problem.

Florian DUBUISSON & Alexandre MARIÉ IV

Page 38: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.6 – Simulation of a Moran’s I Test

A.2.4 Output

First, a test file will be created, with the summary of the results of the regression or test yourealised. This file is in "summary_lm.txt" for an ordinary regression, in "summary_lmmoran.txt"for an moran’s I test or "summary_lmlagrange.txt" for a Lagrange Multiplier Test. We also save agraphic when we simulate an ordinary regression. If the name of the specie is "birds", the plot ofthe simulation will be "lm birds1.jpg".

Florian DUBUISSON & Alexandre MARIÉ V

Page 39: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.7 – Simulation of a Lagrange Multiplier Test

Florian DUBUISSON & Alexandre MARIÉ VI

Page 40: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

A.3 Using Spatial Lag Model

Do R interface > Spdep > Spatial Lag Model. You can see the interface on the figure A.8.

FIG. A.8 – Spatial Lag Model Interface

Firstly, check that the message "can access to R" is printed near the button Link to R. If not, useLink to R button to specify the right Rdirectory (directory in which you installed R).

A.3.1 Buttons

– Link to R : to specify R directory. Once it is done, it is not necessary to do it again at the nextuse of Biodiversity Analyst. If you want to use a newer version than the one you used before,

Florian DUBUISSON & Alexandre MARIÉ VII

Page 41: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

don’t forget to specify the new directory of R. The directory must be like "R \R number ofversion".

– Install packages : A new window opens to allow you to install the necessary packages to runregressions as we can see on figure A.2

– Browse : To select the files to use.– Run Regression : Once you have selected all the parameters you wanted, start to run regression,

R will start to run and to do the simulation of the regression.

A.3.2 Input

Once the link to R is possible and the packages installed, you can use the regression.

Two files in input are needed :– Species file : it can be in two different formats : ".txt" (tab separated) or ".long_xyz ". This

format is very particular. For each point, the value for a specy is one (present) or zero (absent).You can see an example of this type of file on the figure A.3.

– Explanatory variables file : this file as a particular format : the columns are separated by tabs(if we have a ".txt"), the first column is a number, the second one X, the third one Y and thenext are variables. You can see an example of this type of file on the figure A.4.

These two files represent grids. In order to have the good results, you need to have the samegrid for the two files (x and y must be the same, or almost). However, if there is no coordinates inthe species files, just make sure that each line of the file coincides with the same line of the otherfile. Then the program will regroup files and do the simulation.

A.3.3 Options

Once you have chosen the files, you have to select the parameters. Select the specie and theexplanatory variables on which you want to do the simulation : you have to choose only one species,but you can select several explanatory variables by keeping the button Ctrl of your keyboard pushed,and cliking the variables you want.Then push the button Run Likelihood Estimation and R will start and do the simulation. Howeveryou have to make sure that the grid you want to test is not a regular grid because it’s impossible turun a Spatial Lag Model on regular data.You can see on example on the figure A.9.

Under the Run Likelihood Estimation button, there is an area where are written what happens :if something is wrong, you can check there to find the problem.

A.3.4 Output

A text file will be created, with the summary of the results of the estimation you realised. Thisfile is in "summary_spatlagmodel.txt"

A.4 Using Spatial Error Model

Do R interface > Spdep > Spatial Error Model. You can see the interface on the figure A.10.

Florian DUBUISSON & Alexandre MARIÉ VIII

Page 42: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.9 – Simulation of a Likelihood Estimation

Firstly, check that the message "can access to R" is printed near the button Link to R. If not, useLink to R button to specify the right Rdirectory ( directory in which you installed R).

A.4.1 Buttons

– Link to R : to specify R directory. Once it is done, it is not necessary to do it again at the nextuse of Biodiversity Analyst. If you want to use a newer version than the one you used before,don’t forget to specify the new directory of R. The directory must be like "R \R number ofversion".

– Install packages : A new window opens to allow you to install the necessary packages to runregressions as we can see on figure A.2

Florian DUBUISSON & Alexandre MARIÉ IX

Page 43: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.10 – Spatial Error Model Interface

– Browse : To select the files to use.– Run Regression : Once you have selected all the parameters you wanted, start to run regression,

R will start to run and to do the simulation of the regression.

A.4.2 Input

Once the link to R is possible and the packages installed, you can use the regression.

Two files in input are needed :– Species file : it can be in two different formats : ".txt" (tab separated) or ".long_xyz ". This

format is very particular. For each point, the value for a specy is one (present) or zero (absent).

Florian DUBUISSON & Alexandre MARIÉ X

Page 44: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

You can see an example of this type of file on the figure A.3.– Explanatory variables file : this file as a particular format : the columns are separated by tabs

(if we have a ".txt"), the first column is a number, the second one X, the third one Y and thenext are variables. You can see an example of this type of file on the figure A.4.

These two files represent grids. In order to have the good results, you need to have the samegrid for the two files (x and y must be the same, or almost). However, if there is no coordinates inthe species files, just make sure that each line of the file coincides with the same line of the otherfile. Then the program will regroup files and do the simulation.

A.4.3 Options

Once you have chosen the files, you have to select the parameters. Select the specie and theexplanatory variables on which you want to do the simulation : you have to choose only one species,but you can select several explanatory variables by keeping the button Ctrl of your keyboard pushed,and cliking the variables you want.Then, you have to choose the type of simulation you want to do by selecting an option of option listin the right of the window : "Spatial Error Model" will simulate a spatial error model and "Spatialdurbin Model" will test the common factor hypothesis.Finally push the button "Run" and R will start and do the simulation.However you have to make sure that the grid you want to test is not a regular grid because it’simpossible tu run a model with regular data.You can see on example of Spatial Error Model’s simulation on the figure A.11 and an example fora spatial durbin model on the figure ??.

Under the Run button, there is an area where are written what happens : if something is wrong,you can check there to find the problem.For example, in Spatial Durbin Model, you can see in the area that an expression was failed.Actually,R make the simulation of a spatial error model and a spatial durbin model but it can’t do a com-paraison between the both model and answer : "non-positive degrees of freedom: no test possible".For instance, we have no solution ti fix this problem.

A.4.4 Output

A text file will be created, with the summary of the results of the function you realised. Thisfile is in "summary_spaterrormodel.txt" if you selected the Spatial Error Model option and in "sum-mary_spatialdurbinmodel.txt" if you selected Spatial Durbin Model.

Florian DUBUISSON & Alexandre MARIÉ XI

Page 45: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.11 – Simulation of an Spatial Error Model

Florian DUBUISSON & Alexandre MARIÉ XII

Page 46: Extension d’un logiciel permettant l’analyse de la biodiversité · 2007-10-11 · Biodiversity Analyst Glossaire Biodiversité : Néologisme désignant la diversité des organismes

Biodiversity Analyst

FIG. A.12 – Simulation of a Spatial Durbin Model

Florian DUBUISSON & Alexandre MARIÉ XIII