Génération de population agricole à partir de données agrégées et dun panel représentatif de...

Preview:

Citation preview

Génération de population agricole à partir Génération de population agricole à partir de données agrégées et d’un panel de données agrégées et d’un panel

représentatif de fermes.représentatif de fermes.

réalisé par

Mickaël Bourion

au LISC, Cemagref de Clermont Ferrand

sous la direction de

Thierry Faure

DESS SIAD année 2001-2002

10 septembre 2002

SommaireSommaire• IntroductionIntroduction

• I. Analyse de données

• II. Les méthodes de génération de population

• III. L’application

• Conclusion - Perspectives

Le contexte du stage

• Le CIAT (Centre International de l’Agriculture Tropicale)

• Données de recensement : Confidentielles ! Seuls sont disponibles:- Données agrégées- Echantillons

• Nécessité de créer une application générant une population à partir de ces données

Introduction

Objectifs de l’étude

• Développer un outil réalisant la reconstruction de population

• Utiliser la population agricole complète du Honduras :- Comme exemple pour l’application- Pour étudier ses caractéristiques - Pour manipuler les méthodes d’agrégation

Introduction

Spécifications du programme

• Outil générique (échelles et paramètres variables)

• Opération « inverse » : générer une population à partir d’un échantillon

• Programme en sources libres

• Localisation en 3 langues

Introduction

• Introduction

• I. Analyse de donnéesI. Analyse de données

• II. Les méthodes de génération de population

• III. L’application

• Conclusion - Perspectives

Présentation des données• Le Honduras plus de 300 000 exploitations

3 échelles administratives :

I. Analyse de données

HondurasHonduras

Département 1Département 1 Département 2Département 2 Département 18Département 18

Municipalité 100Municipalité 100 Municipalité 101Municipalité 101 Municipalité 124Municipalité 124

Village 10001Village 10001

Village 10023Village 10023

Village 10095Village 10095

Présentation des données

• 3 matrices de paramètres :

- Exploitations (surfaces, usage des terres…)

- Producteurs (âge, sexe, condition juridique…)

- Productions (quantités et types…)

I. Analyse de données

Mise en œuvre d’algorithmes avec Scilab

• Formatage des données

• Agrégations

• Corrélations entre paramètres

I. Analyse de données

Résultats• Agrégations• Corrélations entre paramètres : Données

trop disparates

I. Analyse de données

Répartition des tailles de fermes selon des classes (Ha) par département

0%

20%

40%

60%

80%

100%

Code département

su

rfa

ce

(H

a)

10000 et +

5000 à 10000

1000 à 5000

500 à 1000

100 à 500

50 à 100

10 à 50

5 à 10

1 à 5

0 à 1

• Introduction

• I. Analyse de données

• II. Les méthodes de génération de II. Les méthodes de génération de populationpopulation

• III. L’application

• Conclusion - Perspectives

Principe de la méthode utilisée

• Multiplication des prototypes d’un échantillon par des coefficients

• Choix optimal de ces coefficients pour respecter les contraintes des données agrégées

• Besoin d’un algorithme de minimisation des erreurs

II. Les méthodes de génération de population

Principe de la méthode utiliséeII. Les méthodes de génération de population

Prototype 1

Prototype 2

Prototype 3

Prototype 1Prototype 1

Prototype 2Prototype 2

Prototype 3Prototype 3

Prototype 3

Ferme 1

Ferme 2

Ferme 4

Ferme 5

Ferme 6

Ferme 7

Ferme 8

Ferme 3

P’ (échantillon)

P’’ (pop générée)

P (pop initiale)

Σ fermes = 8

Σ productions = 150

P (données agrégées)

Prototype 2

2 types d’algorithmes

II. Les méthodes de génération de population

• Algorithme quadratique : pour générer une population à partir d’un échantillon.

• Algorithme de type Monte Carlo (non analytique) : pour générer un échantillon à partir d’une population entière

Algorithme de minimisation quadratique

• Formulation du problème

Transformation min (0.5*xt*Q*x+pt*x) I*x=N

• Pour le programme : Algorithme de « R »

II. Les méthodes de génération de population

Nxn

i

i1

))(()((min 2

11

2

11i

ik

n

i

ki

Pk

K

ki

n

i

ki

Pk

K

kx

xQaQxani

Contrainte(s) :

+ …

producteursproducteurs productionsproductions

Algorithmes de type Monte Carlo

• Hill climbing

• recuit simulé (simulated annealing)P(δE) = exp (-δE / T)

• Algorithme génétique

• …

II. Les méthodes de génération de population

• Introduction

• I. Analyse de données

• II. Les méthodes de génération de population

• III. L’applicationIII. L’application

• Conclusion - Perspectives

Les modules du programme

• Module Population

• Module Statistiques

• Module Minimisation

III. L’application

III. L’application

Diagramme UML

L’arborescence de répertoires

III. L’application

HondurasHonduras

Département 1Département 1 Département 2Département 2 Département 18Département 18

Municipalité 100Municipalité 100 Municipalité 101Municipalité 101 Municipalité 124Municipalité 124

Village 10001Village 10001

Village 10023Village 10023

Village 10095Village 10095

Prototype.txtPrototype.txt

DonnéesAgreg.txtDonnéesAgreg.txt

Info.txtInfo.txt

ProtoGénérés.txtProtoGénérés.txt

L’interface : onglet population

III. L’application

L’interface : Fenêtre de visualisation de l’arbre

III. L’application

L’interface : onglet Statistiques

III. L’application

Aspects du module Plan d’expérience

III. L’application

Génération de Génération de populationpopulation

Génération Génération d’échantillond’échantillon

Région étudiéeRégion étudiée

paramètres à minimiserparamètres à minimiser

types des données types des données agrégées agrégées (qualitatif/ quantitatif)(qualitatif/ quantitatif)

seuil d’erreur seuil d’erreur (pour chaque (pour chaque paramètre)paramètre)

Zone d’explorationZone d’exploration

Algorithme 1Algorithme 1

GénérerGénérer

Algorithme 2Algorithme 2

• Introduction

• I. Analyse de données

• II. Les méthodes de génération de population

• III. L’application

• Conclusion - PerspectivesConclusion - Perspectives

Conclusion

• Acquisition de nouveaux outils

• Bilan de l’analyse de données

• Bilan de l’application - résultats

Conclusion - Perspectives

Perspectives

• Documentation• Essais et comparaisons des 2 algorithmes• Module plan d’expérience

• Module Visualisation (Java Analysis Studio)• Projet « ouvert »

- Statistiques évoluées (AFC, Clustering)

- ajouts de nouvelles fonctions…

Conclusion - Perspectives

Recommended