25
Paris F-RO ’98 14-16/1/98 De l’emploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin Station d'Economie et Sociologie Rurales INRA 78850 Grignon, France F. Garcia Unité de Biométrie et d'Intelligence Artificielle INRA 31326 Castanet Tolosan, BP27 Auzeville, France XITEK, un outil d’aide à l’exploration basé sur l’apprentissage automatique

Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Embed Size (px)

Citation preview

Page 1: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

De l’emploi de modèles pour explorer de nouvelles stratégies de conduite de culture :

application à la conduite du blé

M.H. ChatelinStation d'Economie et Sociologie Rurales

INRA 78850 Grignon, France

F. GarciaUnité de Biométrie et d'Intelligence Artificielle

INRA 31326 Castanet Tolosan, BP27 Auzeville, France

XITEK, un outil d’aide à l’explorationbasé sur l’apprentissage automatique

Page 2: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

AD pour la gestion de parcellesen grande culture

• Un besoin rendu nécessaire par le nouveau contexte de production

• Une solution basée sur la simulation de stratégies de conduite : DECIBLE

0

10

20

30

40

50

60

70

80

90

88 89 90 91 92

rendement

résidus

simulateurDECIBLEstratégie

stratégie

Page 3: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Le simulateur DECIBLE[Aubry et al. 92,97]

DECIBLE se décompose en 2 parties :• un modèle de croissance du blé• un modèle décisionnel pour la gestion de la

parcelle– La gestion du blé d’hiver est un processus décisionnel

séquentiel

– Des règles SI .. ALORS .. sont utilisées à chaque étape de décision

semis apport N1 apport N2

t

récolte

Page 4: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Schéma général de DECIBLE

Simulateur de croissance du blé

Simulateur de gestion de la parcelle

semis N1 N2 récolte

Règles dedécision

semis

Série climatique

rendement,maladies,résidus...

Règles dedécision

N1

Règles dedécision

N2

Règles dedécisionrécolte

Page 5: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Vers un système d’aide à l’exploration

• Les concepteurs ont des difficultés à imaginer de nouvelles stratégies de conduite

• Besoin d’un outil d’aide à la découverte de nouvelles stratégies de qualité

espace des stratégies

qualité Stratégies courantes

??

Page 6: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Génération automatique de stratégies

• La gestion du blé peut être représenté comme un Problème Décisionnel de Markov

• Les algorithmes de Programmation Dynamique ne

sont pas utilisables car :– forte complexité algorithmique

– pas de modèle probabiliste des transitions

– la représentation des stratégies n’est pas adaptée

Page 7: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

XITEK : Un outil d’aide à l’exploration basé sur l’apprentissage automatique

• Le système itérativement génère, transforme et teste des stratégies en vue d’optimiser leur qualité.

générateurde climats aléatoires

moduled’apprentissage

simulateurDECIBLE

Évaluation dela stratégiestratégie

Page 8: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Définition des stratégies

• Pour chaque étape de décision, des espaces d’états et de décisions Si et Di sont définis

• Une stratégie est une séquence de fonctions de décision de Si dans Di

SEMIS N1 N2 Récolte

N_sol[0,100]kg/haJ_1cm[01/03,15/05]BA_1cm[30,120]g/m²

date_N2[01/03,15/05]qt_N2[0,200]g/m²

date_récolte

J_tallageNb_pieds

date_N1[15/01,01/03]qt_N1[0,100]g/m²

date_semis [15/09,15/12]

densité[100,300]g/m²variété{soisson, ..}

variables d’étatobservées

variables de décision

Page 9: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Quelle représentation des stratégies ?

• Discrétisation des Si et Di

• Partitionnement des Si et Di (CMAC)

• Utilisation de règles de décisionSI s1 in [s1début; s1fin] ... sp in [spdébut; spfin]

ALORS d1 in [d1début; d1fin] ... dq in [dqdébut; dqfin]

• Réseaux neuronaux

Page 10: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Simulation de stratégies et évaluation

Ssemis

Dsemis

sinit

Si

Di

SN1

DN1

• Un critère numérique rsemis + ... + rrécolte est associé à chaque trajectoire

• on recherche des stratégies qui maximisent

E(rsemis + ... + rrécolte )

Page 11: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Apprentissage par renforcement des stratégies

• A.R. est une nouvelle technique pour résoudre les problèmes décisionnels de Markov.

• Son principe est le suivant :

stratégien+1 = stratégien + n . erreurn

– erreurn est une estimation aléatoire de l’écart entre stratégien et stratégie* disponible à chaque étape

n tend lentement vers 0

Page 12: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Algorithmes d’Apprentissage par Renforcement

• Il existe des méthodes d’A.R. basées sur une convergence asymptotique selon des critères d’évaluation différents :– critère -pondéré :

Algorithme Q-learning [Watkins 89]

– critère moyen

Algorithme R-learning [Schwartz 93]

• Représentation discrète

Page 13: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Particularité de notre problème

• Horizon fini, N étapes

• non stationnarité :

espaces d’états et d’actions différents à chaque étape

• domaines mixtes (discrets, continus)

Page 14: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

A.R en Horizon fini - non stationnaire[Garcia, Ndiaye 97]

• Adaptation des méthodes existantes :

Q-learning en horizon fini

R-learning en horizon fini

• Introduction d ’un nouvel algorithme :

RH-learning (critère moyen)

Page 15: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

A.R. pour les domaines continus

• Représentation CMAC : partitionnement uniforme des espaces d’états et d’actions

• Approximation d’une fonction de valeur

V(e,d) = (1 + … + ng)/ng

• Apprentissage des poids i

Page 16: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Des résultats partielsTitre:

Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.

Page 17: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Titre:

Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.

Titre:

Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.

Page 18: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Conclusion

• XITEK est en cours de développement• les premiers résultats confirment la complexité du

problème d’optimisation sous-jacent• l ’approche A.R. est ici validée sur un problème de

grande taille• un important travail doit être poursuivi concernant la

visualisation et l’analyse des stratégies générées• notre prochaine étape concerne la génération directe

ou indirecte de règles de décision.

Page 19: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

La représentation CMAC pour l’estimation de fonctions

f(s) = (w1 + … + wng)/ng

s

Page 20: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Exemple de règle de décision pour le semis

15/10 15/1101/09 31/1231/10 date

Soissons

Sideral

Pactol

...

...

...

100 150 200 250 300 350 400

densité

Espace Etats Espace Décisions

Règle

variéte

Page 21: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Lien stratégie / fonction de valeur

• Pour une stratégie et s in Si on définit :

Qi(s,d) = E(ri + ... + rharvest | s,d, i+1, .., harvest ),

et on cherche qui maximise Qi(s,d), avec

i (s) = argmax Qi(s,d)

• Les fonctions Qi(s,d) sont représentées par des

estimateurs CMAC.

Page 22: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Autre fonction de valeur considérée

• Ri(s,d) = Qi(s,d) - (N-i+1)

avec = 1/N E(rsemis + ... + rrécolte | ) et N le nombre d’étapes de décision

• avec toujours i (s) = argmax Ri(s,d)

Page 23: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

Apprentissage des fonctions de valeurs

A partir des observation (s,d,s’,r) à l’étape i, on met a jour l ’estimation courante de Qi(s,d) (Q-learning) ou de Ri(s,d) et (R-learning)

Qin+1(s,d) += n {r + maxd’Qi+1

n(s’,d’) - Qin(s,d) }

Rin+1(s,d) += n {r - n + maxd’ Ri+1

n(s’,d’) - Rin(s,d) }

n+1 += n {r - n + maxd’ Ri+1n(s’,d’)-Ri

n(s,d)}

Page 24: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98

A.R., horizon fini et CMAC

• En pratique, cet apprentissage est adapté à la représentation CMAC, et ce sont les poids des cellules qui sont mis à jour.

• L ’hypothèse horizon fini amène à adapter le Q-learning et le R-learning. Ce dernier s’avère être le plus efficace

Page 25: Paris F-RO 98 14-16/1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin

Paris F-RO ’98

14-16/1/98