Upload
ariane-barthelemy
View
102
Download
0
Embed Size (px)
Citation preview
Paris F-RO ’98
14-16/1/98
De l’emploi de modèles pour explorer de nouvelles stratégies de conduite de culture :
application à la conduite du blé
M.H. ChatelinStation d'Economie et Sociologie Rurales
INRA 78850 Grignon, France
F. GarciaUnité de Biométrie et d'Intelligence Artificielle
INRA 31326 Castanet Tolosan, BP27 Auzeville, France
XITEK, un outil d’aide à l’explorationbasé sur l’apprentissage automatique
Paris F-RO ’98
14-16/1/98
AD pour la gestion de parcellesen grande culture
• Un besoin rendu nécessaire par le nouveau contexte de production
• Une solution basée sur la simulation de stratégies de conduite : DECIBLE
0
10
20
30
40
50
60
70
80
90
88 89 90 91 92
rendement
résidus
simulateurDECIBLEstratégie
stratégie
Paris F-RO ’98
14-16/1/98
Le simulateur DECIBLE[Aubry et al. 92,97]
DECIBLE se décompose en 2 parties :• un modèle de croissance du blé• un modèle décisionnel pour la gestion de la
parcelle– La gestion du blé d’hiver est un processus décisionnel
séquentiel
– Des règles SI .. ALORS .. sont utilisées à chaque étape de décision
semis apport N1 apport N2
t
récolte
Paris F-RO ’98
14-16/1/98
Schéma général de DECIBLE
Simulateur de croissance du blé
Simulateur de gestion de la parcelle
semis N1 N2 récolte
Règles dedécision
semis
Série climatique
rendement,maladies,résidus...
Règles dedécision
N1
Règles dedécision
N2
Règles dedécisionrécolte
Paris F-RO ’98
14-16/1/98
Vers un système d’aide à l’exploration
• Les concepteurs ont des difficultés à imaginer de nouvelles stratégies de conduite
• Besoin d’un outil d’aide à la découverte de nouvelles stratégies de qualité
espace des stratégies
qualité Stratégies courantes
??
Paris F-RO ’98
14-16/1/98
Génération automatique de stratégies
• La gestion du blé peut être représenté comme un Problème Décisionnel de Markov
• Les algorithmes de Programmation Dynamique ne
sont pas utilisables car :– forte complexité algorithmique
– pas de modèle probabiliste des transitions
– la représentation des stratégies n’est pas adaptée
Paris F-RO ’98
14-16/1/98
XITEK : Un outil d’aide à l’exploration basé sur l’apprentissage automatique
• Le système itérativement génère, transforme et teste des stratégies en vue d’optimiser leur qualité.
générateurde climats aléatoires
moduled’apprentissage
simulateurDECIBLE
Évaluation dela stratégiestratégie
Paris F-RO ’98
14-16/1/98
Définition des stratégies
• Pour chaque étape de décision, des espaces d’états et de décisions Si et Di sont définis
• Une stratégie est une séquence de fonctions de décision de Si dans Di
SEMIS N1 N2 Récolte
N_sol[0,100]kg/haJ_1cm[01/03,15/05]BA_1cm[30,120]g/m²
date_N2[01/03,15/05]qt_N2[0,200]g/m²
date_récolte
J_tallageNb_pieds
date_N1[15/01,01/03]qt_N1[0,100]g/m²
date_semis [15/09,15/12]
densité[100,300]g/m²variété{soisson, ..}
variables d’étatobservées
variables de décision
Paris F-RO ’98
14-16/1/98
Quelle représentation des stratégies ?
• Discrétisation des Si et Di
• Partitionnement des Si et Di (CMAC)
• Utilisation de règles de décisionSI s1 in [s1début; s1fin] ... sp in [spdébut; spfin]
ALORS d1 in [d1début; d1fin] ... dq in [dqdébut; dqfin]
• Réseaux neuronaux
Paris F-RO ’98
14-16/1/98
Simulation de stratégies et évaluation
Ssemis
Dsemis
sinit
Si
Di
SN1
DN1
• Un critère numérique rsemis + ... + rrécolte est associé à chaque trajectoire
• on recherche des stratégies qui maximisent
E(rsemis + ... + rrécolte )
Paris F-RO ’98
14-16/1/98
Apprentissage par renforcement des stratégies
• A.R. est une nouvelle technique pour résoudre les problèmes décisionnels de Markov.
• Son principe est le suivant :
stratégien+1 = stratégien + n . erreurn
– erreurn est une estimation aléatoire de l’écart entre stratégien et stratégie* disponible à chaque étape
n tend lentement vers 0
Paris F-RO ’98
14-16/1/98
Algorithmes d’Apprentissage par Renforcement
• Il existe des méthodes d’A.R. basées sur une convergence asymptotique selon des critères d’évaluation différents :– critère -pondéré :
Algorithme Q-learning [Watkins 89]
– critère moyen
Algorithme R-learning [Schwartz 93]
• Représentation discrète
Paris F-RO ’98
14-16/1/98
Particularité de notre problème
• Horizon fini, N étapes
• non stationnarité :
espaces d’états et d’actions différents à chaque étape
• domaines mixtes (discrets, continus)
Paris F-RO ’98
14-16/1/98
A.R en Horizon fini - non stationnaire[Garcia, Ndiaye 97]
• Adaptation des méthodes existantes :
Q-learning en horizon fini
R-learning en horizon fini
• Introduction d ’un nouvel algorithme :
RH-learning (critère moyen)
Paris F-RO ’98
14-16/1/98
A.R. pour les domaines continus
• Représentation CMAC : partitionnement uniforme des espaces d’états et d’actions
• Approximation d’une fonction de valeur
V(e,d) = (1 + … + ng)/ng
• Apprentissage des poids i
Paris F-RO ’98
14-16/1/98
Des résultats partielsTitre:
Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.
Paris F-RO ’98
14-16/1/98
Titre:
Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.
Titre:
Auteur:gnuplotAperçu:Cette image EPS n'a pas été enregistréeavec un aperçu intégré.Commentaires:Cette image EPS peut être imprimée sur uneimprimante PostScript mais pas surun autre type d'imprimante.
Paris F-RO ’98
14-16/1/98
Conclusion
• XITEK est en cours de développement• les premiers résultats confirment la complexité du
problème d’optimisation sous-jacent• l ’approche A.R. est ici validée sur un problème de
grande taille• un important travail doit être poursuivi concernant la
visualisation et l’analyse des stratégies générées• notre prochaine étape concerne la génération directe
ou indirecte de règles de décision.
Paris F-RO ’98
14-16/1/98
La représentation CMAC pour l’estimation de fonctions
f(s) = (w1 + … + wng)/ng
s
Paris F-RO ’98
14-16/1/98
Exemple de règle de décision pour le semis
15/10 15/1101/09 31/1231/10 date
Soissons
Sideral
Pactol
...
...
...
100 150 200 250 300 350 400
densité
Espace Etats Espace Décisions
Règle
variéte
Paris F-RO ’98
14-16/1/98
Lien stratégie / fonction de valeur
• Pour une stratégie et s in Si on définit :
Qi(s,d) = E(ri + ... + rharvest | s,d, i+1, .., harvest ),
et on cherche qui maximise Qi(s,d), avec
i (s) = argmax Qi(s,d)
• Les fonctions Qi(s,d) sont représentées par des
estimateurs CMAC.
Paris F-RO ’98
14-16/1/98
Autre fonction de valeur considérée
• Ri(s,d) = Qi(s,d) - (N-i+1)
avec = 1/N E(rsemis + ... + rrécolte | ) et N le nombre d’étapes de décision
• avec toujours i (s) = argmax Ri(s,d)
Paris F-RO ’98
14-16/1/98
Apprentissage des fonctions de valeurs
A partir des observation (s,d,s’,r) à l’étape i, on met a jour l ’estimation courante de Qi(s,d) (Q-learning) ou de Ri(s,d) et (R-learning)
Qin+1(s,d) += n {r + maxd’Qi+1
n(s’,d’) - Qin(s,d) }
Rin+1(s,d) += n {r - n + maxd’ Ri+1
n(s’,d’) - Rin(s,d) }
n+1 += n {r - n + maxd’ Ri+1n(s’,d’)-Ri
n(s,d)}
Paris F-RO ’98
14-16/1/98
A.R., horizon fini et CMAC
• En pratique, cet apprentissage est adapté à la représentation CMAC, et ce sont les poids des cellules qui sont mis à jour.
• L ’hypothèse horizon fini amène à adapter le Q-learning et le R-learning. Ce dernier s’avère être le plus efficace
Paris F-RO ’98
14-16/1/98