Upload
halen
View
18
Download
0
Embed Size (px)
DESCRIPTION
Prise de décision à paramètre continu Une approche symbolique. Jeanpierre Laurent Zilberstein Shlomo Charpillet François. Cadre de l’étude. L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération Limitations Actions réelles souvent continues - PowerPoint PPT Presentation
Citation preview
Prise de décision à paramètre continu
Une approche symbolique
Jeanpierre Laurent
Zilberstein Shlomo
Charpillet François
Cadre de l’étude
L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération
Limitations Actions réelles souvent continues Discrétisation
Peu d’actions « représentatives » Nombreuses actions similaires
La recherche du continu…
Discrétisation de l’espace d’état Selon l’action optimale ( B. Scherrer) Selon la fonction de récompense
(R. Coulom, A. Moore, R. Munos) Utilisation d’actions continues / temps continu
R. Munos, A. Moore K. Doya, R. Coulom
Apprentissage par renforcement
Une nouvelle méthode ?
Apprentissage par renforcement Dynamique inconnue Récompense inconnue Nombreux essais nécessaires Convergence Lente
Cadre d’un problème connu Connaissance a priori du problème Pas d’expérimentation nécéssaire Représentation minimale
Cadre applicatif
Soit un mobile M ayant Une position p Une vitesse v
Des contraintes non linéaires Vitesse bornée [-1 ; 1] Position bornée [-1 ; 1]
Une récompense définie par morceaux -10 si borne enfreinte +10 si p=0.5
Résolution
Équations différentielles non linéaires Pas de solution Une infinité de solutions généralisées Pas de forme analytique
Approximation par éléments finis Interpoler la fonction de valeur Entre des points de référence Comment les choisir ?
Notre approcheUne construction incrémentale
À partir de la représentation active Calcul de la fonction de valeur
Symboliquement Identification de points critiques
Comparaison à la représentation active Recherche de l’erreur maximale
Ajout d’un nouvel élément Actualiser la représentation Actualiser la valeur de chaque élément
Itérer jusqu’à convergence
Calcul de la fonction de valeur
A partir d’un point donné
Ex. : x=(0.4, v) Application de la dynamique
F(x, u) = (0.4 + dt*v, v + dt*u) Application des contraintes
V ≤ 1 u ≤ (1-v) / dt V ≥ -1 u ≥ (-1-v) / dt P correcte…
Liste de successeurs possibles selon u
Calcul de la fonction de valeur (2)
Interpolation de V(f(x, u)) Choix des points de référence Détermination des coordonnées
barycentriques Calcul de V
Calcul de V(x) Maximum selon u Valeur optimale avec ces hypothèses
Mise à jour de la représentation
Deux valeurs V(x) sont disponibles : Le calcul issu de l’équation de HJB L’interpolation à partir des références
Comparaison des deux valeurs Sélection du point d’erreur maximale Nouvel élément à définir
Évaluation de V Pour chaque référence Par HJB , dans le nouveau référentiel Jusqu’à stabilité
Poursuite des travaux…
Problèmes mal résolus Choix des références pour interpoler
Arbre de décision Sélection des valeurs optimales
Autre piste intéressante Choix des points critiques selon l’action
Interpoler les actions plutôt que la valeur ? Comparaison aux méthodes d’A/R
Qualité du résultat ? Vitesse de convergence ?