Prise de décision à paramètre continu Une approche symbolique

Prise de décision à paramètre continu

Une approche symbolique

Jeanpierre Laurent

Zilberstein Shlomo

Charpillet François

Cadre de l’étude

L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération

Limitations Actions réelles souvent continues Discrétisation

Peu d’actions « représentatives » Nombreuses actions similaires

La recherche du continu…

Discrétisation de l’espace d’état Selon l’action optimale ( B. Scherrer) Selon la fonction de récompense

(R. Coulom, A. Moore, R. Munos) Utilisation d’actions continues / temps continu

R. Munos, A. Moore K. Doya, R. Coulom

Apprentissage par renforcement

Une nouvelle méthode ?

Apprentissage par renforcement Dynamique inconnue Récompense inconnue Nombreux essais nécessaires Convergence Lente

Cadre d’un problème connu Connaissance a priori du problème Pas d’expérimentation nécéssaire Représentation minimale

Cadre applicatif

Soit un mobile M ayant Une position p Une vitesse v

Des contraintes non linéaires Vitesse bornée [-1 ; 1] Position bornée [-1 ; 1]

Une récompense définie par morceaux -10 si borne enfreinte +10 si p=0.5

Résolution

Équations différentielles non linéaires Pas de solution Une infinité de solutions généralisées Pas de forme analytique

Approximation par éléments finis Interpoler la fonction de valeur Entre des points de référence Comment les choisir ?

Notre approcheUne construction incrémentale

À partir de la représentation active Calcul de la fonction de valeur

Symboliquement Identification de points critiques

Comparaison à la représentation active Recherche de l’erreur maximale

Ajout d’un nouvel élément Actualiser la représentation Actualiser la valeur de chaque élément

Itérer jusqu’à convergence

Calcul de la fonction de valeur

A partir d’un point donné

Ex. : x=(0.4, v) Application de la dynamique

F(x, u) = (0.4 + dt*v, v + dt*u) Application des contraintes

V ≤ 1 u ≤ (1-v) / dt V ≥ -1 u ≥ (-1-v) / dt P correcte…

Liste de successeurs possibles selon u

Calcul de la fonction de valeur (2)

Interpolation de V(f(x, u)) Choix des points de référence Détermination des coordonnées

barycentriques Calcul de V

Calcul de V(x) Maximum selon u Valeur optimale avec ces hypothèses

Mise à jour de la représentation

Deux valeurs V(x) sont disponibles : Le calcul issu de l’équation de HJB L’interpolation à partir des références

Comparaison des deux valeurs Sélection du point d’erreur maximale Nouvel élément à définir

Évaluation de V Pour chaque référence Par HJB , dans le nouveau référentiel Jusqu’à stabilité

Poursuite des travaux…

Problèmes mal résolus Choix des références pour interpoler

Arbre de décision Sélection des valeurs optimales

Autre piste intéressante Choix des points critiques selon l’action

Interpoler les actions plutôt que la valeur ? Comparaison aux méthodes d’A/R

Qualité du résultat ? Vitesse de convergence ?

Documents

Prise de décision à paramètre continu Une approche symbolique