11
Prise de décision à paramètre continu Une approche symbolique Jeanpierre Laurent Zilberstein Shlomo Charpillet François

Prise de décision à paramètre continu Une approche symbolique

  • Upload
    halen

  • View
    18

  • Download
    0

Embed Size (px)

DESCRIPTION

Prise de décision à paramètre continu Une approche symbolique. Jeanpierre Laurent Zilberstein Shlomo Charpillet François. Cadre de l’étude. L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération Limitations Actions réelles souvent continues - PowerPoint PPT Presentation

Citation preview

Page 1: Prise de décision à paramètre continu Une approche symbolique

Prise de décision à paramètre continu

Une approche symbolique

Jeanpierre Laurent

Zilberstein Shlomo

Charpillet François

Page 2: Prise de décision à paramètre continu Une approche symbolique

Cadre de l’étude

L’approche conventionnelle Un ensemble d’actions discrètes Planification par énumération

Limitations Actions réelles souvent continues Discrétisation

Peu d’actions « représentatives » Nombreuses actions similaires

Page 3: Prise de décision à paramètre continu Une approche symbolique

La recherche du continu…

Discrétisation de l’espace d’état Selon l’action optimale ( B. Scherrer) Selon la fonction de récompense

(R. Coulom, A. Moore, R. Munos) Utilisation d’actions continues / temps continu

R. Munos, A. Moore K. Doya, R. Coulom

Apprentissage par renforcement

Page 4: Prise de décision à paramètre continu Une approche symbolique

Une nouvelle méthode ?

Apprentissage par renforcement Dynamique inconnue Récompense inconnue Nombreux essais nécessaires Convergence Lente

Cadre d’un problème connu Connaissance a priori du problème Pas d’expérimentation nécéssaire Représentation minimale

Page 5: Prise de décision à paramètre continu Une approche symbolique

Cadre applicatif

Soit un mobile M ayant Une position p Une vitesse v

Des contraintes non linéaires Vitesse bornée [-1 ; 1] Position bornée [-1 ; 1]

Une récompense définie par morceaux -10 si borne enfreinte +10 si p=0.5

Page 6: Prise de décision à paramètre continu Une approche symbolique

Résolution

Équations différentielles non linéaires Pas de solution Une infinité de solutions généralisées Pas de forme analytique

Approximation par éléments finis Interpoler la fonction de valeur Entre des points de référence Comment les choisir ?

Page 7: Prise de décision à paramètre continu Une approche symbolique

Notre approcheUne construction incrémentale

À partir de la représentation active Calcul de la fonction de valeur

Symboliquement Identification de points critiques

Comparaison à la représentation active Recherche de l’erreur maximale

Ajout d’un nouvel élément Actualiser la représentation Actualiser la valeur de chaque élément

Itérer jusqu’à convergence

Page 8: Prise de décision à paramètre continu Une approche symbolique

Calcul de la fonction de valeur

A partir d’un point donné

Ex. : x=(0.4, v) Application de la dynamique

F(x, u) = (0.4 + dt*v, v + dt*u) Application des contraintes

V ≤ 1 u ≤ (1-v) / dt V ≥ -1 u ≥ (-1-v) / dt P correcte…

Liste de successeurs possibles selon u

Page 9: Prise de décision à paramètre continu Une approche symbolique

Calcul de la fonction de valeur (2)

Interpolation de V(f(x, u)) Choix des points de référence Détermination des coordonnées

barycentriques Calcul de V

Calcul de V(x) Maximum selon u Valeur optimale avec ces hypothèses

Page 10: Prise de décision à paramètre continu Une approche symbolique

Mise à jour de la représentation

Deux valeurs V(x) sont disponibles : Le calcul issu de l’équation de HJB L’interpolation à partir des références

Comparaison des deux valeurs Sélection du point d’erreur maximale Nouvel élément à définir

Évaluation de V Pour chaque référence Par HJB , dans le nouveau référentiel Jusqu’à stabilité

Page 11: Prise de décision à paramètre continu Une approche symbolique

Poursuite des travaux…

Problèmes mal résolus Choix des références pour interpoler

Arbre de décision Sélection des valeurs optimales

Autre piste intéressante Choix des points critiques selon l’action

Interpoler les actions plutôt que la valeur ? Comparaison aux méthodes d’A/R

Qualité du résultat ? Vitesse de convergence ?