26
1 Un algorithme glouton de résolution de PDMTOs agrégés Stéphane Cardon [email protected] artois.fr

Un algorithme glouton de résolution de PDMTOs agrégés

  • Upload
    talasi

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

Un algorithme glouton de résolution de PDMTOs agrégés. Stéphane Cardon [email protected]. Plan. Rappels sur les PDMs Problème Restriction à des PDMTOs agrégés muni d ’un pré-ordre total et vérifiant certaines conditions Algorithme glouton Résultats expérimentaux - PowerPoint PPT Presentation

Citation preview

Page 1: Un algorithme glouton de résolution de PDMTOs agrégés

1

Un algorithme glouton de résolution de PDMTOs agrégés

Stéphane Cardon

[email protected]

Page 2: Un algorithme glouton de résolution de PDMTOs agrégés

2

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 3: Un algorithme glouton de résolution de PDMTOs agrégés

3

Processus Décisionnel de Markov (1/2)

• Un PDM est un 6-uplet : <S,A,O,Pr,G,C>• S est l ’ensemble des états, s est un état

• A est l ’ensemble des actions, a est une action

• O est l ’ensemble des observations, o est une observation

• Pr est la description des transitions du système, Pr(ot|s1t,at-1,

s2t-1) est la probabilité d ’observer o à l ’étape t, sachant que le système

est passé de l ’état s2 à l ’état s1 par l ’action a durant l ’étape t-1

• G est la fonction de gain, G(s) est le gain pour être dans l ’état s

• C est la fonction de coût, C(s,a) est le coût de l ’action a lorsqu ’on est dans l ’état s

Page 4: Un algorithme glouton de résolution de PDMTOs agrégés

4

Processus Décisionnel de Markov (2/2)

• Une trajectoire observable est une suite de couples (observation, action)

• Une trajectoire du système est une suite de couples (état, action)

• L ’horizon du PDM est l ’ensemble des trajectoires possibles du système

• Une politique est une trajectoire observable

Page 5: Un algorithme glouton de résolution de PDMTOs agrégés

5

Résolution de PDM

Résoudre un PDM revient à chercher la politique ayant une valeur espérée

maximale, politique appelée politique optimale (*)

Page 6: Un algorithme glouton de résolution de PDMTOs agrégés

6

PDM Totalement Observable

• Nous nous restreignons à des PDMTOs :• O = A

• Pr(s1t|at-1,s2

t-1) est la probabilité d ’arriver dans l ’état s1 depuis s2 par l ’action a durant l ’étape t-1

est une fonction de SxT dans A

• La valeur espérée de est (Bellman) :

Vt(s) = G(s) + C(s,(s,t))+ Pr(s’|s, (s,t)) . Vt-1

(s’)

• Nous supposons aussi que l ’horizon est fini, T est le nombre d ’étapes

Page 7: Un algorithme glouton de résolution de PDMTOs agrégés

7

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 8: Un algorithme glouton de résolution de PDMTOs agrégés

8

Problème

• Techniques usuelles inefficaces lorsque S est grand

• Notre problème est de résoudre ce type de PDMs

• PDMs courants lorsque :Agent ayant des ressources limitées, évoluant dans un environnement dynamique, temps-réel et incertain

Page 9: Un algorithme glouton de résolution de PDMTOs agrégés

9

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 10: Un algorithme glouton de résolution de PDMTOs agrégés

10

Agrégation de PDMs

• Une première solution, basée sur une approche « divide and conquer », est d ’agréger les PDMs

• PDM Agrégé : état = sous-PDM

• Réaliste pour nos applications : groupement d ’états en fonction de certains critères (proximité géographique)

Page 11: Un algorithme glouton de résolution de PDMTOs agrégés

11

Conditions supplémentaires

• Pré-ordre total pour le PDM agrégé

• Existence d ’un état de départ pour chaque sous-PDM

• Accessibilité : Si il existe une action permettant d ’aller d ’un sous-PDM P2 à un autre P1, alors la même action permet d ’aller de n ’importe quel état de P2 à l ’état de départ de P1

Page 12: Un algorithme glouton de résolution de PDMTOs agrégés

12

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 13: Un algorithme glouton de résolution de PDMTOs agrégés

13

Définitions

• Restriction d ’une politique :/S’(s) = (s) si s S’ S, non défini sinon

• Composition de politiques : = 1 2, 1 défini sur S1, 2 sur S2

– S1 S2 = (s) = 1(s) si s S1

(s) = 2(s) si s S2

Page 14: Un algorithme glouton de résolution de PDMTOs agrégés

14

Propriété de la composition

• Soit le sous-PDM P2 accessible par P1

• Soit 1 une politique de P1

• Soit 2 une politique de P2

• Soit := 1 2

V() = V(1) + V(2)

• Idée preuve : récurrence sur le nombre d ’étapes et utilisation de la valeur espérée de Bellman.

Page 15: Un algorithme glouton de résolution de PDMTOs agrégés

15

Décomposition optimale

• Soit P un PDM agrégé muni d ’un pré-ordre total et vérifiant les conditions d ’existence et d ’accessibilité

• Soit Pi les sous-PDMs de P

• Soit * la politique optimale de P

i, si */Pi est définie,

alors */Pi est optimale dans Pi

• Idée preuve : Raisonnement par l ’absurde, il ne peut exister une

politique optimale dans Pi différente de */Pi

Page 16: Un algorithme glouton de résolution de PDMTOs agrégés

16

Composition linéaire optimale

• Soit P un PDM agrégé muni d ’un pré-ordre total et vérifiant les conditions d ’existence et d ’accessibilité

• Soit Pi une suite de sous-PDMs de P

• Soit := i i*

est optimale dans le PDM engendré par Pi

• Idée preuve : conséquence du théorème précédent

Page 17: Un algorithme glouton de résolution de PDMTOs agrégés

17

Algorithme - détermination de la politique optimale

• Pour chaque sous-PDM P du PDM agrégé muni du pré-ordre total, en commençant par les derniers et en remontant jusqu ’aux premiers, faire :– Pour chaque sous-PDM successeur Ps faire :

• calculer la composée de la politique optimale de P avec la politique composée de Ps

• la politique composée de P devient cette composée si cette dernière a une valeur espérée plus grande

• O(N) - N est le nombre de sous-PDM

Page 18: Un algorithme glouton de résolution de PDMTOs agrégés

18

Algorithme - problème d ’allocation des étapes (1/2)

• Un sous-PDM a une politique optimale différente en fonction du nombre d ’étapes dont il dispose

• Combien d ’étapes allouer à chaque sous-PDM ?

• Définitions :• Variation : rapport de la valeur espérée de la politique

optimale par le nombre d ’étapes de cette politique

Page 19: Un algorithme glouton de résolution de PDMTOs agrégés

19

Algorithme - problème d ’allocation des étapes (2/2)

• Variation instantanée : pente de la valeur espérée entre une étape de départ inférieure strictement à une étape d ’arrivée (0 sinon)

• Perte : pente de la valeur espérée entre une étape de départ supérieure strictement à une étape d ’arrivée (0 sinon)

Page 20: Un algorithme glouton de résolution de PDMTOs agrégés

20

Algorithme• Allocation, pour chaque sous-PDM, de l ’étape

correspondant à une variation maximale

• Répéter– Détermination de * - O(N)

– Si * a un nombre d ’étapes consommées supérieur aux étapes maximales,chercher le sous-PDM, intervenant dans *, ayant une perte minimale et lui allouer les étapes correspondantes - O(N)

– Sinon, si c ’est inférieur,chercher le sous-PDM, intervenant dans *, ayant une variation instantanée maximale et lui allouer les étapes correspondantes (si possible, sinon arrêt) - O(N)

• Jusqu ’à égalité entre le nombre d ’étapes max. et de *

O(N²)

Page 21: Un algorithme glouton de résolution de PDMTOs agrégés

21

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 22: Un algorithme glouton de résolution de PDMTOs agrégés

22

Variation du nombre d ’états

Erreurs (en %)

0

5

10

15Glouton

RTDP

Glouton (+et)

RTDP (+et)

Temps (en sec.)

0

2

4

6

8

10

12

14

Glouton

RTDP

Référence

Page 23: Un algorithme glouton de résolution de PDMTOs agrégés

23

Variation du nombre de sous-PDMs

Erreurs (en %)

0

5

10

15Glouton

RTDP

Glouton (+et)

RTDP (+et)

Temps (en sec.)

0

2

4

6

8

10

Glouton

RTDP

Référence

Page 24: Un algorithme glouton de résolution de PDMTOs agrégés

24

Erreurs (en %)

0

5

10

15

20Glouton

RTDP

Glouton (+et)

RTDP (+et)

Temps (en sec.)

0

2

4

6

8

10

12

14

Glouton

RTDP

Référence

Variation du nombre d ’étapes pour chaque sous-PDM

Page 25: Un algorithme glouton de résolution de PDMTOs agrégés

25

Plan

Rappels sur les PDMsProblèmeRestriction à des PDMTOs agrégés muni d ’un

pré-ordre total et vérifiant certaines conditionsAlgorithme gloutonRésultats expérimentauxConclusion et perspectives

Page 26: Un algorithme glouton de résolution de PDMTOs agrégés

26

Conclusion et Perspectives

• Résultats satisfaisants en moyenne mais fort écart-type mais pour des PDMs agrégés générés aléatoirement

• Plus d ’expérimentations (PDMs générés puis agrégés)

• Améliorer l ’allocation des étapes• Étude pour des sous-PDMs réduits à un état• Affaiblissement des conditions, travailler avec des

PDMPOs