29
1 Reinforcement Learning Par Nicolas Richard Jimmy Perron

Apprentissage par renforcement

Embed Size (px)

DESCRIPTION

Un exemple d'application de l'apprentissage par renforcement.

Citation preview

Page 1: Apprentissage par renforcement

1

Reinforcement Learning

ParNicolas RichardJimmy Perron

Page 2: Apprentissage par renforcement

2

Quiz

• Nommer :

• un des meilleurs joueur d’échec au monde

• un des meilleurs joueurs de BackGammon

• le contrôleur d’ascenseur le plus performant

• Une seule réponse Tous ces programmes

implémentent l’approche du Reinforcement Learning

Page 3: Apprentissage par renforcement

3

Motivation

Développé dans les années 80

1. Simuler l’apprentissage animal (essais & erreurs)

2. Résoudre les problèmes d’optimisation dans les systèmes de contrôle

• Explosion combinatoire des états possibles

Page 4: Apprentissage par renforcement

4

Plan

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Page 5: Apprentissage par renforcement

5

1 - Problème…

Page 6: Apprentissage par renforcement

6

2 - Éléments du RL

• Agent :• Apprend• Choisit des actions• Maximise sa récompense

• Environnement :• Définit les actions possibles• Attribue les récompenses

• État :• État de l’environnement à un moment t• Retourné à l’agent suite à une action

Page 7: Apprentissage par renforcement

7

Plan

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Page 8: Apprentissage par renforcement

8

3 - Schéma général

1. Environnement donne • L’état courant• Les actions possibles

2. Agent choisit• L’action

3. Environnement fournie• La récompense• L’état suivant• Actions possibles

Page 9: Apprentissage par renforcement

9

3 - Schéma général

Agent

Environnement

Action

Récompense+

État t + 1

Page 10: Apprentissage par renforcement

10

Notre exemple

•Environnement : •Carte de la ville

•État : •Une position particulière dans la carte

•Actions possibles : •Déplacement d’une case dans une direction légal

sa1

a2

S(s,a1) = s1’

S(s,a2) = s2’

Page 11: Apprentissage par renforcement

11

Récompenses

• Attribution des récompenses (notre exemple) :Si S(s, a1) = but alors R(s, a1) = 100 sinon R(s, a1) = 0

100

00

• Lorsque le but est atteint :• Repositionnement de l’agent• Redémarrage du processus

Page 12: Apprentissage par renforcement

12

Apprentissage

Maximiser ses récompenses

Apprendre à choisir la meilleure action

Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )

Page 13: Apprentissage par renforcement

13

Apprentissage

But100

10090

81

90

81

81

72

7281

8190

Environnement

Agent

Récompense

Q( s, a )

But100

0

0

0

0

0

Page 14: Apprentissage par renforcement

14

Plan

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Page 15: Apprentissage par renforcement

15

4 – Q-Learning

Algorithme

Pour chaque paire ( s, a ), mettre Q( s, a ) à 0

Observer l’état courant s

Faire pour toujours

A. Choisir une action a et l’exécuter

B. Recevoir la récompense

C. Observer le nouvel état s’

D. Mettre à jour la valeur de Q( s , a )

Page 16: Apprentissage par renforcement

16

A - Choisir l’action à exécuter

• Hasard ?

• L’action ayant la valeur de Q maximale ?• Maximum local

• Combinaison des deux approches ?• Exploration ou exploitation ?• Probabilité d’une action pondérée selon Q

Page 17: Apprentissage par renforcement

17

A – Choisir l’action à exécuter

Probabilité de choisir une action ai dans unétat s

P(ai | s) = KQ(s, ai)

j KQ(s, aj)

Si k = 1 Choix équiprobableSi k > 1 Favorise les actions ayant un Q élevéSi k < 1 Favorise les actions ayant un Q peu élevé

Page 18: Apprentissage par renforcement

18

B – Recevoir la récompense

Algorithme

Pour chaque paire ( s, a ), mettre Q( s, a ) à 0

Observer l’état courant s

Faire pour toujours

A. Choisir une action a et l’exécuter

B. Recevoir la récompense

C. Observer le nouvel état s’

D. Mettre à jour la valeur de Q( s , a )

Page 19: Apprentissage par renforcement

19

C – Observer le nouvel état s’

Algorithme

Pour chaque paire ( s, a ), mettre Q( s, a ) à 0

Observer l’état courant s

Faire pour toujours

A. Choisir une action a et l’exécuter

B. Recevoir la récompense

C. Observer le nouvel état s’

D. Mettre à jour la valeur de Q( s , a )

Page 20: Apprentissage par renforcement

20

D – Mettre à jour Q( s, a )

Algorithme

Pour chaque paire ( s, a ), mettre Q( s, a ) à 0

Observer l’état courant s

Faire pour toujours

A. Choisir une action a et l’exécuter

B. Recevoir la récompense

C. Observer le nouvel état s’

D. Mettre à jour la valeur de Q( s , a )

Page 21: Apprentissage par renforcement

21

D - Mettre à jour Q( s, a )

• Affecter à Q la valeur de la récompense ?

– Persistance de l’information

• Moyenne des 10 dernières récompenses ?

– Plus de précision explosion de l’espace

mémoire

Page 22: Apprentissage par renforcement

22

D - Mettre à jour Q( s, a )

• Fonction Q :

Q( s, a ) r + Maxa’ ( Q( s’, a’ ) )

– r = récompense reçue

= Constante de propagation temporelle ( 0 < < 1)

– Maxa’ ( Q(s’ , a’) )

Page 23: Apprentissage par renforcement

23

Plan

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Page 24: Apprentissage par renforcement

24

Exemple : La Sim

• L’agent vs l’environnement

• Illustration du choix de l’action

• Illustration de l’atteinte d’un but (mise a jour de Q)

• Convergence de Q

• Variation de k

– Tester avec 10 000 itérations avec k = 1.01 et k = 10

– Équilibre entre :

• Certain de la connaissance sans avoir tout exploré

• Moins certain de la connaissance mais elle soit répandue

Page 25: Apprentissage par renforcement

25

Plan

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Page 26: Apprentissage par renforcement

26

6 – Limitations

• Apprentissage supervisé ?

• Besoin de beaucoup d’exploration

– Pas de connaissance préalable du domaine

– La connaissance n’est pas transportable

– Adapté à l’environnement immédiat

Page 27: Apprentissage par renforcement

27

6 – Limitations

• Le concept taux d’erreur est innaplicable

• Difficile de calculer le taux de confiance

• Adaptation des connaissances mais :

– C’est long!!!

• Aucune généralisation de l’apprentissage

Page 28: Apprentissage par renforcement

28

Critiques

• Utilisation– Environnement réactif– Comparaison avec le « version space »

• Possible mais…inopportun

– Bien adapté pour les jeux de société

Page 29: Apprentissage par renforcement

29

Conclusion

• Ni blanc, ni noir

– Dépend beaucoup du problème

– Apprentissage non supervisé

– Besoin de beaucoup d’itérations

• Apprentissage d’une fonction d’évaluation (exemple la fonction Q)

• Pas de généralisation de cette fonction