Apprentissage par renforcement

Reinforcement Learning

ParNicolas RichardJimmy Perron

• Nommer :

• un des meilleurs joueur d’échec au monde

• un des meilleurs joueurs de BackGammon

• le contrôleur d’ascenseur le plus performant

• Une seule réponse Tous ces programmes

implémentent l’approche du Reinforcement Learning

Motivation

Développé dans les années 80

1. Simuler l’apprentissage animal (essais & erreurs)

2. Résoudre les problèmes d’optimisation dans les systèmes de contrôle

• Explosion combinatoire des états possibles

1. Problème

2. Éléments du Reinforcement Learning

3. Schéma général

4. Q-learning

5. Application

6. Limitation

7. Conclusion

1 - Problème…

2 - Éléments du RL

• Agent :• Apprend• Choisit des actions• Maximise sa récompense

• Environnement :• Définit les actions possibles• Attribue les récompenses

• État :• État de l’environnement à un moment t• Retourné à l’agent suite à une action

1. Problème

4. Q-learning

5. Application

6. Limitation

7. Conclusion

3 - Schéma général

1. Environnement donne • L’état courant• Les actions possibles

2. Agent choisit• L’action

3. Environnement fournie• La récompense• L’état suivant• Actions possibles

3 - Schéma général

Environnement

Action

Récompense+

État t + 1

Notre exemple

•Environnement : •Carte de la ville

•État : •Une position particulière dans la carte

•Actions possibles : •Déplacement d’une case dans une direction légal

S(s,a1) = s1’

S(s,a2) = s2’

Récompenses

• Attribution des récompenses (notre exemple) :Si S(s, a1) = but alors R(s, a1) = 100 sinon R(s, a1) = 0

• Lorsque le but est atteint :• Repositionnement de l’agent• Redémarrage du processus

Apprentissage

Maximiser ses récompenses

Apprendre à choisir la meilleure action

Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )

Apprentissage

But100

Environnement

Récompense

Q( s, a )

But100

1. Problème

4. Q-learning

5. Application

6. Limitation

7. Conclusion

4 – Q-Learning

Algorithme

Pour chaque paire ( s, a ), mettre Q( s, a ) à 0

Observer l’état courant s

Faire pour toujours

A. Choisir une action a et l’exécuter

B. Recevoir la récompense

C. Observer le nouvel état s’

D. Mettre à jour la valeur de Q( s , a )

A - Choisir l’action à exécuter

• Hasard ?

• L’action ayant la valeur de Q maximale ?• Maximum local

• Combinaison des deux approches ?• Exploration ou exploitation ?• Probabilité d’une action pondérée selon Q

A – Choisir l’action à exécuter

Probabilité de choisir une action ai dans unétat s

P(ai | s) = KQ(s, ai)

j KQ(s, aj)

Si k = 1 Choix équiprobableSi k > 1 Favorise les actions ayant un Q élevéSi k < 1 Favorise les actions ayant un Q peu élevé

B – Recevoir la récompense

Algorithme

Faire pour toujours

C – Observer le nouvel état s’

Algorithme

Faire pour toujours

D – Mettre à jour Q( s, a )

Algorithme

Faire pour toujours

D - Mettre à jour Q( s, a )

• Affecter à Q la valeur de la récompense ?

– Persistance de l’information

• Moyenne des 10 dernières récompenses ?

– Plus de précision explosion de l’espace

mémoire

D - Mettre à jour Q( s, a )

• Fonction Q :

Q( s, a ) r + Maxa’ ( Q( s’, a’ ) )

– r = récompense reçue

= Constante de propagation temporelle ( 0 < < 1)

– Maxa’ ( Q(s’ , a’) )

1. Problème

4. Q-learning

5. Application

6. Limitation

7. Conclusion

Exemple : La Sim

• L’agent vs l’environnement

• Illustration du choix de l’action

• Illustration de l’atteinte d’un but (mise a jour de Q)

• Convergence de Q

• Variation de k

– Tester avec 10 000 itérations avec k = 1.01 et k = 10

– Équilibre entre :

• Certain de la connaissance sans avoir tout exploré

• Moins certain de la connaissance mais elle soit répandue

1. Problème

4. Q-learning

5. Application

6. Limitation

7. Conclusion

6 – Limitations

• Apprentissage supervisé ?

• Besoin de beaucoup d’exploration

– Pas de connaissance préalable du domaine

– La connaissance n’est pas transportable

– Adapté à l’environnement immédiat

6 – Limitations

• Le concept taux d’erreur est innaplicable

• Difficile de calculer le taux de confiance

• Adaptation des connaissances mais :

– C’est long!!!

• Aucune généralisation de l’apprentissage

Critiques

• Utilisation– Environnement réactif– Comparaison avec le « version space »

• Possible mais…inopportun

– Bien adapté pour les jeux de société

Conclusion

• Ni blanc, ni noir

– Dépend beaucoup du problème

– Apprentissage non supervisé

– Besoin de beaucoup d’itérations

• Apprentissage d’une fonction d’évaluation (exemple la fonction Q)

• Pas de généralisation de cette fonction

Apprentissage par renforcement

Technology

Apprentissage par problèmes

GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1

RENFORCEMENT DU BETON PAR LES MATERIAUX … · RENFORCEMENT DU BETON PAR LES MATERIAUX ... Formulation du béton ««««««««««««««««« «« 81 ... comparaison des matrices

Apprentissage par l’action Apprentissage par l’enquête · conception universelle de l’apprentissage et la pédagogie différenciée, le personnel enseignant peut répondre

Apprentissage par Renforcement - Apprentissage Numérique

Apprentissage et Recherche par le Contenu Visuel.pdf

Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

FILIÈRE INDUSTRIELLE / PAR APPRENTISSAGE BTS ÉTUDES ET

Apprentissage par Renforcement - lipn.univ-paris13.frgerard/docs/cours/ar-cours-support.pdf · Apprentissage par Renforcement Apprentissage Numérique Pierre Gérard Université de

Apprentissage par le jeu - Encyclopédie sur le

Apprentissage assisté par mobile à Madagascar

Se former en alternance et par apprentissage

Apprentissage par transfert en épidémiologie

LE SPECIALISTE DU RENFORCEMENT STRUCTUREL Par profilés ... · LE SPECIALISTE DU RENFORCEMENT STRUCTUREL •Par profilés métalliques depuis 1992 • Par fibres de carbone depuis

Les processus apprentissage par le numérique

Équipe ACASA 10/10/2006 Apprentissage par renforcement : une application au projet BUIS Charles Madeira

BTS CGO PAR APPRENTISSAGE PAR APPRENTISSAGE. Pour qui ? Quels métiers ? Quelles organisations ?

Apprentissage Statistique 04-06-2019 Automatants · Apprentissage statistique Apprentissage statistique Supervisé Prédire Y connaissant X Non supervisé Caractériser par ෨ Régression

IFT 615 – Intelligence artificielle Apprentissage par renforcement Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615

Apprentissage de nouvelles astuces par une société