Intelligence Artificielle Dveloppementale 1 er Avril 2014
[email protected] http://www.oliviergeorgeon.com t
oliviergeorgeon.com1/23
Page 2
Plan Vers de la recherche en robotique. Demos Conclusion du
cours. Travaux pratiques Dveloppez votre agent auto-programmant
(suite). oliviergeorgeon.com2/23
Page 3
Recherche en robotique oliviergeorgeon.com Bumper tactile
sensor Panoramic camera Ground optic sensor
http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en
3/23
Conclusion sur lIA dveloppementale oliviergeorgeon.com5/23
Page 6
Positionnement dans le cadre de lIA Newell & Simon (1972)
goals drive problem solving; (1976) Physical Symbol Systems.
Symbolique Non symbolique oliviergeorgeon.com6/23
Page 7
Lenvironnement passe des symboles lagent en input. Nous codons
une smantique des symboles dans lagent. Nous implmentons un moteur
de raisonnement . (ne pas confondre symbolique et discret) IA
symbolique oliviergeorgeon.com7/23
Page 8
Apprentissage par enregistrement (Georgeon, 2014) Apprentissage
par lexprience Positionnement dans le cadre de lIA Newell &
Simon (1972) goals drive problem solving; (1976) Physical Symbol
Systems. En confondant naivement input et perception (Crowley,
2014) Apprentissage par renforcement. Symbolic Non-symbolic
Apprentissage dsincarne Cognition situe (Clancey 1992) Rseaux de
neurones. Machine learning. Perception and action arise together,
dialectically forming each other (Clancey, 1992) A E A E
oliviergeorgeon.com8/23
Page 9
Lenvironnement passe des observations en input de lagent. La
relation monde -> observation est statistiquement une
surjection. Nous implmentons des algorithmes qui supposent quun tat
du monde donn induit une observation donne (bien que partielle et
bruite). 1 2 3 4 4 2 Apprentissage dsincarn
oliviergeorgeon.com9/23
Page 10
Apprentissage par enregistrement (Georgeon, 2014) Apprentissage
par lexprience Positionnement dans le cadre de lIA Newell &
Simon (1972) goals drive problem solving; (1976) Physical Symbol
Systems. En confondant naivement input et perception (Crowley,
2014) Reinforcement Learning. intrinsic motivation (Oudeyer et al.
2007) Symbolic Non-symbolic Apprentissage dsincarne Cognition situe
(Clancey 1992) Neural networks. Machine learning. A* etc. Paradigme
de validation Behavioral analysis rather than performance measure
Thories Implementations Horde (Sutton et al., 2011) SMC theory
(ORegan & No, 2001) Phenomenology (Dreyfus, 2007) even more
Heideggarian AI Radical Interactionism, ECA (Georgeon et al., 2013)
perception-action inversion (Pfeifer & Scheier, 1994) Thorie
des systmes oliviergeorgeon.com10/23
Page 11
Ccit au changement oliviergeorgeon.com
http://nivea.psycho.univ-paris5.fr/ 11/23
Page 12
Time Lenvironnement passe le rsultat dune exprience initie par
lagent. Cest contre-intuitif! Nous implmentons des algorithmes qui
apprennent maitriser les contingences sensorimotrices (ORegan &
No, 2001). Apprentissage par lexprience
oliviergeorgeon.com12/23
Page 13
Accepter cette contre-intuitivit Nous avons limpression que le
soleil tourne autour de la terre. Impression est trompeuse !
(Copernic, 1519) Nous avons limpression de recevoir des donnes sur
ltat du monde. Impression trompeuse! (Philosophie de la
connaissance depuis les lumires, au moins). Comment transcrire
cette contre-intuitivit dans les algorithmes?
oliviergeorgeon.com13/23
Page 14
Enjeux: cognition smantique Adaptation stimumuls-response
Raisonnement et langage Cognition smantique Apprentissage par
renforcement, Rseaux de neurones, machine learning classique.
Systmes bases de rgles, Ontologies, IA traditionnelle. Ancrage de
la connaissance dans lexprience, Construction de sens.
Auto-programmation. oliviergeorgeon.com14/23
Page 15
Conclusion Raisonner en termes dinteractions Plutt que de
sparer perception et action. Raisonner en termes de comportements
gnrs Plutt quen termes de donnes apprises. Garder son esprit
critique Inventer de nouvelles approches.
oliviergeorgeon.com15/23
Page 16
Inventer de nouvelles approches Hard problem of AI Problme
formalis Etc. oliviergeorgeon.com A E A E 16/23
Page 17
Travaux dirigs oliviergeorgeon.com 4eme partie (suite). Salles
TP6 et TP7 Groupes de 2 17/23
Page 18
Environnement 3 modifi Se comporte comme Environnement 0
jusquau cycle 5, puis comme environnement 1 jusquau cycle 10, puis
comme environnement 0. Implmentation If (step 10) If (experiment =
e1) then result = r1 If (experiment = e2) then result = r2 Else If
(experiment = e1) then result = r2 If (experiment = e2) then result
= r1 Step++ oliviergeorgeon.com18/23
Temps Activ i11 Propose i11 i t-3 i t-2 i t-4 i t-1 i t = i11
i11 PRESENT FUTURPASSE Apprend AGENT itit (i t-1,i t ) Active i t-1
oliviergeorgeon.com Principe de lAgent 3 (i11,i12) i12 e1 Choisit
Execute (i11i11) 20/23
Page 21
Environnement 4 Retourne rsultat r2 uniquement aprs deux fois
la mme exprience. e1 -> r1, e1 -> r2, e1 -> r1, e1->
r1, e1->r1, e2 - > r1, e2->r2, e2 -> r1, , e2 -> r1,
e1 -> r1, e1 -> r2, e2 -> r1, e2 -> r2, e1 -> r1, e1
-> r2, If (experience t-2 !=experience t && experience
t-1 ==experience t ) result = r2; else result = r1;
oliviergeorgeon.com21/23
Page 22
Rapport Agent 1 Explications du code Traces dans les
environnements 0 et 1 avec diffrentes motivations. Explications du
comportement Agent 2 Explications du code Traces dans les
environnements 0 2 avec diffrentes motivations. Explications du
comportement Agent 3 Explications du code Traces dans les
environnements 0 et 4 avec diffrentes motivations. Explications des
comportement Conclusion Quelle serait la prochaine tape pour faire
lagent 4 capable de sadapter aux environnements 1 4?
oliviergeorgeon.com22/23