Intelligence Artificielle Développementale 1 er Avril 2014 [email protected] t oliviergeorgeon.com1/23

Intelligence Artificielle Dveloppementale 1 er Avril 2014 [email protected] http://www.oliviergeorgeon.com t oliviergeorgeon.com1/23

Plan Vers de la recherche en robotique. Demos Conclusion du cours. Travaux pratiques Dveloppez votre agent auto-programmant (suite). oliviergeorgeon.com2/23

Recherche en robotique oliviergeorgeon.com Bumper tactile sensor Panoramic camera Ground optic sensor http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en 3/23

Exprimentation oliviergeorgeon.com http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en 4/23

Conclusion sur lIA dveloppementale oliviergeorgeon.com5/23

Positionnement dans le cadre de lIA Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. Symbolique Non symbolique oliviergeorgeon.com6/23

Lenvironnement passe des symboles lagent en input. Nous codons une smantique des symboles dans lagent. Nous implmentons un moteur de raisonnement . (ne pas confondre symbolique et discret) IA symbolique oliviergeorgeon.com7/23

Apprentissage par enregistrement (Georgeon, 2014) Apprentissage par lexprience Positionnement dans le cadre de lIA Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. En confondant naivement input et perception (Crowley, 2014) Apprentissage par renforcement. Symbolic Non-symbolic Apprentissage dsincarne Cognition situe (Clancey 1992) Rseaux de neurones. Machine learning. Perception and action arise together, dialectically forming each other (Clancey, 1992) A E A E oliviergeorgeon.com8/23

Lenvironnement passe des observations en input de lagent. La relation monde -> observation est statistiquement une surjection. Nous implmentons des algorithmes qui supposent quun tat du monde donn induit une observation donne (bien que partielle et bruite). 1 2 3 4 4 2 Apprentissage dsincarn oliviergeorgeon.com9/23

Apprentissage par enregistrement (Georgeon, 2014) Apprentissage par lexprience Positionnement dans le cadre de lIA Newell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems. En confondant naivement input et perception (Crowley, 2014) Reinforcement Learning. intrinsic motivation (Oudeyer et al. 2007) Symbolic Non-symbolic Apprentissage dsincarne Cognition situe (Clancey 1992) Neural networks. Machine learning. A* etc. Paradigme de validation Behavioral analysis rather than performance measure Thories Implementations Horde (Sutton et al., 2011) SMC theory (ORegan & No, 2001) Phenomenology (Dreyfus, 2007) even more Heideggarian AI Radical Interactionism, ECA (Georgeon et al., 2013) perception-action inversion (Pfeifer & Scheier, 1994) Thorie des systmes oliviergeorgeon.com10/23

Ccit au changement oliviergeorgeon.com http://nivea.psycho.univ-paris5.fr/ 11/23

Time Lenvironnement passe le rsultat dune exprience initie par lagent. Cest contre-intuitif! Nous implmentons des algorithmes qui apprennent maitriser les contingences sensorimotrices (ORegan & No, 2001). Apprentissage par lexprience oliviergeorgeon.com12/23

Accepter cette contre-intuitivit Nous avons limpression que le soleil tourne autour de la terre. Impression est trompeuse ! (Copernic, 1519) Nous avons limpression de recevoir des donnes sur ltat du monde. Impression trompeuse! (Philosophie de la connaissance depuis les lumires, au moins). Comment transcrire cette contre-intuitivit dans les algorithmes? oliviergeorgeon.com13/23

Enjeux: cognition smantique Adaptation stimumuls-response Raisonnement et langage Cognition smantique Apprentissage par renforcement, Rseaux de neurones, machine learning classique. Systmes bases de rgles, Ontologies, IA traditionnelle. Ancrage de la connaissance dans lexprience, Construction de sens. Auto-programmation. oliviergeorgeon.com14/23

Conclusion Raisonner en termes dinteractions Plutt que de sparer perception et action. Raisonner en termes de comportements gnrs Plutt quen termes de donnes apprises. Garder son esprit critique Inventer de nouvelles approches. oliviergeorgeon.com15/23

Inventer de nouvelles approches Hard problem of AI Problme formalis Etc. oliviergeorgeon.com A E A E 16/23

Travaux dirigs oliviergeorgeon.com 4eme partie (suite). Salles TP6 et TP7 Groupes de 2 17/23

Environnement 3 modifi Se comporte comme Environnement 0 jusquau cycle 5, puis comme environnement 1 jusquau cycle 10, puis comme environnement 0. Implmentation If (step 10) If (experiment = e1) then result = r1 If (experiment = e2) then result = r2 Else If (experiment = e1) then result = r2 If (experiment = e2) then result = r1 Step++ oliviergeorgeon.com18/23

Agent 3 dans Environnement 3 oliviergeorgeon.com 0. e1r1,-1,0 1. e1r1,-1,0 learn (e1r1e1r1),-2,1 activated (e1r1e1r1),-2,1 propose e1,-1 2. e2r2,1,0 learn (e1r1e2r2),0,1 3. e2r2,1,0 learn (e2r2e2r2),2,1 activated (e2r2e2r2),2,1 propose e2,1 4. e2r2,1,0 activated (e2r2e2r2),2,2 propose e2,2 5. e2r1,-1,0 learn (e2r2e2r1),0,1 6. e2r1,-1,0 learn (e2r1e2r1),-2,1 activated (e2r1e2r1),-2,1 propose e2,-1 7. e1r2,1,0 learn (e2r1e1r2),0,1 8. e1r2,1,0 learn (e1r2e1r2),2,1 activated (e1r2e1r2),2,1 propose e1,1 9. e1r2,1,0 activated (e1r2e1r2),2,2 propose e1,2 10. e1r1,-1,0 learn (e1r2e1r1),0,1 activated (e1r1e2r2),0,1 activated (e1r1e1r1),-2,1 propose e2,1 propose e1,-1 11. e2r2,1,0 activated (e2r2e2r1),0,1 activated (e2r2e2r2),2,2 propose e2,1 12. e2r2,1,0 activated (e2r2e2r1),0,1 activated (e2r2e2r2),2,3 propose e2,2 13. e2r2,1,0 Environnement 0Environnement 1Environnement 0 19/23

Temps Activ i11 Propose i11 i t-3 i t-2 i t-4 i t-1 i t = i11 i11 PRESENT FUTURPASSE Apprend AGENT itit (i t-1,i t ) Active i t-1 oliviergeorgeon.com Principe de lAgent 3 (i11,i12) i12 e1 Choisit Execute (i11i11) 20/23

Environnement 4 Retourne rsultat r2 uniquement aprs deux fois la mme exprience. e1 -> r1, e1 -> r2, e1 -> r1, e1-> r1, e1->r1, e2 - > r1, e2->r2, e2 -> r1, , e2 -> r1, e1 -> r1, e1 -> r2, e2 -> r1, e2 -> r2, e1 -> r1, e1 -> r2, If (experience t-2 !=experience t && experience t-1 ==experience t ) result = r2; else result = r1; oliviergeorgeon.com21/23

Rapport Agent 1 Explications du code Traces dans les environnements 0 et 1 avec diffrentes motivations. Explications du comportement Agent 2 Explications du code Traces dans les environnements 0 2 avec diffrentes motivations. Explications du comportement Agent 3 Explications du code Traces dans les environnements 0 et 4 avec diffrentes motivations. Explications des comportement Conclusion Quelle serait la prochaine tape pour faire lagent 4 capable de sadapter aux environnements 1 4? oliviergeorgeon.com22/23

Documents

Intelligence Artificielle Développementale 1 er Avril 2014 [email protected] t oliviergeorgeon.com1/23