Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes

Implementation of DEvelopmentAl Learning (IDEAL)

[email protected]://liris.cnrs.fr/ideal

ANR-RPDOC 2010

8 octobre 2010 1

Implémentation de mécanismes de développement cognitif précoce

dans des agents artificiels autonomes

Plan de la pésentation

• Développement cognitif précoce?• Démonstration préliminaire• Principes• Positionnement scientifique• Objectifs et déroulement du projet

5/20/2010 2

Développement cognitif précoce• Développement "à partir de zéro"

– Pas d'ontologie de l'environnement prédéfinie.– Mécanismes qui précèdent le raisonnement et la réflexion.

• Hypothèse "émergentiste"– La cognition est un phénomène émergent des comportements

(phénoménologie, Heidegger, 1927 ).– Implémenter des mécanismes d'organisation des comportements … pour

observer des phénomènes cognitifs (connaissance, émotions, décision, etc.).

• Hypothèse "constructiviste" (Piaget, 1937)– Epistémologie pragmatique ("meaning is use", Wittgenstein, 1953).– Epistémologie évolutionniste (Popper, 1972).– Motivation intrinsèque.

5/20/2010 3

Organisation autonome des comportements

• Initialisation:– Ensemble de possibilités d'interaction primitives– Tendances innées à certaines interactions

• Apprentissage de séquences d'interaction:– Séquences non markoviennes– Séquences hiérarchiques (Jeff Hawkins, 2004)

• Challenges:– Modélisation autonome de traces d'activité– Mémoire épisodique procédurale

5/20/2010 4

Ceci n'est pas un labirynthe

… C'est un environnement offrant des régularités séquentielles hiérarchiques

5/20/2010 5

Ceci n'est pas un "buffer perceptif"Touch: Move: Turn:

0

-1

010

-10

0

0

0

-5

… ce sont des schemes sensorimoteurs (Piaget, 1937)

5/20/2010 6

Ceci n'est pas un mécanisme de récompense

• Inclination = espérance de succès * Satisfaction• Nombre de collisions (n) * Satisfaction (-10)• + Nombre de déplacements (m) * Satisfaction (10)• = inclination à se déplacer dans ce contexte

• Ceci est une motivation intrinsèque :– Prédilection innée pour certains schèmes– Reconnaissance autonome du contexte – Auto organisation des comportements

5/20/2010 7

Légende 3D

5/20/2010 8

Démonstration

Link

Touch:

Bump:

Ouch!

Oh!Surprise:

Rub:

5/20/2010 9

http://www.youtube.com/watch?v=XciOTffnVCk

Mécanisme d'apprentissage

Turn, wTouch, w

Turn S (0)

Touch S (-1)

Touch F (0)

Schema

Act

Schema's context

Schema's intention

Act's schema

Learning

Move, w

Move S (10)

Bump F (-10)

Touch-Move, w

Touch-Move S (10)

Touch-MoveF(-1)

Turn F (-5)

Touch-Move-Turn, w

Touch-Move-TurnS (10)

5/20/2010 10

Trace O O O O O O O O O O O O O O

O O

O O O

O

O

(O)

O

O

O((O))

(O)

O

O

O

(O)

O

O

(O)(O((O)))

O O

O

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 68 69 70 71 72 73 74 76 77 78 79 80

O

67

O

75 81 82 83 84

85 86 87 88 89 90

O

(O)(O((O))) (O)(O((O)))

((O)(O((O)))) ((O)(O((O))))

O

O O O O

OO

O

(O)

(O)

O

(O)

O

(O)

O

O((O)) O((O))O((O))

O

O((O))

(O)(O((O))) (O)(O((O))) (O)(O((O)))

(O)(O((O)))

((O)(O((O)))) ((O)(O((O))))((O)(O((O)))) ((O)(O((O))))((O)(O((O)))) ((O)(O((O))))

O((O))

(O)(O((O)))

((O)(O((O)))) ((O)(O((O))))

O X XTouch Forward Right Left Succeed Fail

(O)

O((O))

(O)(O((O)))

(((O)(O((O)))) ((O)(O((O))))) (((O)(O((O)))) ((O)(O((O)))))

(O)(O((O)))

91

((O)(O((O)))) ((O)(O((O))))

Control cycles

S4

[S4,F]

S5

[S5,S]

S7S6

[S6,F]

S8

S7

S10

S8

S12

S10

[S2,S]

5/20/2010 11

Apprentissage du context

S7

S3, S

S7,S

Time

S8

S10, 4

S8, S(3)

S10,S

S9, 6

S9,S

S13,1

Currentsituation

S6,S(5)

Basesituation

S6

S3,S

83 84

S12,1

S11

S11,S

Enacted schema

Enacted act

S5, SS2, S

5/20/2010 12

Résultats

• Apprend à augmenter sa satisfaction/cycle.• Apprend à percevoir son environnement.

– Sans buffer perceptif prédéfini.– "Compréhension pragmatique" de la perception.

• Construit une "Situation awareness".– Inclut des anticipations et des "affordances".

• Mémorise des épisodes d'interaction.– Mémoire épisodique avec des "temporal patterns".

5/20/2010 13

Spécificités• / Modélisation cognitive.

– Pas de tâche prédefinie.– Pas d'engagement ontologique préalable sur l'environnement.

• / Apprentissage par renforcement– Pas d'objectif final à atteindre ni de "problem-space" pré modélisé.– Satisfaction vs Reward

• / Apprentissage de séquences– Ne requiert pas l'hypothèse de Markov

• / Schema mechanism– Motivation Intrinsèque

• / Robotique– Pas de buffer perceptif prédéfini.

• / Raisonnement à partir de trace– Modélisation automatique des traces

5/20/2010 14

SchemeScheme

Représentation alternative de la cognition

Symbolic computation

PerceptionAction

EnvironmentTime

Scheme Scheme

Scheme

Préserve l'unité perception/action (de nombreux auteurs)Ancre le sens dans l'activité (Harnad, 1990)Ouvre la voie vers d'autre mécanismes (Piaget, 1937)

Elaboration

5/20/2010 15

De: Vers:

Faiblesses

• Ca sert à rien!– (A part comprendre les systèmes auto motivés)

• Mécanismes de très bas niveau• Beaucoup de chemin à parcourir

5/20/2010 16

Challenges

• Simulation de "cours d'action"– Par inhibition des actions

• Perception distale– Double processus?

• Apprentissage de régularités spatiales– Représentations mentales

• Découverte d'objets persistants• Implémentation dans des robots5/20/2010 17

Projet IDEAL• Objectifs :

– Produire des démonstrations en ligne interactives.– Anticipation d'un futur débat public d'éthique.

• Stratégie :– Augmenter progressivement la complexité.

• Environnement de "jeu" 3D interactif– Blender ? Ogre ? IrrLicht ?

• Enrichir les mécanismes d'apprentissage

5/20/2010 18

Déroulement

• Printemps 2011– 2 stages de Master 2 en informatique

• Outils d’analyse d’activité d’agents artificiels intelligents• Intégration d’agents artificiels intelligents dans des

environnements de simulation interactifs

• Automne 2011– 1 doctorant (3 ans)

• 2012 - 2013– 2 autres stages de Master

5/20/2010 19

Technology

Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes