229
UNIVERSITE DE CERGY-PONTOISE THE8E présentée pour obtenir Le grade de DOCTEUR EN SCIENCES TRAITEMENT DE L'IMAGE ET DU SIGNAL par Arnaud REVEL SUJET: Contrôle d'un robot autonome par approche neuro-mimétique Soutenue le vendredi 28 novembre 1997 devant la Commission d'examen MM. J.-P. Banquet, Y. Burnod, R. Chatila, B. Dubuisson, R. Pfeifer, Examinateur Rapporteur Rapporteur Examinateur Examinateur .Encadrement de la thèse MM. J.-P. Cocquerez, Président P. Gaussier,

CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

  • Upload
    lephuc

  • View
    234

  • Download
    6

Embed Size (px)

Citation preview

Page 1: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

UNIVERSITE DE

CERGY-PONTOISE

THE8E

présentée pour obtenir

Le grade de DOCTEUR EN SCIENCESTRAITEMENT DE L'IMAGE ET DU SIGNAL

par

Arnaud REVEL

SUJET: Contrôle d'un robot autonome par approche neuro-mimétique

Soutenue le vendredi 28 novembre 1997 devant la Commission d'examen

MM. J.-P. Banquet,Y. Burnod,R. Chatila,B. Dubuisson,R. Pfeifer,

ExaminateurRapporteurRapporteurExaminateurExaminateur

. Encadrement de la thèse

MM. J.-P. Cocquerez, PrésidentP. Gaussier,

Page 2: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

A mamie}

Page 3: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

RemerciementsJe tiens tout d'abord à exprimer mes sincères remerciements à M. BURNOD et M. CHATILA

qui ont accepté, malgré les nombreuses tâches qui leur incombent, la charge de rapporteur surce travail.

Je remercie M. DUBUISSON pour l'intérêt qu'il a porté à mon travail.

Je remercie M. PFEIFER d'avoir accepté d'assister à ma soutenance bien que la languefrançaise ne soit pas sa langue maternelle. Par ailleurs, j'aimerais souligner sa disponibilité lorsde nos échanges "électro-épistolaires".

Je tiens particulièrement à remercier M. Jean-Paul BANQUET, pour avoir assisté à masoutenance, mais surtout car c'est grâce à ses connaissances en neurobiologie que nous avonspu développer notre mécanisme de planification. Les discussions que j'ai pu avoir avec lui onttoujours été extrêmement enrichissantes pour moi.

Je tiens vivement à remercier Jean-Pierre COCQUEREZ qui a eu la triple responsabilité deco-encadrer ma thèse, de m'accueillir en tant que directeur au sein du laboratoire ETIS et deprésider mon jury de thèse.

J'aimerais sincèrement remercier Philippe GAUSSIER qui a suivi de très près mes taton­nements et mes hésitations pendant ces années de thèse. Je tiens ici à saluer son esprit critiquequi n'a d'égal que sa passion, communicative, pour les sciences de la cognition.

Je souhaite aussi remercier les Miche1 2 (Michel LECLERC et Michel JORDAN), dontl'investissement dans notre système informatique (à géométrie variable et à comportementstochastique) m'a permis de travailler dans de très bonnes conditions.

Et puis, je tiens à remercier mes amies, mes amis, mes proches, mes copains, mes collèguesqui m'ont soutenu dans les moments difficiles et qui ont réussi à supporter ma cuisine et/ou mamauvaise humeur. Pour ne pas faire de jaloux, les voici cités par ordre alphabétique:

Agui, Aïcha, Alex, Aline, Aude, Aurore, Azzédine, Ben, Benoit, Bob et J érome, Boris, Bruno,Bub, Cécile, Cédric (IF) alias Ken, La maman de Cédric (IF), La soeur de Cédric (IF) aliasGaëlle, Céline, Catherine, Charlette, La gentille Christiane, Christophe, Claire, L'incroyableCricri, DeD is DBZ, Didi, Eva, Federicori, Florence, François, Glaude et son batô, La Guiche,Henri, Hervé alias LdP alias JIF alias B. (le coté obscur de la farce), Inbar, Isabelle, Ismaël,JPB, Jean-Luc, Jean-Yves, Jerzy, Jose y su picaro, Kike, Laurence, Lounis, Ludo, Mahmoud,L'irremplaçable Martine, Ma Maman, Mélanie, Marc, Marie-Line, Mathias, Matt-Matt, Mel,Mon Papa, Nadine, Nicolas, Nicole, Olivier, Patrick, Pierre, Régine, Raphaël, Raymond, Riad,Ricardo, Romu, Crazy Sacha, Sandrine, Sophie, Sorin, Mihaela, Stéphane, Sylvain, Troll, Vir­ginie, Wilfried, Yo... et tous les autres que malheureusement j'oublie.

Page 4: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

RésuméLe but recherché est de développer une architecture neuronale générique, inspirée par

la neurobiologie, qui permette à un robot mobile autonome de naviguer dans un en­vironnement a priori inconnu en utilisant une caméra CCD comme source principaled'information. La discussion s'articule autour de la confrontation des deux grandesthéories psychologiques que sont le comportementalisme et le cognitivisme. Pour com­parer les résultats à ceux obtenus en psychologie et pour simplifier les problèmes liés àla perception et aux choix des actions, le robot est testé dans un environnement de typelabyrinthe.

Dans un premier temps, notre étude des théories comportementalistes a abouti audéveloppement d'un algorithme de conditionnement probabiliste permettant d'apprendreà un robot autonome une séquence d'associations sensori-motrices avec signal de renforce­ment retardé même lorsque les probabilités d'apparition des situations sont très différentes.L'apprentissage sensori-moteur s'effectue grâce à une carte topologique probabiliste quicatégorise "en-ligne" les situations perçues. La richesse des comportements pouvant êtreappris grâce au conditionnement permet d'espérer pouvoir "dresser des robots".

Dans un deuxième temps, nous avons proposé le schéma d'une architecture de contrôleneuronale capable de résoudre le problème de la sélection de l'action en fonction d'unnombre arbitraire de motivations. Pour cela, nous avons proposé une manière efficacede connecter le mécanisme de planification et le mécanisme sensori-moteur. Le modèle,développé en collaboration avec un neurobiologiste, s'inspire de données sur l'hippocampe,impliqué dans la mémorisation, et sur le cortex pré-frontal, lié à la planification. Des testsen simulation ont permis de montrer que le comportement d'un animat disposant de cettearchitecture dans un labyrinthe complexe et en environnement ouvert était satisfaisantdu point de vue de sa "survie".

Page 5: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

AbstractOur goal is to design a generic neural architecture, inspired by neurobiology, allowing an

autonomous mobile robot using a CCD camera as main information source to navigate intoan a priori unknown environment. The discussion confronts two classical psychologicalapproaches which are hehaviorism and cognitivism. In order To he able to compare ourresults to those obtained in psychology and to simplify problems due to perception andaction selection, the robot is tested in a maze-like environment.

First, our study of behaviorism led us to develop a probabilistic conditioning algo­rithm allowing an autonomous robot to learn a sensory-motor association sequence witha delayed reinforcement signal, even if situations have very different probabilities of ap­pearance. Due to a probabilistic topological map which categorizes situations "on-line" ,associations can be learned autonomously. Behaviors diversity obtained thanks to condi­tioning allows to believe it would be possible to "train" an animat to perform a task.

Next, we proposed a neural control architecture being able to solve the action selectionproblem without regard to the number of motivations. For that purpose, we proposedto connect the planification mechanism to the sensory-motor mechanism. The model,developed in collaboration with a neurobiologist, is inspired by data on hippocampus,involved in memorization, and on pre-frontal cortex, linked to planification. The plani­fication behavior of an animat in a complex maze or in an open environment has beentested in simulation and is being implemented on the real robot.

Page 6: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

L'homme naît avec la faculté de recevoir des sensations, d'apercevoir et de distinguer, danscelles qu'il reçoit, les sensations simples dont elles sont composées, de les retenir, de lesreconnaître, de les combiner, de conserver ou de rappeler dans sa mémoire, de comparer entre'elles ces combinaisons, de saisir ce qu'elles ont de commun et ce qui les distingue, d'attacher dessignes à tous ces objets, pour les reconnaître mieux, et s'en faciliter de nouvelles combinaisons.

Cette faculté se développe en lui par l'action des choses extérieures, c'est-à-dire par la présencede certaines sensations composées, dont la constance, soit dans l'identité de leur ensemble,soit dans les lois de leurs changements, est indépendante de lui. Il l'exerce également par lacommunication avec des individus semblables à lui; enfin, par des moyens artificiels, qu'aprèsle premier développement de cette même faculté, les hommes sont parvenus à inventer.

Les sensations sont accompagnées de plaisir et de douleur; et l'homme a de même la fac­ulté de transformer ces impressions momentanées en sentiments durables, doux ou pénibles;d'éprouver ces sentiments à la vue ou au souvenir des plaisirs ou des douleurs des autres êtressensibles. Enfin, de cette faculté unie à celle de former et de combiner des idées, naissent,entre lui et ses semblables, de relations d'intérêt et de devoir, auxquelles la nature même avoulu attacher la portion la plus précieuse de notre bonheur et les plus douloureux de nosmaux.

CONDORCET"Esquisse d'un tableau historique

des progrès de l'esprit humain"

Page 7: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Sommaire

1 Introduction1 Cadre général .

1.1 Critique de l'Intelligence Artificielle "classique"1.2 Approche animat de la cognition .1.3 Importances des interactions avec l'environnement.1.4 Approche ascendante de la cognition .

2 Problèmes abordés dans cette thèse . . . . . . . . . . . . .

7789

101314

II Données biologiques et Modèles de réseaux de neurones non-supervisés 171 Notions biologiques de base .. . . . . . . . . . . . . . 18

1.1 Le neurone biologique 181.2 Vision d'ensemble de l'architecture du cerveau. 201.3 Aires associatives . . . . . . . . . . . . . . . . . 23

1.3.1 Le cortex: aires primaires et associatives 231.3.2 Le cortex préfrontal 241.3.3 Le cortex limbique . . . . . 24

2 Modèles de réseaux de neurones . . . . . . . 292.1 Modèle du neurone formel . . . . . 292.2 Winner Take AlI (WTA) . 312.3 Carte de Kohonen ..... 322.4 Adaptive Resonance Theory (ART) 342.5 La carte topologique probabiliste (Probabilistic Topological Map -

PTM) 37

IIILe conditionnement1 Apprentissage d'un labyrinthe par conditionnement .

1.1 Formalisation du problème d'associations sensori-motrices1.2 Recherche aléatoire ou recherche exhaustive1.3 Apprentissage de plusieurs tâches .

2 Le conditionnement classique ou pavlovien . . . . .2.1 Les apports de la biologie .

2.1.1 Le conditionnement de l'aplysie . .2.1.2 Le conditionnement de la drosophile

1

414445464851515252

Page 8: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

99100101

104. 104

106108

. . 109. 112

....... 115117121

3.3.23.3.33.3.4

4.24.34.44.5

5.35.4

2.2 Modèles du conditionnement pavlovien . . . . . . . . . . . . . . .. 532.3 Mécanismes de conditionnement complexes . . . . . . . . . . . . .. 55'2.4 Application du paradigme de conditionnement classique à la robotique 642.5 L'architecture PerAc (Perception-Action) . . . . . .. 66Le conditionnement instrumental . . . . . . . . . 693.1 Les données psychologiques 693.2 Modèle du conditionnement instrumental . . . . . . 713.3 'Application du paradigme de conditionnement instrumental à la

robotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 723.3.1 Application du modèle de Sutton et Barto au problème du

labyrinthe . . . . . . . . . . . . 72Madahevan et Connell . . . . . . . . . . . . . . . . . . .. 75Thrun et Mitchell 76Apprentissage par renforcement appliqué à l'architecturePerAc . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79

La règle de conditionnement probabiliste . . . . . . . . . . . . . . . . . .. 804.1 Approche intuitive du comportement de l'algorithme de renforce­

ment probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81Modélisation de la règle de conditionnement probabiliste . . . . .. 82Exemple.de déroulement de l'apprentissage avec peR . . . 86Améliorations de la règle d'apprentissage. . . . . . . . . . 88Contrôle autonome de l'émission du signal de renforcement. 924.5.1 Spécification du signal de renforcement. . 924.5.2 Elaboration du signal de renforcement 93

Expérimentations . . . . . . . . . . . . . . . . . 975.1 Labyrinthe simple: 2 intersections en T .... 975.2 Le robot "vivant" dans un labyrinthe . . . . . . . . . . . 99

5.2.1 Cas 1 : Un pictogramme associé à chaque mouvement 995.2.2 Cas 2: Le robot n'est pas remis au départ lorsqu'il ren-

contre un cul-de-sac . .5.2.3 Cas 3 : Grand labyrinthe avec des boucles .Récapitulation des résultats . . . . . . . . . . . . . . . . . . . . . .Comparaison avec d'autres méthodes permettant de résoudre desproblèmes d'association. . . . . . . . . . . . . . . . . . . . . . .5.4.1 Comparaison avec les algorithmes génétiques.5.4.2 Comparaison avec le Q-learning . . . . . .

Expériences réelles de conditionnement avec PCR . . . . . . . . . . . .6.1 Elaboration des représentations internes des stimuli .6.2 Nécessité d'introduire un mécanisme de suivi de couloir6.3 Architecture de contrôle du robot réel. . . . . .6.4 Contrôle automatique de la catégorisation . . .6.5 Commentaire cl 'une trajectoire réelle du robot

3

5

6

4

2

Page 9: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

7 Conclusion. . . . . . . . . . . . . 124

IV Planification et cartes cognitives 1271 Introduction................. . . 129

1.1 Expériences de psychologie . . . . . . . . . . . . 1291.2 Une définition des cartes cognitives .. 136

2 Modèles de cartes cognitives non-cartésiennes .. 1392.1 World Graph (Arbib) . . . . . . . . . . 1392.2 Modèle de Schmajuk . . . . . . . . . . . . 1432.3 Le modèle de Schôlkopf et Mallot . . . . . 1462.4 Modèle de navigation proposé par Bachelder et Waxman .. 1482.5 Synthèse sur les modèles présentés . . 151

3 Architecture intégrée pour la planification . . 1533.1 Apprentissage de la topologie . . . . . 1533.2 Génération de buts . . . . . . . . . . . 1543.3 Nécessité de deux niveaux pour la génération de plans. . . 1573.4 Construction d'une représentation interne à partir de la reconnais-

sance des transitions . . . . . . . . . . . . .. 1593.5 Architecture globale du sytème . . . . . . . . .. 161

3.5.1 Exploration de l'environnement . . . . . . . . 1623.5.2 Planification des mouvements . . . 1633.5.3 Séquencement des événements permettant l'apprentissage

et la sélection d'action en parallèle . . . . . . . . . . . . . 1653.5.4 Détection de nouvelles transitions. . . . . . . . . .. 1673.5.5 Réalisation du mécanisme de fusion/prédiction .. 168

4 Résultats des simulations. . . . . . . . ... . . . . 1714.1 Exploration de l'environnement . . . . . . . 1714.2 Planification................ . . 1724.3 Découverte de raccourcis "topologiques" .. 1744.4 Tests sur un labyrinthe complexe . . . . . . 176

5 Liens entre notre modèle et la réalité neurobiologique . . . . . . . 1775.1 Structures impliquées. . . . . . . . . . . . . . . . . 1775.2 Détection de nouveauté, apprentissage et utilisation .. 179

6 Conclusion........................... . . . . . 183

V Conclusion

A Les grilles résistives

B Les techniques de renforcement1 Formalisme des méthodes de renforcement2 Les techniques de renforcement .

2.1 Schéma de fonctionnement général

3

187

193

197.. 197

. .... 199.. 200

Page 10: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

2.22.32.4

L'algorithme TD(À) ...Le Q-learning . . . . . . . . . .L'algorithme Dyna-Q ...

· . 200· . 201· . 202

2

C Conditions de convergence de l'algortihme peRo

D Contexte1 Développement et simulation de réseaux de neurones

1.1 LETO .1.1.1 PROMETHE .

Vers la définition d'un Macro-neurone .2.1 Mode de.calcul du. macro-neurone .2.2 Les sorties du macro-neurones . . .

4

203 .

207... 207

· . 207· . 208· . 208· . 209· . 210

Page 11: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Notre problématique s'inscrit dans le cadre d'un projet GIS (groupement d'intérêtscientifique) sciences cognitives (CNA 43) sur le problème de la sélection de l'action auquelparticipe notre laboratoire et dans un projet GIS sur la modélisation des relations cortex­hippocampe.

5

Page 12: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

6

Page 13: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre 1

Introduction

1 Cadre général

L'imaginaire collectif est peuplé de créatures intelligentes créées de toute pièce par l'êtrehumain (le golem juif, la statue de Pygmalion, la créature de Frankenstein, etc... ). Si ceshistoires ne sont que des contes, elles traduisent toutefois le désir profond de l'homme depouvoir reproduire les mécanismes à la base de son intelligence. Tout au long de l'histoire,on note d'ailleurs certaines tentatives pour construire des machines aptes à résoudre destâches intellectuelles répétitives et fastidieuses (le boulier, la machine de Pascal, les au­tomates de Vaucanson, etc... ). Aujourd'hui, la généralisation de l'automatisation destâches industrielles bouleverse notre société mais ne répond toujours pas aux exigencesde convivialité, de facilité d'utilisation et d'autonomie qu'on serait en droit d'attendre demachines "intelligentes". Le premier problème qui se. pose est de définir clairement ce quel'on entend par "intelligence" car à chaque point de vue que l'on adopte (métaphysique,philosophique, psychologique, ... ) correspond une définition spécifique de ce terme.

. Notre choix s'est porté sur une acception de l'intelligence artificielle inspirée de la biolo­gie et principalement basée sur le fait que la pensée doit être incarnée ("embodiement ofmind" - [Deng!]). Dans le cadre de l'étude d'une machine "intelligente", nous abordonsdans cette thèse, l'élaboration d'une architecture générique de contrôle d'un robot mobileévoluant dans un environnement inconnu. Le problème majeur est de décrire la tâchequ'il est sensé accomplir sans indiquer explicitement comment la réaliser. La plate-formeexpérimentale de validation que nous avons choisie, est un labyrinthe "réel" dans lequelle robot évolue et tente de découvrir des chemins.

Dans cette étude, nous avons des a priori forts qui, en plus de l'implantation des al­gorithmes sur un robot, consistent à s'inspirer du vivant et à envisager des solutionsbiologiquement plausibles. Nous nous sommes, en particulier, focalisés sur les problèmesd'apprentissage sensori-moteurs avec récompense retardée et sur des problèmes de plani­fication. Enfin, cette étude relevant des sciences pour l'ingénieur, mais de nature pluridis­ciplinaire, nous a donné l'occasion de fournir des contributions dans la modélisation decertains mécanismes au niveau de l'hippocampe (une structure du cerveau impliquée, en-

7

Page 14: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Introduction

tre autre, dans la mémorisation). Les "a priori" forts qui ont conditionné notre travailrésultent d'une certaine incapacité de l'intelligence artificielle dite "classique" à résoudreles problèmes que nous nous sommes posés.

1.1 Critique de l'Intelligence Artificielle "classique"

L'approche lA "classique" s'appuie sur l'utilisation de représentations internes symboli­ques de l'état dans lequel se trouve le système. Elle suppose qu'il est toujours possiblede séparer la manipulation des symboles (raisonnement) du problème de l'identificationde ces mêmes symboles. Comme corollaire, il s'en suit une tendance à séparer leproblème à résoudre en différents niveaux de sous-problèmes dont la résolution estconsidérée comme étant indépendante de celle des sous-problèmes des autres niveaux.Cette approche donne de très bons résultats pour fabriquer des programmes de jeuxde reflexion très déterministes, comme les échecs, ou même stochastiques comme lebackgammon ou le poker (pour tous ces jeux, on a pu créer des programmes capables debattre les meilleurs joueurs humains). Dans des domaines plus appliqués, les techniquesde l'Intelligence Artificielle ont permis de concevoir des algorithmes de routage, deplanification, d'ordonnancement, de raisonnement formel. .. dont on ne saurait plus sepasser aujourd'hui.

L'un des principaux problèmes rencontrés dans ces systèmes est que les règles qu'ilsutilisent et souvent même l'ensemble des connaissances qu'ils manipulent, sont données apriori. Toutes les situations pouvant être rencontrées doivent donc être prévues. Comme,de plus, la cohérence de la base de données utilisée est difficilement validable, il est trèsdifficile de maîtriser des systèmes à base de règles de très grande taille.

Un prolongement de ce problème est ce que Hayes appelle le "Frame Problem" (FP)[Hay90]. Il concerne la difficulté d'appréhender tous les effets que peut avoir une actionsur l'environnement, et de démêler, parmi ces effets, ceux devant être pris en compte parle système. Toth [Tot95) identifie trois aspects différents dans le"Frame Problem" :

• Le problème de la qualification : difficulté de spécifier la totalité des états danslesquels il est justifié d'appliquer une règle de syntaxe.

• Le problème de la ramification: difficulté de spécifier les effets de bords d'une règle.

• Le problème de la persistance: difficulté pour déterminer si chacun des faits connusreste vrai ou faux.

Un deuxième problème fondamental de l'lA est qu'il peut être difficile d'associer unsymbole particulier à une perception donnée dans le cas où cette perception est fondamen­talement ambiguë. Par exemple, la théorie des formes (Gestalt) en psychologie, postuleque les caractéristiques locales des objets que nous percevons sont fondamentalement am­biguës alors que leurs combinaisons sont facilement identifiables mais pas toujours de

- 8 -

Page 15: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre 1

manière univoque (ce point de vue est illustré par un nombre sans cesse plus impor­tant d'illusions visuelles). Harnad résume très bien ce problème qu'il appelle le "SymbolGrounding Problem" [Har90]. D'après lui, le défaut majeur dés systèmes cognitivistes estqu'ils s'occupent de manipuler les symboles en fonction d'une certaine syntaxe sans pren­dre en compte le sens attaché à ces symboles. Ou, comme l'exprime Bachimont [Bac94b],qu"'une connaissance ou représentation interprétée ne contient pas dans sa forme ce quifait d'elle une connaissance, i.e. les principes de son interprétation.". Un exemple met­tant, en évidence cette difficulté est le problème de la chambre chinoise de Searle (Sea87].Dans cette expérience virtuelle, Searle imagine qu'un homme ne connaissant pas le chinoisest mis dans une pièce totalement fermée à l'exception d'une fente par laquelle l'hommepeut envoyer ou recevoir des idéogrammes chinois. L'homme possède juste un livre luiindiquant pour un ensemble de symboles reçus quels symboles utiliser pour répondre.Lorsqu'on lui fait parvenir un message particulier, l'homme est donc capable d'écrire uneréponse. Un observateur extérieur aura donc tendance à supposer que l'homme dans lachambre chinoise comprend le chinois. Malheureusement, comme nous l'avons précisé, cethomme ne fait que suivre un lexique "lui indiquant la correspondance entre les symboles,et il n'a aucun accès à la compréhension du chinois. C'est ce que font à leur manière lesprogrammes de traduction automatique. Le niveau de simulation des processus cognitifsest donc quelque chose d'importantà prendre en compte.

A la vue de ces critiques, il semblerait donc que la cognition doive être incarnée (embod­iement) et située à la fois dans un environnement physique et par rapport à des niveaux demotivations internes relatifs à ce que nous appellerons les variables essentielles ou vitalesdu système. En fonction de ses motivations et de l'état de l'environnement, un agentautonome devrait être capable d'adapter son comportement pour répondre au mieux àses besoins internes. A notre sens, les facultés d"'adaptation" et d"'apprentissage" d'unagent autonome sont donc des facteurs prépondérants dans l'élaboration de son intelli­gence. Dans notre démarche, l'intelligence sera caractérisée par la capacité d'autonomiedu système [Ste95b], c'est-à-dire, d'après la traduction littérale du grec, "sa capacité àformer lui-même (autos) ses propres lois (nomos)".

Ce point de vue holistique correspond à l'idée que l'on ne peut appréhender"l'intelligence" qu'en considérant un agent cognitif (au sens défini plus haut), comme à lafois le produit d'une évolution phylogénétique (évolution des espèces) et d'une évolutionontogénétique (développement de l'individu).

1.2 Approche animat de la cognition

L'idée de s'inspirer de la biologie et de la psychologie pour créer des animaux-automatesa donné naissance à l'approche Animat [Tru97, Mey91, McF94] à laquelle adhère notredémarche. Pour nous, l'intelligence d'un être vivant ou d'un robot doit être en premierlieu vue comme liée à sa capacité à survivre dans un environnement particulier (sa nicheécologique).

A. Berthoz résume très bien cette situation :

- 9-

Page 16: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Introduction

"Pour survivre, nous n'avons en général qu'une seule chance, un seul coup àjouer, mais qui engage nos muscles et notre masse corporelle en déplacement.Pour attraper une proie qui se déplace à 36 km/h, c'est-à-dire de 10 mètresen uneseconde, il faut anticiper sa position en moins de 100ms et se diriger làoù elle sera dans un instant... Il faut anticiper, deviner, parier sur son com­portement, il faut se constituer "une théorie de l'esprit" en devinant quellespeuvent être les esquives de cette proie en fonction' du contexte..." [Ber97].

'Un peu plus loin, se démarquant du parti prix "béhavioriste", il ajoute:

".. .les fonctions cognitives les plus élevées sont dues à une poussée del'évolution vers le développement de cette capacité à réorganiser l'action enfonction d'événements imprévus. Cela exige le développement de la mémoiredu passé, des facultés de prédiction et de simulation du futur, et la métafaculté,en quelque sorte, de les mobiliser rapidement puisqu'elles doivent s'intégrerdans un cycle perception-action qui dure parfois un dixième ou un vingtièmede seconde."

La cognition ne peut donc pas seulement être vue comme une succession de mécanismessensori-moteurs mais doit comprendre des représentations internes, terme dont A. Berthoznous explique vouloir éviter l'emploi car il est trop souvent employé pour faire référenceuniquement à une représentation sensorielle et négliger alors totalement l'aspect action.C'est aussi cet aspect du problème que R. Pfeiffer a défendu lors de la conférence "fromperception ta action" en expliquant qu'il vaudrait mieux prendre le problème depuisl'action vers la perception [Pfe95].

1.3 Importances des interactions avec l'environnement

Nous entendons étudier la cognition dans sa genèse en tant que phénomène naturel ce quiinscrit notre démarche dans le cadre du constructivisme [Ste95c]. Pour Piaget, le père duconstructivisme [Pia36], tout agent peut être dit "cognitif" à partir du moment où sessensations lui permettent de guider ses actions et visent à satisfaire certaines contraintesde viabilité. Ainsi, au niveau zéro de la cognition, la "connaissance" correspond àl'apprentissage de régularités motrices émergeant des inter-actions de l'agent et de sonenvironnement. Cette "connaissance" n'est donc pas envisagée en tant qu'informationquantifiable mais principalement comme un processus dynamique qui est le fruit deboucles sensori-motrices. On entend ici par émergence la notion qui considère que letout est plus grand que la somme des parties (en réference à la théorie de laGestalt - théorie de la forme). Cette notion d'émergence n'a rien de surnaturelle. Il s'agitd'un phénomène tout à fait quantifiable et qui a été partiellement théorisé par l'approchecybernétique qu'illustre Lorenz (le père de l'éthologie) en se servant de l'analogie avecles circuits électriques oscillants [Lor75]. En effet, une résistance, une capacité ou uneinductance prises séparement ont des propriétés (des comportements) qui n'ont rien de

- 10 -

Page 17: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre l

commun avec celles qu'on peut obtenir en les assemblant pour constituer un circuit RLCrésonnant à une fréquence particulière.

Il est important de noter que dans ce type d'approche, agent et environnement nepeuvent être analysés séparement. Le résultat d'une action a un effet sur l'environnement,et inversement, l'environnement influence la perception de l'individu ([Var93] - voir figure1).

r---- u ---1 Animat ~---------+Perception Action

 E' :',........ nvironnement -c :

Figure 1. La perception permet à l'animat d'agir sur l'environnement, ce qui influe en retour sur saperception.

Un comportement intelligent ne peut alors s'expliquer que par l'interaction entre unsystème et son environnement. Il s'agit là d'une approche holistique de la cognition. Lesboucles sensori-motrices doivent être étudiées dans leur ensemble.

Les véhicules proposés par Braittenberg [Bra84] sont des exemples très caractéristiquesde cette approche. Dans sa théorie, les véhicules les plus simples qu'il propose sont desagents purement réactifs capables d'éviter des obstacles (voir figure 2) ou de se dirigervers une source de lumière (phototaxie) en utilisant juste un couplage direct entre lescapteurs et les effecteurs. Dans le Réseau de Neurone (R.N.) utilisé pour l'évitementd'obstacles, on peut constater que la stratégie d'évitement n'est pas complètement ex­plicitée. Si un obstacle apparaît sur la droite, le robot se contente d'accélérer un petitpeu la roue droite et de ralentir un petit peu la roue gauche. Il ne décide pas d'éviterl'objet en changeant radicalement de comportement (par exemple en tournant franche­ment à gauche). L'algorithme fonctionne correctement seulement parce qu'en bougeant, lerobot va se retrouver dans une situation voisine dans laquelle il va prolonger la stratégieinitiée à l'étape précédente. Cette stratégie se poursuit tant que les capteurs de prox­imité détectent quelque chose. Le résultat pour un observateur externe est une stratégied'évitement des obstacles qui semble particulièrement souple. On peut dire que cettestratégie émerge des interactions du robot avec son environnement.

Pour les versions évoluées de ces véhicules, Braittenberg prévoyait la possibilité de leuradjoindre des capacités de mémorisation, de planification... Ces références à des fonctionsneurobiologiques montrent combien la frontière entre la robotique et la compréhension desmécanismes cognitifs est fine et combien ces disciplines peuvent s'enrichir mutuellement.

Un des aspects intéressant des véhicules de Braittenberg est que le comportementexhibé par le véhicule est relativement complexe par rapport au programme utilisé. Dufait de la dynamique induite par les interactions entre le véhicule et son environnement,

- Il -

Page 18: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Introduction

S::JID§ ---... Lien activateur

--0 Lien inhibiteur

1Capteur proximétrique

®Neurone moteur

Figure 2. Exemple de câblage d'un véhicule de Braittenberg appliqué â l'évitement d'obstacles sur unrobot Khepera. Lorsqu'un obstacle arrive par la droite, les capteurs situés à droite ont une activité plusforte que 'les capteurs situés à gauche. Le neurone commandant le moteur droit a donc une activité plusimportante que celui commandant le moteur gauche. A un niveau comportemental, le robot "tourne âgauche" et évite donc l'obstacle.

un comportement "intelligent" (dans le sens où il est adapté à l'environnement) "émerge"sans qu'il ait été programmé explicitement.

C'est à partir des bases behavioristes de ce concept d'émergence que Brooks a proposé[Bra81] le principe de l'architecture "subsumption" qui a donné lieu à un grand nombred'implémentations robotiques. L'idée est de considérer qu'un agent autonome disposed'un certain nombre de comportements (évitement d'obstacles, reconnaissance d'objets,planification... ) plus ou moins complexes agissant en parallèle sur les senseurs et les ef­fecteurs. Ces comportements sont organisés de manière hiérarchique de telle sorte que lesniveaux de comportement de complexité supérieure (nécessitant plus de temps de calcul)puissent agir sur les niveaux inférieurs de manière à modifier ou supprimer leurs effets etpermettre au robot de fonctionner en temps réel malgré la lenteur de certains processus.Par ailleurs, aucune représentation interne réelle de l'environnement n'existe a priori, ex­cepté l'ensemble des variables internes de chaque module comportemental. Cependant, iln'existe pas de représentation centralisée de la connaissance. Celle-ci apparaît uniquementau travers de la dynamique sensori-motrice. Malheureusement, le niveau de descriptionde l'architecture et des procédures utilisées ne semble pas permettre l'introduction demécanismes d'apprentissage capables de fonctionner en ligne.

Contrairement à la plupart des travaux en robotique mobile ou plus généralement enintelligence artificielle, notre démarche est basée sur l'idée qu'il n'y a pas d'indépendanceentre les différents niveaux de traitement. Nous pensons que la nature du calcul effectuéà un niveau élémentaire d'une architecture de contrôle peut influencer les comportementsqu'elle genère. C'est la raison pour laquelle nous avons choisi de nous placer à un niveau dedescription "neuronal". A cet égard, nous nous plaçons en marge de la tendance actuelle,qui vise à décrire les systèmes comme des ensembles de comportements, organisés selon desrègles de priorité liées à des contraintes de temps réel (Brooks [Bro81], Chatila [Cha95])ou simplement sommés (Steels [Ste95aD. Notre but au travers de l'exploration des pos­sibilités des architectures neuronales est d'aboutir à ce qu'une même structure neuronale

- 12 -

Page 19: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre 1

puisse participer à l'émergence de comportements imprévus et supprimer ainsi le problèmede la connexion entre boîtes fonctionnelles rencontré dans les systèmes nécessitant à lafois des capacités de reconnaissance de formes et de raisonnement de haut niveau tel quela planification. Un autre atout des R.N. est qu'ils unifient sous un même formalismel'aspect contrôle (approche de l'automaticien) et l'aspect "intelligence" (plus commune­ment développé par les informaticiens). Les R.N. sont enfin particulièrement adaptés àune programmation sur des machines massivement parallèles (chaque neurone calculantson activité en fonction de paramètres principalement locaux liés àl'activité de neuronessitués en amont).

1.4 Approche ascendante de la cognition

La prise en compte, lors de la conception d'un système de l'existence possible de cespropriétes émergentes impose l'utilisation d'une approche ascendante de la conceptiond'un système (partir d'une tâche très simple pour aller vers la tâche désirée en ne ra­joutant a chaque étape que ce qui est strictement nécessaire compte tenu des comporte­ments émergents observés). Cette approche est évidemment diamétralement opposée àl'approche descendante classique consistant à décomposer un problème en sous problèmesplus simples. Ne répondant pas au critère d'indépendance des modules utilisés dansl'approche descendante, cette nouvelle approche est évidemment très difficile à maitriser.Notamment, on peut s'interroger sur l'incidence du choix de la première tâche donnée ausystème et sur l'explosion combinatoire des étapes possibles (problème auquel n'échappeque partiellement l'analyse descendante). Pour limiter au maximum les risques d'échecs,la compréhension des structures biologiques impliquées dans la cognition ainsi que leurévolution au cours des âges fournissent, à notre avis, de bonnes sources d'inspiration pourla réalisation de créatures artificielles sensées vivre dans le même type d'environnementque le nôtre. De même qu'une solution valable pour un type d'animal peut s'avérercomplètement inadaptée pour un autre type d'animal, il peut être argumenté que lessolutions viables pour les robots présenteront nécessairement de grandes différences parrapport à celles des animaux.

Notre travail est néanmoins basé sur la conviction qu'un certain nombre de grandsprincipes fondamentaux restent vrais d'une espèce à l'autre et qu'ils doivent pouvoir êtreappliqués à des agents autonomes devant évoluer dans notre univers ou même, pourquoipas, dans un environnement virtuel (réseaux informatiques, tâches n'ayant rien à voir avecla notion classique de survie chère à la biologie).

Ce qui nous intéresse, est donc de modéliser et simuler un certain nombre de processuscognitifs pris dans leur globalité (de la perception à l'action et/ou de l'action à la percep­tion) afin d'apporter notre pierre à ce qui sera peut-être un jour une véritable science dela cognition (voir figure 3).

Ce type de travail nécessite des connaissances dans des domaines aussi variés que lagénétique, la biologie, la neurobiologie, la psychologie ou encore l'éthologie, c'est-à-diredes connaissances dans des domaines liés à l'étude du vivant. Cette difficulté est toutefois

- 13 -

Page 20: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Perception Action

Introduction

Figure 3. Schéma représentant les différents niveaux de complexité d'un système intelligent. Sacompléxité croît dans le sens inverse de la complexité des données à traiter. On voit aussi apparaître lesinteractions entre les différents niveaux de complexité.

aussi un atout, car elle permet de réunir des domaines souvent séparés autour d'un thèmecommun qui est l'étude de l'intelligence. A ce propos, Varela propose une interactionbidirectionnelle entre les sciences de la nature et les sciences humaines et sociales quipermettrait de faire progresser conjointement la connaissance dans ces deux domaines(double articulation en spirale).

Nous pensons que cette double articulation est aussi valable entre les sciences de la vie etla robotique (les sciences pour l'ingénieur). D'une part, nous nous inspirons des systèmesvivants pour créer nos propres modèles (en particulier, nous essayons de nous inspirerdes architectures neuronales existant chez les animaux en tant qu'acquis phylogéniques).D'autre part, notre souci de plausibilité biologique nous amène à soumettre des modèlessupposés de mécanismes de fonctionnement du cerveau à des biologistes afin qu'ils leséprouvent. Ces "aller-retours" entre les sciences du vivant et les sciences pour l'ingénieurpermettent ainsi de faire avancer conjointement la compréhension de la cognition.

2 Problèmes abordés dans cette thèse

Après l'analyse introductive qui permet de décrire le contexte dans lequel nous situonsnos travaux, nous pouvons préciser les points sur lesquels nous nous focalisons dans cettethèse. Un des problèmes est d'étudier les mécanismes que devra posséder une machine"intelligente" pour qu'elle ait un comportement "autonome" dans un environnement in­connu. Il nous a semblé qu'une bonne approche consistait à implanter ces mécanismes surun robot doté de vision. L'objectif visé était l'acquisition par le robot d'un comportement"correct" par la mise en place d'une méthodologie d'apprentissage basée sur l'attributionde "punitions/récompenses" en fonction des actions entreprises. En effet, les travaux ef­fectués en psychologie expérimentale dans le cadre du courant "béhavioriste" fournissentdes résultats très intéressants et un cadre théorique bien établi. Ces informations ex­pliquent la dynamique de l'apprentissage d'un conditionnement mais aussi comment lesanimaux oublient ou désapprennent des conditionnements pour apprendre des comporte-

- 14 -

Page 21: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre l

ments nouveaux.Cependant, enpsychologie expérimentale, deux théories principales s'affrontent quant

à l'explication des. aptitudes des animaux de laboratoire (rats, cobayes) à résoudre destâches d'apprentissage.. La première de ces théories vient de l'école comportementaliste(behaviorism - [Pav27, Ski53]) qui considère que la majorité des comportements résultentde mécanismes de conditionnement. La deuxième théorie est le cognitivisme, introduitpar Tolman dans les années 30 [ToI48], qui considère que certains animaux (à l'origine, lesrats) sont capables. de construire des représentations complexes de l'environnement sousforme de cartes cognitives (carte des "endroits" parcourus par l'animal). Ces dernièressont utilisées par l'animal pour "planifier" ses actions.

Nous avons donc choisi de proposer des modèles dans le cadre de ces deux théorieset de les implanter sur un robot devant se déplacer dans un labyrinthe. Ainsi, nousnous intéresserons d'abord au conditionnement. Nous chercherons à cerner quel niveaude complexité de comportement peut être atteint dans le cadre comportementaliste, sansavoir recoursà un mécanisme de planification. Ensuite, nous nous intéresserons à laplanification, fonction de cognition "supérieure" s'appuyant sur l'intégration des capacitéssensori-motrices.

Ces travaux sont pluridisciplinaires et nous montrerons que les modèles que nous pro­posons constituent des contributions intéressantes pour la communauté des neurobiolo­gistes.

Notre discussion s'articulera autour de 3 parties principales. Dans la première partie,nous donnerons les notions élémentaires de neurobiologie et les modèles de réseaux deneurones nécessaires pour comprendre le reste de l'exposé. Par ailleurs, nous présenteronsun ensemble de modèles de réseaux de neurones utilisés pour la catégorisation autonomede formes. Ces modèles nous serviront d'inspiration pour développer les architectures quenous présenterons' par la suite.

Le deuxième chapitre s'intéresse à l'utilisation du paradigme du conditionnement pourrésoudre une tâche de labyrinthe. Dans un premier temps, nous présentons les basespsychologiques, biologiques et les modèles mathématiques des mécanismes de condition­nement classique et instrumental. Du fait de l'incapacité des modèles classiques à rendrecompte des conditionnements impliquant des différences de probabilité d'occurence entreles différentes situations, nous serons amenés à proposer un modèle de conditionnementprobabiliste.

Le troisième chapitre s'intéresse aux mécanismes qui pourraient être impliqués dansles processus de planification. Nous discutons en particulier de la nature des informationsqui sont traitées. Nous présentons tout d'abord un ensemble d'expériences de psycholo­gie qui sembleraient mettre en évidence l'existence de "cartes cognitives" cartésiennes,utilisées par les animaux pour planifier leurs actions. Cependant, à la lumière de modèlesexpliquant plus simplement certains mécanismes de navigation, nous sommes amenés àmettre en doute le concept de "carte cognitive" en tant que représentation cartésiennede l'environnement. Nous présentons alors différents modèles de cartes cognitives non­cartésiennes qui expliquent cependant les capacités de planification. Comme ces modèles

- 15 -

Page 22: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Introduction

ne sont pas concernés par l'établissement d'un lien avec le niveau sensori-moteur, nousproposons un modèle intégrant ces deux niveaux.

- 16 -

Page 23: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II

Données biologiques et Modèles deréseaux de neurones non-supervisés

Le but de ce chapitre est de donner les éléments de biologie et les modèles de réseauxde neurones (R.N.) qui serviront de base à la compréhension du reste de notre discus­sion.Dans un premier temps, nous présentons le principe de fonctionnement du neu­rone biologique. Nous donnons ensuite un aperçu général de l'architecture du cerveau etdétaillons certaines aires corticales: le cortex associatif, le cortex pré-frontal et le cortexlimbique.

La deuxième partie de ce chapitre est consacrée à la présentation de modèles deréseaux de neurones pour la catégorisation autonome de formes. Les R.N. utilisés pourl'apprentissage d'associations ne seront vu qu'au chapitre concernant le conditionnement(chapitre III). Nous commençons par décrire le neurone formel ainsi que la règle deHebb, qui est à la base des mécanismes d'apprentissage dans les modèles de R.N. Nousprésentons ensuite le mécanisme compétitif du Winner Take AH (WTA). Par la suite, nousintroduisons le modèle de carte topologique proposé par Kohonen ainsi que le modèle ARTde Grossberg, Enfin, nous décrivons le modèle de carte topologique probabiliste à appren­tissage autonome proposée par Gaussier et Zrehen. Cette carte intègre les caractéristiquesdes modèles de Kohonen et de Grossberg.

17

Page 24: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1

1 N otions biologiques de base

Données biologiques

Dans ce paragraphe, 'nous donnons un aperçu de différentes données neurobiologiquesqui permettent. de faciliter la ··compréhension des mécanismes biologiques évoqués dansle reste de notre discussion.. Dans un premier temps, nous présentons quelques donnéessynthétiques sur le neurone biologique. Puis nous proposons une vision d'ensemble desgrandes structures du cerveau humain. Nous détaillons plus particulièrement trois struc­tures du cerveau dont nous reparlerons dans le reste de l'exposé: le cortex visuel (etses voies afférentes) ,·le système limbique (en particulier l 'hippocampe) et le cortex pré­frontal. Enfin, nous décrirons le système neuromodulateur impliqué dans le contrôle localde l'activité de certaines structures cérébrales (du cortex préfrontal en particulier).

1.1 Le neurone biologique

A la suite des observations de l'anatomiste espagnole Ramon y Cajal, dès la fin du 19èm e

siècle, on a pu déterminer que le cerveau était composé de cellules distinctes appeléesneurones formant un ensemble dense d'environ 10 à 100 milliards d'unités intercon­nectées[Ros92].· La principale caractéristique de ces neurones est qu'ils permettent devéhiculer et de traiter des informations en faisant circuler des messages électriques dansle réseau ténu et massivement parallèle formé par leur axone l . L'extrémité des axonesse divise en une .multitude de ramifications. A l'inverse, les arborescences qui amènentl'information vers le corps cellulaire sont appelés dendrites. Les informations sont trans­mises d'un neurone à l'autre, de manière unidirectionnelle, par l'intermédiaire de pointsde jonction appelés synapses. En moyenne le nombre de connexions entre neurones est de104

• Le schémad'un neurone réel est proposé figure 1.

Noyaucellulaire

Figure 1. Représentation schématique d'un neurone biologique.

L'activité d'un neurone se mesure en fonction de la fréquence'' du train de poten­tiels d'actions (ou spikes) propagés sur l'axone. Cet influx nerveux, lorsqu'il parvient à

1L'axone est le prolongement terminal du corps du neurone. Ils peuvent atteindre jusqu'à un mètrede long.

2Cette fréquence est inférieure à 300 Hz ce qui est bien sur très lent comparé aux capacités des circuitsélectroniques modernes.

- 18 -

Page 25: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

une synapse, permet dé libérer des neuromédiateurs qui excitent (neuromédiateurs ex­citateurs) ou inhibent (neuromédiateurs inhibiteurs) le neurone suivant et peuvent ainsigénérer ou interdire la propagation cl 'un nouvel influx nerveux, Une caractéristique fon­damentale de la synapse est qu'elle est capable de s'adapter et ainsi faciliter ou non lepassage des influx nerveux. Cette plasticité est à l'origine des mécanismes d'apprentissage.

L'influx nerveux se caractérise par -une impulsion électrique (Potentiel d'Action -.PA ) se déplaçant le long de l'axone depuis le corps cellulaire jusqu'aux synapses. Ledéplacement du PA est généré par une diminution locale de la différence de potentielentre l'intérieur et l'extérieur de la membrane de la cellule qui provoque l'ouverture descanaux sodiques de la membrane laissant entrer les ions sodium (Na+). Le potentielayant toujours tendance à revenir à une valeur d'équilibre, la cellule libère des ions potas­sium (K+). C'est ainsi que de proche en proche se propage l'influx électrique jusqu'auxsynapses.

Une synapse est constituée d'un bouton présynaptique situé en prolongement de l'axonedu neurone afférent et d'une partie réceptrice sur le corps du neurone efférent, les deuxétant séparés par un espace extra-cellulaire très faible appelé fente synaptique. Le bou­ton pré-synaptique contient des vésicules synaptiques remplies de transmetteurs chim­iques. Lorsque le PA parvient à la synapse, il fait rentrer des ions calcium (Ca2+) dansle corps cellulaire du neurone. Cela provoque l'alignement d'une partie des vésiculessynaptiques le long de la membrane du bouton synaptique et donc la libération desneurotransmetteurs" dans la fente synaptique. Les molécules transmettrices libérées ar­rivent sur le site récepteur du neurone efférent et rentrent en interaction avec les protéinesréceptrices situées sur ces sites. La réaction résultante peut être dépolarisante (synapseexcitatrice) ou hyperpolarisante (synapse inhibitrice) selon les affinités entre le neuro­transmetteur et la protéine réceptrice. Les activités polarisantes ou dépolarisantes sontensuite sommées par le neurone ce qui déclenche ou non un nouvel influx nerveux dans leneurone efférent, selon qu'un seuil de dépolarisation est franchi ou non.

3Il existe de nombreux neurotransmetteurs mais nous ne les détaillerons pas ici.

- 19 -

Page 26: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Vision d'ensemble du cerveau

1.2 Vision d'ensemble de l'architecture du cerveau

Le système nerveux central humain est composé de six régions principales (voir figure 2) :

1. La moelle épinière : Elle reçoit de l'information de la peau, des articulations etdes muscles. C'est le relais terminal de la commande motrice. Elle reçoit des voiesafférentes acheminant les informations sensorielles jusqu'au cerveau, et des voiesmotrices efférentes véhiculant les informations depuis le cerveau jusqu'aux muscles.

·2. Le pont (ou protubérance) ; Il contient de nombreux neurones relayant l'informationprovenant des hémisphères cérébraux jusqu'au cervelet. Le cervelet joue un rôleimportant dans le contrôle précis des mouvements. Ce n'est pas à proprementparler une partie du pont, mais du fait de sa proximité, il lui est souvent associé.

3. Le cerveau moyen: Il est important dans le contrôle du mouvement des yeux.Il est aussi un relais essentiel pour l'acheminement de l'information auditive. Parailleurs, il contient aussi plusieurs structures impliquées dans le contrôle des musclessquelettiques.

4. Le diencéphale : il est subdivisé en deux parties appelées thalamus et hypothala­mus. Le thalamus traite et relait la plupart des informations provenant des régionsinférieures du système nerveux central vers le cortex cérébral. L'hypothalamus, quantà lui, est impliqué dans la régulation des sécrétions hormonales.

5. Les hémisphères cérébraux: ils sont constitués du cortex cérébral et des ventriculescérébraux. Ces structures sont impliquées dans les mécanismes de perception, decognition et les fonctions motrices de haut niveau.

Il est important de noter qu'à chacune de ces régions du cerveau correspond un circuitsensori-moteur spécifique dont le temps de réponse dépend du "niveau" où est traitél'information. Il existe, par exemple, des circuits "réflexes" allant des capteurs : la peau,les capteurs propriocéptifs des muscles, etc... vers la moelle épinière puis retournantdirectement vers les muscles. A l'inverse, les mécanismes de planification de mouvementsembleraient impliquer de nombreuses régions du cortex et en particulier le cortex pré­frontal. Les circuits moteurs participant à ces mécanismes sont donc beaucoup plus longset leur temps de réponse est donc plus important.

Par ailleurs, il existe des mécanismes permettant à un niveau "supérieur" de moduler,voire même d'inhiber les réponses des niveaux "inférieurs" afin d'imposer leur propreréponse 4.

4 A cet égard, il est intéressant de faire un parallèle entre ce mécanisme et les architectures de contrôlede robots. En effet, les architectures robotiques doivent permettre de gérer des contraintes deman­dant des réactions très rapides (systèmes réflexes, systèmes associatifs, systèmes de planification). Lanotion d'architecture hiérarchique donnant une priorité plus grande au niveau réflexe se retrouve dansl'architecture robotique "subsumption" de Brooks [BroS1] ou dans les architectures proposées par Chatila(Cha95].

- 20 -

Page 27: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

Thalamus

Hypothalamu~""~r---f-

Figure 2. Les principales régions du cerveau humain.

On identifie dans le cerveau au moins deux types de circuits neuronaux. Le premier, lecircuit effecteur, gère les interactions avec l'environnement. Il reçoit ainsi des afférencesprovenant des systèmes sensoriels et envoie des efférences vers les muscles. Le secondcircuit est un système de régulation du circuit effecteur. Il permet de moduler le transfertdes informations dans le circuit effecteur de manière à modifier le comportement généralde l'individu.

Le cortex cérébral, qui est chez l'homme la partie la plus évoluée du système effecteur,est divisé en deux hémisphères, séparés par la fissure sagittale. Chaque hémisphère estsubdivisé en quatre lobes : le lobe frontal, le lobe pariétal, le lobe temporal et le lobeoccipital (voir figure 3).

D'importantes régions du cortex cérébral sont dévolues à l'accomplissement des mouve­ments ou au traitement des informations sensorielles. Elles sont appelées aires motrices (ousensorielles), primaire, secondaire. Les aires sensorielles primaires (aires visuelle, auditive,somatique, gustative) reçoivent les informations provenant des récepteurs périphériquespar le biais de voies nerveuses n'effectuant qu'un nombre limité de connexions synaptiques.Les aires sensorielles liées à des mécanismes plus évolués (aires secondaires) traitent descombinaisons plus complexes d'informations sensorielles, liées à une même modalité sen­sorielle. Le but des traitements effectués par ces aires est de permettre une analyse et une

- 21 -

Page 28: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1

Lobe frontal

Lobe temporal

Lobe pariétal

Vision d'ensemble du cerveau

Lobe occipital

Figure 3. Les quatre principaux lobes du cortex cérébral : le lobe frontal, le lobe pariétal, le lobetemporal et le lobe occipital.

intégration plus complète de l'information provenant des aires sensorielles primaires. Demanière synthétique, les signaux moteurs autogénérés sont initiés dans les aires motricesévoluées qui transmettent l'information à des aires motrices primaires.

Les différents systèmes moteurs et sensoriels ont des voies spécialisées fonctionnanten parallèle. Une caractéristique intéressante de ces voies est qu'elles sont organiséestopologiquement. Par exemple, des cellules voisines dans la rétine sont connectées à desgroupes de neurones voisins dans le thalamus, qui sont à leur tour connectés à des neuronesvoisins dans le cortex visuel primaire. Ainsi, on retrouve une représentation organisée sousla forme de cartes topologiques tout au long du parcours de l'information visuelle. Il enest de même pour lesmodalités somatiques ou auditives et pour le système moteur.

Outre les régions sensorielles et motrices, il existe aussi trois autres régions corticalesappelées aires associatives. Leur fonction est d'intégrer les informations de type comp­osite.

1. Le cortex pariéto-temporo-occipital s'attache principalement à combiner des fonc­tions de perception liées aux sensations somatiques, auditives et visuelles.

2. Le cortex pré-frontal est impliqué, entre autres, dans la planification de mouvementsvolontaires.

3. Le cortex limbique est impliqué principalement dans les mécanismes de motivation,cl 'émotion et participe aux processus liés à certains types de mémoire.

Des neurones spécifiques permettent par ailleurs de moduler l'activité du système ef­fecteur par le biais de messagers chimiques proches des hormones appelés neuromodu­laieurs. Il existe trois types principaux de neuromodulateurs : la dopamine (DA ), lasérotonine (5HT) et la noradrénaline (NA). Les neurones diffusant ces neuromodulateurssont situés dans le mésencéphale: en particulier, on trouve les neurones dopaminergiques

- 22 -

Page 29: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

dans l'aire tégmentale ventrale et la substance noire, les neurones sérotoninergiques dansle locus coeruleus, et les neurones noradrénergiques dans le noyau du raphé antérieur etpostérieur [Tas86, Nio94]. Les axones des neurones du circuit modulateur ne sont pasmyélinisés, il en découle une vitesse de conduction beaucoup plus faible que les neuronesdu circuit effecteur. Ces axones se projèttent dans l'ensemble du cerveau perpendiculaire­ment aux colonnes corticales. Les neurones du circuit modulateur représentent 1% desneurones du cerveau. A la naissance, seuls les corps cellulaires de ces neurones existentet la maturation du circuit modulateur se fait par la suite.

Agissant en parallèle avec le système effecteur, le système modulateur permet de jouersur la priorité des structures nerveuses traitant l'information sans modifier les contactssynaptiques. On peut ainsi supposer que le système nerveux central possède plusieursmodes de fonctionnement activant différemment les même structures.

Dans la suite de ce paragraphe, nous nous intéresserons plus particulièrement aux airesassociatives.

1.3 Aires associatives

Les biologistes considèrent que les aires associatives seraient impliquées dans deux fonc­tions principales: l'intégration de l'activité de différentes aires primaires, et la mise enrelation des aires sensorielles et des aires motrices. De ce fait, on considère souvent lesaires associatives comme le substrat anatomique des activités corticales supérieures quesont la cognition et la perception. Il est à noter que d'un point de vue phylogénétique, lataille des zones associatives croît au cours de l'évolution des espèces et qu'elle atteint unmaximum pour l'être humain.

Chaque aire sensorielle primaire est reliée avec une série d'aires sensorielles secondairesadjacentes. Par exemple, l'aire 17 de Brodmann (correspondant à une aire visuelle pri­maire), se projette vers l'aire 18. Ces aires secondaires sembleraient effectuer une analyseplus détaillée des entrées sensorielles. Par la suite, les aires secondaires se projettent,soit les unes sur les autres, soit sur les aires associatives. Conjointement, les aires as­sociatives sembleraient alors impliquées dans de nombreuses fonctions supérieures tellesque les mouvements volontaires, la perception sensorielle, la cognition, les comportementsémotionnels, la mémoire et le langage. En fait, une aire associative particulière n'estspécialisée que dans une partie de ces tâches.

1.3.1 Le cortex : aires primaires et associatives

Le cortex est constitué de différentes aires fonctionnelles primaires reliées de façon bidi­rectionnelle à des aires sensorielles secondaires (somatosensorielles, visuelles ou audi­tives). Pour ce qui est des afférences provenant du cortex visuel, on a tendance au­jourd'hui à considérer que le traitement de l'information visuelle comporte deux voiesdistinctes [Mis83, Ung95]. Le premier chemin (chemin ventral), implique une voie occipito­temporale, tandis que le chemin dorsal implique une voie occipito-pariétale. La dichotomiefonctionnelle entre ces deux voies a été mise en évidence par des expériences de lésions.

- 23 -

Page 30: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Données biologiques

Il semblerait en effet que des lésions de la voie ventrale affecteraient la reconnaissancedes objets alors que des lésions de la voie dorsale, produiraient des perturbations dans lalocalisation des objets [Poh73]. C'est ce qui a amené de nombreux chercheurs à supposerque le cortex temporal serait plus particulièrement dédié à la reconnaissance d'un objet("quoi ?"), et le cortex pariétal à sa localisation dans l'espace ("où ?") [Ung95].

1.3.2 Le cortex préfrontal

On divise habituellement la partie du lobe frontal antérieure aux aires motrices primairesen deux régions: les aires prémotrices (l'aire motrice supplémentaire et l'aire prémotrice)et le cortex associatif préfronta1. Le cortex préfrontal reçoit des afférences de la ma­jorité des aires sensorielles supérieures et de l'hippocampe. Il se projette vers le cortexprémoteur, vers toutes les aires associatives et vers l'hippocampe.

Des lésions effectuées au niveau du cortex pré-frontal sembleraient montrer une in­fluence sur l'apprentissage de séquences, mais pas d'influence sur la représentation etl'apprentissage de séquences temporelles (qui impliqueraient sans doute des mécanismesde type conditionnement). Les patients ayant subi des lésions du cortex préfrontaldorsolatéral sont capables d'apprendre le premier critère (apprentissage d'une règled'association) du test du Wisconsin5 mais sont, par contre, incapables d'apprendre ledeuxième critère (changement de règle d'association au cours du temps). Cela sembleraitsuggèrer un déficit dans l'apprentissage de nouveaux éléments.

Une fonction du cortex préfrontal serait donc de mesurer les conséquences d'actionsenvisagées et de planifier son comportement par rapport à cette projection dans le futur.

1.3.3 Le cortex limbique

Le terme limbique a été introduit par Broca dès 1878, pour désigner les "bords" entourantles hémisphères cérébraux. Le grand lobe limbique, comme il le nommait, est constituéde deux circonvolutions, le corps calleux et l'hippocampe, et s'inscrit dans les structuresde l'appareil olfactif Plus tard, Herrick suggèrera que le cortex olfactif est impliquédans des fonctions sans rapport avec l'olfaction et peut être en liaison avec des fonc­tions complexes agissant sur le comportement global, l'apprentissage, la mémorisation,les motivations et les états affectifs. Papez propose un circuit anatomique impliquantl' hypothalamus, les noyaux antérieurs, le gyrus cinguli et l'hippocampe et qui serait à labase des émotions [Pap37]. Des expériences poursuivant ces travaux ont confirmé que lesfonctions du système limbique dépassaient largement le cadre de l'olfaction et ont conduità l'acception actuelle du terme système limbique.

Par exemple, des stimulations (ou l'ablation) de portions du cortex limbique associatifaltèrent les états émotionnels. Certaines stimulations produiraient ainsi la sensation depeur. Par ailleurs, il a été montré que certaines régions du cortex limbique pouvaient

5ee test est utilisé pour diagnostiquer des troubles fonctionnels du lobe frontal. Il s'agit de trouvercertaines règles d'association entre des cartes en utilisant uniquement une information de type "bon" ou"mauvais" donnée uniquement après qu'une série d'associations a été effectuée.

- 24 -

Page 31: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

s'activer lors d'expériences entraînant des perturbations émotionnelles comme par exemplelors de l'anticipation d'un choc électrique.

Les afférences du système limbique proviennent de l'ensemble des aires sensoriellessupérieures et ses projections comprennent la majorité des aires corticales, y compris .le cortex préfronta1. Le cortex limbique étant impliqué dans la représentation d'étatsémotionnels, cette projection vers le cortex préfrontal suggére l'influence de ce paramètredans les fonctions préfrontales, en particulier la planification par les mouvements. Parailleurs, le système limbique aurait un effet modulateur des transmissions sensorielles.

Des observations cliniques sur des individus ayant subi une lésion d'une des structureslimbiques ont cependant montré que ces interventions chirurgicales n'affectaient pas leurscapacités perceptuelles. Par contre, le système limbique joue un rôle essentiel dans ladétection de caractéristiques nouvelles ou singulières au sein cl 'un contexte sensoriel. Cettemodification des caractéristiques d'un stimulus peut, par ailleurs, amener à un changementde la signification affective qui lui est associée. Ce sont sans doute les nuances apportéespar les réactions du système limbique qui participeraient à la "personnalité" de l'individu.

Il est intéressant de noter, par ailleurs, que le système limbique possède denombreuses afférences provenant des circuits modulateurs (circuits noradrénergiques,sérotoninergiques et dopaminergiques) dont on connait l'implication dans l'élaborationet la modulation des états affectifs. De surcroît, les neurones des structures limbiquessont sensibles aux hormones stéroïdes et aux endorphines qui modulent la perception dessituations stressantes.

Le système limbique comporte différentes structures tant corticales que sous corticalesavec des origines phylogénétiques diverses (structures dans le paléocortex mais aussi dansle néocortex). Les structures impliquées sont les suivantes:

• L'archicortex dont l'élément principal est l'hippocampe,

• Le paléocortex entièrement dédié aux fonctions purement olfactives,

• Le cortex transitionnel faisant l'interface entre l'archicortex et le paléocortex,

• Le septum,

• L'amygdale,

Dans la suite de ce paragraphe, nous nous intéressons plus spécifiquement au rôle del'amygdale et de l'hippocampe dans l'apprentissage et les émotions.

L'amygdale

De nombreuses expériences de lésions ou cl 'excitations électriques ont montré que lesnoyaux amygdaliens jouent un rôle essentiel dans les mécanismes à l'origine des émotions[Kaa67, LeD90, Kap90]. Par ailleurs, il semble que l'amygdale soit impliquée dans le con­ditionnement instrumental (cf. chapitre III). Des expériences de conditionnement auditif

- 25 -

Page 32: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Données biologiques

sur des rats ont en effet montré quels étaient les circuits participant au conditionnementde la peur (voir figure 4).

D'un point de vue anatomique des études sur le rat ont fait apparaître que le noyauamygdalien était composé de quatre sous-structures: le noyau latéral, le noyau basa­latéral, le noyau basal accessoire et le noyau central vers lequel les autres sous-structuresenvoient des efférences [Kre78b, Kre78a, Pri81, Rob82].

(Q~!o -0- 0THALAMUS AMYGDALE HIPPOCAMPE

1a) STIMULUS b)

rr1?;i~L~NOYAU NOYAU

BASAL BASO-ACCESSOIRE LATERAL

~NOYAU -/CENTRAL

Figure 4. a) Schéma des structures connectées à l'amygdale b) connexions entre les sous-structures dunoyau amygdalien. (d'après [Led94J)

Les informations sensorielles proviennent d'un niveau thalamique et se projettent di­rectement au niveau du noyau latéral. Celui-ci envoie des liens vers le noyau basal acces­soire, le noyau base-latéral et finalement, vers le noyau central. Enfin, le noyau central estrelié au tronc cérébral ce qui lui permet de déclencher diverses réactions physiologiques.Le conditionnement de la peur se ferait par l'intermédiaire d'une potentialisation à longterme des connexions thalamo-amygdaliennes.

L'hippocampe

Il existe de nombreux travaux portant sur l'hippocampe. Cette structure serait en effetimpliquée dans de nombreux phénomènes ayant des répercussions sur le comportementde l'individu.

Ainsi, des travaux ont mis en exergue l'implication de l'hippocampe dans les processusmnésiques. L'ablation de l'hippocampe a des effets désastreux sur la mémoire [MiI68,Sco57]. Un individu ayant subi cette ablation, est incapable, par la suite, de mémoriserquoi que ce soit. Par ailleurs, cet individu présente une amnésie rétrograde pouvants'étendre sur les quelques jours ou les quelques semaines ayant précédé l'ablation. Unehypothèse a donc été formulée sur le fait que l'hippocampe pourrait être impliqué dans lesmécanismes de transfert de la mémoire à court ou moyen terme vers le cortex (mémoireperma.nente) [Squ92].

- 26 -

Page 33: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

D'autres résultats ont montré l'implication de l'hippocampe dans les processus de lo­calisation dans l'espace, ce qui semblerait prouver son utilité pour la navigation. ü'Keefe[J.û78] a ainsi observé qu'il existait dans l'hippocampe du rat, des cellules dont l'activitéest "maximale quand le rat est à un certain endroit dans un lieu qu'il connaît quelque soitson orientation. L'existence de ces "cellules de lieu" (Place Cells) semble prouver quel'animal est capable de créer en interne une représentation de la situation spatiale dans"laquelle "il se trouve (nous discuterons cette interprétation au chapitre IV). Cependant,de telles cellules n'ont pas été retrouvées chez les primates. Par contre, il semblerait qu'ilexiste chez les primates des "cellules de vues" (View Cells) répondant préférentiellementpour la reconnaissance d'une vue particulière en un lieu donné [RoI95].

Du point de vue anatomique, la formation hippocampique est une structure du systèmelimbique située dans l'archicortex. Elle est constituée de deux élements séparés par lafissure de l'hippocampe: le Gyrus Dentelé (Dentate Gyrus - DG) et la Corne d'Ammon(CA). Une subdivision est faite au niveau de la corne cl'Ammon entre CAl, CA2 et CA3.Par ailleurs on associe aussi à la formation hippocampique des structures proches tellesque le subiculum (8ub) et le cortex entorhinal (Entorhinal Cortex - EC).

Le cortex entorhinal est une aire du cortex recevant des afférences de la majorité desaires sensorielles supérieures et des aires associatives. Par ailleurs, il envoie lui-même desefIérences dans l'ensemble des aires associatives.

Le circuit neuronal au sein de l'hippocampe est le suivant [Ama93]: des afférences enprovenance de la"couche II de EC se projettent sur DG et CA3 par l'intermédiaire desfibres perforantes. Par ailleurs, DG envoie aussi des liens synaptiques vers CA3. De lamême manière CA3 possède des liens avec CAl qui reçoit cependant aussi des afférencesdu niveau III de EC. Le subiculum reçoit des liens en provenance de CAl mais ausside la couche III de EC. Finalement, des projections de CAl et du subiculum viennentatteindre en retour les niveaux V et VI de EC [Ama93, Tre94]. Par ailleurs, CA3 projettedes liaisons collatérales sur lui-même. Le schéma suivant donne un aperçu des liaisons ausein de l'hippocampe (voir figure 5).

Des liens réciproques entre l'hippocampe et l'amygdale ont aussi été mis en évidence.Il en est de même pour le septum, une structure corticale de la base, qui envoit desprojections cholinergiques qui permettraient de moduler l'activité des structures del'hippocampe [Has95].

Un mécanisme important dans le fonctionnement de l'hippocampe, est la capacité depotentiation à long terme (Long Term Potentiation - LTP) de la plupart de ses connexionsinternes. On entend par potentiation, la facilitation d'une réponse postsynaptique par ex­citations successives des voies afférentes sollicitant cette synapse. La LTP peut durer3s,15s, quelques minutes, voire même parfois jusqu'à plusieurs semaines! Cette car­actéristique des fibres perforantes semblerait être la source des capacités de mémorisationrapide dont fait preuve l'hippocampe.

Les interprétations fonctionnelles des différentes structures sont dérivées du modèle deBanquet et Gaussier [Ban97].

Dans la suite de notre discussion, nous nous appuierons sur les données biologiques que

- 27 -

Page 34: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Données biologiques

Bases de retards

représentationspatio/temporelle

ReconnaissanceCortexfrontal

Be"place cells"

SystèmelimbiqueSeptum

Pigureô, Structures et liens au sein de l'hippocampe

nous venons de présenter à la fois pour élaborer nos architectures de contrôle robotiqueet pour envisager dans quelle mesure elles peuvent être des modèles de phénomènes bio­logiques. Nous avons insisté, en particulier, sur l'hippocampe car nous suggèrerons dansle chapitre III son implication dans la représentation interne de stimuli complexes. Parailleurs, nous proposerons au chapitre IV un modèle rendant compte des capacités deplanification.' Nous 'tentons, par ailleurs, de montrer que ce système pourrait refléter lefonctionnement de l'interaction entre l'hippocampe et le cortex pré-frontal.

- 28 -

Page 35: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

2 Modèles de réseaux de neurones

Dans ce paragraphe, nous présentons différents modèles de réseaux de neurones permet­tant la catégorisation de "formes" de manière autonome. Pratiquement} nous carac­térisons une "forme" par un vecteur d'attributs, spécifique à une situation donnée. Lesmodèles que nous étudierons nous serviront de briques élémentaires pour construire lesarchitectures que nous proposerons dans le chapitre sur le conditionnement et dans celuisur la planification. Dans un premier temps, nous donnons une description du neuroneformel et nous présentons la règle de Hebb qui est à la base de la modélisation des processusd'apprentissage. Nous présentons ensuite le mécanisme de compétition du Winner TakeAIl, la carte de Kohonen et le modèle ART de Grossberg. Enfin, nous donnons les détailsde fonctionnement de la carte topologique probabiliste proposée par Gaussier et Zrehen[Gau94d].

2.1 Modèle du neurone formel

Dans la plupart des modèles formels, on représente l'activité du neurone par une grandeuranalogique qui s'identifie à la fréquence d'émission des potentiels d'action sur l'axone. Onne tient donc pas compte de l'aspect séquentiel de la propagation de l'information dansles neurones biologiques. Dans la majorité des cas, ce modèle est suffisant.

Figure 6. Schéma d'un neurone formel

Considérons le modèle de neurone formel présenté figure 6.Soit Ii l'entrée d'un neurone (activité du neurone précédent).Soit Wi j le poids synaptique associé à la synapse liant le neurone i au neurone j.Soit O, la sortie du neurone j.On définit aussi,

• Le potentiel: Poi ; = L Wij . Ii - ()

• La fonction d'activation (ou fonction de sortie) : Oj(t) = f(Potj)

Les entrées et sorties sont soit binaires soit réelles. La fonction de sortie est une fonctionnon linéaire plus ou moins proche de la sigmoïde. Les principales fonctions de sortie sont:

- 29 -

Page 36: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

• la fonction de Heaviside: H(x) = { ~ :~ : ~ ~ CI]. { Isix>_O 0]:'

• la fonction signe: Sign(x) = -1 si x < 0 :~" ~ . ~ .

. . {l~x>a.• les fonctions linéaires à seuils :f (x) = ~x si x E [-a,a]

-1 si x < a 4

• les fonctions sigmoïdes: f(x) = tanh(kx) ou He1- h [l]

• les fonctions à base radiale (Radial Basis Functions - ~BF) :

(x)2 1f (x) = exp( - ;; ), f (x) = 1+E!:II ,...0'2

La modélisation des phénomènes de plasticité synaptique ont, par ailleurs, per­mis de développer des modèles de neurone formel expliquant certains des mécanismesd'apprentissage. L'un des premiers essais de modélisation de l'apprentissage associatif, aété réalisé par Hebb [Heb49] dès 1949. La règle qu'il a énoncé s'exprime ainsi:

"Quand une cellule A excite par son axone une cellule B et que} de manièrerépétée et persistante} elle participe à la genèse d'une impulsion dans B} unprocessus de croissance ou un changement métabolique a lieu dans l'une oudans les deux cellules} de telle sorte que l'efficacité de A à déclencher uneimpulsion dans B est} parmi les autres cellules qui ont cet effet} accrue."

En utilisant les notations propres au neurone formel, on peut traduire cet énoncé sousla forme suivante :

Wij(t +1) = Wij(t) +e- Ii . O, (1)

Cette règle est à la base de nombreux mécanismes d'apprentissage, et en particulier àl'origine des modèles que nous présenterons dans les paragraphes suivants.

- 30 -

Page 37: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II

2.2 Winner Take AlI (WTA)

Notions de biologies et modèles de R.N.

Le WTA simule les mécanismes de compétition existant entre neurones ou populations deneurones. Le modèle courant utilise des groupes de neurones formels dont l'apprentissageest fixé par la règle de Hebb. L'ajout de liaisons inhibitrices latérales permet de simuler leprocessus de compétition. Après convergence, seul le neurone ayant la plus grande activitéreste actif et inhibe tous les autres [Rum85, Lip87]. Ce type de WTA est utilisé commemoyen de catégoriser les vecteurs présentés en entrée du réseau. En effet, si on présenteceux-ci un nombre suffisant de fois, chaque neurone du WTA acquiert une sensibilitédifférente (il faut cependant que les vecteurs soient orthogonaux entre eux sinon le mêmeneurone peut gagner pour toute une famille de formes) [Gro76, Gro88 , Koh84].

Le modèle "Instar" de Grossberg utilise un mécanisme de compétition sur deux couches[Gro73]. Ce n'est pas un WTA pur, mais plutôt un mécanisme de rehaussement decontraste. Nous en présentons cependant les caractéristiques afin de mieux appréhenderle fonctionnement des mécanismes de compétition.

Dans ce modèle, chacun des N neurones d'une première couche envoie des liaisonsinhibitrices sur l'ensemble des N neurones de la couche suivante excepté le neurone cor­respondant à la position du neurone de la couche d'entrée qui reçoit un lien activateur(voir figure 7).

x·1

001·1

Figure 7. Compétition à deux couches: modèle INSTAR

Xi est la valeur instantanée du potentiel d'un neurone i du groupe de sortie. I k estl'activité du neurone k de la couche d'entrée.

La dynamique de chacun des neurones de la couche de sortie est modélisée parl'équation:

dx'_t =-Ax.+(B-x.).r-x'''''Ikdt

t t t tL...J

k#i

N

On pose A et B > 0, l = L: Ii et Bii=l

reflectance pattern.

- 31 -

Page 38: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

Le terme - AXi est un terme de décroissance passif du potentiel du neurone. (B - Xi)· Iireprésente l'influence du lien activateur connectant le neurone de la couche d'entrée etcelui de la couche de sortie. Enfin, le terme -Xi L /k représente l'influence des inhibitions

, k~,

provenant des autres neurones. Il est à noter que le potentiel Xi 'est borné entre 0 et B.

Après un régime transitoire, on obtient la valeur à l'équilibre lorsque ~i = O. La

valeur moyenne Xi du potentiel des neurones de la couche de sortie est alors :

On déduit de cette équation que l'activité globale de sortie est normalisée puisque

LX; = L (~~~) =:~~ <B.

Un mécanisme de compétition à une couche a aussi été proposé par Grossberg (voirfigure 8). L'équation différentielle régissant le comportement du réseau s'écrit alors:

dx·

dtt = -AXi + (B ~ Xi) . [f(Xi) + Ii] - Xi L [f(Xk) + [k]

k#i

Avec f (.) la fonction de sortie du neurone.

Figure 8. Compétition sur une couche

2.3 Carte de Kohonen

Il a. été observé que, dans de nombreuses zones du cortex, des colonnes VOISInes onttendance à réagir à des entrées similaires. Dans les aires visuelles, par exemple, deuxcolonnes proches sont en correspondance avec deux cellules proches de la rétine [Hub77].Des observations identiques on pu être faites dans le bulbe olfactif, ou l'appareil auditif[Knu79] (voir plus généralement [Woo81a, Woo81b, Woo81cD. Ces observations ont menéKohonen [Koh89] à proposer un modèle de carte topologique auto-adaptative qui permetde coder des motifs présentés en entrée tout en conservant la topologie de l'espace d'entrée.

Dans la plupart des applications, les neurones d'une carte de kohonen sont disposés surune grille 2D (cf. figure 9-b). Le poids associé aux liaisons latérales entre neurones est

- 32 -

Page 39: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

fonction de la distance entre le neurone source et le neurone cible. La valeur du poids estdonnée par une fonction "chapeau mexicain" (Difference Of Gaussians - DOG - voir figure9-b)). Les connexions provenant des entrées, quant à elles, arrivent perpendiculairementau plan formé par les liaisons latérales.

I j .

,.

l\... ....

f \/ \ ...

1

/ ,\r-.

"- j \ //

:'--",

02

0.4

05

o.

b) -6 -4 -3 -2 -1 0 1 2 3 4 5

Sorties

a)

Figure 9. a) S~hématisation d'une carte de Kohonen. b) Représentation d'une différence de 2 gaussiennes.

On distingue deux types de fonctionnement. Dans un premier temps, l'ensemble desformes devant être apprises sont présentées au réseau et les vecteurs de poids sont misà jour de manière à approximer les vecteurs d'entrée. Les paramètres de la carte sontadaptés au fur et. à mesure pour qu'elle se stabilise de plus en plus. La deuxième étapeest la phase d'utilisation proprement dite. Dans ce cas, on présente un motif particulieret c'est le neurone dont le vecteur de poids minimise la distance avec le vecteur d'entréequi réagit.

Le mécanisme d'apprentissage est le suivant. La carte comporte N neurones organiséssur une grille rectangulaire, Chaque neurone est relié à M entrées. Le vecteur des poidsest donné par Wi = ·[Wil' ...,WiM]T. Le vecteur d'entrée est donné par 1 = [Il, ..., lM].

• Les poids des liaisons latérales sont initialisés aléatoirement.

M

di = L:(lj - Wij )2j=1

• On calcule la distance entre le vecteur présenté et le vecteur de poids de chaqueneurone:

• On choisit le neurone dont la distance avec le vecteur d'entrée est la plus petite.

• Les poids de ce neurone sont mis à jour selon l'équation:

- 33 -

Page 40: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

• Le coefficient d'apprentissage ",(t) est choisi dans [0,1]. Il doit décroître peu à peu.

• Le voisinage des neurones est mis à jour de manière à se rétrécir au cours du temps.

• On recommence sur l'ensemble des motifs jusqu'à la stabilisation complète des poids.

Après un long temps de convergence, le réseau évolue de manière à représenter au mieuxla topologie de l'espace de départ. Il faut en fait noter que la notion de conservation dela topologie est en fait abusive puisqu'en général la taille du vecteur d'entrée est biensupérieure à la dimension de la carte (souvent 2) et il est donc impossible de conserverparfaitement la topologie. En fait le terme de quantification vectorielle de l'espace d'entréedoit plutôt être utilisé.

L'implémentation n'est pas biologiquement plausible: le temps de convergence est troplong pour expliquer notre capacité à apprendre une forme en un seul essai. Le point le plusimportant est que pour permettre la réduction du voisinage, la valeur des liens latérauxdoit changer. Ainsi un lien activateur peut devenir inhibiteur! Un autre point est quela qualité de la convergence du réseau dépend grandement des paramètres spécifiant lavitesse d'apprentissage et la taille du voisinage. Ces paramètres sont fixés de manièresubjective par le programmeur. Dans [Koh93], Kohonen souligne que la modification deces paramètres pourrait provenir des transformations ontogénétiques du cerveau.

Il faut aussi noter que les cartes de Kohonen ne peuvent pas être utilisées "en ligne"puisque pour assurer la convergence: il faut pouvoir présenter plusieurs centaines de foisl'ensemble des motifs. Or, dans le contexte d'un système autonome, on ne peut connaîtreà l'avance l'ensemble des formes qui seront rencontrées. Par ailleurs, pour que la carteapprenne correctement, il est nécessaire de présenter les formes de façon aléatoire (ce quiest difficile à imaginer dans un contexte réel). On ne pourra donc pas utiliser les cartesde Kohonen pour catégoriser des formes, mais elles peuvent servir de justification à nospré-traitements au niveau des images (apprentissage de la forme des filtres de bas niveau,détecteurs de contours... ).

2.4 Adaptive Resonance Theory (ART)

Le principe général du modèle ART conçu par Carpenter et Grossberg est de créer unsystème d'apprentissage autonome capable de concilier adaptation et stabilité (compromisà effectuer entre plasticité et rigidité synaptique). Le problème d'un système trop plastiqueest qu'il peut apprendre des informations même si elles ne sont pas pertinentes ou oublierdes informations apprises. A l'inverse, un système trop rigide empêche tout apprentissage.La résolution de ce dilemme entre plasticité et stabilité est donc centrale à toute recherchevisant à comprendre ou créer un système capable d'apprendre de manière autonome.Une description complète des équations régissant le modèle ART peut être trouvée dans[Gro85, CarS7, Gro88, Gro91b]. Pour notre part, nous nous sommes surtout intéressés aufacteur de vigilance introduit par Grossberg pour gérer de manière autonome le passaged'un mode "rigide" à un mode "plastique".

- 34 -

Page 41: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

La modèle proposé par Grossberg s'appuie sur une analyse descendante du problèmede reconnaissance, du niveau le plus abstrait (classification) vers la couche d'entrée desvecteurs binaires à reconnaître (voir figure 10). Le premier niveau FI est constitué d'unemémoire à court terme (Short Term Memory - STM) qui permet de normaliser l'activitédes formes d'entrée par rapport à l'activité totale des entrées. Le deuxième niveau, F2est un WTA qui effectue la catégorisation des formes. Les niveaux FI et F2 sont reliésl'un à l'autre dans les deux sens et c'est la modification des poids associés à ces liens quipermet l'apprentissage à long terme.

- ...Ito'- Connexions non modifiables

Controle du gain

+

+Controle du gain

t Connexions adaptative

STMF2

+ +Remise a 0 de la STM

+

STMFI

++

Fonne en entree

Figure 10. Schéma complet du modèle ART faisant apparaître les deux niveaux d'analyse, les liens etles contrôles de gain.

La reconnaissance et l'apprentissage d'une forme reposent sur un fonctionnement ins­piré de la résonance dans les systèmes physiques. Si le système a déjà appris une catégorie,FI et F2 entrent en résonance rapidement et il y a renforcement de la forme apprise grâceà un système d'apprentissage associatif des liens entre Ft et F2.

Pour ce qui est de la décision d'apprendre une nouvelle forme, un paramètre appelévigilance est introduit. Il permet de décider si oui ou non, la forme présentée est suff­isamment nouvelle, vis à vis d'un critère de similarité, pour être apprise. Le calcul desimilarité est effectué en comparant l'erreur de reconstruction de la forme mémorisée avecle motif actuel. Ce paramètre est extrêmement intéressant puisqu'il permet de régler leniveau de généralisation ou de discrimination (voir figure Il).

Le modèle ART offre une solution originale à l'apprentissage autonome et non-superviséde catégories. Ses qualités sont principalement dues à l'introduction d'un paramètre devigilance qui permet de définir le "degré" d'apprentissage et de gérer correctement ledilemme plasticité-stabilité. Cependant, la vigilance étant un paramètre essentiel au bonfonctionnement de l'apprentissage, il est nécessaire que ce paramètre soit correctementmaîtrisé.

UTI développement de ART, appelé ART2 a été effectué afin de permettre de catégoriserdes formes analogiques plutôt que des motifs binaires [Car91a]. Le ARTMAP ou fuzzy-

- 35 -

Page 42: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

Formes apprises sur les neurones

1 2.

FI FIRES

B Ec p=O.51: C-D C-E rE

1 RES

F rERES

Ei rEH ri::I: r 1-: ;1;:r r 1-: ;r-K rl·::rL rL.7M rl.:rH

2 1 RES

N r 1. :r 1'-'1 RES

CI:'l - 7 ....P rl_7""li rl_:r 1-1

1 l RES

Fi! ri_ 7 1-'RES

5 ri_ -:- 1-11 2 II;

Tri _:- 1-1ltl;3

1 2 4 S 6

FI ElB t:e p=O.81: Fe 1:

1 RES

o F;=~gE FcI:DE

3 1 l RES

F F I:OEEi Fç::OIiH F I:DEH

1 z RES

:I F ç::O;i:H:r FI:O;rHK F 1: o r 1-:

RES

L F L D:r 1-:RES

M F L D :r ...: !vi4 2 3 1 lEs-

N F L o r ...:1'-'RES

C F L o r ...:1'-'RES

P ~ 1:- P :;r t: ~IIli ~ Ir- ~ :;r ~: 1;-11A F L 0 :r ...:.... 1

~

5 t;= Ir- P :r 1:: ""1T i;= L P :;r ...: ..., 1

Figure Il. Exemple de formation de catégories pour deux valeurs du paramètre de vigilance.

ARTMAP, quant à lui, est l'association de deux modules ART ou fuzzy-ART reliés entreeux par l'intermédiaire d'un map field. Ces cartes permettent de prédire les associationspouvant exister entre les catégories fabriquées par les deux modules ART [Car91b, Car92].Dans ce cas, on peut apprendre la topologie existant entre les formes présentées. Cepen­dant, cette topologie ne peut être apprise qu'a posteriori (une fois que les catégories ontété crées dans les deux modules ART). Les informations de topologie ne peuvent doncpas être utilisées comme moyen de généralisation a priori.

Au paragraphe III, nous tenterons de proposer un modèle biologiquement plausiblequi permet de réguler le terme de vigilance en fonction des motivations de l'agent. Laseule lacune du modèle ART est son incapacité à conserver la topologie, contrairement

. au réseau de Kohonen. L'utilisation d'un WTA au niveau de F2 ne permet pas d'utiliserdes informations de "ressemblance" entre les formes apprises.

- 36 -

Page 43: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R. N.

2.5 ' La carte topologique probabiliste (Probabilistic TopologicalMap - PTM)

PTM a été mis au point pour concilier à la fois les qualités du modèle ART de Carpenteret Grossberg et des cartes topologiques de Kohonen, L'intérêt majeur du modèle ARTest de permettre l'apprentissage non-supervisé en-ligne; tandis que les cartes de Kohonenautorisent une généralisation topologique a priori. Les représentations topologiques sontd'un grand intérêt pour 2 raisons principales. D'une part, elles permettent de préserver, aumoins localement, la topologie .de l'information en entrée. Deux stimuli proches activentdes neurones proches sur la carte. D'autre part, les cartes permettent d'induire unereprésentation analogique de la reconnaissance d'un motif donné (comme en logique floue).

Par ailleurs, par rapport à un WTA, les cartes topologiques permettent de réduire lenombre de neurones nécessaires pour représenter l'espace d'entrée. Sans préservation dela topologie, toutes les associations possibles doivent en effet être apprises (les formestopologiquement "proches" cl 'une forme donnée étant alors considérées comme distinctesde cette forme). Un neurone n'ayant pas encore appris ne peut fournir d'informationet lui-même ne peut pas profiter de, ce qui a été appris par d'autres neurones (pas degénéralisation a priori). A l'inverse, lorsque la topologie est conservée, un neurone dansle voisinage d'un neurone gagnant répond avec une activité fonction de la distance à cegagnant (diffusion de l'activité du gagnant sur son voisinage). Cela donne ainsi des ca­pacités de généralisation intéressantes [Zre95, Zre94, Gau97b]. Toutefois, cette capacité degénéralisation peut devenir un handicap si elle devient abusive, c'est-à-dire si deux formestrès distinctes font réagir le même neurone (à la limite, un seul neurone peut se mettreà répondre quelque soit la forme présentée). Il faut donc que les règles d'apprentissageutilisées pour associer ces informations avec d'autres cartes soient capables de supporterde tels problèmes.

Les caractéristiques principales de PTM sont données ci-dessous :

• Carte de neurones de taille donnée avec topologie donnée au départ.

• Les motifs d'entrée et les poids synaptiques prennent uniquement des valeurs bi­narres.

• Un motif "nouveau" est codé en un seul coup (apprentissage incrémental),

• Une fonction de sélectivité est utilisée pour permettre aux neurones qui ont apprisune forme cl 'avoir une réponse plus importante si on leur présente de nouveau lamême forme et beaucoup plus faible que les autres neurones si on leur présente uneforme différente.

• La topologie est préservée grâce à un mécanisme permettant de coder l'intersectionde 2 formes déjà apprises, sur un neurone situé entre les neurones codant chacunede ces formes.

- 37 -

Page 44: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

• Un terme de vigilance permet de moduler le degré de généralisation de la carte etde décider du codage ou non d'un "nouveau" motif.

Figure 12. Exemple de codage des motifs T, L et 1 sur une carte PTM monodimensionelle. La courbereprésente la diffusion de l'activité du neurone gagnant "L" sur ses voisins. Par ailleurs, du fait desmodifications probabilistes des poids codant les motifs, le "1" se retrouve codé au milieu de "T" et de"L" puisqu'il ressemble le mieux à leur intersection.

La carte est composée d'un ensemble de neurones interconnectés, répartis sur une grillemono ou bi-dimensionnelle. On appellera 1 le vecteur d'entrée binaire présenté à la carte.Chaque neurone composant le vecteur d'entrée est connecté à l'ensemble des neurones dela carte.

L'algorithme utilisé est présenté ci-dessous:

1. Présenter le vecteur d'entrée 1 à la carte.

2. Trouver le gagnant N*, c'est-à dire le neurone avec la plus grande activité. Lasimilarité entre 1 et le vecteur de poids est calculée tout d'abord et l'activité réelledu neurone est obtenue après la fonction d'activation fk dont la sélectivité, variable,est donnée par Dk (t).L'activité du neurone Nç, lors de la présentation du vecteur d'entrée binaire l, estmesurée comme suit:

3. Act(Nk,I) = fk[sentree(Wk,1)] + bruit, où

Si t.: < 1

alors

Sentree(Wk, I) = ~ . (~~ ~w • i: + p ~ S ~~ . t:)SInon

- 38 -

Page 45: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre II Notions de biologies et modèles de R.N.

OÙ Wk est le vecteur de poids de Nk

{

W; = 1- Wket 1;; == 1 ~ Ir:

Vkw = Wk +(Q - 1) . Wk

A[x](t) = ih(t). exp[-~ C-~~(~)+y]

Wk est le vecteur dérivé de Wk dont les composantes Wk sont égales à 1 quand Wka été renforcé plus d'une fois et 0 autrement. P est la dimension de l'espace d'entréeet S est le nombre présumé de 1 dans le vecteur d'entrée (c'est une constante).

4. Diffuser l'activité du gagnant sur la carte selon la fonction de diffusion :

Dk(t) o, (Nk , N*)= exp [-u. d?nap (N*, Nk ) ]

5. Si Dk(t) > ÎJk(t) et Dk(t) < v (vigilance), permettre l'apprentissage sur la carte:

• Si Aléa < Dk(t) alors mettre à jour les poids Wk de Nk :

o Wk(t +1) = IWo Si!W = 1 et Wk(t) =1 alors Wk (t +1) = 1

Sinon Wk'(t + 1) = Wk'(t)

• Modifier le paramètre de sélectivité de Ni; :Dk(t + 1) = Dk(N*, Nk)

•Il est nécessaire de remarquer deux points importants de cet algorithme. Le premier

concerne la normalisation de la mesure de similarité. Elle permet de normaliser de manièreséparée la partie du vecteur d'entrée correspondant au "fond" et la partie correspondantà la "forme". Le deuxième point à noter est la manière dont est obtenue la topologie:la probabilité de modification des poids des neurones dans le voisinage du gagnant estproportionnelle à leur distance à ce dernier (voir [Zre95]).

Quand on présente un motif en entrée, le neurone de la carte le plus actif est choisicomme gagnant. Du fait du mécanisme de diffusion, les neurones dans le voisinage dugagnant sont activés eux aussi, ce qui forme une "bulle d'activité". Ce mécanisme estcouplé à une procédure d'apprentissage qui adapte plus ou moins les liens synaptiquesd'un neurone au motif d'entrée en fonction de sa distance au gagnant. Comme les liens neprennent que des valeurs binaires, les poids des neurones voisins du gagnant sont modifiésde manière à coder le motif d'entrée avec une probabilité dépendant de la distance augagnant. Ainsi, quand un gagnant a appris un motif donné, c'est l'un de ses voisins qui ale plus de chance de répondre si on présente un motif semblable mais légèrement différentdu motif appris. Si le motif est totalement différent, il est codé plus loin sur la carte avec

- 39 -

Page 46: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modéles de R.N. non-supervisés

une distance maximale correspondant à la taille de la bulle d'activité. Si 2 motifs différentsont été appris ·sur la carte, leur intersection sera codée entre les neurones correspondants.En effet, .notre mécanisme probabiliste donne plus d'importance aux poids synaptiquesqui sont liés à l'intersection des 2 formes qu'aux autres poids.

Dans ce paragraphe, nous avons présenté une série de modèles dédiés à l'apprentissageautonome de formes. Nous avons en particulier présenté le modèle de carte topologiquepropabiliste proposé par Gaussier et Zrehen. L'intérêt principal de cette carte est deconcilier à la fois les qualités du modèles ART et des cartes de Kohonen. Cette cartenous servira par la suite comme brique neuronale pour la reconnaissance de formes. Enparticulier, en l'associant avec un mécanisme de compétition servant à la sélection del'action, nous présenterons l'architecture neuronale PerAc qui permet l'apprentissage "en­ligne" d'associations sensori-motrices.

- 40 -

Page 47: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

Le conditionnement

Un psychologue, rentrant d'une expérience, raconteà un ami: "Nous disposons maintenant d'une tech­nique très sûre pour amener nos animaux à faireexactement ce que nous voulons; je viens juste­ment de conditionner un rat à appuyer sur unlevier." Le rat en question a été remis dans sa cagehabituelle avec un de ses congénères; il raconte àcelui-ci: "Nous disposons maintenant d'une tech­nique très sûre pour amener l'homme du labora­toire à faire ce que nous désirons : quand j'aifaim, il suffit que j'appuie sur le levier pour qu'ilobéisse immédiatement et me donne à manger; il estlittéralement conditionné."

D'après Le Ny [IN92]

Projetons nous dans l'avenir et essayons d'imaginer qu'elles pourraient être les appli­cations futures de la robotique. En fait, nous allons être aménés à revisiter entièrementnotre conception des rapports homme/machine (Bil97]. En effet, dans le cas d'une voitureou d'une machine à laver, il est difficile de parler d'autonomie ou d"'intentions" car lamachine ne fait qu'obéir à des commandes fixées par l'homme. Mais qu'en sera-t-il desrobots autonomes qui viendront bientôt peupler la planète pour décharger l'homme decertaines tâches pénibles? Comment nous comporterons-nous face à ces machines? Queleur demanderons-nous, et de quelle manière?

Imaginons, par exemple, un robot ménager domestique à qui on pourra indiquer aujour le jour, telle ou telle tâche de nettoyage de la maison. On pourrait, par exemple,lui dire simplement "passe l'aspirateur", et le robot se mettrait à la tâche sans demanderconstamment comment faire pour la réaliser. Ce genre de "programmation" nécessiteraitcependant une période durant laquelle le propriétaire du robot devrait lui apprendrecomment réaliser la tâche qu'il demande. Toutefois, il est illusoire d'espérer indiquerde manière exhaustive l'ensemble des situations que le robot pourra rencontrer (c'est àdire d'envisager toutes les contraintes "prescriptives" auquel le robot aura affaire). Onvoudrait plutôt programmer le robot en lui indiquant "ne fais pas tomber la lampe" ou

41

Page 48: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

"contourne le radiateur", ce que Stewart appelle des contraintes "proscriptives" [Ste95c].Le robot pourra ainsi apprendre à contourner un meuble présent dans la pièce, c'est-à­dire, à éviter une certaine zone de l'espace. Cependant, il est important que le robotpuisse aussi s'adapter aux nouvelles conditions de son environnement. Si, par exemple,l'objet qui gênait ses mouvements est déplacé, voire retiré, le robot devra "désapprendre"le mouvement qui le forçait à éviter la zone où était l'objet. Il est clair que la notion deplasticité doit jouer dans les deux sens : le robot doit apprendre les nouvelles contraintesde son environnement mais il doit aussi "oublier" les contraintes qui sont devenues inu­tiles. Cependant, imaginons maintenant que nous demandions au robot de ne plus passerl'aspirateur mais de se mettre à nettoyer les vitres. Le mécanisme d'adaptation du robotdoit lui permettre d'apprendre cette nouvelle tâche. Par contre, si plus tard on veut qu'ilpasse de nouveau l'aspirateur, il faut que l'apprentissage de la nouvelle tâche ne lui aitpas fait oublier la première tâche sans quoi il aurait tout à réapprendre depuis le début.

Cette projection dans l'avenir tient, bien sûr, beaucoup plus de la science-fiction qued'une réalité tangible à court terme. Cependant, il nous semble que les problèmes con­cernant l'apprentissage de tâches complexes par des robots doivent être considérés dèsmaintenant. Les modèles que nous développons tentent donc d'incorporer les processusd'adaptation que nous avons décrits plus haut. Nous nous intéressons au développementde techniques d'apprentissage et de détection de nouveauté mais prenons aussi en comptela notion de désapprentissage et d'apprentissage multiple. A ce titre, les théories com­portementalistes proposées en psychologie expérimentale offrent des modèles intéressantsdes mécanismes d'acquisition et d'extinction de comportements. Cependant, est-il possi­ble de réaliser des tâches plus complexes que de simples apprentissages stimulus-réponse?Les comportementalistes suggèrent que l'apprentissage de "chaînes de conditionnement"(c'est-à-dire de conditionnements élaborés à partir de conditionnements déjà appris), per­mettrait d'expliquer l'apparition de comportements complexes.

Nous nous sommes inspirés des capacités de conditionnement observées chez les ani­maux, pour élaborer l'architecture de contrôle d'un agent autonome capable d'apprendreun comportement complexe consistant en un parcours de labyrinthe (voir 1).

Figure 1. Schéma simplifé de l'architecture que nous allons présenter dans ce chapitre. EV: EntréeVisuelle; SV : Sortie Visuelle; EM : Entrée Motrice.

Le principe de l'architecture proposée est d'apprendre à aSSOCIer la reconnaissance

Page 49: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

d'une situation visuelle à un mouvement spécifique. Dans un premier temps, nous envisa­gerons la complexité de cette tâche dans le cas d'un mécanisme d'association entièrementstochastique ou d'une énumération'. Nous donnerons par la suite des données sur lamodélisation -du conditionnement pavlovien et du conditionnement instrumental. Etant'donné les difficultés rencontrées par les modèles "classiques", nous proposerons une règlede conditionnementprobabiliste dont le principe est d'associer à chaque poids une mesurede confiance de -manière à pouvoir tester différentes hypothèses. Nous insisterons surl'influence prépondérantedu signal de renforcement sur les performances du mécanismed'association. Nous proposerons d'ailleurs un mécanisme permettant de construire cesignal de renforcement de manière autonome. Nous validerons notre modèle en réalisantune série de tests en simulation. Par ailleurs, nous montrerons comment nous avonsimplanté l'algorithme de renforcement probabiliste sur un robot réel. Nous insisterons, enparticulier, sur la nécessité de revenir sur le mécanisme de catégorisation des situationsperceptuelles. Nous proposerons alors un mécanisme de catégorisation contrôlé de manièreautonome.

Page 50: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Apprentissage d'un labrinthe

1 Apprentissage d'un labyrinthe par condition­nement

Des expériences de psychologie expérimentale sur des cobayes et des rats ont montré queceux-ci étaient capables d'apprendre les mouvements devant être effectués à chaque bi­furcation d'un labyrinthe pour atteindre le plus rapidement un endroit où se trouve dela nourriture [Hil39, HuI52]. Considérons, par exemple, le labyrinthe schématisé figure 2.Chaque intersection est identifiée par un motif particulier (une flèche, par exemple) indi­quant la direction à suivre pour trouver la nourriture (voir figure 2).

Nourriture

F

B 1II111~•••·•• ••••••·•••. > t]

E

~ Départ

r;..•...••......~..••.•...·.•••..

•i . D

Figure 2. Le labyrinthe utilisé et les motifs correspondants perçus par le robot (images obtenues grâceà la caméra COD de notre robot).

Le protocole expérimental consiste à placer l'animal à l'entrée du labyrinthe et à lelaisser se déplacer librement. Au début, ses mouvements sont erratiques et il semble qu'iltrouve uniquement la nourriture par hasard. Cependant, petit à petit, il améliore ses per­formances et atteint la nourriture de plus en plus rapidement. A la fin de l'apprentissage,il se rend directement à l'endroit où se trouve la nourriture et ce, en empruntant le pluscourt chemin. D'après les psychologues comportementalistes ("béhavioristes"), ce typed'apprentissage peut être expliqué grâce aux théories du conditionnement instrumental.Selon eux, l'animal apprend progressivement à associer les stimuli visuels qu'il perçoitau cours de son parcours du labyrinthe avec les mouvements qu'il effectue au moment

- 44 -

Page 51: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

où il les perçoit. Par ailleurs, le renforcement reçu quand l'animal trouve la nourriturelui permet de sélectionner les mouvements les mieux adaptés. Ainsi, dans le cadre duconditionnement, le problème du labyrinthe peut se réduire au "simple" apprentissagedes associations sensori-motrices permettant à chaque instant de guider l'animal vers lebut. Dans notre exemple cela revient à apprendre à associer les stimuli A et C avec lemouvement "tourner à gauche" et le stimulus B avec le mouvement "tourner à droite" .

Figure 3. Labyrinthe réel

La difficulté majeure est que le renforcement ne survient qu'à la fin du parcourset. récompense l'.ensemble des actions que l'animal a effectué (problème de "credit­assignement temporel"). Il est donc difficile de faire la part entre les "bons" mouvements(ceux qui mènent vers le but) et les "mauvais" mouvements (ceux qui en éloignent).

1.1 Formalisation du problème d'associations sensori-motrices

Considérons un ensemble de neurones qui permettent de déclencher différentes réactionslorsqu'ils sont activés. Considérons, par ailleurs, que ces neurones reçoivent en entréel'ensemble des stimuli qui peuvent se rencontrer dans l'environnement. L'apprentissagedu problème d'association sensori-motrices vu précédemment consiste alors à apprendreles liens pertinents entre les stimuli propres aux différentes situations du labyrinthe et lesréactions correspondantes (voir schéma figure 4).

Cependant, l'apprentissage de "situations" (A ou B par exemple), recouvre un conceptplus étendu que la simple notion de stimulus sensoriel. En effet, dans le contexte pure­ment comportementaliste, un stimulus ne correspond qu'à la perception directe d'une ca­ractéristique de l'environnement (fréquence d'un son, couleur d'une lumière... ). Or, la re­connaissance d'une scène visuelle demande l'intégration d'un ensemble de caractéristiquesperceptuelles, ce qui ne correspond donc pas à la définition d'un ensemble de stimuli telleque nous venons de l'énoncer. Il convient donc d'élargir le problème d'association sensori­motrice et de considérer qu'il existe, en amont du mécanisme d'apprentissage des associ­ations sensori-motrices, un système qui permet de reconnaître les situations rencontrées.Nous verrons toutefois que l'apprentissage autonome de ces situations est un problème ensoit 'et nous envisagerons au paragraphe 6.4 une manière de le résoudre.

- 45 -

Page 52: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1

~ Liende 1 a tous

Apprentissage d'un labrinthe

Figure 4. Représentation en modules du problème d'associations sensori-motrices.

1.2 Recherche aléatoire ou recherche exhaustive

Avant de chercher à résoudre le problème. des associations sensori-motrices par uneméthode s'inspirant des mécanismes du conditionnement, envisageons le coût calculatoired'algorithmes classiques.

• L'idée la plus simple pour résoudre le problème d'associations sensori-motrices estsans doute de· rechercher aléatoirement les solutions parmi l'ensemble des associa­tions équiprobables possibles. Considérons qu'il existe N stimuli et P mouvementspossibles .. Il y a donc pN associations possibles. La probabilité de trouver la solu-

tion à un instant k est donc p = )N (q = 1-p). Soit Tk la probabilité de trouver la

solution au ·kèm e tirage aléatoire. Tk suit une loi géométrique Tk = p. qk-l. Le tempsd'attente moyen·pour trouver la solution est donné par l'espérance mathématique de

. ·.··1 N VQ..;ce processus E(Tk ) = - = P et l'écart-type est u(Tk ) = - = pN. (PN - 1).

.. p pCe temps moyen de recherche croît donc exponentiellement avec le nombre de sti-muli/réponses possibles. Pour un système simple tel que celui représenté figure 2, oùl'on trouve 4 situations possibles (A, B, C et "couloir") et 3 mouvements ("tournerà gauche", "avancer tout droit" ou "tourner à droite"), le temps moyen d'attenteest par exemple 81. Imaginons une implantation de cet algorithme sur un robotse déplaçant, par exemple à la vitesse de 1 rn/s. Considérons, par ailleurs, que lebut se trouve à 10 m du point de départ. Dans le meilleur des cas, il faut donc10 s au robot pour atteindre le but. Supposons que pour chaque tirage aléatoire, lecomportement sensori-moteur soit testé pendant un temps T = 20s (par exemple).

En moyenne, il faudra donc 20 . (34 ± )34 • (34 - 1) = 27 ± 26mns pour trouver labonne solution. Si on ajoute une situation ("cul-de-sac" par exemple) et un mouve­ment ("faire demi-tour"), la combinatoire possible passe à 1024 associations. Celacorrespond, dans le cas pratique, à un temps d'attente moyen de plus de 5 heures.

- 46 -

Page 53: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

Selon le même principe, nous avons calculé le nombre d'associations sensori-motricespouvant être effectuées en moins d'un an (voir figure 5). Les conclusions à tirer sontqu'en une année, il est impossible d'apprendre des associations sensori-motrices im­pliquant plus de 6 actions. Ce qui est bien au .dela du. temps dont nous pouvonsdisposer en pratique. Il est donc essentiel de pouvoir limiter le nombre d'actions.

201816

.•. -:.......;--.;.,..--=--....•..•.•:- •.••.•.•..•..•...•..:- •.••.••..: •..••••.

6 8 10 12 14Nombrede categories visuelles

4

....... ; : : : : : " .

2

6 : : :- ..

18

8

~~ 16

~oE 14CD

"CCD.5 12Eoz

10

22 ...-----~--.-_~-....,..-__r_-----,--~-....._-_.__-_.,

20

Figure 5. Complexité maximale d'un problème d'associations sensori-motrices pouvant être trouvées enun an de calcul par un .algorithme de recherche aléatoire (voir texte pour les conditions expérimentales).

• Une autre solution simple à notre problème d'apprentissage peut consister à utiliserun algorithme d'exploration exhaustive. Cependant, il n'est évidemment possible delancer une procédure de recherche que sur des situations qui ont déjà été rencontrées(lors d'une phase d'exploration aléatoire par exemple), ce qui suppose que ces si­tuations sont gardées dans une mémoire à court terme. Comme pour l'algorithmed'exploration aléatoire, la recherche exhaustive est elle aussi soumise au problèmed'explosion combinatoire. Par ailleurs, un autre problème provient du fait que d'unessai à un autre, une situation peut ne plus être rencontrée. Si nous reprenonsl'exemple du labyrinthe de la figure 2, et que nous considérons deux parcours, l'unmenant en F le deuxième menant en D. En considérant que l'on utilise unique­ment une mémoire à court terme, comme les situations B et C ne sont plus ren­contrées, elles sont oubliées. Dans ce cas, l'énumération complète doit recommencerdu départ. Une autre solution peut consister à utiliser une liste chaînée pour stockertoutes les associations possibles pouvant apparaître au cours de l'exploration d'unlabyrinthe et n'ayant pas encore été testées. Le coût en mémoire d'un tel algorithmeaugmente alors en fonction du nombre de bifurcations possibles dans le labyrinthe.Le problème majeur est que si l'on imagine un tel mécanisme d'énumération, on

- 47 -

Page 54: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Apprentissage d'un labrinthe

ne peut pas le programmer localement. Il faudrait en fait imaginer que l'animatpossède une structure de type "mémoire de travail" (ce qui est le cas de nombreuxanimaux). Nous verrons que des structures biologiques telles que l'hippocampe etle cortex pré-frontal, dont sont dotés les mammifères, pourraient jouer ce rôle. Uneautre possibilité serait d'utiliser une boucle articulatoire (apprentissage de séquencesde mots) pour mémoriser l'ensemble des situations possibles. Il va de soi que l'uneet l'autre des possibilités envisagées sont anthropomorphiques et sortent du simplecadre du conditionnement.

1.3 Apprentissage de plusieurs tâches

Le problème tel que nous l'avons posé suppose l'apprentissage d'une seule tâched'associations sensori-motrices. Toutefois, dans le cadre d'expériences de psychologieexpérimentale, il a été montré que l'apprentissage de certaines associations pouvait servirde base pour l'apprentissage de nouvelles associations plus complexes ou que certains stim­uli pouvaient être utilisés pour conditionner différentes réactions. Il serait donc intéressantde pouvoir traiter le problème d'associations sensori-motrices dans le cadre plus généralde l'apprentissage de tâches multiples (voir figure 6).

o.'

\ p..··~Task2

Figure 6. Apprentissage de plusieurs tâches. Ensemble des stimuli/réactions intervenant dansl'apprentissage des 2 tâches particulières.

L'entrée du système est composée de l'ensemble des stimuli possibles et la sortie dusystème comporte une série de réactions stéréotypées. On considère l'apprentissage dedeux tâches distinctes mettant en jeu deux sous-ensemble des stimuli et des réactions,avec ou sans recouvrement de ces stimuli et réactions. Le problème principal est desavoir comment l'apprentissage de l'une des tâches influence l'apprentissage de l'autre

- 48 -

Page 55: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

tâche. Idéalement, on voudrait que seuls les liens effectivement pertinents pour une tâchedonnée soient pris en compte. Le problème que l'on vient de schématiser reviendrait alorsà décomposer le problème de départ en deux sous-problèmes d'associations. Cependant,nous verrons qu'il est difficile de pouvoir effectuer cette séparation car les mécanismesde génération de diversité (génération de bruit pour explorer l'environnement de manièrealéatoire) peuvent conduire à faire oublier de précédents apprentissages. Nous proposeronsdonc au paragraphe 4.2, un algorithme permettant de ne modifier que les poids qui ontété utilisés au cours d'une tâche donnée.

Dans la suite de ce chapitre, nous cherchons à nous inspirer de mécanismes biologiquesdu conditionnement afin de construire un modèle synthétique pouvant être utilisé pourcontrôler un robot mobile capable d'apprendre par lui-même à résoudre des problèmesd'association sensori-motrice. Le conditionnement s'incrit au sein de l'apprentissage as­sociatif. Il comporte deux sous catégories : le conditionnement classique et le condition­nement instrumental dont le principe repose sur l'utilisation de signaux de renforcementpositifs ou négatifs pour inciter ou au contraire contrarier certains comportements (voirfigure 71) .

Apprentissage Associatif

Conditionnement

Conditionnement Classique Conditionnement Instrumental

Recompense Punition

Figure 7. Relations entre les différentes formes de conditionnement.

Dans un premier temps, nous présenterons les données psychologiques et biologiquespropres au conditionnement classique puis au conditionnement instrumental. Nous ob­serverons, étape par étape, les modèles rendant compte de l'apprentissage des animaux les

1 Récompense ou punition existent aussi en conditionnement classique mais ce sont alors de mécanismesimposés (et non choisis) sous forme de stimulus inconditionnel.

- 49 -

Page 56: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Apprentissage d'un labrinthe

plus simples (invertébrés) jusqu'aux plus complexes (mammifères) pour tenter d'extraireles principes généraux nécessaires à la compréhension du fonctionnement du condition­nement. Cette vision globale nous permettra alors de .proposer une règle de condition­nement probabiliste (Probabiliste Conditioning Rule - PCR) applicable au contrôle d'unrobot mobile autonome. L'intérêt de .cette règle est de permettre aux robots d'apprendreà associer des paires stimulus-action même dans le cas.où. les événements n 'ont pas lamême probabilité d'apparition. Par ailleurs, cette règle continue de fonctionner même sile signal de renforcement est frustre et retardé. Enfin, ce mécanisme d'apprentissage a étédéveloppé pour permettre l'apprentissage de plusieurs tâches en utilisant le même réseaude neurones et sans oublier ce qui a été appris d'une tâche sur l'autre.

- 50 -

Page 57: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

2 Le conditionnement classique ou pavlovien

Le conditionnement classique a pu être formalisé dès 1927 gràce aux expériences du psy­chologue russe Pavlov [Pav27]. L'expérience la plus connue de Pavlov est celle du chienet de la clochette. Le processus expérimental consiste à présenter de la nourriture à unchien qui n'a pas mangé depuis 24 heures. Sa réaction "réflexe" à la vue de la nourritureest de saliver. Le protocole du conditionnement consiste alors à faire tinter une clochetteà chaque fois que l'on présente la nourriture. Après plusieurs présentations concomitantesde la nourriture et de la clochette, le chien se met à saliver dès qu'il entend la clochette,même si la nourriture n'est plus présentée. On dit alors que le chien a été conditionné àsaliver lorsqu'il entend la clochette.

Il faut remarquer ici qu'un lien stimulus-réponse existe déjà avant tout condition­nement : lorsque le chien affamé voit la nourriture, il salive forcément. Par la suite, grâceà la concomitance du Signal Inconditionnel SI et du Signal Neutre SN la réaction de condi­tionnement peut s'établir. En fait, l'animal "se rend compte" que le Signal Neutre SN (quidevient le Signal Conditionnel SC lorsque le conditionnement est réalisé) prédit l'arrivéede la nourriture. La réaction de salivation conditionnée (Re) est donc la conséquence decette attente de la nourriture. Le conditionnement classique agit ainsi comme un moyende généraliser le cadre de déclenchement des réactions "réflexes" (Réaction Incondition­nelle - RI) à l'ensemble des indices "pertinents" (dans le sens où ils indiquent l'arrivéede la nourriture) présents dans l'environnement. Ce phénomène souligne les capacitésd'adaptation d'un individu à son environnement.

Si on suit ce raisonnement, on peut se demander ce qu'il advient dans le cas où le SCcontinue d'être présenté alors que la nourriture n'est plus présente. On s'aperçoit alorsqu'il existe un mécanisme d'oubli du conditionnement appelé extinction. Dans l'expériencedu chien de Pavlov, par exemple, si on continue à faire sonner la clochette mais que lanourriture n'est plus donnée, le chien salive de moins en moins, jusqu'à ce qu'il n'y ait plussalivation du tout. On dit alors que le conditionnement a été éteint (désapprentissage).

A l'inverse, si l'on continue de donner de la nourriture au chien tout en conservant leSC, on observe alors que l'intensité de la réaction conditionnée croît jusqu'à atteindre unseuil. On parle alors de saturation de la réaction conditionnée.

2.1 Les apports de la biologie

Bien que le conditionnement fût connu en psychologie dès les années 30, il aura fallu at­tendre les années 80 pour que les biologistes aient les outils nécessaires pour l'analyse desmécanismes neurochimiques impliqués dans le conditionnement. Nous présentons ici desrésultats obtenus lors de l'étude des processus chimiques du conditionnement d'invertébréset de vertébrés. Bien que les spécificités biologiques des animaux étudiés soient trèsdifférentes, il semblerait que les processus biologiques entrant dans l'établissement duphénomène de conditionnement soient communs à tous les animaux. Cela tendrait àmontrer que ces mécanismes sont des processus généraux impliqués dans le condition­nement chez l'ensemble des êtres vivants.

- 51 -

Page 58: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2

2.1.1 Le conditionnement de l'aplysie

Conditionnement Classique

L'aplysie ou "lièvre de mer" est un animal marin au système nerveux relativement simpleschématisé figure 8. Du fait de cette simplicité, les biologistes ont pu étudier les implica­tions de l'apprentissage associatif sur la transmission synaptique des voies nerveuses par­ticipant au conditionnement classique. L'aplysie possède en effet un réflexe de rétractationrapide des branchies lorsqu'elle reçoit un choc à la queue. Pour conditionner l'animal, ilsuffit de toucher son manteau (SC) lorsqu'un choc à la queue (SI) est appliqué. Après leconditionnement, on observe qu'un simple attouchement du manteau suffit pour faire serétracter précipitamment les branchies.

MOlOneurone

Neurones sensoriels

MoloDeUrone

Branchies(RI-Re)

Bl1UIchies(RI-RC)

_ Uen;u:dyateur

-----(] UeR facilitateur

Interneurone facililateur ---e UeR ;u:dvateur

---<J UeR facilila1eUr

IDterneuronefacilitateur

Figure 8. Schéma des mécanismes nerveux impliqués dans le conditionnement de l'aplysie.a) Avant leconditionnement, seule la voie réflexe (SI) permet de rétracter les branchies b) Après conditionnement,J'augmentation de J'efficacité des synapses propageant j'information (SC) permet d'activer les motoneu­rones des branchies.

L'équipe de Kandel a tenté d'élucider les mécanismes chimiques qui sont supposés êtreimpliqués dans le processus de conditionnement classique de l'aplysie et ont proposé leschéma présenté figure 9 [Kan86]. L'hypothèse qu'ils ont formulée est que le SI provo­querait une augmentation du nombre de vésicules synaptiques au niveau de la jonctionentre la voie sensorielle provenant des capteurs tactiles du manteau et les motoneuronescommandant les branchies. L'action de cette voie sensorielle en serait donc ainsi facilitée.Il est à noter que dans cette explication, un rôle important est donné à l'AMP cycliqueet à la sérotonine (neuromédiateur impliqué dans la facilitation de certaines synapses).

2.1.2 Le conditionnement de la drosophile

La drosophile est une variété de mouche utilisée dans de nombreuses études génétiques.Leur système nerveux étant plus complexe que celui de l'aplysie, une étude détaillée desmécanismes impliqués dans le conditionnement est difficile. Par contre, l'étude génétiquede mutants ayant des difficultés d'apprentissage lors d'expériences de conditionnement a

- 52 -

Page 59: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

Ion K'"::~~ \ ( Ion Ca2+ "

U Serotonine '" 0 • Neurone

'il <J~. • : Postynaptique

t--~----.~t=;[)D;j~....--...• 0 0 ~.J'l0 00 •

•••• 0 00 lTOOO • •• .0 0 0 0 00 • •

Recepteur de •• 0 •• : .••. - .Serotonine _. • • ~ . -I.-i

AdenyJcylase V Calmoduline ~.~ • ~ 1 •

. ,,' .".,,"""l:l.... ...~ .:, (I-j. ;.=ATP AMPc /

Vesiculede 1neurotransmetteurs Fente synaptique

Figure 9. Schéma proposé par Kandel [Kan86] des processus chimiques intervenant dans le condition­nement de l'aplysie. L'activation de la synapse facilitatrice par le SI entraîne un afflux de CA2+ ce quiactive la calmoduline puis l'adénycyclase augmentant ainsi la production d'AMPc et de protéine kinase.Grâce à ce phénomène les conduits K+ se ferment, ouvrant plus grand les conduits CA2+. Ce mécanismepermettrait de former plus de vésicules synaptiques.

permis de supposer l'implication de certaines substances chimiques dans les mécanismesd'apprentissage. Le conditionnement à proprement parler consiste à placer des mouchesdans un tube de verre en position verticale dont les deux extrémités sont bouchées avecdes substances émanant des odeurs qui les attirent. L'arrivée d'une mouche dans lapartie supérieure du tube provoque une décharge électrique alors que l'autre extrémiténe déclenche pas de décharge. Après un certain temps, 90% des mouches évitent lapartie supérieure [JeI81]. Le reste des individus sont des mutants ne parvenant pas à êtreconditionnés. L'étude de ces individus mutants a montré qu'ils possèdent soit des carencesen Dopa décarboxylase/ (DDC) soit des carences en enzyme agissant sur le niveau d'AMPcyclique [TuI87, Dud88]. On peut voir sur le schéma de Kandell (figure 9) que ces résultatscorroboreraient le fonctionnement neurochimique qu'il avait supposé pour le mécanismede conditionnement de l'aplysie.

2.2 Modèles du conditionnement pavlovien

En considérant que les stimuli participant à un protocole de conditionnement sont ap­pliqués sur les synapses d'entrées d'un neurone unique commandant directement la réponseinconditionnelle, la règle de Hebb (voir chapitre II) peut suffire en première approxima­tion pour expliquer le mécanisme de conditionnement pavlovien. Ainsi, pour le neuronefigure 10, si le SI est présenté en même temps que le SC, la RI est activée (du fait duSI). Le poids entre le SC et le neurone déclenchant la RI croît. Après un certain temps,le poids a augmenté suffisamment pour que le SC présenté seul, fasse activer le neurone.La RI est devenue Re.

2Indispensable à la synthèse de la dopamine et de la sérotinine.

- 53 -

Page 60: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2

SI~

Ol-----.~ RI

,:JISC »>" ,. ..

a) ---- __ ----

Conditionnement Classique

SI~

. / Of---~..-- Re ou RI

b)SC~

Figure 10. Mécanisme de conditionnement classique d'un neurone à partir de la règle de Hebb. a) Avantconditionnement. b) Après conditionnement.

L'un des principaux problèmes pratiques limitant l'utilisation de cette règle, est queles poids augmentent de manière exponentielle [Eas84]. En effet, comme dW = I . 0 =L> W[t -1] ·1= [2. W, le résultat de l'équation différentielle régissant la valeur des poidsest une exponentielle croissante. Une solution à ce problème consiste alors à normaliserl'ensemble des poids arrivant sur le neurone (McC86], cependant ce processus ne trouveaucune justification biologique. D'un point de vue plus plausible vis à vis de la biologie,on peut envisager de seuiller la sortie du neurone et les poids synaptiques.

Rescorla et Wagner, deux psychophysiologistes, ont proposé un modèle du condition­nement pavlovien qui essaye de palier les problèmes de saturation et explique le phénomèned'extinction [Res72] (nous verrons de quoi il s'agit plus loin, et nous en envisagerons lesconséquences). Leur idée est que la variation du poids qui associe le SC à la RI dépendde la différence entre la réponse obtenue et celle désirée. Ce principe peut être formaliséselon l'expression suivante:

(1)

Avec ai . Ii l'intensité du SC (ai est la constante d'apprentissage); f3 le coefficientd'apprentissage; Ous», la réponse souhaitée; Oj, la réponse effective.

La figure Il-a) montre l'acquisition d'un conditionnement en utilisant la règle deRescorla et Wagner. Au début, le poids est nul, l'entrée est inactive. A t = 50, l'entrées'active. Le poids croît alors petit à petit jusqu'à atteindre sa valeur de saturationOMax = 0,8. On a choisi ai = 0,7 et (3 = 0,5. La figure Il -b) montre l'extinctiond'un conditionnement. Jusqu'à t = 50, à chaque fois que l'entrée est présentée, la sortieest active (et OMax = 0.8). A partir de t = 50, la sortie n'est plus active et OMax = O.La valeur du poids tend donc petit à petit vers O. Les paramètres choisis sont les mêmesque précédemment.

Ce modèle expliquerait correctement les augmentations d'efficacité synaptique re­marquées pour l'aplysie et la drosophile. Il est intéressant, par ailleurs, de remarquer quele modèle de Rescorla et Wagner est équivalent à l' Adaline de Widrow et Hoff [Wid60]qui revient à faire une minimisation au sens des moindres carrés (Least Mean Square ­LMS) employée en traitement du signal adaptatif.

- 54 -

Page 61: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

10 20 30 40 50 60 70 80 90 100

Temps

t~----------------------------\111111111,,1111111111

0.8t---------.,

0.6

0.4

1

- - VlIIiaIlondel'entr.. 1-VlIriallonclJpoid.

0.2 • saturdon de.-u.

Temps

1"

0.2

------------~-----,,111

'8,0.8 ~ ..

e :~ :-&.6 1

~ :.§. :I:lI::O.4 : -- V~cIerentf..

1 -Varlatlondupoidll

: • Saturallond.1a1Olt1e1

Figure 11. Apprentissage de poids synaptiques utilisant la règle de Rescorla et Wagner. a) Apprentissagedu conditionnement. b) Extinction du conditionnement.

2.3 Mécanismes de conditionnement complexes

Les mécanismes de conditionnement que nous avons abordés jusqu'à présent sont desmécanismes simples impliquant uniquement un seul stimulus et un seul comportement.En réalité, tout stimulus autre que le SI peut être un SC potentiel. Si, par exemple, aucours d'une expérience, on veut conditionner une réaction à un stimulus SCl, il se peutque d'autres stimuli (SCx) présents dans l'environnement (tel que la vue de la blouse del'expérimentateur par exemple) apparaissent au même moment que le SI. Dans ce cas, cesstimuli participent au conditionnement au même titre que SCl. Le conditionnement estdonc établi non pas à partir de SCl seul, mais de l'ensemble SCl+SCx. Et effectivement,par la suite, les SCx seuls peuvent déclencher la réaction.

La plupart du temps, les stimuli autres que le stimulus principal ne sont pas pertinentsdu point de vue du conditionnement que l'expérimentateur désire réaliser. On parle alorsde stimuli parasites. Pavlov et, par la suite Skinner, ont tenté de maîtriser la portée de cesstimuli parasites en isolant au maximum les animaux de test dans des "tours du silence"(Pavlov) ou des "boites de Skinner".

Les psychologues ont fait l'hypothèse que la combinaison de plusieurs stimuli pouvaitêtre à l'origine de l'apparition de comportements complexes. En particulier, il est à noterque toute "réaction conditionnée peut, elle aussi, servir de stimulus déclenchant pour uneautre réaction conditionnée (voir figure 12). Ainsi, selon les comportementalistes, tousles comportements, mêmes les plus complexes, pourraient être le résultat de "chaînes decondi tionnement" .

Pour confirmer cette opinion, une série de protocoles expérimentaux, faisant varier lesintervalles inter-stimuli et le nombre de stimuli, ont été proposés. Ceux-ci ont, en effet,mis en évidence différentes sous-catégories de conditionnements. Nous présentons dans ceparagraphe certains processus de conditionnement et nous justifions dans quelle mesureils peuvent être expliqués ou non par les modèles présentés au paragraphe précédent.

- 55 -

Page 62: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique·

Figure 12. Chaîne de conditionnement: la réaction de conditionnement peut servir pour conditionnerune autre réaction.

• Conditionnement retardDéfinition ce cas correspond à l'existence cl 'un recou­

vrement entre l'activation du SC et du SI.Modélisation La règle de Hebb et la règle de Rescorla et s~

Wagner rendent compte de ce comportement RI n T:mps

de manière immédiate. En effet, le SC et le ~ LSI étant concomitants, le poids correspon-dant à la reconnaissance du SC peut êtreaugmenté.

• Conditionnement de trace (trace conditioning)Définition A l'inverse du conditionnement retard, danss~

ce cas le SI intervient après que le SC a~T~s

d. RIisparu.

Modélisation Pour pouvoir expliquer ce type de condition­nement, il est nécessaire de considérer qu'ilexiste une mémoire à court terme permet-tant de garder trace du sc. Nous verrons aus~paragraphe suivant qu'il existe chez le lapin r n T~

de tel circuit de retard. RI------.J L

- 56 -

Page 63: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

• Réacquisition (Savings)Définition Le terme réacquisition indique l'aptitude d'un animal à réapprendre

un conditionnement préalablement éteint. Généralement ceréapprentissage est beaucoup plus rapide que le premier condition­nement. Ceci tend à montrer qu'il existe une trace du condition­nement restant dans le système même après l'apprentissage d'uneautre tâche.

Modélisation Le modèle de Hebb ne peut pas expliquer le phénomèned'extinction, il lui est donc impossible de rendre compte dumécanisme de réacquisition. Le modèle de Rescorla et Wagner peut,par contre, expliquer le mécanisme de réacquisition. Il suffit pourcela de supposer que OMax prenne une valeur non-nulle. Dans cecas, les poids sont diminués jusqu'à atteindre une valeur correspon­dante à ce seuil. Lors du réapprentissage, les poids augmententà partir de OMax. Ainsi, la réacquisition du conditionnement estbeaucoup plus rapide.

• Occultation (Overshadowing)Définition ce type de conditionnement consiste à conditionner l'animal grâce

à un stimulus composite SCI+SC2. Dans ce cas, on observe unconditionnement plus faible à SCI (resp. SC2) que si le condition­nement avait été effectué à partir de SCI (resp. SC2) seulement.

Modélisation On serait tenté d'expliquer ce phénomène en considérant que lorsde l'apprentissage, comme SCI et SC2 sont présentés ensemble,les poids sont augmentés conjointement (grâce à la règle de Hebbou celle de Rescorla et Wagner). C'est donc l'activation de SCIet SC2 qui est nécessaire pour que le neurone déclenchant la RCs'active. Par contre, si SCI (ou SC2) est activé seul, le niveaud'activation du neurone correspond uniquement à l'activité de SCI;il est donc plus faible. Cependant, l'étude du conditionnement dulapin semblerait indiquer que ce n'est pas ce processus qui seraitimpliqué (voir détails au paragraphe suivant). L'explication seraitplutôt que la représentation composite SCI+SC2 est codée parun neurone spécifique (neurone de l'hippocampe). Dans ce cas,la modélisation est immédiate puisque on se retrouve dans un cassemblable au conditionnement retard ou conditionnement de trace.

SCI

so

- 57 -

RCfolte

pas de SC2

Page 64: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

• Blocage (Blocking)Définition on effectue un premier conditionnement à SCI, puis un second avec

un stimulus composite SCI+SC2. On observe alors un condition­nement très faible ou même absent à SC2 seul. C'est en fait unegénéralisation de l'overshadowing.

Modélisation Le processus de "blocage" semblerait donc conforter l'hypothèsede l'existence d'une représentation interne du stimulus compositeSC1+SC2. En effet, dans ce cas, on peut considérer SC1, SC2et SC1+SC2 comme 3 représentations distinctes pouvant chacuneêtre conditionnée séparement. Dans ce cadre, si SC1 et SCl+SC2sont ·à l'origine d'un conditionnement, il n'y a pas de raison pourque SC2 le soit.

SC1--lL SL _SC2 SLSLRe--lL SL _

Temps

• GénéralisationDéfinition ce terme indique la faculté d'un animal à généraliser un condition­

nement du stimulus utilisé lors du conditionnement à des stimuliproches. Imaginons, par exemple, qu'un chien ait été conditionné àsaliver lorsqu'il entend un signal sonore de 1000 Hz. Il salivera aussis'il entend un signal de 800 Hz ou 1200 Hz. Cependant, cette ac­tivité sera d'autant plus faible que le signal est éloigné du stimulusayant servi au conditionnement.

Modélisation En fait, la modélisation de ce type de conditionnement n'est pas liéeà la règle d'apprentissage mais à la capacité du système à généraliserou non la reconnaissance d'un stimulus. Ce phénomène pourraitêtre dû à la présence de cartes topologiques en entrée du systèmede perception.

Ret ~ 0J_~=----+---+_+-..;:::..,,_... f(Hz)

100 1000 1200

- 58 -

Page 65: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

• DiscriminationDéfinition le processus de discrimination consiste à effectuer un condi­

tionnement à SCI puis à ne pas récompenser des stimuliSC2 , semblables à SCI et qui, du fait du processus degénéralisation, déclenchaient la réaction de conditionnement. Cetteprocédure force ainsi l'animal à restreindre la zone de tolérance dedéclenchement de la réaction de conditionnement.

Modélisation Comme pour la généralisation, la modélisation de ce comportementne semble pas impliquer la règle cl 'apprentissage en elle même, maisplutôt la capacité du système à généraliser la reconnaissance d'unstimulus.

• Conditionnement inversifDéfinition deux conditionnements sont effectués: l'un avec SCl l'autre avec

SC2 puis les stimuli SCI et SC2 sont inversés.Modélisation Ce processus est semblable au processus de réacquisition.

• Discrimination positive (Feature-positive discrimination)Définition dans ce type de procédure, on renforce l'apparition de SCI puis de

SC2 alors qu'on punit l'apparition de SC2 seul. L'animal devientalors uniquement sensible à l'apparition de SCI, ou SCI puis SC2,mais pas à l'apparition de SC2 seul.

Modélisation Ce comportement est très semblable au phénomène du blocage. Eneffet, on peut considérer que la présentation de SCI puis de SC2correspond à un seul stimulus composite "temporel".

Tempi..

;emPI l"

RC~

SC2

Inhibition conditionnée (conditioned inhibition)Définition dans ce type de conditionnement, on renforce l'apparition de SCI

mais pas celle de SCI+SC2. Cela a pour effet d'inhiber la réactionprovoquée par SCI+SC2.

Modélisation Encore une fois, ce mécanisme est tout à fait explicable si on con­sidère qu'il existe une représention interne des stimuli composites.En effet, dans ce cas, la présence du stimulus SCI+SC2 corres­pond, en fait, à la reconnaissance du stimulus SCI uniquement.Après apprentissage, il faut considérer qu'une représentation deSCI+SC2 a été élaborée et que cette représentation ne produitpas de réaction.

SCl~ .IL-.IL-

- 59 -

Page 66: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

• Negative patiernitujDéfinition dans ce cas, on renforce I'apparition de SCI et SC2 mais pas celle

du signal composite SCI+SC2 e : L'animal apprend ainsi à réagir àSCI ou à SC2 mais pas àla présence simultanée des deux stimuli..

Modélisation Le "fonctionnement de ce type de conditionnement est tout à faitsemblable au processus d'occultation ou de blocage. Cela sem­blerait encore une fois conforter l'idée que SCI, SC2 et SCI+SC2correspondent à 3 représentations internes différentes pouvant êtreconditionnées séparement.

scz

sel~ SC2~ sei-sei~

Re~Re~RC __

10 T:"" "Il' T.,.

• Positive patterningDéfinition ce conditionnement consiste à récompenser l'apparition du signal

composite SCl+SC2 mais pas celle de SCI ou SC2 présentésseuls. L'animal réagit alors au stimulus composite mais pas auxstimuli simples.

Modélisation L'exemple du "positive patterning" vient de nouveau corroborernotre hypothèse sur l'existence de représentation interne des stimulicomposites.

sel~ sca~ SCl+SC2~

Re Re RC~.T....... T......

Le modèle de Rescorla et Wagner explique donc certains mécanismes de condition­nement complexe. Nous avons cependant montré que pour expliquer certains de ces con­ditionnements, il était nécessaire de considérer qu'il existait une représentation internedes stimuli composites. Ces résultats vont donc à l'encontre des premières théories com­portementalistes selon lesquelles de telles représentations n'existaient pas. L'existence deces représentations internes constituera l'apport propre du cognitivisme.

Le conditionnement du réflexe palpébral du lapin

A priori, vu la complexité du cerveau des vertébrés, on pourrait supposer que les pro­cessus biologiques du conditionnement y sont difficiles à déceler. Cependant, Thompsonet son équipe ont réussi à mettre en évidence un circuit nerveux relativement simple,impliquant de manière prépondérante le cervelet, qui intervient dans le conditionnementdu réflexe palpébral du lapin [Tho86, Tho89]. Le réflexe utilisé est un clignement de l'oeilprovoqué par une stimulation de la cornée. Le protocole de conditionnement utilise un

- 60 -

Page 67: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

Reaction ..

Conditionnement

SI --_...---__e

, Noyau du V e

'\ nerf cranien1

11

1

Figure 13. Circuit nerveux du réflexe palpébral du lapin.

jet d'air sur la cornée comme SI et un stimulus sonore comme sc. Après apprentissage,le lapin cligne de l'oeil dès qu'il entend le son conditionné.

A la suite de diverses expériences de lésions sur le cerveau du lapin, Thompson et sonéquipe ont été amenés à proposer le modèle schématisé figure 14.

• Le circuit réflexe: le SI entre via le nerf trigeminal jusqu'au noyau trigeminal(verne nerf cranien). De cet endroit repartent des voies vers l'abducens (VIerne nerfcranien) et ·le noyau abducens accessoire qui commandent directement les motoneu­rones déclenchant le clignement de l'oeil (voir figure 13).

• Le circuit véhiculant le sc :il excite le noyau cochléaire qui propage l'infiuxjusqu'aunoyau pontique. Par la suite, on identifie deux trajets des fibres moussues vers lenoyau interposé, l'un direct, l'autre passant d'abord par l'écorce du cervelet. Enfin,les sorties du noyau interposé se projettent sur le noyau rouge, lui-même se projetantvers le noyau abducens (cf. figure 14 - cellules de Purkinje).

• Le circuit SI, qui semblerait permettre le conditionnement à proprement parler partdu noyau V et se projette dans l'olive inférieure. A partir de cet endroit des fibresgrimpantes se projettent à la fois dans l'écorce du cervelet et le noyau interposé (cf.figure 14).

Le processus cl'apprentissage supposé est le suivant : le signal porté par les fibresgrimpantes servirait de signal d'apprentissage pour les synapses entre les fibres mous­sues et le noyau· interposé. Des expériences de lésion des fibres grimpantes ont en ef­fet montré. qu'elles rendaient impossible tout conditionnement. Cependant, pour quel'apprentissage soit possible, il est supposé que les cellules de l'écorce du cervelet permet­traient d'entretenir le signal provenant du SC de manière à rendre concomitant ce signalSC avec le signal d'apprentissage provenant du circuit SI.

Un modèle mathématique de cet apprentissage a été développé par Fiala, Bullock etGrossberg [Bu194]. Le principe de leur modèle est que le SC serait retenu dans unemémoire à court terme au niveau de la membrane des fibres moussues. Ces dernières

- 61 -

Page 68: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

Fibre parallele

Cervelet

Fibre grimpante

sc

Re

Noyau de

l'olive

inferieuresc

1,.1'

SI

Noyau V

11,,,

nerf cranien

, e',,

;',-- ..... ,

, ,1

,, • 1

,-- ....

Noyau du VI et VIInerf cranien

SI

.­,1se -------....1---1•• --1--------------'\ 1

" .. - - ,.l'" V Noyau Coch

Figure 14. Circuits nerveux du conditionnement du réflexe palpébral du lapin [Tho86, Tho89].

activeraient ensuite dans l'écorce du cervelet, une série de cellules granulaires dont lestemps de décharge seraient différents. Cet ensemble de cellules granulaires permettraitd'obtenir une base de décomposition temporelle du SI. Toujours au niveau de l'écorce ducervelet, les cellules de Purkinje qui inhibent spontanément le noyau interposé, seraientelles-mêmes inhibées par le signal d'apprentissage provenant de la voie SI (l'apprentissageest en effet ici une LTD - Long Term Depression). Cela aurait pour premier effet depermettre au cellules du noyau interposé de s'activer, autorisant ainsi l'apprentissage dessynapses des fibres moussues portant le SC. Un deuxième effet serait de permettre auxcellules de Purkinje d'apprendre la forme de la décomposition temporelle du SC sur la baseformée par les cellules granulaires. Cela expliquerait en fait que ces cellules sont capablesd'apprendre l'intervalle, appelé intervalle inter-stimulus (IlS), entre l'apparition du SCet du SI. La conjonction de ces deux mécanismes expliquerait ainsi le conditionnementde trace. Considérons en effet un SC seul. Celui-ci active les cellules granulaires parl'intermédiaire des fibres moussues. Au bout d'un certain temps correspondant à l'IlS,

- 62 -

Page 69: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

la cellule de Purkinje reconnaît la forme temporelle et s'inhibe. Grâce à l'activationprovenant des fibres moussues le noyau interposé peut être activé, déclenchant ainsi laréaction conditionnée.

Implication de l'hippocampe dans les phénomènes de conditionnement

En parallèle à cette étude du cervelet, il a été montré qu'au cours du conditionnement,certains neurones de l'hippocampe présentaient un motif d'activation corrélé avec celui

·de la réponse conditionnée et que l'augmentation de l'activité de ces neurones précédaitl'acquisition même du comportement. Par ailleurs, les neurones qui répondent au SCsont différents de ceux activés par la Re ou encore le SI [Ber83]. De plus, les cel­lules de l'hippocampe ne répondent pas seulement aux simples stimuli, mais aussi auxcombinaisons de stimuli [Wib86]. Ces faits sembleraient montrer une implication del'hippocampe dans le conditionnement.

Cependant, des expériences d'ablation de l'hippocampe ont montré qu'ellesn'empêchaient pas le conditionnement simple mais pertuberaient le conditionnement detrace ou le conditionnement de contexte. L'action de l'hippocampe serait donc plus com­plexe. L'une des propositions avancées est que l'hippocampe permettrait de modulerl'activité des fibres moussues allant du noyau pontique au cervelet et au noyau interposé[Ber80].

Par ailleurs, des expériences de lésions hippocampiques (LH) ont révélé quel'implication de l'hippocampe dans le conditionnement devait être plus subtile. En effet,certains types de conditionnements sont impossibles sur des animaux donc l'hippocampeest lésé. En particulier, lors d'expériences de réacquisition, les animaux lésés ont plus dedifficultés à réapprendre [Fre68, Smi65]. De même, les lapins LH ont des difficultés à ap­prendre le blocage [80177]. Par ailleurs, les animaux: lésés sont incapables d'apprendre unconditionnement inversif [Por86][Ber86], un problème de discrimination positive [Ros84],ou bien de "negative patterning" [Be185].

Il est important de remarquer que tous ces types de conditionnement font intervenirdes stimuli composites formés à partir de stimuli simples. Une des propositions est quel'hippocampe permettrait au cortex d'apprendre des associations de stimuli qui pour­raient par la suite être utilisées pour réagir sur le système moteur [8ch92]. Il y aurait ainsideux voies qui permettraient le conditionnement, l'une, directe, proviendrait des neuronesde perception et rejoindrait directement le cervelet (ce qui permettrait l'apprentissagede conditionnements simples), l'autre voie, passerait d'abord par le cortex (permettantl'apprentissage de conditionnement à partir de stimuli composites). L'hippocampe inter­viendrait pour fabriquer un signal d'erreur permettant au cortex d'apprendre le condi­tionnement. Par ailleurs, il est proposé que l'hippocampe modulerait l'apprentissage duconditionnement dans le cervelet, par l'intermédiaire de son action sur le septum. L'undes modèles de ce fonctionnement fait intervenir une règle de rétropragation généralisée[Sch92]. Nous émettons quelques doutes à ce sujet pour deux raisons, l'une biologique,l'autre, calculatoire. Tout d'abord, le schéma proposé explique l'apprentissage dans le cor-

- 63 -

Page 70: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

tex par des liaisons de neurone à neurone entre l'hippocampe et le cortex. Biologiquement,cela semble difficile à expliquer. En effet, toutes les liaisons de l'hippocampe vers le cortexpassent par le cortex enthorinal. Or celui-ci se projette dans le cortex de manière diffuseet aléatoire. Par ailleurs, un neurone du cortex entorhinal agit sur de nombreux neuronesdu cortex. Il est donc difficile d'imaginer une liaison neurone à neurone. D'un point devue calculatoire, si, comme dans leur simulation, il est relativement facile de calculer uneerreur neurone par neurone avec un petit nombre de neurones et d'appliquer l'algorithmede rétropropagation, qu'en est-il lorsque le nombre de neurones croît de manière tropimportante ?

Ce paragraphe fait apparaître la nécessité d'introduire des structures biologiquesspécialisées telle que l'hippocampe pour expliquer les mécanismes de conditionnementcomplexes. Il est à noter que l'idée que l'hippocampe permettrait de fabriquer desreprésentations composites va àI'encontre des théories comportementalistes qui nientl'existence de représentation interne. L'ajout de structures intermédiaires vient aussicompliquer les modèles du conditionnement pouvant être proposés. Grossberg et Merrillont proposé un modèle basé sur ART qui permettrait de rendre compte de la majoritédes expériences de conditionnement que nous avons présentées ci-dessus [Gro96]. En par­ticulier, ce modèle expliquerait les interactions entre l'hippocampe et le cervelet. Mêmesi d'un point de vue fonctionnel, l'achitecture proposée est cohérente, elle ne correspondcependant pas suffisamment, à notre sens, à la réalité biologique.

2.4 Application du paradigme de conditionnement classique àla robotique

Architecture proposée par Verschure et Edelman

L'architecture de contrôle de robot proposée par Verschure [Ver95] est une applica­tion du paradigme du conditionnement au modèle d'Edelman. Cette architecture estimplantée sur un robot NOMAD pour lui faire apprendre à ramener "au nid" (repérépar un rectangle vert) des cubes non-conducteurs (attraction), tout en évitant les cubesconducteurs (répulsion). Le processus de conditionnement consiste à étudier l'aptitudede l'architecture à associer la couleur de l'objet (bleu ou fouge) à sa conductivité et deréagir en conséquence. L'architecture globale est présentée figure 15.

L'entrée perceptuelle est composée de 3 cartes associées respectivement aux canaux"rouge" "vert" et "bleu" de la caméra. Par ailleurs, ces cartes sont fusionnées pourformer une carte en niveaux de gris. De plus, une zone "fovéale" est extraite des cartes"rouge" et "bleu" pour former les cartes "spatiale rouge" et "spatiale bleue". La zonefovéale est une zone définie a priori qui correspond à une région limitée faisant face à lapince du robot.

Du point de vue des actions, le robot dispose d'un ensemble de comportements pré­câblés qui sont les suivants :

- 64 -

Page 71: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

---.. Liensactivateurs

Liensinhibiteurs

-----I:~=- Liensplastiques

Capteurs IR

Figure 15. Architecture proposée par Verschure, inspirée sur le modèle d'Edelman.

• Evitement d'obstacle (utilisation des capteurs infra-rouge)

• Saisie d'objet (utilisation de l'aimant)

• Orientation par rapport à un objet (utilisation de la carte en niveaux de gris)

• Réponse inconditionnelle aversive (test de la conductivité - Conductive Object ­CO)

• Réponse inconditionnelle, apétitive (test de la non-conductivité - Non Conductiveobject - NC)

La projection de la carte en niveau de gris sur une carte associative "visuo-motrice"permet de commander directement les mouvements de translation et de rotation du robot.Les connexions entre la carte visuo-motrice et les neurones moteurs permettent d'orienterle robot pour qu'il approche d'un objet. Ces connexions sont fixes et sont supposées avoirété apprises dans une phase antérieure. Une autre carte visuo-motrice pré-câblée permet,à partir du canal vert de la caméra, d'orienter le robot de manière à rejoindre le "nid".

L'apprentissage du conditionnement nécessite deux cartes associées respectivement auniveau de "bleu" et de "rouge" dans l'image (à partir des cartes fovéales bleu et rouge).Une compétition entre ces deux cartes est introduite afin d'augmenter leur pouvoir dediscrimination. Par ailleurs l'architecture comporte une carte "AP" (appétitive) et unecarte "AV" (aversive), dont l'activité dépend respectivement de la présence d'une réponseappétitive (NC) ou aversive (CO). L'apprentissage du conditionnement est réalisé grâce

- 65 -

Page 72: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

à la plasticité des poids liant les cartes "bleu" et "rouge" et les cartes "AP" et "AV". Eneffet, un mécanisme d'apprentissage de type Hebbien permet d'augmenter le poids desliaisons quand l'entrée (carte "bleu" ou "rouge") est active et que la réaction est apétitiveou aversive (par l'intermédiaire d'un groupe intermédiaire V qui se déclenche quand NCou CO est actif).

Le modèle de Verschure est intéressant car il est une des rares applications du paradigmedu conditionnement fonctionnant sur un robot réel. Par' ailleurs, l'architecture est baséesur le modèle DARWIN d'Edelman [Ede87, Ree90] dont l'intérêt majeur est qu'il essaie deprendre en compte la structure du cerveau dans son intégralité en tant qu'''hétérarchie''(par opposition à une simple hiérarchie) de "répertoires" neuronaux (groupes de neurones)liés les uns aux autres par le biais de liens réentrants. Toutefois, comme nous l'avons vu,l'architecture comporte de nombreux a priori introduits par le concepteur. Par ailleurs,ces connaissances a priori n'ont pas de réalité biologique.

2.5 L'architecture PerAc (Perception-Action)

Le bloc PerAc (Perception-Action) a été mis au point par P. Gaussier et S. Zrehen(voir [Gau92c, Gau94b, Gau94a, Zre95]) pour servir de brique élémentaire générique pou­vant être utilisée dans des modèles neuronaux de traitement de l'information. Il permetl'apprentissage "en-ligne" d'associations sensori-motrices. L'idée générale est que percep­tion et action sont intimement liées. En fait, pour réaliser une action qui ne varie pas defaçon linéaire dans l'espace des entrées, il est nécessaire d'avoir une représentation internede l'environnement. Mais cette représentation dépend en grande partie des mouvementsréalisés auparavant. Or ces mouvements ne sont pas fiables (et introduisent un biais). Lescatégories ne peuvent donc pas être créées de manière passive uniquement en fonction desformes perçues mais elles doivent être formées par rapport aux actions effectuées. A partirde là, une catégorie est un ensemble de formes qui sont associées à une action donnée..Ces formes peuvent être considérées comme des prototypes de la catégorie [Ros78, Lak87].

Un bloc PerAc est constitué de 2 niveaux correspondant respectivement au flot dedonnées lié à l'action et à celui lié à la perception. Le premier niveau correspond à unmécanisme réflexe qui extrait des informations élémentaires de l'entrée perceptuelle demanière à contrôler grossièrement les actions (actions réflexes). Le second niveau effectuela reconnaissance des situations et permet d'apprendre à associer ce qui est reconnu dansle flot perceptif à un mouvement donné. Ce niveau autorise de garder le comportementinduit par le système réflexe, ou au contraire, de l'interdire lorsque il est en contradictionavec les contraintes de viabilité de l'agent.

Chaque bloc PerAc est un réseau compétitif composé de 4 groupes de neurones (voirfigure 16) : l'Entrée Visuelle (EV), la carte d'association (Sortie Visuelle - SV), l'EntréeMotrice (EM) et la Sortie Motrice (SM). L'entrée visuelle est une représentation del'information visuelle perçue .par le robot par l'intermédiaire de sa caméra. La carted'association est une carte PTM (cf. paragraphe 1I-2.5) dont on se sert pour reconnaîtreles motifs d'entrée. L'entrée motrice représente les réflexes déjà acquis, et la sortie motrice,

- 66 -

Page 73: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

le groupe commandant effectivement les actions.

CatégoriesSVEV

EM

Entrée Visuelle Sortie Visuelle

CCDI--~'

Situations perçues

~-----------------~---------------11111111111

SM - - T ~

11 1

Entrée Motrice Sortie Motrice 1 11 1L II

- - - - - - - - - - - - - - - - - - - - - - - - Environernent-oe: ,Mouvement

1

1

11___ 1

11111

1111

/1 Lien de 1 à tous modifiables1

1 Lien de 1 à l "réflexes"1

Figure 16. Représentation schématique d'un bloc PerAc appliqué au traitement d'informations visuelles.

On peut appliquer le paradigme du conditionnement à cette architecture en considérantque le bloc EM est le bloc commandant les réponses réflexes inconditionnelles. Au départ,le robot est vierge de toute connaissance à part celles introduites dans son système réflexepar le concepteur (bootstrap). Chaque fois que le robot rencontre une situation "nou­velle", il l'apprend (nous proposons au paragraphe 6.4, un mécanisme de catégorisationcontrôlée de manière autonome). Si la règle d'apprentissage est une simple loi associative(règle de Hebb), le robot apprend à associer la reconnaissance d'une situation (SC) aumouvement proposé par le réflexe. Cela permet de parer aux déficiences du système réflexeet même de le remplacer lorsqu'aucun signal réflexe n'est disponible. Par exemple, si, faceà une situation donnée, le réflexe est incapable de trancher, le système de reconnaissancepeut généraliser par rapport aux associations sensori-motrices déjà apprises et déclencherl'action la plus appropriée.

En utilisant une règle d'apprentissage dépendant d'un signal de renforcement, on peutrendre le système encore plus flexible. En effet, si le réflexe sélectionne une action non­adaptée à l'environnement (par exemple une action induisant un choc contre la paroidu couloir), un signal de renforcement négatif peut permettre au système d'apprendreà éviter cette action dans ce cas donné. L'action réflexe est donc inhibée et peut êtreremplacée par une action convenant mieux à la situation. Un point intéressant est quele comportement du robot n'est pas entièrement codé dans le réseau. En fait, le systèmeévolue grâce à l'interaction entre le robot et son environnement. Chaque action de l'agentautonome modifie sa perception d'une manière particulière. On cherche à ce que le robot

- 67 -

Page 74: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Conditionnement Classique

ait un comportement approprié à son environnement et on se refuse à fixer a priori lescatégories utilisées par le rabot (visuelles, motrices, ... ).

- 68 -

Page 75: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

3 Le conditionnement instrumental

Conditionnement

Nous avons vu au paragraphe précédent que le conditionnement classique était aujourd'huirelativement bien compris et que des applications robotiques réussissent même à en tirerpartie. La difficulté principale semble se situer plus au niveau de la catégorisation desstimuli qu'au niveau de la règle de conditionnement. Néanmoins, avec ce type de règle,un robot est incapable d'imaginer la solution d'un problème ne mettant pas en oeuvreun stimulus inconditionnel. Dans ce paragraphe, nous allons étudier une autre formede conditionnement appelée conditionnement instrumental, qui traite, précisement, de ceproblème.

3.1 Les données psychologiques

De nombreux chercheurs se sont lancés à la suite de Pavlov, dans l'étude du condition­nement. Et c'est lors d'une expérience de Miller et Konorski [Kon48], dès 1928, que naquitl'idée d'une autre forme possible de conditionnement. Dans cette étude, l'expérimentateurprenait la patte d'un chien et la fléchissait, en même temps qu'il lui donnait à manger.Après plusieurs répétitions, comme ils s'y attendaient d'après les théories du condition­nement pavlovien, le fait de fléchir la patte du chien (SC) le faisait saliver (RI puisRe). Cependant, une nouvelle réaction non-attendue apparut. Le chien se mit à fléchirla patte de lui-même'', Cette réaction gagna en vitesse et en force comme on continuaità la récompenser. Le chien avait appris à associer le mouvement qu'il avait effectué avecl'apparition de la récompense. Il espérait donc qu'en fléchissant la patte il pourrait obtenirde la nourriture. On poursuivit l'expérience en administrant de l'acide après flexion dela patte. Le chien réagit alors par un mouvement d'extension de la patte, de manièreà résister à la flexion. Dans ce cas, le chien avait appris à associer le mouvement à ladouleur. En tendant la patte, il espérait ainsi échapper à cette sensation.

L'expérience de Miller et Konorski met en exergue des différences sensibles entre lesélements nécessaires à l'apparition du conditionnement classique et ceux impliqués dansce second type de conditionnement. Principalement, on peut dire pour ce type de condi­tionnement qualifié d'instrumental que :

• Il n'y a pas de lien entre la Réponse Conditionnelle (RC) et la récompense''.

• Selon le type de renforcement 5 (positif ou négatif) attribué, le sens de la réactionest modifié (réaction facilitée ou réaction antagoniste).

311 est amusant de noter que dans la vie courante, on observe souvent des chiens qui tendent la pattepour obtenir un morceau de sucre. On considère cette réaction de l'animal comme un acte dépendant dela volonté d'obtenir de la nourriture. Au regard de l'expérience de Miller et Konorski, on peut douter decette interprétation anthropomorphique.

4Comme dans le conditionnement du chien de Pavlov où c'est la vue de la récompense qui fait saliverle chien.

50n appelle renforcement l'action de récompenser ou de punir une réaction donnée de l'animal

- 69 -

Page 76: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Conditionnement Instrumental

Cependant, comme l'action était forcée par l'expérimentateur (comme l'aurait faitune réponse "réflexe"), on pouvait supposer qu'il s'agissait encore d'un mécanisme deconditionnement pavlovien. Ce sont les expériences de l'américain Skinner [Ski53] qui ontpermis de mettre définitivement fin aux ambiguïtés pouvant encore exister entre les deuxtypes de conditionnement. Dans ses expériences, un rat est mis dans une boite disposantd'un abreuvoir et d'un distributeur de nourriture muni d'un levier. Au début, le ratfait des mouvements erratiques jusqu'à ce qu'il appuie par inadvertance sur le levier, luipermettant ainsi d'obtenir une boulette de nourriture. On s'aperçoit alors qu'au cours dutemps, la fréquence des actions de pression sur le levier augmente très rapidement. Dansd'autres expériences, appelées apprentissage d'échappement, le rat est mis dans une cageet l'expérimentateur fait passer un courant électrique dans le grillage, à moins que le ratn'appuie sur un levier particulier. On constate alors que le rat apprend petit à petit àfaire la séquence de mouvements lui permettant d'appuyer sur le levier. Un dernier typed'expérience (apprentissage d'évitement), consiste à faire entendre un son avant de créerdes décharges électriques dans la cage. Le résultat est que le rat apprend à appuyer surle levier dès qu'il entend ce son.

A la différence de l'expérience de Konorski, on voit que dans le cas des expériences deSkinner, il n'y a aucun SI qui fasse réagir le rat. Skinner parle alors d'activité "émise"plutôt que" déclenchée" et nomme le phénomène qu'il a observé, conditionnementopérant (synonyme de conditionnement instrumental).

Après étude des protocoles expérimentaux mettant en jeu le conditionnement instru­mental, on peut établir que ce dernier nécessite les conditions suivantes (voir figure 17-a) :

• Présence d'un SC

• Obtention d'une Re de l'animal

• Renforcement négatif ou positif

~SC~ ,~

\t.------>cJ!-!--- RC

? "----- -->-~RC

---------d------RCb)

SI~

"Of----.....~ RI

sc ,,, .. ,,,,a) ---------'

Figure 17. Différence entre le a) conditionnement classique et b) le conditionnement instrumental.

La dernière condition joue un rôle essentiel puisque c'est elle qui permet d'apprendrele lien entre le SC et la Re. C'est l'apparition du renforcement qui permet à l'animalde mettre en évidence la pertinence de l'association stimulus-réponse et c'est sa nature(positif ou négatif) qui conditionne le sens dans lequel doit évoluer la réponse.

- 70 -

Page 77: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

3.2 Modèle. du conditionnement instrumental

Condi tionnernent

Le principal modèle du conditionnement opérant, est celui proposé par Sutton et Barto[Bar81b]. La fonction d'activation des neurones utilisés dans leur modèle est la suivante(voir figure 17) :

O, = H(L: Wij . Ii + bruit)i

Avec H(x) ·la fonction de Heaviside définie par:

H(x) = { 1 s~ x > 0o sinon

(2)

Le bruit ajouté en sortie des neurones est introduit pour permettre au réseau de choisirune réaction alors qu'aucune association sensori-motrice n'existe au préalable.

Le principe de la règle d'apprentissage est de ne renforcer le poids synaptique entre unstimulus et un neurone donné que si l'on a détecté que le déclenchement de sa réponse ax­onale entraînait une récompense. On peut exprimer cette idée sous la forme de l'équationsuivante:

Wij[t + 1] = Wij[t] + f • [R[t] - R[t - 1]] . [Oj[t - 1] - Gj[t - 2]] . Idt - 1] (3)

Où R[t] est la récompense donnée à l'instant t.On peut aussi écrire cette équation sous une forme différentielle:

(4)

Cette équation modélise correctement les mécanismes du conditionnement instrumentalquand il n'y a pas de retard entre l'apparition du stimulus et la récompense. On considèreque le SC est présent pendant toute la durée de l'apprentissage. Si la sortie du neurone estactivée à l'instant t et qu'une récompense est accordée à l'instant t +1, il Ya renforcementdu poids. Si au contraire, une punition est donnée, le poids est diminué. Le tableau 1récapitule l'ensemble des cas envisageables et l'apprentissage réalisé.

Cependant, il faut remarquer que ce mécanisme n'est possible que s'il y a concomitancede la réponse et du signal de renforcement. Ce modèle ne rend en effet pas comptedes cas où l'on aurait un temps d'attente entre l'apparition du stimulus et le signal derenforcement. En particulier, on peut se demander s'il pourrait être utilisé pour résoudrele problème du labyrinthe présenté dans l'introduction.

- 71 -

Page 78: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Conditionnement Instrumental

Variation du renforcement Variation de la sortie Entrée dW

/ /" Active /

'\r / Active '\r

0 '\r ou / Active 0

'\r ou / 0 Active 0

'\r ou / '\r ou ? Inactive 0

Tableau 1. Récapitulation du fonctionnement du modèle de Sutton et Berio. dW : variation du poids.Entrée: Active: activité#: 0; Inactive: activité: 0

3.3 Application du paradigme de conditionnement instrumentalà la robotique

3.3.1 Application du modèle de Sutton et Barto au problème du labyrinthe

Nous avons tenté d'appliquer directement le modèle de Sut ton et Barto au problèmedu labyrinthe. Nous nous .plaçons dans un cadre neuronal. L'ensemble des percep­tions possibles est représenté par un ensemble de neurones associés à ces perceptionsde même que l'ensemble des actions réalisables est associé à un ensemble de neuronesspécifiques. Comme plusieurs actions peuvent être proposées en même temps, un seulmouvement pourra être fait à chaque fois (les mouvements sont mutuellement exclusifs).Il est nécessaire d'introduire un mécanisme de compétition entre les neurones comman­dant les actions de manière à choisir l'action la plus appropriée à la situation perçue.Ce groupe de neurone se décrit donc sous la forme d'un WTA. Lorsqu'une entrée estprésentée, le système doit réagir en proposant une action déterminée par les liens existantentre l'entrée présentée et l'action donnée. Dans le cas où les liens n'ont pas encore étéappris ou que l'action proposée n'est pas satisfaisante, le système doit être en mesurede suggérer une nouvelle action afin de tester si elle correspond à une action pertinentevis-à-vis de l'entrée.

Imaginons un parcours dans le labyrinthe présenté figure 18. En A, le robot tourneà gauche, en B à droite mais il tourne aussi à droite en C. Dans ce cas, le robot reçoitun renforcement négatif car il se trouve dans un cul-de-sac (F). Pour corriger ce com­portement, il faudrait que le signal de renforcement permette de modifier le poids liantla reconnaissance de C et le mouvement "tourner à droite" sans modifier les poids desneurones liés aux autres actions. Dans un cadre neuronal, comment faire pour que lepoids associant la reconnaissance de C à l'action "tourner à droite" soit modifié et puissepermettre de faire gagner le mouvement "tourner à gauche" ? Le problème principalest de savoir quelle(s) action(s) est( sont) concernée(s) par la récompense accordée à lafin du parcours. Dans un cadre neuronal (chaque neurone étant une entité autonomenon-supervisée), il est clair qu'on ne peut modifier une à une toutes les connexions car

- 72 -

Page 79: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

G

c

Nourriture

•••••••

~....•.•

~F

•••••••••

A

B /> ....

< ..

~ Dqlan

E

D

Conditionnement

Figure 18. Le labyrinthe utilisé dans nos simulations. A,B, G,D,E,F et G sont les pictogrammes présentéssur Je mur associé à la lettre.

cela nécessiterait d'introduire un superviseur gérant l'aspect séquentiel des tentatives derésolution (incompatibilité avec la possibilité de paralléliser le réseau de neurone).

Considérons maintenant que les neurones représentant les actions ont les carac­téristiques des neurones proposés dans le modèle de Sutton et Barto. Il est à noterque la solution adoptée pour permettre l'exploration des différentes associations possibles(génération de diversité) consiste à ajouter du bruit en sortie des neurones moteurs demanière à forcer leur activité en modulant le niveau du bruit par l'intermédiaire d'un

. paramètre externe fonction du signal de renforcement (voir figure 19).

f(Renforcement)

/Bruit

Act

Figure 19. Ann de permettre la génération de diversité, du bruit est ajouté à J'activité de chaque neuronecommandant les actions. Le niveau de bruit peut être modulé en fonction du renforcement obtenu.

Ce type de procédé est, par exemple, utilisé avec succès dans le modèle ASN de Bartoet Sutton pour un problème de pendule inversé [Bar81b]. Cependant, dans ce cas, leproblème est facile à résoudre car le renforcement est immédiat. Le système peut évaluerà tout moment quelle association a mené à une situation d'échec (renforcée négativement).

- 73 -

Page 80: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Conditionnement Instrumental

Considérons maintenant que cette même architecture est utilisée pour résoudre leproblème consistant. à faire apprendre un ensemble d'associations alors que le signal derenforcement n'estdonné qu'à la fin. Ajouter du bruit en sortie du neurone pose problèmecar il est en effetdifficile de déterminer le moment exact où il est nécessaire d'amplifier lebruit pour permettre I'exploration de nouvelles possibilités ou au contraire de supprimer lebruit afin cl 'avoir un comportement stable. Dans notre exemple, cela revient à augmenterle bruit uniqueinentenC mais pas en A et B. Dans l'algorithme de Sutton et Barto, deuxtypes de fonctionnement existent selon que l'on recherche la stabilité ou l'exploration despossibilités. Par ailleurs, le bruit est modifié pour l'ensemble des neurones: si le bruitest trop faible, les neurones gardent le même comportement et le système ne peut ex­plorer d'autres" actions. Même si l'ensemble d'associations choisies n'est pas satisfaisant,le système continuera à les "employer indéfiniment. Il faut donc augmenter le bruit afinque le robot puisse explorer de nouvelles possibilités. Cependant si le bruit est trop aug­menté, le système peut devenir complètement aléatoire. En effet, trop augmenter le bruitrevient à pouvoir effectuer n'importe quelle action à n'importe quel moment. Dans notreexemple cela revient à remettre en cause les mouvements effectués en A et en C, ce quipeut amener à une situation encore plus mauvaise d'un point de vue mesure de perfor­mance (en effet, si le robot tourne à droite en A il rencontre tout de suite un cul-de-sac)et donc induire urt renforcement encore plus négatif. Or, si nous considérons que le niveaudu bruit est directement asservi au renforcement, la situation peut rapidement devenircatastrophique.. ".

Goal

Figure 20. Exemple de labyrinthe en 3 dimensions présentant plus de situations "tourner à droite" que"tourner à gauche"

En fait, le problème se pose surtout s'il y a un déséquilibre dans la fréquenced'apparition des situations. En effet, si les situations sont équiprobables, le bruit nefavorise ni l'une ni l'autre des situations et l'augmentation du bruit permet une explo­ration aléatoire équiprobable des possibilités d'associations. Le problème des différencesde fréquence d'apparition des situations est habituellement négligé dans la littératurebien qu'il implique de sérieuses difficultés de fonctionnement. Considérons par exemplele labyrinthe en trois dimensions représenté figure 20. Pour rejoindre le but, le robot doittoujours tourner à droite sauf à la dernière intersection où il doit tourner à gauche. La

- 74 -

Page 81: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

situation "tourner à droite" est 'donc rencontrée beaucoup plus souvent que la situation"tourner à gauche". Si on imagine un système de renforcement graduel, il est clair que lemouvement "tourner à droite" sera beaucoup plus renforcé que le mouvement "tourner àgauche". Si on imagine que le système est pourvu cl 'un mécanisme de généralisation, ilaura toutes les chances de tourner à droite à l'endroit où il aurait du tourner à gauche avecles conséquences catastrophiques que nous avons citéesplus haut. Le bruit peut mêmeêtre augmenté à un tel point que le robot peut se mettre à se cogner dans les murs. Enfait, les chances de faire un mouvement absurde dans un endroit rencontré souvent sontbien plus importantes que les chances de tourner dans la bonne direction à l'intersectionunique où il faut tourner à gauche. Il est intéressant de remarquer qu'en psychologieexpérimentale, des expériences sur les rats ont montré des difficultés d'apprentissage lorsde dissymétrie de fréquences d'apparition des bifurcations à droite et à gauche [HiI39].

Dans le cas de l'apprentissage de plusieurs tâches, un problème semblable à celui quenous avons évoqué pour la tâche d'apprentissage avec renforcement retardé se pose. Eneffet, dans le modèle de Sutton et Barto il n'y a pas de distinction entre les liens im­pliqués dans la première tâche et ceux impliqués dans la seconde. Ainsi, si l'on ima­gine l'apprentissage de deux tâches l'une après l'autre, l'échec lors de la réalisation de ladeuxième tâche peut remettre en cause l'apprentissage effectué durant la première tâche.Imaginons, par exemple, que la deuxième tâche échoue, comme on l'a vu précédemment,cela amène à moduler le niveau de bruit en sortie des neurones commandant les réactions.Or, cette modulation s'effectue sur l'ensemble des neurones, et en particulier sur des neu­rones qui peuvent commander des réactions qui ne sont plus valides dans le cadre de laréalisation de la seconde tâche. Le mécanisme d'apprentissage modifie alors les poids,ce qui peut amener à oublier un conditionnement effectué durant l'apprentissage de lapremière tâche.

Une amélioration possible de l'algorithme de Sutton et Barto consiste à essayer deprédire à tout moment le signal de renforcement pouvant être espéré si une action donnéeest effectuée. C'est cette idée qui est à la base du developpement du modèle ARC(Adaptive Heuristic Critiv - voir (Bar83]) et de l'algorithme du T D(À) (Sut88]. Dansle même esprit, Watkins a développé l'algorithme du Q-Iearning [Wat89] et a montrémathématiquement sa convergence dans le cas markovien (cf. annexe B). Du fait decette démonstration et de la simplicité de mise en oeuvre de l'algorithme, le Q-learninga été utilisé dans de nombreuses applications. Nous présentons en particulier deux ap­plications robotiques utilisant le Q-Iearning. L'intérêt principal de ces applications estde prendre en considération les difficultés liées à l'implantation sur un robot réel. Lesproblèmes d'élaboration des "états" du système à partir des informations sensorielles sonten particulier pris en compte.

3.3.2 Madahevan et Connell

L'architecture proposée par Mahadevan [Mah91] est une application du Q-Iearning (uneméthode de renforcement que nous détaillerons en annexe) au contrôle d'un robot réel.La tâche du robot consiste à trouver des boîtes à l'intérieur d'un enclos, puis à les pousser,

- 75 -

Page 82: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Conditionnement Instrumental

tout en évitant les obstacles. L'entrée perceptuelle du robot est constituée d'un ensemblede 18 bits obtenus à partir du niveau d'activité de 8 sonars. Le robot peut se déplaceren choisissant un mouvement parmi 5. Pour chacune des tâches ("éviter", "chercher","pousser"), .un signal de renforcement peut-être calculé à tout instant ce qui permet defaire converger l'algorithme de Q-Iearning.

Cependant, les auteurs soutiennent qu'il est important de tenir compte de deux fac­teurs pour éviter l'explosion combinatoire et ainsi permettre un apprentissage rapide. Lepremier point consiste à permettre une généralisation de l'apprentissage à des états sem­blables. Dans l'application, deux situations perceptuelles correspondent au même étatsi leur distance de Hamming pondérée est inférieure à un certain seuil (généralisation"perceptuelle"). Par ailleurs, les auteurs proposent aussi un mécanisme permettantde regrouper par "clusters" des états ayant des fonctions d'évaluation Q semblables(généralisation par rapport aux actions). Le deuxième point défendu par les auteurs estqu'en définissant l'architecture de contrôle de manière hiérarchique (dans leur application,une architecture de type "subsumption" est utilisée), on augmente la vitesse de conver­gence de l'algorithme. En effet, dans le cas d'une architecture hiérarchique, on peut faireapprendre séparement chacune des "boites" comportementales (en gelant l'apprentissagedes autres comportements). A l'inverse, en apprenant tous les comportements à la fois onest incapable de savoir à quel comportement se réfère le renforcement reçu à un instantdonné. Cette idée de décomposition des tâches en sous-tâches plus simples à appren­dre a été par ailleurs abordée dans de nombreuses approches théoriques (techniques de"shaping" - voir [Sin92, Kae93, Kaear, Lin93, Pia36J) .

L'architecture proposée par Mahadevan est intéressante car les auteurs abordent desquestions inhabituelles dans le contexte du Q-Iearning. En particulier, comme ils utilisentun robot réel, ils ont eu à se poser des questions de représentation des états et degénéralisation par rapport aux actions. Cependant, l'intérêt de l'utilisation du Q-Iearning,dans ce cas, est limité car le renforcement est immédiat. Par ailleurs, leur démarcheest valable pour un système comportant 18 bits d'entrée et 5 mouvements possiblescar la combinatoire reste faible. Cependant, s'ils utilisaient une caméra classique derésolution 512 x 512, la complexité de l'algorithme du Q-Iearning augmentant de manièreexponentielle [Whi91], il leur serait très difficile de résoudre le problème. Un dernierpoint que nous souhaitons discuter est le fait de décomposer l'apprentissage de manièrehiérarchique. Il est vrai que cette décomposition permet un meilleur apprentissage maiselle pose deux problèmes. Le premier est celui de la part d'a priori introduite par leconcepteur dans la décomposition de l'architecture. Le deuxième problème provient dufait que, en décomposant l'apprentissage, on limite les capacités d'autonomie du robotcar c'est encore une fois le concepteur qui segmente a priori l'apprentissage de la tâche àréaliser [Gau96].

3.3.3 Thrun et Mitchell

L'architecture proposée par Thrun et Mitchell [Thr95b, Thr95a] utilise de nouveau unetechnique de renforcement basée sur le Q-Iearning pour faire apprendre une série de tâches

- 76 -

Page 83: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

à un robot mobile. L'apprentissage fonctionne en fait en deux temps. Dans un premiertemps, le robot apprend à reconnaître le passage d'un état à un autre et le mouve­ment qui lui est associé grâce à un réseau de neurones utilisant un apprentissage parrétropropagation du gradient. Dans un deuxième temps, le robot met à jour, pour chaqueétat, un réseau de neurones à apprentissage par rétropropagation de manière à calculerla fonction d'évaluation Q liant un état à un mouvement en fonction d'une récompensequi peut être retardée. Par rapport à l'algorithme du Q-Iearning original, leur modèlepropose d'améliorer le calcul des fonctions d'évaluation Q en dérivant les informationscontenues dans le modèle des états.

Les critiques que nous pouvons formuler à l'égard de ce modèle rejoignent celles faitessur le modèle de Mahadevan. En effet, le nombre d'entrées prises en compte est faible (26entrées dans [Thr95b], 46 dans [Thr95a]). Par contre, la taille des réseaux prédisant lesétats et ceux calculant la fonction Q est relativement importante (1 réseau par action etpar valeur de Q). Par ailleurs dans [Thr95a], le système doit garder en mémoire l'ensembledes états qu'il a perçu.

Une autre critique, plus fondamentale à notre sens, est que les états sont appris dansune première phase avant de pouvoir être utilisés par l'algorithme de Q-Iearning. Il y adonc un pré-découpage a priori de la tâche à effectuer. Le problème principal rencontrépar les auteurs est qu'en utilisant un apprentissage par rétropropagation, ils ne peuventapprendre à la fois une situation et la manière de réagir face à celle-ci.

Les auteurs se sont penchés sur ce problème, en essayant de proposer un mécanismepermettant de conserver l'apprentissage effectué durant la réalisation d'une tâche pourl'appliquer à une autre tâche. Ils constatent cependant que pour des tâches tropspécifiques, leur découpage interdit la réutilisabilité des états appris dans l'une des tâches.A leur sens, il est toutefois possible de tirer les propriétés invariantes des capteurs et ef­fecteurs, qui sont propres à un robot donné, pour les utiliser sur des tâches quelconques.De la même manière, il est possible d'apprendre des "invariants" de l'environnement (denotre point de vue, la détection de l'invariance de l'environnement est d'ailleurs liée auxpropriétés des capteurs qui permettent au robot de se représenter son environnement. Cesproblèmes sont donc liés - voir paragraphe 6.4).

Le système proposé a pour but d'apprendre une représentation d'un environnementfermé. L'architecture est constituée de deux réseaux à apprentissage par rétropropagationdont les buts respectifs sont de prédire, à chaque instant, la récompense que peut espérerle robot et l'erreur pouvant être commise par les capteurs. A partir de cette erreur, lesystème fabrique une carte cartésienne de l'environnement codant la confiance dans laprésence ou non d'un obstacle à contourner. Il est à noter, toutefois, qu'à chaque instantle robot connaît sa position en (x,y) et son orientation par rapport à une référence absolue.

Une telle représentation semble un point de départ intéressant pour pouvoir effectuerpar la suite certaines tâches spécifiques. Il faut espérer cependant que les paramètres choi­sis (prédiction de la récompense et mesure d'incertitude) soient suffisamment génériqueset pertinents. Il faut cependant de nouveau noter que l'apprentissage de la carte doit sefaire avant l'apprentissage d'une autre tâche.

- 77 -

Page 84: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Conditionnement Instrumental

Pour notre part, nous nous intéressons au problème de l'apprentissage concomitantd'une représentation de l'environnement perçu et des actions pouvant lui être associées.Cette démarche est à la base de l'architecture PerAc.

- 78 -

Page 85: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

.3.3.4 Apprentissage par renforcement appliqué à l'architecture PerAc

Au chapitre II, nous avons décrit le principe général de l'architecture PerAc et nousavons montré qu'elle pouvait permettre l'apprentissage de mécanismes de conditionnementpavlovien. Cet apprentissage est rendu possible en adaptant les poids reliant la carte dereconnaissance (SV) et la sortie motrice (SM) avec la règle de Hebb.

En utilisant une règle de modification intégrant une information sur le renforcementreçu par l'animat à un instant donné (comme, par exemple, celle proposée par Suttonet Barto), PerAc peut rendre compte de certains mécanismes de conditionnement in­strumental. L'idée est que, si le système réflexe sélectionne une action non-adaptée àl'environnement, un signal de renforcement négatif peut permettre d'apprendre à évitercette action en diminuant le poids entre la situation perçue par la carte SV et la carteSM au moment où le signal de renforcement est reçu. A l'inverse, le mouvement qui apermis d'éviter le signal de renforcement doit être lié à la reconnaissance de la situationactuelle. Le système adapte ainsi son comportement au fur et à mesure de son interactionavec l'environnement.

Cette idée a été utilisée pour faire apprendre un évitement d'obstacles à un robotKhepera [Gau94e]. Le système arrive même à apprendre à sortir d'un cul-de-sac. Lesystème réflexe est très frustre car il consiste uniquement à forcer le robot à avancer.Si le robot se heurte à un mur (saturation des capteurs de proximité), un signal derenforcement, assimilé à un signal de "douleur", est généré. Le système apprend alors lasituation perceptuelle présente (information sur les capteurs de proximité) et diminue lepoids entre la reconnaissance de la situation et l'action réflexe "avancer", jusqu'à l'inhiberentièrement. Grâce au bruit ajouté en sortie des neurones commandant les mouvementset du fait du mécanisme de compétition, un autre mouvement peut être déclenché. S'ilne conduit pas à un choc, un signal de renforcement positif est alors émis. Grâce à cesignal, le poids entre la reconnaissance de la situation et le mouvement qui a permisd'éviter le renforcement négatif est augmenté. Par la suite, si le robot reconnaît unesituation perceptuelle "semblable" (vis à vis de la vigilance du système de catégorisation­voir paragraphe 11-2.5), il effectuera le mouvement qui lui permet d'éviter le choc.

Cette règle d'apprentissage très simple permet d'obtenir un comportement d'évitementd'obstacles. Lorsque le robot est mis dans une enceinte, il se met à tourner en rond enévitant les murs. Par ailleurs, si la configuration de l'enceinte est modifiée, le systèmede généralisation permet au robot d'utiliser les informations déjà apprises pour s'adapterà ce nouvel environnement. Il est à noter toutefois que, comme pour la règle de Suttonet Barto, le calcul du signal de renforcement est effectué à tout moment, ce qui permetd'adapter les poids en conséquence.

- 79 -

Page 86: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

4 La règle de conditionnement probabiliste

Comme nous venons de le voir, le cadre "classique" de la modélisation des phénomènes deconditionnement ne permet pas de rendre compte pleinement des processus pour lesquelsle signal de renforcement est retardé. Comment peut-on alors expliquer l'apprentissaged'un labyrinthe par un rat ?

Une idée intéressante est apportée par une expérience de Krechevsky [Kre32]. Le pro­tocole consiste à faire passer un rat 10 fois par jour dans 4 boites de discrimination iden­tiques mises bout à bout (voir figure 21). Ces boites sont pourvues de 2 chemins menantvers la sortie de la boite et d'une porte battante interdisant l'une ou l'autre des voies.L'expérimentateur choisit l'indice qui permet de déterminer quelle est la bonne porte:porte claire ou foncée, porte droite ou gauche, ou une combinaison de ces caractéristiques.Au total, il y a 40 choix possibles. Bien sur, si l'expérimentateur rend chacun de ces choixaléatoire, le problème est insoluble. Cependant, Krechevsky a observé que les rats onttendance à faire des choix systématiques. Par exemple, un animal peut commencer àprendre toutes les portes de gauche, puis toutes les portes de droite, et ainsi de suite.Ce comportement est systématique et persiste, et il ne correspond en rien à un choixaléatoire. Selon Krechevsky, les rats testeraient des "hypothèses". On aurait donc affaireà un apprentissage qui permettrait de basculer de manière abrupte d'un comportementà un autre. Cette faculté d'apprentissage en "tout ou rien" a 'aussi été mise en évidencepar Trabasso [Tra63]. Par ailleurs, l'idée que l'apprentissage d'associations puisse se faireen testant des jeux d'hypothèses a été proposée par Levine [Lev59, Lev71].

Porte battante Traiet "correct"

Figure 21. L'expérience de Krechevsky.

En nous inspirant de ces expériences, nous avons donc cherché à proposer une règled'apprentissage qui tente de modéliser ce type de comportement et qui répond aux ques­tions soulevées dans le paragraphe précédent. L'idée fondamentale à notre sens est quel'animat doit être capable de tester une hypothèse pendant un temps assez long pour enévaluer les conséquences et pour décider s'il est nécessaire ou non de la changer. Le modèleque nous proposons permet de régler le compromis entre la plasticité du comportementnécessaire à son apprentissage et la rigidité nécessaire pour le valider.

- 80 -

Page 87: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

4.1 Approche intuitive du comportement de l'algorithme derenforcement probabiliste

Afin de réduire les difficultés liées à la régulation du niveau de bruit permettant lagénération de diversité en sortie des neurones commandant les actions, nous avons décidéde moduler le niveau de bruit directement en fonction de la reconnaissance d'un état etnon de l'action. Cela nous a amené à proposer de ramener la génération de bruit auniveau des entrées du neurone plutôt qu'à sa sortie. Ce choix peut d'ailleurs se justifierbiologiquement, puisqu'il semblerait que le bruit synaptique soit la source principale ducomportement stochastique du neurone biologique [Gro91a, B.K66]. Il devient alors pos­sible de moduler le niveau de bruit, synapse par synapse, de manière à pouvoir testerfinement la ou les associations qui sont à l'origine de l'échec du robot. On voudrait en faitque le niveau de bruit soit modulé en fonction de la confiance accordée à ce poids (voirfigure 22) de manière à ce qu'il apparaisse comme étant plus faible dans une situationrencontrée couramment (aller tout droit dans un couloir, par exemple) ou qu'il permetteau contraire d'augmenter les possibilités d'exploration dans une situation plus ambiguë(exemple: de quel coté tourner dans une intersection ?).

Bruit

---------------

Figure·22. Dans peR, le bruit agit au niveau de chaque synapse. Il est binaire et est contrôlé par laconfiance accordée dans le poids considéré.

Dans notre cas, le problème est simplement de trouver quelles associations sensori­motrices doivent être effectuées. Pour cela, il n'est nul besoin de poids analogiques, etseule l'information décisionnelle (y a-t-il un lien ou non entre l'entrée et la sortie), estimportante. Nous avons donc choisi d'utiliser des poids binaires (W E {D, 1}) indiquantl'existence d'une association entre la reconnaissance d'une situation particulière et uneaction.

La résolution du problème d'association sensori-motrices nécessite l'élaboration d'unensemble d'hypothèses d'associations entre la totalité des catégories sensorielles etl'ensemble des actions disponibles. Pour pouvoir tester l'ensemble de ces possibilités,il est nécessaire de pouvoir expérimenter un jeu d'hypothèses pendant un temps suffisam­ment long. Cependant, on arrive dans ce cas à des exigences contradictoires : il fautpouvoir changer d'hypothèse afin d'explorer les différentes associations possibles; il faut,par ailleurs, pouvoir garder une hypothèse pendant un temps suffisamment long pour

- 81 -

Page 88: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

tester son efficacité et obtenir la stabilité.Notre solution est d'associer une confiance (p E [0,1]6) au poids binaire de manière

à mesurer la certitude accordée à l'association entrée/sortie qu'il représente. Lorsqu'unsignal de renforcement apparaît, la confiance est alors modifiée en fonction de la valeurde ce signal. Par ailleurs, un tirage aléatoire est effectué de manière à déterminer si unpoids doit être modifié. Si la confiance qui lui est associée est trop faible, la valeur dupoids a toutes les chances d'être inversée (si le poids était à 1 il passe à 0 et vice versa).Un tel mécanisme permet au robot de se comporter comme s'il testait des hypothèses.

Il est intéressant de faire un parallèle entre l'algorithme de conditonnement probabiliste(Probabilistic Conditioning Rule) et des algorithmes de recuit simulé dont la machine deBoltzmann est un exemple d'implémentation neuronale. L'architecture de cette machineest un réseau dont les neurones sont entièrement interconnectés par l'intermédiaire depoids binaires. Chacun des neurones k de ce réseau peut s'activer aléatoirement avecune probabilité Pk = 1 Bk , où T est une "température" globale appliquée au réseau.

l+e-"T"Le principe du mécanisme d'apprentissage de la machine de Boltzmann consiste à faireévoluer les poids en baissant arbitrairement la température jusqu'à ce que le système aittrouvé la solution optimale.

On pourrait comparer peR à la machine de Boltzmann en considérant que le signal derenforcement agit comme une température permettant de faire évoluer plus ou moinsrapidement l'apprentissage. Cependant, alors que pour la machine de Boltzmann latempérature s'applique à l'ensemble du réseau, le mécanisme de calcul de corrélationde PCR permet de moduler l'action du signal de renforcement synapse par synapse. Parailleurs, nous verrons au paragraphe 4.5.2 que le signal de renforcement n'est pas imposémais est contrôlé automatiquement en fonction du succès du robot.

4.2 Modélisation de la règle de conditionnement probabiliste

Soit W i j la valeur binaire du poids entre un neurone i du groupe de perception et unneurone action j. Le groupe d'entrée est le résultat de la catégorisation de situationsperçues. Le groupe de neurones de sortie est un WTA régi par l'équation d'activation 6.A chacun des poids synaptiques, on associe une confiance Pij E [0,1].

Pour chaque poids, il est nécessaire de calculer à chaque mise à jour du R.N., lacorrélation existant entre la partie pré et post synaptique.

Pour pouvoir utiliser des informations d'ordre temporel, il est nécessaire d'utiliserdes versions intégrées dans le temps des signaux Ii (l'activité du neurone d'entrée), O,(l'activité du neurone de sortie j) et du produit Ii . O]. C'est pourquoi on introduit pourle calcul de la corrélation les notations Ii, Oj et 10ij qui représentent les signaux intégrésdans le temps de ces grandeurs. Ces valeurs peuvent être calculées en utilisant un moyen­nage sur une fenêtre temporelle. L'équation ci-dessous peut être utilisée pour calculer uneintégration du premier ordre sur une fenêtre temporelle de largeur T +1 :

6Cette notation est utilisée en référence à la notion de probabilité. Cependant, les confiances ne sontpas une probabilité puisqu'on ne peut pas les normaliser a priori.

- 82 -

Page 89: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

F-igure 23. Schématisation du fonctionnement de POR : l'interrupteur représente le poids binaire. Savaleur dépend d'un tirage aléatoire effectué en fonction de la confiance qui lui est associée. Cette confianceest calculée en tenant compte de la corrélation entrée/sortie et du signal de renforcement.

X-[t+l] = 7Xj[t]+Xj[t]

J 7+1(5)

La corrélation entrée/sortie normalisée est calculée selon l'équation 9. Ce terme nedépend pas de la fréquence d'apparition d'une association entrée/sortie. Par exemple, siune situation est rencontrée N fois tandis qu'une autre n'est rencontrée qu'une fois (cesdeux situations impliquant une sortie donnée à chaque fois qu'elles sont rencontrées), dansles deux cas la corrélation Gi j est égale à 1. Ce terme de normalisation Hebbien est très

.semblable au terme d'éligibilité introduit par Barto et Sutton [Bar81a, Bar81b].

1 Cas N° I.6.P[t] 1 Wi j [;J Commentaire

1 >0 0 '\i Wi j à plus de chance de passer à 1

2 >0 1 ? La confiance dans le choix Wij = 1 est confortée

3 <0 0 ? La confiance dans le choix Wij = 0 est confortée

4 <0 1 -, Wij à plus de chance de passer à 0

5 =0 oou 1 -+ pas de changement

Tableau 2. Récapitulation des différents cas de fonctionnement de la règle de conditionnement proba­biliste. Les flèches indiquent le sens de modification des Pij qui en résulte.

Chaque fois que le signal de renforcement P[t] varie "suffisamment" (~P[t] > ç), leterme de confiance est mis à jour en utilisant la formule 7. Après cette mise à jour desvaleurs de confiance, un tirage aléatoire permet de déterminer si un poids doit être changéou non (voir équation 8).

- 83 -

Page 90: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

Le tableau 2 présente les différents cas pouvant être rencontrés lors de la mise à jourdes valeurs de confiance. Lorsque la variation du signal de renforcement est positive(ligne 1 et 2), on observe quele terme de confiance évolue de manière à augmenter leschances de faire .apparaître (ou conserver) un lien entre une entrée et une sortie qui a été"récompensé". A "l'inverse, lorsque la variation du signal de renforcement est négative(ligne 3 et 4), le terme de confiance évolue pour augmenter les chances de faire disparaîtreun lien ayant conduit à une "punition" (renforcement négatif). Dans le cas où le signal derenforcement est faible (AP[t] <ç), on n'observe alors aucune modification des valeursde confiance etdonc,des poids binaires.

Il est à noter que l'activation d'un neurone i. appartenant au groupe de commandemotrice, est donnée par l'équation 6. En effet, d'un point de vue comportemental, onsouhaite que le mouvement effectué corresponde à la meilleure reconnaissance perceptuelleet à la présence ou non d'une association sensori-motrice, Dans le cas où plusieurs neu­rones de sortie ont la même activité, le bruit laissé en sortie des neurones permet de leverles ambiguïtés. .

Nous avons Jusqu'alors considéré que les liens entre les neurones du groupe de per­ception et les neurones du WTA étaient des liens activateurs. Il est cependant possiblede faire intervenir des liens inhibiteurs permettant de bloquer l'activation d'un neuronedu WTA lorsqu'une situation particulière est reconnue. En particulier, la vitesse derecherche des "bonnes"associations peut être sensiblement améliorée en dédoublant lespoids liants les·entrées perçues et les mouvements pouvant être effectués (un poids inhibi­teur et un poidsactivateur pour chaque association possible). La règle PCR utilisée pourmodifier la valeur de ces poids inhibiteur est identique à celle utilisée pour les poids acti­vateurs, à la différence près qu'il est nécessaire d'inverser le sens de variation de confiance(~Pij = -a· ~p ·Ci)' · fB(Wïj)).

- 84 -

Page 91: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

Algorithme PCR simplifié

Equation d'activation des neurones du WTA

Actj = M aXi(Wij . Ii) +bruit

Mise à jour à chaque itération de

Iij,Oij et IOij mis à jour (en Jonction de 5)

Conditionnement

(6)

Si I~P[t]1 > ç : Mise à jour des valeurs de confiance

~Pij[t] = 0'. • b,.P . Cij . JB (Wij )

Pij[t +1] = H(pij[t] + ~Pij[t])

Si Alea > Pij et 1 . 0 i- 0

{

Wij = 1- Wijalors

Pij = 1 - Pij

(7)

(8)

P[t] est le signal global de renforcement. Il mesure la satisfaction du robot.

a est le coefficient d'apprentissage pour le système à récompense différée

e est une constante fixée par l'expérimentateur

Alea est une valeur aléatoire prise dans l'intervale [0, 1]

1 si x > 1

H(x) = 0 si x < 0

x smon

- 85 -

(9)

Page 92: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

4.3 Exemple de déroulement de l'apprentissage avec peR

Une séquence d'apprentissage typique est représentée figure 24. Au départ (t = 1), lerobot essaie de "tourner à gauche" dans le couloir et se cogne au mur. Un signal de.renforcement négatif est alors émis. Comme ce signal correspond à un renforcementimmédiat, sa variation est forte (l:1P » 1). Par conséquent, le lien synaptique entre lasituation "couloir" et le mouvement "tourner à gauche" est inhibé (correspond à la ligne4du 'tableau 2.- voir figure 25). Ensuite (t = 2), le robot tente de tourner à droitemais le même phénomène se produit. Finalement (t = 3), il essaye "d'avancer" et réussitce mouvement en évitant un signal de renforcement négatif. Un signal de renforcementpositif est alors émis et l'association entre la reconnaissance du couloir et le mouvement"avancer" est apprise (ligne 1 du tableau 2). Le robot a ainsi réglé la difficulté liée à lareconnaissance de cette situation et n'aura plus de problème lorsqu'il la rencontrera denouveau (ce qui permet de réduire la complexité du problème global).

t=O)

Choc '}

t=l) \/'v LI

t=5)

t=2)

t=8)

Figure 24. Exemple d'apprentissage dans le labyrinthe. A l'instant t=O, l'animat est introduit dansle labyrinthe et doit atteindre le marteau qui est déposé dans le bras gauche du labyrinthe. Il essaie'plusieurs mouvements et finit par apprendre à aller tout droit. Lorsqu'il atteint l'intersection (t=5) iltente encore d'avancer mais se heurte au mur. Le mouvement "avancer" est donc inhibé. Finelement, iltourne à droite alors qu'il aurait dû tourner à gauche. En arrivant dans le cul-de-sac, il remet en questionles associations qu'il a effectuées.

Plus tard, lorsqu'il rencontre la flèche "tourner à gauche" (t = 5, figure 24), le robotessaie d'avancer et se heurte au mur, ce qui inhibe le mouvement "avancer". Il essayealors un autre mouvement et finit, par hasard, par tourner à droite. L'association sensori­motrice n'est plus associée à un signal de renforcement négatif (douleur) et peut, à cemoment là être considérée comme correcte. C'est en fait à partir de cet instant que leproblème du renforcement retardé intervient. Le poids WGd, liant la reconnaissance de laflèche "gauche" au mouvement "tourner à droite", n'est pas directement renforcé, maisla corrélation GGd est mise à jour. Quand le robot arrive dans le cul-de-sac au bout dubras droit du labyrinthe, il reçoit un signal de renforcement négatif (ligne 4 du tableau2). Les confiances associées à chacun des poids sont modifiées en fonction du signal du

- 86 -

Page 93: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

renforcement. La confiance associee au lien WGd entre la reconnaissance de la flèche"tourner à gauche" et le mouvement "tourner à droite" est diminuée. Les confiances sontutilisées pour décider, par un tirage aléatoire, s'il est nécessaire que la valeur du poids quileur est associée soit remplacée par son complémentaire (0 si la valeur est 1 et vice versa).Dans cette perspective, le poids WGd a une forte probabilité PGd de passer de 1 à O.

Categories Categories Categories

8 Mouvements 8 Mouvemenu 8 Mouvemenu

~~.-J --l

o-C)-0 00 8. 8 "' 8 t

t=O) 8 t=l) t=2)Categories Categories

0 MouvemenlS 0 Mouvemeats

.-J --l

ot=5) 8

ot=8) 8

Figure 25. Schéma des associations sensori-motrices élaborées au cours du temps. Correspond auxsituations décrites figure 24

Dans le pire des cas (si les tirages aléatoires ne permettent pas de changer la valeur despoids), le robot reçoit un renforcement de plus en plus négatif, le terme de confiance associéaux liens mis en jeu décroît. Toutes les confiances dans les poids finissent par être nulles, cequi entraîne la permutation des poids. Dans ce cas, l'algorithme PCR devient équivalentà une exploration aléatoire (du fait du bruit très faible ajouté en sortie des neurones).Cela correspond à une limite inférieure de la convergence de l'algorithme. Heureusement,dans tous nos essais, l'information frustre fournie par le signal de renforcement semblesuffisante pour assurer une vitesse de convergence bien supérieure à celle obtenue par unerecherche aléatoire.

Nous avons proposé une démonstration de la convergence de la suite IWij(n) - Pij(n)1qui est une condition nécessaire pour que l'algorithme converge (on trouvera ladémonstration en annexe).

- 87 -

Page 94: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

4.4 Améliorations de la 'règle d'apprentissage

L'une des premières améliorations que nous avions envisagée. était de normaliser lesmesures de confiance afin qu'elles puissent être considérées' comme des probabilités. Deuxsolutions sont alors possibles. La première consiste à normaliser par rapport aux sorties.Cependant cette solution doit être abandonnée car elle n'est pas judicieuse dans le cas oùplusieurs stimuli doivent déclencher la même action. En effet, dans ce cas, la probabilitéassociée au lien reliant chacun de ces"stimuli (disons 2) à cette action doit être à 1 etnon pas à! comme elle le serait. si on normalisait par rapport aux sorties. La solutionduale est de normaliser par .rapport aux entrées. L'avantage de cette solution est qu'ellepermet de résoudre le problème lié à l'apprentissage de plusieurs tâches. Mais un autreproblème apparait, car le fait de normaliser par rapport aux entrées introduit des a priorisur des liens qui n'ont jamais été testés. Imaginons, par exemple, qu'un seul lien ait ététesté et qu'on ait diminué sa valeur, le fait de normaliser va augmenter les probabilitésassociées aux autres liens sans que l'on ait pu valider cet a priori. Toutefois, comme cesconsidérations n'étaient pas centrales au sujet de la thèse, nous avons décidé de ne pasnous y intéresser plus en détails.

... .. Completemem alea10ire

-PCR20 -- Complexl1e en factorielle

15

10

Nbdefonnes

Figure 26. Comparaison des performances d'association de 1 vers 1 de l'algorithme PCR avec unerecherche complètement aléatoire et une recherche aléatoire où l'on sait a priori que J'association est de1 vers 1. En abscisse on trouve le nombre de formes à associer, en ordonnée le temps de convergence enéchelle log.

Un travail effectué dans le cadre du stage de M. Touret [Tou96], a permis d'étudier lecomportement de la règle probabiliste sur un problème classique appelé "test du Wiscon­sin". Le but de ce test, utilisé habituellement pour diagnostiquer des troubles fonctionnelsdu lobe frontal, est de demander à des patients de trouver une certaine règle d'associationentre des cartes en utilisant uniquement une information de. type "bon" ou "mauvais"donnée uniquement après qu'une série d'associations a été effectuée.

- 88 -

Page 95: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

On présenteles résultats de l'algorithme pour ce test figure 26. En abscisse, on trouve lenombre d'entrées et de sorties à associer, en ordonnée, le temps de convergence en échellelog. La convergence de notre algorithme est comparée à une exploration totalementaléatoire. En fait, si on sait a priori que chaque motif d'entrée est à associer à un et unseul motif de sortie, la complexité d'un algorithme de recherche aléatoire est en NI.

I-p ..IJ

l+pjj-------------------1

Oj

. Figure 27. Schéma équivalent de la règle PCR améliorée.

Nous avons par la suite essayé de nous donner les bases d'une démonstration formelle dela convergence de l'algorithme en étudiant la suite IWij(n) - Pij(n)l. En effet, la variationde suite permet de vérifier que, lorsquele signal de renforcement est positif, la confiancedans les poids augmente, et que lorsque le renforcement est négatif, la confiance diminue(voir annexe C).·

L'étude a permis par ailleurs de proposer des modifications de la règle PCR améliorantses performances, La première modification ne constitue pas directement une modificationde la règle elle-même. C'est en fait une modification de la nature des poids utilisés poureffectuer les associations sensori-motrices. Le problème de la règle PCR de base est qu'elleutilise des poids binaires. On perd ainsi la dynamique introduite par l'utilisation de poidsanalogiques. Nous avons donc proposé d'utiliser dans la règle d'activation du WTA, unpoids "vu" WUij dont la valeur est donnée par:

L'intérêt de cette écriture de la règle d'activation est de tenir compte à la fois de lavaleur binaire et de la confiance dans la valeur analogique du poids. Par ailleurs, ellepermet de symétriser l'influence des poids à 0 et des poids à 1. En effet l'équation revientà:

{

1 - Pij si W i j = 0

1 + Pij si Wij = 1

De cette manière, si plusieurs associations sensori-motrices sont possibles à un momentdonné, le mouvement choisi est celui qui correspond à la plus grande confiance associée.

- 89 -

Page 96: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

En effet, considérons deux neurones de sorties Nil et Ni2 liés à une même entrée Ni.

Considérons par ailleurs que Wiit == W ii2 = 1, Piil = ! et Pii2 = 1. Dans ce cas, l'activitéde Nil est 1+Pih = 1, 5 et celle de Nh est 1+Pih == 2. C'est donc Nh qui est finalementactivé. De manière duale, dans le cas où les poids binaires sont nuls, c'est le neurone quicorrespond au lien qui a la confiance la plus faible qui est activé. Un schéma équivalentau fonctionnement de la règle PCR améliorée est proposé figure 27.

Au cours de cette même étude, deux autres modifications ont été proposées. Celles-ciconcernent cette fois directement la règle puisqu'elles modifient la mise à jour du termede confiance.

La règle PCR simple ne permet de mettre à jour les valeurs de confiance que s'il y aune variation du signal de renforcement. Elle n'autorise donc qu'un conditionnementinstrumental. La première modification de la règle consiste à introduire un terme ed'apprentissage Hebbien dans la règle de mise à jour des valeurs de confiance. Nousavons vu au paragraphe 2.2 que la règle de Hebb permettait en effet de modéliser lefonctionnement du conditionnement pavlovien. L'équation de mise à jour devient alors:

~Pij[t] = (f + œ- ~P) . Cii . JB (Wij )

Ainsi, en dehors de tout renforcement, la valeur des confiances dans les poids qui corres­pondent à une conjonction stimulus-réaction rencontrée fréquemment peut être modifiée.Cependant, nous avons vu que la règle de Hebb posait des problèmes de normalisation.La deuxième modification que nous avons proposée consiste donc à introduire dans larègle de modification un terme d'oubli proportionnel à la confiance dans les poids, À· Pij.

Nous avons en effet montré au paragraphe 2.2, que l'introduction de ce terme avait uneffet de normalisation. Le terme d'oubli a pour effet de permettre au système de remettreen cause au cours du temps, la confiance accordée en un poids. Il est à noter cependant,que si une règle est éprouvée souvent, la conjonction du facteur Hebbien et du facteurd'oubli neutralise leurs effets réciproques, ce qui tend à stabiliser le jeu d'associations. En

effet, on a alors !::>.Pij = 0, d'où Pij ::= (e +uÀ

· !::>.P) . Cij · fB(W;j). Dans le cas où le signal

de renforcement disparaît, l'état stable est donné par Pij = I .Cij . fB(Wij) (cf. equation

10), ce qui correspond à la règle de Hebb.A l'inverse, si une règle a été utilisée peu de fois et n'a pas été renforcée, sa confiance

diminue au cours du temps.Finalement l'algorithme de conditionnement probabiliste est le suivant :

- 90 -

Page 97: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

Algorithme PCR amélioréEquation d'activation des neurones du WTA

Actj = Maxi «(2 . Wij - 1) . Pij +1) . Ii) +bruit

{1 S'l.' Actj = M aXk(Actk)

O, =o sinon .

Mise à jour à chaque itération de

Iij ,Oij et IO i j mis à jour (en fonction de 5)

Conditionnement

Si I~P[t]1 > ç : Mise à jour des valeurs de confiance

~Pij[t] = (f +0:. ~P)·Cij . JB (Wij) - À· Pij

Pij[t + 1] = H(pij[t] + ~Pij[t])

Si Alea> Pij et l . 0 =f. 0

{Wij = 1 - Wij

alorsPij = 1 - Pij

(10)

(11)

P[t] est le signal global de renforcement. Il mesure la satisfaction du robot.

E est un coefficient d'apprentissage de type "regle de Hebb"

a est le coefficient d'apprentissage pour le système à récompense différée

À est le coefficientd 'oubli

ç est une constante fixée par l'expérimentateur

Alea est une valeur aléatoire prise dans J'intervale [0, 1]

1 si X > 1

H(x) = 0 si X < 0

X sinon

- 91 -

(12)

Page 98: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

Un point important à remarquer est que la démonstration de la convergence de lasuite IWij(n) - Pij(n)[ est toujours valide malgré les modifications effectuées. En effet,cette démonstration ne requiert aucune hypothèse sur la règle de variation des termes deconfiance et sur la loi d'activation des neurones de sortie.

Un dernier point noté lors de ce travail concernait l'étude du signal de renforcement. Laprincipale conclusion tirée est qu'il est essentiel pour que la règle fonctionne correctementque ce signal apporte suffisamment d'informations. Toutefois, il a été aussi noté que larègle pouvait se satisfaire d'un signal plus frustre, moyennant une perte de performance.L'intérêt de la règle est justement de pouvoir se satisfaire d'une gamme de signaux derenforcement allant du plus frustre au plus informatif et d'en tirer le nécessaire pouraméliorer les performances. Au paragraphe suivant, nous envisageons un système permet­tant de gérer de manière automatique l'émission d'un signal de renforcement en fonction dela réussite de l'animat dans son environnement. Contrairement aux algorithmes classiquesqui ne peuvent fonctionner correctement lorsque le signal de renforcement évolue par"palliers" (signal non dérivable), notre algorithme peut se satisfaire de tels signaux etcontinuer à fonctionner.

4.5 Contrôle autonome de l'émission du signal de renforcement

Nous présentons dans ce paragraphe un système permettant de contrôler automatique­ment la variation du signal de renforcement en fonction des réactions de l'animat face auxcontraintes imposées par son environnement.

4.5.1 Spécification du signal de renforcement

La variation du signal de renforcement doit dépendre du respect ou non de certainescontraintes fixées a priori (évitement d'obstacles, résolution d'une certaine tâche... ). Lesigne de la variation du signal de renforcement indique la tendance générale de la situationdans laquelle se trouve le robot vis à vis de ces contraintes "de viabilité". La norme de lavariation du signal de renforcement peut être vue comme une sorte de mesure de distanceentre la situation dans laquelle se trouve le robot et une situation respectant simplementles contraintes de viabilité.

A la base, le signal de renforcement peut prendre soit des valeurs positives, soit desvaleurs négatives. Le signal de renforcement doit être négatif lorsque l'animat se trouvedans une situation qui tend à le faire sortir de sa zone de viabilité. A l'inverse, le sig­nal de renforcement doit devenir positif lorsque la tâche est réussie ou lorsqu'elle est envoie de l'être. Ce n'est donc pas la valeur du signal de renforcement en elle-même quiest intéressante (on peut être dans l'incapacité de donner une note absolue, notammentlorsque l'on ne connait pas les "bornes" du problème), mais plutôt la variation de ce signalde renforcement. Par exemple, cette variation est négative si le robot heurte un obstacle.A l'inverse, la variation du signal de renforcement est positive si la situation dans laquellese trouve l'animat est meilleure qu'une situation rencontrée précédemment (par exemple

- 92 -

Page 99: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

si le robot a résolu la tâche dans un temps inférieur ou s'il arrive à éviter un obstacle).Plusieurs contraintes peuvent se superposer voire se 'contrarier. En effet, le signal de

renforcement ne donne,.commeon l'a souligné, qu'unetendance générale du système. Il estdonc fort probable que certaines contraintes soient respectées et d'autres non. Par ailleurs,il est possible que les' effets de différentes contraintes .de viabilité interviennent à deséchelles de temps différentes mais que cette dynamiquese noie dans l'évolution temporellepropre du signal de renforcement. .En fait, la variation du signal de renforcement estune compression de l'information multi-modale provenant des différentes contraintes etdes différentes échelles de temps. C'est au mécanisme d'apprentissage de déterminer aumieux, à partir de ce. signal frustre, quelle est la meilleure manière de revenir à unesituation répondant aux contraintes de viabilité.

4.5.2 Elaboration du signal de renforcement

Les contraintes de viabilité du robot sont les suivantes :

• éviter les choc

• trouver la solution' du problème d'association en un temps donné a priori.

Ces deux contraintes sont représentées respectivement par la valeur de Choc[t] = 8choc

(où 8choc est le symbole de Kronecker 7), indiquant si l'animat heurte ou non un obstacle,et par la valeur de 1nsatis f action[t] qui indique que la solution n'a pas été trouvée dansun temps TlnsatisJaction donné (à l'initialisation Tlnsatis/action = T meilleu.r ; - Tmeilleur est letemps mis pour parcourir le chemin optimal- nous discuterons plus loin du paramètragede cette valeur). Nous avons établi que le signal de renforcement dépendait de la fusionde ces deux valeurs. Le problème est de savoir comment ces signaux se superposent. Nousavons choisi d'utiliser une superposition linéaire des signaux de renforcement. Ainsi nousposons P[t] = -~. Choc[t] - Insatisfaction[t]. Il est important de remarquer que lessignaux Choc[t] et Insatisfaction[t] interviennent à des échelles de temps différentes.

On définit:

6.Choc[t] =1 St Choc[t - 1] = 0

-1 S1, Choc[t - 1] = 1

0 St Choc[t - 1]

et Choc[t] = 1

et Choc[t] = 0

- Choc[t]

Les cas suivants peuvent être rencontrés:

7

lichoc ={1 s'il y a choc

o sinon

- 93 -

Page 100: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

• ~Choc[t] = 0, ~Insatisfaction[t] = O. Dans ce cas, il n'y a pas de variation dusignal de renforcement et donc pas de modification des poids et de leur confiance.

• ~Choc[t] = 1, Ôlnsatisfaction[t] = O. C'est ce qui se passe lorsque l'animat essaied'effectuer un mouvement qui lui fait heurter un obstacle. La détection du choc(~Choc[t] = 1) provoque une variation rapide du signal de renforcement négatif:~P[t] = _~8. Si l'action est due à la présence du poids Wij = 1, la confianceassociée est alors diminuée et se bloque à Pij = 0 (cf. équation 7). De plus, commeÔP[t] » e, un tirage aléatoire est effectué et comme Pij = 0, le poids passe à 0(Wij = 0). Ceci est bien en accord avec l'idée que si un lien entrée-sortie mène àune douleur immédiate, il doit alors être supprimé. Dans le cas où le poids Wij = 0,l'équation 7 indique que la confiance est au contraire renforcée jusqu'à atteindre 1,ce qui empêche le poids d'être modifié par tirage aléatoire. Par la suite, l'animatessaie alors de nouveaux mouvements jusqu'à ce qu'il trouve une action qui lui éviteun renforcement négatif. Lorsqu'il y réussit (Choc[t] = -1), cela provoque unecroissance brutale du signal de renforcement (~P[t] = ~). De la même manière,il est évident que l'apprentissage met alors à 1 le poids liant le neurone associé àla reconnaissance de la situation douloureuse avec l'action permettant d'éviter ladouleur.

• ~Choc[t] = O,Ôlnsatisfaction[t] =1 O. Nous avons considéré que l'apparitiondu signal d'insatisfaction dépendait d'une horloge interne possédant une fréquence

f I S· I'ani , ", ,propre Insatisfaction = T . l animat n a pas ete recompense au mo-I nsatisJaction

ment déterminé par cette horloge, le signal de renforcement diminue par paliers(~P[t] = -1). Par ailleurs, la fréquence flnsatisfaction croît en suivant l'équationflnsatisJaction[n] = k . flnsatisJaction[n - 1], avec n le nombre de fois que I'animat adéjà reçu le signal d'insatisfaction et k un coefficient pris dans l'intervalle [0,1]. Cemécanisme a été introduit pour tenir compte des situations où l'animat pourrait êtrebloqué dans une boucle. Si l'animat a atteint la sortie du labyrinthe, on considèreà ce moment que l'insatisfaction tombe à o. La variation du signal de renforcementest alors ÔP[t] = Insatisfaction(t-), Insatisfaction(t-) étant la valeur atteintepar la variable d'insatisfaction avant d'avoir trouver la sortie du labyrinthe. Cettevariation du signal de renforcement a pour effet de renforcer la confiance dans les as­sociations effectuées pour atteindre la sortie du labyrinthe. Par ailleurs, la fréquencede l'horloge interne associée au signal d'insatisfaction est remise à sa valeur initiale.On se retrouve alors dans le cas général du renforcement expliqué au paragraphe4.2.

• ÔChoc[t] =1 0, ~lnsatisfaction[t] =1= o. On a vu que ~ est prépondérant par rapportaux autres paramètres et en particulier ~ »~Insatisfaction[t]. Dans ce cas

8~ est une constante dont la valeur est prise très grande devant tous les autres paramètres.

- 94 -

Page 101: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

6.P[t] ~ 6.Choc[t] et tout se passe comme si I'animat avait uniquement subi unchoc.

On a représenté figure 28 l'évolution de la variable Insatisfaction au cours du temps.Dans une première phase, le robot tente différentes associations qui ne conduisent pas àla solution. La variable Tlnitiale décroissant au cours du temps, le système remet de plusen plus souvent en cause les associations sensori-motrices qui ont été effectuées. A partird'un certain moment, le robot effectue des tirages aléatoires et finit par atteindre le but.Il retrouve alors un comportement de test d'hypothèses. Finalement il réussit à trouverla solution optimale. La variable Insatisfaction se retrouve alors bornée.

50

40

30

20

11

.J_I111

Temps

minimum

l - __

100

1 O'--....L-....II.-.......L.........LL-..L-.I--IJ..J-,L,...,L..,.l.."""-~ ,

400 ~oo 600 1 700 8Po

:Recherche: Test :1 Aléatoire 1 hypothèses 1

900 1000

SolutionOptimale

Figure 28. Evolution de la satisfaction de l'animat au cours du temps. Première phase, test d'associationsqui ne conduisent pas à la solution. Comme le robot ne trouve pas la solution, le comportement évolue versun test aléatoire puis finit par atteindre le but. Il retrouve alors un comportement de test d'hypothèses.Finalement, il réussit à trouver la solution optimale. La variable Insatisfaction se retrouve alors bornée.

Il est important de noter que si l'on veut que l'animat puisse trouver la sor­tie du labyrinthe, il est nécessaire que le temps minimal avant l'apparition du si­gnal d'insatisfaction soit supérieur au temps minimal (Tmeilleur mesuré en déplacementsélémentaires dans le labyrinthe) pour sortir du labyrinthe. Cela implique donc queT init iale > rt» E fait . t 1 1 d 't t At 1Insatisfaction _ .L meilleur· n al ,en Jouan sur a va eur e ce parame re on peu e re p usou moins exigeant vis à vis de la contrainte liée à la découverte de la solution. En relâchantla valeur de Tj~~~ti~e/action' le système peut trouver une solution sous optimale au problème.A I'i . Tinit'tale rr: .r l' 1 ith à t 1" lt t ti 1Inverse, SI Insatisfaction = .L meilleur, on lorce a gon me a rouver e resu a op ima .En pratique, on peut tolérer que Ti~~~flseJaction soit légèrement inférieur au temps optimal.

- 95 -

Page 102: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Règle de Conditionnement Probabiliste

En effet, tolérer un écart sur le temps pour trouver la solution correspond à l'autoriserà faire un détour dont la longueur correspond à la différence entre le temps autorisé etle temps optimal. Si cette différence est inférieure au temps nécessaire pour effectuer ceparcours, l'algorithme converge vers la valeur optimale. Nous avons d'ailleurs implémentéun mécanisme permettant de stocker le meilleur temps mis pour atteindre la récompense,ce qui permet de réajuster la valeur de Tj~~~ti~efaction au fur et à mesure de la découvertede' chemins plus courts. Cependant, ce mécanisme pose problème si le chemin, qui étaitjusqu'à présent le plus court, se trouve bloqué durant l'expérience. Il faut alors pouvoiraccepter de relâcher les contraintes en cas de problème pour pouvoir trouver une autresolution. Il faut donc introduire un mécanisme de régulation de Tmeilleur. Il faut toutefoisnoter que dans ce cas, le problème consiste alors à trouver "la solution" optimale, ce qui,dans le principe, est totalement différent du fait de créer un algorithme permettant à unrobot de trouver "une solution" au problème qui se présente.

- 96 -

Page 103: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

5 Expérimentations

Conditionnement

Avant de réaliser l'expérience d'apprentissage d'associations sensori-motrices sur un robotréel, nous avons d'abord vérifié en simulation que l'animat était capable de trouver unchemin menant au but dans un labyrinthe possédant plusieurs intersections en T. Lelabyrinthe simulé est composé d'une matrice rectangulaire dont chacune des cases estmarquée par un repère indiquant si la voie est libre (situation "couloir") ou si c'est unmur. Par ailleurs, à chaque intersection en T, une marque particulière, spécifique dela position où se trouve l'animat, sert comme stimulus conditionnant pour atteindre lebut. A chaque instant élémentaire, en fonction de la situation qu'il perçoit (couloir,motif présent à une intersection, cul-de-sac) l'animat propose un mouvement parmi troispossibilités: tourner à gauche, aller tout droit ou tourner à droite. En fonction du résultatde ce mouvement, le signal de renforcement est calculé et l'apprentissage est effectué.

Afin de tester les capacités de l'algorithme, nous avons proposé différents protocolesexpérimentaux inspirés d'expériences de psychologie expérimentale. Nous avons aussitesté l'influence du nombre de stimuli sur le temps de convergence ainsi que la réactionde l'algorithme à la présence d'une boucle dans le labyrinthe.

c

G

Nourriture Jil;;i

~F

A

B li >:"

»

~ Départ

D

E

Figure 29. Le labyrinthe utilisé par Weaver et Klopf{Wea93].

5.1 Labyrinthe simple: 2 intersections en T

La première simulation que nous avons réalisée utilisait le labyrinthe présenté figure 29.Ce labyrinthe avait été proposé par [Wea93] pour tester leur modèle de conditionnementinspiré de l'algorithme de différence temporelle de Barto T D(À) (voir annexe). L'intérêtdu modèle de Weaver et Klopf était de s'appuyer sur des expériences de psychologieexpérimentale pour élaborer leur modèle et tester ses capacités. Le protocole de leurexpérience est le suivant.

- 97 -

Page 104: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Expérimentation: Simulations

Le robot est mis sur la case "départ" et doit atteindre la case "nourriture". Les let­tres A,B, ... ,G représentent les motifs présents aux différentes intersections (cases grisées).Dans cette expérience, Weaver & Klopf considèrent que le parcours se termine lorsquel'animat atteint un cul-de-sac. Cet a priori est tiré d'observations sur les cobayes de labo­ratoire qui sont incapables de faire demi-tour dans un cul-de-sac. Lorsque l'animat arrivedans un cul-de-sac, il est alors remis à la case départ pour un nouveau parcours. Nousinsistons sur ce fait car dans les expériences de Weaver et Klopf, le fait d'aboutir à uncul-de-sac provoque un renforcement négatif utilisé par le mécanisme d'apprentissage.

Selon leurs résultats, leur algorithme converge au bout de 60 parcours de labyrinthe.Comme ils ne fournissent pas de distribution statistique de leurs résultats, nous en sommesréduits à supposer qu'il s'agit là d'un bon résultat de leur algorithme.

70

60

50

40

30

20

10

-

.. .... . -;--....

.. ..

r---l r ~---- ....-----.

50 100 150 200 250 300

Figure 30. Histogramme des performances de 100 individus dans un labyrinthe comportant 4 motifs(1 pour chaque intersection, 1 pour "tout droit"). En abscisse, se trouve le nombre de parcours delabyrinthes nécessaires pour parvenir à trouver la solution.

A titre de comparaison stricte, nous avons testé l'expérience de Weaver et Klopf dansles mêmes conditions. Nous avons utilisé un labyrinthe comportant 30 cases. Le parcoursoptimal est de 20 cases. Un motif particulier est présenté à chaque intersection en T etun seul motif représente la vue d'un couloir (il est à noter que chacun des motifs est uneimage réelle prise avec la caméra du robot). Comme notre algorithme est stochastique,nous avons testé les performances sur 100 individus (100 réinitialisations du R.N. aprèsque la solution a été trouvée) afin de donner des résultats moyens (voir figure 30). Ilarrive que le robot réussisse à trouver de suite le chemin le plus court, mais ce résultatn'est pas significatif. Dans 65% des cas, la solution est trouvée après moins de 50 parcoursde labyrinthe. En outre, dans cette expérience, la principale difficulté pour le robot n'estpas de trouver le plus court chemin, mais d'apprendre en même temps à catégoriser demanière non-supervisée les différentes formes rencontrées.

- 98 -

Page 105: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

5.2 Le robot "vivant" dans un labyrinthe

A la différence del'expérience de Weaver et Klopf, on considère maintenant que l'animatest placé dans un environnement qu'il ne connaît pas, sans contraintes a priori sur la formeni sur la taille du labyrinthe. En particulier, le labyrinthe peut comporter des boucles.Dans ce cas, il apparaît que le renforcement déclenché par un signal d'insatisfaction permetde se sortir de situations difficiles. La constante de temps de l'horloge interne déclenchantle signal d'insatisfactionest prise supérieure au temps nécessaire pour atteindre la nour­riture (mesurée en nombre de déplacements dans le labyrinthe) : TlnsatisJaction > 25.

5.2.1 CasJ :Un 'pictogramme associé à chaque mouvement

Il nous a semblé plus intéressant d'utiliser le même motif pour toutes le situations cor­respondant au mouvement "tourner à gauche", de même pour le mouvement "tournerà droite" (Weaver et Klopf utilisaient eux un labyrinthe comportant un motif différentpar intersection). L'animat apprend ainsi à associer un mouvement à un pictogramme.L'histogramme 31 montre le résultat de cette expérience. Les associations correctes sontapprises en moins-de 20 parcours dans 60% des expériences. Comme on a une catégoriede moins que 'dan~Fexpérienceprécédente, la solution est évidemment obtenue plus rapi­dement.

50

45

40

35

30

25

20

15

10

5

-.- ••• +

....

......

...... -

......

......

.---

... , .. .. ....

r:~11 ri ,...----,

20 40 60 80 100 120

Figure 31. Histogramme de 100 expériences dans un labyrinthe comportant 3 motifs (1 pour "gauche",1 pour "droite" et 1 pour "tout droit").

5.2.2 Cas 2: Le robot n'est pas remis au départ lorsqu'il rencontre un cul­de-sac

Le labyrinthe est le même que celui montré précédemment. La seule différence est quele robot n'est pas remis dans la case départ lorsqu'il est dans un cul-de-sac. Il doit doncse retourner et essayer une nouvelle direction. Un "parcours" du labyrinthe correspond

- 99 -

Page 106: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Expérimentation: Simulations

alors à l'ensemble du trajet qu'a parcouru le robot pour se rendre jusqu'à la sortie. Lesrésultats de cette expérience sont montrés par l'histogramme figure 32.

35

30

25

20

15

10

-. , ......

-......

,- ............--

" ...... ......-

.. ...... ......

I~lnr:l n10 15 20 25 30 35

Figure 32. Résultat dans le cas où le robot n'est pas remis au départ lorsqu'il arrive à un cul-de-sac

On observe que les résultats sont encore meilleurs que lorsque le robot était remisdans la case départ (70% de succès en moins de 20 parcours). On peut expliquer cephénomène par l'apparition du signal d'insatisfaction. Dans la première expérience, lesignal d'insatisfaction n'avait pas le temps d'intervenir; l'animat rencontrait rapidementun cul-de-sac ou de la nourriture. Dans cette expérience l'animat peut être amené àchercher longtemps la sortie du labyrinthe sans la trouver. Comme les chemins parcourussont plus longs, les parcours cohérents sont moins nombreux. Le signal d'insatisfaction estdonc reçu plus souvent et l'animat a plus tendance à reconsidérer les choix (hypothèses)qu'il a faits. Il est ainsi en mesure de tester plus de possibilités d'associations sensori­motrices.

5.2.3 Cas 3 : Grand labyrinthe avec des boucles

Dans l'expérience de Weaver & Klopf, la géométrie du labyrinthe est un paramètre im­portant puisque la taille du labyrinthe influe sur la vitesse d'apprentissage. Notre animat,par contre, apprend uniquement à faire les associations lorsqu'il se trouve à une intersec­tion en T. La taille du labyrinthe n'agit donc normalement pas sur son apprentissage. Unautre point à tester est donc l'influence de l'introduction d'une boucle dans le labyrinthe(voir figure 33). En effet, dans ce cas, l'animat pourrait se mettre à tourner en rondindéfiniment. Cependant, grâce au signal d'insatisfaction, il pourrait sortir de cette si­tuation en remettant en cause l'hypothèse éronnée.

L'histogramme figure 34 donne le résultat de 100 expériences dans un labyrinthe commecelui décrit figure 33. Le labyrinthe possède 65 cases. Le parcours optimal est de 40cases. La constante de temps de l'horloge interne avant le déclenchement du signald'insatisfaction est équivalente à 45 mouvements de l'animat (Tlnsatisfa.ction =45).

- 100 -

Page 107: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

Goal

Conditionnement

Figure 33. Exemple de labyrinthe avec une boucle et de trajectoires possibles

Dans 80% des cas, le but est atteint en moins de 20 parcours. Comme pour le para­graphe 5.2.2, l'apparition du signal d'insatisfaction a permis de remettre en cause lesassociations beaucoup plus rapidement. Par ailleurs, dans le cas de la boucle, l'apparitionde ce signal est primordiale puisque si l'animat en était dépourvu: il se mettrait à tourneren rond indéfiniment, une fois sur 2 (une chance sur 2 de choisir le mouvement permettantd'éviter de rentrer dans la boucle).

5.3 Récapitulation des résultats

Nous présentons ci-dessous un tableau récapitulatif des résultats de notre algorithme enfonction du type de labyrinthe utilisé et du nombre de motifs à apprendre (voir figure3). Les valeurs données sont le nombre de parcours moyen pour trouver la solution et lenombre de parcours médian (nombre de parcours pour lequel 50% au moins des individusont trouvé la solution). Nous ne donnons pas l'écart-type sur la valeur moyenne carcette donnée n'est pas pertinente. En effet, la moyenne et l'écart-type ne sont de bonsindicateurs que si les résultats suivent une distribution gaussienne. Or, les histogrammesprésentés plus haut montrent que ce n'est pas le cas.

De manière synthétique, on peut dire que, pour notre algorithme, la taille dulabyrinthe n'influence en aucune manière les performances (pas de différence de perfor­mances à nombre de motifs constant, pour le petit et le grand labyrinthe, avec ou sansboucle). Par contre, le nombre de formes pouvant être associées influence grandement le

- 101 -

Page 108: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Expérimentation: Simulations

Histogram on 100 experience in a big mazewith a loop

10 20 30 40 50Numberof explorations

60 70

Figure 34. Résultat pour le labyrinthe pourvu d'une boucle

FeRNombre de motifs

Type 3 4

Court 17/13 30/22

Long 13/10 24/11

A boucle 13/10 24/11

Tableau 3. Récapitulatifdes résultats de l'algorithme PCR pour un problème de parcours de labyrinthe.On présente les résultats pour trois types de labyrinthe (Court, Long, et A boucle) en fonction du nombrede stimuli différents dans le labyrinthe. Les résultats donnés sont les valeurs médianes.

temps d'apprentissage. On peut remarquer clairement cette influence sur l'histogrammerécapitulatif de la figure 35, qui représente selon la même échelle, les courbes de répartitionpour un petit labyrinthe avec 3 motifs, avec 4 motifs et un grand labyrinthe à boucle.

Nous avons, par ailleurs, effectué des expériences montrant que notre algorithme étaitcapable de désapprendre puis de réapprendre une tâche différente. Le but de l'expérienceétait d'apprendre à associer deux stimuli à deux mouvements (plus le mouvement avancer)puis réapprendre à associer ces stimuli aux mouvements opposés. Les résultats du tempsnécessaire pour apprendre l'ensemble de la tâche (apprentissage+désapprentisage) sontdonnés figure 36. Le temps moyen pour trouver la solution correspond à 23 parcours delabyrinthe. Si on considère que le temps d'apprentissage est équivalent à celui des testseffectués précédemment (temps moyen=16), cela signifie que le temps de réapprentisageest beaucoup plus court (temps moyen=7). Cela provient d'une part du fait que les

- 102 -

Page 109: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

10.-----...---,..----......------,.-----,.----,

............... r.: .Gra!ld.laby~nthe.à3 motlis. .. . .

300250100 150 200Nombrede parcours

• • • • • • • • • • • ~ •••••••••••••••• ~••• + , ••••••••••• : • • • • • • • • • • • • • • • • ••••••• ~ •••

50

Figure 35. Histogramme récapitulatif

représentations des stimuli ont déjà été apprises et que, d'autre part, les mesures deconfiance. dans les poids n'ont pas été réinitialisées. Ceci autorise un réapprentissage despoids plus rapide. Par ailleurs, le mouvement "avancer" correspondait au même stimulusdans les deux expériences. Du fait de la conservation des valeurs de confiance dans lespoids, cette association a pu être confortée dans la deuxième expérience et n'a pas dû êtreréapprise. Notre algorithme peut donc conserver des associations effectuées dans le passésans les remettre systématiquement en cause. Il peut donc être utilisé pour apprendreune série de tâches sans craindre que l'apprentissage de l'une de ces tâches fasse oublierles autres.

35

30

5

-

.---

.---

nnnl"7l ~

20 40 60 80Nombre d'explorations

100 120

Figure 36. Histogramme pour une expérience d'apprentissage puis de réapprentissage du condition­nement inverse (équivalent du "sevings"}.

- 103 -

Page 110: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Expérimentation: Simulations

5.4 Comparaison avec d'autres méthodes permettant derésoudre des problèmes d'association

Dans le cadre de l'apprentissage de labyrinthes simulés, nous avons voulu comparer notrealgorithme au Q-learning (voir annexe B) et aux algorithmes génétiques. Nous montrerons

. cependant, dans ce paragraphe, les différences de principe existant entre ces algorithmes etle nôtre et nous suggérerons que, d'un point de vue biologique, le mécanisme d'adaptationmis en oeuvre par ces algorithmes ne se situe pas du tout au même niveau que le mécanismed'apprentissage mis en oeuvre dans peRo

5.4.1 Comparaison avec les algorithmes génétiques

Les Algorithmes Génétiques (AG) sont des techniques actuellement fréquemment utiliséespour résoudre des problèmes d'optimisation [Kod95, Mon95, Flo94]. Les AG sont, en effet,des implantations particulières de techniques de recuit simulé. L'idée des AG est de coderune architecture, ou le programme permettant de faire évoluer cette architecture, sous laforme de gènes dont chacun des éléments (bit) a un rôle particulier. A partir de cette sériede bits, une population d'individus est créée, puis, est introduite dans un environnementoù les performances de chacun des individus sont testées sur une tâche donnée. On classeensuite les individus par ordre de réussite. La base des AG est d'utiliser ce classementpour générer une nouvelle population en utilisant les procédures suivantes:

• Crossing-over : le géne de 2 individus est coupé en 2 au niveau d'un bit donné. 2nouveaux individus sont générés en permutant les morceaux de gènes situés aprèsla coupure.

• Mutation: un nouvelindividu est créé en changeant un bit pris au hasard d'un gèned'un individu déjà existant.

Le choix des individus servant à la reproduction est fonction de leur classement (il y aplus de chance de prendre un individu bien classé).

Nous avons tenté d'utiliser un AG pour résoudre le problème d'association sensori­motrice. Le principe était de coder dans un gène la valeur binaire du poids pouvantpermettre d'associer un stimulus à une action. Il y avait 4 actions possibles (avancer,tourner à gauche ou à droite, faire demi-tour), et l'influence du nombre de motifs àassocier sur le temps de convergence a été testée. Les résultats sont donnés figure 37.

Pour un nombre de motifs inférieur à 7, on voit que le temps de convergence estquasiment identique à celui de notre algorithme (temps moyen pour une population de30 individus: 14 générations pour 3 motifs, 23 générations pour 4 et 31 générationspour 5). On peut remarquer que pour un nombre de motifs supérieur à 7, les résultatsde l'AG sont extrêmement mauvais. Les résultats dépendent surtout du choix de lafonction d'évaluation de chaque individu. Si ce choix est mauvais, le système peut ne pastrouver de solution. Dans notre système, le signal de renforcement joue un rôle semblable.Cependant, nous avons remarqué qu'une certaine souplesse était tolérée.

- 104 -

Page 111: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

,............

-... ..

... .. .. ..

nnr1 n n n

r- .

......

......,.....

,........

'.r .• r

Inhnrlnnn nnn n12010040 60 80

Nombre de générations

Nombre de motlfS=4

2012010040 60 80Nombfe dell*"ratlons

Nomb.. de motlfsa3

20

120100

Nombre de motifs=7

40 60 BONombre d. gWratiDllll

20

c-

.......

_iï_ - I__.iï n120100

Nomb.. de motif.-5

40 60 80Nombre de gdn6rationa

20

J3S.------.----r------r----.---~--__.tx30I- .. ··,eo , .•. _ : c : -1

.sl!125 1- : : 0 ·· .. · : · .. ·· .. · .. ,··· .. · .. · ·-1liSi 20 ~ .. ".. ': : : ! -: ~

.!l!

1151- : , : , ; -1

i

i10

15.sI!i 00

Figure 37. Histogramme des résultats d'un AG appliqué à la résolution d'un problème d'associationssensori-motrices. a) b) c) Au fur et à mesure que le nombre de motifs augmente, la distribution desrésultats s'élargie. d) Pour 7 motifs, il semble que l'AG n'arrive pas à trouver la solution pour un nombrede générations inférieur à 100 (la combinatoire est trop grande).

Nous voulons insister sur le fait que PCR et les algorithmes génétiques ne fonctionnentpas du tout au même niveau. En effet, les AG fonctionnent sur une population d'individuset on attend la "mort" d'un individu pour pouvoir utiliser les connaissances qui sontcontenues dans ces gènes. L'individu en lui-même est déterminé une fois pour toute parses gènes et il n'apprend pas au cours de sa "vie".

En fait, alors que l'idée de base des AG est de modéliser une sorte d'évolution phy­logénétique d'une espèce afin de chercher l'architecture la mieux adaptée à un environ­nement donné, nous nous sommes plutôt intéressés par le fait d'élaborer, à partir d'un in­dividu doté d'une architecture donnée, des mécanismes d'apprentissage lui permettant des'adapter non seulement à un environnement, mais plutôt à un ensemble d'environnementsdifférents.

- 105 -

Page 112: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Expérimentation: Simulations

5.4.2 Comparaison avec le Q-Iearning

L'intérêt principal du Q-Iearning est que Watkins, son inventeur, a prouvémathématiquement que cet algorithme convergeait de manière optimale [Wat89]. Cepen­dant les contraintes sont sévères car les problèmes étudiés doivent être de nature markovi­enne (la connaissance de l'état précédent suffit à résumer l'ensemble du passé) et tous lesét.ats du système doivent être visités une infinité de fois. Habituellement, le caractèremarkovien est donné par une connaissance a priori de l'ensemble des états. C'est à partirde chacun de ces états que sont calculées les fonctions d'évaluation Q qui donnent uneestimation, de plus en plus fine au cours du temps, du mouvement le plus intéressant àfaire dans un état donné pour rejoindre le but.

Pour un robot autonome, nous ne pouvons pas considérer que ces états sont connus àpriori. Nous avons donc modifié l'algorithme de Q-learning de manière à ce qu'il construisepetit à petit, au cours de l'exploration, l'espace des états dans lequel l'animat peut setrouver. En pratique, un nouvel état est crée lorsque l'animat effectue, à partir d'un étatconnu, un mouvement qu'il n'avait jamais effectué auparavant. Cependant, dans ce cas,l'hypothèse markovienne n'est plus valide et l'on n'est donc pas assuré que l'algorithmeconverge.

En utilisant cet algorithme de Q-learning modifié sur les labyrinthes que nous avonsprésentés plus haut, nous obtenons les résultats synthétisés dans le tableau ci-dessous:

Q-learning

Nombre de catégories

Type 3 4

Court 35 ± 3 35 ± 3

Long 67±4 67±4

A boucle ? ?

Tout d'abord, dans tous les cas, notre algorithme est plus performant que le Q­learning. Cependant, les différences de temps de convergence ne dépendent pas des mêmes

. paramètres. Dans le cas du Q-Iearning, c'est le nombre de cases du labyrinthe qui condi­tionne principalement la vitesse de convergence. Ce problème est dû à la séparation dessituations eri états distincts, ce qui interdit toute possibilité de généralisation. A notresens, cela constitue un frein à l'utilisation de telles techniques dans un environnementréel, le problème étant de construire la représentation de ces états (cf. expériences deMahadevan et Thrun [Mah91], voir paragraphe 3.3.2).

Dans la même optique, un point important à soulever est que le Q-Iearning ne peutpas fonctionner dans le cas où le labyrinthe comporte des boucles. En effet, l'algorithmecrée alors une infinité d'états car il est incapable de remarquer qu'il tourne en rond. Ilpeut repasser deux fois au même endroit, mais considère que cela représente deux étatsdistincts.

- 106 -

Page 113: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

En fait, l'algorithme PCR et les techniques classiques de renforcement fonction­nent selon des principes diamétralement opposés. En effet, comme nous l'avons vuprécédemment, l'intérêt de peR réside dans sa capacité à utiliser l'information brutefournie par la variation du signal de renforcement, aussi frustre soit elle. Le problème deséparer la source du signal de renforcement est reporté sur la règle d'apprentissage. Al'inverse, le principe des algorithmes de renforcement est de prédire dans chaque état lesignal de renforcement qui peut être espéré en effectuant tel ou tel mouvement. Suttonet Barto ont, par exemple, proposé un système de prédiction linéaire du signal de ren­forcement pour améliorer les performances de leur algorithme de conditionnement. Lestravaux de Sutton sur le TD(>") ou de Watkins sur le Q-Iearning en sont le prolongement.Vus les avantages apportés par les mécanismes de prédiction du renforcement, il seraitintéressant de doter l'algorithme peR d'un mécanisme semblable.

- 107 -

Page 114: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

6 Expériences réelles de conditionnement avec PCR

Dans la section précédente, nous nous sommes focalisés sur le problème de l'apprentissaged'associations sensori-motrices et nous avons développé un algorithme qui est capabled'associer des catégories visuelles à des mouvements stéréotypés. A présent, nous exa­minons les éléments nécessaires pour réaliser l'expérience d'associations sensori-motricessur un robot réel. Le robot est une plate-forme Koala (Kteam - LAMI/EPFL) munied'une caméra CCD 128 x 100 pixels en niveaux de gris (25cm x 25cm voir figure 38). Lataille globale du labyrinthe est 3m x 3m et la taille d'un couloir est d'environ 60cm.

Figure 38. Prototype de robot Koala utilisé au cours de nos expériences.

Le temps de convergence de la règle de conditionnement probabiliste dépend directe­ment du nombre de stimuli pouvant être perçus et du nombre de mouvements à leurassocier. Pour 4 stimuli et 3 mouvements, le temps de convergence de l'algorithme estde l'ordre de 30 parcours de labyrinthe. Si l'on considère que notre robot bouge de 20cmtoutes les 5 sec et que le chemin le plus long pouvant être parcouru dans le labyrinthe estde l'ordre de 5m, il faut, dans le cas où l'on transpose directement les résultats obtenusen simulation à l'expérience réelle, 30 x 25 x 5 :::::: Iheure pour réaliser l'expérience. Cequi est un temps "raisonnable" pour réaliser l'expérience en pratique.

Nous avons donc développé une architecture de contrôle pour un robot réel qui per­met de réduire la complexité combinatoire afin que l'algorithme PCR puisse résoudrele problème dans un temps compatible avec une réalisation sur robot réel. Pour cela,nous avons développé un système de vision qui permet de réduire considérablement lacomplexité de la représentation interne des stimuli visuels que le robot doit apprendre àassocier aux mouvements. Par ailleurs, malgré les imperfections des systèmes de comman­des des moteurs, trois mouvements seulement ont été utilisés pour contrôler le déplacementdu robot. Il est en outre nécessaire d'ajouter un mouvement réflexe qui permet au robotde se recentrer à l'intérieur des couloirs (le mouvement "aller tout droit" étant décomposéen sous cas permettant au robot d'avoir plutôt un comportement de recentrage dans uncouloir).

- 108 -

Page 115: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

6.1 Elaboration des représentations internes des stimuli

Si l'on considère la complexité d'une image en niveaux de gris provenant de la caméraCCD, on peut chiffrer le nombre d'images possibles à (128 x 100)256 ~ 3 X 101051 . Il estdonc inimaginable d'utiliser directement l'information brute fournie par la caméra pourguider les mouvements du robot. D'autant plus qu'on a vu que le temps de convergencede l'algorithme dépendait directement du nombre de stimuli à associer.

Dans un premier temps, on doit filtrer l'image pour permettre, de réduire les effets dubruit, et la complexité de l'image. La réduction du niveau de bruit constitue un pointessentiel car une image dégradée peut mener à une mauvaise interprétation et donc gêner lareconnaissance d'une situation apprise. Un autre point important est que les filtres utilisésdoivent être choisis de manière à réduire la complexité de l'image sans que l'informationpertinente qu'elle contient ne soit supprimée. Sur des images de scènes naturelles, on neconnaît pas a priori quelles sont les caractéristiques importantes. Une solution consiste àchoisir des bancs de filtres qui soient suffisamment génériques pour permettre de garderles informations de n'importe quelle image. Généralement, on extrait l'image des contoursde l'image originale (ce qui est pertinent d'un point de vue biologique puisque les neuronesdes aires visuelles sont principalement sensibles à la détection de contrastes). Toutefois,il reste le problème de trouver l'information "utile".

Pour notre part, nous avons décidé de simplifier le problème en utilisant des stimulitexturés qui peuvent être détectés facilement par des filtres de Gabor [Gab46]. Ces filtressont accordés sur trois fréquences différentes selon 4 orientations données (verticale, hori­zontale, première et deuxième diagonale). Les pictogrammes présentés au robot serontdonc des motifs texturés (voir figure 39) .

1II111~"

•Figure 39. Motifs utilisés pour conditionner le robot. Ces images ont été obtenues directement par lacaméra CCD.

A la sortie de ce filtrage et après extraction des contours (forte variation de texture),nous obtenons 12 imagettes binaires correspondant à la réponse de chacun des filtres pourchacune des positions du filtre de convolution dans l'image (voir figure 40). Cependant,malgré un système réflexe qui permet de rester au milieu du couloir (nous étudierons cesystème plus en détail au paragraphe 6.2) et qui augmente les chances qu'à l'intersection lepictogramme soit à portée de vue, le pictogramme peut se retrouver décalé dans l'image.Une solution utilisée par les systèmes visuels naturels et artificiels consiste à réduire lechamp visuel à une zone limitée autour d'un point de focalisation. Ce mécanisme permetde reconnaître une portion de motif donné quel que soit sa position dans l'image.

Le système de focalisation est obtenu à partir des imagettes correspondant aux

- 109 -

Page 116: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

rlllll~

Texture horizontale

1 1 1 1 1 • 1 1-+-~--~-~-+-~-~--~-

1 1 .1.1.1•••1.'

~l~j~~_-t~1 • 11 ,. 1

-T-'-- r-I 1.' .,.'.' .,. 1- + - -l - -1- - 1- - + - -l - -1- - 1- -1 1 1 1 1 1 1 1_ ~_~ __~_L_~_~_~__ L_• 1 1 1 1 1 1 11 • 1 1 1 1 1 1

Texture horizontale

1 1 1 1 1 1 1 1- + - .. - -1- -1- - + - -l- -1- - ~-

1 1 1 1 1 1 1 1_ ~_~ __~_L_~_~_~__ L_

1 1 1 1 l , 1 t1 t 1 1 1 • 1 1

- Î - ï - -.- - j - ï - ï - -1- - j -1 1 1 lit 1 1

- T - , - -1- - r - T - , - -1- - r -1 1 1 1 1 1 1 •

- + - -t - -1- - 1- - + - -l - -1- - 1- -1 1 1 1 1 1 l ,

_ ~_~_~__ L_~_~_~__ L_1 lit 1 1 • ,1 1 1 1 1 1 1 1

Texture verticale

1 1 1 1 1 1 l ,- + - -l - -1- - ... - + - -l - -1- - ... -

1 1 1 1 1 1 1 1_ J. _ .J __ ' __ L _ J. _ .J __1__ L _

1 1 • 1 1 1 1 11 1 1 1 1 1 1 1

- T - ï - -.- - j - T - t - -,- - j -1 1 1 1 1 1 1 1

- T - , - -,- - r - T - , - -1- - r -1 1 1 1 1 1 1 1

- + - -l - -1- - ... - + - .. - -1- -1- -1 lit 1 1 1 1_ ~ _ ~ __1__ L _ J. _ .J __1__ 1.. _

• 1 1 1 1 1 1 11 1 1 1 1 lit

Texture verticale

1 1 1 ••• 1 •

-~.~ïï:ïii ~li~ ÎI~ÏÎ:- - ~-_ J. _ _ _1__ L _, ,1 •,--j-• 1- 1--"-

- ~~~~:~~._~~~~-:- .i ,1 1 • 1 1 1 1 •_ ~ _ ~ __•__ L _ ~ _ ~ __1__ 1.. _

1 1 • 1 1 1 1 •1 1 1 1 1 1 1 1

Figure 40. Exemple de détection de fréquences spatiales effectuée par deux bancs de filtres de gaborcorrespondant à des orientations. La Bêche "tourner à gauche" est représentée par des barres horizontales.Ainsi, seule la carte de texture sensible a cette orientation réagit. Dans le cas de la Bêche "tourner àdroite", représentée par des bandes verticales, c'est l'autre carte qui répond.

différents filtres de Gabor. Pour cela, on extrait les contours de chacune de ces ima­gettes. Les images de contours obtenues sont ensuite filtrées avec un détecteur de pointsanguleux (filtre différence de gaussiennes - DOG) qui permet de repérer des zones suscep­ti bles d 'être intéressantes (voir figure 41-b). Ces points anguleux servent alors de pointsde focalisation. Une image centrée sur ces points est ensuite créée puis une transforma­tion (log(p), 0) est effectuée pour obtenir une légère invariance par rotation et change­ment d'échelle [Sch77, Sch80, Gau92a, Gau92b]. C'est sur cette image que s'opère lacatégorisation. Il est cependant nécessaire que cette invariance soit limitée. En ef­fet, des méthodes classiques de reconnaissance des formes utilisent des représentationscomplètement invariantes. Dans notre cas, qui est avant tout un problème de prise dedécision située, des algorithmes recherchant une invariance globale auraient des effetscatastrophiques. En effet, il faut être capable de réagir de manière différente en fonctionde la distance et de l'angle de vue (ce qu'interdirait une transformation invariante tellequ'une transformée de Fourier).

Dans ce qui suit, nous nous proposons de suivre progressivement l'élaboration desreprésentations internes, de la catégorisation et de la sélection du mouvement. Nousmontrerons donc l'activité du réseau de neurone telle qu'elle apparaît dans notre simula­teur. La figure 42, présente les fonctions des différents groupes de neurones du simulateur.Les deux premiers groupes (f_select-f) représentent l'activité des neurones codant la trans­formation (log(p), 9) autour des points de focalisation pour chacun des filtres de Gabor(pour simplifier, nous n'avons présenté ici que le résultat de 2 filtres). Les neurones dugroupe f.concai effectuent la fusion de l'ensemble de ces représentations (log(p), 0). Cettereprésentation globale est ensuite catégorisée par la Carte. Le groupe WTA décide du

- 110 -

Page 117: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

Figure 41. Elaboration des points de focalisation. A partir de l'image issue de la caméra a), un filtragede Gabor est effectué. On détecte alors les contours de l'image résultante. Un filtre DOG permet ensuited'obtenir les points anguleux qui serviront de points de focalisation. L'image b), obtenue directement dansnotre simulateur de R.N., montre les contours de l'image après filtrage de Gabor. Le cercle matérialisela zone de focalisation qui est prise en compte par le système de catégorisation.

mouvement effectué par le robot.Dans un premier temps le système focalise son "attention" sur l'un des points anguleux.

Pour chaque filtre de Gabor, une transformation (log(p), 0) autour du point de focalisationest effectuée (voir figure 43-a)). La concaténation de l'ensemble de ces transformées (voir43-b) est ensuite apprise par la carte (figure 44-a). Finalement, le mouvement est choisià partir de cette reconnaissance (figure 44-b).

Nous avons proposé dans [Gau92a, Gau96] que le mécanisme de détection d'objetpertinent puisse être le résultat d'une première phase d'apprentissage. En particulier.C. Joulain [Gau96] a réalisé une expérience permettant à partir de l'image de contoursd'apprendre la "signification" d'un objet (en terme d'action pouvant .lui être associée).

Considérons une séquence d'images perçues par un robot se déplaçant dans unlabyrinthe (figure 45). Les situations a,b,c,d correspondent au mouvement "avancer"alors que la situation e doit être associée au mouvement "tourner à gauche" (le motifformé par les bandes horizontales visibles en e correspond au mouvement "tourner àgauche"). Bien que très différentes perceptuellement, les situations a à cl doivent êtreassociées à un même état correspondant à la reconnaissance d'un couloir. Par contre, lasituation e, bien que très semblable visuellement à la situation cl, doit être associée aumouvement "tourner à gauche'l",

Après la série de traitements que nous avons présentés, l'image a été décomposée parune série de bancs de filtres répondant à une activité plus ou moins forte en fonction descaractéristiques de l'image perçue. On pourrait imaginer utiliser directement l'information

9Précisons que ce problème ne se pose qu'en environnement réel. En effet, dans le cas idéal, quelque soit la longueur d'un couloir, un seul état est en général associé à l'action permettant d'atteindre laprochaine bifurcation.

- 111 -

Page 118: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

"," Transformation log-polaire pour chaque filtre de gabor. ,(' ,. (Pour simplifier on ne montre ici que 2 filtres)1 \.l' Concaténation de 1t ensemble des transformations polaires

1 \ ----,

pranclhc2

~7;::~~-<-,,~-,,-,-.-'1-1J-'n-....l~-"-,-",-,-,,-'1'--,~w-_I-'l-~-h-\-I~-',-c-.-,.:r-In-,-'-JI.:----

)_tflnCllt - ...,:::::::::::::::::::1I:'l'I:

" !!!!l!!j!!!!!!jjjjjj]!!!\

:', JilililllllllIIIII1111~).... ,.cfiil- _ ...

,,!.. _ _ _____ Selection du mouvement

........ - ...., "'WTA "',

1 \1 \

f ', f

\ "\ ,'À - - -.,'",

11

Carte de categorisation1

11 -

Figure 42. Préseuteiiou des fonctions des différents groupes de neurones tels qu'ils apparaissent dans lesimulateur de R.N.

provenant des sorties des filtres de détection pour guider les mouvements du robot. Mal­heureusement, un mêmestimulus visuel peut être décomposé de manières très différentes.Il faut donc prévoir un mécanisme permettant de généraliser les caractéristiques com­munes à différentes perceptions sensorielles afin d'en créer une représentation unique. Ilest donc essentiel que l'architecture de contrôle possède un mécanisme de catégorisationperformant avant de pouvoir ségréger correctement les différents stimuli visuels. A notreavis, ce problème de catégorisation est un problème complexe qui est malheureusementsouvent négligé lorsqu'on travaille en simulation. A notre sens, le problème de la décisionde ce qui doit ou non être catégorisé est principalement lié à l'utilisation qui est faite descatégories créées. Au paragraphe 6.4, nous détaillons un système de contrôle autonomedu niveau de catégorisation.

6.2 Nécessité d'introduire un mécanisme de suivi de couloir

Le problème principal lorsqu'un robot se déplace à l'intérieur d'un labyrinthe, est qu'iln'effectue pas des mouvements "parfaits" car ses roues peuvent se bloquer ou glisser. Parailleurs, les couloirs ne sont pas forcement droits. Le robot peut alors se retrouver dansune situation telle que celle décrite figure 46.

- 112 -

Page 119: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

::::.:::::::::::::J':::::~............................................................. .~. ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~~; ~ :::::~

f_select_fI!':::::::: ::::

.............

.......... l' •• '

:I!II!'

Conditionnement

.:::::::.:::.......:::::::::;;~i';';; ;'r;;;;;; ;;;;;;;;::.::.::' Il:::::: Il:::::::::: ... Il:::::::::::::::::::-:-......~~ :: :: : : : : : : .: : : ~ ~ : : : ~

;;;;; ;;;;;;;;;;i~::: :: Il::::: ::::.:::::: :: :::::::::.-...-:::::: :::::..-::::::..:: ..~: ::: : .... : z,::::;::

n!!! lHHlllHHH!I::Z:: ;;1&11: .....:::::

11~ ~ ~ 1:1~1~~1~~1~111i;;;; ; ; il;;;;;;;;;;;;;::::: : : ::::::: ::::::::

Figure 43. a) Activité des n.eurones codant la transformée log-polaire autour du point de focalisation,pour les différents filtres. b) Concaténation de ces activités.

Carte

•• ••••••··.111111· ··.111111· ··.111111• ••••••

• • • • • •••••. . . . .

WTA

Figure 44. a) Catégorisation de la concaténation des tranformées log-polaire. b) Activité du WTAcommandant les mouvements. La taille des rectangles représente le niveau d'activité des neurones. Il estnormalisé par rapport à la taille d'un groupe (pas de comparaison possible entre 2 groupes).

Etant donné que le robot n'est jamais aligné convenablement dans les couloirs, il peutheurter un mur. Une solution consiste alors à introduire des mouvements supplémentairespour permettre au robot de se réaligner sur l'axe du couloir. Cependant, le fait d'ajouter2 mouvements de rotation supplémentaires suffit, par exemple, à amener la complexité à54 = 625 au lieu de 34 =81 (multiplication par 8 de la complexité - on considère 4 stimulien entrée).

Pour pallier ce problème, il suffit de considérer que l'alignement du robot dans lelabyrinthe est une procédure déjà acquise par le robot et que cela constitue un mécanismeréflexe. Ce réflexe peut être construit à partir des informations géométriques présentesdans un environnement d'intérieur. En particulier, les points de fuite des images provenantde la caméra CCD peuvent donner une information pertinente pour connaître la directionà suivre pour rétablir l'alignement du robot dans un couloir. En détectant les contoursformés par les bords du couloir, le robot peut déterminer le point de convergence de ces

- 113 -

Page 120: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6

c

e-

Expérimentation: Implantation Réelle

'a~;:"( kx

~-lI.,. .....;c$.~:<o

::;:=vc ~

Figure 45. Différentes images perçues au cours d'un parcours de labyrinthe. Les situations a,b,c,ddoivent être catégorisées comme des situations "couloir" alors que la situation e doit être catégoriséecomme une situa.tion "tourner".

Figure 46. Problème d'alignement du robot dans un couloir.

lignes (point de fuite). Si le point de fuite est trop à droite de l'image cela signifie quele robot est trop à gauche et qu'il doit tourner légèrement à droite pour se recentrer. Lalocalisation du point de fuite peut se faire grâce à une transformée polaire [Bis94] ou parune transformée de Hough [Men93]. Cependant, dans un contexte neuronal, les cellulesde détection de point de fuite pourraient être réalisées à partir des cellules complexes desaires visuelles primaires. Dans le cas le plus simple, on utilise 3 cellules de détection depoint de fuite. L'activité de chacune de ces cellules est calculée en sommant les activitésdes cellules d'orientations situées sur une droite passant par ce point de fuite et dontl'orientation correspond à la pente de la droite (47).

Pour chaque direction, la somme est seuillée de manière à ne prendre en compte queles informations suffisamment pertinentes. Une cellule est située au centre de l'image, etles deux autres cellules de chaque coté, sur la même ligne horizontale. Quand une cellulede détection de point de fuite gagne, c'est parce que le point de fuite est plus proche d'elleque des 2 autres (voir figure 47). La solution à notre problème de régulation de positionconsiste donc à faire tourner le robot légèrement à droite quand la reconnaissance du pointde fuite est sur la gauche et vice-versa. Pour améliorer la précision, il suffirait d'ajouterdes cellules de détection du point de fuite de part et d'autre du point central. On pourrait

- 114 -

Page 121: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

a)

c-l) c-2)l1li d-l) d-2)IlFigure 47. a) Cellule de détection de point de fuite b) Différents types de perspectives cl-2) Imagesréelles et contours: situation "tourner à gauche" dl-2) Images réelles et contours: situation "tourner àdroite"

aussi tenir compte de manière plus efficace du niveau d'activation des différentes cellulespour la navigation dans le labyrinthe.

6.3 Architecture de contrôle du robot réel

L'architecture que nous proposons est bâtie sur le concept de l'architecture PerAc (voirparagraphe 2.5) et utilise les éléments que nous avons détaillés précédemment. Cettearchitecture est schématisée figure 48.

H ~ Liens de 1 vers tous

PTM

Point

de fuiteO+------------------J~

c:o0':l--~C':S

CI)

Gabor I-+-I--.....-t ]

~

CameraCCD

Figure 48. L'architecture de contrôle de robot réel adaptée du bloc PerAco

L'entrée visuelle est directement l'image perçue par la caméra CCD. Cette image estensuite traitée par les filtres de Gabor, mais elle sert aussi d'entrée au système réflexepermettant au robot de s'aligner au milieu d'un couloir. Un système de focalisation del'attention permet, à partir des contours extraits après l'application des filtres de Gabor,

- 115 -

Page 122: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

d'obtenir des vues locales del'image observée (voir paragraphe 6.1). Ces vues locales sontensuite catégorisées par une carte PTM.

SM!

Position du pointde fuite

8M2

Sortie Motrice Globale

Figure 49. Détail du système de commande motrice. SMl commande les mouvements de "haut niveau"et 8M2 permet de raffiner ces mouvements pour permettre au robot de se centrer dans le labyrinthe.

Le système de commande des mouvements comporte deux niveaux de sortie motrice(voir figure 49) :

• La première sortie motrice (SM1), est contrôlée par la carte de reconnaissance. C'estun WTA comprenant 3 neurones qui constituent des consignes de "haut niveau"("tourner à gauche", "tourner à droite", "avancer") de la commande motrice. Cesont les liens entre la carte de reconnaissance et SM! qui sont appris grâce à la règlede conditionnement probabiliste.

• La seconde entrée (8M2), est contrôlée à la fois par SM1 et par le mouvementréflexe. Ce groupe commande effectivement la sortie motrice en raffinant si besoinest, la sortie motrice de haut niveau. 8M2 est un WTA comportant 5 neurones. Lesneurones les plus extrêmes sont commandés uniquement par les sorties "tourner àgauche" et "tourner. à droite" de 8Ml. Si l'une de ces sorties est active, la sortiecorrespondante de 8M2 l'est aussi. Les 3 autres neurones sont commandés à la fois

. par la sortie "avancer" de SM1 et par chacune des cellules de détection de pointde fuite du système réflexe. Ainsi, lorsque la sortie "avancer" de SM1 est active,la sortie motrice effective est ajustée de manière à permettre au robot de s'alignerdans le couloir.

La figure 50 représente la description de l'architecture telle qu'elle est représentée dansLETO, notre programme de génération de réseaux de neurones (voir annexe D).

Il faut remarquer que nous ne faisons apparaître ici qu'une partie des structures fonc­tionnelles de l'architecture. Nous n'avons pas, en effet, représenté le système élaborant

- 116 -

Page 123: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

-ill.~

I~\! . '

Ild. 0.0 / Ltrlgger_b~r i

---B=:-- -L"!':~\-fl::il _ _._ _ __ _.f_fll' "'.~ _._ _ _ _~ -............. ·····_·····e·,arte·········_······························ _ " _ J"-11 d. 0.0

Lbuffer

LroboCrWIA

Figure 50. Description de J'architecture avec le logiciel LETO

le signal de renforcement car il agit sur l'apprentissage de l'ensemble de l'architecture etutilise des informations issues d'autres capteurs que la caméra ("bumpers"). Au para­graphe suivant, nous présentons par ailleurs le système de contrôle autonome du niveaude vigilance qui permet le réglage du système de catégorisation "en ligne" .

6.4 Contrôle automatique de la catégorisation

Reprenons la situation décrite figure 45. Au départ, le robot n'a aucune connaissance surles formes visuelles pouvant être rencontrées (si ce n'est qu'elles sont texturées). Le termede vigilance - un paramètre de la carte PTM déterminant le niveau de similarité avecles motifs déjà appris requis pour apprendre un nouveau motif - a une valeur moyenne(pratiquement p = 0.7). Quand le robot perçoit la situation a, il la code sur le neuroneCl, de la carte PTM (groupe SV), qui a gagné. Rappelons qu'initialement les poids ontune valeur aléatoire faible et que n'importe quel neurone peut gagner. Dans le groupe SV,les poids des neurones entourant le neurone gagnant sont modifiés avec une probabilitédépendant de la distance euclidienne entre les vecteurs poids de ces neurones et celui duneurone gagnant. Ce mécanisme permet à un neurone dans le voisinage du gagnant deréagir à un motif similaire à celui qu'il a codé. Par ailleurs, une bulle de diffusion d'activitéest créée autour du gagnant. Comme aucun lien entre SV et SM (WTA) n'existe encore,un mouvement est choisi au hasard, en fonction du niveau de bruit sur les neuronesmoteurs. Si c'est le mouvement tourner à gauche ou à droite de 90° qui gagne, le robot secogne au mur. Cette collision active un signal de renforcement négatif qui est utilisé parl'algorithme peR pour réduire la confiance dans l'association entre la situation a et l'undes mouvements "tourner". Cependant, il n'y a encore aucun lien créé entre le neuronecodant la catégorie Cl et un quelconque mouvement. Les mouvements suivants sont doncde nouveau pris au hasard jusqu'à ce que le robot choisisse le mouvement "avancer toutdroit". A ce moment, le mouvement étant correct, le signal de renforcement négatif cesseet un signal de renforcement positif est activé (~P[t] > 0). Un lien entre la catégorie Clet le mouvement "avancer" est appris et sa confiance est augmentée.

- 117 -

Page 124: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

Après avoir avancé d'un pas, le robot perçoit l'image b. Comme cette situation estsimilaire à la précédente, un neurone proche de Cl est activé. Du fait de la bulle dediffusion, Cl est aussi activée avec toutefois une valeur plus faible. Comme il y a un lienentre Cl et le mouvement "avancer", c'est malgré tout cette action qui est effectuée (cf.figure 51-c).

PTM PTM

1EV~ / EV

B ·œ~0 ~

EM ~

0 "1o --.a) SM b) SM

PI'M PTM:-:-:-:-=-.,...........--.,

EV EV Ci""\,\\:-'-.

0 j -'0 .JEM ~ EM ~

0 "1 D "1c) SM d) SM

Figure 51. a) Lorsque le robot perçoit une forme, elle est catégorisée sur PTM et entraîne la formationd'une "bulle" d'activation. b) Si la forme est suffisament nouvelle, le neurone gagnant peut alors apprendrela forme et le WTA doit apprendre à associer cette reconnaissance à un mouvement. c) La perception estdifférente, mais à cause de la diffusion de l'apprentissage de la catégorie, un neurone dans le voisinage deJ'ancien gagnant réagit. Du fait de Ja diffusion, J'ancien gagnant est activé, ce qui déclenche Jemouvementqui lui était associé. d) Après plusieurs apprentissages, on peut avoir différentes catégories associées àdifférents mouvements.

De la situation c en allant vers la situation e, les images du pictogramme sont deplus en plus reconnaissables (voir figure 45). Les bandes horizontales du pictogrammeapparaissent petit à petit et sont détectées par les filtres de Gabor. Ces nouvelles imagesentraînent l'activation des neurones qui sont de plus en plus éloignés de Cl (la situation"couloir" est de moins en moins bien reconnue). Comme le terme de vigilance est relative­ment bas, le système tend à surgénéraliser et continue à effectuer le même mouvement.Lorsque le robot arrive en e, il essaie d'avancer mais se cogne au mur. A ce moment, unsystème réflexe le fait reculer de 50cm l O et il saisit une nouvelle image qui ressemble àl'image e. Le terme de vigilance est mis à 1, sa valeur maximale. Comme le robot est plus"attentif", il perçoit que l'image est trop différente de l'image codée en Ct. Une nouvellecatégorie C2 est donc créée (voir figure 51-d). A ce moment, le robot essaie d'associer cette

lOCe choix est arbitraire. En fait, une grande plage de valeur peut être utilisée. Nous avons choisi50cm pour être compatible avec les ordres de grandeur du labyrinthe (couloir de 60cm de large) et durobot (25cm2) .

- 118 -

Page 125: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

nouvelle catégorie à un mouvement qui lui permet d'éviter de se cogner au mur. Il peutainsi tourner soit à gauche soit à droite et apprendre cette association. L'apprentissage dumouvement lui permettant d'atteindre la sortie du labyrinthe est résolu par l'algorithmePCR.

Au début, avant que le robot ne se cogne à un mur, toutes les situations correspondantà la même catégorie Cl sont donc reliées au mouvement "avancer tout droit" (voir figure52-a et a'). Après lacollision, une nouvelle catégorie C2 est créée à une certaine distancedonnée de Cl .A.cause du mécanisme de diffusion, une frontière au milieu de Cl· et C2

se créée automatiquement au travers de la compétition entre les neurones moteurs (voirfigure 52-b). Si une situation est reconnue par un neurone situé à gauche de la frontière,ce neurone activera.le mouvement correspondant à la reconnaissance de Cl (c'est-à-dire"avancer tout droit"). A l'inverse, si la situation est reconnue par un neurone situé del'autre coté de la frontière, le robot réagira comme s'il avait été en C2 (voir figure 52-b').

CategorieCl

Reconnue

Mouvement

avancer

a) CancPTMCI a')

CategorieC2Reconnue

~ t r-mouvement

wrA tourner

CategorieC1Reconnue

Mouvement

CI : c2

avancer

b) CarteP1'M Frontl6œ entrecalt~s b')perçueauniveaudUWTA

Figure 52. Apprentissage autonome des catégories a-a') Le robot a appris à aller tout droit et a généralisécet apprentissage à l'ensemble des perceptions visuelles (diffusion du neurone correspondant à la recon­naissance d'un "couloir". b-b') Lorsque le robot heurte le mur, il crée une nouvelle catégorie qui peutêtre associée à un nouveau mouvement. Les deux catégories correspondent à deux régions perceptuellesdans l'espace physique.

Imaginons maintenant que le robot est mIS de nouveau dans la situation a. A ce

- 119 -

Page 126: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

moment, il commence par avancer tout droit jusqu'à ce qu'il reconnaisse une situationvisuelle proche de la situation e. Supposons maintenant que la situation c est plus prochevisuellement de la situation e que de la situation R, et que si le robot tourne à gauche ilheurte le mur (53-c et c'). Lorsque le robot atteint c, il effectue le mouvement correspon­dant à la reconnaissance de C2 , mais il se cogne au mur. Comme nous l'avons expliquéci-dessous, le terme de vigilance croît et le robot crée donc une nouvelle catégorie C3 (voirfigure 53-d). Cependant, il y a alors un problème pour créer une association entre cettenouvelle catégorie et un mouvement différent de celui auquel est liée la catégorie C2 • Eneffet, comme la situation c est perceptuellement plus proche de e que de a, la catégorie C3

est proche de C2 • Du fait de la diffusion d'activité, la catégorie C2 est légèrement activée.Etant donné qu'il existe une asssociation entre C2 et le neurone du WTA qui code le mou­vement "tourner à gauche", c'est ce mouvement qui est toujours proposé. Le problème estque peR dans sa version initiale, ne fait que créer ou détruire des liens entre le gagnantde la carte de catégorisation et le neurone gagnant du WTA. Or, il n'y a aucun lien àsupprimer.

Une solution consiste à faire gagner un autre neurone du WTA. Pour ce faire, unepremière idée consiste à ajouter un bruit important en sortie des neurones du WTA demanière à générer des mouvements aléatoires puis à sélectionner celui qui est le pluspertinent d'associer à C3 . Nous avons vu au paragraphe 3.3.1 que cette solution peutcauser des problèmes de stabilité. Nous avons préféré une solution alternative qui consisteà utiliser des liens inhibiteurs. Dans ce cas, au lieu d'avoir un lien peR excitateur parassociation, on utilise une paire de liens: l'un est excitateur, l'autre inhibiteur. Leprocessus d'apprentissage des liens inhibiteurs est totalement équivalent à celui des liensexcitateurs. Lorsque C3 est activé, il peut inhiber l'activité du mouvement "tourner àgauche". Ce mouvement ne sera donc plus choisi par la suite et un autre mouvementest choisi au hasard. Dans ce cas, du fait de l'apparition d'un renforcement positif, peRpermet d'apprendre à associer C3 à ce nouveau mouvement.

En fait, la frontière entre le comportement "avancer tout droit" et le mouvement"tourner à gauche" (frontière entre C2 et C3 ) , a été déplacée (voir figure 52-d'). Lesfrontières peuvent être adaptées, jusqu'à ce que le robot réagisse correctement aux con­traintes imposées par l'environnement.

La topologie est utile uniquement si une certaine continuité de l'environnement estperçue par le robot. Le niveau de conservation de la topologie est contrôlé par le termede vigilance.

Si la vigilance est trop basse, le robot a tendance à trop généraliser et à considérerles nouvelles situations comme des situations déjà apprises. Par exemple, dans une bi­furcation en T dont le pictogramme serait différent de celui rencontré dans une autrebifurcation en T, le robot peut généraliser abusivement et réagir comme s'il avait été danscette autre situation (même si le mouvement est incorrect). Pour un autre parcours dansle labyrinthe, la vigilance peut alors être augmentée pour que le robot puisse distinguerles deux bifurcations. En conclusion, pour construire un robot entièrement autonome, leterme de vigilance doit être régulé en fonction de la réussite du robot ou du nombre de

- 120-

Page 127: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

Mouvementtourner

d) CartePTM

c')

d')

~+r-

WT"

WTA

CartePI'Mc)

Figure 53. Apprentissage autonome des catégories. c-c') Lors d'un nouveau parcours, le robot "reconnaîtla situation tourner à gauche. Cependant, au moment de cette reconnaissance, ce mouvement est impos­sible. Une nouvelle catégorie est créée, ce qui permet d'inhiber le mouvement "tourner à gauche". d-d')Le robot apprend alors que dans cette situation il doit "avancer". Dans l'espace physique, deux régionssont maintenant associées au mouvement "avancer" et l'étendue de la région du labyrinthe correspondantà la catégorie "tourner à gauche" est plus petite.

formes apprises (s'il apprend trop de formes, la vigilance peut être réduite).

6.5 Commentaire d'une trajectoire réelle du robot

La figure 54 représente une trajectoire du robot dans un labyrinthe en T. Le labyrinthefait 3m de large et 1, SOm de long. Au départ, le robot est mis sur le bord gauche ducouloir du labyrinthe. On constate qu'il réussit à se centrer après environ 2 ou 3 pas(1 passe 20cm). Lorsqu'il arrive à l'intersection en T, il peut tourner de 90 degrés àgauche sans problème et à la suite de ce mouvement il est de nouveau centré. On observeaussi que les mouvements ne sont pas effectués de manière parfaite (coté gauche de latrajectoire), le mécanisme réflexe permet au robot de se re-centrer. D'autres essais ontété tentés dans un couloir légèrement incurvé. Le robot réussit alors à suivre la courbedu couloir de manière à rester au milieu du couloir.

- 121 -

Page 128: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6 Expérimentation: Implantation Réelle

1 SOcm 1

Figure 54. Trajectoire réelle du robot lors d'une expérience de test du système réflexe.

En fait, le système réflexe permet au robot d'être tolérant vis à vis de légers défautsd'orientation ou de localisation. On montre figure 55 que, quelle que soit la position durobot dans la région Bet quelle que soit son orientation (c'est simplement un problèmede construction géométrique), il est en mesure de tourner à gauche. Cela provient dufait qu'intrinsèquement, il y a une relation entre la continuité des images perçues et lacontinuité de la position du robot dans l'espace. Du fait des propriétés topologiques dePTM, cette continuité est obtenue "gratuitement" par l'interaction avec l'environnement.Cependant, cette continuité de l'environnement est uniquement locale. Par exemple,après une rotation "de so degrés du robot, l'image perçue est totalement différente de cellequ'il voyait avant. Par conséquent, cette nouvelle image peut très bien être codée sur unneurone très éloigné de celui codant le motif précédent. En fait, le système code ainsi lesruptures dans la continuité de l'environnement. La continuité de la carte ne peut doncseulement être que locale.

-~,..----c

mFigure 55. Quelque soit l'endroit où se trouve le robot dans la zone B, il réussit à tourner à gauche. Lapréservation de la topologie sur la carte de catégorisation permet de rendre compte de la relation entrela continuité des images perçues et la continuité de la position du robot dans le T.

Il peut, par ailleurs, y avoir un problème dans la région C si le robot reconnaît la situa­tion "tourner à gauche" alors qu'il est encore dans le couloir (voir figure 55). Tout d'abord,il faut prendre note que le région C n'est pas très grande, et donc que la probabilité de setrouver dans cette zone est donc très faible. En outre, nous avons vu précédemment que

- 122 -

Page 129: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III Conditionnement

PTM était capable de créer une -nouvelle catégorie lors de la collision. Donc, les régionsA et B s'élargissent et C, la région à problème, disparaît rapidement.

Ce système de catégorisation automatique a été testé sur notre nouveau robot Koala.Nous avons ainsi pu vérifier que le robot arrive à distinguer petit à petit les régions C etB et à leur associer respectivement le mouvement "avancer" et le mouvement "tournerà gauche". Toutefois nous nous sommes heurtés à un nouveau.problème : il se peut quela région B corresponde perceptuel1ement à deux sous-régions B' et B" qui peuvent êtreassociées à deux mouvements différents (voir figure 56). Cette situation est possible si,au cours de deux parcours du -labyrinthe, le robot se retrouve face au mur dans deuxpositions différentes et que le système attentionnel focalise sur des zones de l'image trèsdifférentes.

Figure 56. Du fait d'un problème de catégorisation, le système a décomposé la région B en deux sousrégions catégorisées sur des neurones différents B' et B" et chacune associée à des mouvements différents.

Le problème principal alors, est de pouvoir éliminer le "mauvais" mouvement associé,par exemple à la région B". En effet, "d'un parcours à l'autre on peut se retrouver, soitdans la région B', ce qui mène à un renforcement positif, soit dans la région B" quimène à un cul-de-sac et donc à un renforcement négatif. Grâce à peR, le lien entre lareconnaissance de B" et le mouvement "tourner à droite" disparaît petit à petit, maisle temps de convergence est très long. En effet, après chaque parcours de labyrinthe, lescorrélations Ci j sont remises à o. Seuls les mesures de confiance Pij permettent de gardertrace, d'un parcours à l'autre, des associations effectuées précédemment.

Ce problème de différenciation des deux perceptions B' et B" (ou plus) est un problèmedifficile impliquant à la fois le système de vision, le niveau de vigilance et le mécanismed'association aux mouvements. Il conviendrait de développer un système permettant,a posteriori, de fusionner ces catégories de manière à les lier systématiquement à uneréaction unique. Ce problème compliqué sort cependant du cadre de cette discussion.

Malgré ces problèmes qui sont avant tous liés aux difficultés de la catégorisation dansun environnement réel, la règle peR est suffisament robuste pour résoudre le problèmed'associations sensori-motrices.

- 123 -

Page 130: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 7

7 Conclusion

Conclusion

Dans ce chapitre, nous avons exposé les données psychologiques et biologiques du condi­tionnement. Nous nous sommes aperçu que les modèles classiques du conditionnement nepermettaient pas de modéliser correctement certains processus de renforcement complexestels q~e les conditionnements impliquant un long retard entre l'association sensori-motriceet le signal de renforcement.

Ensuite, nous avons proposé de développer un modèle rendant compte de ce mécanismeen vue de l'appliquer au contrôle d'un robot mobile autonome. Partant sur les mêmesbases que les modèles classiques, nous avons proposé une règle de conditionnement prob­abiliste permettant d'apprendre des séries d'associations sensori-motrices en utilisant unsignal de renforcement frustre et pouvant être retardé. Par ailleurs, nous avons intégré cemodèle au sein d'une architecture d'inspiration biologique pour contrôler un robot mobileréel. Les performances de l'algorithme ont de plus été évaluées par des tests systématiquesqui ont prouvé sa robustesse et sa rapidité de convergence. L'algorithme semble cependant"trop performant" pour être biologiquement plausible. En ce qui concerne le domaine dessciences de l'ingénieur, l'algorithme paraît, par contre d'un intérêt certain.

En fait, bien que se voulant d'inspiration biologique, tous ces modèles, y compris lenôtre, négligent la complexité des structures biologiques dont disposent les animaux pourapprendre les tâches de conditionnement. Nous avons vu que l'hippocampe, structure ducerveau intégrant des informations multi-modales provenant de différentes aires corticales,était impliqué dans des mécanismes de conditionnement complexe.

Au cours de ce chapitre, nous avons montré qu'il était possible d'élaborer des modèlesdu conditionnement offrant l'explication de phénomènes de complexité sans cesse crois­sante. Le modèle que nous avons proposé permet en particulier de rendre comptede phénomènes complexes autorisant, l'apprentissage simultané de plusieurs tâches, etl'utilisation d'un signal de renforcement retardé. Nous pouvons cependant nous demandersi nous n'avons pas atteint un niveau maximal de complexité explicable par le condition­nement.

Selon les psychologues comportementalistes [Pav27, Ski53], l'ensemble des processusliés à l'intelligence se réduirait aux mécanismes de conditionnement. Les comporte­mentalistes ont proposés que les comportement complexes pourraient s'expliquer parl'apprentissage de chaînes de conditionnement, c'est à dire, de l'apprentissage de condi­tionnementsobtenus à partir d'une réaction elle-même issue d'un conditionnement. Cetteexplication peut sembler intéressante à première vue, mais elle est difficilement explica­ble par la biologie. Il faudrait en effet considérer que chaque réaction de la chaîne deconditionnement est codée par un neurone spécifique (voir figure 57).

Cependant,ce mécanisme poserait un problème vis à vis d'une possible évanescencedu signal transmis dans la chaîne de conditionnement. Si la chaîne entre le se et la Reest longue, la Re serait très faible (à moins d'une amplification du signal le long de lachaîne). Par ailleurs, un autre problème se pose lorsqu'un stimulus peut provoquer deuxou plusieurs réactions (voir figure 58). Quelle sera en effet la Re finalement effectuée?

- 124 -

Page 131: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre III

se

\n Re

Conditionnement

Figure 57. Chaîne de conditionnement.

sc~ Rel

Q(RC2

Figure 58. Chaîne de conditionnement: un même stimulus provoque plusieurs RC

De la même manière, pourquoi serait-ce plus spécifiquement la réaction de fin de chaînequi serait déclenchée et non pas l'une ou plusieurs des actions impliquées dans la chaîne?Par ailleurs, un problème se pose quant aux moyens pouvant intervenir pour forcer ledéroulement temporel d'une séquence d'actions. En fait, ce problème nous amène à laquestion de l'influence du choix sur le séquencement des actions. Au chapitre suivant,nous tentons d'approfondir ce point en nous confrontant au problème de la planificationdes actions.

- 125 -

Page 132: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 7

- 126 -

Conclusion

Page 133: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

Planification et cartes cognitives

Planifier son chemin entre un endroit et un autre, c'est pouvoir prévoir à tout momentla séquence d'actions à entreprendre pour se rendre au point d'arrivée. Selon les psycho­logues cognitivistes, cette faculté de planification serait due à l'existence dans le cerveaude cartes cognitives qui permettraient d'envisager en interne, à partir de la reconnaissanced'une situation donnée, quelles autres situations peuvent être rencontrées et comment lesatteindre. Le concept de représentation interne sous la forme d'une carte cognitive a étéutilisé pour expliquer les mécanismes de navigation de nombreux animaux, y compriscelui de certains insectes (tels que les abeilles ou les guêpes) dont on sait pourtant quele système nerveux a des capacités limitées (par rapport aux mammifères). En fait, pourles psychologues, la notion de cartes cognitives représente plus une métaphore permettantd'expliquer simplement certains processus de navigation, qu'un modèle capable d'êtreétayé par une réalité biologique. Il est vrai qu'iln'existe pas à l'heure actuelle de certi­tude sur l'existence "physique" de carte de l'environnement dans le cerveau. Toutefois,des expériences, menées par O'Keefe [J .078], ont montré qu'il existait dans l'hippocampedu rat des cellules réagissant de manière préférentielle quand l'animal se situe dans unendroit particulier de l'environnement. L'existence de ces "cellules de lieux" (Place Cells),a donc amené certains chercheurs à penser qu'il s'agissait de la preuve de l'existence bio­logique de représentations de l'environnement en coordonnées cartésiennes. ü'Keefe a enparticulier suggéré que l'amplitude et la phase de l'activité des neurones correspondraientà un calcul de sinusoïde qui permettrait d'exprimer la distance et l'angle par rapport àun référentiel absolu [ü'K91]. Il faut remarquer que cette représentation cartésienne del'environnement est habituellement considérée comme la définition de la "carte cognitive".Cependant, on peut se demander si des animaux aussi simples que les insectes, qui nepossèdent pas de structures nerveuses sophistiquées telle que l'hippocampe, peuvent cons­truire des représentations internes aussi complexes que les cartes cognitives cartésiennes.Des modèles simples, basés sur la généralisation d'informations apprises à un niveau localet sur des mécanismes de conditionnement, ont par ailleurs été proposés pour expliquer lanavigation des abeilles ou de certains oiseaux sans recours à l'utilisation d'une carte cog­nitive cartésienne. De plus, certaines expériences de psychologie ont souligné l'importancedes comportements sensori-moteurs dans l'élaboration des cartes cognitives. Du fait de

127

Page 134: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 0 Conclusion

ces explications équivoques, les idées ne sont pas claires sur les mécanismes qui entrentréellement en compte dans la navigation des animaux.

Dans ce chapitre, nous chercherons donc à connaître la nature de la représentationinterne dont les animaux ont besoin pour pouvoir planifier leurs actions et naviguer dansleur environnement. Ce point de vue sera confronté à des expériences et des modèlesinfirmant dans certains cas la nécessité pour l'animal de disposer d'une carte cogni­tive (un simple mécanisme sensori-moteur étant suffisant). A la lumière de nouveauxmodèles disponibles, une définition élargie du concept de carte cognitive sera alors pro­posée. Nous passerons ensuite en revue une série de modèles permettant de construire desreprésentations topologiques, mais non cartésiennes, de l'environnement. Ces modèles per­mettront, cependant, d'expliquer certains mécanismes de planification des actions. Nousmontrerons cependant que ces modèles négligent le problème de la mise en relation dela planification avec l'aspect sensori-moteur. Un modèle de carte cognitive, d'inspirationbiologique répondant à notre définition élargie, sera alors proposé. Nous suggérerons, parailleurs, une analogie entre le modèle proposé et certaines structures du cerveau impli­quant l'hippocampe et le cortex pré-frontal.

- 128 -

Page 135: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

1 Introduction

1.1 Expériences de. psychologie

Dès les années trente" alors que les psychologues discutaient encore de la validité desthéories comportementalistes, Tolman [ToI30, Tol32 , To148] réalisa des expériences surdes rats dans des labyrinthes dont les résultats n'étaient explicables ni dans le cadre duconditionnement classique, ni dans celui du conditionnement instrumental.

Le but de l'une de ses expériences était d'étudier les capacités d'un rat à atteindreun certain emplacement dans un labyrinthe en fonction de la présence ou non d'unerécompense-à cet endroit (voir figure 1-a). L'expérience est réalisée sur trois groupesde rats: HR (toujours récompensé à l'arrivée), HNR (jamais récompensé) et HNR­R(récompensé seulement après Il jours). Les résultats obtenus sont donnés figure 1-b.Les performances sont exprimées en nombre de choix erronés effectués aux intersections.

252010 15Nombrede jours

30 .....

35r------r------:-----,---~==:===;--,

10 ....

\i','"', ::

25 \: -,::..... ,..

10"' \<\ \" '<"\"_ i- _ " •• ".' . .. : .• ~ .. ':' ".:-:"<."' .

E '

~15 \ ...

w \~ .. ,'\:

... ··r.,·..,.. · : :..'\ ';;f ..

5 .. ..

Figure 1. a) Le labyrinthe utilisé dans l'expérience de Tolman. b) Les erreurs commises au cours dutemps par trois groupes de rat: HR (toujours récompensé à l'arrivée), HNR (jamais récompensé) etHNR-R(récompenséseulement après Il jours)

Avant le onzième jour, les rats du groupe HNR-R ont un comportement identiqueà celui des rats du groupe HNR, c'est-à-dire qu'ils atteignent la position d'arrivée parhasard. Cependant, dès qu'on commence à leur donner de la nourriture, ils empruntentimmédiatement le meilleur chemin pour atteindre le but et présentent des performancesanalogues à celles des rats HR, qui ont été récompensés tout au long de l'expérience. Cettetransformation de comportement tendrait à prouver que lors de la phase d'exploration,bien qu'aucune récompense ne leur ait été accordée, les rats ont appris la configurationdu labyrinthe. Cette représentation interne est appelée carte cognitive. Par ailleurs,comme aucune récompense n'avait été donnée avant le onzième jour, l'apprentissage estdit latent.

Si effectivement, les animaux sont capables de créer des cartes cognitives de leurenvironnement, ces représentations pourraient, en théorie, leur permettre d'''imaginer''

- 129 -

Page 136: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section I Introduction

l'ensemble des chemins possibles entre deux endroits déjà explorés afin d'établir, par exem­ple, le chemin le plus court pour s'y rendre. C'est ce qu'ont essayé de mettre en évidenceTolman et Honzik [To130] au cours d'une expérience utilisant le labyrinthe présenté fi­gure 2.

Parcours 3

But

B

Parcours 1 :pl: p2~ 1---------......

82

oFigure 2. Expérience de To1man et Honzik [To130}, mettant en évidence la faculté de trouver des rac­courcis.

Ce labyrinthe comporte trois parcours possibles rangés par ordre croissant de longueurde I à 3. Deux portes, pl et p2, permettent d'obstruer le passage en A et en B. Du­rant la phase d'apprentissage, les rats sont entraînés à emprunter chacun des trois par­cours pour rejoindre le but (en bloquant le passage en A ou en B). Durant la phase detest, seule la porte p2 est fermée, bloquant à la fois le parcours 1 et le parcours 2. Lesrésultats expérimentaux prouvent que la majorité des rats emprunte alors directement leparcours 3 sans essayer le parcours 2. Selon les auteurs, cette faculté s'expliquerait par la"compréhension interne" que la porte p2 bloque à la fois le parcours 1 et le parcours 2,ce qui permettrait au rat de déduire que le seul parcours possible pour se rendre au butest le parcours 3.

L'animal semblerait ainsi inférer son comportement en fonction des connaissances ac­quises préalablement et de la situation qu'il perçoit à un instant donné.

Cependant, on peut se demander comment l'animal réagit lorsqu'il se retrouve dansune situation inconnue. Est-il capable d'utiliser sa représentation interne pour déduire lecomportement le plus approprié pour rejoindre le but?

Une expérience mise au point par Morris [Mor8I] a permis de donner une réponse quisemblerait conforter l'hypothèse des cartes cognitives cartésiennes.

A l'origine, l'expérience de Morris [Mor8I] devait uniquement permettre de vérifier quela navigation vers le but ne dépendait pas de caractéristiques intrinsèques de celui-ci,mais de sa position dans l'espace uniquement. Le principe consiste à tester l'aptituded'un rat à rejoindre à la nage une plate-forme située dans une piscine dont l'eau estentièrement opaque. Quatre protocoles sont testés sur des groupes de rats distincts. Pourles 2 premiers groupes, la plate-forme ameure de l'eau (et est donc visible de n'importeoù dans la piscine). Elle reste fixe pour le premier groupe et est déplacée aléatoirementpour le second groupe. Pour les 2 autres groupes de rats, la plate-forme est entièrementimmergée et seule sa surface dépasse ce qui empêche totalement le rat de la voir depuis

- 130 -

Page 137: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

le. bord de la piscine. Là encore, la plate-forme est fixe pour le premier groupe et mobilepour le deuxième. Les résultats montrent que le troisième groupe de rat (la plate-formeest invisible mais reste fixe) apprend aussi vite la tâche de navigation que les 2 premiersgroupes (plate-forme visible). Par contre, le dernier groupe (plate-forme mobile immergée)ne montre aucune aptitude à trouver la plate-forme si ce n'est en effectuant une rechercheexhaustive dans la piscine. A priori, les conclusions tirées à ce niveau de l'expériencetendent uniquement à indiquer que le rat est capable cl'utiliser des repères visuels éloignés

. pour -se localiser. Nous verrons d'ailleurs que les modèles proposés par Cartwright &Collett[Car83] ou par Gaussier & Zrehen [Gau94c], donnent une explication simple, baséesur l'acquisition de conditionnements sensori-moteurs, du mécanisme qui serait impliquédans ce processus de navigation.

Morris effectua par ailleurs une seconde expérience dans laquelle les rats apprennentà rejoindre une plate-forme immergée en partant toujours du même endroit. Après laphase d'apprentissage, les rats sont lachés en différents points, distincts de la situationd'apprentissage. Les résultats montrent alors que quelque soit l'endroit d'où les ratssont lachés, ils réussissent à rejoindre la plate-forme directement. Selon Morris, ce com­portement ne peut pas être expliqué dans le cadre comportementaliste puisque le rat n'aété entraîné que sur un trajet donné et qu'il n'a donc pas pu inférer le comportementconvenant à une situation inconnue. Le comportement du rat proviendrait du "trans­fert" des connaissances acquises lors de la phase d'apprentissage. Ce mécanisme seraitrendu possible grâce à une représentation sous forme de carte cognitive cartésienne del'environnement.

Wishaw [Wis91] tente toutefois de modérer les conclusions tirées par Morris. Il décrit,en effet, une expérience effectuée sur le principe de l'expérience de Morris à la différenceque le rat est directement mis sur la plate-forme par l'expérimentateur, et n'a pas ànager jusqu'à elle. Les résultats obtenus montrent alors que si le fait de mettre le ratsur la plate-forme d'arrivée améliore considérablement ses performances de navigation,cela ne lui permet cependant pas une généralisation immédiate (transfert instantané).Il es.t nécessaire au préalable que le rat nage effectivement jusqu'à la plate-forme pourque l'apprentissage soit réellement efficace. Whishaw insiste toutefois sur le fait quecette expérience ne démontre pas la non-existence des cartes cognitives, puisqu'il y a euapprentissage latent (mais non immédiat). Il nous suggère seulement de réviser notredéfinition de carte cognitive, et de prendre note que les informations utilisées doiventsans doute .être globales et non-détaillées (ce qui rend difficilement crédible l'existence decarte ayant une métrique rigoureuse) et que la fabrication de telles représentations estintimement liée aux mécanismes d'associations sensori-motrices.

Une discussion analogue existe à propos des travaux de Gould sur les abeilles [Gou86]qui ont permis de supposer que même les insectes posséderaient des mécanismes de navi­gation reposant sur l'utilisation de cartes cognitives cartésiennes. Le dispositif de leurexpérience est présenté figure 3.

On apprend aux abeilles à se rendre de leur ruche ("hive" - H ) au point A où illeur est possible de trouver de la nourriture. Les abeilles sont ensuite capturées sur leur

- 131 -

Page 138: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Introduction

Figure 3. Expérience menée par Gould [Gou86] sur la navigation des abeilles.

trajet de la ruche vers A puis relâchées au point B qu'elles n'avaient jamais exploréprécédemment. Les résultats montrent que les abeilles reconnaissent le point B, et seréorientent vers A. La conclusion de Gould est que les abeilles posséderaient une cartecognitive de l'environnement leur permettant d'estimer les positions relatives de A et deH à partir de la reconnaissance du point B.

Les principales controverses sur ces travaux résident dans l'existence de nombreusestentatives infructueuses pour reproduire les résultats de cette expérience [Dye91]. Parailleurs, des modèles très simples, n'utilisant pas la notion de carte cognitive, permettentd'expliquer convenablement la navigation des abeilles.

En effet, dès 1983, Cartwright et Collett [Car83] ont proposé un modèle de navigationdes abeilles qui n'utilise pas de représentation interne sous forme de carte cognitive. Ilssuggèrent que les abeilles réussiraient à se repérer dans leur environnement en mémorisantdes "clichés" ("snapshot") visuels autour du but, afin de pouvoir, par la suite, comparerles images rétiniennes perçues et ces images mémorisées pour proposer des mouvementsqui réduiraient les différences entre ces images.

La première étape consiste à repérer des "amers" ("landmarks") dans l'environnement.On peut alors extraire deux types d'information: l'orientation de ces amers par rapport àl'orientation courante de l'abeille et la taille apparente de ces amers. L'idée est que l'abeilleavance si la taille apparente de l'amer est plus petite que celle qui a été mémorisée, etinversement si l'image apparente est plus grande. De la même manière, si l'amer est plusà gauche, l'abeille tourne à gauche et vice-versa (voir figure 4).

Le défaut majeur de ce modèle est qu'il utilise directement les informations issues dela rétine pour effectuer la mise en correspondance entre l'image apprise et l'image perçue

- 132 -

Page 139: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

a) b) /

Planification

Figure 4. Principe du modèle de navigation des abeilles proposé par Cartwright et Col1ett [Car83J. a)Image apprise. b) Comparaison des directions et taille des amers et mouvement proposé.

sans effectuer au préalable une "reconnaissance" de ceux-ci. Cela impose que les amersutilisés soient perçus de la même manière quelque soit l'orientation de l'abeille (utilisationde cylindres identiques).

Le modèle proposé par Gaussier et Zrehen tente de pallier les difficultés du modèleprécédent en autorisant la reconnaissance des amers individuellement [Gau95, Gau94b,Zre95]. Le principe du système de navigation, inspiré du modèle de Zipser [Zip85], estd'apprendre à associer la reconnaissance de panoramas visuels (appris à proximité dubut) avec le mouvement qui permet d'aller dans la direction du but. Un mécanisme degénéralisation topologique donne ensuite la possibilité de retrouver le but depuis n'importequelle position de l'environnement. L'architecture proposée est composée de deux blocsPerAc disposés en série (voir figure 5). Le but du premier bloc est d'analyser l'imagepanoramique en niveaux de gris en focalisant l'attention de l'animat sur les différentsamers présents dans la scène. Pour chacun de ces amers, le système construit alors unereprésentation composite correspondant à la fusion de la reconnaissance ("What") de cetamer et de son orientation dans la scène par rapport à un référentiel absolu ("Where").La scène globale correspond alors à la concaténation de ces informations composites.Ces informations sont alors utilisées en entrée d'un second bloc PerAc qui apprend à lesreconnaître et à les associer à des mouvements par un mécanisme de conditionnementclassique.

Gaussier et Zrehen soulignent la plausibilité biologique de leur modèle en comparantles informations "what" et "where" aux voies occipito-pariétales (localisation des objets[Poh73]) et occipito-temporales (reconnaissance des objets) découvertes dans le cerveau(voir [Mis83, Ung95]). Par ailleurs, il a été proposé que la fusion des informations"what" et "where" puis la catégorisation de ce résultat pourrait être effectuée au seinde l'hippocampe et aurait un rôle fonctionnel pouvant correspondre aux "cellules de lieu"("places cells" - cellules de l'hippocampe qui s'activent, chez le rat, lorsque celui-ci re­connaît un lieu donné [J.078] - voir figure 6).

Le mécanisme qu'ils utilisent pour la navigation fonctionne en deux temps. Dans une

- 133 -

Page 140: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Introduction

Perception~ ----L--'" Environnement

Reconnaissance

Perception~ --L.~ Visuelle ---'-~-.I

Reconnaissance-----------------------1

11

11Perception

Visuelle

11

.------;~i~:::~---~----"saccades

mouvements de la tête

-------------~-----

mouvements durobot

Figure 5. Architecture pour la navigation: cascade de 2 blocs PerAc.

"amer 1"

"amer 2"

"amer 3"

e neurone activé

_ diffusion oo~­1

oo\0

1

ooos o

oN-

Figure 6. Fusion de l'information de reconnaissance de position des amers: simulation des "cellules delieu".

première phase d'exploration, lorsque l'animat atteint un but, un réflexe se déclenche etl'animat se met à tourner autour de celui-ci. Lorsque sa perception visuelle est suffisam­

. ment "différente" (vis à vis de la variable interne correspondant à la vigilance de l'animat)des scènes visuelles qu'il a déjà mémorisées, il apprend cette nouvelle scène ainsi que lemouvement à effectuer pour se diriger vers le but à partir de cet endroit (voir figure 7).

Dans une seconde phase, l'animat est placé à un endroit quelconque dansl'environnement. Grâce à un mécanisme de compétition entre les neurones et aux ca­pacités de généralisation de ces derniers, l'apprentissage effectué précédemment permetde rejoindre le but depuis n'importe quelle position de l'environnement, pourvu que lesamers soient visibles. En effet, la scène courante est comparée avec les scènes apprises etc'est la cellule qui correspond visuellement à la situation la plus proche qui réagit. Dufait des propriétés de continuité de la mesure de distance utilisée, la généralisation permetde faire toujours réagir le neurone lié au mouvement qui permet de se rapprocher du but.

- 134 -

Page 141: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

LandmarXl

frontierede decisionentre les neurones codant "A" et "B

Planification

,...,.""'"--- exemplede trajectoirepossible

directionde reference"Nord"

1Landmark3

•Figure 7. Tesselation de l'environnement liée à la compétition entre les neurones ayant appris deslieux différents. Les lieux appris sont représentés par des ronds noirs. Les Bêches correspondent auxmouvements qui leurs ont été associés.

On obtient ainsi un ensemble de cellules de lieux répondant pour des régions spécifiquesde l'environnement (correspond à une tesselation de VoronoÏ - voir figure 7).

L'expérience de navigation proposée par Gaussier et Zrehen a été implantée sur unrobot réel [Gau97b, Gau97a]. Les résultats sont présentés figure 8.

On peut voir que quelque soit l'endroit d'où il est laché, le robot effectue les mouvementsqui lui permettent de se diriger vers le but.

Il faut noter, cependant, qu'il évite la zone où se trouvait la chaise et la télévisioncar on lui a appris à effectuer le mouvement qui permettait d'éviter ces objets lorsqu'ilreconnaissait cette zone. On met en évidence ici une limitation de ces mécanismes denavigation. En effet, lorsque le robot est en 1, si on ne lui avait pas appris les mouvements3,4, 5 et 6, il se serait dirigé directement vers le but, et se serait donc heurté aux obstacles.

Une représentation interne spécifique à la position A, a donc été créée artificiellement,de manière à permettre au robot d'effectuer le mouvement d'évitement avant de pouvoirse diriger vers le but. En fait, le problème de planification des mouvements permettantdans un premier temps d'éviter les obstacles en A, puis de se diriger vers le but, a étérésolu par les concepteurs.

- 135 -

Page 142: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1

porte

Sud

7.2m Nord

Introduction

Figure 8. Le robot doit atteindre un objet situé à droite sous la table. Les lieux et les mouvementsappris sont repérés par des flèches numérotées. On voit que quelque soit le point de départ du robot, ilarrive à rejoindre le but.

Notre idée est de proposer un mécanisme qui permette de construire cettereprésentation interne de manière autonome. A notre sens, l'action d'un tel mécanismecorrespond à ce que nous attendons d'un mécanisme de planification (qui peut apparaîtrecomme l'utilisation d'une carte cognitive dans le cas de certains animaux).

1.2 Une définition des cartes cognitives

Dans son ouvrage sur l'apprentissage, Gal1istel [GaI93] cite de nombreuses expériences depsychologie qui sembleraient prouver la généralité des représentations internes utilisantdes cartes cognitives cartésiennes, dans le règne animal. Outre les travaux de Tolman,Honzik, Morris et Gould, Gal1istel cite, entre autres, les travaux de Aronson [Aro51] surles gobies (poissons), de Marlow [Mar82] sur les tortues, de Neuweiler [Neu67] sur leschauves-souris.

De l'ensemble de ces observations, Gal1istel tire une définition de la carte cognitive:

"A cognitive map is a record in the central nervous system of macroscopicgeometrie relations among surfaces in the environment used to plan movements

- 136 -

Page 143: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

through the environment..."

Planification

Bien que cette définition soit simple et générale, elle demande quelques commentaires.Tout d'abord, elle pose l'hypothèse que de telles cartes existent dans le cerveau, ce qui estencore de nos jours contesté. Par ailleurs, elle établit que les cartes cognitives ne tiennentcompte que d'informations géométriques macroscopiques. Enfin, elle considère que cescartes ne sont utilisées qu'à des fins de planification.

Remarquons que, dans cette définition, aucune hypothèse n'est faite sur la nature desinformations géométriques utilisées. D'ailleurs, Gallistel poursuit sur cette réflexion :

"...A central question is what kinds of geometrie relations the map encodes..."

Nous pensons, en effet, que cette question est primordiale pour comprendre ce qui peutêtre mémorisé et utilisé par le cerveau pour la planification. Nous sommes, en particulier,amenés à nous poser des questions sur la plausibilité biologique des mécanismes de codagede cartes cognitives couramment proposés lorsque Gallistel ajoute :

"...A map in ordinary acception encodes relative metric positions. The rela­tive metric position of a point is given by its coordinates (its vector position).Each coordinate of a point (each dimension of the position vector) specifiesthe distance of the point from an axis or origin of the system of coordinates."

Ce qui semble être proposé ici, est une carte cognitive qui serait codée dans un systèmede représentation de type cartésien ou polaire, avec une origine absolue, et des coor­données exprimées dans une métrique établie. Par ailleurs, cette carte, contiendrait desinformations, non seulement topologiques, mais aussi métriques.

Gallistel poursuit encore:

"The thesis 1 will argue is that the intuitive helief that the cognitive mapsof lourer animaIs are weaker than our own is not weIl founded... There isexperimental evidence that even insect maps are metric maps."

Le point de vue de Gallistel semble très tranché puisqu'il semble suggérer que de nom­breux animaux, y compris des animaux au système nerveux simple, tels que les insectes,posséderaient une carte cognitive cartésienne. Précédemment nous avons vu que desmodèles très simples, n'ayant pas recourt aux cartes cognitives, permettaient de rendrecompte de la navigation des abeilles.

Nous nous proposons donc de modérer la définition de carte cognitive faite par Gallistelet de la remplacer par celle proposée par Schmajuk [Sch92] :

"...The cognitive map [...] is a topological map, i.e, it represents only theadjacency, but Dot distancies or directions, between places ... The cognitivemap allows the combination of information about spatially adjacent places,and thereby the inference of the connections to remote places."

- 137 -

Page 144: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 1 Introduction

Le terme "place" (que nous traduirons par "lieu'), désigne a priori une certaine par­tie de l'environnement que l'animal associe à une seule représentation interne. Dansl'expérience de navigation en environnement ouvert présentée plus haut, on peut con­sidérer tout l'espace convexe autour du but comme un lieu unique. Cependant, si l'animats'éloigne de trop, il ne peut plus reconnaître cet endroit. Par exemple, lorsque le robotest dans la position indiquée par la flêche 1, le panorama visuel est très différent de celuiappris à coté du but. Cela correspond à un autre "lieu". En apprenant les relationstopologiques entre les lieux et en associant à chacun un mouvement spécifique, on peutpermettre de planifier les actions vers un but. Il est cependant nécessaire d'associer unenotion de motivation afin d'autoriser ou non d'aller vers un endroit particulier.

Au paragraphe suivant, nous passons en revue un ensemble de modèles de carte cog­nitive qui répondent à la définition que nous venons de donner. Nous présentons lescaractéristiques principales de ces modèles et soulignons certains de leurs défauts. En par­ticulier, nous insistons sur la nécessité de rattacher les représentations internes, utiliséespour la planification, aux données réelles.

- 138 -

Page 145: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

2 Modèles de cartes cognitives non-cartésiennes

2.1 World Graph (Arbib)

Le "World Graph" proposé par Arbib [Arb77] est un modèle élaboré pour rendrecompte d'expériences de psychologie expérimentale. Le modèle proposé comporte unereprésentation interne définie sous la forme d'un graphe dont les noeuds contiennent desinformations sur le renforcement que l'animal s'attend à recevoir dans chacun des lieux

.. qu'il rencontre. A partir de ces informations et de la dynamique des variables internesreprésentant les besoins de l'animal, le modèle permet de décider quelles sont les actionsà effectuer.

Chacun des noeuds x du "World Graph" correspond à la reconnaissance d'un lieu par­ticulier (néanmoins, plusieurs noeuds peuvent être associés au même lieu si la reconnais­sance est différente). Si au cours de ses déplacements, un animal est capable de se rendrede x à x', un arc est créé entre ces deux noeuds. Le principe du modèle est d'associer unschème sensori-moteur à chaque arc. En ce qui concerne les modifications structurellespouvant intervenir sur le graphe, deux cas sont envisagés. La première modification dugraphe consiste à ajouter un noeud x' lorsqu'un nouveau lieu est rencontré. A l'inverse,la deuxième modification du graphe consiste à réduire deux noeuds différents x et x' à unseul si l'animat considère que x et x' représentent la même situation. Il est à noter que Ar­bib ne suggère aucune méthode permettant de réaliser pratiquement ces deux opérations.Pour notre part, nous avons insisté au chapitre III sur la difficulté de contrôler de manièreautonome l'apprentissage ou la fusion de représentations internes élaborées à partir dedonnées perceptuelles. Ces mécanismes sont en fait liés aux problèmes de détection denouveauté et de mesure de pertinence d'une situation. Nous avons, en particulier, proposéun mécanisme de contrôle autonome de la vigilance permettant de créer des catégoriesperceptuelles considérées comme "nouvelles", lorsque la situation le requiert.

On suppose que le système est régi par un ensemble de k "drives" (variables internesobjectives fonction du niveau des motivations de l'animal telles que la faim, la soif, lapeur... ) représentées par les variables dl, d2 , ••• , dk dont les valeurs dépendent du temps.Par convention, les motivations attractives prennent des valeurs positives (0 ::; d(t) ::;dmax ) alors que les motivations aversives prennent des valeurs négatives (dm ax ::; d(t) ::; 0).

La dynamique des variables de motivations est donnée par l'équation:

d(t +1) =d(t) +ad Idma x - d(t)l- al(d, x, t) Id(t)1 + I(d, x, t) Idm ax - d(t)1

Où:

• ad est l'augmentation spontanée de la motivation d

• al(d, x, t) est le facteur de réduction de la motivation d, pour le noeud x à l'instant t

• 1(d, x, t) est un facteur incitateur (odeur de la nourriture, etc... ) lié à la motivationd, pour le noeud x à l'instant t

- 139 -

Page 146: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modèles de cartes cogniti ves

Remarque 1 Les équations présentées sont celles données par Arbib. On peut cependants'étonner de l'uiilisaiion dans l'équation de valeurs absolues plutôt que de parenthèses.Arbib considère en lait que d(t) est forcément compris entre dm in et dm ax •

Par ailleurs.chaque fois q~e l'animat reçoit un signal de renforcement au lieu codé parle noeud x, il met à. jour une variable interne R(d, x, t) qui correspond au renforcementque l'animal s'attend à recevoir en ce lieu x. Il est donc essentiel qu'un noeud soit créépour chaque endroit où un renforcement est reçu. La dynamique de cette variable est

. .

régie par l 'équation 1.

R(d,x, t +1) - R(d,x, t) si l'animat n'est pas en x

R(d, x, t +1) - dd(t) a2(d, x, t) + (1 - dd(t)) R(d,x, t) si l'animat est en xmax max

où a2(d,x,t) est le renforcement dû à la satisfaction de la motivation d reçue en x àl'instant t.

Il est intéressant de remarquer deux cas limites de cette équation :

.• d(t) ~ dmax <. Ce cas correspond à un apprentissage "en un coup". L'équation seréduit en·effet à R(d,-x, t +1) = a2(d,x, t) .

• d(t) ~ O.Dans ce cas, la motivation est faible et le renforcement attendu n'est pasmodifié (R(d, x, t + 1) ~ R(d, x, t)

Notons .que.Et(d, x, t) est une variable subjective puisque l'animal n'a pas accès directe­ment aux variables internes. Il faut en effet distinguer le facteur al, qui correspond à laréduction réelle de la motivation d, et le renforcement espéré R(d, x, t).

A partir des. variations des variables internes et de l'état du graphe, Arbib suggèreun modèle permettant de spécifier les actions effectuées à chaque instant par l'animat.Pour cela, il s'appuie sur des expériences de psychologie expérimentale afin d'éprouver lemodèle permettant de prédire le choix du prochain mouvement. L'hypothèse la plus simpleest de considérer que le mouvement effectué tend à réduire l'intensité de la motivationdominante. Une expérience menée par Miller [MiI59] va cependant à l'encontre de cettehypothèse. Cette expérience a pour but d'étudier le comportement d'un rat lâché àune extrémité A d'un couloir et trouvant à l'autre extremité B, tantôt de la nourriture,tantôt un choc électrique. Après une période d'apprentissage, lorsque le rat se rapprochede B, son comportement passe alors progressivement de l'attirance à la répulsion. Cerésultat met donc en défaut l'hypothèse de la motivation dominante qui amènerait unrat affamé à se diriger inévitablement vers B. Afin de prendre en compte les résultatsde cette expérience, Arbib propose de considérer que le mouvement est celui qui permetde maximiser la réduction attendue de l'ensemble des motivations ("competing nodeshypothesis" ).

- 140 -

Page 147: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

Par ailleurs, deux hypothèses sur le "chaînage" des informations entre noeuds du graphesont envisagées. La première hypothèse (hypothèse locale) suggère que le poids associé àun noeud x dép.end uniquement du renforcement que le système s'attend à recevoir pour cenoeud.. La deuxième hypothèse (hypothèse de chaînage - "chaining hypothesis"), suggèreque le poids associé à un noeud x dépend non seulement du renforcement attendu en xmais aussi des renforcements R(d,x', t) pouvant être espérés pour tout x' pouvant être

.atteint à partir de x. Une expérience de Gough [Gou62] semblerait toutefois contredirecette hypothèse. Dans cette étude, un rat est placé dans le labyrinthe représenté figure 9.

c

• Maximum de nourriture

~B' ~--< r'--~

.~.B'

c

• Maximum de nourriture

B

a) A b) A

Figure 9. Explication de l'expérience réalisée par Gough[Gou62]. a) Dans un premier temps, on apprendà des rats à se rendre de A en B et de A en B' (les portes permettant de faire communiquer les deuxparties du labyrinthe sont fermées). Par ailleurs, ils sont aussi habitués à se rendre de B, de l'autre cotéde la porte, en C. b) Après l'apprentissage, les portes sont ouvertes. On n'observe pas de préférenceparticulière pour l'un ou l'autre des chemins possibles pour se rendre en C.

Lors de l'apprentissage, des barrières sont placées en B et B' de telle sorte que le rat nepeut se rendre en C à partir de A. On apprend au rat qu'il peut obtenir de la nourritureen se rendant de A en B ou B' ainsi que de B en C. Par ailleurs, il y a plus de nourritureen C qu'en B ou B'. Une fois que les barrières sont enlevées, le rat choisit indifférementde passer par B ou B' pour se rendre en C. Selon Gough, les résultats de cette expériencemontrent que l'hypothèse de chaînage est invalide puisque le rat est incapable de chaînerles informations apprises séparement sur les segments AB et BC. Cependant, Arbibmontre qu'en formalisant le problème différemment, l'expérience de Gough ne mettraitpas en défaut l'hypothèse de chaînage des informations. Selon lui, le problème est quepour le rat, la situation B "avant la barriere" et la situation B "après la barrière" sontdeux situations différentes. Il n'y donc pas de raison pour chaîner les segments AB etBC.

En fait, Arbib s'appuie sur une expérience de Strain [Str53] pour valider la secondehypothèse. Dans cette expérience, un rat apprend à se déplacer dans un couloir pourvude différentes "stations" (voir figure 10).

A la fin du parcours, en F, le rat reçoit un choc électrique. Strain a montré que,

- 141 -

Page 148: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2

A B c D E

Modèles de cartes cognitives

F

Figure 10. Labyrinthe utilisé dans l'expérience de Strain.

quelque soit le niveau de sa "halte", le rat choisit toujours le mouvement qui lui permetde s'éloigner de F. Ce résultat favorise donc l'hypothèse du chaînage au détriment del 'hypothèse locale.

Afin d'expliquer le comportement du rat dans l'expérience de Strain, Arbib propose un"modèle pour lequel le renforcement perçu est donné par la formule :

R'(d )=" R(d,x',t), x, t L.J l(x, x') +1 (1)

où l(x, x') est la distance "estimée" entre x et x'. En utilisant, cette formalisationil explique les résultats des expériences de Strain. En effet, considérons la motivationassociée à la "peur" de recevoir le choc éléctrique en F et considérons que l (x, x') est lenombre de stations séparant x de x'. Au départ on a :

{

-, si x = FR'(peur, x) =

osinon

Après une première exploration, l'équation 1 nous donne:

R'(peur, x) =

-~ en x = A

_2 en x = B5

-~ en x = C

-~ en x = D

-t en x = E

-, en x = F

Considérons que l'animal est en B et doit choisir entre aller en A ou aller en C. Il iraen A si (-~) - (-~) > e. Ce qui implique ï > 12· é. En fonction des paramètres del'équation 1, cette condition pourra ou non être satisfaite.

Un des intérêts majeurs du modèle de carte cognitive d'Arbib est qu'il permet de met­tre en relation des informations liées aux mouvements et des informations propres à lareconnaissance d'un lieu ainsi que des liens topologiques qu'il entretient avec d'autreslieux. Le principe est de représenter dans un même graphe, l'ensemble de ces données encodant les lieux sur des noeuds et leurs relations, ainsi que les mouvements qui permet­tent de se rendre cl 'un lieu à un autre, sur les arcs. Par ailleurs, le modèle permet de

- 142 -

Page 149: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

modéliser l'influence des variables internes (correspondant à des motivations) sur le com­portement général de l'animal en apprenant, pour chaque noeud, le renforcement pouvantêtre espéré vis à vis d'une motivation donnée. En particulier, la résolution du dilemme ex­ploration/exploitation découle "naturellement" de la dynamique des différentes valeurs demotivations. En effet, si le niveau des motivations est inférieur à un certain seuil, les mou­vements sont effectués au hasard, ce qui expliquerait le comportement d'exploration. Al'inverse, dans le cas où les variables motivationnel1es sont supérieures à ce seuil, le modèlerend compte de l'exploitation des connaissances acquises pour satisfaire les motivations.

Le principal problème du modèle d'Arbib est qu'il ne décrit pas comment fabriquerles représentations des lieux et comment les associer à des noeuds. Par ailleurs, Ari b nedécrit pas non plus comment et quels mouvements associer aux arcs. En fait, ce problèmerejoint le cadre plus général de "l'ancrage" des cartes cognitives aux données du monderéel.

Les modèles de rétropropagation de l'activité d'une motivation, peuvent se modéliserpar un mécanisme de propagation électrique dans un réseau résistif (voir annexe A ­[Bug97]). Un intérêt majeur de cette analogie provient de la possibilité d'utiliser directe­ment les résultats théoriques d'électricité pour étudier et démontrer la convergence desalgorithmes [Con90] (voir détails en annexe).

2.2 Modèle de Schmajuk

Le modèle de Schmajuk et Thieme [Sch92], est basé sur l'idée de Gallistel [GaI80, Ga193]selon laquelle une "machine biologique" capable de planifier ses actions comprendrait deuxsous-systèmes distincts: un module de sélection de l'action contrôlant la navigation dansl'environnement et un module cognitif qui permettrait de construire une représentationde cet environnement. Cependant, Schmajuk critique, à la suite de Guthrie [Gut35],l'absence d'explication sur la manière dont la cognition et l'action sont liées. Il insistedonc sur la nécessité de définir correctement la connexion entre le niveau cognitif et leniveau comportemental.

Dans son modèle, le système cognitif fournit au système de sélection de l'action uneprédiction des sous-buts à atteindre pour atteindre le but principal. La tâche du systèmeactuateur se réduit alors à choisir le mouvement qui permet d'atteindre ce sous-but.Dans le cas d'un labyrinthe, le système se comporte de la manière suivante: lorsque lerobot atteint un embranchement, il "scrute" les différentes directions possibles. A partirde ses différentes vues, le module cognitif prédit la vue qui correspond au sous-but leplus approprié pour atteindre le but principal. L'action choisie est donc le mouvementcorrespondant à cette vue. Schmajuk remarque que ce comportement de "tâtonnement"se retrouve chez le rat (VTE = Vicarious Trial-and-Error behavior).

Deux informations de bases sont introduites en entrée du système cognitif: l'endroitexacte où se trouve le robot (Placei) et le lieu immédiatement adjacent (Viewj - la"vue" en face du robot).. Le réseau comporte une entrée spécifique par lieu et par vue (lafigure Il donne un exemple pour trois "places" et les trois "views" correspondantes). Le

- 143 -

Page 150: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2

CARTE COGNITIVE Views

Modèles de cartes cognitives

Xl~ 1 ----........-+-------l~l

~ 2__--.----+-...a.....------I~

s: 3 ...-.-~--+---<l

1 2 3 Goal

Figure 11. Principe de l'architecture pour l'éiaboration d'une carte cognitive proposée par Schmajuk{Sch92}. Dans l'exemple présenté sur la figure, l'environnement exploré ne comporte que trois "places"et les trois "views" correspondantes.

couple d'information (Placei, Viewi) permet d'activer un neurone Pi prédisant le prochainendroit rencontré (dans l'exemple les neurones pouvant être activés sont PI, P2, P3 ou pa) :

Pi = 2: Vii . Xii

Vii est le lien entre la vue courante et le lieu prédit, Xi est une mémorisation à courtterme de l'activité de Place.. Par ailleurs, Pi possède des liens récurrents vers Xi dontl'activité est donnée par:

dx, ( (dP' ))dtt = -k1Xi +k2 (1 - xd· Place, +k3 • max dt

t, 0

• -k1Xi est un terme de décroissance passive

- 144 -

Page 151: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

• k2(1 - Xi)' Place, est l'activation induite par l'entrée directe (activation de Placets .

• k2(1 - Xi) • k3 . max(~, 0) est l'activation propagée par la carte cognitive (dérivéede l'activation de Pi

Durant l'apprentissage, l'activité du neurone codant l'endroit courant est propagéedans le réseau. Si une différence est détectée entre la prédiction donnée par Pi et lavue réellement disponible à l'instant courant, Vii, est modifiée de telle manière que Picorresponde à la vue courante :

dVij = k4 • X . • (View' - p.)dt ~ J J

Après apprentissage, les liens Vii codent les informations d'adjacence entre un lieudonné et un lieu directement visible à partir de cet endroit. L'ensemble des poids Vijforment ainsi une représentation topologique (mais non métrique) de l'environnement.Cette représentation est ensuite utilisée pour prédire le sous-but le plus proche per­mettant d'atteindre le but grâce aux liens récurrents. Considérons en effet le parcours1 -t 2 -+ 3 -+ G (G étant le but - correspond à l'exemple présenté figure Il). Lorsquel'animat est à l'endroit 1, le système peut, grâce au lien Vi2' prédire que le prochain lieurencontré sera 2, ce qui active P2. Du fait des liens récurrents, on peut aussi activer P3puis Pa et donc inférer qu.'il existe un parcours permettant d'aller de 1 au but G.

Cependant le problème est que ces liens récurrents peuvent interférer avec les liensprovenant de la perception directe de l'endroit courant. Pour régler ce problème, Schma­juk considère deux modes de transmission: un mode rapide et un mode lent. Seuls lessignaux rapides sont propagés par les liens récurrents. Par ailleurs, l'activité induite surles neurones de prédiction décroît au cours de la propagation ce qui ne permet pas leurapprentissage. Les signaux à variation lente, provenant de l'entrée directe, ne sont pas,eux, transmis par les liens récurrents. Par contre, leur activité est suffisamment forte pourpermettre l'apprentissage des poids synaptiques. Schmajuk résume le comportement duréseau par le fait "qu'il se comporte comme un réseau hétéroassociatif non-récurrent pourles signaux à variation lente et comme un réseau récurrent pour les signaux à variationrapide".

L'ensemble des endroits directement accessibles à partir de l'endroit courant sontprésentés successivement en entrée du niveau cognitif (pourrait correspondre au com­portement VTE - voir plus haut). Pour chacun de ces endroits, le système récurrentpermet d'estimer les lieux accessibles. Le niveau d'activité de la cellule prédisant le but(correspondant à une mesure de la distance au but) est sauvegardé dans une mémoiretemporaire r( i, But). Après exploration de l'ensemble des vues directement accessibles,le mouvement choisi correspond à la cellule de prédiction de but la plus activée (la plusgrande valeur de r(i, But)). Ainsi, la planification des mouvements vers le but se fait enatteignant des "sous-buts" menant au but principal. Si l'activité proposée par les cellulesde prédiction de but est inférieure à un seuil, le mouvement est choisi au hasard.

L'un des intérêt du modèle proposé par Schmajuk est qu'il aborde la difficulté de con­sidérer en même temps l'apprentissage et l'utilisation de la carte cognitive. Il règle le

- 145 -

Page 152: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modèles de cartes cognitives

problème en considérant que les informations utilisées par ces deux modes de fonction­nement ont des vitesses de propagation différentes. Ainsi, les signaux représentant lascène courante ont une dynamique lente, ce qui permet d'apprendre les relations entre lesscènes, alors que les signaux permettant la planification ont une dynamique rapide.

Un deuxième point intéressant est que le système d'exploration séquentiel desdifférentes "vues" possibles à partir de l'endroit courant rend compte du comportementVTE observé chez le rat lors d'expériences de labyrinthe.

Cependant, comme pour le modèle d'Arbib, l'architecture proposée par Schmajuk con­sidère que les endroits sont reconnus a priori et nul mécanisme permettant de bâtir cettereprésentation n'est suggéré. Par ailleurs, il y a un mélange effectué, à notre sens, entrele concept de "lieu" et celui de "vue". Lors de la phase d'exploration, l'animat construitsa représentation interne en apprenant les relations topologiques entre les "lieux". Parcontre, lors de la phase de planification, ce sont les "vues" correspondant à ces endroitsqui sont utilisées. Nous touchons là un point essentiel dans le sens où un "lieu" a pu êtrecodé car il a été exploré, alors qu'une "vue" correspond à un lieu qui va être exploré. Enconfondant la notion de "lieu" et de "vue" on passe sous silence la difficulté de créer unereprésentation interne qui permet de se rappeler le passé tout en donnant une prédictiondes états qui peuvent être atteints. Nous verrons que notre modèle tient compte de cettedifficulté mais que des contraintes importantes sont alors nécessaires au niveau temporelpour coordonner le mécanisme d'apprentissage et le mécanisme de planification.

2.3 Le modèle de Schôlkopf et Mallot

Le modèle proposé par Schôlkopf et Mallot [Sch94) est un modèle inspiré du fonction­nement de l'hippocampe et du modèle de Schmajuk dont il reprend les caractéristiques.Il prend en partie en compte les remarques que nous avons effectuées sur les distinctionsà apporter entre la notion de "vue" et la notion de "lieu". Le principe consiste à con­struire une représentation interne, appelée graphe des vues (view graph), qui contient lesdonnées sur les vues rencontrées et sur leurs relations topologiques (voir figure 12). Cesinformations topologiques sont en fait représentées par les mouvements, exprimés en coor­données égocentriques, qui permettent de passer d'une vue à une autre. Les mouvementssont directement codés sur les arcs du graphe. Le système de planification apprend, endéfinitif, à générer les séquences d'actions menant de la vue courante à la vue représentantl'objectif.

Il est important de noter que dans le modèle, toutes les vues sont différentes. Al'inverse, un endroit peut correspondre à plusieurs vues s'il peut être perçu selon différentesdirections.

Les auteurs se proposent d'implanter leur modèle dans un réseau de neurones à troiscouches : la première est la couche d'entrée dont chacun des neurones correspond à une"vue" particulière, la deuxième est la carte cognitive, la troisième est dédiée à la commandedes mouvements. Le fonctionnement de la carte est inspirée du modèle de Kohonen[Koh84}. Le principe est cl'effectuer une compétition entre les neurones de la carte puis

- 146 -

Page 153: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

pl

vIl

p2

vI2

vS

p6

v6

vIO·

Planification

Figure 12. a) Labyrinthe utilisé dans la simulation de Scholpfet Mallot. b) Repésentation correspondantesous forme de graphe deS "lieux". c) Représentation correspondantes des relations entre les "vues". Lesarcs représentent les mouvements permettant de se rendre d'une vue à une autre.

de modifier les liens entre l'entrée et le neurone gagnant, de manière à ce qu'ils tendent àrépondre préférentiellement à cette entrée. Au fur et à mesure de l'apprentissage, le seuilde déclenchement des neurones gagnants est augmenté. Par ailleurs, les neurones de lacarte sont reliés les uns aux autres. Au départ, les poids de ces connexions sont nuls. Lorsde l'apprentissage, le poids du lien entre les deux derniers gagnants est renforcé. Ainsi,les relations topologiques entre les lieux sont apprises en tant que séquences temporellesdes vues explorées.

Un ensemble de liens facilitateurs entre la sortie motrice et la carte permet de coder,durant l'apprentissage, le mouvement qui a permis de se rendre d'une vue à une a.utre.Le principe est de mettre ce lien à lsi la connexion entre les deux derniers gagnants estdue à ce mouvement, et à 0 sinon.

Le mécanisme de planification est inspiré de la méthode algorithmique d'explorationde graphe "en largeur d'abord" que les auteurs comparent au comportement VTE.

L'algorithme de planification est le suivant:

• Forcer la reconnaissance du but pour déterminer le neurone qui le code

• Reconnaissance de la vue actuelle

• Forcer un mouvement donné

• Si la carte réagit c'est que le mouvement est possible. Compter alors le tempsnécessaire en nombre d'itérations pour que le but soit activé.

• Tester l'ensemble des mouvements et choisir le mouvement pour lequel le but estatteint en un temps minimal.

- 147 -

Page 154: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modèles de cartes cogniti ves

Vue1

Mouvements 0Figure 13. Architecture proposée par Scholkopf et Mal1ot .

• La vue suivante apparaît. Recommencer le processus.

Cet algorithme n'est pas implanté de manière neuronale. Cependant, les auteurssuggèrent qu'il pourrait l'être. Toutefois, ils ne donnent pas le modèle d'un tel mécanisme.

Deux idées intéressantes sont à retenir du modèle de Schôlkopf et Mallot. La premièreest le fait d'utiliser une représentation des "vues" plutôt que des "lieux" pour construirela représentation interne. Cette idée va dans le sens de l'ancrage de la carte cognitiveaux données perceptuelles. Cela va d'ailleurs de pair avec le codage des mouvementsde manière égocentrique sur les arcs du graphe. Toutefois ce principe n'est pas explorécomplètement puisque les "vues" sont considérées comme connues a priori et ne sont doncpas apprises à partir des données sensorielles.

Un deuxième point qui pourrait sembler intéressant, provient du désir de s'inspirer d'unmodèle de l'hippocampe. Cependant, là encore, l'idée n'est pas complètement menée àterme et il n'y a pas de référence explicite à une véritable modélisation biologique.

2.4 Modèle de navigation proposé par Bachelder et Waxman

L'architecture de contrôle de robot autonome proposée par Bachelder et Waxman [Bac94a,Bac95] intègre progressivement la reconnaissance d'un amer, d'un lieu et des mouvementspermettant de se rendre d'un lieu à l'autre (voir figure 14). Cette dernière étape pouvantservir à la planification.

- 148 -

Page 155: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

Le système de reconnaissance d'objets a été mis au point par Seibert, Baloch et Wax­man [Sei89, Ba191]. Ce système est très proche du mécanisme de focalisation d'attentionque nous avons utilisé sur notre robot (voir paragraphe 111-6). La principale différencevient du fait que le point de focalisation à partir duquel est effectué la transformationlog-polaire correspond ici au centre de gravité de l'objet. Par la suite, un ensemble defiltres gaussiens dont les supports se chevauchent permettent à la fois de compresser lesinformations et d'améliorer encore l'invariance. Le motif obtenu en sortie de ce filtrage estensuite catégorisé de manière autonome par un réseau ART2. Un système d'intégrationtemporelle et d'apprentissage associatif permet ensuite d'intégrer une série de vues d'unmême objet comme un seul et même prototype. La mémoire à court terme de ce systèmed'intégration est remise à jour si la caméra effectue une saccade importante.

.::

CONJUNCTIVE CODING ::".:'

. l' .' _

.......

,,:,

: ...

.:."

.

:: .:.:

:::' .'::.

> .'.:. .: .

'::. .:: :'.'

•••••::. ...: .: ..'::

::.::

invariantaspect pattern

1OBJECT VISIONSYSTEM 1

"What"

.......

"'...

,

..

, eye and

head position

V1bW

: ....,...

PLACE NODES

"Where"

GAZE CONTROL SYSTEM

: :.

....................1 •.• : .

... ......, SHORT·TERM MEMORY

::~I.• ~......, ART NETWORK

.

1 .'::.:r- ••.. .:.

1

.

............ , ....::

bcading

1::

LOCOMOTION SYSTEM 1

"When"

rotationtranslation

1:' :..... .... :"

'::: ..:< ............. ... .........::::.: .......... .................. ......

1:' .....

ACTIONCODING.: :

-.. <'~.'.. .':..::.:.: . ::::

1 PLA 1::·· .... :

Figure 14. Architecture proposée par Baloch, Bachelder et Waxman. Le PLA (Place Learning) permetde construire une représentation d'un lieux à partir d'informations de type "what" et "where". Cetteinformation est ensuite utilisée dans le ACLA (Action Consequence Learning) pour apprendre les relationsentre les lieux ainsi que le mouvement permettant de se déplacer d'un lieu vers un autre.

L'idée du système PLA (Place Learning Architecture) proposé ensuite par Bachelderet Waxman [Bac94a] est de s'appuyer sur les données biologiques qui mettent en évidencel'existence de deux voies visuelles, l'une cheminant l'information de reconnaissance d'unobjet ("what"), l'autre l'information spécifiant sa position ("where"), pour fabriquer des"cellules de lieux". L'information "what" est obtenue par le système de reconnaissance

- 149 -

Page 156: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2 Modèles de cartes cognitives

visuelle présenté ci-dessus. L'information "where" provient de la mesure de la positionangulaire du robot par rapport à un amer donné situé dans le champ de vision de lacaméra (le tout exprimé par rapport à une orientation de référence "nord"). Le motifreprésentant la fusion de l'information "what" et "where" est ensuite catégorisé par unréseau ART qui permet ainsi la reconnaissance de lieux.

Une version de cette architecture a été implantée sur un robot MAVIN. Deux phasesd'apprentissages sontvnécessaires : une première consistant à apprendre séparémentles différents. amers, .et une deuxième phase pour apprendre les lieux [Bac94a]. Cesdeux phases sont séparées afin que l'apprentissage des amers ne remette pas en causel'apprentissage des lieux. Des améliorations ont été proposées pour régler ce problème etpour obtenir des cellules de lieux dont l'activité dépend de l'orientation du robot [Bac95].

De la même manière que le PLA combine une voie "what" et une voie "where" pourfabriquer une représentation de lieu;I'ACLA (Action Consequence Learning and Pre­diction) utilise une information "what"· et une information "when" pour apprendre lesmouvements qui permettent de se rendre d'un lieu à un autre. L'information "what"est obtenue après réhaussement de contraste de la sortie du PLA. L'autre informationest en fait un codage discretisé de la direction, l'orientation et des translations effectuéespar le robot. La fusion des deux voies permet de créer une carte dont les neurones ap­prennent à reconnaître quelle action a été effectuée à tel endroit. Par la suite, un réseauhétéroassociatif permet d'apprendre les transitions entre ces états. De cette manière, onpeut prédire les états successifs en réinjectant la sortie du réseau hétéroassociatif dans lacarte de reconnaissance de la conjonction "lieu-action.

Le modèle proposé par Bachelder et Waxman est à notre sens l'un des plus intéressantscar il rejoint nombre de nos préoccupations. L'idée de Waxman est de construire unsystème intégré, "inspiré de la biologie, permettant de contrôler un robot mobile autonomeréel. Pour.cela il utilise une architecture redondante intégrant progressivement les donnéesobtenues directement par des capteurs en prise directe avec l'environnement.

Nous tenons cependant à souligner plusieurs points qui font défaut au modèle de Wax­man. Tout d'abord, s'il semble que théoriquement le PLA puisse permettre de faire laplanification, pratiquement il n'a été utilisé que pour prédire les conséquences d'une ac­tion, mais pas pour réellement planifier un chemin. De plus, le système ne comporte pasde mécanisme motivationnel permettant de sélectionner le but à atteindre ou à éviter.Par ailleurs, bien que des efforts aient été accomplis pour utiliser des données réellesprovenant d'une caméra CCD, il nous semble que le système visuel soit trop simplifié. Eneffet, les scènes utilisées ne sont pas des scènes naturelles car les objets servant d'amerssont directement reconnaissables par le robot (des LED indiquent les points de focalisa­tion). Apparement, le repère construit par le robot est établit en référence à une directionabsolue, grâce à une boussole. Enfin, il nous semble que l'inspiration biologique du modèleest lointaine et n'est du moins pas étayée par un modèle biologique.

- 150 -

Page 157: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

2.5 Synthèse sur les modèles présentés

Planification

Le principal défaut des modèles que nous venons. de. présenter est qu'ils s'intéressentavant tout aux mécanismes permettant la planification sans prendre en considérationles mécanismes qui permettent de construire les représentations des situations à partirdesquelles les systèmes de planification peuvent fonctionner. Ils considèrent en effet queces situations sont identifiables, a priori, sans difficulté et peuvent par la suite être ma­nipulées simplement par le système de planification. L'apprentissage consiste en fait àélaborer le graphe des relations. topologiques entre ces situations. Nous tenons à soulignerque cette démarche se heurte nécessairement au "Symbol Grounding Problem" (SGP ­cf. chapitre 1).

Pour notre part, nous adhérons aux idées constructivistes selon lesquelles les facultéscognitives proviendraient avant tout de l'interaction entre l'individu et son environnementet qu'ils ne peuvent par conséquent pas être séparés l'un de l'autre. Le problème del'élaboration de représentations internes est donc un problème essentiel qui doit être prisen considération dans l'élaboration même de l'architecture permettant la planification.

Notre mécanisme de planification. intégrera les principes proposés dans les modèlesprésentés dans ce paragraphe. Nous avons vu dans le modèle proposé par Arbib quel'introduction d'un mécanisme de gestion des motivations permettait d'obtenir des com­portements d'attirance ou de répulsion vis à vis d'un but particulier correspondant à unemotivation de l'animat. Nous retiendrons donc cette idée pour l'élaboration de notremodèle. Cependant, dans notre implantation, les niveaux de motivation ne sont pas gérésdynamiquement comme dans le modèle·d'Arbib.

En ce qui concerne la propagation de but, deux mécanismes duaux ont été proposés.Le premier consiste à partir de l'état courant, puis à propager son activité dans legraphe des relations topologiques jusqu'à atteindre le but (cf. Schmajuk, Schôlkopf etMallot, Waxman). A l'inverse, une autre solution peut consister à activer le but puislaisser rétropropager l'information jusqu'à l'état courant (grilles résistives, Arbib). Nousutiliserons ce dernier modèle et proposerons que ce processus pourrait correspondre àun mécanisme biologique plausible au niveau des propagations d'activité dans la couchecorticale.

Un autre point important est le fait de traiter en même temps l'apprentissage des re­lations topologiques entre lieux et d'utiliser cette information pour générer le plan. Dansle cas de grilles résistives, le problème ne se pose pas puisque les relations topologiquessont données a priori. Schôlkopf, quant à lui, contourne totalement la difficulté en con­sidérant la phase d'apprentissage et la phase de planification comme deux phases dis­tinctes. Le modèle proposé par Waxman ne semble pas assez avancé pour que nouspuissions nous permettre une quelconque critique. Le modèle présenté par Arbib semblepermettre l'apprentissage de nouveaux noeuds et la planification. Cependant le modèle desélection de l'action qu'il propose n'est pas suffisamment détaillé. En fait, seul le modèlede Schmajuk semble tenir compte de la difficulté d'apprendre et de planifier. Pour celail suppose qu'il existe deux modes de propagation de l'information, ce qui lui permet detraiter, au même niveau, les deux types de comportement. Un tableau récapitulatif des

- 151 -

Page 158: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 2

propriétés de ces modèles est donné ci-cessous :

Modèles de cartes cognitives

Modèle Gestion Propagation Apprentissage Données ObtentionMotiva- de but "en-ligne"

.desmam-

tion pulées données

Arbil) OUI" en arrière mal défini lieux mal définie

Schmaj'Uk non en avant OUI lieux/vues données aprion

Schôlkop] non en avant non vues données apriori

Waxman non pas encore OUI vues construitesà partir dedonnéessensorielles

Tableau 1. Tableau récapitulatif des propriétés des différents modèles présentés.

Il est à noter que" l'ensemble de ces modèles ne tient pas compte de l'apprentissage descapacités sensori-motrices. Dans notre modèle, nous proposons d'intégrer cette notion, en liantles deux niveaux correspondant à la planification et à la réalisation des actions (modèle biologiquedes colonnes corticales proposé par Burnod [Ale91]). Nous serons, cependant, conduits à revoirla nature même des informations devant être codées. Par ailleurs, nous montrerons que notremodèle peut être utile pour expliquer certaines fonctions de l'hippocampe et du cortex pré­frontal.

- 152 -

Page 159: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

3 Architecture intégrée pour la planification

Planification

Nous souhaitons élaborer un modèle de carte cognitive répondant à la définition que nous avonsdonné au paragraphe 1.2 et prenant en compte les remarques effectuées au paragraphe précédentsur les modèles de carte cognitive existants. Nous insistons, en particulier, sur la nécessitéd'intégrer, dès les premiers stades de l'élaboration de notre modèle, la gestion de la coopérationapprentissage/planification. Par ailleurs, nous envisagerons les contraintes architecturales im­posées par la nécessité de construire les représentations internes directement à partir des entréessensorielles de l'animat. En particulier, nous insisterons sur la nécessité de deux niveaux dereprésentation pour permettre la génération de plans. Nous proposons donc une architectureassociant au système d'apprentissage d'association sensori-motrices proposé au chapitre III, unmécanisme capable de créer et d'utiliser une carte cognitive (cf. figure 15).

Figure 15. Principe général de notre architecture intégrée pour la planification. A partir dusystème d'apprentissage d'associations sensori-motrices élaboré au cbapitre III, on peut construire unereprésentation interne qui est ensuite utilisée pour la planification.

Commençons tout d'abord par décrire le mécanisme utilisé pour l'apprentissage des relationstopologiques entre situations et celui utilisé pour la propagation du but.

3.1 Apprentissage de la topologie

Nous détaillons ici le mécanisme permettant de construire une représentation de la topologie dulabyrinthe exploré en fabriquant un graphe indiquant les séquences de transitions rencontrées.Ce graphe est élaboré en superposant à la carte PTM de reconnaissance (PTM2), un niveau"but" comportant le même nombre de neurones. Chacun de ces neurones est relié de un à

- 153 -

Page 160: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

un, de manière bi-directionnelle, avec les neurones de la carte PTM2 (cf. modèle de Burnod- [Bur89]). Par ailleurs, tous les neurones du niveau "but" sont connectés entre eux par despoids initialisés à une valeur proche de 0 au départ. Lorsquela carte de catégorisation reconnaîtune situation, l'information remonte dans la carte "but" et"le neurone Nt, qui code le gagnantreste actif pendant un temps T (voir figure l6-a). Lorsqu'une nouvelle situation est reconnue,l'information remonte à nouveau et est codée dans N2.Unapprentissage hebbien suffit alorspour apprendre le lien existant entre ces deux situations (voirfigure 16-b).

Motivation Motivation

o 0

7 b)~~N27

Motivation

Figure 16. a) Le neurone NI s'active. b) Le neurone N2 s'active alors que NI est toujours actif. Lesliens WN1N2 et WN2N1 peuvent être appris. c)Le neurone représentant la motivation s'active. Le lienentre ce neurone et Je neurone codant la dernière situation peut être appris.

En effet, soit XNi' l'activité du neurone Ni et X Ni une mémorisation à court terme de sonactivité obéissant à l'équation:

L'expression de l'apprentissageHebbien est donnée par:

dWNt N 2 == E> XN1 • XN2

dWN2Nl == f' XN1 • XN2

On apprend ainsi à lier entre eux les différents neurones codant la reconnaissance de situationsappartenant à une même séquence temporelle. Cette séquence étant le reflet de la topologie dulabyrinthe, les neurones "but" permettent donc de construire un graphe des relations spatialesentre différents endroits du labyrinthe.

La dernière étape nécessaire à la planification est l'apprentissage du lien existant entre unescène donnée et la satisfaction d'une motivation. On considère pour cela que la reconnaissancede la situation but active le neurone de motivation. Dans ce cas, on peut utiliser un mécanismed'apprentissage Hebbien pour renforcer le poids du lien entre ce neurone et le neurone codantla situation actuelle (en fait la dernière transition réalisée - voir figure 16-c).

3.2 Génération de buts

Le mécanisme de propagation d'activité proposé dans le modèle des grilles résistives est unmécanisme qui a l'avantage d'être simple et qui peut, par ailleurs être implanté de manièreneuronale. Cependant, pour les grilles résistives, la connectivité est juste locale et les poidssont de valeur fixe (l'activité d'un neurone est obtenue en calculant la moyenne des activitésdes neurones dans le voisinage immédiat du neurone). Dans notre architecture, comme nous nesavons pas a priori avant l'apprentissage quels seront les neurones qui coderont les différentes

- 154 -

Page 161: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

situations, la connectivité au niveau "but" est globale (c'est-à-dire que tous les neurones dugroupe "but" sont reliés à tous les autres. La valeur des poids étant cependant au départ prochede 0). Après la phase d'exploration, l'animat a appris au niveau "but" les relations entre lesdifférentes situations. En phase de planification, nous voulons que le calcul de l'activité d'unneurone du niveau "but" utilise l'information provenant des liaisons apprises et que son niveaud'activité soit le reflet de la distance de la situation qu'il représente au but (en terme de nombrede situations).

Nous suggérons donc d'utiliser comme règle d'activation l'équation suivante:

Yi = max (Wij· Yj)J

Toutefois, comme l'activité des neurones est bornée par 1, cette règle ne peut fonctionner quesi les poids des connexions entreles neurones du groupe but sont compris entre 0 et 1. En effetsi toutes les liaisons sont à 1, l'activité de tous les neurones connectés au but est 1. Il est doncimpossible de décider quel est le plus court chemin. La solution consiste à borner la valeur despoids à une valeur WMax inférieure à 1.

Il est à souligner que le calcul demande plusieurs itérations avant de produire un résultatstable. Comme pour les grilles résistives, le nombre minimal cl 'itérations pour atteindre lastabilité correspond au nombre de situations intermédiaires entre un neurone donné et le but.

Pour résumer, l'algorithme de mise à jour peut s'écrire de manière neuronale sous la forme:

Algorithme de propagation de but1. Initialisation:

• Nia est le neurone but qui s'active en cas de motivation

• Xia f- 1

• Xi f- 0, \;fi =1- i o

2. Faire:

3. Tant que le réseau n'est pas stable

Le problème est de savoir si en utilisant cet algorithme, l'activité d'un neurone donné, aprèsstabilisation, est effectivement fonction de sa distance au but. En fait, nous allons montrer quece mécanisme est formellement équivalent à l'algorithme de recherche du plus court chemin dansun graphe proposé par Bellman et Ford [BeI58].

Définition 1 Soit G = [X, U] un graphe dont la longueur de chaque arc u entre un noeud i etj est donnée par Iij. Le but de l'algorithme est de chercher le plus court chemin entre les Nnoeuds et un noeud but io. Le principe est d'associer à chaque sommet i une marque 1r (i) et demodifier sa valeur progressivement de manière à ce qu'elle corresponde au plus court chemin.

- 155 -

Page 162: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3

1. Initialisation:

Architecture intégrée pour la planification

Algorithme de Bellman-Ford [BeI58]

• 1r (x) est une estimation de la distance entre le noeud x et le but. io est le noeud but.

• 1r(io) f- 0

• 1r(i) f- 00, Vi =1 io

• k~ 1

2. Faire:

• Vj, 1r(j) = min (1r(i) + lij)

.k~k+l

3. Tant qu'il y a des modifications ou que k < NSi en sortie de l'algorithme k = N, cela signifie qu'il y a un circuit de longueur négative et quel'on ne peut donc estimer le plus court chemin.

On peut montrer que l'algorithme de Bellman et notre algorithme sont équivalents :Démonstration

L'idée est de poser 1t"(i) = -ln(xi). On a alors immédiatement l'équivalence entreles deux algorithmes.

Considérons tout d'abord les deux mécanismes d'initilisation. Dans l'algorithme depropagation de but on a : Xio f- 1, d'où 1r(io) = -ln(xio) =: -ln(l) = O. Parailleurs, pour i # io, Xi f- 0, soit 1r(i) = -ln(xi) = +00.L'initialisation de l'algorithme de propagation de but est donc identique à celle del'algorithme de Bellman.

Par ailleurs, considérons maintenant la mise à jour des neurones. Pour l'algorithmede propagation on a : x j f- max (Wij . Xi), soit :

1r(Xi) -ln (max (Wii . Xi))

= - max (-ln (Wij) + (-ln(xi)))

= min (-ln (Wij) + 7r(j))

En posant lij = -ln(Wij), on retrouve la formule de mise à jour de Bellman.On a donc une totale correspondance entre l'algorithme de propagation de but etl'algorithme de Bellman.

- 156 -

Page 163: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

Un dernier point intéressant nous est fourni par la condition nécessaire pour qu'unplus court chemin existe. Il faut dans ce cas que lij > 0, V(i,j). Ce qui nous imposedonc : Iij >0,· soit -In(Wij) >.aet en définitive Wij < 1. Cela correspond en effetaux limites de. bon fonctionnement de l'algorithme. •

L'algorithme de propagation de but permet donc de trouver le plus court chemin jusqu'aubut.

3.3 Nécessité de deux niveaux pour la génération de plans·

La génération de plans est un pan entier de l'intelligence artificielle qui traite des problèmesd'élaboration de' stratégies permettant d'atteindre un but particulier en partant d'une situationdonnée. La résolution de ce genre de problèmes passe par la capacité du système artificiel àdécomposer le, problème en sous-problèmes (ou sous-buts) qu'il cherche de nouveau à atteindreet à décomposer. A la fin du processus de génération de plan, le problème se ramène à uneséquence d'actions à effectuer pour atteindre le but.

Les mécanismes de génération de plan ont été traités par les systèmes de résolution baséssur la logique formelle. Le principe consiste à représenter les connaissances sur l'environnementsous la forme de règles (données a priori) dont les conditions de déclenchement dépendent d'unesituation perçue et dont le résultat implique la réalisation d'actions particulières. La générationclu plan consiste'alors en une mise en correspondance formelle permettant de définir, à partirde la situation actuelle, l'enchaînement des règles nécessaires pour atteindre le but. Cependant,pour pouvoir s'ancrer au monde réel, il est nécessaire d'établir des interfaces de correspondanceentre les symboles représentant les conditions de déclenchement des règles et les situations quileurs corresporidentdans le monde physique.

Pour notre 'part, nous pensons qu'il est essentiel d'intégrer au sein même de l'architecturedédiée à la planification, un mécanisme permettant de manipuler des représentations internesdirectement élaborées à partir de la perception de l'environnement.

Un deuxième point habituellement négligé bien qu'il soit capital pour un système autonome,est que la représentation interne doit être construite dynamiquement au fur et à mesure del'exploration de l'environnement. Il est important de noter cependant que la planification nepeut se faire qu'à partir de situations déjà connues. Il ne peut donc y avoir en même tempsapprentissage et utilisation de l'information apprise. Il est donc nécessaire de bâtir un systèmequi intègre, én fait,deux modes de fonctionnement différents: un mode exploration et unmode planification. En mode exploration, le système doit être capable cl 'apprendre les différentsendroits (s'ils sont suffisamment dissemblables d'un point de vue perceptif), d'apprendre lesrelations topologiques entre ces endroits, d'apprendre les mouvements qui permettent de serendre d'un endroit à un autre et enfin, d'apprendre la situation perçue qui doit être associéeà l'accomplissement du but. Le mode planification, quant à lui, doit utiliser les informationsacquises en mode exploration pour atteindre le but lorsque l'animat en a la motivation.

Pour nous fixer les idées, nous prendrons l'exemple du labyrinthe proposé figure 17. Danscet exemple, l'animat doit se rendre de A en C où il reçoit une récompense. Dans la phased'exploration, il apprend les différentes situations pouvant être rencontrées dans le labyrinthe,leurs relations topologiques, ainsi que les mouvements qui permettent de se rendre d'une situationà une autre (avancer pour aller de A en B, tourner à gauche pour aller de B en C, tourner à

- 157 -

Page 164: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

droite pour aller de B en D). Dans la phase planification, sachant que l'animat peut se rassasieren C, le mécanisme de planification doit permettre de choisir le bon mouvement : tourner àgauche en B, plutôt que tourner à droite.

a)

C B D

--------

A

Ll b)

Figure 17. a) Exemple de labyrinthe pour la pl;;tnification. b) Représentation "classique" sous forme degraphe associée au labyrinthe a).

Au chapitre III, nous avons décrit un mécanisme qui permet de-créer des représentations in­ternes de situations perceptuelles en utilisant une carte de catégorisation préservant la topologie.Malheureusement, il est impossible de planifier directement sur le neurone ayant appris cettereprésentation. En effet, la reconnaissance des situations et la propagation des buts correspon­dent à des flux d'information de nature différente. L'ensemble de ces informations ne peut pasêtre traité par une seule carte de neurones. En effet, si un même neurone doit à la fois déciderde la reconnaissance d'une situation et propager un but vers des sous-buts, il y a ambiguïté surla raison de son activation (voir figure 18).

Motivation

/

Figure 18. Le flux d'information correspondant à la reconnaissance et celui correspondant à la planifi­cation arrivent au même niveau.

Il faut donc au moins deux niveaux pour découpler ces flux, l'un correspondant à la demandede la réalisation d'un sous-but (niveau "but"), l'autre correspondant à la reconnaissance dela situation courante (niveau "perception"). En fait, ces deux niveaux correspondent à deuxfonctionnalités différentes mais se rapportent aux mêmes situations. Ils doivent donc être liésl'un à l'autre et échanger des informations. Le sens de parcours de ces informations dépenden fait du mode de fonctionnement dans lequel se trouve le système. En mode apprentissage,

- 158 -

Page 165: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

l'information doit "remonter" du niveau reconnaissance au niveau but de manière à permettrel'apprentissage de la carte cognitive. En mode planification, par contre, l'information provenantdu niveau but doit "redescendre" pour déclencher la réalisation d'un mouvement (voir figure20)~ Ce type de fonctionnement correspond au modèle neurobiologique des colonnes corticalesproposé par Burnod [Bur89] (voir figure 19). La partie "haute" de la colonne correspond auniveau cortical alors que le neurone correspond au niveau thalamique.

Niveau But

Competition

Reconnaissance

Figure 19. Représentation schématique d'une colonne corticale d'après le modèle de Burnod.

En utilisant cette structure, on peut se demander s'il est possible de planifier en s'appuyantdirectement sur le système d'associations sensori-motrices. Lors de la phase d'exploration, grâceau mécanisme d'associations sensori-motrices, le système explore le labyrinthe et peut apprendreles différentes situations perçues ainsi que les mouvements pouvant être associés à chacuned'entre-elles : la situation A est associée au mouvement "avancer", B est associé à la foisau mouvement "tourner à gauche" et au mouvement "tourner à droite", C est associé à lasatisfaction de la motivation tandis que D est un cul-de-sac.

En phase de planification, le système doit utiliser l'information spécifiant que le but est enC pour effectuer la séquence d'actions permettant de rejoindre ce but lorsque l'animat est enA. La génération de buts se fait en utilisant l'algorithme décrit plus haut. Le problème revientalors à se rendre compte que pour atteindre C depuis A il faut avancer de manière à rejoindreB, puis de cet endroit, il suffit de tourner à gauche pour atteindre C.

Lorsque I'animat est en A, les informations liées à la reconnaissance de la situation et cellesprovenant du niveau but sont cohérentes (il n'y a qu'une seule transition débutant de A). Lacolonne corticale correspondant à cette reconnaissance déclenche donc le mouvement associé.Comme il n'y a pas d'ambiguïté (un seul mouvement possible), le mouvement proposé estforcément "avancer". Par contre, lorsque l'animat est en B, le modèle ne permet pas de choisirle mouvement à effectuer. En effet, il est impossible de décider quel mouvement réaliser puisquela reconnaissance de B est associée de la même manière aux deux mouvements à la fois.

3.4 Construction d'une représentation interne à partir de la re­connaissance des transitions

Nous avons vu qu'il était impossible de planifier à partir de la reconnaissance d'une seule si­tuation puisque celle-ci pouvait être liée à différents mouvements ce qui rendait impossible toutepossibilité de décider quel mouvement permet d'atteindre le but. Pour régler le problème,

- 159 -

Page 166: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3

A

B ._&---__

PfM2

c

Architecture intégrée pour la planification

Motivation

SM

Figure 20. Il est impossible de planifier en utilisant uniquement la reconnaissance des situations. Eneffet, une situation peut être liée à deux mouvements différents et il est alors impossible de décider quelleaction doit être choisie préférentiellement (au niveau but, seuls les liens ayant appris sont représentés.Les autres ont une valeur proche de 0).

il faudrait en fait que les deux mouvements soient associés à deux représentations distinctes.Cette représentation doit prendre en compte la situation de départ et la situation d'arrivée.Nous pouvons donc envisager l'idée de bâtir une représentation interne élaborée à partir destransitions entre 2 situations contrairement à la représentation précédente qui était uniquementbasée sur la reconnaissance d'un état stable (voir figure 21).

Notons AB, la représentation interne associée à la reconnaissance de la transition entre lascène A et la scène B. Le mouvement associé à cette représentation est le mouvement qui permetde se rendre de A en B. Le mécanisme d'association sensori-motrice peut se faire simplement enutilisant la règle d'apprentissage developpée au chapitre III. Cette représentation de transitionsnous est fournie par le modèle de l'hippocampe élaboré par Banquet et Gaussier [Ban97].

Puisque la représentation interne est maintenant élaborée à partir de la reconnaissance detransition entre scènes et non directement à partir de la reconnaissance des scènes elles-mêmes,une représentation interne est forcement associée à un et un seul mouvement. Considérons parexemple la situation B pour laquelle l'animat peut tourner à gauche (arrivée dans la situationC) ou à droite (arrivée dans la situation D). Le système va donc apprendre les transition Be etBD et les associer respectivement au mouvement "tourner à gauche" et au mouvement "tournerà droite".

Motivation

SM

PTM2

Figure 21. Utilisation des transitions pour la planification des actions.

En phase d'exploration, le niveau "reconnaissance" crée une représentation interne pourchaque transition entre scènes et lui associe le mouvement permettant de se rendre cl 'une scène

- 160 -

Page 167: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

à l'autre. En outre, au niveau "but", les connexions entre ces représentations sont apprises demanière à former un graphe représentant les relations topologiques entre les scènes. Par ailleurs,lorsque l'animat atteint le but, il apprend à associer la reconnaissance de la dernière transitionà la satisfaction de la motivation.

Nous insisterons particulièrement sur le fait quevpour créer la représentation AB, il estnécessaire que I'animat soit déjà en B et qu'il ait donc d~jàeffectué le mouvement permettantde s'y rendre. Nous verrons plus loin que cette contrainte implique de prévoir un délai entre lemoment où a lieu l'apprentissage de la transition et son association effective à un mouvement.

En phase de planification, la rétropropagation de l'information motivationnelle vers l'étatactuellement reconnu, permet d'activer les noeuds du graphe qui indiquent les mouvementsnécessaires pour atteindre le but (génération du plan).

Alors que dans la phase d'exploration, il suffit de connaître la scène d'arrivée pour pouvoircoder une représentation interne, on se trouve confronté, en phase de planification à un problèmeoù, percevant une scène donnée, on doit effectuer le mouvement associé à un état qui code latransition entre cette scène et une scène permettant de se rapprocher du but. On doit doncélaborer un système qui prédit la ou les scènes pouvant être atteintes à partir de la scènecourante. Ce mécanisme, combiné au mécanisme de rétropropagation de l'activité liée à unemotivation doit permettre de trancher entre les différents mouvements possibles de manière àtendre vers le but. En arrivant dans l'état B, par exemple, le système doit prédire les états Beet BD, puis faire gagner Be afin de -réaliser le mouvement correspondant (tourner à gauche)qui permettra de se rapprocher du but.

L'architecture du système que nous devons élaborer doit donc tenir compte des exigencesimposées par chacune des deux phases de fonctionnement. Nous verrons qu'il est alors essentielde définir un séquencementrigoureux des phases d'apprentissage et de sélection des actions afinde permettre le fonctionnement de l'architecture à la fois en mode exploration et planification.

3.5 Architecture globale du sytème

L'architecture globale de notre système est basée sur l'architecture PerAc (voir figure 22). Al'entrée du système, on trouve un capteur de vision et en sortie on dispose d'un certain nombrede mouvements pouvant être effectués par le robot.

La première phase du système de traitement des données consiste à apprendre à reconnaîtreles scènes perçues par le robot (Entrée Visuelle - EV) par l'intermédiaire cl 'une première cartePTM (PTMl). Pour des raisons de simplicité, nous avons choisi d'utiliser une carte mono­dimensionnelle. En sortie de cette carte PTMI (Sortie Visuelle - SV), nous ne conservons quele gagnant de manière à constituer un vecteur dont l'une des composantes seulement est active.Précisons ici que ce choix est restrictif, mais il évite de manipuler des données trop complexes.Nous discuterons en conclusion de ce chapitre des améliorations pouvant être apportées.

On a remarqué au paragraphe précédent qu'il était nécessaire de pouvoir construire unereprésentation composite correspondant à la reconnaissance des transitions entre deux situations.Cette représentation composite peut être obtenue en effectuant la fusion de l'information corre­spondant à la reconnaissance de deux situations distinctes consécutives dans une représentationglobale.

L'étape suivante consiste à reconnaître les transitions, c'est à dire la fusion d'informationsspécifiques correspondant au passage d'une scène à une autre. Pour cela, une nouvelle carte

- 161 -

Page 168: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3

sv

PTMI

I--- ~ FusionI---~

Architecture intégrée pour la planification

Motivation

Reconnaissance

PTM2

Mouvements

Figure 22. A partir de la sortie visuelle (SV=PTM1), un mécanisme de fusion de l'entrée directe et del'entrée retardée permet d'élaborer la reconnaissance des transitions (le détail du mécanisme de retardsera abordé au paragraphe 3.5.3). Ces transitions sont ensuites reconnues par une deuxième carte PTM(PTM2). Le lien avec le niveau but permet l'élaboration d'un graphe des relations topologiques entre lestransitions. Par la suite, ce graphe est utilisé pour biaiser la reconnaissance lors de la planification, afinde choisir l'action permettant de se diriger vers le but.

PTM (PTM2). est introduite de manière à catégoriser les différentes transitions. Cette cartede catégorisation est ensuite associée à un WTA pour décider et apprendre l'action qui a per­mis de passer de la scène correspondant au début de la transition, à la scène correspondantà la fin de la transition. Par ailleurs, un niveau "but" est superposé à la carte de reconnais­sance des transitions de manière à permettre l'apprentissage de la topologie du labyrinthe ou del'environnement et pour pouvoir, par la suite, effectuer la propagation d'activité permettant lagénération de plan.

3.5.1 Exploration de l'environnement

On considère la phase d'exploration du labyrinthe décrit figure 17. Lorsque le robot est en A, ilperçoit la scène qui est reconnue dans la carte de reconnaissance des scènes. La seule possibilitéétant cl 'avancer, le robot finit par proposer ce mouvement et atteint la scène B qui est alors

. reconnue. Le système de contrôle de l'animat peut alors fabriquer le produit des reconnaissancesdes deux scènes et catégoriser cette transition AB. L'animat peut ainsi apprendre à lier lareconnaissance de la transition AB avec le mouvement "avancer". Par ailleurs, cette informationpeut remonter au niveau but (voir figure 23).

Lorsque le robot arrive en B, deux mouvements sont possibles. Supposons que c'est lemouvement "tourner à droite" qui est choisi. Dans ce cas, la scène D est reconnue, la transitionBD est apprise, le mouvement "tourner à droite" lui est associé mais le but n'est pas atteint. Sil'on remet le robot au point de départ, il reprend son parcours jusqu'en B. Cette fois, on peutimaginer, s'il n'y a pas de biais introduit par le niveau but (aucune motivation, comportementexploratoire aléatoire), que le robot tourne à gauche. La scène e est donc apprise, la transitionBe de même, et le mouvement "tourner à gauche" est associé à la reconnaissance de la transition.Par ailleurs, le robot ayant atteint le but, le neurone de motivation s'active et son lien avec le

- 162 -

Page 169: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

Motivation

§- BC~ ---/-r-----'"~~~(J~ f~'

~~~---\BD

Planification

SM

Be ,' ...7-................../ -

BD. ..~• •

\\,

~'o'b~ 1

• ~CJ 1

~ 'o~ "

~~ AB ....•••••••••••••••••••••••• ;, : : : .. Il : : : : : : : : •• ~ •••

Figure 23. La remontée de l'information du niveau reconnaissance au niveau but permet d'élaborer ungraphe des relations topologiques entre les transitions.

neurone reconnaissant la transition amenant au but est appris grâce à une simple règle hebbienne.Il est à noter que, l'exploration se faisant de manière totalement aléatoire, on ne peut pas

assurer que le robot explore entièrement l'environnement.

3.5.2 Planification des mouvements

On va considérer que le robot a maintenant exploré l'environnement et qu'il en a appris latopologie. Pour déclencher le mécanisme de planification, il suffit alors d'activer le neuronereprésentant la motivation. Du fait des liens appris au niveau but, l'activité de la motivationva se rétroproprager à ce niveau en respectant la topologie apprise lors de l'exploration", Dansnotre exemple, on va donc activer les neurones correspondant à la reconnaissance des transitionsBe et AB mais pas le neurone codant BD.

Par ailleurs, le robot étant en A, il reconnaît cette scène dans la première carte PTMI.Ce que l'on voudrait à présent, c'est que la carte de reconnaissance des transitions proposela transition AB. Cependant, le robot n'a pas encore effectué le mouvement "avancer", et iln'est donc pas encore arrivé en B. La transition AB ne peut donc pas encore être calculée. Ilfaut donc imaginer que le groupe effectuant la fusion ne soit pas utilisé ici dans ce mode, maisprédise les transitions possibles à partir de l'entrée à un instant donné. Dans le cas où le robotest en A, seul l'état B peut être atteint, et c'est donc uniquement la transition AB qui peut êtreprédite. Cette transition est reconnue par la carte de catégorisation et déclenche finalement lemouvement qui lui est associé (voir figure 24).

Une fois ce mouvement effectué, l'animat arrive alors en B. Là, le mécanisme de prédictionpropose à la fois la reconnaissance de la transition Be et de la transition BD. Le seul moyen pourtrancher entre ces deux solutions est alors de disposer d'une information permettant cl 'estimerle mouvement qui rapproche le robot du but. L'information stockée au niveau but permet derésoudre ce problème et correspond effectivement à ce que l'on attend d'une carte cognitive. Ilsuffit, en fait, de supposer que le niveau but est lié à la carte de reconnaissance des transitionspar le biais de liens de un vers un. On supposera, par ailleurs, que ces liens ont une valeur assez

1Semblable au mécanisme des grilles résistives.

- 163 -

Page 170: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

SM

Motivation

..7­-...... . ::: .. ::::::: .

•............. . ... ··· l.···

\\

I_------------~(1

~l~rr; 1

• ~ 1

-~~ ,O"V, '

~&"'-----.'1~..............,_------..:....,..,_--'

~~BD

Figure 24. L'élaboration du plan et la redescente d'information permettent de choisir entre le noeudBe et le noeud BD.

faible pour ne pas perturber complètement le fonctionnement de la carte mais suffisante pourtrancher entre les deux situations. La valeur du lien peut être aussi petite que l'on veut si toutesles transitions proposées par la prédiction ont la même intensité. Dans notre exemple, la cartereconnaît à la fois les transitions BC et BD. Par contre, au niveau but, le neurone codant BCdans la carte cognitive est activé avec un niveau d'activité bien supérieur au niveau du neuronecodant BD. Or, cette activité s'ajoute à la reconnaissance partielle de BC par la carte. C'estdonc effectivement le neurone correspondant à cette transition BC qui gagne. Cette transitionétant liée au mouvement "tourner à gauche", l'animat effectue donc le mouvement permettantd'atteindre le but.

Exemple de planification dans un labyrinthe

Pour bien mettre en évidence le problème de la propagation de but, prenons l'exemple d'unlabyrinthe présenté figure 25. Après exploration, lorsque l'animat est reconduit à son point dedépart, on voudrait qu'il déclenche la séquence de mouvements A ~ B ~ C ~ D, plutôt queA -+ B -+ E -+ F -+ G ~ C --+ D.

Sur notre exemple, si l'activité du neurone codant CD est forcée à 1 par le biais dulien le reliant à la motivation (voir figure 26), d'après l'équation d'activation du neuroneYi = maxj (Wij . Yj) = maxj (WMax . Yj), et si l'on considère que WMax = 0.9 (cf. paragraphe3.2) on en déduit que l'activité de BC et GC est 0.9. Celle de FG est 0.92 = 0.81, celle deEF est 0.93 = 0.729 et celle de BE est 0.94 = 0.6561. Par ailleurs, l'activité de AB ne tenantcompte que de la valeur max de ses entrées, son activité est 0.92 = 0.81 et non 0.95 = 0.59049.Son activité dépend donc directement de sa distance en nombre de transitions jusqu'au but (voirfigure 26).

Le robot arrive bien à planifier ces actions vers le but bien qu'aucune information métrique nesoit disponible. Il n'utllise que des informations de distance en terme de nombre de transitionsjusqu'au but. Cependant, si on imaginait que les situations E, F et G, se réduisaient à une seulesituation E' et que, par contre, le système reconnaissait une situation B' et Rtl après B. Dans cecas, le robot planifierait son chemin en utilisant la séquence ABE'CD, plutôt que ABB'RtlCD

- 164 -

Page 171: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

D

--------

G

F C

E B

--------

A

Planification

Figure 25. Labyrinthe complexe comportant deux chemins de longueurs différentes menant au but Ddepuis A).

Motivation;----------------,~~G GC

.-~ --~-

f'>." 0.729 0.81 0.9

BE 0.6561

AB ~BC

Figure 26. La motivation active le neurone correspondant à la reconnaissance de la transition CD.Grâce aux liens appris lors de la phase d'exploration, l'activité est retropropagée. Le niveau d'activationdes neurones est une mesure de la distance au but.

bien que le chemin soit plus court. Il faudrait disposer d'une information sur le temps nécessairepour passer d'une situation à une autre.

Néanmoins, il nous semble que d'un point de vue perceptuel, ce genre de situation est difficileà imaginer. En effet, du fait de la continuité de l'environnement, si un chemin est court, lesscènes perçues auront toutes les chances d'être semblables et donc, peu de situations serontcodées. Inversement, pour un parcours long, il y a une grande probabilité que les scènes perçueschangent énormément et donc que ces différentes situations visuelles soient codées sur des neu­rones distincts.

3.5.3 Séquencement des événements permettant l'apprentissage et lasélection cl'action en parallèle

Nous tentons d'étudier ici le séquencement des événements à prendre en compte pour pouvoirréaliser le mécanisme qui permet à la fois de construire et d'utiliser la carte cognitive.

Considérons qu'à l'instant t, l'animat perçoit un flot perception(t) et effectue une actionaction(t). Nous allons étudier le séquencement des actions durant le passage d'un couple(perception/action) (t) au couple suivant (perception/action) (t + 8t), ~t correspondant autemps nécessaire pour une étape de calcul et de prise de décision de notre système.

- 165 -

Page 172: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

Apprentissage et exploration

Le problème que nous nous posons est de déterminer à quels moments les informationsnécessaires à la construction du niveau but doivent être apprises. Pour cela, on va étudier surdeux séquences perception-action, le traitement du flot de données effectué dans notre système.Considérons qu'à l'instant t, la perception Pert a amené le robot à proposer l'action ACt. Pourétudier le fonctionnement interne de notre système, il nous est nécessaire cl 'utiliser une horlogeau pas plus fin, afin de pouvoir étudier la propagation des informations au sein de l'architecture.Tout d'abord, on peut considérer que la perception Pert est directement apprise dans SV par leneurone SV! (cf. figure 22). Cette entrée constitue la première entrée de la fonction fusion. Laseconde entrée est l'activité en sortie d'une fonction de retard qui bloque les données provenantde SV pendant un temps T avec T < fJ.t. A l'instant t, la donnée disponible en sortie de cettefonction retard est donc la reconnaissance de l'entrée visuelle bloquée à l'instant précédent, c'est­à-dire Sl/t-~t. A l'instant t, le groupe de fusion construit une représentation de la transitionentre les deux scènes visuelles. C'est donc à cet instant seulement que cette transition peut êtrecatégorisée dans le groupe de reconnaissance de transitions (PTM2), et donc, qu'elle peut êtreassociée au mouvement qui a permis de passer de la perception Pert-dt à la perception Pert.Or, ce mouvement a été effectué à l'instant t - ~t. Il est donc essentiel de ne pas remettre àjour le mécanisme proposant les actions après la mise à jour du groupe de reconnaissance destransitions de manière à pouvoir apprendre le lien entre la reconnaissance de la transition et lemouvement effectué à t - fJ.t.A ce même instant t, on peut aussi faire remonter l'informationde la carte de reconnaissance vers la carte "but" et apprendre les liens avec les neurones "but"activés précédemment de manière à construire le graphe des transitions.

Après un temps T, la fonction retard introduite précédemment, laisse passer l'informationprovenant de SV. La fonction de fusion effectue donc la multiplication de deux situations iden­tiques ce qui revient à reconnaître une situation donnée, et non une transition. On choisit doncde ne pas apprendre ce produit. Par contre, l'activité du groupe de fusion active une bulledans la carte de reconnaissance qui est liée à la carte de mouvements. Une action est donc pro­posée. Si le résultat de cette action mène au but, le neurone représentant la motiva.tion s'active,et c'est uniquement à ce moment là que le robot peut apprendre le lien entre le neurone butcorrespondant à la dernière transition, et le neurone "motivation".

Planification et utilisation

Dans le cas de la planification, on suppose que le neurone motivation est activé. A l'instantt, l'entrée visuelle reconnaît la situation Sl/t. La fonction de fusion/prédiction, propose alorsune représentation de la transition entre Sllt-.â.t et S~ qui peut alors être reconnue par unneurone du groupe de reconnaissance des transitions. En fait, cette transition est celle qui vientjuste d'avoir lieu, c'est-à-dire la transition entre la scène Sl/t-.6.t, et la scène SVi actuellementperçue. Or, dans le cas de la planification, nous ne voulons pas apprendre la transition quivient d'avoir lieu, mais prédire les transitions possibles à partir de la scène actuellement vue.La fonction produit doit se transformer en fonction prédictrice à partir de l'instant présent'.Cependant, il est alors nécessaire d'attendre un temps T, de manière à ce que la fonction retard

200 verra au paragraphe suivant une architecture permettant de passer facilement d'une opérationproduit à une opération prédiction.

- 166 -

Page 173: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

ait laissé passer l'information provenant de SV vers la deuxième entrée de la fonction produit.Par ailleurs, dans le même temps, on peut mettre à jour la carte but de manière à propagerl'information de topologie du labyrinthe. Lorsque ces deux données sont disponibles, on peutalors calculer l'activité des neurones de la carte de reconnaissance de transition puis l'activitédes neurones moteurs.

Synthèse des deux modes de fonctionnement

Nous avons vu qu'il était nécessaire de considérer pour un pas de l'horloge, le temps T depropagation nécessaire pour élaborer la reconnaissance de transitions et que les processus de miseà jour et d'apprentissage des différents groupes de neurones étaient soumis à ce temps dattente.Vues les considérations faites aux paragraphes précédents, on propose donc le chronogramme defonctionnement représenté figure 27.

1

,, 1 1 ,

!U ~ 1 ~11

111 .1

.~1

~1

1 1

~ f ~ P W ~ L1

1 1 1

.'b) 11 1 1

~1 ,

~[Ej~ ~ ~ ~ .11

e.e' 111,11

MO

1

1

mvt 1 1 1 1 1 L1.1

't =-:1

1 1 1 tpsE

ar ~iE

Figure 27. Séquencement des différentes étapes nécessaires à l'apprentissage de la carte cognitive. Learnest le signal déclenchant l'apprentissage, e est la sortie directe de SV, e' est la sortie retardée, MO estle mouvement proposé par le groupe commandant les actions, mvt est le signal qui permet de déclencherla réalisation de l'action. Le signal marqué e . e' est une représentation symbolique de la fusion desinformations e et e', Les flêches reliant cette ligne au signal mvt indiquent le moment où le mécanismede fusion permet de représenter la transition qui peut être associée au mouvement.

3.5.4 Détection de nouvelles transitions

Nous nous intéressons ici au mécanisme permettant de détecter la transition entre deux scènes.L'idée la plus simple serait de retarder le signal issu de SV. Ainsi, grâce au groupe de fusionon pourrait obtenir une représentation composite de la scène perçue à un instant t et de celleperçue à un instant t + ~t.

Cependant, imaginons, par exemple, un long couloir. Les situations perçues entre le débutdu couloir et la fin du couloir sont semblables à tous les instants. L'information provenant

- 167 -

Page 174: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

directement de SV etcelle sortant du groupe retard seront donc identiques. La fusion de cesinformations ne correspond pas à la représentation d'une transition mais à la représentationd'une scène [transitionAzl par exemple). Or, on a vu précédemment qu'il était indispensablede planifier à partir des transitions, et non à partir de la reconnaissance de scènes.

S1 A li B ~ C.,

S] 0 0 •

~ .• ~AB Be•

Figure 28. Mécanisme de détection de transitions.

Nous avons donc considéré que le signal mémorisé par le retard n'était pas directement lesignal issu de SV, mais sa "dérivée" temporelle 3. Ainsi, quelque soit la longueur de la répétitiond'une même scène, le signal mémorisé serait uniquement la transition d'une scène à une autre(voir figure 28).

En fait; cela revient à détecter la nouveauté dans le flot de perception. Toutefois, ilest nécessaire de préciser que le mécanisme que nous proposons est une version très simplistede la détection de nouveauté. En particulier, la détection de nouveauté devrait être asservienon seulement à "la détection de rupture dans le flot de perception, mais aussi à la prise encompte du niveau des· variables internes telles que la vigilance ou le signal de renforcement.Nous envisagerons au paragraphe 5 que la détection de nouveauté et la mémorisation du signald'entrée pourraient, d'un point de vue neurobiologique, être réalisées au sein de l'hippocampe.

3.5.5 Réalisation du mécanisme de fusion/prédiction

Nous l'avons vu, le groupe de fusion est au coeur du mécanisme permettant à la fois de construireet reconnaître des transitions. Nous avons noté qu'il était nécessaire de fusionner les informationsen phase d'exploration, mais aussi de permettre la prédiction des transitions possibles à partird'un état donné, lors de la phase de planification.

Nous proposons une implantation neuronale de ce mécanisme sous la forme d'une carte deneurones de taille N x N dont chaque neurone est lié avec la "dérivée" de l'entrée à l'instant t

3Ce vecteur "dérivé" est obtenu en effectuant les différences composante par composante entre levecteur SV(t + at) et le vecteur SV(t)

- 168 -

Page 175: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

d'une part, et avec l'entrée mémorisée d'autre part. L'activité des neurones de cette carte estcalculée simplement en sommant l'activité des entrées multipliée par les poids les reliant à lacarte, puis en seuillant le tout.

Yi

avec f(x)

f (tW i j ·Xj - 0)3=0

{

0 si x < 0

1 sinon

t=tl 9 9 Ç> t=tl+'t Ç> , 9 ]o. 0, 0,

Wz=O.60, 0, 0, wro·6dérivée 01 ., 0, dérivée 0, ., .,

Il, '" '" Il, '" '"'" '" '" '" '" Il,

'" ", '" ", '" "," , " , ", " 1 " 1 " ,:: 1 f: ~ " , " . /: ' " ,:' seuil=O.9 " :' seuil=O.9

Figure 29. a) Activité sur la carte de fusion lorsqu'un neurone d'entrée est actif. b) Activité sur la cartede fusion lorsque les deux neurones d'entrée sont actifs. c) Apprentissage des poids de la carte de fusion.d) Activité sur la carte de fusion après apprentissage lorsqu'uniquement un neurone de l'entrée retardéeest actif (pas d'entrée directe - prédiction)

Un choix approprié des poids initiaux et du seuil des neurones permet alors de réaliser lafusion des données. Il suffit pour cela que la valeur des poids initiaux soit inférieure au seuilmais que la somme des deux poids faisant le lien avec l'entrée directe et l'entrée retardée soitsupérieure à ce même seuil.

En effet, soit i 11n neurone de la carte, () la valeur du seuil, Xl et X2 l'activité des neuronesprovenant respectivement de la première et de la deuxième entrée, Wli et W2i les poids associés.

Si on calcule l'activité d'un neurone, on a alors:

- 169 -

Page 176: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 3 Architecture intégrée pour la planification

Si l'un des neurones (le neurone correspondant à la reconnaissance visuelle directe par exem­pie), est activé, on a alors :

Yi = f (W1i - 8)

Si le poids Wu est inférieur au seuil 8, le neurone ne s'active donc pas (voir figure 29-a)). Parcontre, lorsque les deux neurones sont actifs on a :

Yi = f (W1i +W2i - fJ)

Il suffit de prendre alors la somme des poids supérieure à () pour que le neurone s'active (voir.figure 29-b)). On a donc bien réalisé une fusion correspondant à la reconnaissance d'une tran­sition.

Cependant nous avons remarqué qu'il serait intéressant de pouvoir faire fonctionner ce mêmegroupe de neurone en prédicteur en phase de planification. Cela est possible si l'on considèreque les poids W2i sont appris. En effet, lorsque 'le neurone i de la carte est activé, le lien W2i

peut être renforcé en utilisant un simple apprentissage Hebbien (voir figure 29-c)).Si l'on considère, de plus, qu'après cet apprentissage, le poids a une valeur supérieure au seuil

0, il est alors en mesure d'activer seul le neurone de la carte correspondant à la fusion des deuxentrées. En effet, si après apprentissage W2i > 8, et que X2 seul est actif, on a alors:

Yi = f (W2i - fJ)

Ce qui fait que le neurone est actif (voir figure 29-d)).Ainsi, en planification, la fusion peut se transformer en prédiction des états pouvant être

atteints. En effet, si l'on considère que dans ce mode de fonctionnement, l'entrée visuelle n'estplus disponible après un temps T. La seule entrée disponible sur la carte de fusion est l'entréeprovenant de la fonction retard. Du fait du mécanisme d'apprentissage, cette entrée proposealors d'activer les neurones correspondants au(x) produitfs) de l'état actuellement perçu et d'un(ou des) état(s) qu'il a déjà réussi à atteindre auparavant à partir de cet état.

- 170 -

Page 177: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

4 Résultats des simulations

Nous présentons les résultats obtenus en utilisant notre architecture pour contrôler un robotsimulé se déplaçant dans le labyrinthe présenté figure 17. Nous considérons que les situationsrencontrées sont catégorisées à partir des données perceptuelles par un système de catégorisationautonome comme celui présenté au chapitre III. Ainsi les situations B et B' (la notation "prime"indiquant la situation vue "dans l'autre sens" - voir figure 30 pour t=6) seront différenciéespuisqu'elles correspondent à deux "vues" différentes perçues cependant en un même lieu.

4.1 Exploration de l'environnementDans un premier temps, l'animat explore le labyrinthe de manière aléatoire. La figure 30 donne ledétail de ses déplacements au cours du temps. Par ailleurs, nous présentons en regard de chaquedéplacement l'activité des neurones du niveau but correspondant (à mettre en correspondanceavec la figure 23). La surface du rectangle est proportionnelle à l'activité du neurone qu'ilreprésente.

c~ B 0 ~ LI

LIA

t=O) t=l)

~ B' 0 0' ~ 0

AB

• t=2)

(3

BD

~.BD BD

~ ~ .~t=3) - t=4) •• t=5) ••DO'AB OO'AB DD'AB

~ B ~ LI ~O

LIA

t=6) t=7) t=8)

Figure 30. Parcours de l'animat au cours de l'exploration du labyrinthe.

Le niveau "but" élabore la carte cognitive au fur et à mesure du parcours en créant unnouveau noeud pour chaque transition et en reliant les noeuds rencontrés consécutivement. Parailleurs, lorsque l'animat est remis au point de départ (temps t = 6), l'animat "envisage" déjàles situations accessibles à partir de la situation courante, grâce aux liens bi-directionnels. Autemps t = 8, le système crée un état supplémentaire correspondant à la reconnaissance d'une

- 171 -

Page 178: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Résultats des simulations

nouvelle transition (entre l'intersection et le but), par ailleurs il code un état "BUT" servantcomme point de départ du mécanisme de rétropropagationdu but.

4.2 PlanificationNous nous intéressons maintenant à la phase de planification. Dans ce cas, le neuronereprésentant la motivation est activé. Après stabilisation dt! mécanisme de propagation debut, l'activité du niveau but est stable. Nous présentons figure 32 les mouvements effectués parl'animat, le niveau d'activité de la carte de catégorisation des transitions et le niveau d'activitéau niveau "but" (qui reste constant "étant donné que l'information ne remonte plus mais descendvers le niveau "reconnaissance" - voir figure 31).

1 \ BUI

~~/BD~ . Be\~ "..

• 11 11 1) ,, 1, ,, ,

J tt ,

1 1" 1Figure 31. Détail du calculeffectué durant la planification au niveau du neurone de reconnaissance. Faceà la situation "B", le système reconnaît à la fois la transition "BO" et la transition "BD". Cependant, leniveau "but" de "Be" est plus actif car la situatIon "C" permet de se rapprocher du but. Il biaise doncla reconnaissance de "BC", ce qui permet de proposer le mouvement allant vers "C",

- 172 -

Page 179: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

Le niveau de gris des rectangles dans la carte reconnaissance correspond au mouvementassocié à chacun des neurones : le blanc correspond au mouvement "tourner à gauche", le grisau mouvement "avancer" et le noir au mouvement "tourner à droite". Par ailleurs,

Reconnaissance Niveau "but" Reconn. + ButBUT

c • • [J • •)

~ B D BD• • •

LI III ~. III

A • • • •t=O) DD'AB

O· • O- •~ LI BD•

[l ~. [l

•• • •t=l) DD'AB

BUTOB • OB •)

~O~ • BD ••ID ~. CI

•• • •t=2) DD'AB

Figure 32. Planification des mouvements de l'animat et activité de la carte de reconnaissance de tran-sition associée.

A t == 0, les neurones les plus actifs de la carte de reconnaissance sont les neurones associésau mouvement "avancer". C'est donc ce mouvement qui est choisi. A t = 1, les deux neuronesde la carte de reconnaissance représentant les transitions ayant pour origine la reconnaissancede l'intersection sont activés de manière identique. Les mouvements "tourner à gauche" ou"tourner à droite" peuvent alors être choisis indifférement. Cependant, au niveau but, le neuronecorrespondant à la transition associée au mouvement "tourner à gauche" est le plus actif. C'estdonc ce mouvement qui est choisi. Enfin, à t == 2, la carte de reconnaissance de transitionreconnaît la transition qui permet de se rendre au but et effectue donc le mouvement "avancer"qui lui est associé.

- 173 -

Page 180: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4 Résultats des simulations

4.3 Découverte de raccourcis "topologiques"

cB r+---=---'cB

E A

LIE A

Figure 33. Deux parcours effectués par le robot pour se rendre au but.

Une autre expérience que nous avons réalisée, a consisté à faire apprendre au système les deuxparcours représentés figure 33. Comme on peut le constater, ces deux parcours mènent tous lesdeux au but mais ne sont pas optimaux. Notre idée était de tester l'aptitude de notre systèmeà structurer l'information acquise au cours du temps de manière à pouvoir déduire le parcoursoptimal à partir des deux parcours sous-optimaux.

BUT BUT

a) b)

Figure 34. a) Graphe obtenu après le premier parcours. b) Morceau de graphe ajouté après le deuxièmeparcours. Afin de simplifier la représentation, on ne montre que le graphe élaboré au niveau but ainsique les mouvements associés à chaque transition.

Intéressons nous tout d'abord à l'apprentissage des transitions pour le premier parcours. Lerobot part de A et avance en B. Le système cree ainsi une transition AB associée au mouvement"avancer". De la même manière, il crée la transition BD associée à "tourner à gauche", DFassociée à "avancer", FG associée à "tourner à droite". Lorsque le robot se retourne dans lecul-de-sac, en G, il retourne à l'intersection notée F. Cependant, la situation perceptuelle n'estpas la même. Il crée donc une transition GF' associée au mouvement "avancer". Sont ensuitecrées la transition F' H associée à "avancer" et l'état H associé au but uniquement. Le grapheobtenu après le premier parcours est donné figure 34-a).

De la même manière, le parcours 2 donne la représentation présentée figure 34-b). En fait,le niveau "but" fusionne ces deux informations et élabore le graphe présenté figure 34-c).

- 174 -

Page 181: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

Figure 35. Rétropropagation de l'activité du but. Le niveau de gris indique l'activité des neurones.En fonction du graphe élaboré à partir des deux parcours sous-optimaux, le système de planification estcapable d'inférer le plus court chemin.

Considéronsl'activité des neurones du niveau but lors de la phase de planification. Grâce ànotre algorithme de rétropropagation .de l'information motivationnelle, on assure que l'activitéd'un neurone est fonction de sa distance au but (mesuré en nombre de transitions). Nousprésentons figure 35 l'activité de ces neurones.

On le voit', le système est alors capable d'inférer le chemin le plus court pour aller au but,bien qu'il n'ait jamais emprunté ce parcours. Il est intéressant de comparer ce mécanisme avecles observations de "transfert" d'information observé chez les animaux [ToI48].

- 175 -

Page 182: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 4

4.4 Tests sur un labyrinthe complexe

Résultats des simulations

Lors d'un travail effectué en collaboration avec D. Foffi (mini-projet de DEA), nous avons testéles capacités de notre algorithme de planification sur un labyrinthe simulé complexe (figure36). Dans ce labyrinthe, le robot commence par se déplacer aléatoirement et découvre petit àpetit son environnement (murs, "nourriture"). Quand un mouvement est possible, le systèmeassocie un lien ayant une valeur fixe (0.9) entre les deux neurones qui codent la case de départet la case d'arrivée. Lorsqu'une source de nourriture est atteinte, le neurone correspondant àl'endroit courant est alors associé à la motivation. Dans cette implémentation de l'algorithme,on considère que chaque déplacement a pour effet de faire diminuer une variable interne (variableessentielle) mesurant l'énergie totale dont dispose le robot. Lorsque le niveau d'énergie devienttrop bas (vis à vis d'un seuil fixé par l'expérimentateur), le robot entre alors dans une phase deplanification. S'il a trouvé un où plusieurs sites de "nourriture", les tests ont montré que, grâceà notre algorithme planification, il -rejoignait par le chemin le plus court le site de nourritureconnu le plus proche.

Il Mur

~ Passage difficile

[li] Nourriture

Figure 36. Labyrinthe complexe utilisé pour tester notre algorithme de planification. Les carrés noirsreprésentent les murs. Les zones grisées sont des zones "à éviter". Les "N" sont les endroits où le robotpeut trouver de la nourriture.

Dans notre test, des "zones à éviter" ont été introduites pour tester si le système était capabled'éviter une zone donnée du labyrinthe même si en franchissant cette zone le robot arrivait plusrapidement à la source de "nourriture". Pour permettre ce comportement, il a suffit en faitd'associer un poids plus faible (0.7) aux liens reliant les neurones associés à des zones à éviter.

- 176 -

Page 183: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

5 Liens entre notre modèle et la réalité neurobi­ologique

Le modèle formel que nous avons proposé a, en fait, été élaboré à partir d'études effectuéessur l'hippocampe et s'est appuyé sur un certain nombre d'idées fonctionnelles avancées par lesneurobiologistes. En retour, les tentatives successives de simulation précise de ces mécanismesont permis d'affiner les modèles biologiques (travail effecttié en collaboration avec J .P. Banquet[Ban97, Ban98]).

5.1 Structures impliquéesA l'évidence, les mécanismes de planification sembleraient correspondre à la fonctiongénéralement attribuée au cortex pré-frontal. Il a en effet été suggéré que le cortex préfrontalpourrait être une mémoire de travail permettant d'élaborer la planification d'actions et de com­portements [Fus89]. Du fait de liaisons existantes entre les couches superficielles du cortexpré-frontal et celles de nombreuses aires corticales (y compris les aires motrices), l'informationpeut être véhiculée au niveau de la couche superficielle du cortex. Là, elle peut se propagervers des colonnes voisines par le biais des liens locaux. On peut donc imaginer un mécanismede propagation d'activité entre colonnes corticales. De plus, on sait que les liens entre colonnespeuvent être appris selon une règle de type hebbien. Par ailleurs, on sait que le cortex pré-frontalreçoit des afférences de zones liées aux motivations comme l'amygdale ou l'hypothalamus. Il estdonc possible cl 'imaginer que certains neurones du cortex préfrontal intègrent des informationssensori-motrices et motivationnel1es.

L'hippocampe, quant à lui, pourrait correspondre au groupe que nous utilisons pour fusionnerles informations au cours du temps. En effet, cette structure est impliquée dans l'intégrationmulti-modale (nous avons en particulier vu son implication dans les processus de localisationspatiale), dans la mémorisation à court et moyen terme, dans la détection de nouveauté et dans larégulation des mécanismes d'apprentissage ([Den96]). Un schéma synthétique de l'hippocampeest donné figure 37.

Revenons d'abord sur les données anatomiques concernant l'hippocampe qui pourraient don­ner une base architecturale à notre modèle. L'hippocampe est principalement innervé par desfibres provena.nt du cortex entorhinal (EC). Or, cette zone du cerveau reçoit principalementdes afférences des aires associatives, et en particulier du cortex temporal, du cortex pariétal etdu cortex préfrontal. Nous avons d'ailleurs vu au paragraphe 1.1 que des modèles expliquantcomment l'hippocampe pourrait former des représentations de type "cellules de lieu" [J.078]à partir de la fusion de ces informations pariétales et temporales, ont été proposés. En ce quiconcerne notre modèle, l'entrée du système est constituée d'une carte (PTMl) permettant dereconnaître les différentes situations visuelles que l'animat peut rencontrer. On peut imaginerque cette reconnaissance pourrait être effectuée au sein du cortex temporal puis projetée dansle cortex entorhinal. Nous avons suggéré que l'une des fonctions de EC serait de "dériver" lesignal provenant des zones associatrices.

Les entrées provenant du cortex entorhinal activent en grande partie les cellules granulairesdu Gyrus Dentelé (DG). Il semblerait que ces cellules granulaires déchargent plus ou moinslongtemps en fonction de leur taille. Or, DG possède un ensemble de cellules granulaires dontles tailles sont différentes. Il a été suggéré que cet ensemble de cellules pourrait servir de bases

- 177 -

Page 184: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5 Plausibilité biologique·

Bases de retards

représentationspatio/temporelle

ReconnaissanceCortexfrontal

Ee"place cells"

Système limbiqueSeptum

Figure 31. Structures et liens au sein de 1'hippocampe

de retard du signal provenant du cortex entorhinal (voir figure 38 le modèle proposé par Banquetet Gaussier [Ban97;Ban98]). En effet, prenons un signal donné provenant de EC et se projetantsur des cellules .de DG ayant des constantes de temps différentes : certaines petites cellulesdéchargeant vite, d'autres, plus lentement (voir figure 39). En sortie de DG, selon le type decellules rencontrées; on retrouve les signaux provenant du cortex entorhinal avec plus ou moinsde retard. En généralisant ce mécanisme, on peut imaginer que DG possède plusieurs gammesde retards correspondant à des cellules différentes et permettant de reproduire en sortie l'entréeprovenant de EC avec plus ou moins de retard. Ce mécanisme est à comparer au mécanismeque nous avons proposé pour retarder le signal provenant de l'entrée visuelle.

Les fibres provenant de DG atteignent ensuite CA3. De plus, certaines projections de ECparviennent directement sur les cellules pyramidales de CA3. Par ailleurs, CA3 possède denombreux liens récurrents. Cette particularité a laissé supposer certains que CA3 pourrait fonc­tionner comme une sorte de mémoire associative [Tre94]. Pour notre part, nous nous intéressonssurtout à la possibilité pour CA3 de fusionner des informations provenant directement de EC,ou de DG. Or, comme nous l'avons suggéré plus haut, nous pensons que les signaux provenantde DG sont le reflet de l'activité de EC à un retard près. Pour un retard donné, CA3 peutfusionner l'information provenant directement de EC (et donc sans retard) et une informationretardée (par le biais de DG) provenant aussi de EC. Par ailleurs, les synapses formées entre lesfibres provenant de DG et les cellules de CA3 sont plastiques. Dans notre modèle, CA3 serait lastructure impliquée dans la fusion de l'information provenant de EC et l'information retardée.

- 178 -

Page 185: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

EC2

axe temporel

MC

Reset

lien inhibiteur

lien excitateur Fibres moussues: vers CA3

Planification

Figure 38. Modèle du Gyrus Dentelé proposé par Banquet et Gaussier [Ban97}

Par la suite, CA3 envoie des projections vers CAL Il a été montré que les synapses descellules de CAl présentaient des propriétés de plasticité [Mil88, Bro90]. Nous pensons donc queCAl pourrait apprendre le motif formé par l'activité des neurones de CA3. Dans notre modèle,CAl permettrait d'apprendre le motif de transition qui apparaît dans CA3 (deuxième carte dereconnaissance - PTM2).

Enfin, les fibres sortant de CAl, rejoignent les aires associatives (pré-frontales en particulier).Dans notre modèle, on imagine que l'activité de CAl (PTM2) peut se recopier au niveau ducortex préfrontal, permettant l'apprentissage des différentes situations, de leurs relations et leursliens avec la motivation.

Nous aboutissons ainsi à un modèle plausible des relations entre le cortex et l'hippocampe.Il faut noter que les données neurobiologiques seules ne permettaient pas de faire toutes cesdéductions. Ce sont les tentatives successives de simulations qui nous ont permis de comprendreles contraintes minimum à mettre dans le modèle pour qu'il fonctionne. Cependant, ce sont desarguments neurobiologiques que nous avions négligés qui nous ont permis de résoudre certainsproblèmes algorithmiques apparus au fur et à mesure du développement du modèle.

5.2 Détection de nouveauté, apprentissage et utilisation

Nous avons mis en évidence des liens possibles au niveau de l'organisation architecturale entrenotre modèle et une base biologique. Cependant, le fonctionnement interne de notre systèmedépend du mode dans lequel il est utilisé. Nous avons en effet supposé qu'il existait un fonc­tionnement en exploration et un fonctionnement en exploitation.

Biologiquement, le passage d'un mode de fonctionnement à un autre pourrait s'expliquerpar des mécanismes de modulation. Nous nous sommes plus particulièrement intéressés à lamodulation cholinergique. En effet, l'hippocampe envoie des liens vers le septum, qui, en retour

- 179 -

Page 186: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5

ActIvite DeUrDnc:s

Af \: \

\

ActlvllcpetiteGC Activite autte GCdans le meme cluster

Plausibilité biologique

Activitedc

./la MCassociee

Figure 39. Activité des différentes cellules granulaires, selon leur taille.

permet une modulation locale du niveau d'acétycholine (ACh) dans l'hippocampe (voir figure40). L'acétylcholine a la particularité de supprimer sélectivement la transmission synaptiqueentre cellules pyramidales pour des connexions proximales mais pas pour des connexions distales[Has92, Has94].

Cortex associatif et pre-frontal

EC

1 1 1 11 1 1 1

_~_ï J_l _(ACh)

Figure 40. Le septum agit sur CAl er CA3 par le biais d'une modulation cholinergique.

Il a été supposé [Has94], que la modulation cholinergique serait maximale pendantl'apprentissage de nouveau stimuli et inexistante lors de l'utilisation d'informations déjà ap­prises. Outre que ce modèle donnerait une base neurobiologique aux réseaux de neurones artifi­ciels employant une normalisation des poids, elle semblerait donner des pistes pour comprendreles mécanismes de la maladie d'alzeimer (le système de régulation cholinergique des sujets at­teints de la maladie d'alzeimer semble mal fonctionner).

Les zones CAl et CA3 de l'hippocampe innervent chacune une région spécifique du septum.En réponse au niveau d'activité de ces zones, le septum peut produire localement une modu­lation cholinergique autorisant ou non l'apprentissage des fibres moussues et des synapses de

- 180 -

Page 187: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

collatérales de Schaffer. L'activité du septum est corrélée négativement avec l'activité des zonesqui l'innervent. Par exemple, lorsque CAl est activé, le septum ne l'est pas et vice versa. Lecortex orbito-frontal, impliqué dans les processus motivationnels, envoie des efférences Vers leseptum. Il a été proposé que ces connexions permettraient de contrôler globalement la modula­tion cholinergique produite par le septum en fonction des états motivationnels [Den96].

Pour ce qui est de notre modèle, nous proposons le fonctionnement suivant. Lors d'unetransition, quand le motif d'activité provenant de EC ne correspond pas à celui provenant DG,CA3 voit son niveau global d'activité diminuer. Comme CA3 est lié au septum, celui-ci s'activepermettant ainsi une modulation cholinergique au niveau de CA3. Cette modulation permetd'apprendre les liens entre les neurones actifs de CA3 et les entrées provenant de DG (voir figure41). De la même manière, lorsque CAl fait face à une nouvelle transition codée dans CA3, sonactivité est faible, ce qui active le septum. Du fait de la modulation cholinergique en retour,CAl peut apprendre cette nouvelle transition.

EC

Modalité1 ::t:::=1===:::-Modalité2 -+--+--

Modalité3 ::+::::t=~

Pasd'ACb----f---+----+------+-- connexions

distales

connexionsintennédiaires

aJlIIICxilJllli

proximales

Figure 41. Le Septum agit sur CAl er CA3 par le biais d'une modulation cholinérgiques.

Le contrôle du septum par le cortex orbito-frontal permettrait d'expliquer la distinction entredeux modes de fonctionnement : un mode exploration et un mode utilisation. Lors d'un étatmotivationnel faible, le septum ne serait pas contrôlé par le cortex orbite-frontal. Il pourraitainsi réagir aux sollicitations de CAl et CA3, ce qui permettrait à CAl et CA3 d'apprendre lessituations nouvelles. Par contre, lorsque le cortex orbito-frontal est soumis à un état motiva­tionnel, ilbloquerait l'activité du septum. Ce processus réduirait l'apprentissage de nouvellessituations et favoriserait l'utilisation d'informations déjà apprises. En particulier, cela permet­trait à CA3 d'utiliser l'information apprise dans les poids provenant de DG pour proposer lessituations qui ont été immédiatement rencontrées à partir de la situation actuelle. Ce type defonctionnement correspondrait à la distinction au niveau de notre modèle de CA3 entre un modede fonctionnement "produit" et un mode de fonctionnement "prédiction".

Il existe une autre solution qui consiste à ajouter du bruit sur la sortie motrice pendant laphase d'exploration. De cette manière, l'influence de la reconnaissance sur la prise de décisionest faible. Le robot découvre de nouvelles situations et les apprend. En mode planification, ilsuffit de réduire le niveau du bruit de manière que le niveau des neurones de prédiction soit

- 181 -

Page 188: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 5

suffisant pour commander la réaction.

- 182 -

Plausibilité biologique

Page 189: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV

6 Conclusion

Planification

Dans ce chapitre, nous avons décrit une architecture d'inspiration neuronale permettant deconstruire une carte cognitive de l'environnement en vue de permettre la planification des ac­tions d'un animat. Nous avons tout d'abord observé les résultats d'expériences de psychologieexpérimentale semblant mettre en évidence les facultés de certains animaux à construire desreprésentations complexes de leur environnement. Nous avons cependant envisagé quelques con­troverses entourant les résultats de certaines de ces expériences. Nous avons ainsi été amenés àconsidérer que les cartes cognitives seraient une représentation interne des relations topologiquesexistant entre différentes situations perceptuellement différentes. Par la suite, différents modèlespermettant de construire des cartes répondant à cette définition ont été présentés. Nous avonscritiqué leur incapacité à résoudre en interne (sans algorithme externe au système) le problèmedu lien entre planification et sélection de l'action.

Nous avons ensuite proposé un modèle dont l'un des intérêts majeurs est précisement des'appuyer directement sur les données perçues pour élaborer une représentation interne del'environnement. Nous avons insisté sur la nécessité d'utiliser une représentation interne destransitions entre situations plutôt que sur la représentation des situations elles mêmes. En uti­lisant une architecture basée sur le modèle des colonnes corticales de Burnod, nous avons purégler le problème lié à la nécessité de séparer les données perçues et des données liées à la plani­fication. Nous avons, par ailleurs, proposé un mécanisme neuronal de propagation de but dontle fonctionnement a été démontré comme étant identique à l'algorithme de recherche du pluscourt chemin dans un graphe de Bellman et Ford. Nous avons, de plus, insisté sur les contraintestemporelles liées au séquencement de l'apprentissage et de la prise de décision. Nous avons enfinsouligné la plausibilité biologique de notre modèle et son intérêt pour la compréhension des lienspouvant exister entre l'hippocampe et le cortex pré-frontal.

Il est intéressant de revenir sur les données psychologiques que nous avons vu au paragraphe1.1 et d'observer dans quelle mesure notre modèle peut expliquer ces résultats. Revenons, toutd'abord, sur l'expérience menée par Gough. La représentation élaborée par notre architectureest la suivante : dans la phase d'apprentissage, le système apprend les transitions AB et AB'et les relie à la motivation avec un lien de faible valeur (récompense faible en B et B'). Parailleurs, il crée une représentation de la transition Be associée à la motivation avec une valeurimportante (forte récompense). Cependant, comme le système n'a pas expérimenté le passage dela transition AB à la transition Be, aucun lien entre ces deux transitions n'est crée (voir figure42). En phase de planification, lorsque l'animat se trouve en A, il prédit les transitions AB etAB'. Or, comme il n'y a pas de lien entre AB et Be et comme B et B' sont renforcées (faiblementcependant), le système ne peut choisir entre les 2 voies. Il finit donc par prendre un cheminau hasard. Notre modèle rend donc bien compte de l'expérience de Gough. Il rend bien suraussi compte de l'hypothèse de Strain sur le chaînage des informations motivationnelles puisquela planification fonctionne selon le processus de rétropropagation de l'information provenant dubut.

La deuxième expérience sur laquelle nous désirons revenir est celle proposée par Miller. Enfait, notre modèle ne peut pas expliquer tels quels les résultats obtenus par Miller puisque nousn'avons pas introduit de mécanisme permettant de gérer des motivations "négatives". Nousavons envisagé d'améliorer l'algorithme en utilisant deux jeux de poids : des poids excitateurs(WS) permettant d'indiquer un lien avec une motivation positive (dans le sens où elle permet

- 183 -

Page 190: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6

r<v-~~"

Conclusion

Figure 42. La carte cognitive crée des représentations pour les transitions AB, AB' et pour Be. Cepen­dant, comme il n'y a pas de lien topologique entre AB et Be, l'information motivationnelle ne peut êtrepropagée.

d'obtenir une récompense), des poids inhibiteurs (Wij) indiquant un lien avec une motivationnégative (punition). Par ailleurs, il est nécessaire dans ce cas, de modifier la loi d'activation desneurones du niveau but de manière à prendre en compte l'information fournie par l'inhibition.L'équation est la suivante:

{

Yi si Yi > 0[Yi]+ = .

o sinon

{

- Yi si Yi < 0[Yi]- ==

o sinon

Le terme a . max(Wit . [Yj]+) indique l'attirance de I'animat vers un but procurant unerécompense. Inversement, le paramètre f3 . max(WiJ . [Yj]-) exprime la répulsion de l'animatvis à vis d'un but donnant lieu à une punition. Le paramètre 10 est uniquement introduit pourpermettre de rendre compte sur les autres cartes de l'effet d'une inhibition seule. La dynamiquede cette équation pourrait expliquer le comportement observé par Miller. L'équation que nousproposons pourrait, en effet, expliquer que l'animal s'approche du but jusqu'à atteindre unecertaine position où la tentation de fuite est plus grande. Ces suppositions demanderaienttoutefois à être étayées par un travail plus poussé. La poursuite de nos travaux de recherchedevraient en particulier s'orienter dans ce sens.

Pour résumer, notre modèle a permis de proposer un mécanisme de planification faisant le lienentre le niveau sensori-moteur et le niveau "but" de manière simple et efficace. Ce mécanismeest général et semblerait rendre compte de nombreux comportements observés en psychologieexpérimentale.

Nous désirons cependant revenir sur certaines simplifications qui ont été effectuées au seinde notre architecture. Un premier point que nous voulons aborder, est la difficulté d'obtenir

- 184 -

Page 191: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre IV Planification

une représentation synthétique des informations provenant du système perceptuel. Dans notremodèle, nous avons utilisé un WTA afin de simplifier au maximum la représentation d'un étatperceptuel. Cependant, nous n'avons envisagé ici que le cas d'une seule entrée perceptuelle.Dans le cas cl 'une représentation interne qui intégrerait des données multimodales, il faudraitconsidérer un mécanisme moins brutal permettant de fusionner ces informations pour élaborerune "signature" de la situation actuelle afin d'éviter que la taille du groupe de fusion ne soittrop importante (elle est pour l'instant en N2 par rapport au nombre de catégories possibles).Cette signature devrait permettre de décrire convenablement la situation de manière à ce quedeux situations différentes soient effectivement distinguées, mais elle devrait aussi garder unecertaine compacité afin que les traitements subséquents n'aient pas à traiter une trop grandequantité d'informatiolÎ. Les développements de ce problème sortent cependant du cadre decette discussion.. Toutefois, nous pensons que le fonctionnement de l'hippocampe et du cortexenthorinal pourrait servir d'inspiration pour l'élaboration d'un mécanisme de "compression" etde fusion..

Nous tenons, par ailleurs, à soulever une difficulté liée au mode de représentation utilisépour créer les représentations internes des transitions. Le problème se pose lorsque l'animatrencontre deux transitions identiques à deux endroits différents dans l'environnement. Dans cecas, le modèle créant la représentation topologique peut alors créer des "raccourcis" entre dessituations pourtant physiquement éloignées. Prenons l'exemple du labyrinthe présenté figure 43.

1H B G

1

A

E 0 B C1

F A

'---- --

Figure 43. Labyrinthe posséda.nt deux transitions identiques.

Il existe dans ce labyrinthe deux transitions AB. Cette situation peut être rencontrée si lesintersections sont visuellement indiscernables l'une de l'autre (comme dans l'une des expériencesque nous avons présentée au chapitre III). Dans ce cas, notre système permettant d'élaborer latopologie construit le graphe représenté figure 44.

Or, si nous considérons par exemple que le but est en G, le système de planification vademander de tourner à droite dès la premiere intersection et l'animat va se retrouver dans uncul-de-sac en C.

Il semblerait donc que dans ce cas l'information topologique élaborée uniquement à partir desvues ne soit pas suffisante. Une solution serait cl 'intégrer à la représentation une informationsur la distance séparant les différents noeuds ou sur le temps écoulé. Cette information pourraitpar exemple être utilisée au sein d'un mécanisme d'élaboration de "signature" tel que celui quenous avons envisagé au paragraphe précédent de manière à permettre de distinguer les deux

- 185 -

Page 192: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Section 6

EA----

Conclusion

BHEF

BG

Figure 44. Graphe "topologique" du labyrinthe ci-dessus.

transitions perceptuellement identiques.Ce problème rejoint en fait une carence de notre modèle qui ne peut pas expliquer les

mécanismes de recherches de raccourcis ou de détours qui ont été observés chez les animaux[Pou83, Cha88].

- 186 -

Page 193: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre V

Conclusion

Dans cette thèse, nous avons tenté d'élaborer une architecture de contrôle générique qui permet­trait de "programmer" un robot mobile autonome en décrivant directement la tâche qu'il estsensé accomplir sans spécifier explicitement le moyen de la résoudre. Nous nous sommes par­ticulièrement intéressés à développer un système permettant cl 'apprendre une tâche du type :exploration de labyrinthe. Nous nous sommes inspirés des résultats de psychologie et nousnous sommes interrogés sur la portée des deux principaux paradigmes proposés au sein de cettediscipline: le conditionnement et les cartes cognitives.

Nous avons exploité en premier (chapitre III), le paradigme du conditionnement pour évaluerla complexité comportementale maximale que les modèles "classiques" pouvaient traiter. Faceaux difficultés rencontrées par ces modèles vis à vis du traitement des problèmes de condition­nement avec récompense retardée, nous avons proposé notre propre mécanisme de condition­nement. Le principe de ce modèle repose sur l'intégration d'une règle de conditionnement proba-

. biliste dans une architecture dédiée à l'apprentissage d'associations sensori-motrices. L'intérêtde ce modèle est qu'il permet de rendre compte à la fois des mécanismes de conditionnementpavlovien et d li conditionnement instrumental, même quand le signal de renforcement est re­tardé par rapport à la réalisation de l'association sensori-motrice. Par ailleurs, il modéliseles capacités de désapprentissage et de réappprentissage. Le modèle permet aussi d'apprendreplusieurs tâches de conditionnement sans que l'apprentissage de l'une des tâches n'influe surcelui des autres. Ces deux dernières caractéristiques sont extrèmement intéressantes dans uncadre robotique puisqu'elles permettent au robot de pouvoir s'adapter au fur et à mesure auxtâches qu'il doit exécuter sans pour autant avoir à tout réapprendre à chaque fois.

Nous nous sommes cependant opposés à la vision comportementalïste selon laquelle mêmeles tâches les plus complexes peuvent être expliquées par les chaînes de conditionnement. Dansle chapitre IV, nous nous sommes intéressés, en particulier, aux mécanismes entrant en jeu dansla planification des actions. Sur la base d'expériences de psychologie, les cognitivistes suggèrentque les animaux pourraient utiliser des représentations internes de leur environnement appeléescartes cognitives pour planifier leur actions. Pourtant, certains modèles simples, basés sur leconditionnement, sembleraient réfuter ce point de vue. Mais ces modèles échouent eux aussià expliquer les comportements de navigation complexes observés chez certains animaux. Pournotre part, nous avons choisi de déplacer le débat, en considérant que le mécanisme de plani­fication devait s'appuyer nécessairement sur l'acquisition de capacités sensori-motrices. Nousavons alors proposé une architecture neuronale permettant la planification des actions cl 'un

187

Page 194: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Conclusion

agent autonome. Cette architecture est composée d'un niveau "but" (dédié à la planification)superposé à un niveau reconnaissance/action intéragissant de manière bi-directionnelle. Cemodèle s'appuie sur la reconnaissance de transitions entre lieux plutôt que sur la reconnaissancedes lieux eux-mêmes. Pendant la phase d'exploration de l'environnement, le niveau de recon­naissance permet de créer au niveau "but" une représentation sous forme de graphe des relationstopologiques entre transitions. Durant la planification, par contre, le niveau "but" permet depropager l'information liée à la motivation de l'agent de manière à biaiser la reconnaissance, afind'effectuer le mouvement permettant de se rapprocher du but. Nous suggérons que ce mécanismepourrait modéliser en partie, les relations entre l'hippocampe et le cortex pré-frontal.

L-- ~--~_-----" Motivations

Conditionnement

," ," ;" ;, ,

,.... tEnYirP!l!.1ÇQleBt j .. '

Figure 1. Les différents niveaux de traitement de l'information perceptuelle. Le niveau le plus bas (etle plus rapide) est le niveau réflexe. Le second niveau correspond au conditionnement. Enfin, le dernierniveau est le niveau de planification. Ce dernier niveau a un temps de réaction plus long.

Le mécanisme de planification que nous avons proposé a donc été élaboré à partir del'apprentissage d'associations sensori-motrices (conditionnement) qui s'appuie lui-même sur les"réflexes introduits en tant que connaissances a priori dans l'architecture globale (voir figure 1).Cette démarche s'insère dans une approche ascendante de la cognition qui considère que les com­portements complexes sont élaborés progressivement à partir de comportements plus simples.Il est à noter que plus les comportements sont complexes et adaptatifs, plus il y a de données àtraiter et donc, plus le temps de réaction est lent. Ainsi, les réactions réflexes sont très rapidesmais immuables alors que les mécanismes de planification ont un temps de réponse important.

Brooks, dont l'architecture subsumption [Br081] est basée sur l'approche ascendante, avaitidentifié une série de comportements de complexité croissante qu'il devait intégrer dans la sub­sumption. Notre travail a permis de proposer une architecture neuronale qui effectue certainesdes tâches qu'il avait listées :

1. Evitement cl 'obstacles

2. Simple déplacement sans but particulier

3. Exploration de l'environnement

- 188 -

Page 195: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre V

4. Fabrication d'une carte de l'environnement

5. Génération de .plans impliquant de modifier l'état du monde

Par contre, Brooks prévoyait aussi que ses robots intelligents seraient capables d'effectuer destâches de :

1. Repérage des changements dans un environnement "statique"

2. Identification et utilisation' d'objets "signifiant"

3. Compréhension du comportement de certains objets et modification du plan enconséquence

Pour l'instant, notre architecture n'intègre pas ces comportements complexes, mais ce sontdes pistes que nous aimerions suivre au cours de nos recherches futures.

Il est important de noter que nous avons développé cette architecture en intégrant des résultatsprovenant de sciences aussi différentes que la neurobiologie, la psychologie et les sciences pourl'ingénieur. Ainsi, nous nous sommes 'appuyés sur des expériences et des modèles provenantde la psychologie pour élaborer et justifier nos modèles informatiques. Les rapports que nousavons tissés avec les neurobiologistes sont encore plus denses. En effet, non seulement les ar­chitectures que nous développons s'inspirent des données issues de la neurobiologie mais nousnous intéressons de plus à proposer de véritables modèles neubiologiques. Nous travaillons enparticulier en collaboration avec un neurobiologiste (J.P. Banquet), avec lequel nous cherchons à"modéliser" le fonctionnement des structures biologiques que nous étudions. Cette phase dépassele simple stade de l'imitation puisqu'elle permet de valider sur des modèles informatiques lesmodèles proposés par les neurobiologistes.

Nous avons en particulier insisté sur le rôle prépondérant que jouerait l'hippocampe dansle cadre du conditionnement mais aussidans celui de la planification. L'hippocampe pourraitpermettre de construire des représentations de plus en plus complexes commandant les mouve­ments sans doute pas directement (liens vers le cortex moteur) mais plutôt par le biais du cortexpré-frontal, dont le rôle serait de planifier les actions (voir figure 2).

Puisque les mécanismes de planification permettent apparemment de résoudre la majoritédes problèmes de navigation, on peut légitimement s'interroger sur la nécessité de développerdes capacités d'apprentissage par conditionnement. Existe-t-il en effet des cas où un mécanismede conditionnement apporte un gain particulier vis à vis d'un mécanisme de planification ?

Pour formuler une première réponse à cette question, abordons le problème de la rapiditéde réaction qui, comme l'a souligné A.Berthoz [Ber97] est primordiale pour la survie d'un ani­mal. Les mécanismes de planification requièrent un temps important pour traiter les donnéesperceptuelles puis pour proposer un mouvement. Nous avons vu, en effet, qu'il était nécessaired'itérer plusieurs fois le processus de propagation du but pour assurer la stabilité du réseau deneurone et donc, la convergence de l'algorithme de planification. De plus, d'un point de vue pure­ment architectural, l'introduction du mécanisme de planification ajoute non seulement un niveausupplémentaire correspondant à l'intoduction d'un niveau "but", mais aussi l'introduction d'unniveau de catégorisation intermédiaire nécessaire pour apprendre les transitions entre situations.A l'inverse, l'architecture que nous avons proposée pour le conditionnement, ne comporte qu'une

- 189 -

Page 196: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

""li"" du robot

Angledu mouvementoaIlaire ParietalReootUIlÙISlIIIUd'un IU(lIbot DU rotation de la 110110

~--~-----r-------"--------..

Conclusion

IT e Objet Lieu Moteur

Frontal

Figure 2. L 'hippocampe pourrait permettre de construire des représentations de plus en plus complexes.

phase de catégorisation. Par ailleurs, dans le cas d'une variation brutale du signal de renforce­ment (par exemple dans le cas d'un choc), la règle PCR permet un apprentissage immédiat. Cesarguments sembleraient montrer que, lorsqu'il est nécessaire de réagir vite tout en conservantune certaine plasticité (les mécanismes réflexes sont encore plus rapides mais ils ne sont pasappris), le conditionnement est un moyen efficace de répondre immédiatement aux sollicitationsde l'environnement.

Les mécanismes de planification sont par ailleurs mis en défaut lorsque l'environnement de­vient trop incertain. Cela est par exemple le cas lorsque certains buts appris par le systèmedisparaissent ou apparaissent aléatoirement. Dans ce cas, le graphe construit par le système deplanification n'est pas assez "fiable" pour être utilisable directement. Une solution à. ce problèmepourrait être de se restreindre à. un apprentissage d'associations sensori-motrice utilisant la règlede conditionnement probabiliste. L'avantage de la règle PCR est de permettre, grâce aux ter­mes de. confiance, l'apprentissage d'une association entre un stimulus et une action, même sicette action ne conduit à une récompense qu'avec une probabilité donnée. Nous avons pu testercette capacité sur une expérience qui consistait à récompenser une série d'associations avec

.une probabilité de 80% et une autre série avec une probabilité de 20%. Après convergence, lejeu d'associations sensori-motrices obtenu correspondait à l'ensemble d'associations permettantd'obtenir la récompense avec la plus forte probabilité.

Un autre problème peut aussi survenir lorsque le système n'arrive pas à discerner correctementles situations, ce qui peut par exemple se produire dans un labyrinthe où toutes les pièces seraientsemblables. Dans ce cas, le graphe construit présenterait des liens entre des situations n'ayantpourtant pas de relations topologiques (nous avons discuté de ces effets en conclusion du chapitreIV). Là. encore, un mécanisme de conditionnement peut permettre de résoudre le problème pourpeu que les situations apparaissant plusieurs fois puissent être associées au même mouvement.On a vu, en effet, au chapitre III une simulation où l'on utilisait un pictogramme "flèche gauche"à deux intersections dans le labyrinthe. Comme la "signification" du pictogramme était le mêmepour les deux intersections (dans les deux cas, le mouvement permettant de se rapprocher du but

- 190 -

Page 197: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Chapitre V

était le mouvement "tourner à gauche"), la règle PCR permet de trouver la "bonne" association.Dans ce cas, le temps de convergence est même plus rapide puisque le système a une associationde moins à apprendre.

Cependant, ce comportement correspond à un effet de bord du mécanisme de catégorisationqui n'a pu différencier les deux "lieux". Nous avons présenté au chapitre III un modèle proposépar Gaussier et Zrehen qui permettait d'apprendre un "lieu" très simplement. L'idée serait doncde s'appuyer sur une telle représentation pour construire la carte cognitive. Cela nous amènecependant à nous questionner sur la notion de "lieu". A partir de quel niveau de reconnaissance,un lieu sera-t-il considéré comme nouveau? Vis à vis de quel critère? Nous suggérons que cettedécision pourrait dépendre de l' "utilité" de cette nouvelle représentation. Nous avons vu, enparticulier, dans le modèle de Gaussier et Zrehen que la reconnaissance d'un lieu uniquementpermettait de guider l'agent vers le but. Cependant nous pouvons nous demander ce qu'il advientlorsqu'il existe plusieurs buts de même nature ou de natures différentes, situés dans des piècesdifférentes (les "amers" ne sont pas les mêmes). Comme nous l'avons proposé dans le chapitre surla planification, nous suggérons que l'hippocampe pourrait être impliquée dans les mécanismesde détection de nouveauté. Nous avons d'ailleurs aussi suggéré que ce mécanisme pouvait êtremodulé par l'action des fibres Cholinergiques provenant du Septum. Le niveau de l'activitéde ce noyau est d'ailleurs lui-même modulé par des neuromodulateurs. Le niveau de déchargedes neurones libérant ces neuromodulateurs sembleraient dépendre du niveau "émotionnel" del'individu. En particulier, il impliquerait l'amygdale et l'hypothalamus. Il serait intéressant dedévelopper cette étude sur l'auto-régulation des mécanismes de détection de nouveauté, ce quenous nous proposons de faire dans le développement de nos travaux de recherche.

Un autre point que nous avons abordé et que nous voulons développer est la nécessité depouvoir fusionner différentes catégories formées de manière autonome par l'individu mais cor­respondant à la même activitée motrice. Nous avons vu que ce mécanisme semblait essentiel àune représentation cohérente de l'environnement. Nous suggérons que ces mécanismes pourraientne pas agir au même moment que le processus d'apprentissage et cl 'association. Ce mécanisme defusion aurait plutôt un effet de "consolidation" des représentations déjà existantes. Il est suggéréque les mécanismes du rêve pourraient avoir des effets "réparateurs" et certains proposent quele rêve permettrait de "repasser" le cours de la journée afin de réorganiser les apprentissageseffectués. Il nous semblerait intéressant de poursuivre dans cette voie de recherche bien que lefait d'envisager un robot "qui rêve" puisse, on le comprend, en faire sourire plus d'un. Je tienscependant à rappeler à ce sujet une phrase de Simon, l'un des pères de l'intelligence artificielle.

"It is Dot aim to surprise or shock you-but the simplest way 1 can summarize is tasay that there are now in the world machines that think, that learn and that create.Moreover, their ability to do these things is going ta increase rapidly until- in avisible future- the range of problems they can handle will be coextensive with therange ta which human mind has been applied." (Simon 1957).

Les échecs rencontrés par l'I.A. nous forcent bien sûr à prendre du recul vis à vis de prédictiontrop hâtives. Mais il ne me semble pas improbable que d'ici quelques années, nous soyonsentourés de robots vaquants à leurs tâches spécifiques. Comme nous le fait remarquer J .B.Billeter [BiI97], nous serons alors amenés à nous poser des questions sur la nécessité d'imposerdes règles aux machines pour favoriser leur cohabitation avec les êtres humains. Peut-être cesrègles prendront-elles la forme de lois telles que celles proposées par Isaac Asimov :

- 191 -

Page 198: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

1. Ne pas attenter à la vie d'un Homme ou par son inactivité mettreun Homme en péril

2. Obéir aux Hommes sauf si cela contredit la première loi

3. Se protéger soi-même sauf si cela contredit la première ou ladeuxième loi

- 192 -

Conclusion

Page 199: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe A

Les grilles résistives

Dans les méthodes de planification par grille résistive (aussi appelées planification Laplacienne ­[Conûûj), l'espace d'états est divisé en petits cubes à N dimensions. Le principe est de considérerque chaque cube est un noeud dans un grille résistive, connecté à ses 2N plus proches voisinspar l'intermédiaire de 2N résistances R. Toutes les résistances ont la même valeur R. Lesnoeuds situés à la périphérie n'ont pas une connectivité complète. Le processus de planificationconsiste à forcer à un potentiel positif l'un des noeuds du réseau considéré comme le but. Cenoeud agit ainsi comme une source de courant qui se propage à l'intérieur du réseau. Les noeudsreprésentant les obstacles, quant à eux, sont forcés à zéro. L'idée de la planification par grillerésistive est de suivre le flux de courant permet de rejoindre le but à partir d'un noeud donné.L'intérêt d'une telle méthode est qu'elle n'induit pas d'apparition de minima locaux.

Obstacle

Figure 1. Représentation schématique du fonctionnement d'une grille résistive. Le but est mis à unpotentiel élevé et les obstacles à un potentiel négatif. Le réseau s'auto-organise et le chemin au but estobtenu en suivant le gradient de potentiel.

Des implémentations neuronales des grilles résistives ont été réalisées. En particulier, Bug­mann [Bug95] propose une architecture où chaque noeud de la grille est représenté par un

193

Page 200: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe A Gilles résistives

neurone recevant ses entrées de ses m plus proches voisins et d'un neurone Ii provenant d'unecouche de neurones appelée "mémoire spatiale". L'entrée Ii permet de forcer la valeur de lasortie du neurone pour spécifier le but ou les obstacles. Pour le but, il suffit que Ii = 1, ce quiassure que la sortie du neurone est à 1. De manière similaire, on prendra Ii = -1 pour queles noeuds représentant les obstacles aient une activité nulle (potentiel à 0). Pour les autresneurones, Ii = 0 de manière à laisser leur potentiel varier librement en fonction du potentiel desvoisins.

La loi d'activation des neurones est la suivante:

Yi = Tf (fWij . Yj + Ii).1=1

où Yi est l'activité de sortie du neurone i, Wij = ~ (moyenne du potentiel des voisins), Ii estune entrée externe utilisée pour contraindre la valeur de Yj, et Tf (.) est la fonction de transfertdu neurone. Il est à noter que cette fonction doit obéir à deux conditions:

• Quand son entrée est à 0, sa sortie doit aussi être à 0 : x = 0 ~ T f(x) = O.

• Le gain (produit de la borne supérieure de sa dérivée par m . Wij) doit être inférieur ouégal à 0 : max; T f' (x) . m . Wij ~ 0

Si le gain est supérieur à 1, le réseau devient instable et peut finir par atteindre un étatoù tous les neurones ont un potentiel de 1, ce qui interdit toute exploitation d'un gradient depotentiel. On donne figure 2 une fonction répondant à ces spécifications.

1 -------------------.--------

o

Figure 2. Fonction de transfert possible

L'algorithme nécessite que la mise àjour du réseau soit faite plusieurs fois pour atteindre unétat d'équilibre. Le nombre minimal d'itérations nécessaires étant le nombre maximal de noeudsséparant le noeud courant du noeud but.

Cet algorithme est utilisé pour résoudre un problème de parcours de labyrinthe par unrobot simulé. Chaque noeud du réseau correspond à une position dans un labyrinthe dis­cretisé. Le robot peut effectuer tout mouvement lui permettant de se rendre dans les casesimmédiatement adjacentes. L'entrée Ii provient directement de la "mémoire spatiale" danslaquelle sont stockées des informations sur l'environnement (la position des obstacles et du but).

- 194 -

Page 201: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe A Gilles résistives

Au début de l'exploration, la position du but est donnée mais pas celle des obstacles. Le robotplanifie donc ces mouvements en considérant que le champ est libre jusqu'au but. Lorsqu'ilrencontre un obstacle, la mémoire spatiale est remise à jour ainsi que les potentiels sur la grillerésistive.. Le robot forme ainsi, petit à petit, une représentation de l'environnement qui luipermet par la suite d'affiner sa planification.

Le modèle des grilles résistives est un modèle simple permettant de planifier le parcoursd'un point à un autre. Le problème majeur est que la connectivité entre les lieux est donnéea priori sous la forme cl 'une grille. Ainsi, ce mécanisme convient bien si l'environnement est

. discretisémais pas dans le cas où les représentations des lieux sont construites petit à petit etque la connectivité doit être apprise. Le modèle de planification que nous présenterons s'inspiredu modèle des grilles résistives. Nous pallions cependant le problème de la connectivité enapprenant celle-ci au fur et à mesure de l'exploration de l'environnement.

G. Bugrnann a lui aussi proposé une implémentation dans laquelle les liens sont créés au furet à mesure en fonction de la reconnaissance de vues locales [Bug97].

- 195 -

Page 202: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe A

- 196 -

Gilles résistives

Page 203: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

.Annexe B

Les techniques de renforcement

En abordant ce paragraphe, nous quittons le domaine du conditionnement à proprement parler.Les techniques de renforcement constituent en fait toutes les méthodes qui permettent à unsystème d'apprendre à résoudre une tâche en indiquant simplement le degré de réussite à uninstant donné par le biais d'une récompense ou d'une punition (apprentissage par essai et erreur).

L'intérêt croissant porté aux techniques de renforcement par la communauté roboticienneprovient de leur aptitude à n'utiliser que des données locales simples pour résoudre les problèmesd'optimisation discrète. Le principe est d'explorer de manière exhaustive et répétée l'espace desparamètres (l'ensemble des états dans lequel le système peut se trouver) afin de renforcer petità petit les "meilleurs" chemins.

1 Forrnalisme des méthodes de renforcement

Considérons un système inter-agissant avec son milieu. On représente l'ensemble des situationsque l'agent peut rencontrer par un ensemble d'états accessibles S, liés entre eux par des relationsde proximité. Dans chaque état, le système est susceptible de réaliser un certain nombre d'actionsappartenant à l'ensemble A. Après la réalisation d'une certaine action depuis l'état sES, lesystème se retrouve dans l'état s' E S (voir figure 1). Le problème est de savoir quel actioneffectuer dans tel ou tel état. Il s'agit en fait de mettre en correspondance un état donné et uneaction à effectuer de manière à résoudre au mieux une tâche donnée.

Figure 1. Représentations de différents états et des transitions possibles entre ceux-ci.

Le signal de renforcement r est calculé lors du passage d'un état à un autre en fonction descontraintes de viabilité du robot. Si par exemple, après qu'un mouvement a été effectué, le robotse cogne dans un mur, il faudra lui donner un signal de renforcement négatif. Si, par contre,

197

Page 204: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe B Renforcement

le robot effectue la tâche attendue, il faudra le récompenser. Dans les autres cas le signal peutavoir une valeur nulle. Dans la plupart des cas, les signaux de renforcement sont pris tels quer E [-1,1].

Cboc î (CI\oç

t=O) LI t=l) vv LI t=2) LI

nLI t

t=3) t t=4) t t=5)

t=6) t=7) t=8)

Figure 2. Exemple de problème de labyrinthe. Le but du robot est d'aller chercher le marteau situédans la branche gauche du labyrinthe.

Prenons l'exemple du labyrinthe de la figure 2. On peut considérer que l'ensemble des étatsaccessibles par l'agent est l'ensemble des cases du labyrinthe. Les actions peuvent être lesmouvements haut, bas, gauche et droite. Pour le renforcement, on peut choisir r = 1 lorsque lerobot atteint le but (le robot a atteint le marteau), r = -1 lorsque le robot se cogne dans unmur (au temps t=1 ou t=2 par exemple) et r = 0 autrement (goal-reward representation); oubien on peut être plus sévère et punir le robot pour toute autre action que celle menant au but(action-penalty representation). Le choix du type de renforcement n'est pas aussi anodin qu'ilpeut le paraître. En effet, il a été montré que la solution action-penalty offrait une représentationplus dense et facilitait donc la convergence des algorithmes de renforcement [Bar91J.

On appelle politique tr(s) du système, l'application qui, à tout état s E 5, fait correspondreune action a. Le but des algorithmes de renforcement est de trouver la politique optimale, c'està dire, l'ensemble des associations état-action devant être effectuées pour maximiser un critèred'optimalité V*(s) représentant la valeur maximale du cumul des renforcements pouvant êtreobtenues à partir de cet état. Il existe plusieurs critères d'optimalité basés sur la maximisationd'une fonctionnelle des récompenses obtenues au cours du parcours.

Le critère d'optimalité à horizon fini, ne permet d'assurer l'optimalité que sur la fenêtretemporelle explorée. Si N est la largeur de cette fenêtre, le critère s'écrit:

où rk est la récompense à l'instant k, et E(.) est l'espérance mathématique. Le défaut dece critère est qu'on n'assure l'optimalité que si le temps pour parcourir le chemin le plus court

- 198 -

Page 205: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe B Renforcement

est inférieur à N. Ce paramètre agit donc comme une connaissance a priori sur le temps pourparcourir le chemin optimal. Dans un contexte entièrement autonome, ce critère peut ne passembler adéquat.

Le critère de récompense moyenne s'applique à un horizon infini. Il s'écrit:

1 NCRM = lim E(N L rk)

N----+-+oo k=O

Le problème principal de ce critère est qu'il ne fait pas de différence entre deux politiquesayant même moyenne mais dont l'une fait croître le gain brutalement et l'autre qui garde ungain quasi-constant.

Le dernier modèle est le critère infinite-horizon discounted. Il essaie de tenir en compte leproblème du modèle précédent en pondérant de manière géométrique les récompenses obtenuesau cours du temps selon un facteur 'Y E [0,1]. Analytiquement, on écrit:

CIHD('I') = E (f 'Yk·Tk)

k=O

Les techniques de renforcement nécessitent deux comportements qui peuvent sembler contra­dictoires. Tout d'abord, un mécanisme doit pouvoir permettre d'explorer l'ensemble des étatsafin d'assurer que la solution est réellement optimale (exploration). Cependant, la politiquedoit aussi converger vers une situation optimale et stable (exploitation). Plusieurs méthodespermettent cette ambivalence de comportement.

La stratégie de la gourmandise consiste à prendre toujours l'action qui apporte la meilleurerécompense. Le problème est qu'une action sous-optimale peut, dans un premier temps, apporterune meilleure récompense que l'action optimale. Et l'algorithme peut ainsi se bloquer sur cettesolution sous-optimale.

Cette stratégie peut être rapprochée de l'algorithme A* employé en lA classique pourl'exploration de graphes. Cependant, dans ce cas, cette exploration est guidée par l'utilisationd'une fonction heuristique qui constitue une représentation des connaissances a priori sur lespropriétés du graphe et le but à atteindre.

Les stratégies de recherche aléatoire prennent différentes formes: une solution consiste àeffectuer l'action apportant la meilleure récompense avec une probabilité p ou une action priseau hasard avec une probabilité 1-p. Pour faire converger l'algorithme vers une situation stable,on fait décroître p peu à peu.

Dne alternative consiste à décider l'action effectuée de manière aléatoire selon une distributionde Boltzmann dépendant de la valeur de Récompense Attendue pour chaque action a (RA(a)).

RA(a)e T

Prob(a) = ~

La'EA e T

2 Les techniques de renforcementDans ce paragraphe, nous passons en revue l'ensemble des méthodes courantes utilisées pourle renforcement. Chacune de ces méthodes tente d'approximer la valeur optimale V" (s) d'unétat par sa valeur estimée V (s). Les algorithmes de renforcement doivent permettre de faireconverger V(s) vers V*(s).

- 199 -

Page 206: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe B

2.1 Schéma de fonctionnement général.

Renforcement

Les algorithmes de renforcement fonctionnent sur le même schéma de base. Ils comportent troisétapes principales :

1. A partir de l'état s, le choix d'un mouvement a est fait en fonction de la stratégie utilisée(gourmandise, recherche aléatoire)

2. Le système se retrouve dans l'états' qui se trouve être un état récompensé (r = 1), puni(r = -1) ou neutre (r == 0).

3. En fonction du résultat obtenu on met àjour la valeur estimée V(s) de l'état et on retourneen 1.

Les différences entre les algorithmes de renforcement résident dans la vitesse de convergenceet la complexité de l'algorithme.

Le schéma 3 montre un exemple de propagation de la récompense due à une méthode derenforcement pour trois états, les uns à la suite des autres, dans une séquence cl 'actions.

Figure 3. Exemple de propagation du renforcement de proche en proche.

2.2 L'algorithme TD(À)A la suite de ses travaux de modélisation du conditionnement instrumental, Sutton a proposé unetechnique de renforcement appelée T D(À)l [Sut88]. Le principe est d'utiliser les prédictions suc­cessives effectuées au cours du temps, et non l'erreur entre la prédiction actuelle et la récompenseréellement reçue, pour régler le problème du credit assignement. Si s est un état quelconque, s'un "état déjà atteint à partir de cet état, l'algorithme de mise à jour est:

V(s) ~ V(s) +a· (r +"ï : V(s') - V(s)) . e(s)

où e(s) est l'éligibilité de l'état 5, calculée selon la formule:

Te(8) = L (À,)T-k . 8S k (8)

k=l

lTD pour Temporal Difference

- 200 -

(1)

Page 207: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe B

avec <5sk (s) la fonction indicatrice de dirac discrète telle que

{

1 si S = Sk<5sk (s) =

sinon

Renforcement

(2)

(a, À, ,) E [0,1] X [0,1] X [0,1]. Il faut bien remarquer que ce n'est pas seulement l'étatcourant qui est mis à jour, mais aussi les états possédant une certaine rémanence.

Il est intéressant de regarder le comportement de cet algorithme pour les valeurs extrêmesde À.

Dans le cas du TD(O), seul l'état précédent est utilisé et il n'y a pas de rémanence. L'équationdevient:

V(S) f- V(s) +a· (r +" V(s') - V(s)) = (1- a) . V(s) +a· (r +, .v (s'))

Cela revient à mettre à jour la fonction d'estimation de la valeur de récompense uniquementen fonction de la fonction valeur de l'état qui est actuellement l'état suivant et de la récompenser réellement perçue. Dans le cas du TD(l), cela revient à mettre à jour les états en fonction dunombre de fois qu'ils ont été visités.

Des résultats forts de convergence on été montrés pour cet algorithme. Dès la publication deson algorithme, Sutton a montré la convergence en moyenne mais uniquement pour T D(O)[Sut88]. Dayan a par la suite élargi ce résultat à tous À [Day92]. Il a aussi démontré laconvergence avec un critère plus dur en démontrant que l'algorithme T D(À) convergeait avecune probabilité 1 [Day94].

Cet algorithme est donc intéressant du point de vue théorique. Cependant, il nécessite untemps de calcul important, surtout pour un À quelconque et bien que la convergence soit plusrapide pour des valeurs de À grandes.

2.3 Le Q-Iearning

Pour expliquer la technique du Q-Iearning de Watkins [Wat89], il faut introduire un nouveauparamètre Q(s, a) qui, pour chaque état s donne la valeur estimée de la récompense totalepouvant être obtenue en effectuant a. L'algorithme consiste à actualiser les valeurs de Q(s, a)chaque fois que l'action a a été choisie, alors que le système se trouvait dans l'état s. L'équationde mise à jour est :

Q(8, a)Avec QMax(S')

f- (1 - a) . Q(s, a)+ a . (r +" QMax(S'))

Maxa'EAQ(S', a')

s' n'est autre que l'état atteint depuis s après avoir effectué l'action a.Watkins a montré que les valeurs de Q (s, a) tendaient vers les valeurs optimales Q*(s,a)

avec une probabilité de 1. Ce résultat fort ainsi que sa facilité d'implémentation ont fait quecet algorithme est devenu l'un des plus utilisés pour le renforcement bien que sa vitesse deconvergence soit modérée.

- 201 -

Page 208: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe B

2.4 L'algorithme Dyna-Q

Renforcement

Jusqu'à présent, on a vu que les mises à jour se faisaient en fonction de l'expérience effectuée,à savoir, des récompenses obtenues par expérience pour avoir utilisé telle action dans tel état.Ces expériences sont difficiles à acquérir, et c'est parce qu'il faut pouvoir en effectuer beaucouppour assurer la convergence que les méthodes de renforcement du type T D(>") ou Q-Iearningrequièrent un temps d'exploitation parfois prohibitif. L'idée de Sutton pour l'algorithme Dyna[Sut90, Sut91] est de mieux utiliser cette information difficile à acquérir. Pour cela le systèmepeut évoluer entre deux comportements; l'acquisition de nouvelles expériences (identique auQ-Iearning); l'utilisation des données déjà existantes pour essayer de propager l'informationdisponible dans certains états à d'autres états. Il est, de plus, nécessaire de mémoriser larécompense estimée R(s, a) pour effectuer l'action a dans l'état 8.

• Passage de l'état 8 à l'état s'après avoir effectué l'action a et reçu le renforcement r

• Mise à jour des valeurs Q(s,a) selon la technique de Watkins

• Choix de k valeurs de Q(8, a) au hasard dans l'ensemble des paires état-action et mise àjour comme pour Watkins en employant R(s, a) au lieu de r,

• Itération du processus jusqu'à convergence

Le Dyna-Q fait croître drastiquement la vitesse de convergence comptée en nombre d'essais.Par contre, elle demande évidemment k fois plus de temps de calcul pour chaque expérience.

- 202 -

Page 209: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe C

Conditions de convergence del'algortihme PCR

Démonstration de la convergence de la suite 1Wij (t - 1) - Pij (t - 1) 1

Cas 1 : Plaçons .nous dans le cas où 8J: < o.

Cas 1.1 : Wij =0 .D'après la règle de modification des probabilités, on a :

Soit t+ l'instant juste après le tirage aléatoire.

. . . { p' ·(t+)Si Alea> Pij alors ~J

Wij(t+)

= 1 - Pij(t)

1- Wij(t)

- 1 - (Pij(t - 1) + ~Pij)

- 1(1)

On a alors:

IWij(t+) - Pij(t+) 1 :::: 11- 1- (Pij(t - 1) + ~Pij)1

:::: IPij (t - 1)+ ~Pijl

:::: IWij(t - 1) - Pij(t - 1)1 + ~Pij car Wij(t - 1) = 0

;?: IWij (t - 1) - Pij (t - 1) 1 car ~Pij > 0

(2)

(3)= Pij (t - 1)+D..Pij

oSi Alea < Pij alors { Pij (t+)

Wij(t+) =

Donc:

203

Page 210: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe C Condition de convergence de PCR

(4)

IWij(t+) - Pij(t+) 1 Ipij(t - 1) + ~Pijl

Pij(t - 1)+~Pij

IWij(t - 1) - Pij(t - 1)1 + ~Pij car Wij(t - 1) = 0

~ 1Wij (t - 1) - Pij (t - 1)1 car ~Pij > 0

Donc, on montre que 'tAIea, si ~~ < 0 et Wij = 0, la suite IWij(n) - pij{n)1 est croissante.Cas 1.2 : Wij = 1 ap

~Pij = œ - at . Cij· (2 - 1) < 0

D'une manière analogue au cas 1.1, on montre que, VAlea, si 8J:< 0 et Wij ::= 1, la suite1Wij (n) - Pij (n) 1 est croissante.

Cas 2 : cas où 8J: > o.

Cas 2.1 : Wij = 0

{

P" (t+)Si Alea> Pij alors. 1.)

Wij(t+)

On a alors:

1 - Pij (t - 1) - LiPij

1(5)

IWij(t+) - Pij(t+) 1 Il - Il - Pij(t - 1) - ~pijll

Pij (t - 1)+ ~Pij

IWij(t - 1) - Pij(t - 1)1 + ~Pij car Wij(t - 1) ::= 0

< IWij(t - 1) - Pij(t - 1)1 car ~Pij < 0

{

Pij (t+) == Pij(t - 1)+ ~PijSi Alea < Pij alors

Wij(t+) == 0

On a alors:

IWij(t+) - Pij(t+) 1 Ipij(t - 1) +Li.pijl

Pij(t - 1)+~Pij

- IWij(t - 1) - Pij(t - 1)1 + ~Pij car Wij(t - 1) ::= 0

S IWij(t - 1) - Pij(t - 1)1 car ~Pij < 0

(6)

(7)

(8)

Donc, on montre que VAlea, si 8J: > 0 et Wij = 0, la suite IWij(n) - pij(n)1 est décroissante.Cas 2.2 : Wij == 1Selon une démarche analogue à celle du cas 2.2, on montre que 'VAlea, si 8J: > 0 et Wij = 1,

la suite IWij(n) - pij(n)1 est décroissante.

- 204 -

Page 211: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe C

Pour résumer, on a montré que :

Condition de convergence de PCR

{

Si le renforcement est négatif IWij(n) - Pij(n)l(nEN) est croissante (9)

Si le renforcement est positif IWij(n) - Pij(n)\(nEN) est décroissante

Du point de vue du problème d'association, le système reçoit un renforcement négatif lorsqueles associations proposées ne sont pas correctes. En effet, dans ce cas, l'utilisation de l'hypothèseeffectuée sur les. poids conduit à une erreur (dans le cas du labyrinthe, cela correspond à se

.retrouver dans un cul-de-sac ou à tourner en rond dans une boucle). De la même manière, unrenforcement positif est reçu lorsque toutes les associations sont correctes.

L'équation 9 prouve que dans le cas de renforcement négatif et si Wij = 1, Pij --+ O. A terme,la valeur du poids passe donc à 0 après le tirage aléatoire. Par ailleurs, si Wij = 0, Pij --+ 1.Ceci montre que si les associations sont incorrectes, l'algorithme les supprime. Dans le cas durenforcement positif, si Wij = 1 , Pij --+ 1, et si Wij = 0, Pij --+ O. A l'inverse de la remarquefaite précédemment, l'algorithme tend maintenant à renforcer la probabilité sur les associationseffectuées.

- 205 -

Page 212: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe C

- 206 -

Condition de convergence de PCR

Page 213: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe D

Contexte

1 Développement et simulation de réseaux de neu­rones

Le but de ce paragraphe est de présenter les outils qui servent de support aux modèles etarchitectures développés dans cette discussion.

1.1 LETO

"LETO" , est un éditeur de réseaux de neurones. Il permet de créer des architectures neuronalesen reliant entre eux, différents groupes de neurones appartenant à des "types" spécifiques (telsque"Kohonen", "WTA" ,... ) régis par certaines lois d'activation et d'apprentissage propres. Enparticulier, les groupes de neurones peuvent représenter une fonction algorithmique qui sera ap­pelée lors de l'activation de ce groupe. C'est grâce à ce mécanisme que l'utilisateur externe peutrajouter de manière modulaire différents types de traitements et créer de nouveaux modèles.Par ailleurs, Leto permet de décrire l'architecture du réseau de neurone en spécifiant les liensentre groupes de neurones. Ce travail conditionne le séquencement de l'activation des groupesde neurones. En particulier, on peut créer un réseau avec des groupes devant être gérés en"parallèle". La mise à jour des groupes est déclenchée par un mécanisme de jeton circulant. Parailleurs, les liens spécifient la connectivité de groupe à groupe en fonction de types de connexiongénériques. Ces types représentent les connexions individuelles de chacun des neurones. Ainsi,un lien de "1 vers 1" entre 2 groupes de neurones de taille identique reliés entre eux, signifie quechacun des neurones du groupe d'entrée est relié avec le neurone correspondant du groupe desortie. Les autres types existants sont des liens: de "1 vers tous", "1 vers un voisinage" ... Enplus de la possibilité de gérer le séquencement de différents groupes en parallèle, LETO donnela possibilité de créer des échelles de temps imbriquées auxquelles appartiennent les différentsgroupes de neurones. Ainsi, on peut faire itérer plusieurs fois un sous-groupe de neurones appar­tenant à une échelle donnée, de manière à rendre compte de différences de dynamiques au seind'un même réseau de neurones (sous partie dont on doit simuler le fonctionnement avec un pasplus petit). Cela permet de traduire la possibilité d'avoir des dynamiques temporelles différentes(pas nécessaire de regarder quel mouvement effectuer avant d'avoir fini d'analyser une image).Par ailleurs, ces différentes échelles de temps déterminent aussi quand a lieu l'apprentissage d'un

207

Page 214: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe D LETO et PROMETHE

groupe de neurones.La figure ci-dessous est une saisie d'écran montrant la façon dont LETO permet de créer les

groupe~ de neurones.

Figure 1. Saisie d'écran montrant la description d'un réseau par LETO

Lorsque le réseau est défini, LETû crée deux types de fichiers: un fichier script facilementcompréhensible et modifiable par l'intermédiaire d'un éditeur de texte qui correspond à la de­scription de la structure du réseau et un fichier binaire qui contient la description neurone parneurone et lien par lien et qui sera utilisé directement par le simulateur PROMETHE.

1.1.1 PROMETHE

Le logiciel PROMETHE permet de simuler les réseaux créés à partir de LETO. C'est ce pro­gramme qui gère le séquencement de l'activation des groupes et, en particulier, l'appel desfonctions algorithmiques créées par l'utilisateur. Il permet aussi de représenter visuellement,pendant la simulation, l'activation des neurones d'un groupe. Par ailleurs, hors simulation, ilpermet une vérification visuelle des connexions entre les neurones individuels de chaque groupeainsi que lavaleur des poids de ces connexions.

La figure ci-dessous représente une saisie d'écran montrant la représentation des neuronesdans promethé et, en particulier, l'affichage des liens d'un neurone donné. Par ailleurs, unefenêtre externe montre aussi le contenu de ces poids.

2 Vers la définition d'un Macro-neurone

La notion de macro-neurone a été introduite pour pouvoir permettre à un neurone donné deprendre ses entrées sur des voies d'entrées correspondant à des modalités différentes et possédantdonc des modes de calculs, ou de normalisation différents.

En fait, on considère que le corps du macro-neurone est relié à deux ou plusieurs, micro­neurones correspondant à chacune des modalités d'entrée (voir figure 3).

- 208 -

Page 215: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe D LETü et PROMETHE

Figure 2. a) Fenêtre principale de promethé : affichage des neurones et des liens d'un neurone donné.b) fenêtre secondaire : affichage du contenu des liens.

macro-neurone

---0micro-neurone

Figure 3. Représentation schématique du fonctionnement d'un macro-neurone

L'activité de chacun des micro-neurones est alors calculée selon la modalité appropriée.L'activité du macro-neurone, quant à elle, est calculée à partir des micro-neurones en fonctionde la valeur des liens entre les micro-neurones et le corps du macro-neurone.

Les liens entre micro et macro neurones sont des liens inconditionnels, dont le poids est ];;.Où N est le nombre de micro-neurones.

2.1 Mode de calcul du macro-neurone

Dans les applications auxquelles nous avons à faire face, l'entrée principale d'un macro-neuroneest:

• Une entrée de type distance

• Une entrée de type Max

Les autres entrées permettent principalement d'apporter des informations supplémentairesdonnant la possibilité de forcer l'activité de tel ou tel macro-neurone (lien inconditionnel). Par

- 209 -

Page 216: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Annexe D LETO et PROMETHE

ailleurs, aucune application n'a donné lieu à la combinaison de plusieurs entrées distance ouproduit.

I.x

--0

I.x

Figure 4. Calculs effectués par les neurones élémentaires constituant le macro-neurone.

Le calcul à effectuer par le macro-neurone est modélisé figure 4. Il peut être réalisé en effec­tuant le calcul approprié sur le neurone distance ou max, puis en calculant les autres neuronesselon le mode classique s, = I: Ei· W ij -.

2.2 Les sorties du macro-neurones

Le macro-neurone possède trois niveaux de sortie: s, s.l et s2. Ces niveaux sont des champsdirectement disponibles dans ·la structure neurone. On y accède donc de la manière suivante:

neurone[numero].s , neurone[numero].s1 et neurone[numero].s2

Comme dans le cas courant, un macro-neurone est associé soit à une carte PTM soit à unWTA, les niveaux s, s l et s2 sont définis comme suit:

• s : correspond à l'activité analogique du neurone.

• sl : correspond à l'activité du neurone après compétition (puis diffusion et multiplicationpar la valeur analogique pour le cas de PTM).

• s2 : correspond à l'activité du neurone après compétition (puis diffusion pour PTM).

- 210 -

Page 217: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

Bibliographie

[Ale91] F. Alexandre, F. Guyot, J .P. Haton, and Y. Burnod. The cortical column :a newprocessing unit for multilayered networks. Neural Networks, 4:15-25, 1991.

[Ama93] D.G. Amara.l. Emerging principles of intrinsic hippocampal organization. CurrentOpinion in Neurobiology, 3:225-229, 1993.

[Arb77] M.A. Arbib and I. Lieblich. Systems Neuroscience, chapter Motivational Learning ofSpatial Behavior, pages 221-239. Academie Press, 1977.

[Aro51] L.R. Aronson. Orientation and jumping behavior in the gobiid fish, bathygobiissoporator. American Museum Novitates, 1486:1-22, 1951.

[Bac94a] Ivan A. Bachelder and Allen M. Waxman. Mobile robot visual mapping and local­ization: A view-based neurocomputational architecture that emulates hippocampalplace learning. Neural Networks, 7(6/7):1083-1099, 1994.

[Bac94b] B. Bachimont. Le contrôle dans les systèmes à base de connaissances - Langage ­Raisonnement - Calcul. Hermes, 1994.

[Bac95] I.A. Bachelder and A.M. Waxman. A view-based neurocomputational system for rela­tional map-making and navigation in visual environments. Robotics and AutonomousSystem, 16(2-4), December 1995.

[HaI91] A.A. Baloch and A.M. Waxman. Visuallearning, adaptive expectations and behav­ioral conditionning of the mobile robot mavin. Neural Networks, 4:271-302, 1991.

[Ban97] J.P. Banquet, P. Gaussier, J.C. Dreger, C. Joulain, A. Revel, and W. Grunther.Cognitive science perspectives on personality and emotion, chapter Space-time, orderand hierarchy in fronto-hippocampal system: A neural basis of personality. ElsevierScience, Amsterdam, 1997.

[Bang8] J.P. Banquet, J.L. Contreras-Vidal, P. Gaussier, and Y. Burnod. Fundamentals ofneural network modelling for neuropsychologists, chapter The cortical-hippocampalsystem as a multirange temporal processor: A neural model. MIT Press, Boston,1998.

[Bar81a] A.G. Barto and R.S. Sutton. Landmark learning : an illustration of associative search.Biological cybemetics, 42:1-8, 1981.

211

Page 218: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Bar81b] A.G. Barto, R.S. Sutton, and D.S. Brouwer. Associative search network: A rein­forcement learning associative memory. Biological cybernetics, 40:201-211, 1981.

[Bar83]

[Bar91]

[BeI58]

[BeI85]

[BerSD]

[Ber83]

[Ber86]

[Ber97]

[Bil97]

[Bis94]

[B.K66]

[Bra84]

[Bro81]

[Bro90]

A.G. Barto, R.S. Sutton, and C.W. Anderson. Neuronlike adaptive elements that cansolve difficult control problems. IEEE transactions on system, man and cybernetics,SMC-13(5):834-846, Sep/Oct 1983.

A.G. Barto, S.J. Bradtke, and S.P. Singh. Real-time learning and control using asyn­chronous dynamic programming. Technical Report 91-57, Department of ComputerScience, University of Massachusetts, Amherst, 1991.

R.E. Hellman. On a routing problem. Quarterly of Applied Mathematics, (16):87-90,1958.

W.P. Bellingham, K. Gillette-Bellingham, and E.J. Kehoe. Summation and configura­tion in patterning schedules with the rat and rabbit, Animal Learning and Behavior,pages 152-164, 1985.

T.W. Berger, G.W. Swanson, T.A. Milner, G.S. Lynch, and R.F. Thompson. Re­ciprocal anatomical connections between hippocampus and subiculum in the rabbit:Evidence for subicular innervation of regio superio. Brain Research, (183):265-276,1980.

T.W. Berger, P.C. Rinaldi, D.J. Weisz, and R.F. Thompson. Singie-unit analysisof different hippocampal cell types during classical conditioning of rabbit nictitatingmembrane reponse. Journal of neuronphysiology, 50:1197-1219, 1983.

T.W. Berger, C.L. Weikart, J.L. Bassett, and E.B. Orr. Lesions of the retrospinalcortex produce deficits in reversaI learning of the rabbit nictitating membrane re­sponse: Implications for potential interactions between hippocampal and cerebellarbrain systems. Behavioural Neuroscience, (100):802-809, 1986.

A. Berthoz. Le sens du mouvement. Odile Jacob, Paris, 1997.

J.B. Billeter. Regardez ce qu'il arrive aux mouchards et aux bisons! In SociallyIntelligent Agents, USA, 1997. AAAI FaU Symposium.

M. Bishay, R.A. Peters II, and K. Kawamura. Object detection in indoor scenesusing log-polar mapping. In International Conference on Robotics et Automation,pages 775-780, San Diego, 1994. IEEE.

B.Katz. Nerve,muscle and synapse. McGraw Hill Co., New York, 1966.

V. Braittenberg. Vehicles: Experiments in Synthetic Psychology. Bradford Books,Cambridge, 1984.

R.A. Brooks. A robust layered control system for a mobile robot. IEEE Journal ofRobotics and Automation, 40:201-211, 1981.

T.H. Brown, E.W. Kairiss, and C.L. Keenan. Hebbian synapses-biophysical mecha­nisms and algorithms. Annual Review of Neuroscience, (13):475-511, 1990.

- 212 -

Page 219: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Bug95] G. Bugmann, J.G. Taylor, and M.J. Denham. Neural Networks, chapter Route findingby neural nets, pages 217-230. Alfred Waller Ltd., Henley-on- Thames, 1995.

[Bug97] G. Bugmann. Basic Concepts in Neural Networks: A survey, chapter Chap 5: AConriectionistApproach to Spatial Memory and Planning. Perspectives in NeuralNetworks .. Springer, 1997.

[BuI94] D. Bullock..J .C·. Fiala, and S. Grossberg. A neural model of timed response learningin the cerebellum. Neural Netuiorks, 7(6/7):1101-1114,1994.

[Bur89] Y. Burnod. An adaptive neural network: the cerebral cortex. Masson, 1989.

[Car83] B.A. Cartwright and T.S. Collette Landmark learning in bees. Journal Comp. Phys­iology, 151:521-543, 1983.

[Car87] G.A. Carpenter and S. Grossberg. Invariant pattern recognition and recall by anattentive self-organizing art architecture in a nonstationary world. Proceeding ofNeural Netuiork, 2:737-745, 1987.

[Car91a] G.A.· Carpenter, S. Grossberg, and D.B. Rosen. Art2-a: an adaptive resonancealgorithm for rapid category leaning and recognition. Neural Networks, 4:493-504,1991.

[Car91b] Gail A. Carpenter, Stephen Grossberg, and John Reynolds. ARTMAP: A self­organizing neural network architecture for fast supervised learning and pattern recog­nition. InProc. Int. Joint Conf. on Neural Networks, Vol. 1, pages 863-868, Seattle,1991.

(Car92] Gail A. Carpenter, Stephen Grossberg, Natalya Markuzon, John H. Reynolds, andDavid B. Rosen. Fuzzy ARTMAP: A neural network architecture for incrementalsupervised learning of analog multidimensional maps. IEEE Trans. Neural Networks,3(5):698-712, September 1992.

[Cha88] N. Chapuis. Les opérations structurantes dans la connaissance de l'espace chez lesmammifères: détours, raccourci et retour. PhD thesis, Aix-Marseille II, 1988.

(Cha95] R~ Chatila.Deliberation and reactivity in autonomous mobile robots. Robotics andAutonomous System, 16(2-4):197-211, December 1995.

[Con90] C.I. Connolly, J .B. Burns, and R. Weiss. Path planning using laplace's equation. InInternational Conference on Robotics and A utomation, pages 2102-2106, 1990.

[Day92] P. Dayan. The convergence of td(À) for general À. Machine Learning, 8(3):341-362,1992.

[Day94] P. Dayan and T.J. Sejnowski. td(À) converges with probability 1. Machine Learning,14:295-301, 1994.

[Den91] D.C. Dennett. Consciousness Explained. Brown, Boston, Massachusetts, 1991.

- 213 -

Page 220: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Den96] M.J. Denham and J. Boitano. A model of the interaction between prefrontal cortex,septum and the hippocampal system in the learning and recal of goal-directed sensory­motor behaviours. Technical ReportNRG-96-01, University of Plymouth - School ofcomputing, 1996.

[Dud88] Y. Dudai. Neurogenic dissection of learning and short term memory in drosohilia.Annual review of Neuroscience, Il:537-563, 1988.

[Dye91) F.C. Dyer. Bees acquire route-based memories but not cognitive maps in familiarlandscape. Animal Behaviour, (41):239-246, 1991.

[Eas84] P. Easton and P.E. Gordon. Stabilization of hebbian neural nets by inhibitory learn­ing. Biological Cybernetics, 29:127-136, 1984.

[Ede87] G. Edelman. Neural Darwinism: The Theory of Neuronal Group Selection. BasicBooks, New York, 1987.

[Flo94] Dario Floreano and Francesco Mondada. Active perception, navigation, homing andgrasping : An autonomous perspective. In P. Gaussier and J .D. Nicoud, editors, FromPerception to Action. IEEE, IEEE Computer Society Press, 1994.

[Fre68] P.W. Frey and L.E. Ross. Classical conditioning of the rabbit eyelid response as afunction of interstimulus interval. Journal of Comparative and Physiological Psychol­ogy, (65) :246-250, 1968.

[Fus89] J.M. Fuster. The Prefrontal Cortex. Raven,New York, 1989.

[Gab46] D. Gabor. Theory of communication. Journal of the Institution of Electrical Engi­neers, 93(III) :429-457, 1946.

[GaI80] C.R. Gallistel. The organization of action: a new synthesis. Erlbaum, Hillsdale, NewJersey, 1980.

[GaI93] C.R. Gal1iste1. The organization of learning. MIT Press, 1993.

[Gau92a] P. Gaussier. Simulation d'un système visuel comprenant plusieurs aires corticales:Application à l'analyse de scènes. PhD thesis, Université d'Orsay, 1992.

[Gau92b] P. Gaussier and J .P. Cocquerez. Neural networks for complex scene recognitionsimulation of a visual system with several cortical areas. In IJCNN Baltimore, pages233-259, 1992.

[Gau92c] P. Gaussier and J .P. Cocquerez. Simulation d'un système visuelle comprenantplusieurs aires corticales: application à la reconnaissance de scènes cornplexes. Traite­ment du Signal, 8(6):441-466, 1992.

[Gau94a] P. Gaussier and S. Zrehen. Artificiallife and Virtual reality, chapter A contstructivistapproach for autonomous agents. John Wiley and Sons, 1994.

- 214 -

Page 221: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Gau94b] P. Gaussier and S. Zrehen. Complex architectures for autonomous agents. InP. Gaussier and J.D. Nicoud, editors, PerAc, pages 278-290, Lausanne, 1994. IEEEPress.

[Gau94c] P. Gaussier and S. Zrehen. Navigating with an animal brain : a neural network forland mark identification and navigation. In Proceedings of Intelligent Vehicles, pages399~404, Paris, 1994.

[Gau94d] P. Gaussier and S. Zrehen. The probabilistic topological map (ptm) : A self­organazing and fast learning neural map that preserves topology. Accepted by NeuralNetworks, 1994.

[Gau94e] P. Gaussier and S. Zrehen. A topological map for on-line learning : Emergence ofobstacle avoidance. In From Animais to Animats: SAB'94, pages 282-290, Brighton,1994. MIT Press.

[Gau95] P. Gaussier and S. Zrehen. Perac: A neural architecture to control artificial animals.Robotics and Autonomous Systems, 16(2-4):291-320,1995.

[Gau96] P. Gaussier, C. Joulain, A. Revel, and J .P. Banquet. Are shaping techniques thecorrect answer for the control of an autonomous robot? In UKA CC InternationalConference on Control'96, University of Exeter, September 1996. IEE.

[Gau97a] P. Gaussier, C. Joulain, S. Moga, M. Quoy, and A. Revel. Autonomous robot learning:What can we take for free? In To appear in International Symposium on IndustrialElectronics - ISIE'97, Gumarâes, Portugal, July 1997. IEEE.

[Gau97b] P. Gaussier, C. Joulain, S. Zrehen, J.P. Banquet, and A. Revel. Visual navigationin an open environement without map. In To appear in International Conferenceon Intelligent Robots and Systems - IROS'97, Grenoble, France, September 1997.IEEE/RSJ.

[Gou62]

[Gou86]

[Gro73]

[Gro76]

[Gro85]

P.B. Gough. Sorne tests of hullian analysis of reasoning in the rat. In PsychonomicScience Convention, St. Louis, 1962.

J .L. Gould. The biology of learning. Annual Review of Psychology, 37:163-192, 1986.

s. Grossberg. Contour enhancement, short term memory, and constanciesin reverber­ating neural networks. Studies in Applied Mathematics, L11:213-257, 1973.

S. Grossberg. Adaptive pattern classification and universal recoding, ii : Feedback,expectation, olfaction, and illusions. Biological Cybernetics, 23:187-202, 1976.

S. Grossberg and E. Mingolla. Neural dynamics of form perception: Boundary com­pletion, illusory figures and neon color spreading. Psych.Rev., 92(2):173-211, 1985.

[Gro88] s. Grossberg. Nonlinear neural networks: principles, mechanisms, and architectures.Neural Networks, 1:17-61, 1988.

[Gro91a] D. Grose and J.G. Taylor. A continuous input ram-based stochastic neural model.Neural Networks, 4:657-665, 1991.

- 215 -

Page 222: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Gro91b] S. Grossberg and D. Somers. Synchronized oscillations during cooperative featurelinking in a cortical model of visual perception. Neural Networks, 4:453-466, 1991.

[Gro96]

[Gut35]

[Har90]

[Has92]

[Has94]

[Has95]

[Hay90]

[Heb49]

[Hil39]

[Hub77]

IHu152]

[JeI81]

[J.Ü78]

[Kaa67]

[Kae93]

S. Grossberg and J.W.L. Merrill. The hippocampus and cerebellum in adaptivelytimed learning, recognition, andmovement. Journal of Cognitive Neuroscienee, 8:257-,277, 1996.

E.R. Guthrie. The psychology of learning. Harper" and Row, New York, 1935.

S.Harnad. The symbol grounding problem. Physica D, 42:335-346, 1990.

M.E. Hasselmo and J.M. Bower. Cholinergie suppression specifie to intrinsic notafferent fiber synapses in rat piriform (olfactory) cortex. Journal of Neurophysiology,67(5):1222-1229, 1992.

M.E. Hasselmo. Runaway synpatic modification in models of cortex: Implications foralzheimer's disease. Neural Networks, 7(1):13-40, 1994.

M.E. Hasselmo. A network model of hippocampus combining self-organization andassociative memory function. In World Congress on Neural Networks (WCNN'95),Washington De, July 1995.

P.J. Hayes. Readings in Planning, chapter The frame problem and related problemsin artificial intelligence, pages 588-595. Morgan Kaufmann, 1990.

D.O. Hebb. The Organization of Behavior. Wiley, New York, 1949.

J.H. Hill. Goal gradient, anticipation, and perseveration in compound trial-and-errorlearning. Journal of Experimental Psychology, 25:566-585, 1939.

D.H. Hubel and T.N. Wiesel. Ferrier lecture: Functional architecture of macaquemonkey visual cortex. Proc. Roy. Soc. Lond. B. Biol. Sei., (198):1-59,1977.

C.L. Hull. A behavior system: An introduction to behavior theory concerning theindividualorganism. Yale University Press, New Haven, 1952.

J .A. Jellies. Associative olfactory conditioning in Drosophilia melanogaster and mem­ory retention through metamormophis. PhD thesis, State University, Normal, Illinois,1981.

J.O'Keefe and N. Nadel. The hippocampus as a cognitive map. Clarendon Press,Oxford, 1978.

B. Kaada. Agression and defense, chapter Brain mechanisms related to aggressivebehavior. C.D. Clemente and D.B. Lindsley, Berkeley: University of California, 1967.

L.P. Kaelbling. Hierarchical learning in stochastic domains: Preliminary results. InTenth International Conference on Machine Learning, Amherst,MA, 1993. MorganKaufman.

- 216 -

Page 223: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Kaear] L. Pack Kaelbling, M.L. Littman, and A.W. Moore. Reinforcement learning: A survey.Journal of Artificial Intelligence Research; to appear,

[Kan86] E.R. Kandel, S~ Schacher, V.F. Castellucci, and. P." Goelet. The long and short memoryin aplysia: a molecular perspective. In Fidia ResearchFoundation neuroscience awardlecture, Padova, Italy, 1986. Liviana Press. "

[Kap90] B.S. Kapp, A. Wilson, J .P. Pascoe, W. Supple, and P.J. Whalen. Learning and compu­tational neuroscience: foundations of adaptive networks, chapter A NeuroanatomicalSystems Analysisof Conditioned Bradycardia, pages 53-90. M. Gabriel and J. Moore,1990.

[Knu79] E. Knudsen and M. Konishi. Mechanisms of sound localization in the barn owl (tytoalba). Journal of Compartive Physiology, (133):13-21, 1979.

[Kod95] J. Kodjabachian and J .A. Meyer. Evolution and development of control architecturesin animats. Robotics and Aut~nomous System, 16(2-4):161-182, December 1995.

[Koh84] T. Kohonen. Self-Organization and Associative Memory. Springer-Verlag, New York,1984.

[Koh89] T. Kohonen. Selj-Orqanization and associative memory. Heidelberg: Springer-Verlag,Berlin, 3rd edition, 1989.

[Koh93] T. Kohonen. Physiological interpretation of the self-organizing map algorithm. NeuralNetworks, 6:895-905, 1993.

[Kon48] J. Konorski. Conditioned reflexes and neuron organisation. The university press,Cambridge, England, 1948.

(Kre32] I. Krechevsky. The genesis of "hypotheses" in rats. Univ. Calif. Publ. Psychol.,6(4):46,1932.

[Kre78a] J .E. Krettek and J .L. Priee. Amygdaloid projections to subcortical structures withinthe basal forebrain and brainstem in the rat and cat. J. Comp. Neurol., 178:225-253,1978.

[Kre78b] J.E. Krettek and J.L. Priee. A description of the amygdaloid complex in the rat andcat with observations on intra-amygdaloid axonal connections. J. Comp. Neurol.,178:255-280,1978.

[Lak87] G. Lakoff. Women, Fire and Dangerous Things. The University of Chicago, Chicago,1987.

[LeD90] J .E. LeDoux. Learning and computational neuroscience: foundations of adaptivenetworks, chapter Information Flow from Sensation ta Emotion: Plasticity in theNeural Computation of Stimulus Value, pages 3-52. M. Gabriel and J. Moore, 1990.

[Led94] J. Ledoux. Emotions, mémoire et cerveaux. Pour la science, (202), Août 1994.

- 217 -

Page 224: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Lev59] .M. Levine. A model of hypothesis behavior in discrimination learning set. Psycho­logical Review, 66(6):353-366, 1959.

[Lev71]" M. Levine. Hypothesis theory and nonlearning despite ideai s-r-reinforcement contin­gencies. Psychological Review, 78(2):130-140,1971.

[Lin93] Long-Ji Lin. Hierarchical learning of robot skills by reinforcement. In InternationalConference on Neural Networks, 1993.

[Lip87] R. Lippman. An introduction to computing with neural nets. IEEE ASSP Magazine,pages 4-22, 1987.

[IN92] Jean-Francois le Ny, Le conditionnement et l'apprentissage. Le psychologue. PUF,. septième edition, March 1992.

[Lor75] K. Lorenz. L'envers du miroir. Flammarion, 1975.

[Mah91] S. Mahadevan and J. Connell. Automatic programming of behavior -based robotsusing reinforcement learning. In Ninth National Conference on Artificial Intelligence,Menio Park, CA, 1991.

[Mar82] R.W. Marlowand K. Tollestrup. Mining and exploitation of natural deposits by thedesert tortoise, gopherus agassizi. Animal Behavior, 30:475-478, 1982.

[McC86] J.L. McClelland, D.E. Rumelhart, and G.E. Hinton. PDP, chapter The Appeal ofParallel Distributed Processing. MIT Press, Cambridge, 1986.

[McF94] David McFariand. Animal robotics - from self-sufficiency to autonomy. In P. Gaussierand J .D. Nicoud, editors, From Perception to Action, Lausanne, Switzerland, Septem­ber 1994. IEEE, IEEE Computer Society Press.

(Men93] M. Meng and A.C. Kak. Mobile robot navigation using neural networks and non­metricai environment models. IEEE Control Systems, pages 30-39, October 1993.

[Mey91] J.A. Meyer and S.W. Wilson. From animaIs to animats. In MIT Press, editor, FirstInternational Conference on Simulation of Adaptive Behavior. Bardford Books, 1991.

[Mil59] N.E. Miller. Psychology: A Study of a Science. II, chapter Extension of liberalizedS-R theory. McGraw-Hill, New York, 1959.

[Mil68] B. Milner,S. Corkin, and H.L. Teuber. Further analysis of the hippocampal amnesiasyndrome: 14-year follow-up study of h.m. Neuropsychologia, (6):215-234, 1968.

[Mil88] R. Miles. Plasticity of recurrent excitatory synapses between ca3 hippocampal pyra­midal cells. Soc for Neurosci Abstr, pages 14-19, 1988.

[Mis83] M. Mishkin, L.G. Ungerleider, and K.A. Macko. Object vision and spatial: Twocortical pathways. Trends in Neuroscience, 6(10):414-417, 1983.

[Mon95] F. Mondada and D. Floreano, Evolution of neural control structures: sorne experi­ments on mobile robots. Robotics and Autonomous System, 16(2-4):183-195, Decem­ber 1995.

- 218 -

Page 225: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Mor81] R.G. Morris. Spatiallocalization does not require the presence of local eues. Learningand motivation, (12):239-260, 1981.

[Neu67] G. Neuweiler and F.P. Môhres, Die rolle des ortgedâchtinesses bei der orientierungdes grossblatt-fledermaus megaderma lyra. Zeitschrift !'Ür verglienchende Physiologie,(57):147-171,1967.

[Nio94] C. Nioche, J .P. Tassin, and D. Beroule. Vers une modélisation fonctionnelle de laneuromodulation par réseaux à propagation guidée. In NBI, 1994.

[O'K91] J. O'Keefe. Brain and Space, ehapter The hippocampal cognitive map and naviga­tional strategies, pages 273-295. Oxford University Press, Oxford, 1991.

[Pap37] J.W. Papez, A proposed mechanism of emotion. Archives of Neurology and Psychia­try, 1937.

[Pav27] I.P. Pavlov. Conditioned Reflexes. Oxford University Press, 1927.

[Pfe95] R. Pfeifer and C. Scheier. The "frame-of-reference" problem in intelligent systemsdesign. In R. Pfeifer, editor, Practice and Future of Autonomous Agents, pages 3-23,Monte Verita, Ticino, Switzerland, 1995.

[Pia36] J. Piaget. La naissance de l'intelligence chez l'enfant. Delachaux et Niestle Editions,Geneve, 1936.

[Poh73] W. Pohl. Dissociation of spatial discrimination deficits following frontal and parietallesions in monkeys. Journal of Comparative Physiological Psychology, (82):227-239,1973.

[Por86] R.L. Port, A.G. Romano, and M.M. Patterson. Stimulus duration discriminationin the rabbit: Effects of hippocampectomy on discrimination and reversaI learning.Physiological Psychology, (14):100-129,1986.

[Pou83] B. Poucet, C. Thinus-Blane, and N. Chapuis. Route-planning in cats, in relation tothe visibility of the goal. Animal Behaviour, 31:594-599, 1983.

[Pri81] J .L. Priee and D.G. Amaral, An autoradiographie study of the projections of thecentral nucleus of the monkey amygdala. J. Neurosci., 1:1242-1259, 1981.

[Ree90] G.N. Reeke, O. Sporns, and G.M. Edelman. Synthetic neural modeling: the "dar­win" series of recognition automata, Proceeding of the IEEE: special issue on NeuralNetworks t, 78(9):1498-1530, September 1990.

[Res72] R.A. Reseorla and A.R. Wagner. Classical Conditioning II : Current Research andTheory, chapter A theory of Pavlovian conditioning : Variations in the effectivenessof reinforcement and nonreinforcement. Appleton-Century-Crofts, New York, 1972.

[Rob82] G.W. Roberts, P.L. Woodhams, J.M. Polak, and T.J. Crow. Distribution of neu­ropeptides in the limbic system of the rat: The amygdaloid complexe Neuroscience,7:99-131, 1982.

- 219 -

Page 226: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Ro195]

[Ros78)

[Ros84]

[Ros92]

E.T. RoUs and S.M.O'Mara. View-responsive neurons in the primate hippocampalcomplexe Hippocampus, (5):409-424, 1995.

E.H. Rosch. Principles of categorization. in Rosch and Lloyd, 1978.

R.T. Ross, W.B. Orr, P.C. Holland, and T.W. Berger. Hippocampectomy disruptsacquisition and retention of learned conditional responding. Behavioral Neuroscience,(98):211-225,1984.

M.R. Rosenzweig and A.L. Leiman. Psychopsysiologie. Intereditions, 2ème edition,1992.

[Rum85] D.E. Rumelhart and D. Zipser. Feature discovery by competitive learning. CognitiveScience, 9:75-112, 1985.

[Sch77] E.L. Schwartz. Spatial mapping in the primate sensory projection: analytic structureand relevance to perception. Biological cybernetics, 25:181-194, 1977.

[Sch80] L. Schwartz. Computational anatomy and functional architecture of striate cortex: aspatial mapping approach to perceptual coding. Vision Res., 20:645-669, 1980.

[Sch92] N.A. Schmajuk and A.D. Thieme. Purposive behavior and cognitive mapping: aneural network model. Biological Cybernetic, 67:165-174,1992.

[Sch94] B. Schôlkopf andH.A. Mallot. View-based cognitive mapping and path-finding. Ar­beitsgruppe Bülthoff 7, Max-Planck-Institut für biologische kybernetik, nov 1994.

[Sco57] W.B. Scoville and B. Milner. Loss of recent memory after bilateral hippocampallesions. Journal of Neurology, Neurosurgery and Psychiatry, (20):11-21,1957.

[Sea87] J .R. Searle. Du cerveau au savoir. Hermann, 1987.

[Sei89] M. Seibert and A. Waxman. Spreading activation layers, visual saccades, and invariantrepresentations for neural pattern recognition systems. Neural Networks, 2:9-27, 1989.

[Sin92] S.P. Singh. Transfer of learning by composing solutions of elemental sequential tasks.Machine Learning, 8:323-339, 1992.

[Ski53] B.F. Skinner. Science and human behavior. Macmillan Company, New York, 1953.

[Smi65] M. Smith andI. Gormezano. Effects of alternating classical conditioning and extinc­tion sessions on the conditioned nictating membrane response of the rabbit. Psycho­nomic Science, (3) :91-92, 1965.

[SoI77] P.R. Solomon. Role of the hippocampus in blocking and conditioned inhibition ofrabbit's nictitating membrane response. Journal of Comparative and PhysiologicalPsychology, (91):407-417,1977.

(Squ92] L.R. Squire. Memory and the hippocampus: A synthesis from findins with rats,monkeys, and humans. Psychological Review, (99):143-145, 1992.

- 220 -

Page 227: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Ste95a) L. Steels. A selectionist mechanism for autonomous behavior acquisition. Roboticsand Autonomous Systems, 15, 1995.

[Ste95b) Luc Steels. When are robots intelligent autonomous agents? Robotics and A u­tonomous Systems, 15:3-9, 1995.

[Ste95c) J. Stewart. The implication for understanding high-Ievel cognition of a grounding inelementary adaptive systems. Robotics and Autonomous Systems, 16(2-4):107-116,December 1995.

[Str53] E.R. Strain. Establishment of an avoidance gradient under latent learning conditions.Journal of Experimental Psychology, (46) :391-399, 1953.

[Sut88] R.S. Sutton. Learning to predict by the methods of temporal differenees. MachineLearning, pages 9-44, 1988.

[Sut90) R.S. Sutton and A.G. Barto. Learning and computational neuroscience: foundationsof adaptive networks, chapter Time-Derivative Models of Pavlovian Reinforcement,pages 497-537. M. Gabriel and J. Moore, 1990.

(Sut91] R.S. Sutton. Planning by incremental dynamic programming. In Ninth Conferenceon Machine Learning, 1991.

[Tas86] J.P. Tassin. Les méthodes en neurobiologie. Encyclopédie médico-chirurgicale, Psy­chiatrie, 9(37037 A10), 1986.

[Tho86] R.F. Thompson. The neurobiology of learning and memory. Science, 233:941-947,1986.

[Tho89] R.F. Thompson. Neural models of Plasticity, chapter Neural circuit for classicalconditioning of the eyelid closure response., pages 160-177. Academie Press, SanDiego, CA, 1989.

[Thr95a] S. Thrun. An approach to learning mobile robot navigation. Robotics and AutonomousSystems, 15:301-319, october 1995.

[Thr95b] Sebastian Thrun and Tom M. Mitchell. Lifelong robot learning. Robotics and Au­tonomous Systems, 15:25-46, 1995.

[To130]

[ToI32]

[ToI48]

[Tot95]

E.C. Tolman and C.R. Honzik. "insight" in rats. California Publications in Psycholgy,(4):215-232, 1930.

E.C. Tolman. Purposive behavior of animais and men. Irvington, New York, 1932.

E.C. Tolman. Cognitive maps in rats and men. The Psychological Review, 55(4),1948.

J .A. Toth. Book review of "reasoning agents in a dynamic world: The frame problem" .Artijicial Intelligence, (73):323-369, 1995.

- 221 -

Page 228: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Tou96] M. Touret. Etude des mécanismes dune règle de conditionnement probabiliste. Tech­nical report, ENSEA, 1996.

[Tra63] T. Trabasso. Stimulus emphasis and ali-or-none learning of concept identification.Journal of Experimental Psychology, 65:395-406, 1963.

[Tre94] A. Treves and E. Rolls. Computational analysis of the role of the hippocampus inmemory. Hippocampus, 4(3):374-391, June 1994.

[Tru97] O. Trullier, S.I. Wiener, A. Bethoz, and J .A. Meyer. Biologically based artificialnavigation systems: review and prospects. Progress in Neurobiology, 51:483-544,1997.

[TuI87] T. Tully. Drosophilia and memory revisited. Trends in Neuroscience, pages 515-518,1987.

[Ung95] L.G. Ungerleider. Functional brain imaging studies of cortical mechanisms for mem­ory. Science, 270(5237) :769, Novemeber 1995.

[Var93] F. Varela, E. Thompson, and E. Rosch. The Embodied Mind. MIT Press, 1993.

[Ver95] F.M.J. Verschure, J. Wray, O. Sporns, G. Tononi, and G.M. Edelman. Multilevelanalysis of a behaving real world artifact: an illustration of synthetic neural modeling.Robotics and Autonomous Systems, 16(2-4), December 1995.

[Wat89] C.J .C.H. Watkins. Learning from delayed rewards. PhD thesis, Psychology Depart­ment, Cambridge University, Cambridge, England, 1989.

[Wea93] S.E. Weaver, A.H. Klopf, and J .S. Morgan. A hierarchical network of control sys­tems that learn : modeling nervous system function during c1assical and instrumentalconditioning. Adaptive behavior, 1(3):263-319, 1993.

[Whi91] Steven D. Whitehead. Complexity and cooperation in q-learning, In Eight Interna­tional Conference on Machine Learning, pages 363-367, Evanston, IL, 1991. MorganKaufman.

[Wib86) C.G. Wible, R.L. Findling, M.W. Shapiro, E.J. Lang, S. Crane, and D.S. Olton.Mnemonic correlates of unit activity in the hippocampus. Brain Research, (399):97­110, 1986.

[Wid60] Bernard Widrow and Marcian E. Hoff. Adaptive switching circuits. In IRE WESCON,pages 96-104, New York, 1960. Convention Record.

[Wis91] I.Q. Wishaw. Latent learning in a swimming pool place task by rats: evidence forthe use of associative and not cognitive mapping processes. The quarterly journal ofExperimental psychology, 43B(1):83-103, 1991.

[Woo81a] C.N. Woolsey. Cortical sensory organization: Multilple auditory areas. CrescentManor, N.J.: Humana, 1981.

- 222 -

Page 229: CERGY-PONTOISE présentée pour obtenir Le grade de DOCTEUR

_______________ Bibliographie _

[Woo81b] C.N. Woolsey. Cortical sensory organization: Multiple somatic areas, CrescentManor: N.J.: Humana, 1981.

[Woo81c] C.N. Woolsey. Cortical sensory organization: Multiple visual areas. Cresceni Manor, .N.J.: Humana, 1981.

[Zip85] David Zipser. A computational model of hippocampal place fields. Behavioral neu­roscience, 99(5):1006-1018, 1985.

.[Zre94] S. Zrehen and P. Gaussier. Why topological maps are useful for learning in an au­tonomous agent. In J .D. Nicoud and P. Gaussier, editors, From perception to actionconference, Los Alamitos, CA, 1994. IEEE Press.

[Zre95] Stéphane Zrehen. Elements of Brain Design for A uionomous Agents. PhD thesis,EPFL, 1995.

- 223 -