Livre Touzet

LES RESEAUX DE NEURONES ARTIFICIELS INTRODUCTION AU CONNEXIONNISME COURS, EXERCICES ET TRAVAUX PRATIQUES

Claude TOUZET Juillet 1992

Introduction........................................................................................ 3 1 1 2 2 3 4 5 6 2 1 1.1 1.2 1.3 2 3 3.1 3.2 3.3 4 5 3 1 1.1 1.2 2 3 4 4.1 4.2 4.3 4.4 5 4 1 2 3 5 1 2 3 4 5 6 1 2 3 4 5 6 7 Les rseaux de neurones artificiels....................................................... 6 Dfinition.................................................................................... 6 Historique................................................................................... 6 Les premiers succs........................................................................ 7 Lombre..................................................................................... 7 Le renouveau ............................................................................... 7 La leve des limitations.................................................................... 8 La situation actuelle (1992) ............................................................... 8 Le modle neurophysiologique........................................................... 11 Le neurone.................................................................................. 11 Structure..................................................................................... 11 Physiologie ................................................................................. 12 Cration d'un potentiel d'action.......................................................... 14 Message nerveux........................................................................... 15 Circuits neuronaux......................................................................... 16 Habituation.................................................................................. 16 Sensibilisation.............................................................................. 17 Modification synaptique................................................................... 18 La vision et les tages de traitement...................................................... 19 Conclusion.................................................................................. 21 Les modles mathmatiques .............................................................. 22 Composant (le neurone artificiel)......................................................... 22 Structure..................................................................................... 22 Comportement.............................................................................. 23 Variables decriptives....................................................................... 23 Structure d'interconnexion................................................................ 23 Fonctionnement ............................................................................ 25 Perceptron................................................................................... 25 Rseau multicouche en phase d'association............................................. 26 Rseau connexion complte............................................................. 28 Rseau inhibition latrale rcurrente ................................................... 29 Conclusion.................................................................................. 30 Apprentissage............................................................................... 33 La loi de Hebb, un exemple d'apprentissage non supervis.......................... 33 La rgle d'apprentissage du Perceptron, un exemple d'apprentissage supervis... 36 TP Perceptron .............................................................................. 38 Mmoires associatives..................................................................... Structure..................................................................................... Fonctionnement ............................................................................ Apprentissage............................................................................... Rsultats..................................................................................... TP Mmoires associatives................................................................. Carte auto-organisatrice ................................................................... Structure..................................................................................... Fonctionnement ............................................................................ Apprentissage............................................................................... Rsultats..................................................................................... Application la robotique................................................................. TP Compression d'images par carte auto-organisatrice ............................... 41 41 42 42 42 43 44 45 45 45 47 49 51

Un rseau architecture volutive, ART................................................ 58

1 2 3 4 5 8 1 2 3 9 1 2 3 4 10 1 2 3 4 5 6 7 8 9 11 12 1 2 13 14 1 2 3 4 15 1 2 3 4 5 16 17 18 19

Structure..................................................................................... Fonctionnement / Apprentissage ......................................................... Algorithme.................................................................................. Rsultats..................................................................................... Conclusion..................................................................................

58 58 60 61 61

Apprentissage par pnalit / rcompense (renforcement).............................. 62 Apprentissage............................................................................... 62 Algorithme.................................................................................. 62 Application l'animation comportementale............................................. 62 Rseaux multicouches..................................................................... Structure / Fontionnement................................................................. Apprentissage............................................................................... Rsultats..................................................................................... TP Implication floue calcule par rseau multicouche ................................. 65 66 66 67 67

Connexionnisme et applications.......................................................... 79 Systme de mise en correspondance..................................................... 79 Exemple du diagnostic des douleurs abdominales ..................................... 80 Prdiction mtorologique (TD).......................................................... 81 Evaluation de la qualit des plantes en pot .............................................. 81 Analyse de donnes conomiques par carte auto-organisatrice....................... 82 Problme d'optimisation (version connexionniste) .................................... 83 Compression dimage par rseau multicouche.......................................... 84 Maillage ..................................................................................... 85 Conclusion.................................................................................. 87 Dveloppement dune application en RCM ............................................. 88 Environnements de dveloppement, simulateurs, neurocalculateurs et intgration. 91 Prsentation d'un simulateur.............................................................. 91 Droulement d'une session ............................................................... 93 Conclusion.................................................................................. 94 Questions rcapitulatives.................................................................. 97 Association d'une carte auto-organisatrice avec un rseau multicouche............. 97 Machine squentielle connexionniste .................................................... 97 Construction d'une taxonomie des modles de rseaux neuronaux.................. 107 Coopration multi-rseaux................................................................ 108 Annexes..................................................................................... 111 Carte auto-organisatrice ................................................................... 111 Rtropropagation de gradient............................................................. 112 Algorithme d'apprentissage par pnalit/rcompense (ARP) ......................... 113 Approximation de fonction par rseau de neurones.................................... 115 La simulation dirige par les vnements................................................ 115 Bibliographie ............................................................................... 117 Informations pratiques..................................................................... 121 Petit glossaire............................................................................... 124 Index......................................................................................... 126

RemerciementsDe nombreuses personnes ont contribus scientifiquement, intellectuellement ou techniquement la rdaction de cet ouvrage. Dans tous les cas, leur amiti m'honore et je tiens leur exprimer ici ma gratitude, en particulier, le professeur Norbert Giambiasi, Directeur du LERI (Laboratoire d'Etudes et Recherche Nmes), l'EERIE (Ecole pour les Etudes et la Recherche en Informatique et Electronique Nmes) o ce cours a t propos aux lves de dernire anne ds 1990, Mr. Jean-Claude Rault, diteur (EC2 Paris), toute l'quipe Neuromimtique du LERI dont nous retrouverons en partie les travaux et certains membres, minents et sympathiques, de la communaut rseaux de neurones artificiels tels que Jeanny Herault (INPG, Grenoble), Christian Jutten (LTIRF, Grenoble), Jean-Claude Gilhodes (Lab. de Neurobiologie Humaine, Marseille). Le LERI est, et restera, pour moi un cadre de travail stimulant et chaleureux. Je tiens exprimer ici mon amiti ses membres et ceux qui ont su devenir mes amis comme Mourad Oussalah, Martine Magnan, Jean-Franois Santucci, Anelise Courbis, Norbert Giambiasi, Claudia Frydmann, Marc Boumedine, Franois Blayo, Anne Marion, Yves Coiton, Anne Gurin, Kamel Djafari, ... D'autres ont su m'encourager, sans faillir, par leur enthousiame pour ce projet ; je ddie donc cet ouvrage Catherine, Martine et Michel, Bernard, mes parents et grandsparents.

2

IntroductionLinformatique est la science du traitement automatique de linformation. Son dveloppement est souvent confondu avec celui des machines de traitement : les ordinateurs. Depuis les dbuts (ENIAC 1946) jusqu aujourdhui, les ordinateurs sont devenus de plus en plus puissants. Cependant, cette augmentation de puissance ne permet pas de toujours rsoudre les problmes dune application informatique dans un domaine particulier. Lide sest donc installe que ce ntait peut tre pas tant le matriel que le logiciel qui pchait par manque de puissance. La construction de logiciels s'appuie sur plusieurs approches. Deux parmi les plus utilises sont l'approche algorithmique et l'approche base sur la connaissance. Une approche algorithmique ncessite lcriture (avant la transcription dans un quelconque langage de programmation) du processus suivre pour rsoudre le problme. Lorsque le problme est complexe, ce peut tre une tape coteuse ou impossible. Dautre part, les ordinateurs sont des machines compltement logiques (et mme binaires) qui suivent la lettre chacune des instructions du programme. Cest un avantage lorsque tous les cas ont t prvus lavance par lalgorithmicien. Ce nest hlas pas toujours possible. Dans ce cas, dixit l'informaticien : "c'est une faute de la machine". Rien de plus faux ! Ainsi les systmes informatiques embarqus ( bord des avions, de la navette spatiale, etc) tentent de pallier ce manque (prvisible) de clairvoyance de lalgorithmicien en triplant les logiciels, chacun tant dvelopps indpendamment par une quipe diffrente, dans des langages diffrents. Les risques de laisser lordinateur aux prises avec une situation imprvue, o son comportement ne serait pas adapt, sont ainsi considrablement rduits. Rappellons-nous le haro lanc sur les programmes boursiers lors de la chute de la bourse en 1987. La seconde approche possible est celle de lintelligence artificielle (appele IA par commodit), avec pour applications les plus connues les systmes experts. Ici, la rsolution du problme est confie un ensemble de rgles donnes par lexpert humain du domaine. Il nen demeure pas moins que toutes les rgles doivent avoir t exprimes pralablement au traitement, et que le programme demeure binaire dans son excution. Les cas qui nont pas t prvus par lexpert ne seront pas correctement traits. Lintroduction de la logique floue ne change pas la nature des limitations demploi du programme : l'excution reste totalement dterministe. En fait, lapproche base sur la connaissances se limite des domaines dapplication o la modlisation de la connaissance, par exemple sous forme de rgles, est possible. Ces domaines sont souvent ceux des sciences dites "exactes" comme l'lectronique, la mcanique, la physique, etc, par opposition aux sciences dites "humaines" comme la mdecine, la psychologie, la philosophie, etc, o la connaissance est plus empirique. LIA se rvle donc tre principalement un moyen commode de stocker de la connaissance sous forme explicite.

3

Ces deux approches ne suffisent pas rpondre tous les problmes existants. Citons les domaines de la reconnaissance de formes (images ou signaux), du diagnostic, du contrle moteur, de la traduction automatique, de la comprhension du langage, depuis longtemps explors laide des approches algorithmiques et base de connaissances, qui n'ont pas rencontr le succs escompt. Pourtant, des tres vivants relativement simples sont capables de raliser certaines de ces oprations apparemment sans difficult. Il suffit pour sen rendre compte de lever les yeux, suivre le vol de la mouche et essayer de la capturer. Que dire alors du dplacement au sonar de la chauve souris, etc. Une troisime approche au traitement automatique de linformation semble donc soffrir nous, o lon cherche sinspirer du traitement de l'information effectu par le cerveau. Lhypothse principale, la base de l'essort des rseaux de neurones artificiels, est que le comportement intelligent est sous-tendu par un ensemble de mcanismes mentaux. Ces mcanismes tant bass sur des processus neurophysiologiques, nous supposons donc que la structure du systme nerveux central est la base du dveloppement dun comportement intelligent. Remarquons que cette hypothse na pas toujours eu cours. Ainsi, depuis lantiquit, le sige des motions a lentement migr depuis les pieds, vers lestomac (qui se noue face au danger), puis le coeur (qui sacclre lors des passions) pour finir dans la boite crnienne. La figure 1 reprend l'hypothse propose par de nombreux biologistes : pour recrer le comportement intelligent du cerveau, il faut s'appuyer sur son architecture, en fait, tenter de l'imiter. Comportement global du cerveau

Systmes et voies de communication

Circuits

Neurones

Figure 1. Hypothse biologique de gnration d'un comportement intelligent Ce dernier paragraphe nous fournit dj le plan de cet ouvrage. Dans une premire partie, nous examinons quelques notions biologiques relatives au cerveau, et ses constituants les neurones et leurs synapses. L'organisation en rseaux des neurones permet d'illustrer les notions d'apprentissage et de mmorisation (modification des connexions). Ces donnes nous 4

sont ncessaires pour aborder le second chapitre qui montre le passage des modles de rseaux neuronaux biologiques des modles mathmatiques : les rseaux de neurones artificiels. Nous tablissons un tableau des correspondances biologique/artificiel, avec notamment des modles de neurones et de synapses et quelques topologies pour l'organisation en rseaux. Au travers d'un exemple simple, nous dcrivons le fonctionnement des rseaux de neurones artificiels et leurs proprits d'apprentissage partir d'exemples, de rsistance au bruit, d'adaptabilit et de tolrance au pannes. Il existe de nombreux modles de rseaux de neurones artificiels, nous en prsentons successivement quelques uns choisis principalement selon des critres de nature pdagogique. Le Perceptron est historiquement le premier modle, son fonctionnement est particulirement intressant pour le suite de notre tude. De fait, il demeure un modle de base, de mme que les cartes auto-organisatrices plus vraisemblables d'un point de vue biologique. Ces deux modles nous permettent d'introduire les concepts d'apprentissage supervis et non supervis. Des modles plus labors sont tudis par la suite tant au niveau de leur architectures, des techniques d'apprentissage que des performances. Ce sont les mmoires associatives, le rseau ART et une version plus complexe et surtout plus efficace du Perceptron : le Perceptron multicouche. Connatre les modles est dun profond intrt, mais pour lingnieur le dveloppement dune application base sur les rseaux de neurones artificiels peut sembler plus important. Nous consacrons un chapitre la reconnaissance de caractres manuscrits ralise par un Perceptron multicouche. Ecrire des programmes de simulations pour quelques modles de rseaux est du plus haut intrt pdagogique. Cependant le dveloppeur dispose aujourdhui denvironnements de dveloppement pratiques et puissants dont nous passons en revue les principales caractristiques. S'agissant d'un ouvrage de vulgarisation l'usage des tudiants de tous les ages, nous avons tenu, en nous basant sur notre exprience d'enseignement, proposer les outils pdagogiques que sont les exercices et les travaux pratiques. Il s'agit bien entendu d'aider le lecteur vrifier sa comprhension des concepts, des modles et de le familiariser la manipulation des algorithmes. Nous esprons que vous vous impliquerez dans ce "surplus" de travail propos. Toutes les rponses se trouvent videmment dans ce livre.

5

1 Les rseaux de neurones artificiels1 Dfinition Aujourdhui de nombreux termes sont utiliss dans la littrature pour dsigner le domaine des rseaux de neurones artificiels, comme connexionnisme ou neuromimtique. Pour notre part, il nous semble qu'il faut associer chacun de ces noms une smantique prcise. Ainsi, les rseaux de neurones artificiels ne dsignent que les modles manipuls ; ce nest ni un domaine de recherche, ni une discipline scientifique. Connexionnisme et neuromimtique sont tous deux des domaines de recherche part entire, qui manipulent chacun des modles de rseaux de neurones artificiels, mais avec des objectifs diffrents. Lobjectif poursuivi par les ingnieurs et chercheurs connexionnistes est damliorer les capacits de linformatique en utilisant des modles aux composants fortement connects. Pour leur part, les neuromimticiens manipulent des modles de rseaux de neurones artificiels dans l'unique but de vrifier leurs thories biologiques du fonctionnement du systme nerveux central. Notons quen France, ds 1982, des runions de ces deux communauts ont t organises, ce sont les Journes Neurosciences et Sciences de lIngnieur (cf. chp. Informations pratiques). Le titre mme de cet ouvrage ne laisse aucun doute, nous nous plaons du point de vue de lingnieur la recherche dune connaissance connexionniste. Ceci nous oblige cependant aborder au chapitre suivant des notions de neurosciences utiles notre projet. Dfinition : Les rseaux de neurones artificiels sont des rseaux fortement connects de processeurs lmentaires fonctionnant en parallle. Chaque processeur lmentaire calcule une sortie unique sur la base des informations qu'il reoit. Toute structure hirarchique de rseaux est videmment un rseau. 2 Historique - 1890 : W. James, clbre psychologue amricain introduit le concept de mmoire associative, et propose ce qui deviendra une loi de fonctionnement pour lapprentissage sur les rseaux de neurones connue plus tard sous le nom de loi de Hebb. - 1943 : J. Mc Culloch et W. Pitts laissent leurs noms une modlisation du neurone biologique (un neurone au comportement binaire). Ceux sont les premiers montrer que des rseaux de neurones formels simples peuvent raliser des fonctions logiques, arithmtiques et symboliques complexes (tout au moins au niveau thorique). - 1949 : D. Hebb, physiologiste amricain explique le conditionnement chez lanimal par les proprits des neurones eux-mmes. Ainsi, un conditionnement de type pavlovien tel que, nourrir tous les jours la mme heure un chien, entrane chez cet animal la scrtion de salive 6

cette heure prcise mme en labsence de nourriture. La loi de modification des proprits des connexions entre neurones quil propose explique en partie ce type de rsultats exprimentaux. 2 Les premiers succs - 1957 : F. Rosenblatt dveloppe le modle du Perceptron. Il construit le premier neuroordinateur bas sur ce modle et lapplique au domaine de la reconnaissance de formes. Notons qu cet poque les moyens sa disposition sont limits et cest une prouesse technologique que de russir faire fonctionner correctement cette machine plus de quelques minutes. - 1960 : B. Widrow, un automaticien, dveloppe le modle Adaline (Adaptative Linear Element). Dans sa structure, le modle ressemble au Perceptron, cependant la loi dapprentissage est diffrente. Celle-ci est lorigine de lalgorithme de rtropropagation de gradient trs utilis aujourdhui avec les Perceptrons multicouches. Les rseaux de type Adaline restent utiliss de nos jours pour certaines applications particulires. B. Widrow a cr ds cette poque une des premires firmes proposant neuro-ordinateurs et neuro-composants, la Memistor Corporation. Il est aujourdhui le prsident de lInternational Neural Network Society (INNS) sur laquelle nous reviendrons au chapitre Informations pratiques. - 1969 : M. Minsky et S. Papert publient un ouvrage qui met en exergue les limitations thoriques du perceptron. Limitations alors connues, notamment concernant limpossibilit de traiter par ce modle des problmes non linaires. Ils tendent implicitement ces limitations tous modles de rseaux de neurones artificiels. Leur objectif est atteint, il y a abandon financier des recherches dans le domaine (surtout aux U.S.A.), les chercheurs se tournent principalement vers lIA et les systmes bases de rgles. 3 Lombre - 1967-1982 : Toutes les recherches ne sont, bien sr, pas interrompues. Elles se poursuivent, mais dguises, sous le couvert de divers domaines comme : le traitement adaptatif du signal, la reconnaissance de formes, la modlisation en neurobiologie, etc. De grands noms travaillent durant cette priode tels : S. Grossberg, T. Kohonen, ... dont nous reparlerons. 4 Le renouveau - 1982 : J. J. Hopfield est un physicien reconnu qui lon doit le renouveau dintrt pour les rseaux de neurones artificiels. A cela plusieurs raisons : Au travers dun article court, clair et bien crit, il prsente une thorie du fonctionnement et des possibilits des rseaux de neurones. Il faut remarquer la prsentation anticonformiste de son article. Alors que les auteurs sacharnent jusqualors proposer une structure et une loi dapprentissage, puis tudier les proprits mergentes ; J. J. Hopfield fixe pralablement le comportement atteindre pour son modle et construit partir de l, la structure et la loi

7

dapprentissage correspondant au rsultat escompt. Ce modle est aujourdhui encore trs utilis pour des problmes d'optimisation. D'autre part, entre les mains de ce physicien distingu, la thorie des rseaux de neurones devient respectable. Elle nest plus lapanage dun certain nombre de psychologues et neurobiologistes hors du coup. Enfin, une petite phrase, place en commentaire dans son article initial, met en avant lisomorphisme de son modle avec le modle dIsing (modle des verres de spins). Cette ide va drainer un flot de physiciens vers les rseaux de neurones artificiels. Notons qu cette date, lIA est lobjet dune certaine dsillusion, elle na pas rpondue toutes les attentes et sest mme heurte de srieuses limitations. Aussi, bien que les limitations du Perceptron mise en avant par M. Minsky ne soient pas leves par le modle dHopfield, les recherches sont relances. 5 La leve des limitations - 1983 : La Machine de Boltzmann est le premier modle connu apte traiter de manire satisfaisante les limitations recenses dans le cas du perceptron. Mais lutilisation pratique savre difficile, la convergence de lalgorithme tant extrmement longue (les temps de calcul sont considrables). - 1985 : La rtropropagation de gradient apparat. Cest un algorithme dapprentissage adapt aux rseaux de neurones multicouches (aussi appels Perceptrons multicouches). Sa dcouverte ralise par trois groupes de chercheurs indpendants indique que "la chose tait dans lair". Ds cette dcouverte, nous avons la possibilit de raliser une fonction non linaire dentre/sortie sur un rseau en dcomposant cette fonction en une suite dtapes linairements sparables. De nos jours, les rseaux multicouches et la rtropropagation de gradient reste le modle le plus tudi et le plus productif au niveau des applications. Nous lui consacrons quelques chapitres. 6 La situation actuelle (1992) En France, elle est limage du congrs Neuro-Nmes qui a pour thme les rseaux neuromimtiques et leurs applications. Cr en 1988, le chiffre de ses participants croit chaque anne et reflte bien lintrt que le monde scientifique et industriel (50% des participants) porte au connexionnisme (fig. 1).

8

Nombre de participants au congrs Neuro-Nmes

850 650 500 350 1988 1989 1990 1991 1992 Anne

Figure 1. Illustration de l'accroissement d'intrt pour les rseaux de neurones : volution du nombre de participants au congrs Neuro-Nmes Dans le monde, et en particulier aux U.S.A., lintrt pour les rseaux de neurones a dmarr plus tt. Ds 1986, de 600 2000 visiteurs participent aux quelques grands congrs annuels. Au niveau commercial, la figure 2 montre que plus de 200 compagnies sont aujourdhui impliques dans des dveloppements dapplications connexionnistes. Nombre de compagnies

150

30

1960

1985 1987 Anne

Figure 2. Evolution du nombre de compagnies proposants des produits connexionnistes (d'aprs DARPA 88) Les prvisions du march se chiffrent dj en dizaines de millions de dollars. Il devrait dpasser les 100 millions de dollars ds 1992. Un coup doeil plus dtaill aux diffrentes parts de march (fig. 3) montre une volution vers la mise en place de puces spcialises, le dveloppement dapplications spcifiques ou standardises et la rduction de la partie formation.

9

Formation 1% Formation 4% Dveloppement d'applications 6% Dveloppement d'outils 90% Dveloppement d'applications 17% Dveloppement d'outils 45% Applications standards 22%

1988

1992

Circuits neuronaux 15%

Figure 3. Evolution des diffrentes parts du march connexionniste (d'aprs DARPA 88) La rduction de la partie formation est le fait dune thorie des rseaux de neurones de mieux en mieux comprise, plus facilement explique et appartenant de plus en plus souvent au bagage scientifique des jeunes universitaires et ingnieurs. Un enseignement spcifique rseaux de neurones artificiels a d'ailleur dbut lUCSD (University of California at San Diego) ds 1982. En France, universits et coles dingnieurs proposent en troisime cycle de quelques heures quelques dizaines dheures sur ce sujet. Nous en donnons la fin de cet ouvrage, au chapitre des informations pratiques, une liste non exhaustive.

10

2 Le modle neurophysiologiqueLe cerveau se compose d'environ 1012 neurones (mille milliards), avec 1000 10000 synapses (connexions) par neurone. Nous allons dans ce chapitre dcrire succinctement llment de base du systme nerveux central : le neurone. Ltape suivante nous conduit ltude de petits rseaux de neurones, tels ceux impliqus dans les arcs rflexes. Ceci nous amne exposer les proprits dhabituation, de sensibilisation et surtout concevoir lide dune modification physique des connexions entre neurones pour supporter ces phnomnes. Ltude du mcanisme de la vision chez lanimal (et lhomme) permet dapprhender les notions de messages somato-sensoriels, de rduction dinformation, dtages de traitement et de complexification de linformation. 1 Le neurone 1.1 Structure Le neurone est une cellule compose dun corps cellulaire et dun noyau. Le corps cellulaire se ramifie pour former ce que lon nomme les dendrites. Celles-ci sont parfois si nombreuses que lon parle alors de chevelure dendritique ou darborisation dendritique. Cest par les dendrites que linformation est achemine de lextrieur vers le soma, corps du neurone. Linformation traite par le neurone chemine ensuite le long de laxone (unique) pour tre transmise aux autres neurones. La transmission entre deux neurones nest pas directe. En fait, il existe un espace intercellulaire de quelques dizaines dAngstroms (10-9 m) entre laxone du neurone affrent et les dendrites (on dit une dendrite) du neurone effrent. La jonction entre deux neurones est appele la synapse (fig. 1).

Dendrite Synapse axo-dendritique

Axone Corps cellulaire

Synapse axo-axonique

Synapse axo-somatique

Figure 1. Un neurone avec son arborisation dendritique Selon le type du neurone (fig. 2), la longueur de laxone peut varier de quelques microns 1,50 mtres pour un moto-neurone. De mme les dendrites mesurent de quelques microns

11

1,50 mtres pour un neurone sensoriel de la moelle pinire. Le nombre de synapses par neurone varie aussi considrablement de plusieurs centaines une dizaine de milliers. Cellule toile Cellule en corbeille Fibres parallles

Cellule de Purkinje

Cellule en grain

Cellule de Golgi Figure 2. Description schmatique des divers types structuraux de neurones prsents dans le cortex crbelleux. Les axones ont t reprs par une flche. 1.2 Physiologie La physiologie du neurone est lie aux proprits de la membrane nerveuse et au mtabolisme de la cellule. La diffrence de potentiel mesure entre le milieu intrieur de la cellule et le milieu extrieur est de -60 mV. Pour maintenir une telle diffrence de potentiel, la cellule fait appel des pompes ioniques (Na+, K +, ...). Cependant, une faible dpolarisation de la membrane entraine une certaine permabilit aux ions sodiums (Na+), dont l'effet peut tre catastrophique au niveau cellulaire. En effet, partir d'une certaine valeur seuil de dpolarisation de la membrane, il y a rupture des quilibres ioniques et cration d'un potentiel d'action (aussi nomm "spike" en anglais, fig. 3).

Valeur du potentiel

+60 0 Seuil -60 -70 0 2 12 10 Temps en ms

Figure 3. Un potentiel d'action Les ions, Na + en particulier, s'engouffrent en nombre dans la cellule (aids en cela par l'ouverture des canaux Na+ et une diffrence de potentiel trs attirante de -60 mV). En une miliseconde, la diffrence de potentiel devient gale +60 mV (fig. 4). En fait, partir d'une valeur de potentiel nulle, l'quilibre ionique est tabli et les ions ne devraient plus pntrer dans la cellule. Cependant, l'effet d'entrainement est tel que cette valeur d'quilibre thorique est largement dpasse. Les diffrents canaux ioniques se referment alors, les pompes ioniques se remettent fonctionner, rejetant l'extrieur de la cellule les ions en excs. L aussi, on constate un certain effet d'entrainement : le retour la normale passe d'abord par une phase d'hyperpolarisation. Le potentiel de repos (-60 mV) est dpass jusqu' atteindre (-70 mV). milieu extrieur + + +

Axone canaux ioniques ferms a

Na+

Slection d'un fragment de membrane axonique + canaux ioniques ouverts b + + + + + + + +

- - milieur intrieur + + +

canaux ioniques ferms c - - - -

Figure 4. Passage d'un potentiel d'action au niveau de la membrane de l'axone a) Equilibre ionique (au repos). b) Arrive d'un potentiel d'action (dpolarisation). c) Aprs la dpolarisation : l'hyperpolarisation. Toute cette srie d'vnements cataclismiques au niveau cellulaire n'aura dur que 5 10 milisecondes. Durant la phase d'hyperpolarisation, le neurone est trs difficilement excitable. Ce qui s'explique par le fait que la diffrence de potentiel par rapport la valeur seuil (S) est plus importante que celle au repos. 1.3 Cration d'un potentiel d'action La dpolarisation initiale de la membrane axonique est cre par l'arrive de potentiels d'action des neurones affrents sur les synapses dendritiques et somatiques. En fait, l'arrive 13

d'un potentiel d'action sur une synapse, un neuromdiateur est libr dans l'espace synaptique. Il va ouvrir des canaux ioniques sur la membrane post-synaptique, crant ainsi une dpolarisation (aussi appele potentiel voqu) qui s'tend jusqu' l'axone (fig. 5). a

Neuromdiateur b e Na+-60 mV

d

c-60 mV

d' Figure 5. Fonctionnnement au niveau synaptique a) Arrive d'un potentiel d'action. b) Libration du neuromdiateur dans l'espace synaptique. c) Ouvertures des canaux ioniques dues au neuromdiateur. d) Gnration d'un potentiel voqu excitateur. d') Gnration d'un potentiel voqu inhibiteur. Les synapses inhibitrices empchent la gnration de potentiel d'action. e) Fermeture des canaux, limination ou recapture du neuromdiateur. Les dpolarisations unitaires sont sommes dans l'espace (toutes les synapses du neurone) et dans le temps (sur une priode de quelques milisecondes) et gnrent, ventuellement, un potentiel d'action sur le neurone post-synaptique. Ainsi que le montre la figure 6, la gnration d'un potentiel d'action est le fruit de nombreuses dpolarisations, l'action d'une seule synapse est pratiquement sans effet.

14

Valeur du potentiel

seuil

Valeur du potentiel a Temps

seuil

b

Temps

Figure 6. Sommation spatio-temporelle : addition des potentiels voqus la fois dans l'espace et dans le temps. a) 2 potentiels voqus (reprs par les flches) ne dpassent pas la valeur seuil. b) 2 potentiels voqus qui dpassant la valeur seuil gnrent un potentiel d'action. 2 Message nerveux Le systme nerveux travaille avec (entre autres) un codage en frquence. C'est le nombre de potentiel d'action par seconde (frquence) et les variations de frquence (frquence instantane) qui code l'information. Un potentiel d'action isol ne signifie rien. Rappelons d'autre part que tous les potentiels d'action ont la mme valeur de potentiel. Par exemple (fig. 7), les messages transmis lors de mouvements du coude permettent de connaitre en fonction de la frquence : la valeur de l'angle et en fonction des variations de frquences : la vitesse de rotation entre deux positions.

Potentiel d'action

10

20

30 40 Valeur angulaire

Figure 7. Exemple de codage en frquence (mouvements d'une articulation telle que le coude). 3 Circuits neuronaux Nous avons vu que chaque neurone est une unit autonome au sein du cerveau. Le neurone reoit en continu des entres. Le corps cellulaire du neurone est le centre de contrle. C'est l 15

que les informations reues sont interprtes. La rponse, unique, ces signaux est envoye au travers de l'axone. L'axone fait synapse sur d'autres neurones (un millier). Le signal transmis peut avoir un effet excitateur ou inhibiteur. Le traitement trs simple ralis par chaque neurone indique que l'information n'est pas stocke dans les neurones, mais est plutt le rsultat du comportement de toute la structure interconnecte. L'information est, principalement, dans l'architecture des connexions et dans la force de ces connexions. C'est ce que nous allons vrifier avec quelques exprimentations simples ralises sur l'aplysie (limace de mer, fig. 8). Des modifications comportementales importantes rsultent de modifications simples au niveau synaptique. Les connexions renforcent ou diminuent leur efficacit (modification des forces de connexions). Dans les cas extrmes, de nouvelles connexions apparaissent ou disparaissent (modification de l'architecture).

Manteau Branchies Parapodium Siphon

Figure 8. Aplysie ou limace de mer (abondante en mditerane). Au toucher du siphon ou du manteau, la contraction du siphon entraine le retrait des branchies sous le manteau dans un reflexe de dfense. 3.1 Habituation Description de l'exprience : Le neurone sensoriel est activ par le toucher du manteau. Le neurone moteur agit alors en retractant les branchies (fig. 9). Lorsque la stimulation est rpte, la rponse de l'animal devient plus faible, jusqu' une absence de raction au toucher. C'est le phnomne de l'habituation (fig. 10).

16

Stimulus

Neurone sensoriel

Neurone moteur

Figure 9. Circuits mis en jeu dans l'habituation

Neurone moteur

Neurone sensoriel

1 mn

15 mn

30 mn

Figure 10. Habituation : lorsque la stimulation est rpte (quelques dizaines de fois), la rponse de l'animal devient de plus en plus faible, jusqu' une absence de raction au stimulus sensoriel. On a indiqu en bas droite de chaque schma le nombre de minutes aprs le dbut de l'exprience. A partir de 15 mn, il n'y a plus de stimulations. 3.2 Sensibilisation Si l'on rpte la mme exprience en crant aprs chaque stimulation du manteau un courant d'eau violent qui risque d'endommager les branchies, on observe alors l'effet inverse. Le courant d'eau sert de renforcement (fig. 11) et la rponse de l'animal au stimulus initial est augmente (fig. 12). Cet effet est appel sensibilisation.

Stimulus

Renforcement

Neurone sensoriel

Neurone moteur

Figure 11. Circuits mis en jeu dans la sensibilisation

17

Neurone moteur

Neurone sensoriel Renforcement

1 mn

15 mn Renforcement

30 mn

Figure 12. La sensibilisation en 3 schmas : la rponse du neurone moteur au stimulus initial est augmente par l'action du stimulus de renforcement. Le stimulus de renforcement n'est appliqu qu'aprs la rponse motrice. 3.3 Modification synaptique Habituation et sensibilisation au niveau neuronal traduisent la fonction d'apprentissage au niveau de l'animal dans son ensemble. Il y a adaptation de la rponse l'environnement. L'observation des synapses mises en jeu au microscope lectronique montre des modifications physiques (fig. 13).

Vsicules de neuromdiateur

Rcepteurs au neuromdiateur

a

b

c

Figure 13. Modification physique de la synapse a) Tmoin. b) Habituation : diminution du nombre de vsicules et du nombre de rcepteurs. c) Sensibilisation : augmentation du nombre de vsicules et de rcepteurs. 4 La vision et les tages de traitement 18

Nous avons vu des mcanismes de traitement de l'information au niveau de la coopration entre deux neurones. Il existe des structures plus complexes mettant en jeu des millions de neurones, qui rangs par tages de traitement diminuent la complexit de l'information, la rendant plus signifiante. C'est le cas du systme visuel, sans doute le mieux tudi aujourd'hui. Au niveau de la rtine, plusieurs dizaines de types diffrents de cellules codent les informations visuelles, chacune ralisant une fonction trs spcialise. Les images sont transformes en train d'impulsions nerveuses que le nerf optique vhicule vers le cerveau. Le cerveau labore sa perception visuelle grce ces signaux. Cependant, au niveau de la rtine, il y a dj traitement de l'information. En effet, on compte environ 150 millions de batonnets et 7 millions de cnes pour seulement 1 million de fibres au niveau du nerf optique. On connait aujourd'hui un certain nombre de circuits neuronaux de la rtine impliqus dans le traitement de l'information visuelle. Par exemple, chaque cellule ganglionnaire correspond un champ rcepteur : une zone prcise du champ visuelle (disque d'un centimtre de diamtre deux mtres de distance). Ds 1952, deux types de cellules ganglionnaires ont t rpertoris. En abscence de stimulation lumineuse (obscurit), ces cellules mettent cependant spontanment un niveau moyen de potentiels d'action. Les cellules centre ON augmentent ce nombre d'impulsions lorsqu'un stimulus claire le centre du champ rcepteur et deviennent silencieuses si le stimulus claire la priphrie du champ rcepteur. Les cellules centre OFF montrent un comportement inverse. La figure 14 montre un exemple d'architecture fonctionnelle pour une cellule ganglionnaire centre ON. Cette oppostion de fonctionnement entre le centre et la priphrie du champ rcepteur permet d'amliorer les contrastes. On a dcouvert depuis d'autres cellules qui codent les directions de mouvements, etc.

19

Zone claire

Zone claire

Photorcepteurs (cnes et batonnets) Cellules horizontales Cellules bipolaires Cellules ganglionnaires a b

Figure 14. Exemple de traitement de l'information rtinienne par une cellule ganglionnaire centre ON. En noir, les cellules actives. Les cellules horizontales ont une action inhibitrice sur les cellules bipolaires, elles s'opposent ainsi aux cellules photoreceptrices. a) L'clairage du centre du champ rcepteur gnre une augmentation du niveau d'activit. b) L'clairage de la priphrie du champ rcepteur rend cette cellule silencieuse. Au niveau du cortex visuel (arrive du nerf optique), D. Hubel et H. Wiesel ont dcouvert l'existence de colonnes de dominance oculaire, spcifiquement excites par un stimulus sous forme de barre dote une orientation prcise. La figure 15 montre une reprsentation schmatique du cortex visuel.

20

Colonne de dominance oculaire

2 mmOeil Oeil gauche droit

1 mm 1 mm Figure 15. Reprsentation schmatique du cortex visuel qui montre les colonnes de dominances oculaires et leur orientation privilgie. On remarque l'alternance oeil gauche - oeil droit. Nous avons vu une organisation topologique prcise pour le traitement de l'information visuelle dont la construction semble gntique. Il existe nanmoins des possibilits d'apprentissage sur cette structure. Des expriences ont montr que l'levage d'un chaton dans un univers compos uniquement de verticales va modifier ses perceptions jusqu' le rendre pratiquement aveugle aux autres directions (horizontales et obliques) l'age adulte. L'tude histologique montre que la grande majorit de ses colonnes de dominances oculaires se sont "recycles" dans les verticales. Quels sont les mcanismes qui permettent de modifier le comportement des structures neuronales ? D. Hebb a propos en 1949 une rgle o la force de la connexion entre deux neurones augmente si il y a corrlation d'activit (si l'activation de l'une entraine l'activation de l'autre). Cette hypothse a depuis t complte par J. P. Rauscheker et W. Singer qui proposent de modifier en les diminuant les forces des connexions non fonctionnelles (inutiles dans le contexte de fonctionnement actuel). Remarquons que cette loi d'apprentissage ne concerne que les synapses excitatrices, rien n'est propos pour les synapses inhibitrices. 5 Conclusion Lobjectif pdagogique vis dans ce survol du monde biologique est la mise en exergue d'une organisation structurelle des neurones. Chaque structure est dote d'une fonction particulire et ces structures adaptent leur comportement par des mcanismes dapprentissage. Lapprentissage implique des modifications physiques des connexions entre neurones. Lassociation entre plusieurs structures neuronales, dotes chacune dune fonction prcise, permet lmergence dune fonction dordre suprieure pour lensemble.

21

3 Les modles mathmatiquesLes rseaux de neurones biologiques ralisent facilement un certain nombre d'applications telles que la reconnaissance de formes, le traitement du signal, l'apprentissage par l'exemple, la mmorisation, la gnralisation. Ces applications sont pourtant, malgr tous les efforts dploys en algorithmique et en intelligence artificielle, la limite des possibilits actuelles. C'est partir de l'hypothse que le comportement intelligent merge de la structure et du comportement des lments de base du cerveau que les rseaux de neurones artificiels se sont dvelopps. Les rseaux de neurones artificiels sont des modles, ce titre ils peuvent tre dcrit par leurs composants, leurs variables descriptives et les interactions des composants. 1 Composant (le neurone artificiel) 1.1 Structure La figure 1 montre la structure d'un neurone artificiel. Chaque neurone artificiel est un processeur lmentaire. Il reoit un nombre variable d'entres en provenance de neurones amonts. A chacune de ces entres est associe un poids w abrviation de weight (poids en anglais) reprsentatif de la force de la connexion. Chaque processeur lmentaire est dot d'une sortie unique, qui se ramifie ensuite pour alimenter un nombre variable de neurones avals. A chaque connexion est associe un poids.

Synapse

Poids

Corps cellulaire Axone

Fonction de transfert Elment de sortie

Figure 1. Mise en correspondance neurone biologique / neurone artificiel La figure 2 donne les notations que nous utilisons dans cet ouvrage. wki k

j

wij

i xi

22

Figure 2. Structure d'un neurone artificiel. Pour le neurone d'indice i, les entres sur celui-ci sont de poids wij alors que les connexions avals sont de poids wki. 1.2 Comportement On distingue deux phases. La premire est habituellement le calcul de la somme pondre des entres (a) selon l'expression suivante : a = (wi . e i) A partir de cette valeur, une fonction de transfert calcule la valeur de l'tat du neurone. C'est cette valeur qui sera transmise aux neurones avals. Il existe de nombreuses formes possibles pour la fonction de transfert. Les plus courantes sont prsentes sur la figure 3. On remarquera qu' la diffrence des neurones biologiques dont l'tat est binaire, la plupart des fonctions de transfert sont continues, offrant une infinit de valeurs possibles comprisent dans l'intervalle [0, +1] (ou [-1, +1]). x = f (a) +1 S -1 a b a -1 c x = f (a) +1 a -1 x = f (a) +1 a

Figure 3. Diffrents types de fonctions de transfert pour le neurone artificiel, a : fonction seuil (S , la valeur du seuil), b : linaire par morceaux, c : sigmode. Nous constatons que les quations dcrivant le comportement des neurones artificiels n'introduisent pas la notion de temps. En effet, et c'est le cas pour la plupart des modles actuels de rseaux de neurones, nous avons affaire des modles temps discret, synchrone, dont le comportement des composants ne varie pas dans le temps. 2 Variables decriptives Ces variables dcrivent l'tat du systme. Dans le cas des rseaux de neurones qui sont des systmes non autonomes, un sous-ensemble des variables descriptives est constitu par les variables d'entre, variables dont la valeur est dtermine extrieurement au modle. 3 Structure d'interconnexion Les connexions entre les neurones qui composent le rseau dcrivent la topologie du modle. Elle peut tre quelconque, mais le plus souvent il est possible de distinguer une certaine rgularit. Rseau multicouche (au singulier) : les neurones sont arrags par couche. Il n'y a pas de connexion entre neurones d'une mme couche et les connexions ne se font qu'avec les neurones 23

des couches avales (fig. 4). Habituellement, chaque neurone d'une couche est connect tous les neurones de la couche suivante et celle-ci seulement. Ceci nous permet d'introduire la notion de sens de parcours de l'information (de l'activation) au sein d'un rseau et donc dfinir les concepts de neurone d'entre, neurone de sortie. Par extension, on appelle couche d'entre l'ensemble des neurones d'entre, couche de sortie l'ensemble des neurones de sortie. Les couches intermdiaires n'ayant aucun contact avec l'extrieur sont appels couches caches. Couche d'entre

Couche cache

Couche de sortie Figure 4. Dfinition des couches d'un rseau multicouche. Rseau connexions locales : Il s'agit d'une structure multicouche, mais qui l'image de la rtine, conserve une certaine topologie. Chaque neurone entretien des relations avec un nombre rduit et localis de neurones de la couche avale (fig. 5). Les connexions sont donc moins nombreuses que dans le cas d'un rseau multicouche classique.

Figure 5. Rseau connexions locales Rseau connexions rcurrentes : les connexions rcurrentes ramnent l'information en arrire par rapport au sens de propagation dfini dans un rseau multicouche. Ces connexions sont le plus souvent locales (fig. 6).

24

Figure 6. Rseau connexions rcurrentes Rseau connexion complte : c'est la structure d'interconnexion la plus gnrale (fig. 7). Chaque neurone est connect tous les neurones du rseau (et lui-mme).

Figure 7. Rseau connexions complte Il existe de nombreuse autres topologies possibles, mais elles n'ont pas eu ce jour la notorit des quelques unes que nous avons dcrites ici. 4 Fonctionnement 4.1 Perceptron Avant d'aborder le comportement collectif d'un ensemble de neurones, nous allons prsenter le Perceptron (un seul neurone) en phase d'utilisation. L'apprentissage ayant t ralis, les poids sont fixes. Le neurone de la figure 8 ralise une simple somme pondre de ses entres, compare une valeur de seuil, et fourni une rponse binaire en sortie. Par exemple, on peut interprter sa dcision comme classe 1 si la valeur de x est +1 et classe 2 si la valeur de x est -1. x = f (a) +1 x e2 w2 S -1 a

e1

w1

25

Figure 8. Le Perceptron : structure et comportement. Les connexions des deux entres e1 et e2 au neurone sont pondres par les poids w1 et w2. La valeur de sortie du neurone est note x. Ele est obtenue aprs somme pondre des entres (a) et comparaison une valeur de seuil S. Question : Sachant que les poids du Perceptron deux entres sont les suivants : w1 = 0.5, w 2 = 0.2 et que la valeur de seuil est S = 0.0, dterminez son comportement, sachant que les comportements du ET logique, OU logique et OU exclusif sont rappels Table 1 : ET e1 e2 11 1 1-1 -1 -11 -1 -1-1 -1 OU e2 1 1 1 -1 OU Exclusif e1 e2 x 1 1 -1 -1 1 -1 -1 1

x 1 1 -1 -1

e1 1 -1 1 -1

x 1 1 -1 -1

Rponse : OU 4.2 Rseau multicouche en phase d'association Le comportement collectif d'un ensemble de neurones permet l'mergence de fonctions d'ordre suprieure par rapport la fonction lmentaire du neurone. Imaginer de prime abord un tel comportement n'est pas facile, nous nous appuyons sur un exemple illustratif et donc rductionniste. Soit un rseau multicouche compos de 361 (19 x 19), 25 et 361 neurones. Ce rseau a appris associer la lettre "a" prsente en entre la mme lettre en sortie (fig.9). Prsentons au rseau cette lettre avec quelques erreurs : un certain nombre de pixels ont t invers (ils sont passs de blanc noir ou inversement). L'image est compose de 19 x 19 pixels, chacun de ces pixels est associ un neurone de la couche d'entre. Chacun des 25 neurones de la couche cache reoit 361 connexions (une pour chaque neurone d'entre) et envoie sa sortie chacun des neurones de la couche de sortie (au nombre de 361). Dans notre exemple, la couche cache se compose de 25 neurones, mais ce nombre, la diffrence des couches d'entre et de sortie, n'est pas impratif. Il y a donc 2 . (361 . 25) = 18050 connexions dans le rseau.

26

E

S

Figure 9. Comportement en phase de reconnaissance d'un rseau de neurone multicouche lors d'un tche d'auto-association. Les neurones sont binaires. La valeur d'activation de chaque neurone est indique par la hauteur de la colonne. Les neurones sont rangs par couche, tous les neurones d'une couche sont connexts tous les neurones de la couche suivante (avale). La premire tape code l'image d'entre sur le rseau. Il s'agit pour chaque neurone de la couche d'entre de fixer la valeur de son tat selon la couleur du pixel correspondant. Si les neurones qui composent le rseau sont binaires, on choisit arbitrairement de coder un pixel noir par un niveau d'activation du neurone gal 1 ; si le pixel est blanc alors le niveau d'activation du neurone correspondant est gal 0. La seconde tape est celle du calcul de la rponse du rseau qui se dcompose en autant de sous-tapes qu'il y a de couches dans le rseau. Ainsi, chaque neurone de la couche d'entre envoie sa valeur aux neurones de la couche cache. Chacun des neurones de la couche caches est en fait un Perceptron 361 entres. Chacun des neurones ralise la somme pondre de ses entres et seuille. Ce processus est effectu en parallle et indpendamment pour tous les neurones de la couche cache. Lorsque le vecteur d'activation de la couche cache a t obtenu, le mme processus est rpt avec les neurones de la couche de sortie. On considre ceux-ci comme 361 Perceptrons indpendants 25 entres. La dernire tape est l'interprtation du vecteur d'activation de la couche de sortie par l'exprimentateur. Dans notre cas, on ralise l'opration inverse du codage initial, savoir 27

associer un pixel noir chacun des neurones de la couche de sortie dont la valeur d'activation est gal 1, un pixel blanc dans le cas contraire. Dans la figure 9, il faut remarquer que si les vecteurs d'activation des couches d'entre et de sortie semblent directement interprtables, il n'en est rien en ce qui concerne la couche cache. Lorsque les neurones qui composent le rseau sont valeur continue, les possiblits offertes sont plus nombreuses. L'image d'entre peut tre compos de plusieurs niveaux de gris. On associe alors arbitrairement chaque niveau de gris un niveau d'activation du neurone spcifique. Le calcul du vecteur d'activation de la couche cache reste identique dans son principe avec cependant le fait que l'tat de chaque neurone n'est plus binaire. L'interprtation de la rponse du rseau fourni une image compose de niveaux de gris. 4.3 Rseau connexion complte Chaque vecteur d'activation reprsente la rponse du rseau une date particulire. Pour faciliter la reprsentation, nous avons dpli dans l'espace les volutions temporelles du rseau connexion complte (trois cycles fig. 10). D'un instant au suivant, chaque neurone recalcule indpedemment et en parallle son tat. Rappelons que chacun des neurones est connect tous les autres, ce qui implique pour chacun d'entre eux de recevoir 361 connexions et d'envoyer sa sortie sur ses 361 voisins. La principale diffrence entre les volutions temporelles d'un rseau connexion complte et le calcul de la sortie dans un rseau multicouche est que pour le premier les poids des connexions entre deux volutions temporelles sont identiques, alors que pour le second, d'une couche l'autre les poids des connexions sont diffrents.

28

t=1

W

t= 2

W

t= 3

Figure 10. Evolution du vecteur d'activation d'un rseau connexion complte sur une priode de trois cycles. La matrice des poids W est complte (361 x 361 = 130321 poids). Entre deux "couches", c'est la mme matrice de poids. 4.4 Rseau inhibition latrale rcurrente. Les poids sont fixs a priori lors de la construction du rseau, il n'y a pas de phase d'apprentissage. La structure du rseau est reprsente sur la figure 11. Il y a une seule couche de neurones. Les connexions sont localises, chaque pixel d'entre est en relation (excitatrice) avec un nombre rduit de neurones. De plus, on remarque la prsence de connexions rcurrentes inhibitrices localises autour de chaque neurone. Pixels d'entre + + +

-

-

29

t= 1

b

t=3

t=6

Figure 11. Rseau inhibition latrale rcurrente. a) Architecture, chaque pixel d'entre est connect un ensemble de neurones par des connexions excitatrices. Sur le rseau, chaque neurone ralise des connexions locales inhibitrices. b) Comportement, seuls les pixels noirs de la forme d'entre envoient une information sur le rseau. Pour chaque neurone, il y a comptition entre l'excitation en provenance de l'entre et l'inhibition en provenance de ses voisins. On observe alors le dveloppement au cours du temps de sous-groupes d'activit significatifs (angles, intersections, extrmits, etc). En utilisation, une image est prsente en entre. Elle n'est pas code comme prcedemment : un groupe de neurones est associ chaque pixel dont la couleur dtermine le niveau d'activation. De plus, la diffrence d'un rseau multicouche classique, la rponse n'est obtenue qu'aprs stabilisation de l'tat de sortie. Le rgime transitoire est du au retour d'information depuis les neurones voisins. De fait, cette boucle doit tre ralise un certain nombre de fois avant que l'on obtienne une valeur fixe en sortie. 5 Conclusion Grce aux quelques exemples de comportements vus, il est facile de comprendre que la disparition d'un ou mme de plusieurs neurones (ou de connexions) ne provoque pas une rupture brutale du traitement. En fait, la dgradation du comportement est fonction de la quantit d'lments dtruits. Cette proprit est dsigne sous le terme de rsistance aux pannes. 30

Par rapport aux donnes biologiques recences au chapitre prcdent, nous constatons : - une rduction du nombre de connexions par neurone (de 10.000 quelques centaines maximum), - une rduction drastique du nombre de neurones pour un rseau artificiel (quelques centaines comparer aux mille milliards du cerveau), - une diminution de la complexit de la synapse et l'atypie des topologies proposes. La plupart des modles que nous allons dcouvrir sont des modles synchrones temps discrets et combinatoires, alors que le monde biologique est asynchrone et continu. Il est important de noter que la nature du message nerveux biologique (codage en frquence) devient dsormais combinatoire (codage spatial). Nous constatons que la complexit biologique n'est pas conserve. 6 Comportements combinatoire et squentiel (TD) Parmi les variables descriptives qui ne sont pas des variables d'entre, on appelle variables d'tat les variables dont la valeur n'importe quelle date, ajoute la valeur des entres, dterminent de manire unique les valeurs de toutes les autres. Les tats caractrisent les possibilits de mmorisation du systme : l'information qu'il peut retenir des stimuli passs et qui modifiera la rponse des stimuli futurs. Un systme est sans mmoire s'il n'y a pas de variables d'tat. Pour un tel systme, les rponses prsentes et futures ne peuvent en aucune manire tre affectes par des stimuli passs. De tels systmes sont appels combinatoires, car leur rponse n'importe quelle date est uniquement fonction du stimulus reu cet instant. Question : Donnez l'quation dcrivant le comportement de ces systmes. Reponse : Le comportement de ces systmes est dfini par l'quation (F est la fonction ralise, E(t) est l'entre, S(t) est la sortie) : S(t) = F(E(t)) Un grand nombre de modles neuronaux, parmi les plus utiliss, n'ont pas de variables d'tat et montrent donc un comportement combinatoire : rseau multicouche, carte autoorganisatrice, rseau ART1, ... Inversement, un systme tats rpondra diffremment des entres prsentes et identiques selon l'histoire de ses stimuli d'entres passs. Question : Son comportement, nomm comportement squentiel, est donc dfini par une quation de la forme ? Reponse : S(t) = F(E(t), E(t-1), E(t-2), ..., E(1), E(0))

31

Un petit nombre de modles connexionnistes montrent un comportement squentiel, nous y revenons au chapitre Questions rcapitulatives.

32

4 ApprentissageL'apprentissage est vraisemblablement la proprit la plus intressante des rseaux neuronaux. Elle ne concerne cependant pas tous les modles, mais les plus utiliss. Dfinition : L'apprentissage est une phase du dveloppement d'un rseau de neurones durant laquelle le comportement du rseau est modifi jusqu' l'obtention du comportement dsir. L'apprentissage neuronal fait appel des exemples de comportement. Dans le cas des rseaux de neurones artificiels, on ajoute souvent la description du modle l'algorithme d'apprentissage. Le modle sans apprentissage prsente en effet peu d'intrt. Dans la majorit des algorithmes actuels, les variables modifies pendant l'apprentissage sont les poids des connexions. L'apprentissage est la modification des poids du rseau dans l'optique d'accorder la rponse du rseau aux exemples et l'exprience. Il est souvent impossible de dcider priori des valeurs des poids des connexions d'un rseau pour une application donne. A l'issu de l'apprentissage, les poids sont fixs : c'est alors la phase d'utilisation. Certains modles de rseaux sont improprement dnomms apprentissage permanent. Dans ce cas il est vrai que l'apprentissage ne s'arrte jamais, cependant on peut toujours distinguer une phase d'apprentissage (en fait de remise jour du comportement) et une phase d'utilisation. Cette technique permet de conserver au rseau un comportement adapt malgr les fluctuations dans les donnes d'entres. Au niveau des algorithmes d'apprentissage, il a t dfini deux grandes classes selon que l'apprentissage est dit supervis ou non supervis. Cette distinction repose sur la forme des exemples d'apprentissage. Dans le cas de l'apprentissage supervis, les exemples sont des couples (Entre, Sortie associe) alors que l'on ne dispose que des valeurs (Entre) pour l'apprentissage non supervis. Remarquons cependant que les modles apprentissage non supervis ncessite avant la phase d'utilisation une tape de lablisation effectue l'oprateur, qui n'est pas autre chose qu'une part de supervision. 1 La loi de Hebb, un exemple d'apprentissage non supervis La loi de Hebb (1949) s'applique aux connexions entre neurones, comme le reprsente la figure 1. wij i j

Figure 1. i le neurone amont, j le neurone aval et wij le poids de la connexion. 33

Elle s'exprime de la faon suivante "Si 2 cellules sont actives en mme temps alors la force de la connexion augmente". La modification de poids dpend de la coactivation des neurones prsynaptique et post synaptique, ainsi que le montre la table 1. xi et xj sont respectivement les valeurs d'activation des neurones i et j, wij (drive partielle du poids) correspond la modification de poids ralise. xi 0 0 1 1 xj 0 1 0 1 wij 0 0 0 +

Table 1. La loi de Hebb. La loi de Hebb peut tre modlise par les quations suivantes (w(t+1) est le nouveau poids, wij(t) l'ancien) : wij (t+1) = w ij (t) +wij (t) wij (t) = xi . x j (la coactivit est modlise comme le produit des deux valeurs d'activation) L'algorithme d'apprentisage modifie de faon itrative (petit petit) les poids pour adapter la rponse obtenue la rponse dsire. Il s'agit en fait de modifier les poids lorsqu'il y a erreur seulement. 1/ Initialisation des poids et du seuil S des valeurs (petites) choisies au hasard. 2/ Prsentation d'une entre El = (e1, ... e n) de la base d'apprentissage. 3/ Calcul de la sortie obtenue x pour cette entre : a = (w i . e i) - S (la valeur de seuil est introduite ici dans le calcul de la somme pondre) x = signe (a) ( si a > 0 alors x = +1 sinon a 0 alors x = -1 ) 4/ Si la sortie x est diffrente de la sortie dsire dl pour cet exemple d'entre El alors modification des poids ( est une constante positive, qui spcifie le pas de modification des poids) : wij (t+1) = w ij (t) + .(x i . x j) 5/ Tant que tous les exemples de la base d'apprentissage ne sont pas traits correctement (i.e. modification des poids), retour l'tape 2. Exemple d'application de l'algorithme d'apprentissage de Hebb :

34

Choisissons pour les neurones un comportement binaire. Les entres e1 et e2 sont considres comme des neurones (fig. 2). e1 w1 x e2 w2

Figure 2. Rseau de 3 neurones (les 2 entres sont considres comme deux neurones) pour la rsolution du problme exprim table 2. Nous allons raliser l'apprentissage sur un problme trs simple. La base d'apprentissage est dcrite par la table 2 : e1 e2 x 1 1 -1 -1 1 -1 1 -1 1 1 -1 -1 (1) (2) (3) (4)

Table 2. Base d'exemples d'apprentissage pour la loi de Hebb. 1/ Conditions initiales : = +1, les poids et le seuil sont nuls. 2/ Calculons la valeur de x pour l'exemple (1) : 3/ a = w1.e 1 + w 2.e 2 - S = 0.0 . 1 + 0.0 . 1 - 0.0 = 0 a 0 => x = -1 4/ La sortie est fausse, il faut donc modifier les poids en applicant : w1 = w 1 + e1.x = 0.0 + 1.1 = 1 w2 = w 2 + e2.x = 0.0 + 1.1 = 1 2/ On passe l'exemple suivant (2) : 3/ a = 1.1 + 1.-1 -0.0 = 0 a 0 => x = -1 4/ La sortie est fausse, il faut donc modifier les poids en applicant : w1 = 1 + 1.1 = 2 w2 = 1 + 1.-1 = 0 / L'exemple suivant (3) est correctement trait : a = -2 et x = -1 (la sortie est bonne). On passe directement, sans modification des poids l'exemple (4). Celui-ci aussi est correctement trait. On revient alors au dbut de la base d'apprentissage : l'exemple (1). Il est correctement trait, ainsi que le second (2). L'algorithme d'apprentissage est alors termin : toute la base d'apprentissage a t passe en revue sans modification des poids. Question : Soit le rseau compos de 4 neurones d'entre et d'un neurone de sortie (w1 = w 2 = w3 = w 4 = S = 0) et la base d'apprentissage : 35

e1 1 1 1 1 1 1 -1

e2 -1 1 1 -1

e3 1 1 -1 1

e4 -1 1 -1 -1

x 1

Recherchez les valeurs de poids qui rsolvent le problme. Rponse : Cet algorithme d'apprentissage ne permet pas de trouver une solution ce problme. Nous ne sommes capables d'exprimer une combinaison des activations en corrlation avec la sortie. Pourtant, il existe des solutions comme par exemple (w1 = -0.2, w 2 = -0.2, w 3 = 0.6, w4 = 0.2). Un algorithme de calcul efficace pour ce problme est l'apprentissage sur le modle du Perceptron abord au chapitre suivant. Remarque : Il existe une possibilit de calculer les valeurs des connexions partir des exemples, sans utiliser l'algorithme itratif. Si l'on initialise les poids zro et que l'on prsente les exemples de la base d'apprentissage, la valeurs des poids l'issue de l'apprentissage est : wij = l xil . x jl o l est l'indice de l'exemple dans la base d'apprentissage 2 La rgle d'apprentissage du Perceptron, un exemple d'apprentissage supervis La rgle de Hebb ne s'applique pas dans certain cas, bien qu'une solution existe (cf exercice du paragraphe prcdent). Un autre algorithme d'apprentissage a donc t propos, qui tient compte de l'erreur observe en sortie. L'algorithme d'apprentissage du Perceptron est semblable celui utilis pour la loi de Hebb. Les diffrences se situent au niveau de la modification des poids. 1/ Initialisation des poids et du seuil S des valeurs (petites) choisies au hasard. 2/ Prsentation d'une entre El = (e1, ... e n) de la base d'apprentissage. 3/ Calcul de la sortie obtenue x pour cette entre : a = (wi . e i) - S x = signe (a) ( si a > 0 alors x = +1 sinon a 0 alors x = -1 ) 4/ Si la sortie x du Perceptron est diffrente de la sortie dsire dl pour cet exemple d'entre El alors modification des poids ( le pas de modification) : wi(t+1) = w i(t) + .((d l - x).e i) Rappel : d l = +1 si E est de la classe 1, d l = -1 si E est de la classe 2 et (d l - x) est une estimation de l'erreur. 5/ Tant que tous les exemples de la base d'apprentissage ne sont pas traits correctement (i.e. modification des poids), retour l'tape 2. 36

Exemple de fonctionnement de l'algorithme d'apprentissage du Perceptron : Base d'exemples d'apprentissage : e1 e2 d 1 -1 -1 1 1/ 2/ 3/ 4/ 2/ 3/ 4/ 1 1 -1 -1 1 -1 -1 -1 (1) (2) (3) (4)

Conditions initiales : w1 = -0.2, w2 = +0.1, S = 0, ( = +0.1) a(1) = -0.2 + 0.1 -0.2 = -0.3 x(1) = -1 (la sortie dsire d(1) = +1, d'o modification des poids) w1 = -0.2 + 0.1 . (1 + 1) . (+1) = 0 w2 = +0.1 + 0.1 . (1 + 1) . (+1) = +0.3 a(2) = +0.3 - 0.2 = +0.1 x(2) = +1 w1 = 0 + 0.1 . (-1 - 1) . (-1) = +0.2 w2 = +0.3 + 0.1 . (-1 - 1) . (+1) = +0.1 Faux

2-3/ a(3) = -0.2 -0.1 -0.2 = -0.5 Ok 2-3/ a(4) = +0.2 - 0.1 - 0.2 = -0.1 Ok 2-3/ a(1) = +0.2 + 0.1 - 0.2 = +0.1 Ok 2-3/ a(2) = -0.2 + 0.1 - 0.2 = -0.1 Ok 5/ Tous les exemples de la base ont t correctement traits, l'apprentissage est termin. Le Perceptron ralise une partition de son espace d'entre en 2 classes (1 et 2) selon la valeur de sa sortie (+1 ou -1). La sparation de ces deux zones est effectue par un hyperplan (fig. 3). L'quation de la droite sparatrice est : w1.e 1 +w 2.e 2 - S = 0

37

e2

(-1,+1)

(+1,+1)

classe 1

classe 2(+1,-1)

e1

(-1,-1)

Figure 3. Partition de l'espace d'entre de dimension 2 ralise par un Perceptron se comportant comme un ET boolen. Les 4 exemples de la base d'apprentissage sont les 4 artes du carr. Les paramtres du Perceptron sont : w1 = 0.2, w2 = 0.1 et S = -0.2. Remarque : si les exemples d'apprentissage taient diffrents, par exemple reprsentant le OU, alors c'est le comportement du OU qui aurait t appris avec le mme algorithme d'apprentissage. D'autre part, il est possible de considr que le seuil S est le poids d'une connexion dont le neurone amont est toujours dans l'tat -1. La valeur de seuil se modifie alors en mme temps que les autres poids. La convergence de l'algorithme vers la solution est plus rapide (si cette solution existe). On appelle itration d'apprentissage, le passage de tous les exemples de la base d'apprentissage une fois dans l'algorithme. Question : Reprendre la question prcdente (apprentissage non supervis) et la rsoudre en applicant l'apprentissage du Perceptron. On ne modifiera pas le seuil S dans cet exemple prcis. Rponse : w1 = -0.2, w2 = -0.2, w3 = 0.6, w4 = 0.2 3 TP Perceptron 1/ Simuler la fonction ET avec des poids fixes et sans apprentissage. Les paramtres du Perceptron sont les suivants : w1 = 0.2, w2 = 0.1 et S = -0.2. Les exemples de comportement vrifier (ET) sont rappels sur la table suivante : e1 e2 d 1 -1 -1 1 1 -1 1 -1 -1 (1) (2) (3) 38

1

-1

-1

(4)

2/ Pour la mme base d'apprentissage, raliser l'apprentissage (ne pas oublier la modification du seuil). Le choix des conditions initiales est confi au hasard. Dans un premire tape, il est conseill de refaire pas pas l'exemple de cet ouvrage : w1 = -0.2, w2 = +0.1, S = 0, = +0.1 (Conditions initiales). Puis faites varier . 3/ Essayer d'apprendre le XOR. e1 e2 d 1 -1 -1 1 1 1 -1 -1 1 -1 1 -1 (1) (2) (3) (4)

4/ Sachant que le XOR peut s'crire comme : ((e1 ET (NON(e2))) OU (NON(e1) ET e2)) proposez une solution pour raliser le XOR avec 3 Perceptrons. (NON(1) = -1 et inversement) e1 e2 d 1 1 1 (1) -1 1 1 (2) -1 -1 -1 (3) 1 -1 1 (4) Table du OU L'apprentissage de chacun des Perceptrons est ralis sparement des autres. Qu'en dduisez-vous quant aux possibilits d'un Perceptron ? d'une association de Perceptrons ? 5/ Raliser la fonction ET et OU avec 2 neurones. Dans ce cas, le rseau se compose de 2 entres, 2 neurones et 4 poids. L'apprentissage de chacune des fonctions n'est pas spar. Il faut donc construire une base d'apprentissage spcifique de ce problme (qui ne comprendra pas plus de 4 exemples). 6/ Reconnaissance de caractre avec un Perceptron. Un caractre est cod sur 4 x 7 = 28 pixels. Il y donc 28 entres sur le perceptron. Tester la gnralisation et la rsistance au bruit en proposant l'issu de l'apprentissage des caractres "abims". 7/ Reconnaissance de caractres : on associe a priori un caractre par neurone. Il faut donc autant de Perceptrons que de caractres reconnaitre. Tester la gnralisation. Etudier les erreurs, sur quels caractres apparaissent-elles, comment peut-on y remdier ?

39

On prendra soin de cette construction de la base de caractres, qui est aussi utilise dans les TP relatifs aux mmoires associatives, cartes auto-organisatrices, rseaux ART, rseaux multicouches.

40

5 Mmoires associativesLes mmoires associatives ont t proposs par plusieurs auteurs ds 1977 dont T. Kohonen. Nous nous appuyons sur ses travaux qui ont t admirablement rsum par C. Jutten. Dans mmoire associative, le terme "mmoire" fait rfrence la fonction de stockage de l'information et le terme "associative" au mode d'adressage. L'expression "mmoire adressable par son contenu" est aussi souvent employe. L'information mmorise ne peut tre obtenue une adresse prcise, le seul moyen d'accs est de fournir une information. Dans le cas des mmoires auto-associatives, il faut fournir tout ou partie de l'information mmorise. Ces mmoires sont donc principalement utilises pour la reconstruction de donnes : l'oprateur fourni une information partielle que le systme complte. Des exprimentation dans ce sens ont t faite avec l'annuaire lectronique o l'utilisateur tape le maximum d'informations relatives sa demande, que le systme complte et corrige (fig. 1). Les mmoires htro-associatives se diffrencient des prcdentes en rendant une information diffrente. Par exemple, si la clef d'entre est une image de visage, le systme rpond par le nom de la personne correspondante. Appris : Jean Dupond, 22 rue du 29 Fvrier, 99001 Asnires, 66 38 70 29 Clef : Jean Dupont, rue du 29 Septembre, Asnires, Rsultat : Jean Dupond, 22 rue du 29 Fvrier, 92501 Asnires, 66 38 70 29 Figure 1. Exemples d'interprtations (et de corrections) de requtes d'un utilisateur de l'annuaire lectronique par une mmoire auto-associative (il peut subsister des erreurs). 1 Structure La structure neuronale d'une mmoire associative est similaire celle d'une carte autoorganisatrice sans la notion de voisinage (cf chapitre suivant), ou celle d'un ensemble de Perceptrons tous aliments par les mmes entres. La figure 1 montre cette architecture o chaque entre est connecte par des poids modifiables toutes les sorties. La dimension de la couche d'entre est de n neurones, celle de sortie de p. Il y a donc n.p poids dans ce rseau. e1 w1 ... ... en wp.n E W

x1 ...

xp

S

Figure 1. Structure d'une mmoire associative

41

2 Fonctionnement Le principe de fonctionnement d'une mmoire associative se rsume ainsi. Soit (E1, E2, ..., E l, ...) un ensemble de vecteurs de Rn. A chaque vecteur El appel "prototype" de l'espace d'entre est associ un vecteur de sortie Sl. La relation d'association entre El et Sl est linaire. Elle est donne par l'quation : Sl = W . E l o W est la matrice des poids de dimension (p.n). C'est une matrice rectangulaire de p lignes et n colonnes. L'objectif est de faire raliser ce rseau des associations entre les vecteurs d'entres et les vecteurs de sortie dsirs. Ceci ncessite une tape d'apprentissage. 3 Apprentissage L'apprentissage est de type supervis. La base d'apprentissage est compose de couple de vecteurs d'entre et des vecteurs de sortie associs. L'algorithme d'apprentissage initial fait appel la rgle de Hebb. Une entre El est applique sur les neurones d'entre du rseau et l'on force dans le mme temps les valeurs des neurones de sortie Sl. Les poids de chaque connexion est alors modifi selon la coactivit du neurone affrent (entre) et du neurone effrent (sortie). Cet algorithme est itr sur tous les exemples de la base d'apprentissage. A la fin du processus d'apprentissage, si la matrice W est initialement nulle (W = 0), on obtient : W = l S l . E lT o ElT est la transpose du vecteur El (qui transforme un vecteur ligne en un vecteur colonne et rciproquement) Cette expression est en fait un raccourci mathmatique au processus d'apprentissage itratif mettant en jeu une rgle locale de modification des poids. 4 Rsultats

42

a b c d Figure 2. Illustration du fonctionnement d'une mmoire auto-associative (d'aprs Kohonen). a) Images originales apprises gauche. b) Clefs soumises en entre au rseau. c) Images restitues par le rseau lorsque 160 images ont t stockes. d) Images restitues par le rseau lorsque 500 images ont t stockes.

5 TP Mmoires associatives 1/ Ecrire le programme d'une mmoire associative, sachant que les prototypes sont les caractres construits lors du TP Perceptron (4 x 7 pixels). 43

2/ Tester la gnralisation et la rsistance au bruit en proposant, l'issu de l'apprentissage, des caractres "abims". 3/ Tester les capacits de mmorisation de ce rseau en augmentant la taille de la base d'apprentissage (environ 15% du nombre de neurones dans le rseau). 4/ Donner quelques explications relatives la gnration des erreurs par le systme, sur quels caractres apparaissent-elles, comment peut-on y remdier ? (notion d'orthogonalit au sein de la base d'exemples)

44

6 Carte auto-organisatriceCe modle de carte auto-organisatrice appartient la classe des rseaux comptition. Les neurones de la couche de sortie entrent en comptition, de telle faon qu'habituellement, un seul neurone de sortie est activ pour une entre donne. Cette comptition entre les neurones est ralise grce des connexions latrales inhibitrices. Nous prsentons deux modles parmi les plus intressants : la carte auto-organisatrice et le rseau ART1 (au chapitre suivant). Il faut noter que tous deux sont issus de reflexions neuromimtiques : ils se placent originellement comme des modlisation de processus biologiques. Ils ont depuis t rcuprs par les ingnieurs connexionnistes comme le montre les applications prsentes. Les cartes auto-organisatrices sont depuis longtemps (!) connues (1977), mais ce n'est que trs rcemment (1990) que des applications les utilisent : carte phontique, diagnostic de pannes, compression d'images, robotique, etc. Ces cartes s'organisent par rapport aux exemples d'entre prsents en respectant les contraintes topologiques de l'espace d'entre. Il y a mise en correspondance de l'espace d'entre avec l'espace du rseau. Les zones voisines de l'espace d'entre sont voisines sur la carte auto-organisatrice (fig. 1) .. .. . . .. . . . ...... .. .. . . .. . . . ...... .. .. . . .. . . . ...... e2 . . .. .. . . . .. .. . . . .. .. . . ... . . . .. . . . ... . . . . ... ... . . . ... . . . .. . . . ... . . . . ... ... . . . ... . . . .. . . . ... . . . . ... ... . . e1 1 Structure 45 . . .. .. . . . .. .. . . . .. .. . . ... . . . .. . . . ... . . . . ... ... . . . ... . . . .. . . . ... . . . . ... ... . . . ... . . . .. . . . ... . . . . ... ... . . .. .. . . .. . . . ...... .. .. . . .. . . . ...... .. .. . . .. . . . ......

Figure 1. Mise en correspondance de l'espace d'entre avec l'espace du rseau. L'espace d'entre avec les exemples (points) d'apprentissage est reprsent gauche. A l'issue de l'apprentissage, chacun des 9 neurones de la carte auto-organisatrice correspond une zone de l'espace d'entre (aussi nomme champ rcepteur) en bas droite. Tout point tir dans un champ rcepteur active le neurone correspondant et lui seul.

La figure 2 dcrit le rseau organis en une couche deux dimensions. Chaque neurone Nk est connect un nombre n d'entres au travers de n connexions plastiques de poids respectifs w. Il existe aussi des connexions latrales de poids fixes, excitatrices dans un proche voisinage. e1 ... en E

w11 ...

wpn

W

x1 ...

xp

S

Figure 2. Architecture d'une carte auto-organisatrice (rseau 2D). Chaque neurone est connect ses 4 plus proches voisins. Ces connexions sont de poids fixes. Tous les neurones sont connects aux entres par des connexions plastiques. 2 Fonctionnement A la prsentation d'un eentre, un neurone sur la carte est slectionn. Il correspond le plus possible cette entre (minimisation d'une distance). On peut ainsi raliser des classifications ou de la reconnaissance de formes. Le modle de rseau neuronal propos par Kohonen montre des proprits d'auto-organisation et de reprsentation topologique de l'espace d'entre (espace affrent). 3 Apprentissage La loi de modification des poids des connexions (poids synaptiques) est drive de celle de Hebb. Dans le cas o les exemples d'entres sont des vecteurs deux composantes, l'algorithme d'apprentissage est le suivant : 1/ Initialisation des poids des valeurs alatoires. 2/ Prsentation d'une entre El = (e1, e 2). 3/ Calcul de la distance de chacun des neurones par rapport e1 et e2 xj = |wj1 - e1| + |wj2 - e2| 4/ Slection du neurone le plus proche : Min(x)= xi 5) Modification des poids pour le neurone choisi (i) et ses 4 plus proches voisins (k). et sont deux paramtres correspondant au pas de modification des poids. pour le neurone choisi et pour ceux du voisinnage. wi1 = w i1 + . (e 1 - wi1) wi2 = w i2 + . (e 2 - wi2) 46

wk1 = w k1 + . (e 1 - wk1) wk2 = w k2 + . (e 2 - wk2) 6) Tant que les performances sont insuffisantes : Retour l'tape 2 et slection de l'exemple suivant dans la base d'apprentissage. Remarque : Cet algorithme est un raccourci mathmatique. Originellement, le modle est biologiquement plus plausible et aussi plus complexe. L'unit de traitement n'est pas le neurone mais la colonne corticale (ensemble d'environ 200 neurones). Un voisinage est dfini autour de chaque colonne corticale. Son action est la fois excitatrice dans un proche voisinage et inhibitrice dans un voisinage plus lointain (fig. 3 et 4) : Interaction

+ -

+ d_e voisinage

Figure 3. Influence d'un neurone sur ses voisins en fonction de l'loignement. + : excitatrice (w > 0), - : inhibitrice (w > 0), d_e : taille du voisinage excitateur.

1

2

3 d_e Figure 4. Fonctionnement au cours du temps du rseau. On voit se dgager progressivement, pour une mme information, un foyer d'excitation alors que les autres neurones sont inhibs. 4 Rsultats

47

Les informations reues par le rseau dtermine un arrangement spatial optimal des neurones. Les figures graphiques obtenues peuvent tre lues comme reprsentant pour chaque neurone l'endroit du monde extrieur sur l'espace des poids pour lequel son activit est maximale (slectivit de position).

.

1

40

200

1000

Figure 5. Le rseau apprend l'espace carr partir d'un tat initial caractris par des poids rpartis alatoirement autour d'une valeur centrale. Chaque point est dfini par un couple (e1, e2). Les liens de voisinage topologiques sont matrialiss par des traits reliant chaque point. Sous le graphe figure le nombre d'itrations correspondant au nombre de points utiliss pour l'apprentissage (d'aprs Y. Coiton). La figure 6 illustre la proprit d'arrangement spatial optimal. Le rseau est ici une dimension (seulement deux voisins) et l'espace des entres est deux dimensions.

a b Figure 6. Arrangement spatial optimal pour un rseau une dimension, a) dans un carr, b) dans un rectangle. Illustration de l'adquation entre la dimension et la forme du rseau avec l'espace des entres. L'exemple choisi est celui d'une carte triangulaire quilatrale (chaque ct du triangle comporte le mme nombre de neurones). Hormis sur la priphrie, chaque neurone possde six voisins.

48

a b Figure 7. Illustration de l'adquation entre la forme de la carte et la forme de l'espace. a) Carte carr dans un triangle, b) Carte triangulaire dans le mme triangle. L'arrangement spatial optimal; est une autre proprit remarquable des cartes, qui s'organisent de faon approximer la fonction densit de probabilit des vecteurs d'entre. Nous prsentons deux exemples d'occupation non uniforme d'un espace carr par un rseau carr (figure 8), selon la distribution des points tirs durant l'apprentissage.

a b Figure 8. Occupation non uniforme d'un carr par un rseau carr. Les neurones se concentrent dans la zone de distribution plus leve. a) Le centre de l'espace est beaucoup plus reprsent au niveau des exemples d'apprentissage. b) Chaque entre e1 est la moyenne arithmtique de deux autres valeurs tires alatoirement de faon uniforme. Les entres e2 sont uniformment rparties (montres sur la figure) On peut construire en simulation logicielle des cartes 3D (6 voisins), voir 4D ou nD. Les cartes auto-organisatrices trouvent une certaine justification biologique dans l'existence au niveau des cortex moteur et sensoriel de cartes somatotopiques. Chaque partie du corps est reprsente : c'est l'homonculus (fig. 9).

49

Figure 9. L'homonculus : la surface occupe au niveau corticale est fonction de la sensibilit sensorielle ou prcision motrice de la partie du corps correspondante. Ainsi, la surface occupe par le pouce est suprieure celle de la cuisse (arrangement spatial optimal). D'autre part, la topologie est conserve : les doigts sont l'un cot de l'autre, etc. Remarque : l'amlioration des performances de l'algorithme d'apprentissage peut tre obtenue par l'introduction de deux nouveaux paramtres d'action comparable au phnomne biologique d'accoutumance (cf annexe). 5 Application la robotique On utilise la capacit de reprsentation spatiale de la carte auto-organisatrice pour piloter un bras de robot. Il s'agit de mettre en correspondance l'espace cartsien dans lequel travaille l'oprateur humain avec l'espace du robot (coordonnes de chacun de ses axes en valeurs angulaires). Lorsque cette transformation de coordonnes est ralise de manire algorithmique, elle fait appel des inversions de matrices, coteuses en temps de calcul, qui gnrent ventuellement des problmes de conflit lorsque la solution n'est pas unique, ou lorsque les limites de la mcanique (bute) interdisent certaines positions. Le passage coordonnes cartsiennes / coordonnes angulaires et rciproquement est trs simple en utilisant la carte autoorganisatrice. Structure : une carte auto-organisatrice de n x n neurones (habituellement quelques centaines) avec 6 entres par neurones (3 coordonnes cartsiennes et 3 coordonnes angulaires) ralise la 50

partie sensorielle du systme. La partie motrice est confie une couche de 3 Perceptrons (recevant une entre de chaque neurone de la carte), dont les sorties pilotent les moteurs du robot (fig. 10). 3 2 z x, y, z 1,2,3

1 x y

Couche sensorielle

Couche motrice

Figure 10. Architecture de Neurobot (Y. Coiton). Chaque neurone de la carte auto-organisatrice reoit 3 entres cartsiennes (espace de l'oprateur) et 3 entres angulaires (espace du robot). La couche motrice se compose de 3 Perceptrons correspondant aux 3 valeurs angulaires pour chacun des 3 moteurs du robot. Fonctionnement : une position pour l'extrmit du bras de robot est spcifie en coordonnes cartsiennes par l'oprateur. On rcupre en sortie de la couche motrice les coordonnes angulaires correspondant la mme position. En fait, si cette postion atteindre est loigne, un certain nombre de positions intermdiaires sont gnres par le rseau (fig. 11). y initial

intermdiaires

but

a

x

b

51

Figure 11. Illustration du fonctionnement dans le plan (x, y). a) Lorsqu'un point atteindre est spcifi en coordonnes cartsiennes, le systme gnre un certain nombre de positions angulaires intermdiaires qui conduisent au but. b) Au niveau de la carte auto-organisatrice, tout ce passe comme si on avait deux foyers d'activit (initial et but). Le principe de fonctionnement de la carte impose de rduire les foyers d'activit celui du but, gnrant par l des foyers intermdiaires. Apprentissage : la base d'apprentissage est construite en temps rel. Le bras de robot est dplac alatoirement dans l'espace des configurations possibles. Pour chaque position, les capteurs appropris fournissent la carte les 3 coordonnes cartsiennes et les 3 coordonnes angulaires. L'aprentissage sur la couche motrice est ralis par la rgle du Perceptron partir des coordonnes angulaires correspondantes. La dure de l'apprentissage est importante (quelques heures) du fait de la lenteur de dplacement de la mcanique. Quelques milliers d'exemples de positions sont ncessaires. Remarque : la prcision du dplacement est fonction du nombre de neurones sur la couche sensorielle. Plus ce nombre est lev, meilleur est la prcision. D'autre part, vu que l'espace modliser est 3 dimensions (cartsien), les rseaux auto-organisateurs 3-D (6 voisins) sont plus performants. 6 TP Compression d'images par carte auto-organisatrice La quantification vectorielle est l'une des mthodes de compression d'image parmi les plus employes. Nous allons raliser cette quantification en utilisant des cartes auto-organisatrices. 1/ Introduction Les images qui proviennent de la tlvision, de visioconfrence, de satellite, ou dapplications mdicales ... quelles quelles soient, reprsentent une quantit norme de donnes aprs digitalisation. Diminuer les cots de transmission ou de stockage est dun intrt trs ancien (par exemple, le code Morse). En ce qui concerne les applications aux communications, le but recherch est alors de minimiser la dure de transmission dun certain volume dinformations. Ceci apporte la fois une conomie sur le cot, une diminution des risques derreurs, une plus grande ergonomie et une plus grande performance, puisque les donnes sont achemines en un temps plus court. Les diverses mthodes de compression sont bases sur les techniques de prdiction, de transformation, ou de quantification vectorielle, avec des possibilits de combinaisons entre elles. Elles sont de deux types. Si la transformation ralise est rversible, la rduction utilise la redondance dinformations et aucune information nest perdue. Dans l'autre cas, la transformation est irrversible. Cest une rduction d'entropie et il y a perte dinformations.

52

Les performances de la compression sont mesures par : MSE (Mean Square Error) qui reprsente la diffrence entre limage initiale et limage reconstitue : erreurs2 ou bien, erreurs2 / pixel. Le taux de transmission (Bit Rate)= Nombre de bits / pixel (bpp) = (log2 nbre de vecteurs / nbre de pixels par bloc). 2/ La quantification vectorielle Une image est un objet analogique. Sa reprsentation spatiale est continue de mme que la valeur de la couleur en chacun de ses points. Pour modliser une image, il faut transformer limage analogique par une fonction dchantillonnage S, en une fonction discrte f(x,y) (x et y tant les coordones des pixels) dont lamplitude reprsente lintensit lumineuse. Ce processus est dcrit par la figure 12. Dans le cas particulier des images nayant quune seule couleur, lintensit en chaque point est appele niveau de gris. Le nombre plus ou moins lev de niveaux de gris spcifie la qualit de limage (par exemple : 256 niveaux de gris sont un critre de qualit). F (x,y) i image initiale continue S (x,y) fonction d'

Documents

Livre Touzet