These48

THSE de DOCTORAT de lUNIVERSIT PIERRE ET MARIE CURIE

Spcialit :

ROBOTIQUE

prsente

par Yacine OUSSAR

pour obtenir le titre de DOCTEUR de lUNIVERSIT PARIS VI

Sujet de la thse :

Rseaux dondelettes et rseaux de neuronespour la modlisation statique et dynamique

de processus.

Soutenue le 06 Juillet 1998

devant le jury suivant :

Mme S. THIRIA RapporteurM. S. CANU RapporteurM. G. DREYFUS ExaminateurM. P. GALLINARI ExaminateurM. S. KNERR ExaminateurM. L. PERSONNAZ Examinateur

A mon Pre, ma Mre et Zina.

Me tenant comme je suis,un pied dans un pays et lautre en un autre,

je trouve ma condition trs heureuse,en ce quelle est libre.

Ren Descartes(Lettre la princesse Elisabeth de Bohme,

Paris 1648).

Avant dintgrer le laboratoire dlectronique de lESPCI, je connaissaisMonsieur le Professeur Grard DREYFUS de rputation. Je ne savais pas alorsque jaurais un jour la chance de mener mon travail de thse au sein de sonquipe.

Mes plus vifs remerciements sont donc adresss au Professeur GrardDREYFUS qui ma tmoign de sa confiance en maccueillant dans sonlaboratoire. Au cours de ces annes de thse, sa disponibilit sans faille, sonsuivi, son souci de la valorisation des travaux accomplis, son calme inbranlabledevant les difficults, ont beaucoup contribu laboutissement de ce travail dethse. Quil trouve ici toute ma reconnaissance.

Monsieur Lon PERSONNAZ, Matre de Confrences, a guid mes premierspas dans la recherche en encadrant mes deux premires annes de thse. Jeresterai toujours impressionn par sa rigueur et son sens de la critique. Je tiens lui exprimer mes remerciements pour ses relectures de mon mmoire et sesremarques.

Pendant ces annes de thse, Mademoiselle Isabelle RIVALS, Matre deConfrences, et moi avons partag le mme bureau, ce qui ma permis plusieurs reprises de bnficier de ses connaissances. Je dois la remercier poursa grande disponibilit.

Jadresse de vifs remerciements Madame le Professeur Sylvie THIRIA, quia accept dexaminer mon mmoire de thse, et qui a manifest son intrt pourmon travail.

Je tiens exprimer ma reconnaissance Monsieur le Professeur StphaneCANU pour avoir examin mon manuscrit avec beaucoup dattention. Sesremarques constructives mont permis damliorer la version finale de monmmoire.

Je suis trs honor que Monsieur le Professeur Patrick GALLINARI aitaccept de consacrer un peu de son temps, en cette priode charge de l'anne,pour faire partie de mon jury.

Je tiens remercier galement Monsieur Stefan KNERR davoir galementaccept dtre membre de mon jury, effectuant ainsi un "retour aux sources" endpit de ses nombreuses activits.

Au cours de ces annes de thse au laboratoire dlectronique, jai eu lachance de ctoyer Brigitte QUENET, Matre de Confrences, dont lamiti et le

soutien mont beaucoup apport. Mon travail a bnfici de ses conseils et deses encouragements.

Comment aurais-je pu minitier aux systmes informatiques en rseau sans laprcieuse aide de Pierre ROUSSEL, Matre de Confrences, qui grce sonadministration rigoureuse des ressources informatiques du laboratoire, nousassure une bonne disponibilit des stations de travail ? Jai beaucoup apprcison sens de lhumour et sa convivialit.

Au travers de nombreuses discussions avec Herv STOPPIGLIA, jaibeaucoup appris sur les techniques de slection utilises dans ce mmoire. Jelen remercie vivement.

Je voudrais adresser ici ma profonde reconnaissance un ancien membre dulaboratoire dlectronique qui par sa sympathie, son aide et ses encouragementsa suscit en moi un vritable sentiment fraternel. Cest de Dominique URBANIque je veux parler .... Merci Doum !

Jadresse enfin ma plus vive reconnaissance Monique et Franois Zwobadaqui sont devenus ma famille franaise.

TABLE DES MATIRES

Introduction 1

CHAPITRE I. Modlisation de processuset estimation des paramtres dun modle 5

CHAPITRE II. Rseaux de fonctions dorsales 27

CHAPITRE III. Rseaux dondelettes(approche fonde sur la transforme continue) 46

CHAPITRE IV. Rseaux dondelettes(approche fonde sur la transforme discrte) 88

CHAPITRE V. tude de quelques exemples 115

Conclusion 137

Bibliographie 141

Annexe A 151

Annexe B 166

TABLE DES MATIRES DTAILLE

Introduction 1

CHAPITRE I. Modlisation de processuset estimation des paramtres dun modle 5

I. INTRODUCTION. 6

II. DFINITION DUN PROCESSUS ET DUN MODLE. 6

II.1 Processus. 6

II.2 Modles. 6

II.2.1 Quest ce quun modle ? 6

II.2.2 Buts dune modlisation. 6

II.2.3 Classification des modles. 7

II.2.3.1 Classification selon le mode de conception. 7

II.2.3.2 Classification selon lutilisation. 8

III. LES TAPES DE LA CONCEPTION DUN MODLE. 9

III.1 Choix dun modle-hypothse. 9

III.2 Du modle-hypothse au prdicteur ou au simulateur. 11

III.3 Prsentation de quelques modles-hypothses et de leurs prdicteurs associs. 11

III.3.1 Modle-hypothse dterministe. 12

III.3.2 Modles-hypothses non dterministes. 12

III.3.2.1 Lhypothse Bruit de sortie. 13

III.3.2.2 Lhypothse Bruit dtat. 13

IV. FONCTIONS PARAMTRES POUR LA MODLISATION "BOTE

NOIRE". 14

IV.1 Les fonctions paramtres linaires par rapport aux paramtres. 14

IV.2 Les fonctions paramtres non linaires par rapport aux paramtres. 15

IV.2.1 Les rseaux de neurones. 15

IV.2.2 Les rseaux de fonctions radiales (RBF pour Radial Basis Functions). 16

IV.2.3 Les rseaux dondelettes. 17

V. ESTIMATION DES PARAMTRES DUN MODLE. 17

V.1 Position du problme et notations. 17

V.2 Les algorithmes de minimisation de la fonction de cot. 18

V.2.1 Mthode des moindres carrs ordinaires. 18

V.2.2 Principe des algorithmes de gradient. 19

V.2.3 La mthode du gradient simple. 21

V.2.3.1 Prsentation de la mthode. 21

V.2.3.2 Techniques de rglage du pas. 21

V.2.4 Les mthodes de gradient du second ordre. 21

V.2.4.1 Lalgorithme de BFGS. 22

V.2.4.2 Lalgorithme de LevenbergMarquardt. 23

V.3 Commentaire. 26

VI. CONCLUSION 26

CHAPITRE II. Rseaux de fonctions dorsales 27

I. INTRODUCTION. 28

II. NEURONES FORMELS FONCTIONS DORSALES ET RSEAUX. 28

II.1 Quest ce quun neurone formel ? 28

II.2 Qu'est-ce qu'un neurone formel fonction dorsale ? 28

II.3 Quest ce quun rseau de neurones ? 29

II.4 Rseaux non boucls et rseaux boucls. 30

II.4.1 Les rseaux non boucls. 30

II.4.2 Les rseaux boucls. 30

II.5 Rseaux non boucls compltement connects et rseaux couches. 31

II.5.1 Les rseaux non boucls compltement connects. 31

II.5.2 Les rseaux non boucls couches. 31

II.5.3 Les rseaux mis en uvre dans ce travail. 35

III. CHOIX DE LA FONCTION DACTIVATION ET PROPRIT

DAPPROXIMATION UNIVERSELLE. 33

III.1 La fonction sigmode. 34

III.2 La fonction gaussienne. 34

IV. APPRENTISSAGE DES RSEAUX DE FONCTIONS DORSALES. 35

IV.1 Apprentissage de rseaux non boucls. 35

IV.2 Apprentissage de rseaux boucls. 36

IV.3 Initialisation du rseau et minima locaux. 36

IV.4 Autres schmas dapprentissage pour les rseaux de fonctions dorsales. 37

V. ANALYSE DUN RSEAU DE FONCTIONS DORSALES. 37

V.1 Principe. 37

V.2 lagage de poids synaptiques. 37

V.3 Une procdure pour la dtection de neurones fonctions gaussiennes mal

utiliss. 38

V.4 tude dun exemple. 41

VI. MODLISATION DYNAMIQUE DE PROCESSUS LAIDE DE RSEAUX

DE FONCTIONS DORSALES. 43

VI.1 Modlisation entresortie. 43

VI.1.1 Prdicteurs non boucl. 43

VI.1.2 Prdicteur boucl. 44

VI.2 Modlisation dtat. 44

VII. CONCLUSION. 45

CHAPITRE III. Rseaux dondelettes(approche fonde sur la transforme continue) 46

I. INTRODUCTION. 47

II. RSEAUX ISSUS DE LA TRANSFORME EN ONDELETTES CONTINUE. 48

II.1 La transforme en ondelettes continue. 48

II.2 De la transforme inverse aux rseaux dondelettes. 50

III. DFINITION DES ONDELETTES MULTIDIMENSIONNELLES ET DES

RSEAUX D'ONDELETTES. 51

III.1 Ondelettes multidimensionnelles. 51

III.2 Rseaux d'ondelettes. 51

III.3 Rseaux d'ondelettes et rseaux de neurones. 54

IV. APPRENTISSAGE DES RSEAUX DONDELETTES NON BOUCLS. 55

IV.1 Calcul du gradient de la fonction de cot. 55

IV.2 Initialisation des paramtres du rseau. 57

IV.3 Exemple de modlisation statique. 59

IV.3.1 Prsentation du processus simul. 59

IV.3.2 Modlisation avec 100 exemples. 59

IV.3.3 Modlisation avec 300 exemples. 61

IV.3.4 Influence des termes directs 62

IV.3.5 Quelques figures. 63

V. MODLISATION DYNAMIQUE ENTRESORTIE ET RSEAUX

DONDELETTES. 64

V.1 Apprentissage de rseaux de type entre-sortie. 65

V.1.1 Apprentissage de prdicteurs non boucls. 65

V.1.2 Apprentissage de prdicteurs boucls. 65

V.1.3 Calcul du gradient par rtropropagation. 67

V.1.4 Calcul du gradient dans le sens direct. 68

V.2 Exemple. 70

V.2.1 Prsentation du processus. 70

V.2.2 tude du gain statique. 70

V.2.3 Modlisation du processus. 71

VI. MODLISATION DTAT ET RSEAUX DONDELETTES. 72

VI.1 Modles d'tat sans bruit, avec tats non mesurables. 73

VI.2 Apprentissage de rseaux dtat boucls. 73

VI.2.1 Structure du rseau dtat. 73

VI.2.2 Calcul du gradient par rtropropagation. 76

VI.2.2.1 Calcul du gradient de J par rapport la sortie et aux variables dtat. 76

VI.2.2.2 Calcul du gradient de J par rapport aux paramtres du rseau. 77

VI.2.2.3 Commentaire sur le choix des variables dtat. 79

VI.2.3 Calcul du gradient dans le sens direct. 79

VI.2.4 Initialisation des paramtres du rseau. 81

VII. LE PROBLME MATRELVE ET LES RSEAUX D'ONDELETTES. 82

VII.1 Minima locaux de la fonction de cot. 83

VII.2 Choix de la squence dapprentissage. 84

VII.3 Choix du domaine des entres et des paramtres du rseau matre. 84

VII.4 Choix de lalgorithme et de linitialisation du rseau. 85

VII.5 Approche adopte pour ltude du problme. 85

VII.6 Rsultats et commentaires. 85

VIII. CONCLUSION. 86

CHAPITRE IV. Rseaux dondelettes(approche fonde sur la transforme discrte) 88

I. INTRODUCTION. 89

II. RSEAUX ISSUS SUR LA TRANSFORME EN ONDELETTES DISCRTE. 89

II.1 Structures obliques et bases dondelettes orthonormales. 90

II.1.1 Ondelettes variables continues. 90

II.1.2 Ondelettes variables discrtes. 92

II.1.3 Choix de l'ondelette mre. 93

II.2 Rseaux fonds sur la transforme discrte. 94

III. TECHNIQUES DE CONSTRUCTION DE RSEAUX DONDELETTES. 95

III.1 Impossibilit dutiliser les techniques de gradient. 95

III.2 Diffrentes approches pour construire un rseau dondelettes fond sur la

transforme discrte. 95

III.2.1 Approches nutilisant pas de procdure de slection. 95

III.2.1.1 Technique fonde sur lanalyse frquentielle. 95

III.2.1.2 Technique fonde sur la thorie des ondelettes orthogonales. 96

III.2.1.3 Rseaux dondelettes pour un systme adaptatif. 96

III.2.2 Approches utilisant une procdure de slection. 97

III.2.2.1 Technique fonde sur la construction de structures obliques troites. 97

IV. PROPOSITION DUNE PROCDURE DE CONSTRUCTION DE

RSEAUX ET D'INITIALISATION DE L'APPRENTISSAGE. 97

IV.1 Description de la procdure de construction de la bibliothque. 98

IV.1.1 Famille engendrant la bibliothque pour un modle une entre. 98

IV.1.2 Cas des bibliothques pour modles plusieurs entres. 100

IV.2 La mthode de slection. 100

IV.2.1 Principe de la mthode de slection par orthogonalisation. 100

IV.2.2 Cas des termes directs. 102

IV.3 La procdure de construction du rseau. 102

IV.3.1 Prsentation de la procdure de construction. 102

IV.3.2 Avantages et inconvnients de cette approche. 103

IV.4 Autre application de la procdure : initialisation des translations et dilatations

pour lapprentissage de rseaux d'ondelettes paramtres continus. 104

IV.4.1 Principe de la procdure dinitialisation. 104

IV.4.2 Avantages et inconvnients de cette mthode dinitialisation. 105

V. TUDE DEXEMPLES. 105

V.1 Exemple de construction de rseaux l'aide de la procdure de slection. 105

V.1.1 Prsentation du processus. 105

V.1.2 Construction dun modle dynamique laide de la procdure. 106

V.1.2.1 Modlisation dynamique sans bruit du processus simul. 107

V.1.2.2 Modlisation dynamique avec bruit du processus simul. 107

V.1.2.3 Conclusion. 108

V.2 Exemple d'initialisation des translations et des dilatations de rseaux l'aide de

la procdure de slection. 108

V.2.1 Processus 1. 108

V.2.1.1 Prsentation du processus. 108

V.2.1.2 Initialisation de rseaux laide de la procdure de slection. 109

V.2.2 Processus 2. 112

VI. CONCLUSION. 113

CHAPITRE V. tude de quelques exemples 115

I. INTRODUCTION. 116

II. MODLISATION DE PROCESSUS SIMULS. 117

II.1 Prsentation du processus simul sans bruit. 117

II.2 Modlisation du processus simul non bruit. 118

II.2.1 Rseau prdicteur fonctions ondelettes. 119

II.2.1.1 Apprentissage avec lalgorithme de BFGS. 119

II.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt. 120

II.2.2 Rseau prdicteur fonctions dorsales. 120

II.2.2.1 Apprentissage avec lalgorithme de BFGS. 121

II.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt. 121

II.3 Modlisation du processus simul avec bruit. 122

II.3.1 Modlisation du processus simul avec bruit additif de sortie. 123

II.3.2 Modlisation du processus simul avec bruit dtat additif. 124

II.4 Conclusion. 124

III. MODLISATION DUN PROCESSUS REL. 124

III.1 Prsentation du processus. 125

III.2 Modlisation entresortie. 126

III.2.1 Rseau prdicteur fonctions ondelettes. 126

III.2.1.1 Apprentissage avec lalgorithme de BFGS. 126

III.2.1.2 Apprentissage avec lalgorithme de LevenbergMarquardt. 127

III.2.1.3 Frquence d'occurrence du meilleur rsultat. 128

III.2.2 Rseau prdicteur fonctions dorsales. 129

III.2.2.1 Apprentissage avec lalgorithme de BFGS. 129

III.2.2.2 Apprentissage avec lalgorithme de LevenbergMarquardt. 130

III.2.2.3 Frquence d'occurrence du meilleur rsultat. 130

III.2.3 Conclusion de la modlisation entresortie. 131

III.3 Modlisation dtat. 132

III.3.1 Rseau prdicteur d'tat fonctions dondelettes. 133

III.3.2 Rseau prdicteur d'tat fonctions dorsales. 134

III.3.3 Rseau prdicteur dtat fonctions dorsales dont la sortie est lun des tats. 134

III.3.4 Conclusion de la modlisation dtat. 135

IV. CONCLUSION. 136

Conclusion 137

Bibliographie 141

Annexe A 151

Annexe B 166

Introduction

Introduction

2

Grce aux rsultats thoriques et pratiques obtenus au cours des dernires annes,les rseaux de neurones sont devenus un outil de plus en plus utilis dans diversdomaines (industrie, banque, services). Ils demeurent toutefois un sujet dungrand intrt pour les chercheurs qui dsirent amliorer les performances de cesrseaux et tendre leur champ dapplications.

La proprit fondamentale des rseaux de neurones, lapproximation universelleparcimonieuse, fait de ceux-ci une reprsentation mathmatique trs avantageusepour la modlisation statique et dynamique non linaire de processus. L'utilisa-tion de neurones sigmodaux tait initialement justifie par une analogie biologi-que ; mais celle-ci est devenue caduque pour la conception de systmes de traite-ment de signaux ou de modlisation de processus. Il est donc lgitime d'explorerles possibilits d'utilisation d'autres types de neurones [Sontag93].

Cet effort de recherche dune alternative aux rseaux de neurones "classiques"sest tout dabord dirig vers les rseaux de fonctions radiales, en particulier gaus-siennes. Ils ont notamment t mis en uvre en Automatique non linaire :modlisation de processus et commande. Les techniques de construction de cesrseaux aboutissent gnralement des modles peu parcimonieux. En revanche,ils possdent des proprits plus intressantes que les rseaux de neurones pour lasynthse de lois de commandes stables [Sanner92].

Rcemment, des familles de fonctions, issues du traitement du signal et delimage, appeles ondelettes ont t utilises pour rsoudre des problmesdapproximation de fonctions [Pati93, Zhang92]. Ces ondelettes sont plus compli-ques que les fonctions utilises pour les rseaux de neurones classiques. En re-vanche, elles possdent quelques proprits prometteuses pour la modlisationde processus.

Lobjectif principal de ce travail tait donc ltude de la mise en uvre des fonc-tions ondelettes pour la modlisation statique (qui avait dj t aborde par d'au-tres auteurs), et pour la modlisation dynamique de processus (qui, notre con-naissance, n'avait jamais t tudie). Nous avons considr deux approches is-sues de la transforme en ondelettes :

Lapproche fonde sur la transforme continue, trs proche de celledes rseaux de neurones classiques, dont nous nous inspirons pourmettre au point une mthodologie de construction de rseaux

Introduction

3

dondelettes. Elle permet denvisager des rseaux boucls (que nousproposons dans ce mmoire) et non boucls.

Lapproche fonde sur la transforme discrte, propre aux fonctionsondelettes, qui permet de tirer parti des proprits et des spcificits deces fonctions pour la mise au point de procdures originales pourlapprentissage de rseaux dondelettes.

Parmi les rsultats thoriques concernant les bases de fonctions ondelettes, il a tprouv que cette famille de fonctions possde la proprit dapproximation uni-verselle. En revanche, il nexiste pas de rsultat quivalent celui des rseaux deneurones concernant la proprit de parcimonie. De ce fait, et sur la base desexemples que nous tudions conjointement avec des rseaux dondelettes et deneurones sigmodaux, nous nous proposons de faire une valuation de la parci-monie des rseaux dondelettes.

De plus, nous avons systmatiquement utilis, pour l'estimation des paramtresdes rseaux que nous avons mis en uvre, deux algorithmes doptimisation dusecond ordre : lalgorithme de BFGS et celui de LevenbergMarquardt. Le premiera t largement utilis pour lapprentissage de rseaux boucls et non boucls. Enrevanche, des rsultats sur lutilisation du second pour lapprentissage de rseauxboucls sont, notre connaissance, totalement absents de la littrature consacreaux rseaux de neurones. Nous avons donc systmatiquement cherch compa-rer les rsultats obtenus l'aide de ces algorithmes, sous divers points de vue.

Le chapitre I du prsent mmoire est consacr des dfinitions et rappels concer-nant la modlisation, statique et dynamique de processus ; nous prsentons no-tamment des considrations mthodologiques pour la construction de modles"bote noire", que nous avons mises en uvre tout au long de ce travail. Cetteapproche s'inscrit dans la continuit de travaux antrieurs effectus au sein dulaboratoire [Nerrand92, Rivals95a, Urbani95]. Nous dcrivons ensuite les algo-rithmes doptimisation employs pour lestimation des paramtres des rseaux defonctions, qu'il s'agisse de neurones fonctions dorsales ou dondelettes fondessur la transforme continue.

Le chapitre II prsente les rseaux de neurones classiques que nous avons mis enuvre pour la modlisation statique et dynamique de processus. Nous consid-rons deux types de fonctions dorsales : la fonction tangente hyperbolique, exemplede sigmode (qui est la brique des rseaux classiques), et la fonction gaussienne.

Introduction

4

Pour cette dernire, nous proposons une procdure agissant en coursdapprentissage, qui permet damliorer lutilisation de chacun des neurones. Cesconsidrations sont illustres par un exemple.

Le chapitre III est consacr aux rseaux dondelettes fonds sur la transforme con-tinue. Aprs une brve prsentation des fonctions ondelettes, nous proposons desalgorithmes dapprentissage de rseaux dondelettes boucls pour une modlisa-tion entresortie et dtat. Les rsultats prsents dans ce chapitre ont t publispartiellement dans un article accept pour publication dans la revue Neurocom-puting [Oussar98], reproduit en annexe de ce mmoire.

Le chapitre IV aborde la modlisation de processus par des rseaux dondelettesfonds sur la transforme discrte. La particularit des bases dondelettes utilisesdans ce contexte ne permet pas dapprentissage fond sur une technique de gra-dient. De ce fait, la construction de ces rseaux est effectue laide de mthodesde slection dans une bibliothque dondelettes. Nous proposons dans ce chapitreune procdure qui met en uvre ces bases dondelettes pour initialiser les coeffi-cients de rseaux fonds sur la transforme continue, avant l'apprentissage deceux-ci.

Les considrations dveloppes dans les chapitres prcdents sont appliques,dans le chapitre V, la modlisation dun processus simul, et dun processusrel. Nous prsentons dabord les rsultats obtenus avec des rseaux boucls defonctions dorsales et dondelettes. Ensuite, nous confrontons les performancesralises par deux algorithmes du second ordre sur les deux types de rseaux.

CHAPITRE I

Modlisation de processuset estimation des paramtres dun modle

Modlisation de processus et estimation des paramtres dun modle

6

I. INTRODUCTION.

Dans la premire partie de ce chapitre, nous rappelons les notions deprocessus et de modle, ainsi que divers termes utiliss frquemment dans lecadre de la modlisation. Dans la seconde partie, nous aborderons le problme delestimation des paramtres dun modle et nous prsenterons les algorithmesqui ont t utiliss dans notre travail.

II. DFINITION DUN PROCESSUS ET DUN MODLE.

II.1 Processus.

Un processus est caractris par : une ou plusieurs grandeurs de sortie, mesurables, qui constituent le rsultat du

processus, une ou plusieurs grandeurs d'entre (ou facteurs), qui peuvent tre de deux

types : - des entres sur lesquelles il est possible d'agir (entres de commande), - des entres sur lesquelles il n'est pas possible d'agir (perturbations) ; ces

dernires peuvent tre alatoires ou dterministes, mesurables ou nonmesurables.

Les processus peuvent tre de toutes natures : physique, chimique,biologique, cologique, financier, sociologique, etc.

II.2 Modles.

II.2.1 Quest ce quun modle ?

Nous nous intressons ici aux modles mathmatiques, qui reprsententles relations entre les entres et les sorties du processus par des quations.Si ces quations sont algbriques, le modle est dit statique. Si ces quations sontdes quations diffrentielles ou des quations aux diffrences rcurrentes, lemodle est dit dynamique, respectivement temps continu ou temps discret.Un modle est caractris par son domaine de validit, c'est--dire par le domainede l'espace des entres dans lequel l'accord entre les valeurs des sorties duprocessus calcules par le modle, et leurs valeurs mesures, est considr commesatisfaisant compte tenu de l'utilisation que l'on fait du modle.

II.2.2 Buts dune modlisation.

Un modle peut tre utilis soit


7

pour simuler un processus : des fins pdagogiques, de dtection d'anomaliesde fonctionnement, de diagnostic de pannes, de conception assiste parordinateur, etc.,

pour effectuer la synthse d'une loi de commande, ou pour tre incorpor dansun dispositif de commande.

II.2.3 Classification des modles.

II.2.3.1 Classification selon le mode de conception.

On distingue trois sortes de modles en fonction des informations mises enjeu pour leur conception :

Les modles de connaissance : les modles de connaissance sontconstruits partir dune analyse physique, chimique, biologique (ou autre suivantle type du processus), en appliquant soit les lois gnrales, fondes sur desprincipes (lois de la mcanique, de l'lectromagntisme, de la thermodynamique,de la physique quantique, etc.), soit les lois empiriques (finance, conomie), quirgissent les phnomnes intervenant au sein des processus tudis. Ces modlesne comportent gnralement pas de paramtres ajustables, ou des paramtresajustables en trs petit nombre.

Dans la pratique, il est toujours souhaitable d'tablir un modle deconnaissance des processus que l'on tudie. Nanmoins, il arrive frquemmentque le processus soit trop complexe, ou que les phnomnes qui le rgissentsoient trop mal connus, pour qu'il soit possible d'tablir un modle deconnaissance suffisamment prcis pour l'application considre. On est alorsamen concevoir des modles purement empiriques, fonds exclusivement surles rsultats de mesures effectues sur le processus.

Les modles bote noire : les modles bote noire sont construitsessentiellement sur la base de mesures effectues sur les entres et les sorties duprocessus modliser. La modlisation consiste alors utiliser, pour reprsenterles relations entre les entres et les sorties, des quations (algbriques,diffrentielles, ou rcurrentes) paramtres, et estimer les paramtres, partirdes mesures disponibles, de manire obtenir la meilleure prcision possibleavec le plus petit nombre possible de paramtres ajustables. Dans ce mmoire,nous dsignerons frquemment l'estimation des paramtres sous le termed'apprentissage.


8

Le domaine de validit d'un tel modle ne peut pas s'tendre au-del dudomaine des entres qui est reprsent dans les mesures utilises pourl'apprentissage.

Les modles bote grise : lorsque des connaissances, exprimables sousforme d'quations, sont disponibles, mais insuffisantes pour concevoir u nmodle de connaissance satisfaisant, on peut avoir recours une modlisation"bote grise" (ou modlisation semi-physique) qui prend en considration la foisles connaissances et les mesures. Une telle dmarche peut concilier les avantagesde l'intelligibilit d'un modle de connaissance avec la souplesse d'un modlecomportant des paramtres ajustables.

II.2.3.2 Classification selon lutilisation.

Indpendamment de la classification prcdente, on peut distinguer deuxtypes de modles en fonction de l'utilisation qui en est faite.

Les modles de simulation (ou simulateurs) : un modle de simulationest utilis de manire indpendante du processus quil reprsente. Il doit doncpossder un comportement aussi semblable que possible celui du processus. Detels modles sont utiliss pour valider la conception d'un systme avant safabrication (conception assiste par ordinateur en mcanique, en micro-lectronique, ...), pour la formation de personnels (simulateurs de vols), pour laprvision long terme, etc.Du point de vue de la structure du modle, les sorties passes, mesures sur l eprocessus modliser, ne peuvent constituer des entres du modle. L'estimationdes paramtres et l'utilisation du modle constituent deux phases successives etdistinctes (apprentissage non adaptatif).

Les modles de prdiction (ou prdicteurs) : un modle de prdiction estutilis en parallle avec le processus dont il est le modle. Il prdit la sortie duprocessus une chelle de temps courte devant les constantes de temps duprocessus. Les prdicteurs sont utiliss pour la synthse de lois de commande, oudans le systme de commande lui-mme (commande avec modle interne).Du point de vue de la structure du modle, les sorties passes, mesures sur leprocessus, peuvent constituer des entres du modle. L'estimation desparamtres et l'utilisation du modle peuvent tre effectues simultanment sincessaire (apprentissage adaptatif, utile notamment si les caractristiques duprocessus drivent dans le temps).


9

Ce mmoire prsente la mise en oeuvre de plusieurs types de rseaux defonctions paramtres pour la modlisation dynamique de processus, et lacomparaison de leurs performances respectives. Il s'agira donc exclusivement demodles de type bote noire qui peuvent tre utiliss indiffremment commesimulateurs ou comme prdicteurs.

III. LES TAPES DE LA CONCEPTION DUN MODLE.

Lors de la conception dun modle de connaissance, la relation entre lesentres et la (ou les) sortie(s) du modle dcoulent directement de la mise enquation des phnomnes physiques (chimiques, ou autres) qui rgissent lefonctionnement du processus. Une fois le modle obtenu sous forme analytique,des approximations peuvent tre faites pour simplifier son expression (parexemple "linariser" le modle pour passer d'un modle non linaire u nmodle linaire) si une telle approximation est justifie.

Dans le cas dune modlisation de type bote noire, la construction dumodle ncessite les trois lements suivants :

Une hypothse sur lexistence dune relation dterministe liant les entres la(ou aux) sortie(s). Cette relation est caractrise par une fonction appelefonction de rgression (ou plus simplement rgression). L'expression formellesuppose adquate pour reprsenter cette relation est appele mod l e -hypothse.

Une squence de mesures des entres et de la sortie du processus. Un algorithme dapprentissage.

Dans la suite de ce paragraphe, nous prsentons les diffrents aspects qui doiventtre pris en considration lors du choix dun modle-hypothse.

III.1 Choix dun modle-hypothse.

Les connaissances dont on dispose a priori sur le processus doivent guiderle concepteur dans le choix de la modlisation la plus approprie (statique oudynamique, linaire ou non linaire, ...). Llaboration du modle-hypothsencessite d'effectuer les choix suivants :

Modle statique ou dynamique : lorsque l'on cherche modliser u nprocessus physico-chimique ou biologique, il est gnralement facile de savoir sil'application envisage ncessite de modliser la dynamique du processus (c'est--dire si l'on doit considrer une chelle de temps petite devant les constantes detemps du processus) ou si une modlisation statique suffit.


10

Modle linaire ou non linaire : il n'est pas douteux que la plupart desprocessus que l'on peut rencontrer ncessiteraient des modles non linaires s'ilfallait les dcrire de manire prcise dans la totalit de leur domaine defonctionnement : la plupart des modles linaires constituent des approximationsvalables dans un domaine plus ou moins restreint. Il est donc important depouvoir laborer un modle non linaire pour rendre compte du comportementd'un processus, non seulement autour de ses points de fonctionnement"habituels", mais galement lors des passages d'un point de fonctionnement u nautre.

Modle entre-sortie ou modle d'tat : dans le cas o l'on opte pour unemodlisation dynamique, deux reprsentations sont possibles pour le modle : ilsagit de la reprsentation dtat ou de la reprsentation entresortie. Ltat dunprocessus est dfinit comme la quantit dinformation minimale ncessaire pourprdire son comportement, tant donnes les entres prsentes et venir. Il sagitgnralement dun vecteur de grandeur gale lordre du modle. Lareprsentation entresortie est un cas particulier de la reprsentation dtat o levecteur des tats est constitu par la sortie et ses valeurs retardes dans le temps.Si le but de la modlisation est de prdire le comportement entresortie duprocessus, il existe gnralement une infinit de reprsentations dtat (au sensdtats ayant des trajectoires diffrentes) solutions du problmes. En revanche, lareprsentation entresortie est unique.

Prsence de perturbations dterministes : lorsque l'on cherche raliserun modle dynamique, les perturbations dterministes peuvent tre modlisespar une entre supplmentaire (chelon, signal carr, sinusode). En particulier, sile modle est construit pour la synthse dune loi de commande, la prise enconsidration de lexistence dune perturbation pendant la phase de modlisationpeut amliorer les performances de la commande pour le rejet de cetteperturbation. Par exemple, il est propos dans [Mukhopa93] une approche quiconsiste considrer la perturbation comme la sortie dun processus. Lamodlisation de ce processus a pour effet d'introduire de nouvelles variablesd'tat, donc d'augmenter l'ordre du modle.

Prsence dun bruit : lorsque l'on cherche raliser un modledynamique, une perturbation de type bruit est modlise par une squence devariables alatoires. Un bruit peut agir de diffrentes manires sur un processus.On distingue notamment le bruit de sortie (bruit additif qui affecte la mesure de lasortie du processus), et le bruit dtat (bruit additif qui affecte l'tat du processus).Comme, en gnral, on ne connat pas avec prcision la nature du bruit qui


11

affecte le processus, on doit effectuer des hypothses sur celle-ci ; on dduit decelles-ci la structure du modle-hypothse, et l'algorithme utilis pourl'ajustement des paramtres. Une hypothse errone peut dgraderconsidrablement les performances du modle. Ces problmes ont t trslargement tudis dans le cas de la modlisation linaire [Ljung87]. Dans le cadrede la modlisation non linaire par rseaux de neurones, ces considrations sontdveloppes dans [Nerrand94].

III.2 Du modle-hypothse au prdicteur ou au simulateur.

Un modle-hypothse ayant t choisi, ltape suivante consiste tablirl'expression du prdicteur thorique, c'est--dire l'expression de la prdiction dela sortie du processus l'instant n+d en fonction des donnes disponibles l'instant n (entres et sorties du processus et/ou du prdicteur l'instant n et auxinstants antrieurs). Enfin, la dernire tape consiste tablir l'expression duprdicteur (ou du simulateur) proprement dit : dans le cas d'une modlisation"bote noire", ce prdicteur utilise une fonction paramtre, dont on estime lesparamtres, partir de mesures effectues pralablement sur le processus, de tellemanire qu'il constitue la meilleure approximation possible du prdicteurthorique. A l'issue de la procdure destimation des paramtres (apprentissage),il faut valuer la performance du prdicteur (ou du simulateur).

Dans le cadre de ce mmoire nous nous intressons plus particulirement ltape dapprentissage et donc aux caractristiques du prdicteur (complexit,contraintes de mise en oeuvre) et aussi lalgorithme dapprentissage (efficacit,robustesse). La plupart des exemples tudies tant des processus simuls, leproblme du choix du modle-hypothse ne se pose pas. En revanche, lamodlisation dun processus rel (dans le dernier chapitre) sera loccasiond'examiner ce problme.

III.3 Prsentation de quelques modles-hypothses et de leurs prdicteurs

associs.

Nous prsentons dans ce paragraphe quelques exemples de modles-hypothses ainsi que les prdicteurs qui leurs sont associs, pour l'laborationd'un modle dynamique entre-sortie. Lun des principaux paramtres quiinterviennent dans le choix dun modle-hypothse est la prsence dun bruit etla manire dont il agit sur le processus. Pour ceci, nous allons considrer deuxclasses de modles-hypothses : le modle-hypothse dterministe et desmodles-hypothses non dterministe (faisant intervenir un bruit dans lamodlisation du processus).


12

III.3.1 Modle-hypothse dterministe.

On considre quaucun bruit n'agit sur le processus. On propose u nmodle-hypothse dterministe ayant lexpression suivante :

yp n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe (1)

o yp(n) est la sortie mesure du processus linstant n, Ns est lordre du modleet Ne la mmoire sur lentre externe u. f est une fonction non linaire dont onsuppose qu'elle existe, et qu'elle constitue une reprsentation mathmatique ducomportement du processus.

La forme prdicteur thorique associe ce modle-hypothse est lasuivante :

y n = f yp n1 , ... , yp nNs , u n1 , ... , u nNe (2)

o y(t) est la prdiction de la sortie du processus calcule par la forme prdicteurthorique. tant donn que nous considrons que le processus nest soumis aucun bruit, la forme prdicteur thorique doit calculer tout instant y(t) = yp(t).

Le prdicteur dont on effectuera lapprentissage aura pour expression : y t = yp t1 , ... , yp tNs , u t1 , ... , u tNe (3)

o est une fonction paramtre, dont les paramtres doivent tre estims pourqu'elle approche au mieux la fonction f dans le domaine de fonctionnementconsidr. Cette optimisation sentend au sens de la minimisation de la fonctionde cot empirique, que lon appellera dornavant fonction de cot et que lonnotera par J. Cette minimisation est ralise l'aide d'un algorithmedapprentissage.

Si lon est intress par la construction dun modle de simulation, u nautre prdicteur peut tre considr :

y n = y n1 , ... , y nNs , u n1 , ... , u nNe (4)

La seule diffrence avec la forme prdicteur de la relation (3) rside dans le faitque les entres dtat du modle sont les sorties retardes du modle , non cellesdu processus.

III.3.2 Modles-hypothses non dterministes.

On dsigne par modles-hypothses non dterministes des modles-hypothses qui supposent lexistence dun bruit agissant sur le processus modliser. On peut envisager plusieurs hypothses concernant la manire dont lebruit agit sur le processus. Nous en prsentons deux, que nous considrerons lorsde ltude dexemples dans ce mmoire.


13

III.3.2.1 Lhypothse Bruit de sortie.

Lhypothse Bruit de sortie (Output Error en anglais) consiste considrer quun bruit agit sur la sortie du processus. Lexpression du modle-hypothse est :

x(n) = f(x(n1), ... , x(nNs), u(n1), ... , u(nNe))

yp(n) = x(n) + w(n)(5)

o {w(n)} est une squence de variables alatoires indpendantes de moyennenulle et de variance

2. La forme prdicteur thorique associe ce modle-hypothse est donne par lexpression suivante :

y(n) = f y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe (6)

Le prdicteur rel associ a pour expression : y(n) = y n1 , y n2 , ... , y nNs , u n1 , ... , u nNe (7)

o est une fonction ralise l'aide d'une fonction paramtre, par exemple u nrseau de neurones. Cest donc un modle dont les entres dtat sont ses propressorties retardes, et non pas les sorties du processus. Si, aprs apprentissage, lafonction tait identique la fonction f, l'erreur de prdiction commise par ceprdicteur serait une squence alatoire de mmes caractristiques que w. Lorsquela fonction parmtre est ralise par un rseau de neurones, celui-ci est u nrseau boucl, que nous dcrirons au paragraphe II.4.2 du chapitre suivant.

III.3.2.2 Lhypothse Bruit dtat.

Lhypothse Bruit dtat (Equation Error en anglais) consiste considrerquun bruit agit sur l'tat du processus. Ce modle-hypothse a la forme suivante:

yp(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe + w(n) (8)

o {w(n)} est une squence de variables alatoires indpendantes de moyennenulle et de variance 2. La forme prdicteur thorique associe ce modle-hypothse est donne par lexpression suivante :

y(n) = f yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe (9)

Le prdicteur rel associ est de la forme : y(n) = yp n1 , yp n2 , ... , yp nNs , u n1 , ... , u nNe (10)

o est une fonction paramtre. Si tait identique f, l'erreur de prdictioneffectue par ce prdicteur serait une squence de variables alatoires de mmescaractristiques que le bruit w. Lorsque la fonction parmtre est ralise par u nrseau de neurones, celui-ci est un rseau non boucl, que nous dcrirons auparagraphe II.4.1 du chapitre suivant.


14

IV . FONCTIONS PARAMTRES POUR LA MODLISATION "BOTE NOIRE".

Comme indiqu cidessus, une modlisation de type bote noire est miseen uvre dans le cas o l'on dispose de peu de connaissance sur le processustudi, ou si le modle de connaissance tabli est trop compliqu pour treexploit. Dans les deux cas (et particulirement dans le second) on a besoin dunoutil fournissant un modle prcis, aussi simple que possible en termes denombre de paramtres ajustables et de nombre de calculs effectuer, pour prdirela sortie du processus.

En gnral, un modle bote noire statique est une combinaisonparamtre de fonctions, qui peuvent tre elles-mmes paramtres. Un modle"bote noire" dynamique est, comme nous l'avons vu ci-dessus, un ensembled'quations diffrentielles (ou d'quations aux diffrences pour un modle temps discret) non linaires, o la non-linarit est ralise, comme dans le casd'un modle statique, par une combinaison paramtres de fonctionsventuellement paramtres.

Des fonctions paramtres constituent une famille d'approximateursuniversels s'il est possible (sous certaines conditions de rgularit) dapprochertoute fonction continue, avec la prcision voulue, dans un domaine de l'espacedes entres, par une somme pondre d'un nombre fini de ces fonctions.

Cette condition n'est nanmoins pas suffisante pour qu'une famille defonctions soit utilisable de manire efficace pour la modlisation "bote noire"efficace. En effet, parmi tous les modles possibles, on recherche toujours celuiqui possde le plus petit nombre de coefficients ajustables : c'est la proprit deparcimonie, dont nous verrons qu'elle n'est pas partage par tous les types defonctions paramtres. A cet gard, il est important de distinguer les modleslinaires par rapport aux paramtres des modles non linaires par rapport auxparamtres.

IV.1 Les fonctions paramtres linaires par rapport aux paramtres.

Une fonction paramtre est linaire par rapport aux paramtres si elle estde la forme :

X = i i

i = 1

N

X (11)

o les i(X) sont des fonctions non paramtres d'une ou plusieurs variablesgroupes dans le vecteur X, et o les i sont des paramtres.Les fonctions i(X) peuvent tre quelconques ; traditionnellement on utilise desmonmes ; mais on peut galement utiliser dautres types de fonctions : fonctionssplines, fonctions gaussiennes dont les centres et les cartstypes sont fixs,


15

fonctions ondelettes dont les translations et dilatations sont fixes (ces derniresseront prsentes au chapitre IV de ce mmoire).

IV.2 Les fonctions paramtres non linaires par rapport aux paramtres.

Dans le prsent travail, nous utiliserons essentiellement des fonctions nonlinaires par rapport aux paramtres, qui sont de la forme

X = i i

i = 1

N

X, i (12)

o i est un vecteur de paramtres de la fonction i. Ainsi, la fonction ralise estlinaire par rapport aux i, mais non linaire par rapport aux paramtresconstituant le vecteur i : c'est une combinaison linaire de fonctionsparamtres.Les rseaux de neurones une couche cache (prsents au chapitre II), lesrseaux de fonctions gaussiennes radiales dont les centres et les carts-types sontajustables, les rseaux d'ondelettes (qui sont l'objet essentiel de ce travail) entrentdans cette catgorie de fonctions. Toutes ces fonctions sont des approximateursuniversels [Hornik89] mais leur intrt, par rapport aux fonctions linaires parrapport aux paramtres, rside dans le caractre parcimonieux des modles quilspermettent de raliser [Hornik94]. Comme nous le verrons au paragraphe V.2, leprix payer pour cela rside dans le fait que les mthodes habituelles d'estimationde paramtres (mthodes de moindres carrs) sont inutilisables, et que l'on doitavoir recours des mthodes itratives (mthodes de gradient) dont la mise enuvre est plus lourde.

Nous prsentons brivement ci-dessous ces trois types de rseaux, dontdeux seront repris en dtail dans les chapitres suivants.

IV .2.1 Les rseaux de neurones.

Dans ce travail, nous rserverons le terme de rseau de neurones auxrseaux de la forme (12) , o au moins une des fonctions i(X) est une fonctioncroissante borne, notamment sigmode (tangente hyperbolique), d'unecombinaison linaire des entres ; certaines de ces fonctions peuvent trel'identit. Lexpression de ces rseaux est :

(X) = i i iTX

i=1

N

(13)

Issus de travaux connotation biologique dans les annes 1940, ces rseaux sontmaintenant considrs comme des outils mathmatiques, indpendamment detoute rfrence la biologie. Ils sont utiliss pour la modlisation et la commande


16

de processus non linaires, ainsi que comme outils de classification, notammentpour la reconnaissance de formes.

Les principales tapes dans lvolution de la thorie et de la pratique desrseaux de neurones ont t la mise au point dun algorithme, conomique entemps de calcul, pour l'valuation du gradient de la fonction de cot (dfinie auparagraphe V), appel algorithme de rtropropagation [Rumelhart86], et la preuvede ses proprits dapproximateur universel [Hornik89] et de parcimonie[Barron93, Hornik94]. Lune des premires applications dans le domaine de lamodlisation non linaire de processus est prsente dans [Narendra90].

IV .2.2 Les rseaux de fonctions radiales (RBF pour Radial Basis Functions).

Les fonctions radiales ont t introduites par [Powell85] dans le cadre del'interpolation, c'est--dire de la recherche de fonctions passant exactement parun nombre fini de points (dits points de collocation). Dans ce contexte, la fonctionrecherche est une combinaison linaire de fonctions de base, en nombre gal aunombre de points de collocation ; une fonction de base n(x), relative au point decollocation xn, est dite radiale si elle ne dpend que de la distance du point courantx au point de collocation xn. On peut utiliser diverses fonctions radiales,notamment des fonctions localises (qui tendent vers zro dans toutes lesdirections de l'espace des variables) telles que des gaussiennes centres aux pointsde collocation. Bien entendu, la recherche d'une fonction passant exactement parles points n'a de sens que si ces points ne sont pas entachs de bruit.

La rfrence [Broom88] semble tre parmi les premires proposer lided'utiliser des rseaux de RBF pour l'approximation de fonctions non linaires. Lafonction recherche est toujours une combinaison linaire de fonctions radiales,mais leur nombre est beaucoup plus petit que le nombre de points, et elles ne sontdonc pas forcment centres en ces points. Son expression est de la forme :

(X) = i i X Mi , i2

i=1

N

(14)

o M est le vecteur des centres et i2 un scalaire (appel variance dans le cas

dune RBF gaussienne).La proprit dapproximateurs universels pour ces rseaux na t que rcemmentprouve pour des gaussiennes radiales [Hartman90] et plus gnralement pourdes RBF [Park91].

Ces rseaux ont t utiliss comme outil de modlisation bote noiredans le domaine de lautomatique. On les trouve la base de modles entresortie [Chen90] et aussi de modles dtat [Elanayar94]. Certaines spcificits de cesrseaux permettent de les utiliser pour la synthse de lois de commandeadaptatives stables [Behera95, Sanner92, Sanner95]. Le fait que ces rseaux


17

permettent de garantir la stabilit des correcteurs quils ralisent les rend plusintressants que les rseaux de neurones pour la rsolution des problmes decommande non linaire. En revanche, cette proprit se fait au dtriment de laparcimonie du rseau.

IV .2.3 Les rseaux dondelettes.

Les fonctions ondelettes trouvent leur origine dans des travaux demathmaticiens ds les annes 1930. Lide de dpart tait de construire unetransformation, pour ltude des signaux, plus commode que la transformationde Fourier, notamment pour des signaux de dure finie.

Les fonctions ondelettes ont subi une volution au cours des annes : cellesdont nous disposons aujourdhui sont plus complexes que leurs anes, etpossdent des proprits intressantes pour lapproximation de fonctions. Enparticulier, elles possdent la proprit dapproximateurs universels, ce quisuggre leur utilisation pour la construction de modles bote noire.

La notion de rseaux dondelettes existe depuis peu [Pati 93] et ltude de laproprit de parcimonie na pas t aborde. Lun des objectifs de ce mmoire estltude de la mise en oeuvre de cette classe de rseaux pour la modlisationentresortie et dtat de processus, ainsi que la comparaison, sur des exemples, dela parcimonie et des performances de cette classe de rseaux par rapport celle desrseaux de neurones (voir les chapitres III, IV et V).

V . ESTIMATION DES PARAMTRES DUN MODLE.

V.1 Position du problme et notations.

tant donnes les informations dont on dispose sur le processus (cest direla squence dapprentissage) on dtermine, dans une famille donne de fonctionsparamtres (x, ) (o x est le vecteur regroupant toutes les entres du modle et le vecteur des paramtres inconnus de ) celle qui minimise une fonction decot qui, le plus souvent, est la fonction de cot des moindres carrs.

Soit ypn la sortie du processus linstant n (dans le cas dune modlisation

dynamique), ou la valeur mesure pour le nme exemple de l'ensembledapprentissage (dans le cas dune modlisation statique). De mme, yn est la sortiecalcule par le modle l'instant n, ou pour le nme exemple de l'ensembled'apprentissage. On dfinit la fonction de cot des moindres carrs J() par :

J =

12

ypn yn

2n = 1

N

(15)


18

o N est le nombre de mesures (taille de la squence). J()dpend du vecteur desparamtres, ainsi que de la squence dapprentissage. Pour allger les notations,nous n'indiquerons pas explicitement cette dernire dpendance dans la suite.On dfinit lerreur quadratique moyenne dapprentissage (EQMA) comme une lamoyenne de la fonction de cot calcule sur la squence dapprentissage. Elle est

donne par : 2 J N

.

Lors de son exploitation, le modle reoit des entres diffrentes de celles dela squence dapprentissage. On peut estimer ses performances en calculantdiverses fonctions ; celle que l'on utilise le plus frquemment est l'erreurquadratique moyenne de performance EQMP dont la valeur est calcule sur unesquence diffrente de celle utilise pour l'apprentissage.

V.2 Les algorithmes de minimisation de la fonction de cot.

Dans le cas o le modle est linaire par rapport aux paramtres ajuster, laminimisation de la fonction de cot, et donc lestimation du vecteur desparamtres , peut se faire laide la mthode des moindes carrs, qui ramne leproblme la rsolution dun systme dquations linaires. Nous prsentonscette technique dans ce qui suit.

V .2.1 Mthode des moindres carrs ordinaires.

Cette mthode est applicable pour lapprentissage de modles statiques oude prdicteurs non boucls dont la sortie est linaire par rapport aux paramtresinconnus. Si cette sortie est linaire par rapport aux entres, le prdicteur associ apour expression :

y n = ixi ni= 1

Ni

(16)

Ce modle prdictif peut se tre mis sous forme dune quation matricielle. Eneffet, on peut lcrire Y = X avec :

Y =

y 1y 2

y N

, X =

x1 1 x2 1 xNi 1

x1 N xN N

, =

12

Ni

(17)

Lestimation des paramtres est fonde sur la minimisation de la fonction de cotdes moindres carrs (relation (15)). En utilisant la notation matricielle prsentecidessus, lexpression de la fonctionde cot J devient :


19

J = 1

2YP

TYP 2TXTYp + TX

TX (18)

La fonction de cot tant quadratique (par rapport au vecteur des paramtres estimer), il atteint son minimum pour la valeur du vecteur des paramtresannulant sa drive. Soit mc cette valeur du vecteur des paramtres. Elle vrifie :

J mc

= 0 (19)

Cette dernire quation fournit lquation normale : XTX mc = X

TYp (20)

dont la solution mc donne par : mc = X

TX1

XTYp (21)

est lestimation des moindres carrs du vecteur des paramtres p . Cette solutionexiste condition que la matrice XTX soit inversible. Cette condition est

gnralement vrifie lorsque N (le nombres dexemples) est trs grand devant Ni(le nombre dentres du modle).La mthode des moindres carrs peut tre utilise plus gnralement pourlestimation des paramtres de tout modle dont la sortie est linaire par rapportaux paramtres estimer ; c'est le cas, par exemple, pour lestimation desparamtres du modle suivant :

y n = ii Xi= 1

Ni(22)

o les i sont des fonctions non paramtres du vecteur des entres X. Plusieurschoix sont possibles pour les fonctions i (voir paragraphe IV.1).

Les sorties des modles bote noire que nous utilisons dans ce mmoirene sont pas linaires par rapport aux paramtres ajuster. Une rsolution directedu problme comme dans le cas de la solution des moindres carrs nest donc paspossible : on a donc recours des algorithmes dapprentissage qui recherchent unesolution suivant une procdure itrative. Ces algorithmes sont gnralementapplicables sauf dans le cas o des restrictions sur les valeurs possibles pour lesparamtres du modle sont imposes par la nature des fonctions paramtresutilises (voir le paragraphe III.1 du chapitre IV).

Dans ce qui suit, nous allons prsenter les algorithmes que nous utilisonsdans ce mmoire pour la minimisation de la fonction de cot.

V .2.2 Principe des algorithmes de gradient.

Les algorithmes dapprentissage fonds sur l'valuation du gradient de lafonction de cot J() par rapport aux paramtres procdent la minimisation de


20

manire itrative. J() est une fonction scalaire variable vectorielle (le vecteur des paramtres ajuster). Son gradient est donc un vecteur dfini par :

J =

J1

JM

(23)

o M est le nombre de paramtres inconnus.Le principe des algorithmes de gradient repose sur le fait quun minimum de lafonction de cot est atteint si sa drive (son gradient) est nul. Il existe plusieurstypes dalgorithmes ; nous prsenterons ceux que nous utiliserons dans la suite.Leur droulement suit le schma suivant :

A litration 0 : Initialiser le vecteur des paramtres 0. Cette initialisationde peut avoir une grande influence sur lissue delapprentissage. Nous porterons une attention particulire cette tape. Nous proposons une technique dinitialisationpour rseaux dondelettes au chapitre IV.

A la k me itration : Calculer la fonction de cot et la norme du gradient avec levecteur des paramtres courant (obtenu litrationprcdente).Si J k-1 Jmax ou J ou k = kmax (o Jmax est une

valeur maximale recherche pour lEQMA, ou pourlEQMP si les performances sont values pendantl'apprentissage),

Alors arrter lalgorithme ; le vecteur k1 est une solution,Sinon calculer k partir de k1 par la formule de mise

jour des paramtres suivante : k = k-1 + k dk (24)

o k est un scalaire positif appel pas du gradient et dk u nvecteur calcul partir du gradient, appel direction dedescente. Les diffrences entre les mthodes de gradientrsident dans le choix de la direction de descente et dans lechoix du pas.


21

V .2.3 La mthode du gradient simple.

V.2.3.1 Prsentation de la mthode.

La mthode du gradient simple consiste la mise en uvre de la formulede mise jour des paramtres suivante :

k = k-1 k J k-1 (25)

La direction de descente est donc simplement loppose de celle du gradient ; c'esten effet la direction suivant laquelle la fonction de cot diminue le plusrapidement.

En pratique, la mthode du gradient simple peut tre efficace lorsque lonest loin du minimum de J . Quand on sen approche, la norme du gradientdiminue et donc lalgorithme progresse plus lentement. A ce moment, on peututiliser une mthode de gradient plus efficace.

Un "rglage" du pas de gradient k est ncessaire : en effet, une petite valeurde ce paramtre ralentit la progression de lalgorithme ; en revanche une grandevaleur aboutit gnralement un phnomne doscillation autour de la solution.Diverses heuristiques, plus ou moins efficaces, ont t proposes.

V.2.3.2 Techniques de rglage du pas.

Technique du pas constant : elle consiste adopter un pas constant k = tout au long de lalgorithme. Elle est trs simple mais peu efficace puisqu'elle neprend pas en considration la dcroissance de la norme du gradient.

Technique du pas asservi : on peut asservir le pas laide de la norme dugradient de sorte que le pas volue en sens inverse de celleci. A chaque tape, lepas peut tre calcul par :

k =

1 + J(26)

o est un paramtre constant. Lors de lutilisation de cette technique, nousavons adopt la valeur = 10-3 qui sest rvle trs souvent satisfaisante. Lenumrateur est augment du nombre 1 afin dviter une instabilit numriqueau moment de la division dans le cas o la norme du gradient devient trsproche du zro. Cette technique offre un bon compromis du point de vue de lasimplicit et de lefficacit. Cest celle que nous avons utilise chaque fois quenous avons mis en uvre la mthode du gradient simple.

V .2.4 Les mthodes de gradient du second ordre.

Les mthodes que nous venons de dcrire sont simples mais en gnral trsinefficaces. On a donc systmatiquement recours lutilisation de mthodes plus


22

performantes (pour une comparaison numrique entre ces mthodes, voir[Battiti92]). Elles sont dites du second ordre parce quelles prennent enconsidration la drive seconde de la fonction de cot. Nous prsentons ci-dessous celles que nous avons mises en uvre dans notre travail, et dont nouscomparons les performances lors de ltude de nos exemples.

V.2.4.1 Lalgorithme de BFGS.

Lalgorithme de BFGS (du nom de ses inventeurs : Broyden, Fletcher,Goldfarb et Shanno) [Minoux83] fait partie des mthodes doptimisation ditesquasinewtoniennes. Ces mthodes sont une gnralisation de la mthode deNewton.

La mthode de Newton consiste lapplication de la rgle suivante :

k = k-1 H k-11J k-1 (27)

o H est le Hessien de la fonction J calcul avec le vecteur des paramtresdisponible ltape courante. La direction de descente est dans ce cas :

dk = H

k-1 1J k-1 (28)

Le pas k est constant et gal 1.Pour que le dplacement soit en sens contraire du gradient, il est

indispensable que la matrice du Hessien soit dfinie positive. Sous cettecondition, et si la fonction de cot est quadratique par rapport aux paramtres, lamthode de Newton converge vers lunique solution en une seule itration.

En gnral, et pour les problmes doptimisation auxquels nous sommesconfronts dans ce mmoire, la fonction de cot nest gnralement pasquadratique. Elle peut nanmoins ltre localement, proximit d'un minimumde ses minima. Donc, la mthode de Newton ne peut converger en une seuleitration. De plus, cette mthode ncessite linversion de la matrice du Hessien chaque itration (puisquil apparat que plusieurs sont ncessaires), ce qui conduit des calculs lourds.

Lalgorithme de BFGS, ainsi que l'algorithme de Levenberg-Marquardtprsent dans le paragraphe suivant, sont des mthodes "quasi-newtoniennes"qui permettent de pallier ces inconvnients.

Lalgorithme de BFGS est une rgle dajustement des paramtres qui alexpression suivante :

k = k-1 k Mk J k-1 (29)

o Mk est une approximation, calcule itrativement, de l'inverse de la matriceHessienne. Lapproximation de linverse du Hessien est modifie chaqueitration suivant la rgle suivante :


23

Mk = Mk1 + 1 +

k-1T Mk-1k-1k-1T k-1

k-1T k-1k-1T k-1

k-1k-1T Mk-1 + Mk-1k-1k-1T

k-1T k-1(30)

avec k-1 = J k J k-1 et k-1 =

k k-. Nous prenons pour valeur initiale deM la matrice identit. Si, une itration, la matrice calcule nest pas dfiniepositive, elle est rinitialise la matrice identit.

Reste la question du choix du pas k. A cet effet, nous avons opt pour unemthode conomique en calculs, la technique de Nash [Nash80]. Cette techniquerecherche un pas qui vrifie la condition de descente :

J k-1+k dk J k-1 + m1 k dk

T J k-1 (31)o m1 est un facteur choisi trs infrieur 1 (par exemple m1 = 10

3).En pratique, la recherche du pas se fait de manire itrative. On initialise k

une valeur positive arbitraire. On teste la condition (31). Si elle est vrifie, onaccepte lajustement des paramtres. Sinon, on multiplie le pas par un facteurinfrieur 1 (par exemple 0.2) et on teste nouveau la condition de descente. Onrpte cette procdure jusqu ce quune valeur satisfaisante du pas soit trouve.Au bout de 22 essais, le pas atteint une valeur de lordre de 10-16. On peutconsidrer alors quil nest pas possible de trouver un pas satisfaisant.

Une mthode quasinewtonienne, nest efficace que si elle est appliqueau voisinage dun minimum. D'autre part, la rgle du gradient simple est efficacelorsquon est loin du minimum et sa convergence ralentit considrablementlorsque la norme du gradient diminue (cest dire lorsquon sapproche duminimum). Ces deux techniques sont donc complmentaires. De ce fait,loptimisation seffectue en deux tapes : utilisation de la rgle du gradient simplepour approcher un minimum, et de l'algorithme de BFGS pour l'atteindre. Lecritre darrt est alors un des critres dcrits au paragraphe V.2.2.

V.2.4.2 Lalgorithme de LevenbergMarquardt.

Lalgorithme de LevenbergMarquardt [Levenberg44, Marquardt63] reposesur lapplication de la formule de mise jour des paramtres suivante :

k = k-1 H k-1 + k I

1J k-1 (32)

o H k-1 est le Hessien de la fonction de cot et k est le pas. Pour de petitesvaleurs du pas, la mthode de LevenbergMarquardt sapproche de celle deNewton. Inversement, pour de grandes valeurs de k, lalgorithme LevenbergMarquardt est quivalent lapplication de la rgle du gradient simple avec u n

pas de 1

k.


24

La premire question relative cet algorithme est celle de l'inversion de la

matrice H k - 1 + k I . Lexpression exacte du Hessien de la fonction J est :

H k =en

ken

k

T

n=1

N

+2en

k k Ten

n=1

N

(33)

avec en = ypn yn.

Le second terme de lexpression tant proportionnel lerreur, il est permis de lengliger en premire approximation, ce qui fournit une expression approche :

H k = e

n

ken

k

T

n=1

N

=yn

kyn

k

T

n=1

N

(34)

Dans le cas dun modle linaire par rapport aux paramtres, cest dire si y estune fonction linaire de , le second terme de lexpression de H est nul estlapproximation devient exacte.Plusieurs techniques sont envisageables pour linversion de la matrice H + kI .

Inversion indirecte.Un lemme dinversion permet de calculer la matrice inverse suivant une loircurrente. En effet, soient A, B, C et D quatre matrices. On a la relation suivante :

A + B C D -1 = A-1 A-1B C-1 + D A-1 B

-1D A-1 .

Dautre part, en posant

Xn =yn

k, lapproximation de la matrice H peut

tre calcule partir de la loi de rcurrence suivante : Hn

= Hn-1

+ Xn XnT

avec n = 1, ... , NDe ce fait, on a H = H

N .Si l'on applique le lemme dinversion la relation prcdente en

choisissant A = H , B = Xn , C = I et D = XnT

, on obtient la relation suivante :

Hn -1

= Hn-1 -1

H

n-1 -1Xn Xn

TH

n-1 -1

1 + XnT

Hn-1 -1

Xn(35)

En prenant, la premire tape (n = 1), H0

= k I, on obtient, ltape N :

HN -1

= H + k I-1

.

Inversion directe.

Plusieurs mthodes dinversion directes existent. tant donn quelalgorithme est itratif et que la procdure de recherche du pas ncessite souventplusieurs inversions de matrice, on a intrt utiliser une mthode conomiqueen nombre de calculs.


25

Le fait que lapproximation du Hessien augmente de k reste une matricesymtrique dfinie positive nous permet dutiliser la mthode de Cholesky.

De la mme faon que dans le cas de lalgorithme de BFGS, une rechercheunidimensionnelle doit tre applique pour la recherche dun pas de descente etceci chaque itration de lalgorithme. Une stratgie communment utilise[Bishop95, Walter94] consiste appliquer la procdure suivante : soit r > 1(gnralement gal 10) un facteur d'chelle pour k. Au dbut de lalgorithme,on initialise 0 une grande valeur ([Bishop95] propose 0.1). A ltape k delalgorithme :

Calculer J k avec k dtermin ltape prcdente. Si J k < J k-1 , alors accepter le changement de paramtres etdiviser k par r.

Sinon, rcuprer k-1 et multiplier k par r. Rpter cette derniretape jusqu ce quune valeur de k correspondant unedcroissance de J soit trouve.

Cet exemple de procdure prsente lavantage de ncessiter peu dinversions dematrice chaque itration de lalgorithme. En revanche, le choix du pas initialpossde une influence sur la vitesse de convergence de lalgorithme.Ces observations nous mnent proposer la procdure suivante :

Au dbut de lalgorithme, initialiser 0 une valeur positive quelconque.En effet ce choix na pas dinfluence sur le droulement de lalgorithme. A ltapek de lalgorithme :

1. Calculer J k avec le k disponible (le dernier calcul).2. Si J k < J k-1 , alors rcuprer k-1, diviser k par r et aller ltape 1.

3. Sinon rcuprer k-1 et multiplier k par r. Rpter cette derniretape jusqu ce quune valeur de k correspondant unedcroissance de J soit trouve.

Cette procdure permet de sapprocher de la mthode de Newton plusrapidement que la mthode prcdente. En revanche, tant donn que plusieursajustements de paramtres sont tests, elle ncessite unn plus grand nombredinversions de matrice.


26

V.3 Commentaire.

Nous avons prsent dans cette partie les algorithmes du second ordre quenous utilisons dans ce mmoire (cest dire lalgorithme de BFGS et celui deLevenbergMarquardt). La difficult essentielle lors de lapplication delalgorithme de BFGS rside dans le choix de la condition de passage du gradientsimple la mthode de BFGS. Ce problme ne se pose pas pour l'algorithme deLevenbergMarquardt, mais le volume de calculs ncessaires chaque itrationde cet algorithme crot rapidement avec le nombre de paramtres.

V I. CONCLUSION

Dans ce chapitre, nous avons prsent les principes de la modlisation"bote noire", les tapes de la conception d'un tel modles, ainsi que les fonctionsparamtres utilisables, et les algorithmes qu'il convient de mettre en uvrepour l'ajustement des paramtres. Les deux chapitres suivants seront consacrs la prsentation et la mise en uvre des deux catgories de fonctionsparamtres que nous avons utilises : les rseaux de neurones et les rseauxd'ondelettes.

CHAPITRE II

Rseaux de fonctions dorsales


28

I. INTRODUCTION.

Le prsent chapitre est consacr une catgorie de rseaux utiliss pour lamodlisation non linaire "bote noire", temps discret : les rseaux de fonctionsdorsales (ridge function networks). Cette appellation provient de la formegomtrique des fonctions constituant ces rseaux. Dans ce mmoire, nousutilisons indiffremment les deux appellations rseaux de neurones ourseaux de fonctions dorsales que nous considrons comme synonymes, paropposition aux rseaux d'ondelettes ou de fonctions radiales.

Nous prsentons ici les neurones constituant ces rseaux, leurs propritsainsi que lapprentissage des rseaux.

II. NEURONES FORMELS FONCTIONS DORSALES ET RSEAUX.

II.1 Quest ce quun neurone formel ?

Un neurone formel est une fonction paramtre, non linaire, de plusieursvariables appeles entres du neurone ; la valeur de la fonction est disponible ensortie du neurone. Par abus de langage, nous utiliserons parfois, le terme de"neurone linaire" pour dsigner une fonction linaire ou affine.

II.2 Qu'est-ce qu'un neurone formel fonction dorsale ?

Pour un neurone formel fonction dorsale, le calcul de la fonction esteffectu en deux tapes :

1. Calcul d'une somme pondre des entres. Le rsultat obtenu estappel potentiel du neurone. Il est donn par la relation suivante :

vi = cij xjj Pi

(1)

o Pi est lensemble des indices {j} des entres xj du neurone i. Lescoefficients cij sont des coefficients de pondration des entres duneurones appels (pour des raisons historiques) poids synaptiques ouplus simplement poids.2. Calcul d'une fonction non linaire du potentiel, souvent appelefonction dactivation. La sortie du neurone est alors la valeur de cettefonction, appele parfois activit du neurone :

xi = f vi (2)

Ainsi, en tout point d'un hyperplan de l'espace des entres dfini parvi = constante, la sortie du neurone est constante. Si le neurone est une fonction


29

de deux variables, les lignes de niveau de la sortie sont des droites parallles, d'ole terme de fonction dorsale.

La sortie dun neurone fonction dorsale est non linaire par rapport aux entreset par rapport aux coefficients cij. Cette caractristique est importante puisque,comme nous l'avons vu dans le chapitre prcdent, elle est l'origine de laproprit de parcimonie.

Il est commode de reprsenter graphiquement un neurone fonction dorsalecomme indiqu sur la Figure 1, o apparaissent les deux phases du calcul de lasortie.

x1 x2 xN

i

xi

Entres

Poids synaptiques

Sortie

ci 2 ci Ni ci 1

f

vi

Figure 1. Reprsentation graphique d'un neurone.

Diffrentes fonctions dactivation sont envisageables. Cette question est discuteplus amplement, et des exemples sont prsents, dans le paragraphe III de cechapitre.

II.3 Quest ce quun rseau de neurones ?

Un neurone tant une fonction non linaire paramtre, un rseau deneurones ralise une combinaison, elle-mme paramtre, de telles fonctions. Ona coutume de reprsenter cette combinaison sous la forme de neurones, commereprsents sur la Figure 1, relis entre eux par des connexions qui reprsententles poids. On distingue conventionnellement deux types de neurones dans u nrseau : les neurones cachs, caractriss en ce que leurs sorties ne constituent pas les

sorties du rseau, mais sont combines par le (ou les) neurone(s) de sortie pourconstituer celle(s)-ci : ils sont dits cachs parce que leur sortie nest pas unesortie du rseau.


30

les neurones de sortie combinent les sorties des neurones cachs pourconstituer les sorties du rseau. Pour des rseaux destins la modlisation, lesneurones de sortie sont gnralement des "neurones linaires" (leur fonctiond'activation est l'identit) : ainsi, la sortie dun rseau de neurones destin lamodlisation statique de processus est une combinaison linaire paramtre d efonctions non linaires paramtres des variables.

II.4 Rseaux non boucls et rseaux boucls.

II.4.1 Les rseaux non boucls.

Un rseau de neurones non boucl, appel aussi rseau statique, est u nrseau dont le graphe des connexions est acyclique; il ralise une fonctionalgbrique non linaire de ses entres.Comme nous l'avons indiqu au paragraphe prcdent, on utilise gnralement,pour la modlisation de processus, un rseau comprenant un neurone de sortielinaire ; un tel rseau ralise donc une combinaison linaire paramtre d efonctions non linaires paramtres des variables.

Si ces dernires sont les valeurs, dcales d'une priode d'chantillonnage, d'unmme signal, un tel rseau constitue un filtre non linaire transverse tempsdiscret.

II.4.2 Les rseaux boucls.

Un rseau de neurones boucl, appel aussi rseau dynamique , est u nrseau dont le graphe des connexions peut contenir des cycles. Dans un rseau temps discret, un retard (entier positif ou nul) est associ chaque connexion;pour que le rseau soit causal, tout cycle du graphe des connexions doit tre telque la somme des retards associs chacune des connexions du cycle soit non nul.Un rseau boucl temps discret est rgi par une quation aux diffrencesrcursive. Il constitue un filtre transverse non linaire.

Il a t montr dans [Nerrand92, Dreyfus98] que tout rseau (statique oudynamique) peut tre mis sous une forme particulire, appele forme canonique,qui est une reprsentation d'tat minimale. Elle est constitue d'un rseau nonboucl, et de connexions de retard unit ramenant les sorties de ce rseau nonboucl vers les entres de celui-ci. La forme canonique permet de mettreclairement en vidence un ensemble minimum de variables d'tat, et, de plus,son utilisation facilite la mise en oeuvre de lapprentissage du rseau.

tant donn que, dans le cadre de ce mmoire, nous nous intressons lamodlisation dynamique de processus, nous utiliserons, le plus souvent desrseaux boucls.


31

II.5 Rseaux non boucls compltement connects et rseaux couches.

On distingues deux familles de rseaux non boucls en fonction de latopologie des connexions entre les neurones.

II.5.1 Les rseaux non boucls compltement connects.

Dans un rseau compltement connect, chaque neurone reoit les entresdu rseau et les sorties des neurones de numro infrieur. La figure 2 illustre u nrseau compltement connect ayant Ni entres, Nc neurones cachs et une sortie.

f

f

f

Entres externes1 2 Ni

Ni+1 Ni+2 Ni+Nc+1

SortieNeurones cachs

Figure 2. Rseau de neurones compltement connect.

II.5.2 Les rseaux non boucls couches.

Cest sans doute larchitecture de rseau de neurones la plus rpandue. Detels rseaux sont appels perceptrons multicouches (ou MLP pour Multi-LayerPerceptrons). Les neurones cachs sont organiss en une (ou parfois plusieurs)couches. Ils reoivent leurs entres des neurones de la couche prcdente (ou desentres du rseau sil sagit de la premire couche de neurones cachs) ettransmettent leur sortie ceux de la couche suivante. La figure 3 illustre u nrseau ayant N i entres, constitu dune couche de Nc neurones cachs et dunesortie.


32

f

f

f

Entres externes(vecteur X des variables)

1 2 N i

Couche avec un neurone de sortielinaire

Couche de neurones cachs

Sortie

Ni + Nc + 1

Ni+1 N i+N c

Figure 3. Rseau de neurones avec une couche de neurones cachset un neurone de sortie linaire.

Dans le cadre de ce mmoire, nous nous intresserons uniquement auxrseaux de neurones possdant une seule couche cache et un neurone de sortielinaire. En effet, cette classe de rseaux possde la proprit dapproximationuniverselle que nous prsenterons dans le paragraphe III de ce chapitre. Lafonction ralise par un tel rseau est bien du type dfini par la relation (11) duchapitre prcdent :

X = i ii = 1

NC

X, i (3)

o chaque fonction i est ralise par un neurone, o les i sont les poids de lacouche de connexions entre les sorties des neurones cachs et le neurone desortie, et o les i sont les vecteurs des poids des connexions entre les entres et leneurone cach i.

II.5.3 Les rseaux mis en uvre dans ce travail.

Dans ce mmoire, et comme prcis plus haut dans ce mme chapitre, nousutiliserons uniquement pour la modlisation statique, des rseaux possdant une seule couche de

neurones cachs. Ce choix est motiv par le fait quune telle architecturepossde la proprit dapproximation universelle.

pour la modlisation dynamique, des rseaux tels que la partie statique de leurforme canonique est constitue d'un rseau une couche cache.


33

Le neurone de sortie est choisi avec une fonction dactivation identit. Cechoix permet de ne pas limiter les valeurs de la sortie celle des bornes de lafonction dactivation.

Les rseaux que nous utiliserons possdent une entre constante (appeleaussi biais), relie tous les neurones (y compris le neurone de sortie).

D'autre part, nous utiliserons des connexions directes entre les entres durseau et le neurone de sortie (ces rseaux ne sont donc pas de purs rseaux couches). Lexpression analytique dun tel rseau est donne par la relationsuivante :

(x) = cj f cjk xk

k=0

Ni

j=1

Nc

+ ak xkk=0

Ni

(4)

Cette relation est un cas particulier de la relation (11) du chapitre prcdent, o N cfonctions i sont des fonctions dorsales, et N i fonctions i sont les fonctionsidentit.Lentre d'indice k=0 correspond lentre constante (x0=0). La figure 4 illustre cerseau.

f

f

f

Sortie

Ni + Nc + 1

Ni+1 Ni+Nc

x0=1 x1 xNi

a0

a1

aNi

cNic1

Figure 4. Rseau de fonctions dorsales non boucl que nous utilisons commemodle statique de processus.

III. CHOIX DE LA FONCTION DACTIVATION ET PROPRIT

DAPPROXIMATION UNIVERSELLE.

Comme indiqu dans le chapitre prcdent, la proprit dapproximationuniverselle est une caractristique trs dsirable pour une fonction paramtredestine raliser des modles "bote noire". Dans le cas des rseaux de fonctionsdorsales, cette proprit dpend de la fonction dactivation choisie. Dans le cadre


34

de ce mmoire, nous nous intressons deux fonctions : la fonction tangentehyperbolique (sigmode) et la fonction gaussienne.

III.1 La fonction sigmode.

Il a t montr dans [Cybenko89] quun rseau de fonctions dorsalesconstitu dune seule couche de neurones cachs et dont la fonction dactivationtend vers 0 en et vers 1 en + possde la proprit dapproximateur

universel. Par exemple, la fonction ( valeurs dans {0, 1}) dfinie par (v)= 1

1+ev

remplit ces deux conditions. Dans [Funahashi89], la proprit est prouve pourdes fonctions strictement croissantes et bornes. A cet effet, la fonction la plus

utilise est la fonction tangente hyperbolique : (v) = e

v ev

ev + ev ( valeurs dans

{1,1}).Ces deux fonctions sont drivables, ce qui, comme nous l'avons vu au chapitreprcdent, est important pour l'apprentissage. Notons que cette fonction peut trevue comme une forme drivable de la fonction signe(x) qui a t utilise commefonction dactivation des premiers neurones formels.

Dautre part, nous avons signal plus haut que les rseaux de fonctionsdorsales sont non linaires par rapport leurs paramtres ; ceci confre cesrseaux la proprit de parcimonie [Barron93, Hornik94] : lerreurdapproximation dcrot comme linverse du nombre de fonctions sigmodes quecontient le rseau et ceci quelque soit le nombre dentres. De ce fait, pour uneprcision dsire, le nombre de paramtres du rseau est proportionnel aunombre dentres. Par opposition, le nombre de paramtres est une fonctionexponentielle du nombre d'entres pour des rseaux linaires par rapport auxparamtres (polynmes par exemple).

III.2 La fonction gaussienne.

La fonction dactivation gaussienne a t propose dans [Girosi95] dans u ncontexte de gnralisation des rseaux pralablement proposs par ces auteurs.

Elle est dfinie par (v)=ev2

.

Du point de vue de la proprit dapproximation universelle, les rseaux defonctions dorsales gaussiennes possdent des proprits quivalentes celles desrseaux de fonctions sigmodes [Girosi95].


35

IV . APPRENTISSAGE DES RSEAUX DE FONCTIONS DORSALES.

IV.1 Apprentissage de rseaux non boucls.

tant donne une fonction de rgression approcher ou un processusstatique modliser laide dun rseau non boucl de fonctions dorsales, lapremire tape consiste choisir une architecture pour ce rseau. Puisque nousnous intressons uniquement aux rseaux constitus dune seule couche deneurones cachs, ce choix darchitecture revient au choix (ou la dtermination)du nombre de neurones cachs considrer.

Une fois que le nombre de neurones cachs a t fix, le rseau constitueune famille de fonctions paramtres. La phase dapprentissage du rseau consiste trouver, parmi toutes ces fonctions, celle qui minimise la fonction de cot

J = 1

2yp

n yn 2n = 1

N

; comme nous l'avons indiqu au chapitre I, cette

fonction permet de mesurer lcart entre les sorties du processus et celles durseau aux points de la squence dapprentissage.

Comme nous l'avons indiqu plus haut, la sortie d'un rseau de fonctionsdorsales est non linaire par rapport aux poids synaptiques ; lapprentissage doitdonc tre effectu en utilisant un algorithme de gradient comme ceux prsentsau chapitre I.

Le vecteur gradient de la fonction de cot est calcul en utilisantlalgorithme de rtropropagation [Rumelhart86]. Cette implmentation judicieusedu calcul du gradient est intressante dans la mesure o le nombre doprations effectuer est moins important que dans le cas du calcul du gradient dans le sensdirect. En effet, le calcul du gradient par rtropropagation consiste dcomposer la

(i,j)me composante du gradient partiel Jn

cij en :

Jn

cij=Jn

vi

vicij

= qi xj avec

i = ci0 ci1 .... ciNiT . Pour calculer le vecteur gradient de la fonction de cot, il

suffit de connatre les NC drives qi . En revanche, le calcul du gradient de la

fonction de cot dans le sens direct est bas sur la dcomposition suivante : Jn

cij=Jn

eecij

= ypyycij

. Le calcul de y

cij se fait partir des drives des sorties de

tous les neurones qui influent sur le neurone de sortie, en partant de celles des

entres : xjcij

avec j = 1 , ... , Ni. Dans cette dernire phrase apparat un avantage de

cette technique par rapport la rtropropagation. En effet, la rtropropagationconsidre implicitement que les drives partielles par rapport aux entres sontnulles. Si ce nest pas le cas (en particulier pour les rseaux boucls), il est


36

ncessaire davoir recours au calcul dans le sens direct. Nous discutons dans lechapitre III, une autre situation o le calcul dans le sens direct est plus approprique celui par rtropropagation.

IV.2 Apprentissage de rseaux boucls.

Nous avons indiqu plus haut que tout rseau de neurones boucl tempsdiscret peut tre mis sous une forme canonique constitue d'un rseau nonboucl dont les entres sont les entres externes et les variables d'tat l'instant n,et dont les sorties sont les sorties du rseau et les variables d'tat l'instant n+1.Cette mise en forme dun rseau boucl facilite le calcul du gradient de la fonctionde cot, et ramne l'apprentissage d'un rseau boucl celui d'un rseau nonboucl, comme nous le verrons dans le chapitre III. Ainsi, quil sagisse deffectuerl'apprentissage de rseaux non boucls ou celui de rseaux boucls, on esttoujours amen minimiser une fonction de cot par lune des mthodes degradient dcrites dans le chapitre I.

IV.3 Initialisation du rseau et minima locaux.

Pour que lalgorithme de rtropropagation dmarre, les paramtres durseau doivent tre initialiss des valeurs non nulles. Cette tape dinitialisationest trs importante car elle est susceptible de dterminer en partie le rsultatobtenu en fin dapprentissage, donc les performances du modle ainsi conu. Eneffet, des initialisations diffrentes peuvent conduire trouver, dans l'espace deparamtres, des minima diffrents, donc des valeurs de paramtres diffrentes.

Dans les exemples tudis dans ce mmoire, nous avons adopt unetechnique dinitialisation classique, qui consiste initialiser les paramtres detelle sorte que, en dbut dapprentissage, les valeurs des sorties des neuronescachs se situent dans les parties linaires des sigmodes pour lensemble dessquences dapprentissage. Pour chaque architecture de rseau, on effectueplusieurs apprentissages avec des initialisations diffrentes, et l'on retient lerseau qui correspond la plus petite valeur de la fonction de cot.Au demeurant, pour les rseaux de fonctions dorsales, des expriencesnumriques antrieures menes au laboratoire [Stoppi97] ont montr que leproblme des minima locaux n'est pas dramatique : lorsque la fonctiongnratrice des donnes d'apprentissage est un rseau de neurones (le rseau"matre") ayant plus de cinq entres, et que l'on effectue l'apprentissage d'unrseau de neurones de mme architecture (le rseau "lve"), celui-ci, en find'apprentissage, est identique au rseau matre dans la majorit des cas. Nousverrons dans le chapitre III que la situation est trs diffrente pour les rseauxd'ondelettes.


37

IV.4 Autres schmas dapprentissage pour les rseaux de fonctions dorsales.

Le schma dapprentissage classique des rseaux de fonctions dorsales quenous utilisons dans ce mmoire consiste choisir un nombre de neurones cachset effectuer ensuite lajustement de tous les poids synaptiques de tous lesneurones simultanment.

Dans des tentatives dapporter des rponses au problme des minimalocaux, on trouve dans la littrature des propositions d'autres procduresdapprentissage. Citons la procdure de lapprentissage incrmental [Hirose91,Jutten95, Mohraz96] qui consiste dmarrer lapprentissage avec un seul neuroneet en introduire dautres au fur et mesure que lapprentissage progresse.L'inconvnient gnral de ces procdures rside dans le fait qu'elles aboutissentgnralement des rseaux largement sur-dimensionns, donc nonparcimonieux, car les erreurs, forcment importantes, commises au dbut avecun petit nombre de neurones, ncessitent, pour tre corriges, l'introduction d'ungrand nombre de neurones.

Dans le mme esprit, d'autres auteurs [Chentouf96] proposent uneprocdure dapprentissage incrmental de rseaux o fonctions dorsales etfonctions radiales cohabitent.

La projection pursuit regression [Friedman81, Huber85, Hwang94] peuttre considre comme une procdure dapprentissage particulire de rseaux defonctions dorsales, dont loriginalit rside dans le fait que les fonctionsdactivation des neurones ne sont pas prdtermines (sigmode ou gaussienne)mais reconstruites chaque itration de lalgorithme comme une somme depolynmes ou de fonctions splines.

V . ANALYSE DUN RSEAU DE FONCTIONS DORSALES.

V.1 Principe.

A la fin de lapprentissage dun rseau, on peut se poser la questionsuivante : tous les poids synaptiques ou tous les neurones participent-ilseffectivement la fonction ralise par le rseau ? Autrement dit, sont-ils tousutiles ? Suivant que lon sintresse aux poids synaptiques ou aux neurones, lafaon dtudier la question est sensiblement diffrente. Les techniques permettantde rpondre cette question sont dites des techniques dlagage.

V.2 lagage de poids synaptiques.

On trouve dans la littrature consacre aux rseaux de fonctions dorsalesplusieurs procdures dlagages. Des techniques telles que OBD (Optimal BrainDamage) [LeCun90] ou OBS (Optimal Brain Surgeon) [Hassibi93] commencent par


38

effectuer lapprentissage dun grand rseau. Llagage des poids synaptiques estalors fond sur la sensibilit de la fonction de cot la variation des poidssynaptiques : si la fonction de cot est peu sensible vis vis dun poidssynaptique, celui-ci est supprim et un nouvel apprentissage du rseau esteffectu. En particulier, si un poids correspondant la pondration de la sortiedun neurone est supprim, ce neurone est alors supprim.

Lun des principaux inconvnients de ces mthodes et quun apprentissageest ncessaire chaque suppression dun poids. Ces techniques peuvent treconsidres comme un moyen de dterminer larchitecture minimale pourobtenir une performance dsire.Dautres procdures dlagage de poids synaptiques existent et sont rsumes dans[Reed93].Une mthode de suppression de neurones cachs a t propose dans [Stoppi97],pour des rseaux couches avec un neurone linaire de sortie. La mthodeconsiste ajouter un neurone cach dont la sortie est alatoire. On classe lesentres de ce modle (sorties des neurones cachs) par ordre de pertinencedcroissant par la technique classique d'orthogonalisation de Gram-Schmidt, etl'on supprime tout neurone cach dont la sortie est classe aprs le neuronealatoire.

V.3 Une procdure pour la dtection de neurones fonctions gaussiennes mal

utiliss.

Lors de l'apprentissage de rseaux de fonctions dorsales gaussiennes, ilarrive que les coefficients synaptiques d'un neurone deviennent trs grands. Lepotentiel v tant trs grand, cela a

Documents

These48