76
1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau ([email protected]) AgroParisTech d'après les transparents d'Antoine Cornuéjols

1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau ([email protected]) AgroParisTech d'après les

Embed Size (px)

Citation preview

Page 1: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

1L. OrseauLes réseaux connexionnistes

Les réseaux connexionnistes

EFREI 2010

Laurent Orseau([email protected])

AgroParisTech

d'après les transparents d'Antoine Cornuéjols

Page 2: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

2L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 3: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

3L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 4: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

4L. OrseauLes réseaux connexionnistes

Introduction : Pourquoi les réseaux de neurones ?

• Inspiration biologique

Le cerveau naturel : un modèle très séduisant

– Robuste et tolérant aux fautes

– Flexible. Facilement adaptable

– S’accommode d’informations incomplètes, incertaines, vagues, bruitées ...

– Massivement parallèle

– Capable d’apprentissage

Neurones

– ≈ 1011 neurones dans le cerveau humain

– ≈ 104 connexions (synapses + axones) / neurone

– Potentiel d’action / période réfractaire / neuro-transmetteurs

– Signaux excitateurs / inhibiteurs

Page 5: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

5L. OrseauLes réseaux connexionnistes

Introduction : Pourquoi les réseaux de neurones ?

• Les attraits pratiques

Calculs parallélisables

Implantables directement sur circuits dédiés

Robustes et tolérants aux fautes (calculs et représentations distribués)

Algorithmes simples

D’emploi très général

• Les défauts

Opacité des “raisonnements”

et des résultats d’apprentissage

Page 6: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

6L. OrseauLes réseaux connexionnistes

Historique (très rapide)

Prémisses

– Mc Culloch & Pitts (1943) : 1er modèle de neurone formel.

Rapport neurone et calcul logique : base de l’intelligence artificielle.

– Règle de Hebb (1949) : apprentissage par renforcement du couplage synaptique

Premières réalisations

– ADALINE (Widrow-Hoff, 1960)

– PERCEPTRON (Rosenblatt, 1958-1962)

– Analyse de Minsky & Papert (1969)

Nouveaux modèles

– Kohonen (apprentissage compétitif), ...

– Hopfield (1982) (réseau bouclé)

– Perceptron Multi-Couches (1985)

Analyse et développements

– Théorie du contrôle, de la généralisation (Vapnik), ...

Page 7: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

7L. OrseauLes réseaux connexionnistes

Le perceptron

Rosenblatt (1958-1962)

Page 8: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

8L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 9: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

9L. OrseauLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

[Rosenblatt, 1957,1962]

Page 10: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

11L. OrseauLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

Page 11: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

12L. OrseauLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

Discrimination contre tous les autres

Page 12: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

13L. OrseauLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

Discrimination entre deux classes

Page 13: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

14L. OrseauLes réseaux connexionnistesLe perceptron : critère de performance

• Critère d’optimisation (fonction d’erreur) : Nb total d’erreurs de classification : NON

Critère du Perceptron :

Car nous voulons pour toutes les formes d’apprentissage :

Proportionnel à la distance à la surface de décision (pour toutes les formes mal

classées)

Fonction continue et linéaire par morceaux

wT x 0

< 0

x 1

2

Page 14: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

15L. OrseauLes réseaux connexionnistes

Apprentissage direct : méthode de la pseudo-inverse

• La solution directe (méthode de la pseudo-inverse) requiert

La connaissance de toutes les paires (xi,yi)

Une inversion de matrice (souvent mal-configurée)

(seulement pour un réseau linéaire et une fonction d’erreur quadratique)

• Nécessité d’une méthode itérative sans inversion de matrice

Descente de gradient

Page 15: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

16L. OrseauLes réseaux connexionnistesLe perceptron : algorithme

• Méthode d’exploration de H Recherche par gradient

– Minimisation de la fonction d’erreur

– Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à

chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.

– Apprentissage seulement si erreur de classification

Algorithme :

si la forme est correctement classée : ne rien faire

sinon :

boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

Convergence ?

w(t 1) w(t) xi ui

Page 16: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

17L. OrseauLes réseaux connexionnistesLe perceptron : convergence et capacité mémoire

• Questions :

Qu’est-ce qui est apprenable ?

– Résultat de [Minsky & Papert,68] : séparatrices linéaires

Garantie de convergence ?

– Théorème de convergence du Perceptron [Rosenblatt,62]

Fiabilité de l’apprentissage et nombre d’exemples

– Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie

sur ce qui est appris ?

Page 17: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

18L. OrseauLes réseaux connexionnistes

Capacité expressive : Séparations linéaires

Page 18: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

19L. OrseauLes réseaux connexionnistes

Capacité expressive : Séparations linéaires

Page 19: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

20L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 20: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

21L. OrseauLes réseaux connexionnistes

Les réseaux de neurones : Types de réseaux

• Interconnecté à boucles (e.g. réseau de Hopfield)

Fonctionnementen reconnaissance

Apprentissage ?

Page 21: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

22L. OrseauLes réseaux connexionnistes

Modèles de base : le Perceptron Multi-Couches

• Topologie typique

Flot des signaux

Entrée : xk

Couche d'entrée Couche de sortieCouche cachée

Sortie : yk

Sortie désirée : uk

Page 22: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

23L. OrseauLes réseaux connexionnistes

Le Perceptron Multi-Couches : propagation

• Pour chaque neurone :

wjk : poidspoids de la connexion de la cellule j à la cellule k

ak : activationactivation de la cellule k

g : fonction d’activationfonction d’activation

g(a) 1

1 e a

yl g w jk jj 0, d

g(ak )

Fonction à base radiale

Fonction sigmoïde

Fonction à seuil

Fonction à rampe

Activation ai

Sortie zi

+1

+1

+1

g’(a) = g(a)(1-g(a))

Page 23: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

24L. OrseauLes réseaux connexionnistes

Le Perceptron Multi-Couches : exemple du XOR

A

B

C

x1

x2

y

Biais

Poids

Poids

-0.5

1-1.5

1

11

1

-0.5

-1

A B C

Page 24: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

25L. OrseauLes réseaux connexionnistes

Exemple de réseau (simulateur JavaNNS)

Page 25: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

26L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 26: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

27L. OrseauLes réseaux connexionnistes

Le PMC : l’apprentissage

• Trouver des poids permettant au réseau de réaliser une relation entrée-sortie spécifiée par des exemples de cette relation

(Toujours le problème de la généralisation)

• Apprentissage :

Minimiser la fonction de coût E(w,{xl,ul}) en fonction du paramètre w

Utiliser pour ceci une méthode de descente de gradient

(algorithme de rétro-propagation de gradient)

Principe inductif : On fait alors l’hypothèse que ce qui marche sur les exemples (minimisation du risque empirique), marche sur des données non vues (minimisation du risque réel)

wij E wij

Page 27: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

28L. OrseauLes réseaux connexionnistes

L’apprentissage : descente de gradient

• Apprentissage = recherche dans l’espace multidimensionnel des paramètres (poids synaptiques) en vue de minimiser la fonction de coût

• Quasi totalité des règles d’apprentissage pour les RNs

= méthode de descente de gradient

Solution optimale w* tq. :

wij(1) wij

( ) E

wij w( )

E(1) E( ) w E

E(w* ) 0

=

w1

,

w2

, ...,

w N

T

Page 28: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

29L. OrseauLes réseaux connexionnistes

Le Perceptron Multi-Couches : apprentissage

Objectif :

Algorithme (rétro-propagation de gradient) : descente de gradient

Algorithme itératif :

Cas hors-ligne (gradient total) :

où :

Cas en-ligne (gradient stochastique) :

w( t ) w( t 1) Ew(t )

wij (t) wij (t 1) (t)1

m

RE (xk ,w)

wijk1

m

wij (t) wij (t 1) (t)RE(xk,w)

wij

RE(xk ,w) [tk f (xk ,w)]2

w * argminw

1

my(xl ; w) u(xl ) 2

l1

m

Page 29: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

30L. OrseauLes réseaux connexionnistes

Le Perceptron Multi-Couches : apprentissage

1. Présentation d’un exemple parmi l’ensemble d’apprentissage

Séquentielle, aléatoire, en fonction d’un critère donné

2. Calcul de l’état du réseau

3. Calcul de l’erreur = fct(sortie - sortie désirée) (e.g. = (yl - ul)2)

4. Calcul des gradients

Par l’algorithme de rétro-propagation de gradient

5. Modification des poids synaptiques

6. Critère d’arrêt

Sur l’erreur. Nombre de présentation d’exemples, ...

7. Retour en 1

Page 30: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

31L. OrseauLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• Le problème : Détermination des responsabilités (“credit assignment problem”) Quelle connexion est responsable, et de combien, de l’erreur E ?

• Principe : Calculer l’erreur sur une connexion en fonction de l’erreur sur la couche suivante

• Deux étapes :

1. Evaluation des dérivées de l’erreur par rapport aux poids

2. Utilisation de ces dérivées pour calculer la modification de chaque poids

Page 31: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

32L. OrseauLes réseaux connexionnistes

1. Evaluation de l’erreur Ej (ou E) due à chaque connexion :

Idée : calculer l’erreur sur la connexion wji en fonction de l’erreur après la cellule j

Pour les cellules de la couche de sortie :

Pour les cellules d’une couche cachée :

PMC : La rétro-propagation de gradient

E l

wij

k E l

ak

g' (ak ) E l

yk

g' (ak ) uk(xl) yk

j E l

aj

E l

ak

ak

ajk k

ak

zj

zj

a jk g' (a j ) w jk k

k

E l

wij

E l

a j

a j

wij

j zi

Page 32: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

33L. OrseauLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

ai : activation de la cellule i

zi : sortie de la cellule i

i : erreur attachée à la cellule i

wijji k

yk

Cellule de sortieCellule cachée

k

akaj

j

wjkzjzi

Page 33: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

34L. OrseauLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• 2. Modification des poids

On suppose gradient à pas (constant ou non ): (t)

Si apprentissage stochastique (après présentation de chaque exemple)

Si apprentissage total (après présentation de l’ensemble des exemples)

wji (t) j ai

wji (t) jn ai

n

n

Page 34: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

35L. OrseauLes réseaux connexionnistes

Le PMC : passes avant et arrière (résumé)

x

ai(x) w jxj

j 1

d

w0

yi(x) g(ai(x))

ys (x) w js y jj1

k

ys(x)

wis

k neurones sur lacouche cachée

. . .x1 x2 x3 xd

w1 w2 w3wd

yi(x)

x0

w0Biais

. . .y (x)1

Page 35: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

36L. OrseauLes réseaux connexionnistes

Le PMC : passes avant et arrière (résumé)

x

ys(x)

wis

. . .x1 x2 x3 xd

w1 w2 w3wd

yi(x)

x0

w0Biais

. . .y (x)1

s g' (as ) (us ys )

j g' (aj ) w js scellules scouchesuivante

wis (t 1) wis (t) ( t) sai

wei (t 1) wei(t) (t ) iae

Page 36: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

37L. OrseauLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• Efficacité en apprentissage

En O(w) pour chaque passe d’apprentissage, w = nb de poids

Il faut typiquement plusieurs centaines de passes (voir plus loin)

Il faut typiquement recommencer plusieurs dizaines de fois un apprentissage en

partant avec différentes initialisations des poids

• Efficacité en reconnaissance

Possibilité de temps réel

Page 37: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

40L. OrseauLes réseaux connexionnistes

Applications : optimisation multi-objectif

• cf [Tom Mitchell]

prédire à la fois la classe et la couleur

plutôt que la classe seulement.

Page 38: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

41L. OrseauLes réseaux connexionnistes

Rôle de la couche cachée

Page 39: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

42L. OrseauLes réseaux connexionnistes

Rôle de la couche cachée

Page 40: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

43L. OrseauLes réseaux connexionnistes

Rôle de la couche cachée

Page 41: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

44L. OrseauLes réseaux connexionnistes

PMC : Les applications• Automatique : identification et contrôle de processus

(e.g. Commande de robot)

• Traitement du signal (filtrage, compression de données, traitement de la parole (Identification du locuteur, ...)

• Traitement d’images, reconnaissance des formes (reconnaissance de l’écriture manuscrite, Lecture automatique des codes postaux (Zip codes, USA), ...)

• Prédiction (consommations d’eau, d’électricité, météorologie, bourse, ...)

• Diagnostic (industrie, médecine, science, ...)

Page 42: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

45L. OrseauLes réseaux connexionnistes

Application aux codes postaux (Zip codes)

• [Le Cun et al., 1989, ...] (ATT Bell Labs : très forte équipe)

• ≈ 10000 exemples de chiffres manuscrits

• Segmentés et redimensionnés sur matrice 16 x 16

• Technique des poids partagés (“weight sharing”)

• Technique du optimal brain damage

• 99% de reconnaissance correcte (sur l’ensemble d’apprentissage)

• 9% de rejet (pour reconnaissance humaine)

Page 43: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

46L. OrseauLes réseaux connexionnistes

La base de données

Page 44: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

47L. OrseauLes réseaux connexionnistes

Application aux codes postaux (Zip codes)

1

2

3

4

5

6

7

8

9

0

Matrice 16 x 16 12 détecteursde traits (8 x 8)

12 détecteursde traits (4 x 4)

30 cellules

10 cellulesde sortie

Page 45: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

48L. OrseauLes réseaux connexionnistes

Les erreurs commises

Page 46: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

49L. OrseauLes réseaux connexionnistes

La régression

Page 47: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

50L. OrseauLes réseaux connexionnistes

Un échec : QSAR

• Quantitative Structure Activity Relations

Prédire certaines propriétés de molécules (par exemple activité biologique) à partir de descriptions :- chimiques- géométriques- éléctriques

Page 48: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

51L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 49: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

52L. OrseauLes réseaux connexionnistes

PMC : Mise en pratique (1)• Problèmes techniques :

comment améliorer la performance de l’algorithme

Le PMC en tant que méthode d’optimisation : variantes

• Ajout d’un moment

• Méthodes du 2° ordre

• Hessien

• Gradients conjugués

Heuristiques

• Apprentissage séquentiel vs en mode batch

• Choix de la fonction d’activation

• Normalisation des entrées

• Initialisation des poids

• Les gains d’apprentissage

Page 50: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

53L. OrseauLes réseaux connexionnistes

PMC : La rétro-propagation de gradient (variantes)

• Ajout d’un moment

wji (t 1) E

w ji

w ji(t)

Page 51: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

54L. OrseauLes réseaux connexionnistes

Convergence

• Réglage du pas d’apprentissage :

Page 52: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

55L. OrseauLes réseaux connexionnistes

PMC : Problèmes de convergence

• Minimums locaux. “Ravins”. etc.

Ajout d’un terme de moment (inertie)

Conditionnement des variables

Bruiter les données d’apprentissage

Algorithme stochastique (vs. total)

Un pas de gradient variable (dans le temps et pour chaque cellule)

Utilisation de la dérivée seconde (Hessien). Gradient conjugué.

Page 53: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

56L. OrseauLes réseaux connexionnistes

PMC : Problèmes de convergence (gradients variables)

• Gain adaptatif

si le gradient ne change pas de signe, sinon

Gain beaucoup plus faible en stochastique qu’en gradient total

Gain propre à chaque couche (e.g. 1 / (# entrées cellule)1/2 )

• Algorithmes plus complexes

Gradients conjugués

– Idée : Essayer de minimiser indépendamment sur chaque axe, en utilisant un

moment sur la direction de recherche

Méthodes de second ordre (Hessien)

Diminuent le nombre de pas mais augmentent le temps calcul.

Page 54: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

57L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 55: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

58L. OrseauLes réseaux connexionnistes

Le sur-apprentissage

Page 56: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

59L. OrseauLes réseaux connexionnistes

Le problème de la sélection de modèle

Page 57: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

60L. OrseauLes réseaux connexionnistes

Contrôle de H : régularisation

• Principe : limiter l’expressivité de H

• Nouveau risque empirique :

• Exemples de régularisateurs utilisés :

– Contrôle de l’architecture du RN

– Contrôle des paramètres

• Soft-weight sharing

• Weight decay

• Réseaux à convolution

– Exemples bruités

Remp () 1

mL(h (xl , ),u l

l 1

m

) [h(. , )]Terme de pénalisation

Page 58: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

61L. OrseauLes réseaux connexionnistes

Contrôle par limite de l’exploration effective de H

• Règle de l’arrêt prématuré

• Weight decay

Page 59: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

62L. OrseauLes réseaux connexionnistes

Généralisation : optimiser la structure d’un réseau

• Par croissance progressive

Cascade correlation [Fahlman,1990]

• Par élagage

Optimal brain damage [Le Cun,1990]

Optimal brain surgeon [Hassibi,1993]

Page 60: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

63L. OrseauLes réseaux connexionnistes

Introduction de connaissances a priori

Invariances

• Exemples obtenus par transformation

Translation / rotation / dilatation

• Fonction de coût incorporant des dérivées (e.g. spatiales)

Page 61: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

64L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 62: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

65L. OrseauLes réseaux connexionnistes

ANN Application Areas

• Classification

• Clustering

• Associative memory

• Control

• Function approximation

Page 63: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

66L. OrseauLes réseaux connexionnistes

Applications for ANN Classifiers

• Pattern recognition

Industrial inspection

Fault diagnosis

Image recognition

Target recognition

Speech recognition

Natural language processing

• Character recognition

Handwriting recognition

Automatic text-to-speech conversion

Page 64: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

67L. OrseauLes réseaux connexionnistes

Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

Neural Network ApproachesALVINN - Autonomous Land Vehicle In a Neural Network

ALVINN

Page 65: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

68L. OrseauLes réseaux connexionnistes

Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

- Developed in 1993.

- Performs driving with Neural Networks.

- An intelligent VLSI image sensor for road following.

- Learns to filter out image details not relevant to driving.

Hidden layer

Output units

Input units

ALVINN

Page 66: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

69L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 67: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

70L. OrseauLes réseaux connexionnistes

PMC à fonctions radiales (RBF)

• Définition

Couche cachée de cellules à fonction d’activation radiale (e.g. gaussienne)

– Idée : “paver” l’espace des entrées avec ces “champs récepteurs”

Couche de sortie : combinaison linéaire sur la couche cachée

• Propriétés

Approximateur universel ([Hartman et al.,90], ...)

Mais non parcimonieux (explosion combinatoire avec la taille des entrées)

Réservé aux problèmes de faible dimensionalité

Liens étroits avec les systèmes d’inférence floue et les réseaux neuro-flous

Page 68: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

71L. OrseauLes réseaux connexionnistes

PMC à fonctions radiales (RBF) : apprentissage

• Paramètres à régler :

Nb de cellules cachées

Position des centres des champs récepteurs

Diamètre des champs récepteurs

Poids vers la couche de sortie (moyenne pondérée)

• Méthodes

Adaptation de la rétro-propagation (possible)

Détermination de chaque type de paramètres par une méthode propre (souvent plus efficace)

– Centres déterminés par méthodes de “clustering” (k-means, ...)

– Diamètres déterminés par optimisation des taux de recouvrement (PPV, ...)

– Poids par technique d’optimisation linéaire (calcul de pseudo-inverse, ...)

Page 69: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

72L. OrseauLes réseaux connexionnistes

Les réseaux récurrents

• Tâches

Reconnaissance de séquence

E.g. reconnaître le mot correspondant à un signal vocal

Reproduction de séquence

E.g. poursuivre la séquence quand une séquence initiale a été fournie (ex: prévision de

consommation d’électricité)

Association temporelle

Production d’une séquence en réponse à la reconnaissance d’une autre séquence.

Time Delay Neural Networks (TDNNs)

Duplication des couches (artifice : pas vraiment récurrents)

Réseaux récurrents

Page 70: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

73L. OrseauLes réseaux connexionnistes

Recurrent ANN Architectures

• Feedback connections

• Dynamic memory: y(t+1)=f(x(τ),y(τ),s(τ)) τ(t,t-1,...)

• Models : Jordan/Elman ANNs

Hopfield

Adaptive Resonance Theory (ART)

Page 71: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

75L. OrseauLes réseaux connexionnistes

Les réseaux récurrents

• Problèmes

Notoirement difficiles à contrôler

– Dynamique chaotique

Mémoire du passé limitée

Paramètres supplémentaires

– Apprentissage mal compris

Page 72: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

76L. OrseauLes réseaux connexionnistes

Une idée intrigante : le « reservoir computing »

• Idée :

Utiliser un réseau récurrent sans l’entraîner explicitement

Mais entraîner une seule couche de sortie

• Permet de rendre compte du temps

Séries temporelles

Page 73: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

77L. OrseauLes réseaux connexionnistes

Une idée intrigante : le « reservoir computing »

• Semble prometteur :

Demande encore beaucoup de recherches

• Voir aussi

– Liquid State Machines

– Echo State Machines

– Backpropagation-Decorrelation

Page 74: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

78L. OrseauLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

Page 75: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

79L. OrseauLes réseaux connexionnistes

Conclusions• Limites

Apprentissage lent et difficile

Opacité

– Réseaux appris très difficile à interpréter

– Difficile d’utiliser de la connaissance a priori

Apprentissage incrémental de nouveaux concepts difficile : « catastrophic forgetting »

• Avantages

Famille de modèles souple : s’adapte à une grande variété de problèmes

Page 76: 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau (laurent.orseau@agroparistech.fr) AgroParisTech d'après les

80L. OrseauLes réseaux connexionnistes

Sources documentaires• Ouvrages / articles

Dreyfus et. al (2001) : Réseaux de neurones. Méthodologie et applications. Eyrolles, 2001.

Bishop C. (06) : Neural networks for pattern recognition. Clarendon Press - Oxford, 1995.

Haykin (98) : Neural Networks. Prentice Hall, 1998.

Hertz, Krogh & Palmer (91) : Introduction to the theory of neural computation. Addison Wesley, 1991.

Thiria, Gascuel, Lechevallier & Canu (97) : Statistiques et méthodes neuronales. Dunod, 1997.

Vapnik (95) : The nature of statistical learning. Springer Verlag, 1995.

• Sites web

http://www.lps.ens.fr/~nadal/ (point d’entrée pour de nombreux sites)