Download ppt - Réseaux de neurones à base radiale

RÉSEAUX DE NEURONES À BASE RADIALE

INTRODUCTION Une fonction de base radiale (FBR) dépend de manière non croissante

de la distance entre la variable indépendante et un vecteur de référence.

Les FBRs représentent des récepteurs locaux; dans la figure, chaque point vert est un vecteur de référence pour une FBR.

Un réseau à base radiale contient une couche cachée constituée de FBRs. Une unité de sortie réalise la combinaison linéaire de leurs sorties.

w1

w3

w2Les coordonnées du point noir sont “interpolées” à l’aide de celles des trois points verts, dont la contribution individuelle de chacun dépend de sa distance du point noir et de son poids w. Dans l’illustration :

231 www

ARCHITECTURE RBR

Couche cachée : fonction d’activation/sortie FBR Sont généralement des gaussiennes

Unité de sortie : fonction d’activation/sortie linéaire.11... m

x2

xm

x1

y

wm1

w11

1m

||)(||...||)(|| 111111 mmm txwtxwy

)t,...,t(tvecteur le et

)x,...,x(x entre distancela est ||tx||

m1

m1

Couche tampon

Couche cachée ; les « poids » sont les coordonnées des centres des FBR

Couche de sortie ; combinateur linéaire. Peut être suivi d’une

fonction de sortie au besoin

MODÈLE DES UNITÉS CACHÉES

Unités cachées : Utilisent des FBR

x2

x1

xm

φ( || x - t||)

t est le centreest l’étendue

t et sont à déterminer

φ( || x - t||) La sortie dépend de la distance entre L’entrée x et le centre t

PROPRIÉTÉS DES UNITÉS CACHÉES

Un neurone caché est plus sensible aux entrées situées proche de son centre.

Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue , pour lequel une valeur plus grande signifie moins de sensibilité.

Plausibilité biologique: Les cellules cochléaires stéréociliaires du système auditif possèdent des réponses qui sont optimales pour des bandes de fréquences données.

grand

petit

centre

DIFFÉRENTES SORTES DE FBR

Multiquadriques

Multiquadriques inverses

Gaussiennes (les plus utilisées)

21

)()( 22 crr

2

2

2exp)(

r

r

21

)(

1)(

22 crr

||||

0

txr

c

ILLUSTRATION DU RÔLE DE LA COUCHE CACHÉE

( )

( )

( )( )( )

( )

( )( )

(.)( )

( )

( )

( )( )

( )

( )

( )( )

( )

EXEMPLE: LE PROBLÈME DU OU-X

Espace simuli(problème) :

Espace réseau(solution) :

Construire un classifieur RBR tel que :(0,0) et (1,1) sont projetés sur 0 (classe C1)(1,0) et (0,1) sont projetés sur 1 (classe C2)

(1,1)(0,1)

(0,0) (1,0)x1

x2

y10

LE PROBLÈME DU OU-X (2)

Dans l’espace des traits (couche cachée) :

Une fois projetées dans la couche cachée, C1 and C2 deviennent linéairement séparables, permettant au classifieur linéaire à la sortie de prendre 1(x) and 2(x) comme entrées et donner la bonne sortie OU-X.

22

21

||||22

||||11

||)(||

||)(||tx

tx

etx

etx

)0,0(t et )1,1(tùo 21

φ1

φ2

1.0

1.0(0,0)

0.5

0.5 (1,1)

Frontière de décision

(0,1) et (1,0)

x1

x2

t1

+1-1

-1

t2y

C0 sinon; C1 alors 0ySi

1eey2

22

1 ||tx||||tx||

PARAMÈTRES D’UN RÉSEAU RBR

Que doit-on connaître (apprendre) pour un réseau RBR donné ? Le nombre de FBR Les centres des FBR Les étendues des FBR Les poids entre la couche cachée et la couche de sortie

Plusieurs algorithmes d’apprentissage sont possibles

ALGORITHME D’APPRENTISSAGE 1

Centres : sélectionnés aléatoirement Les centres sont choisis aléatoirement en partant de l’ensemble

d’apprentissage

Étendues: déterminées par normalization :

La fontion d’activation/sortie d’un neurone caché i est alors :

1m

maxd

centres of nombre

sarbitraire centres deux entre max. Distance

2

i2max

12

ii tx2d

mexptx


Poids: Déterminés par la méthode de la matrice pseudo-inverse :Considérons la sortie du réseau pour la paire

d’apprentissage :

Nous voulons avoir pour chaque xi :

||)(||...||)(||)( 111111 mimmii txwtxwxy

),( ii dx

ii dxy )(

imimmi dtxwtxw ||)(||...||)(|| 111111


On peut réécrire les équations précédentes :

pour un exemple d’apprentissage xi donné, et

pour tous les exemples simultanément

iT

1m11mi1m1i1 d]w...w[||)tx(|| ... ||)tx(||

TN

Tm

mNmN

mm

ddww

txtx

txtx

]...[]...[

||)(||||)...(||

...

||)(||||)...(||

111

1111

111111


Si on pose

Alors on a :

et

où est la matrice pseudo-inverse de

TN

Tm ddww ]...[]...[ 111

||)(||...||)(||

...

||)(||...||)(||

1111

11111

mNmN

mNm

txtx

txtx

Nm d

d

w

w

......1

1

1

Principe du pseudo inverse

Soit un vecteur X = (X1…Xp) et une relation linéaire :

Règle des moindres carrés :

min

RÉSUMÉ DE L’ALGORITHME

1. Choisir les centres aléatoirement à partir de l’ensemble d’apprentissage.

2. Déterminer les étendues des FBR en utilisant la méthode de normalisation.

3. Trouver les poids de sortie en utilisant la méthode de la pseudo-inverse.


Centres : déterminés par un l’algorithme de groupement des k moyennes adaptatif

1 Initialisation: tk(0) aléatoire k = 1, …, m1

2 Échantillonnage : on tire x dans l’espace d’apprentissage 3 Appariement par similarité: trouver l’index du centre le plus proche de x

4 Mise à jour : adaptation des centres

5 Continuation: n=n+1, aller à 2 et continuer jusqu’à ce que les centres se stabilisent (changent peu).

)n(tx(n)min argk(x) kk

k(x)k if )n(tx(n))n(t kk otherwise )n(tk

)1 n(tk

Étendues : déterminés par un algorithme basés sur les plus P plus proches voisins

1. Un nombre P est choisi, et pour chaque centre, les P centres les plus proches sont déterminés.

2. La distance quadratique moyenne entre le centre courant et les centres de ses P plus proches voisins est calculée, et est utilisée comme valeur de .

Si le centre du groupe courant est cj, la valeur de est :

Une valeur typique pour P est 2, auquel cas est la distance moyenne entre les deux plus proches centroÍdes voisins.

P

iikj cc

P 1

2)(1


RÉSUMÉ DE L’ALGORITHME

Processus d’apprentissage hybride:

Algorithme de groupement pour trouver les centres.Étendue fixée par normalisation des distances entre P

plus proches voisins. Poids déterminés par un algorithme de moindres

carrés (e.g. Adaline)


Appliquer la technique de descente de gradient pour trouver aussi bien les centres, les étendues et les poids, de manière à minimiser l’erreur quadratique

Centres

Étendues

Poids

jtj t

tj

E

jj

E

j

ijijij w

w

E

2))((2

1dxyE

COMPARAISON RBR-PMC Tous les deux approximateurs universels de

fonctions L2. Réseaux non récurrents à couches multiples. RBR surtout utilisé pour la régression et la

classification binaire. RBR apprend plus vite que PMC La couche cachée RBR est souvent plus facile à

interpréter que celle d’un PMC Après apprentissage, les réseaux RBR sont

généralement plus lents en phase de rappel.

COMPARAISON RBR-PMC

Architecture: RBR possède une seule couche

cachée.

Modèle de neurone: Dans RBR, le modèle des

neurones cachés est différent de celui des neurones de sortie.

La couche cachée dans RBR est non-linéaire, celle de sortie est linéaire.

PMC peut posséder plus d’une couche cachée.

Dans PMC, le modèle de neurone dans les différentes couches peut être le même.

Dans PMC, toutes les couches peuvent être non-lineaires.

COMPARAISON RBR-PMC

Fonctions de sortie : Dans RBR, l’argument d’une FBR de la couche cachée est la

distance (euclidienne ou autre) entre un vecteur d’entrée et le centre de l’unité.

Dans PMC, l’argument d’un neurone caché est le produit scalaire d’un vecteur d’entrée et du vecteur des poids synaptiques qui alimentent le neurone.

Approximation: Les réseaux RBR construisent généralement une approximation

locale de projections non-linéaires. Peuvent demander plus de ressources mais mènent à des représententations terses et linéairement decodables.

Les réseaux PMC construisent une approximation globale des mêmes projections. Peuvent êter difficiles à interpréter.

APPLICATION: RECONNAISSANCE DE VISAGES

Le problème :Reconnaitre des visages de personnes faisant partie

d’un groupe dans un environnement intérieur. L’approche:

Apprendre les différentes classes, chacune représentant des poses diverses d’un même visage en utilisant un réseau RBR.

DONNÉES

Base de données100 images de 10 personnes (tons de gris sur 8 bits,

résolution de 384 x 287)Pour chaque individu, 10 images de la tête vue de face et

de profilConçue pour évaluer la performance de techniques de

reconnaissance du visage en présence de variations de l’angle de prise de vue.

DONNÉES

Images des classes 0-3 de la base de données Sussex, centrées sur le nez et réduites à un format de 25x25 avant traitement

APPROCHE: RBR POUR CHAQUE VISAGE

Un réseau RBR par personne est utilisé pour reconnaître le visage de la personne.

L’apprentissage utilise des exemples d’images de la personne à reconnaître comme évidence positive et des images d’autres personnes pouvant prêter à confusion comme évidence négative.

ARCHITECTURE DU RÉSEAU

La couche d’entrée contient 25*25 entrées répréseantant les intensités (normalisées) des pixels d’une image.

La couche cachée contient p+a neurones: p neurones cachés pro (récepteur pour évidence positive) a neurones cachés con (récepteurs for évidence negative)

La couche de sortie contient deux neurones: Un pour la personne visée. Un pour toutes les autres.

Le résultat est ignoré si la différence absolue entre les sorties des deux neurones est inférieure à un seuil R.

ARCHITECTURE POUR RECONNAÎTRE UN VISAGE

Unités de sortielinéaires

Unités FBR Non-linéaires

Unités d’entrée

Supervisé

Non supervisé

COUCHE CACHÉE

Les unités cachées peuvent être :Neurones pro : Évidence positive pour la

personne.Neuones anti : Évidence négative pour la

personne. Le nombre de neurones pro est égal aux exemples

positifs dans l’ensemble d’apprentissage. À chaque Neurone pro correspondent un ou deux neurones anti.

Modèle de neurone caché : FBR gaussienne.

APPRENTISSAGE ET TEST Centres:

d’un neurone pro : l’exemple positif correspondant D’un neurone anti : l’exemple négatif le plus similaire au neurone

pro correspondant, en utilisant une distance euclidienne. Étendue : distance moyenne entre le centre du neurone et

tous les autres centres. L’étendue d’un neurone caché est donc

où H est le nombre de neurones cachés et est le centre du neurone .

Poids: déterminés par la méthode du pseudo inverse. Un réseau RBR avec 6 neurones pro, 12 neurones anti, et R

égal à 0.3, rejeta 23 % des images de l’ensemble de test et classa correctement 96 % des images retenues.

h

hnn tt

H||||

2

1n

iti