RÉSEAUX DE NEURONES À BASE RADIALE
INTRODUCTION Une fonction de base radiale (FBR) dépend de manière non croissante
de la distance entre la variable indépendante et un vecteur de référence.
Les FBRs représentent des récepteurs locaux; dans la figure, chaque point vert est un vecteur de référence pour une FBR.
Un réseau à base radiale contient une couche cachée constituée de FBRs. Une unité de sortie réalise la combinaison linéaire de leurs sorties.
w1
w3
w2Les coordonnées du point noir sont “interpolées” à l’aide de celles des trois points verts, dont la contribution individuelle de chacun dépend de sa distance du point noir et de son poids w. Dans l’illustration :
231 www
ARCHITECTURE RBR
Couche cachée : fonction d’activation/sortie FBR Sont généralement des gaussiennes
Unité de sortie : fonction d’activation/sortie linéaire.11... m
x2
xm
x1
y
wm1
w11
1m
||)(||...||)(|| 111111 mmm txwtxwy
)t,...,t(tvecteur le et
)x,...,x(x entre distancela est ||tx||
m1
m1
Couche tampon
Couche cachée ; les « poids » sont les coordonnées des centres des FBR
Couche de sortie ; combinateur linéaire. Peut être suivi d’une
fonction de sortie au besoin
MODÈLE DES UNITÉS CACHÉES
Unités cachées : Utilisent des FBR
x2
x1
xm
φ( || x - t||)
t est le centreest l’étendue
t et sont à déterminer
φ( || x - t||) La sortie dépend de la distance entre L’entrée x et le centre t
PROPRIÉTÉS DES UNITÉS CACHÉES
Un neurone caché est plus sensible aux entrées situées proche de son centre.
Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue , pour lequel une valeur plus grande signifie moins de sensibilité.
Plausibilité biologique: Les cellules cochléaires stéréociliaires du système auditif possèdent des réponses qui sont optimales pour des bandes de fréquences données.
grand
petit
centre
DIFFÉRENTES SORTES DE FBR
Multiquadriques
Multiquadriques inverses
Gaussiennes (les plus utilisées)
21
)()( 22 crr
2
2
2exp)(
r
r
21
)(
1)(
22 crr
||||
0
txr
c
ILLUSTRATION DU RÔLE DE LA COUCHE CACHÉE
( )
( )
( )( )( )
( )
( )( )
(.)( )
( )
( )
( )( )
( )
( )
( )( )
( )
EXEMPLE: LE PROBLÈME DU OU-X
Espace simuli(problème) :
Espace réseau(solution) :
Construire un classifieur RBR tel que :(0,0) et (1,1) sont projetés sur 0 (classe C1)(1,0) et (0,1) sont projetés sur 1 (classe C2)
(1,1)(0,1)
(0,0) (1,0)x1
x2
y10
LE PROBLÈME DU OU-X (2)
Dans l’espace des traits (couche cachée) :
Une fois projetées dans la couche cachée, C1 and C2 deviennent linéairement séparables, permettant au classifieur linéaire à la sortie de prendre 1(x) and 2(x) comme entrées et donner la bonne sortie OU-X.
22
21
||||22
||||11
||)(||
||)(||tx
tx
etx
etx
)0,0(t et )1,1(tùo 21
φ1
φ2
1.0
1.0(0,0)
0.5
0.5 (1,1)
Frontière de décision
(0,1) et (1,0)
x1
x2
t1
+1-1
-1
t2y
C0 sinon; C1 alors 0ySi
1eey2
22
1 ||tx||||tx||
PARAMÈTRES D’UN RÉSEAU RBR
Que doit-on connaître (apprendre) pour un réseau RBR donné ? Le nombre de FBR Les centres des FBR Les étendues des FBR Les poids entre la couche cachée et la couche de sortie
Plusieurs algorithmes d’apprentissage sont possibles
ALGORITHME D’APPRENTISSAGE 1
Centres : sélectionnés aléatoirement Les centres sont choisis aléatoirement en partant de l’ensemble
d’apprentissage
Étendues: déterminées par normalization :
La fontion d’activation/sortie d’un neurone caché i est alors :
1m
maxd
centres of nombre
sarbitraire centres deux entre max. Distance
2
i2max
12
ii tx2d
mexptx
ALGORITHME D’APPRENTISSAGE 1
Poids: Déterminés par la méthode de la matrice pseudo-inverse :Considérons la sortie du réseau pour la paire
d’apprentissage :
Nous voulons avoir pour chaque xi :
||)(||...||)(||)( 111111 mimmii txwtxwxy
),( ii dx
ii dxy )(
imimmi dtxwtxw ||)(||...||)(|| 111111
ALGORITHME D’APPRENTISSAGE 1
On peut réécrire les équations précédentes :
pour un exemple d’apprentissage xi donné, et
pour tous les exemples simultanément
iT
1m11mi1m1i1 d]w...w[||)tx(|| ... ||)tx(||
TN
Tm
mNmN
mm
ddww
txtx
txtx
]...[]...[
||)(||||)...(||
...
||)(||||)...(||
111
1111
111111
ALGORITHME D’APPRENTISSAGE 1
Si on pose
Alors on a :
et
où est la matrice pseudo-inverse de
TN
Tm ddww ]...[]...[ 111
||)(||...||)(||
...
||)(||...||)(||
1111
11111
mNmN
mNm
txtx
txtx
Nm d
d
w
w
......1
1
1
Principe du pseudo inverse
Soit un vecteur X = (X1…Xp) et une relation linéaire :
Règle des moindres carrés :
min
RÉSUMÉ DE L’ALGORITHME
1. Choisir les centres aléatoirement à partir de l’ensemble d’apprentissage.
2. Déterminer les étendues des FBR en utilisant la méthode de normalisation.
3. Trouver les poids de sortie en utilisant la méthode de la pseudo-inverse.
ALGORITHME D’APPRENTISSAGE 2
Centres : déterminés par un l’algorithme de groupement des k moyennes adaptatif
1 Initialisation: tk(0) aléatoire k = 1, …, m1
2 Échantillonnage : on tire x dans l’espace d’apprentissage 3 Appariement par similarité: trouver l’index du centre le plus proche de x
4 Mise à jour : adaptation des centres
5 Continuation: n=n+1, aller à 2 et continuer jusqu’à ce que les centres se stabilisent (changent peu).
)n(tx(n)min argk(x) kk
k(x)k if )n(tx(n))n(t kk otherwise )n(tk
)1 n(tk
Étendues : déterminés par un algorithme basés sur les plus P plus proches voisins
1. Un nombre P est choisi, et pour chaque centre, les P centres les plus proches sont déterminés.
2. La distance quadratique moyenne entre le centre courant et les centres de ses P plus proches voisins est calculée, et est utilisée comme valeur de .
Si le centre du groupe courant est cj, la valeur de est :
Une valeur typique pour P est 2, auquel cas est la distance moyenne entre les deux plus proches centroÍdes voisins.
P
iikj cc
P 1
2)(1
ALGORITHME D’APPRENTISSAGE 2
RÉSUMÉ DE L’ALGORITHME
Processus d’apprentissage hybride:
Algorithme de groupement pour trouver les centres.Étendue fixée par normalisation des distances entre P
plus proches voisins. Poids déterminés par un algorithme de moindres
carrés (e.g. Adaline)
ALGORITHME D’APPRENTISSAGE 3
Appliquer la technique de descente de gradient pour trouver aussi bien les centres, les étendues et les poids, de manière à minimiser l’erreur quadratique
Centres
Étendues
Poids
jtj t
tj
E
jj
E
j
ijijij w
w
E
2))((2
1dxyE
COMPARAISON RBR-PMC Tous les deux approximateurs universels de
fonctions L2. Réseaux non récurrents à couches multiples. RBR surtout utilisé pour la régression et la
classification binaire. RBR apprend plus vite que PMC La couche cachée RBR est souvent plus facile à
interpréter que celle d’un PMC Après apprentissage, les réseaux RBR sont
généralement plus lents en phase de rappel.
COMPARAISON RBR-PMC
Architecture: RBR possède une seule couche
cachée.
Modèle de neurone: Dans RBR, le modèle des
neurones cachés est différent de celui des neurones de sortie.
La couche cachée dans RBR est non-linéaire, celle de sortie est linéaire.
PMC peut posséder plus d’une couche cachée.
Dans PMC, le modèle de neurone dans les différentes couches peut être le même.
Dans PMC, toutes les couches peuvent être non-lineaires.
COMPARAISON RBR-PMC
Fonctions de sortie : Dans RBR, l’argument d’une FBR de la couche cachée est la
distance (euclidienne ou autre) entre un vecteur d’entrée et le centre de l’unité.
Dans PMC, l’argument d’un neurone caché est le produit scalaire d’un vecteur d’entrée et du vecteur des poids synaptiques qui alimentent le neurone.
Approximation: Les réseaux RBR construisent généralement une approximation
locale de projections non-linéaires. Peuvent demander plus de ressources mais mènent à des représententations terses et linéairement decodables.
Les réseaux PMC construisent une approximation globale des mêmes projections. Peuvent êter difficiles à interpréter.
APPLICATION: RECONNAISSANCE DE VISAGES
Le problème :Reconnaitre des visages de personnes faisant partie
d’un groupe dans un environnement intérieur. L’approche:
Apprendre les différentes classes, chacune représentant des poses diverses d’un même visage en utilisant un réseau RBR.
DONNÉES
Base de données100 images de 10 personnes (tons de gris sur 8 bits,
résolution de 384 x 287)Pour chaque individu, 10 images de la tête vue de face et
de profilConçue pour évaluer la performance de techniques de
reconnaissance du visage en présence de variations de l’angle de prise de vue.
DONNÉES
Images des classes 0-3 de la base de données Sussex, centrées sur le nez et réduites à un format de 25x25 avant traitement
APPROCHE: RBR POUR CHAQUE VISAGE
Un réseau RBR par personne est utilisé pour reconnaître le visage de la personne.
L’apprentissage utilise des exemples d’images de la personne à reconnaître comme évidence positive et des images d’autres personnes pouvant prêter à confusion comme évidence négative.
ARCHITECTURE DU RÉSEAU
La couche d’entrée contient 25*25 entrées répréseantant les intensités (normalisées) des pixels d’une image.
La couche cachée contient p+a neurones: p neurones cachés pro (récepteur pour évidence positive) a neurones cachés con (récepteurs for évidence negative)
La couche de sortie contient deux neurones: Un pour la personne visée. Un pour toutes les autres.
Le résultat est ignoré si la différence absolue entre les sorties des deux neurones est inférieure à un seuil R.
ARCHITECTURE POUR RECONNAÎTRE UN VISAGE
Unités de sortielinéaires
Unités FBR Non-linéaires
Unités d’entrée
Supervisé
Non supervisé
COUCHE CACHÉE
Les unités cachées peuvent être :Neurones pro : Évidence positive pour la
personne.Neuones anti : Évidence négative pour la
personne. Le nombre de neurones pro est égal aux exemples
positifs dans l’ensemble d’apprentissage. À chaque Neurone pro correspondent un ou deux neurones anti.
Modèle de neurone caché : FBR gaussienne.
APPRENTISSAGE ET TEST Centres:
d’un neurone pro : l’exemple positif correspondant D’un neurone anti : l’exemple négatif le plus similaire au neurone
pro correspondant, en utilisant une distance euclidienne. Étendue : distance moyenne entre le centre du neurone et
tous les autres centres. L’étendue d’un neurone caché est donc
où H est le nombre de neurones cachés et est le centre du neurone .
Poids: déterminés par la méthode du pseudo inverse. Un réseau RBR avec 6 neurones pro, 12 neurones anti, et R
égal à 0.3, rejeta 23 % des images de l’ensemble de test et classa correctement 96 % des images retenues.
h
hnn tt
H||||
2
1n
iti