View
77
Download
15
Category
Preview:
DESCRIPTION
Réseaux de neurones artificiels « le neurone formel ». S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement » asi.insa-rouen.fr/~scanu. Le neurone biologique. Le neurone formel. Le neurone formel. Phydsiologie. +. +. +. +. +. +. - PowerPoint PPT Presentation
Citation preview
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
Réseaux de neurones artificielsRéseaux de neurones artificiels
« le neurone formel »« le neurone formel »
S. Canu,
laboratoire PSI, INSA de Rouenéquipe « systèmes d’information pour
l’environnement »
asi.insa-rouen.fr/~scanu
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Le neurone biologiqueLe neurone biologique
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Le neurone formelLe neurone formel
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Le neurone formelLe neurone formel
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002PhydsiologiePhydsiologie
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
0' :décision de frontière ,
...
...
,
...
...
te)(croix ver 0
rouges) (ronds 0
linéairedécision de règle
0 : linéairedécision de frontière
tiques)caractéris ( R dans valeursà v.a.
11
1
1
1
bxw
w
w
w
w
x
x
x
x
bxw
bxw
bxw
dX
d
j
d
j
d
jjj
d
jjj
d
jjj
d
Discrimination LinéaireDiscrimination Linéaire
+
+
+ +
+
+
+
+
+
+
+
+
+
Codage {-1,1}, fonction de décision de type « heaviside »
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Géométrie : illustration dans RGéométrie : illustration dans R22
0' bxw
w
°x
w
bxwxdist
',
1wb
2wb
bxwsignxD ')(
0' bxw
0' bxw
2
1
2
1 , x
xx
w
ww
décision de frontière la à orthogonalest 0)('
0'et 0'et si
wyxw
bywbxwyx
w
bd
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-2 -1 0 1 2 3 4
-3
-2
-1
0
1
2
3
Estimation... et rêveEstimation... et rêve
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-3 -2 -1 0 1 2 3-3
-2
-1
0
1
2
3Discrimination de deux classes gausiè nnes
0.2
Cas gaussien multidimensionnelCas gaussien multidimensionnel
2
12,
2
11,
21
2
11
1
'2
1
2/12/
'2
1
2/12/
xx
dX
xx
dX
exf
exf
12Le Discriminateur
de Bayesest linéaire...
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-2 0 2 4 6-4
-2
0
2
4
6
classe 1classe 2estimationbayes
Moindres carrésMoindres carrés
yXXXW
yXWXWWJ
xXbwWyXW
ybxwbwJ
bxwxDyxDDJ
n
iii
i
n
iii
''
0'20)(
)1,(et , avec
'),(
')(et )()(
1
2
1
21
2
X = [x1 ; x2];X = [X ones(length(X),1)];yi = [ones(length(x1),1) ; -ones(length(x2),1)];
W = (X'*X)\(X'*yi);west = W(1:2);best = W(3);
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-2 0 2 4 6 8 10-4
-3
-2
-1
0
1
2
3
4
5
6
classe 1classe 2estimationbayes
Résistance aux « Résistance aux « outliersoutliers » »
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Moindre carrés « stochastiques »Moindre carrés « stochastiques »
ADALINE (Widrow Hoff 1960)ADALINE (Widrow Hoff 1960)
XWXyWX
WWX
yWXWWJ
xXbwWyWX
ybxwbwJ
bxwxDyxDDJ
n
ii
n
ii
n
ii
n
iii
i
n
iii
'2
2)(
)1,(et , avec
'),(
')(et )()(
1
1
1
21
21
2
oldnew
init
WW
WWJ
que.....tant
: itérative méthode ! impossible 0
plus*) évoluen'cout leou classés, mals des reste (*il
Algorithme itératif de gradient
=
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor »
Algorithme de gradient : illustrationAlgorithme de gradient : illustrationdans le plan dans le plan ww11,w,w22
+
Minimum du coûtLignes d ’iso-coût : J(W) = constante
Direction du gradientJ’(W)
w1
w2
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 20023 solutions3 solutions
sigmoide)fonction la(
)()( avec '2)(
signefonction la approche qui dérivablefonction uneest
2)(PERCEPTRON : 1'
2)(
ADALINE : linéaireion approximat
'2)(
:gradient le
1
1
1
1
xthxxWxyWxWWJ
xyWxWWJ
xyWxWWJ
xWxyWxWWJ
ii
n
iii
i
n
iii
i
n
iii
ii
n
iii
LE NEURONE FORMEL
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Algorithme itératifAlgorithme itératif
nbitemax = 50;k=0;
while ((cout > 0) & (k<nbitemax))
K=K+1;ind = randperm(length(X));
for i=1:length(X)
Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);W = W - pas*Dir';
end cout = sum(abs(sign(X*W)-yi)); disp([k cout]);
end
Stabilisation du coût (erreur relative)
Randomisation (ok si n grand)
Évaluation du coût : n opérations
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-6 -4 -2 0 2 4 6 8 10-4
-3
-2
-1
0
1
2
3
4
5
6
ADALINE, Ça marche...ADALINE, Ça marche...
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-2 -1 0 1 2 3 4 5 6
-3
-2
-1
0
1
2
3
ADALINE des fois ADALINE des fois ça ne marche pas…ça ne marche pas…
Solution au sens des moindres carrés
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002
-6 -4 -2 0 2 4 6 8 10-4
-3
-2
-1
0
1
2
3
4
5
6
Le Perceptron, des fois Le Perceptron, des fois ça ne marche pas...ça ne marche pas...
...Quand les exemples ne sont pas linéairement séparables
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Règle du perceptronRègle du perceptron
(Rosenblatt 1958)(Rosenblatt 1958)
codage
classébien ' si
classé mal ' si '
0 si '
0 si 0)(
1'et 1 si '
1 si ' codage
)(
)(
iold
iioldnew
ii
i
iiii
iii
iii
oldnew
xw
xxww
Wxx
Wx
WWJ
yyxx
yxx
xyWxWWJ
WWJ
ww
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Règle du perceptronRègle du perceptron
(Rosenblatt 1958)(Rosenblatt 1958)
• Pas de fonction coût minimisée• preuve de convergence (dans le cas linéairement séparable)
modif) de (nombre
avec min
0 ,1)(hypothèse monde lebien tout classe qui un vecteur soit
classé malest ou fois de nombre le avec
0
1
*
1
**
*
*
1
n
ii
ii
n
iii
i
ii
n
iii
init
ioldnew
mMwxMwxmww
wxniw
xmxmw
w
xww
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Règle du perceptronRègle du perceptron
((Rosenblatt 1958)Rosenblatt 1958)
'''
''' :2et 1
max avec :2
itérations après doncet
max
2
avec min :1
22
2*22*2
222
2222
222
2222
1
*
1
**
MkwMk
McwwwwMc
xcMcw
M
xww
xw
xwxww
mMwxMwxmww
xww
ii
ii
oldnew
iold
ioldioldnew
n
ii
ii
n
iii
ioldnew
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Convergence des algorithmes de gradientConvergence des algorithmes de gradient
converge algorithmel' Alors
convexecout
0limet lim si
)(
1
2
1
1
k
jk
k
k
jk
k
kkk WWJ
ww
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Performances des algorithmes linéairesPerformances des algorithmes linéaires
2/2*
***
1)(
2
12)ˆ(
,/21 ,, de jointe loi la
)( )(minarg coutson et monde)(du linéairer classifieumeilleur
)(minargˆ
empirique risquedu on minimisati
exemples 1
)(
:erreurs des fréquence : ageapprentissd'erreur )()(
:erreurd' éprobabiliterreur
nd
D
empD
n
iyxDemp
d
ed
neJDJP
dnndYX
DJJDJD
DJD
nIn
DJ
RXYXDPDJ
ii
Théorème (Vapnik & Chervonenkis, 1974)
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Performances des algorithmes linéairesPerformances des algorithmes linéaires
2/2*
***
2
12)ˆ(
,/21 ,, de jointe loi la
)( )(minarg coutson et monde)(du linéairer classifieumeilleur
)(minargˆ : empirique risquedu on minimisatidimension en exemples
nd
D
empD
ed
neJDJP
dnndYX
DJJDJD
DJDdn
Théorème (Vapnik & Chervonenkis, 1974)
Probabilitéd’erreur
risqueempirique
Malédiction de la dimensionnalité
Asymptotiquement« jouable »
précision
borne
Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002ConclusionConclusion
Neurone formel = Modèle linéraire
Estimation des paramètres– directe
rapide - n3
– itérativelent - apprentissage au coup par coupOCR : n=106
Recommended