DEA Perception et Traitement de l’Information

Reconnaissance des formesApprentissage linéaire

S. Canu

http://psichaud.insa-rouen.fr/~scanu/RdF

RdF et apprentissage

D : Algorithme de

Reconnaissancedes Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

A priorisur la

nature de la solution

Les problèmes PYXP ,

D(x) =signe(w’x+b) bw ˆ,ˆ

0' :décision de frontière , ...

te)(croix ver 0

rouges) (ronds 0

linéairedécision de règle

0 : linéairedécision de frontière

tiques)caractéris ( R dans valeursà v.a.

Discrimination Linéaire

Codage {-1,1}, fonction de décision de type « heaviside »

-2 -1 0 1 2 3 4

Estimation... et rêve

Stratégies d’estimation– Minimiser les erreurs

• moindres carrées• adaline• perceptron• le neurone formel

– estimer les paramètres • max de vraisemblance, puis règle de Bayes

– minimiser un autre critère• analyse discriminante de Fisher

-2 0 2 4 6-4

classe 1classe 2estimationbayes

Moindres carrés

yXWXWWJ

xXbwWyXW

ybxwbwJ

bxwxDyxDDJn

0'20)(

)1,(et , avec

')(et )()(

X = [x1 ; x2];X = [X ones(length(X),1)];yi = [ones(length(x1),1) ; -ones(length(x2),1)];

W = (X'*X)\(X'*yi);west = W(1:2);best = W(3);

-2 0 2 4 6 8 10

classe 1classe 2estimationbayes

Résistance aux « outliers »

Moindre carrés « stochastiques »ADALINE (Widrow Hoff 1960)

XWXyWXWWXyWX

xXbwWyWX

ybxwbwJ

bxwxDyxDDJ

)1,(et , avec

')(et )()(

oldnew

que.....tant

: itérative méthode ! impossible 0

plus*) évoluen'cout leou classés, mals des reste (*il

Algorithme itératif de gradient

Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor »

Algorithme de gradient : illustrationdans le plan w1,w2

Minimum du coûtLignes d ’iso-coût : J(W) = constante

Direction du gradientJ’(W)

3 solutions

sigmoide)fonction la(

)()( avec '2)(signefonction la approche qui dérivablefonction uneest

2)(PERCEPTRON : 1'

2)(ADALINE : linéaireion approximat

'2)( :gradient le

xthxxWxyWxWWJ

xyWxWWJ

xWxyWxWWJ

LE NEURONE FORMEL

Algorithme itératifnbitemax = 50;k=0;

while ((cout > 0) & (k<nbitemax)) K=K+1;

ind = randperm(length(X));

for i=1:length(X)

Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);W = W - pas*Dir';

end cout = sum(abs(sign(X*W)-yi)); disp([k cout]);

Stabilisation du coût (erreur relative)

Randomisation (ok si n grand)

Évaluation du coût : n opérations

-6 -4 -2 0 2 4 6 8 10

ADALINE, Ça marche...

-2 -1 0 1 2 3 4 5 6

ADALINE des fois ça ne marche pas…

Solution au sens des moindres carrés

-6 -4 -2 0 2 4 6 8 10-4

Le Perceptron, des fois ça ne marche pas...

...Quand les exemples ne sont pas linéairement séparables

Règle du perceptron(Rosenblatt 1958)

codage

classébien ' si classé mal ' si '

0 si '0 si 0)(

1'et 1 si '

1 si ' codage

iioldnew

oldnew

yyxxyxx

xyWxWWJ

• Pas de fonction coût minimisée• preuve de convergence (dans le cas linéairement séparable)

modif) de (nombre

avec min

0 ,1)(hypothèse monde lebien tout classe qui un vecteur soit

classé malest ou fois de nombre le avec

ioldnew

mMwxMwxmww

''' :2et 1

max avec :2

itérations après doncet max

avec min :1

2*22*2

MkwMkMcwwwwMc

mMwxMwxmww

oldnew

ioldioldnew

ioldnew

Convergence des algorithmes de gradient

converge algorithmel' Alorsconvexecout

0limet lim si

kkk WWJww

Performances des algorithmes linéaires

212)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ

empirique risquedu on minimisati

exemples 1)(

:erreurs des fréquence : ageapprentissd'erreur )()(

:erreurd' éprobabiliterreur

iyxDemp

dnndYX

DJJDJD

RXYXDPDJ

Théorème (Vapnik & Chervonenkis, 1974)

Performances des algorithmes linéaires

212)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ : empirique risquedu on minimisatidimension en exemples

dnndYX

DJJDJD

Théorème (Vapnik & Chervonenkis, 1974)

Probabilitéd’erreur

risqueempirique

Malédiction de la dimensionnalité

Asymptotiquement« jouable »

précision

Maximum de vraisemblance

Distance de Mahalanobis

log'21et

avec 0'

X exf ' 1

1ˆˆ ˆ

,1,,,1, geappentissad' ensemble n échantillo1

nixnixn

ˆˆlog- ˆˆˆ ˆˆ

21ˆet

ˆˆˆˆ avec 0ˆ'ˆ

ppmmmm b

mmwbxw

)1(1 ˆˆ

Tii mxmx

Analyse discriminante de Fisher2 classes

ˆ avec

ˆˆmin

Quelle est la direction de l’espace des caractéristiquesqui sépare le mieux les deux classes ?

Voilà la critère !

Analyse discriminante de Fishermulti classes

1 avec min :direction une rechercheon

ou 0 :solution min

ˆ : classesINTRA inertie

ˆˆ : classes INTER inertie

observées variables les mieux""au résumant variable"nouvelle" une rechercheon ,

ˆ,ˆ :moyenne la estimeon classe chaquepour

: totalnombre , classe la dans exemples

classes,

vSvvSvvSv

vvSvvSv

mmmmnnS

Analyse discriminante de Fishermulti classes

vvSvvSv

vSvvSv

vSvvSvvSv

1 - min

1 avec min

On recherche les vecteurs propres de la matrice BW SS 1

AD en matlabind1=find(yi==1); X1=Xi(ind1,:);ind2=find(yi==2); X2=Xi(ind2,:);ind3=find(yi==3); X3=Xi(ind3,:);

n1=length(ind1); n2=length(ind2); n3=length(ind3);n = n1+n2+n3; Sw = (n1*cov(X1)+n2*cov(X2)+n2*cov(X3))/n; %AD m1 = mean(X1); m2 = mean(X2); m3 = mean(X3); mm = mean(Xi);Sb = (n1*(m1-mm)'*(m1-mm)+n2*(m2-mm)'*(m2-mm)+n3*(m3-mm)'*(m3-mm))/n;

% L = chol(Sw);% Linv = inv(L);% [v l]=eig(Linv*Sb*Linv'); % AD% v = Linv'*v; [v l]=eig(inv(Sw)*Sb); % AD [val ind] = sort(-abs(diag(l))); P = [v(:,ind(1)) v(:,ind(2))]; xi = Xn*P;

Conclusion : discrimination linéaire– Minimiser les erreurs

• moindres carrées : erreur quadratique• adaline : erreur quadratique• perceptron : le nombre de mal classé• le neurone formel : les formes frontière• nombre d’erreur : le simplex -> les SVM

– estimer les paramètres • max de vraisemblance, puis règle de Bayes

– minimiser un autre critère• analyse discriminante de Fisher : REPRESENTATION

Apprentissage bayésien

Malédiction de la dimensionalité

– Un problème inatendu– estimation de la matrice de covariance– capacité d’un classifieur linéaire– le problème de l’erreur moyenne !

Estimation du taux d’erreur

DEA Perception et Traitement de l’Information

Documents

DEA Développement des Ressources Humaines

DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF

SCIENCES DE L’INFORMATION, RECHERCHE … · de cas, que les discours sur la communication sont marqués d'une structure relationnelle qui prend son origine dans la perception de

DEA Hydrologie, Hydrogéologie, Géostatistique et Géochimie · 2012. 7. 30. · DEA Hydrologie, Hydrogéologie, Géostatistique et Géochimie Filière Hydrologie et Hydrogéologie

La Perception et la Représentation€¦ · Perception: Perception et Sensation: Perception et Représentation: La Théorie de la Forme « GESTALT »: Les Erreurs de la Perception:

dea 2010 - 2011 (3)

DEA de SHENGO

DEA Perception et Traitement de lInformation Reconnaissance des formes discrimination linéaire S. Canu scanu/RdF

Titres et Travaux 1 DEA et Thèses - MaCÉPV - Matériaux ...icube-macepv.unistra.fr/fr/.../02/...Francois_Le_Normand-Wiki-2016.pdf · Titres et Travaux 1 DEA et Thèses D1 DEA de

Perception de soi, Perception et Compréhension d'autrui

DEA Hydrologie, Hydrogéologie, Géostatistique et Géochimiem2hh.metis.upmc.fr/wp-content/uploads/arch/memoires2002/...DEA Hydrologie, Hydrogéologie, Géostatistique et Géochimie

CHAPITRE 2 : LA PERCEPTION CHAPITRE 2. LA PERCEPTION

DEA PTI Perception et Traitement de l’Information

DEA Yohann Offant - Sahambano.pdf

Mémoire de dea

Présentation DEA-DIF

MÉMOIRE DE DEA

Mémoire DEA AGALI.pdf

Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

DEA Ambiances - Archi