Réseaux de neurones artificiels

Amin Fehri1

09/01/2017

1Centre de Morphologie MathématiqueMines ParisTech

Introduction

Réseaux de neurones profonds

Optimisation et régularisation

Optimisation

Régularisation

Conclusion

Introduction

Objectif : régression ou classification

Classification

• Imagerie médicale : malade ou pas ?

• Reconnaissance de caractères ?

Régression

• Conduite automatique : position optimale de la roue

• Kinect : où sont les membres ?

Cela est aussi valable pour des sorties structurées.

Objectif : régression ou classification

Classification

• Imagerie médicale : malade ou pas ?

• Reconnaissance de caractères ?

Régression

• Conduite automatique : position optimale de la roue

• Kinect : où sont les membres ?

Cela est aussi valable pour des sorties structurées.

Reconnaissance d’objets

Classifieur linéaire

• Base de données : paires (X (i),Y (i)), i = 1, ...,N.• X (i) ∈ Rn, Y (i) ∈ {−1,1}• Objectif : trouver w et b tels que signe(wT X (i) + b) = Y (i).

11. Figures : N. Leroux [2015]

Classifieur linéaire

• Base de données : paires (X (i),Y (i)), i = 1, ...,N.• X (i) ∈ Rn, Y (i) ∈ {−1,1}• Objectif : trouver w et b tels que signe(wT X (i) + b) = Y (i).

11. Figures : N. Leroux [2015]

Algorithme du perceptron (Rosenblatt, 1957)

• w0 = 0,b0 = 0

• Y (i) = signe(wT X (i) + b)

• wt+1 ← wt +∑

i(Y(i) − Y (i))X (i)

• bt+1 ← bt +∑

i(Y(i) − Y (i))

Demo linéairement séparable.

Certaines données ne sont pas linéairement séparables

L’algorithme du perceptron ne converge pas pour des donnéesnon linéairement séparables.

Non convergence de l’algorithme du perceptron

Perceptron non-linéairement séparable

• On a besoin d’un algorithme qui marche à la fois sur desdonnées séparables et non séparables.

Erreur de classification

Un bon classifieur minimise :

`(w) =∑

`(Y (i),Y (i))

1signe(wT X (i)+b)6=Yi

Importance de la convexité

a) Fonction convexe, b) Fonction non convexe mais adaptée à unproblème d’optimisation

Fonction de coût

• L’erreur de classification n’est pas lisse.• La sigmoïde est lisse mais pas convexe.• La perte logistique est une borne supérieure convexe.• La hinge loss ressemble beaucoup à la logistique.

Fonction de coût

Résoudre des problèmes séparables ET non séparables

• Fonction logistique non-linéairement séparable

• Fonction logistique linéairement séparable

Classification non linéaire

Polynôme non-linéairement séparable

Classification non linéaire

• Features : X1,X2 → classifieur linéaire• Features : X1,X2,X1X2,X 2

1 , ...→ classifieur non-linéaire

Choisir les features

• Pour que ça fonctionne, on crée de nouveaux features :

• X i1X j

2 pour (i , j) ∈ [0,4] (p = 18)

• Est-ce que ça fonctionnerait avec moins de features ?

• Test avec X i1X j

2 pour (i , j) ∈ [0,3]

Polynôme non-linéairement séparable de degré 2

Une vue graphique des classifieurs

f (X ) = w1X1 + w2X2 + b

Une vue graphique des classifieurs

f (X ) = w1X1 + w2X2 + w3X 21 + w4X 2

2 + w5X1X2 + ...

Features non-linéaires

• Un classifieur linéaire appliqué à des transformationsnon-linéaires est non-linéaire

• Un classifieur non-linéaire repose sur des featuresnon-linéaires

• Lesquels choisir ?

• Hj = X pj1 X qj

• SVM : Hj = K (X ,X (j)) avec K fonction noyau

• Est-ce que les features doivent être prédéfinis ?

• Un réseau de neurones va apprendre les Hj

• Hj = X pj1 X qj

Algorithme pour réseau de neurones

• Choisir un exemple x

• Le transformer en x = Vx avec une matrice V

• Appliquer une transformation non-linéaire g à tous leséléments de x

• Calculer wT x + b

• Calculer wT x + b = wT Vx + b = wx + b

• Calculer wT x + b = wT g(Vx) + b 6= wx + b

Réseaux de neurones

• Généralement, on utiliseHj = g(vT

• Hj : Unité cachée

• vj : Poids d’entrée

• g : Fonction de transfert

• Généralement, on utiliseHj = g(vT

• Hj : Unité cachée

• vj : Poids d’entrée

• g : Fonction de transfert

Fonctions de transfert

f (X ) =∑

j wjHj(X ) + b =∑

j wjg(vTj X )

• g est la fonction de transfert.

• g était auparavant une sigmoïde ou tanh

• Si g est une sigmoïde, chaque unité cachée est un softclassifier.

Fonctions de transfert

f (X ) =∑

j wjHj(X ) + b =∑

j wjg(vTj X )

• g est la fonction de transfert.

• g est désormais souvent la partie positive.

• On appelle cela une rectified linear unit (ReLU).

f (X ) =∑

j wjHj(X ) + b =∑

j wjg(vTj X )

Exemple sur le problème non-séparable

Réseau de neurones non-linéairement séparable 3

Entraîner un réseau de neurones

f (X ) =∑

j wjg(vTj X )

f (X ) =∑

j Wg(VX )

• Base de données : paires (X (i),Y (i)), i = 1, ...,N

• Objectif : trouver V et W pour minimiser∑i `(f (X

(i)),Y (i)) =∑

i `(Wg(VX (i)),Y (i))

• On peut le faire avec une descente de gradient.

f (X ) =∑

j wjg(vTj X )

f (X ) =∑

j Wg(VX )

(i)),Y (i)) =∑

i `(Wg(VX (i)),Y (i))

f (X ) =∑

j wjg(vTj X )

f (X ) =∑

j Wg(VX )

(i)),Y (i)) =∑

i `(Wg(VX (i)),Y (i))

Rétropropagation du gradient - trouver W

• Objectif : trouver V et W pour minimiser∑i `(Wg(VX (i)),Y (i))

• On doit calculer le gradient de`i(W ,V ) = `(Wg(VX (i)),Y (i))

• Dérivation de fonctions composées :

∂`i(W ,V )

∂W=∂`i(W ,V )

∂f (X )

=∂`i(W ,V )

∂f (X )g(VX )T

∂`i(W ,V )

∂W=∂`i(W ,V )

∂f (X )

=∂`i(W ,V )

∂f (X )g(VX )T

∂`i(W ,V )

∂W=∂`i(W ,V )

∂f (X )

=∂`i(W ,V )

∂f (X )g(VX )T

Rétropropagation du gradient - trouver V

• On réécrit Wg(VX ) = WH avec H = g(VX ).

∂`i(W ,V )

∂V=∂`i(W ,V )

∂f (X )

=∂`i(W ,V )

∂f (X )

∂H∂H∂V

= W∂`i(W ,V )

∂f (X )g′(VX )X T

Rétropropagation du gradient - trouver V

• On réécrit Wg(VX ) = WH avec H = g(VX ).

∂`i(W ,V )

∂V=∂`i(W ,V )

∂f (X )

=∂`i(W ,V )

∂f (X )

∂H∂H∂V

= W∂`i(W ,V )

∂f (X )g′(VX )X T

Trouver une bonne transformation de x

• Hj(x) = g(vTj x)

• Est-ce que ce sont les bons Hj ? Que sait-on sur cela ?

• Théoriquement, un nombre fini de Hj est suffisant(théorème d’approximation universelle).

• Cela ne veut pas dire qu’il faut l’utiliser→ le nombre de Hj

nécessaire peut être excessivement grand.

Approfondir le réseau

• xj = g(vTj x)

• On peut aussi transformer x

Approfondir le réseau

• xj = g(vTj x)

• On peut aussi transformer x

De 2 à 3 couches

• On peut avoir autant de couches qu’on veut.

• Mais cela rend le problème d’optimisation plus dur.

De 2 à 3 couches

Introduction

Optimisation

Régularisation

Conclusion

Nécessité d’un apprentissage rapide

• Les réseaux de neurones ont besoin de beaucoupd’exemples (quelques millions ou plus).

• On doit pouvoir les utiliser rapidement.

Descente de gradient : méthode batch

• Pour calculer tous les paramètres, on a besoin deparcourir toutes les données.

• Cela peut être très coûteux.

• Que se passe-t’il si on a un nombre de données infini ?

Que faire alors ?

1. Supprimer des données ?2. Utiliser des méthodes d’approximation.

• Mise à jour des poids = moyenne des mises à jour pourtous les points.

• Est-ce que ces mises à jour sont vraiment différentes ?• Si non, comment peut-on apprendre plus rapidement ?

Que faire alors ?

1. Supprimer des données ?2. Utiliser des méthodes d’approximation.

• Mise à jour des poids = moyenne des mises à jour pourtous les points.

• Est-ce que ces mises à jour sont vraiment différentes ?• Si non, comment peut-on apprendre plus rapidement ?

Descente de gradient stochastique

• L(θ) = 1N∑

i `(θ,X(i),Y (i))

• θt+1 → θt − αtN∑

i∂`(θ,X (i),Y (i))

• θt+1 → θt − αt∂`(θ,X (it ),Y (it ))

• Que perd-t’on lorsque on met à jour les paramètres poursatisfaire à un seul exemple ?

• L(θ) = 1N∑

i `(θ,X(i),Y (i))

• θt+1 → θt − αtN∑

i∂`(θ,X (i),Y (i))

• θt+1 → θt − αt∂`(θ,X (it ),Y (it ))

• L(θ) = 1N∑

i `(θ,X(i),Y (i))

• θt+1 → θt − αtN∑

i∂`(θ,X (i),Y (i))

• θt+1 → θt − αt∂`(θ,X (it ),Y (it ))

Batch vs stochastique

• Pour les problèmes non-convexes, le stochastique marchele mieux.

Comprendre la fonction de perte des réseaux profonds

• Des études récentes disent que la plupart des minimalocaux sont proches du minimum global.

Introduction

Optimisation

Régularisation

Conclusion

Régulariser les réseaux profonds

• Les réseaux profonds ont de nombreux paramètres.• Comment éviter le surrapprentissage ?

• En régularisant les paramètres ?• En limitant le nombre d’unités• Dropout

Dropout

• Le surrapprentissage intervient quand chaque unitédevient trop spécialisée.

• L’idée est d’empêcher chaque unité de trop s’appuyer surles autres.

• Comment ?

Dropout - illustration

Dropout : A Simple Way to Prevent Neural Networks fromOverfitting

Dropout - conclusion

• En supprimant les unités au hasard, on force les autres àêtre moins spécialisées.

• Au moment du test, on utilise toutes les unités.

• Parfois présenté comme une méthode ensembliste.

Autres techniques utilisées

• Local response normalization

• Data augmentation

• Batch gradient normalization

Conclusion

Réseaux de neurones - Résumé

• Un classifieur linéaire dans un espace de features adaptépeut modéliser des frontières non-linéaires.

• Trouver un bon espace de représentation (features space)est essentiel.

• On peut définir cet espace à la main.

• On peut apprendre cet espace en utilisant moins defeatures.

• Apprendre cet espace est potentiellement compliqué(non-convexité).

Conclusions

• Les réseaux de neurones sont des modèles non-linéairescomplexes.

• Les optimiser est difficile.

• Il s’agit autant de théorie que d’ingénierie.

• Lorsqu’ils sont correctement paramétrés, ils peuventdonner de très bons résultats.

Bibliographie

• Deep Learning book http ://www-labs.iro.umontreal.ca/bengioy/DLbook/

• Dropout : A Simple Way to Prevent Neural Networks fromOverfitting, by Srivistave et al.

• Hugo Larochelle MOOChttps ://www.youtube.com/playlist ?list=PL6Xpj9I5qXYEcOhn7TqghAJ6NAPrNmUBH

• A Neural Network Playground http ://playground.tensorflow.org/

Réseaux de neurones artificiels - GitHub Pages

Documents

Réseaux de Neurones Artificiels - LISICverel/TEACHING/08-09/sac-M1/cRd… · Les réseaux de neurones artificiels sont des réseaux fortement connectés de processeurs élémentaires

LES RESEAUX DE NEURONES ARTIFICIELS ......Claude Touzet. LES RESEAUX DE NEURONES ARTIFICIELS, INTRODUCTION AU CONNEX-IONNISME: COURS, EXERCICES ET TRAVAUX PRATIQUES. EC2, 1992, Collection

Réseaux de neurones artificiels « le neurone formel »

Réseaux de neurones artificiels - evelyne.lutton.free.frevelyne.lutton.free.fr/SlidesCours/Cours RN.pdf · Plan • L’idée – l’inspiration biologique • Réseaux de neurones

Les réseaux de neurones artificiels (RNA) Un outil efficace pour appréhender le caractère saisonnier des débits dans un bassin versant ?

LES RESEAUX DE NEURONES ARTIFICIELS INTRODUCTION AU ...exomind.online.fr/livre_touzet.pdf · les reseaux de neurones artificiels introduction au connexionnisme cours, exercices et

Réseaux de neurones artificiels - GDAC · Réseaux de neurones artificiels Hiver 2017 –INF4230 - UQAM. UQAM INF4230 2 Plan •Introduction •Architectures •Le perceptron •Réseau

Les réseaux de neurones pour lapprentissage ESSEC, le 28 Juin 2002 Réseaux de neurones artificiels « la rétropropagation du gradient » S. Canu, laboratoire

2017 06 15 Machine Learning WIRA - campus-industrie.eu · Les réseaux de neurones artificiels réalisé à partir de ce types de neurones sont ainsi ... Le neurone formel est inséré

Application de reseaux de neurones artificiels a la reconnaissance

Les réseaux de Neurones Artificiels, une nouvelle …1 Les réseaux de Neurones Artificiels, une nouvelle alternative aux calculs Monte Carlo pour la Radiothérapie E. Martin (MCF

1 Les réseaux de neurones (artificiels = ANN) J.Schwindling CEA Saclay

1. Introduc,on Les Réseaux de Neurones Artificiels€¦ · Les Réseaux de Neurones Artificiels / 138 1. Introduc,on 2. Réseaux à une couche 3. Perceptrons mul2couches 4. L’appren2ssage

Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Neurones Artificiels Feed Forward Introduction aux Réseaux deprojets.developpez.com/.../download/642/reseaux-de-neurones_1_.pdf · principale des réseaux de neurones est justement

Réseaux de Neurones Artificiels

Implantation de réseaux de neurones artificiels en …cogidcanada.org/site/data/docs/memoire_adico.pdfUniversité de Montréal Implantation de réseaux de neurones artificiels en

Bilan Bibliographique - Rapport de recherchecyrilvoyant.pagesperso-orange.fr/spe.pdf · Les réseaux de neurones artificiels Justification de l’approche connexionniste Historique

L’apport des réseaux de neurones artificiels appliqués au …dspace.univ-tlemcen.dz/bitstream/112/5480/1/Fkih-Nassima.pdf · 2016-10-31 · Les réseaux de neurones artificiels

Introduction générale aux réseaux de neurones artificiels 1