Réseaux Récurrents (RNN)pgiguere/cours/DeepLearning/2020/07-RNN-202… · •Si NaN, bouger au...

Philippe Giguère

Réseaux Récurrents(RNN)

Hiver 2020

Pourquoi RNN ?• Traiter des données séquentielles

– séries temporelles

– séquences de pixels

– séquences de mots

• Souvent de longueur variable

• Pas clair d’avance où l’information pertinente est située

Image X(1) (2) ( ){ , , , }x x x

I went to Nepal in 2009

In 2009, I went to Nepal

Exemple textuel

I like whisky

Exemple textuel

[I, like, whisky]

(tokenization)

vecteur

Exemple textuel

[I, like, whisky]

h2vecteur

Exemple textuel

[I, like, whisky]

h3vecteur

Exemple textuel

[I, like, whisky]

h1 h2 h3

Pas de relation entre les h

Vers le réseau récurrent …

[I, like, whisky]

h1vecteurs

[I, like, whisky]

h2vecteur

[I, like, whisky]

h3vecteur

[I, like, whisky]

h1 h2 h3

Maintenant h3 pourra contenir de l'information sur toute la séquence

Modélisation séquentielle idéale

1. Être capable de traiter les séquences de longueur variable

2. Garder la trace des dépendances à long-terme

3. Conserver l’information sur l’ordre

4. Partager les paramètres le long de la séquence

13Adapté de MIT 6.S191

Idée générale

• Mêmes paramètres q (weight sharing)

• Limite le pouvoir de représentation

– régularisation

• Relation f stationnaire : ne change pas selon t

– p. e. règle grammaire indépendante de la position

• Lien avec systèmes dynamiques (GMC, GEL)14

h(t)=f (h(t-1), x(t), q )

fdélai

Graphe calcul déroulé

h(t)=f (h(t-1), x(t), q )

q partagé

h(0) h(3)

fq fq fq

Variable cachée h• Résumé sémantique (avec perte) de la

séquence (passée, si causal)

• En lien direct avec la tâche :– p. e. si on cherche des dates, des mots comme mercredi vont influencer h plus que Québec

– backprop fera le travail de trouver la fonction f favorisant cette représentation

• Taille de h influencera la quantité d’information pouvant y être stockée– pourra difficilement résumer À la recherche du

temps perdu de M. Proust (4 215 pages)

– généralisation plus difficile si h est grand16

RNN universel (vanille)• Utilise des fonctions affines

• tanh comme non-linéarité

• Peut accomplir autant qu’une

machine de Turing

• Variante assez commune

• Défaut : on ne peut pas paralléliser forward/backward pass– doit faire la séquence au complet en sériel

h(t) = tanh(Wh(t-1) + Ux(t) + b)

h(t-1)W

o(t) = Vh(t) + ctanh

RNN vanille déroulé

tanhh(2)

tanhh(3)

tanhh(4)

Pourquoi tanh ?

• Non-linéaire

• Toujours dérivable

• Sortie [-1,1] (enlever/ajouter)

• Symétrique

• Pas de biais systématique

– sigmoïde va de [0,1], induit biais

• Autres ?

Topologie Feedforward

21adapté de cs231n

Topologie RNN

22adapté de cs231n

one to many many to one many to many many to many

Image captioning

Classification de sentiment

(texte)

Traduction,Réponse aux

questions(tailles entrée/sortie

variables)

Classification de trames

vidéos

Sequence-to-sequence

• Architecture many to many

• Généré une séquence à partir d’un résumé C

Encodeur

x(2) x()

Décodeur

o(1) o(2) o(n)Résumé sémantique C

h(1) h(2) h()

contexte

Encodeur

x(2) x()

Décodeur

h(1) h(2) h()

approche A : état h(0) du décodeur

Encodeur

x(2) x()

Décodeur

h(1) h(2) h()

approche B : entrée extra à chaque itération

Encodeur

x(2) x()

Décodeur

h(1) h(2) h()

approche C : les deux

Exemple de générationavec RNN

• Réseau entraîné à prédire des caractères{e,h,l,o,<end>}

• Entraîné sur hello

27adapté de cs231n h

softmax

pige e

pige l

pige o

pige <end>

Exemple : entraîné sur Shakespeare

28http://karpathy.github.io/2015/05/21/rnn-effectiveness/

PANDARUS:Alas, I think he shall be come approached and the dayWhen little srain would be attain'd into being never fed,And who is but a chain and subjects of his death,I should not sleep.

Second Senator:They are away this miseries, produced upon my soul,Breaking and strongly should be buried, when I perishThe earth and thoughts of many states.

DUKE VINCENTIO:Well, your wit is in the care of side and that.

Second Lord:They would be ruled after this chamber, andmy fair nues begun out of the fact, to be conveyed,Whose noble souls I'll have the heart of the wars.

Clown:Come, sir, I will make did behold your worship.

VIOLA:I'll drink it.

Sortie :

• Réseau RNN à trois couches

• 512 neurones cachées par couche

• Entraîné sur 4.4 Mo de données texte

Longueur de sortie o()

• Lors de la génération, on doit s’avoir quand arrêter d’échantillonner le RNN

• 3 stratégies :1. Symbole spécial (<END>)

2. Sortie supplémentaire 0-1 (via sigmoïde), qui prédit la fin

3. Sortie qui prédit directement (régression)

RNN bi-directionnel

• Sortie o(t) peut dépendre de toute la séquence (1 à )

• Information pertinente parfois après une entrée x

– ordre des mots dans une langue

• adjectif avant ou après un mot

• langue SVO, SOV, V2, etc…

– reconnaissance de la voix

• coarticulation

– bio-informatique

RNN bi-directionnel

g(1) g(2) g(3) g(4)

o(4)o(3)o(2)o(1)

anticausal

causal

acausal

Longue portée• Influence à longue portée difficile dans RNN

• CNN : champ récepteur croissant en profondeur

• RNN : décroissance exponentielle de l’influence

influence sur o(t)

x(t)x(t-1)x(t-2)x(t-3) x(t+1) x(t+2) x(t+3)

RNN unidirectionel

x(t)x(t-1)x(t-2)x(t-3) x(t+1) x(t+2) x(t+3)

RNN bidirectionel

x(t)x(t-1)x(t-2)x(t-3) x(t+1) x(t+2) x(t+3)

Vérité terrain (Impossible avec RNN)

Solution : attention! (+tard)

(pas une fenêtre précise, comme dans CNN)

Gradient et entrainement

Exploding/vanishing gradient

• Poids W partagés

• Exemple simplifié :

h0 a1 h1tanh * a2 h2

tanh * a3 h3tanh

g∝w3 g∝w2* a3g∝w

Si w>1 : gradient exploseSi w<1 : gradient évanescent

Pour un réseau récurrent linéaire (simplification) : ( ) T ( 1)t th W h

T=Q QW Décomposition en éléments propres

( ) T (0)t th Q Qh si valeur propre l > 1 : vecteur propre explose

si valeur propre l < 1 : vecteur propre évanescent

Gradient clipping pour entraînement RNN

: I. G

avec clipping

sans clipping

la norme du gradient

if g vv

les entrées du gradient, individuellement

88493.4

9948423

(similaire comme scaling par paramètre, lors de l’optimisation)

• Solution, clipper :

• Ravins typique dans les RNN :

• Si NaN, bouger au hasard d’une magnitude v

Calcul du gradient sur graphe déroulé

h0 h1 h2 h3 hfW fW fW

x1 x2 x3W

y3y2y1

adapté de cs231n

L3L2L1 L

LMany-to-many

x1 x2 x3W

y3y2y1

adapté de cs231n

L3L2L1 L

LMany-to-many

x1 x2 x3W

adapté de cs231n

LMany-to-one

Moins d’entrées du gradient dans le graphe + vanishing gradient : entraînement plus difficile.

Backprop through time (BPTT)

• Calcule la séquence au complet

40adapté de cs231n

forward pass

backprop

Truncated BPTT

41adapté de cs231n

forward pass

backprop

Effectue BPTT sur des segments de la séquence

Truncated BPTT

42adapté de cs231n

forward pass

backprop

Truncated BPTT

43adapté de cs231n

forward pass

backprop

Réseaux Récurrents (RNN)pgiguere/cours/DeepLearning/2020/07-RNN-202… · •Si NaN, bouger au...

Documents

Pourquoi probabilités en robotique?pgiguere/cours/IntroRobotique/notes/04... · Pourquoi probabilités en robotique? •Pour tenir compte de l’incertitude/bruit liées –aux mesures

SSOOUUT THHEER RNN AARC CTIIC - Gov

Plan de cours Introductionpgiguere/cours/DeepLearning/2020/01... · 2020-01-14 · Continuation de la renaissance •Progrès très rapide via arXiv.org •Plus d’une centaine de

Bilan d'activité 2010 - RNN du Marais d'Orx

Exploiter la donnée pour améliorer l’expérience client ... · projets core-business de transformation ... (Intelligence artificielle, Deeplearning, ... banque et de l’assurance

PR VRBL · ppl p . rôl d TR bl vr t l pl prtnt dn dr d l fxtn d prx t d lnnt d tn. nttn t l tr dnt nt n prtn r DN t nttnt dn l rnd jrt d pt ^nd d rnn dvnnt xl d rprntnt ... LPJ

Plan de cours Présentation générale Historique …pgiguere/cours/IntroRobotique/notes/... · 2017-09-05 · Manuel du cours : 2 proposés •Manuel utilisé par le passé GLO-4001/7021

Un corridor à Anguille d’Europe, dans une RNN d’oiseaux migrateurs · 2017. 10. 16. · Batadeau éton + doule lenhe de ontôle des niveaux et appots d’eau. ouvrage PVC coudés

LabCom AtysCrea - INSA Lyonsciolla/deeplearning/...LabCom AtysCrea Segmentation d'images médicales IRM 3D par deep learning avec tensorflow Journées scientifiques Python 2017 Bruno

ech › wp-content › uploads › 2014 › 09 › 2014-… · Les RNN ont su s’imposer au fil des ans comme l’événement incontournable du numérique en Poitou-Cha-rentes. Les

Generating Video Description using RNN with Semantic Attention · 2017-02-22 · 0 1 #. Û '¨ G º ± $Î/²1= e7 º v Generating Video Description using RNN with Semantic Attention

Tome 3 Extension RNN-Yves Orientations de gestion

Plan de cours Présentation générale Historique Révision …pgiguere/cours/IntroRobotique2017/... · 2017-09-05 · Examen final : mardi 12 décembre. 2 feuilles au plomb, recto-verso

NOV. 2017 · Les relecteurs du rapport : Olivier Gilg (RNF), Bernard Pont (RNN Ile de la Platière), Barbara Graeff Guerra (RNF) et Fanny Miss (RNF). Nicolas Drapier (Office national

Les Cahiers de la Migration 2010 - biolovision.netfiles.biolovision.net/ · de l’Ilette). Finalement, il n’y a qu’un seul site de suivi de la migration active dans une RNN :

PROJET DE RENFORCEMENT DE LA POPULATION DE ......25/08/2020 Rédigé pour la RNN de Petite Terre par R. PENIN (ONF) Objectif : Effectuer le second suivi des gaïacs suite à leur plantation

Observatoire des Bryophytes : Etat des lieuxcbnbp.mnhn.fr/cbnbp/ressources/telechargements/2... · Observé a nouveau sur la RNN Coteaux de Seine (Filoche, 2016) • Oleolophozia

Impact de la tempête « Xynthiafiles.biolovision.net/.../news/Xynthia_en_1785RNF-6410.pdf · 2010. 4. 2. · Impact de la tempête « Xynthia » sur les RNN littorales gérées par

Convolutional Neural Networks CNN Partie Ipgiguere/cours/DeepLearning/05-CNN.pdf · Pas (stride)• Pas (stride) : saut dans l’application de la convolution •Le pas est rarement

~metheses.psru.ac.th/lib-irpsru/sites/default/files/site/default/thesis/... · o'~~rnn;C-~daoaamu~n w~I~w~P~RII~~~Hu~uu~~ npnu~uimia~ecSuu~1'ifs~rn'~~m~flnm~m ii~orna~uaid~nu~~~