61
L’estimation

L’estimation

  • Upload
    lahela

  • View
    23

  • Download
    0

Embed Size (px)

DESCRIPTION

L’estimation. Plan. Définition et Objectifs Rappel régression linéaire Réseaux neuronaux Démonstrations. Définition et Objectifs. Prévoir la valeur d’une variable non observée à partir de variables observées Applications typiques Prévision Finance, économie, météo, environnement. - PowerPoint PPT Presentation

Citation preview

Page 1: L’estimation

L’estimation

Page 2: L’estimation

Plan

Définition et Objectifs Rappel régression linéaire Réseaux neuronaux Démonstrations

Page 3: L’estimation

Définition et Objectifs

Prévoir la valeur d’une variablenon observée à partir de variables

observées

Applications typiques Prévision

Finance, économie, météo, environnement. Modélisation numérique

Représentation numérique de systèmes physiques difficiles à décrire par des équations explicites : moteurs, …

Page 4: L’estimation

Caractérisation

Généralisation de la classification à une variable à prévoir continue

Comme la classification C’est un problème supervisé Il comporte 2 utilisations (mais dans une moindre mesure)

Utilisation descriptive Exprimer l’équation de dépendance entre les variables

d’entrée et la variable de sortie. Etudier la sensibilité aux variables d’entrée

Utilisation décisionnelle Calculer l’estimation de la sortie en fonction des entrées La nature fondamentale du problème est un calcul

d’espérance conditionnelle : E(Demain|Aujourd’hui)

Page 5: L’estimation

Caractérisation (suite)

Les variables observées peuvent être Qualitatives ou quantitatives

La variable à prévoir est continue Le modèle est mis au point sur un ensemble de

données où toutes les variables sont observées (y compris la sortie)

Exemple : Prévision financière Données : Historique de données macroéconomiques et

financières Variables explicatives : Production industrielle, Devises, Taux

de chomage, Taux d’utilisation des capacités, etc. Variable à prévoir : Indice boursier (CAC40)

Page 6: L’estimation

Techniques disponibles

Régression linéaire Régression polynomiale ou autres Réseaux neuronaux Support Vector Machines

Page 7: L’estimation

Régression linéaire

Page 8: L’estimation

La régression linéaire : rappels

Cadre théorique : variables aléatoires Cadre expérimental : observations En pratique :

Un ensemble de couples (X,Y) On pose :

Y* = b0 + b1X1 + b2X2 + … + bpXp On cherche Y* qui minimise (Y*-Y)2

On peut trouver facilement les (bi), et on peut mesurer la qualité de l’ajustement

Cas non linéaires ?

Page 9: L’estimation

Réseaux neuronaux

Page 10: L’estimation

Plan

Fondements biologiques Le perceptron Les réseaux multicouches Applications : estimation, classification

Page 11: L’estimation

Fondements biologiques

Objectifs : Reproduire les capacités de raisonnement de l’homme

Comment : Reproduire le fonctionnement des structures de base du

cerveau

Approche Modéliser l’élément de base (le neurone) Modéliser la structure du système (le réseau) Modéliser le fonctionnement du système (dynamique et

apprentissage)

Page 12: L’estimation

Le neurone

Corps cellulaire Dendrites Axone

Page 13: L’estimation

Le corps cellulaire

Contient le noyau de la cellule

Quelques de diamètre

Vie du neurone Intégration de

signaux Génération de l’influx

Page 14: L’estimation

Les dendrites

Extensions tubulaires du corps cellulaire

Quelques 1/10 de diamètre

Réception des signaux

Page 15: L’estimation

L’axone

Fibre nerveuse 1mm à quelques m

de longueur

Transport des signaux

Page 16: L’estimation

Le neurone : résumé

Structure Fonction

Dendrite Réception des signaux des autres neurones

Corps cellulaire Intégration des signaux de génération de l’influx

Axone Conduction et transmission de l’influx

Page 17: L’estimation

La synapse

Point de contact entre neurones axone / dendrite axone / axone axone / corps

cellulaire etc.

Page 18: L’estimation

Le fonctionnement du système

Au niveau microscopique Neurones, synapses

Au niveau macroscopique Réseau

Page 19: L’estimation

Fonctionnement micro

Réception Dendrite

Intégration Corps cellulaire

Génération Corps cellulaire

Conduction Axone

Transmission Synapse

De l’influx nerveux MEMBRANE

Page 20: L’estimation

Le corps cellulaire

Sommateur à seuil : réception de signaux sommation génération si influx

total dépasse un certain seuil

dendrites

axone

seuillage

sommation

Page 21: L’estimation

L’influx nerveux

Membrane au repos : ddp = -70 mV

Influx = inversion locale de polarité

+ + + + + + + + + + + + +

+ + + + + + + + + + + + +

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

membrane au repos

- 70 mV

+ + + + + ~ ~ + + + + + +

+ + + + + ~ ~ + + + + + +

~ ~ ~ ~ ~ + + ~ ~ ~ ~ ~ ~

influx

- 70 mV

Page 22: L’estimation

La membrane au repos

Maintien de la ddp canaux K+ ouverts canaux Na+ fermés

Ions K+ pression osmotique :

vers l’exterieur ddp : vers l’intérieur

Maintien couche K+

[K+] [Na+]

[Cl~][Na+]

[Na+]

[Na+]

[Cl~]

[K+]

[K+]

[K+]

pompes

canaux

Page 23: L’estimation

Propagation de l’influx

Inversion locale ouverture canaux Na+

(aval) ouverture canaux K+

(amont) Résultats

inversion progresse rétablissement du potentiel

(K+) rétablissement des

concentrations (pompes)

Délai de réaction

entrée [Na+]

sortie [K+]

+ + + + + + ~ ~ ~ ~ + + + + + + + +

+ + + + + + ~ ~ ~ ~ + + + + + + + +

~ ~ ~ ~ ~ ~ + + + + ~ ~ ~ ~ ~ ~ ~ ~

Page 24: L’estimation

La réception de l’influx

Transformation du signal électrique en signal chimique(bouton synaptique)

Transformation inverse (dendrite)

influxaxone

neurotransmetteurs

récepteurs

dendrite

Page 25: L’estimation

Le modèle du neurone

Un sommateur à seuil reçoit un ensemble

d’influx effectue une sommation émet lui-même un influx

si la somme des influx reçus dépasse un certain seuil

Le neurone = séparateur linéaireNeurone de Mc Cullogh &

Pitts (1943)

Page 26: L’estimation

Un neurone pour réaliser des fonctions logiques

ET logique

OU logique

X

Y

-1.5

X

Y

-0.5

Page 27: L’estimation

Le modèle du réseau

Le système visuel : réseau de neurones réels le mieux connu capable de réaliser des fonctions

complexes dont les ordinateurs sont encore incapables (reconnaissance des formes)

Architecture du système visuel

Architecture en couches***

Niveaux d’abstraction successifs

rétine cellulesganglionnaires

cellulessimples

cellulescomplexes(OU)(ET)

Architecture en couches***

Niveaux d’abstraction successifs

Page 28: L’estimation

Fonctionnement du système

Le système visuel de la grenouille détecte 4 types de stimuli : Un objet pénètre dans le

champ visuel

Un objet pénètre dans le champ visuel et s’y arrête

Le niveau d’éclairement général du champ visuel diminue

Un petit objet de forme arrondie pénètre dans le champ visuel et s’y déplace de façon erratique

Stimuli , , FUITE

Stimulus ATTAQUE

En laboratoire, la grenouille est incapable de se nourrir de moucherons déjà tués : le

stimulus correspondant n’est pas reconnu !!

Page 29: L’estimation

Adaptation

Constat :La capacité de traitement de stimuli complexes

est insuffisante=> Adaptation nécessaire

Support de l’adaptation :Les synapses

Principe :Le réseau de neurones adapte la fonction qu’il réalise à son environnement en modifiant la force des relations entre les neurones.Un nouveau stimulus pourra alors progressivement déclencher une action

Page 30: L’estimation

Fondements biologiques : résumé

3 idées : Une cellule à seuil pour réaliser des

séparations Un réseau à couches pour hiérarchiser les

informations Un mécanisme d’apprentissage des

connexions pour adapter le réseau à une fonction donnée

Page 31: L’estimation

Principe des modélisations

A partir du modèle biologique Modèle du neurone (neurone formel) Modèle du réseau (architecture et

fonctionnement) Mécanisme d’apprentissage

Page 32: L’estimation

Modèle du neurone

wi,1

wi,j

wi,n

ai

a1

aj

an

Sommateur à seuil

Page 33: L’estimation

Architecture du réseau(1) Hiérarchique

décisionsituation

sens de propagation

connexion totale entre deuxcouches successives

Page 34: L’estimation

Architecture du réseau :(2) Complètement connecté

Page 35: L’estimation

Fonctionnement du réseau

Le réseau est un système dynamique Etat initial

Aléatoire Fixé par l’extérieur (ex : rétine)

Règle de fonctionnement Séquentiel Parallèle

Page 36: L’estimation

Apprentissage

Non supervisé L’environnement imprime sa marque sur le

réseau neuronal : le réseau devient d’une certaine façon une image de l’environnement

Supervisé On introduit explicitement la notion de tâche

à accomplir pour le système. Le réseau neuronal doit alors s’adapter pour réaliser une fonction donnée.

Page 37: L’estimation

Apprentissage non supervisé :La règle de Hebb

Ai = activation du neurone i

i jWij

Wij(t+1)=Wij(t)+k

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)+kAiAj

Page 38: L’estimation

Règle de Hebb : exemple

Cette matrice représente un réseau de neurones complètement connecté sur lequel on a formé la lettre A (les connexions ne sont pas représentées). Si on forme successivement un ensemble de lettres, et que deux neurones sont souvent activés simultanément, alors la règle de Hebb conduira à renforcer la connexion entre ces deux neurones.

Page 39: L’estimation

Apprentissage supervisé

Principe On dispose d’un ensemble d’exemples

(X,Y), où X est l’entrée et Y la sortie. Présenter un exemple Xk au réseau Le faire fonctionner Comparer la sortie du réseau avec Yk

Modifier les poids du réseau s’il y a une erreur

Page 40: L’estimation

Apprentissage supervisé

Règles de modification des poids Dépendent de l’architecture La règle de Hebb peut s’appliquer

Page 41: L’estimation

Le perceptron

1958 (Rosenblatt) Première tentative d’intégrer :

Le neurone à seuil La règle de Hebb

Propriétés : spécifications précises assez complexes pour être intéressant assez simple pour être étudié biologiquement plausible

Page 42: L’estimation

Description

Neurones à seuil Architecture

calquée sur celle du système visuel

Apprentissage par essai et erreur

Couche d’association figée

rétine

association

décision

Page 43: L’estimation

Fonctionnement du perceptron

On présente Xk sur la rétine du perceptron, et on souhaite avoir la réponse dk (binaire)

Quatre cas peuvent se produire dk=1 et sk=1 => ok dk=1 et sk=0 => erreur dk=0 et sk=1 => erreur dk=0 et sk=0 => ok

Page 44: L’estimation

Règle d’apprentissage du perceptron

Cas d’erreur Par exemple dk=1 et sk=0

Explication La somme pondérée des entrées de la cellule

de décision est trop faible Action

Augmenter les poids dont l’entrée est positive

Diminuer les poids dont l’entrée est négative

Page 45: L’estimation

Règle d’apprentissage du perceptron

Wi(k+1)= Wi(k)+(dk-sk).ai

Cette règle Peut se ramener à la règle de Hebb entre

les cellules d’association et la cellule de décision

Converge si la solution existe La solution existe ssi

Le problème est linéairement séparable

Page 46: L’estimation

Limites du perceptron : le XOR

rétine

association

décision

Page 47: L’estimation

Le problème du XOR

?

Le problème du XOR n’est pas linéairement séparable : il s’agirait ici de faire passer une droite séparant les points blancs des noirs.

Page 48: L’estimation

Solution du problème du XOR

En ajoutant une cellule d’association qui réalise le ET logique des deux cellules de la rétine, le problème du XOR devient linéairement séparable : il suffit à présent de faire passer un plan pour séparer les points blancs des noirs, ce que réalise le plan figuré sur le dessin.

Page 49: L’estimation

Théorème de connexité (Papert & Minsky)

• Non connexeL+M+R > s

• ConnexeL’+M+R <= s

=> L’< L

• ConnexeL+M+R’ <= s=> R’<R

• Non connexeL’+M+R’ > s

=> R’>R : impossible

m cases

m+2 cases

Page 50: L’estimation

Faites-vous mieux qu’un perceptron ?

Page 51: L’estimation

Performances & limitations du perceptron

Théorème de convergence si la solution existe Réalisation de n’importe quelle fonction

logique en spécifiant la couche intermédiaire Impossible d’apprendre la première couche =>

on ne peut pas apprendre n’importe quelle fonction logique

La limitation porte sur la méthode d’apprentissage : comment faire apprendre les poids rétine->association ?

Page 52: L’estimation

Conclusion

Nécessité de faire apprendre la 1ère couche intermédiaire

Nécessité d’une connexion totale entre les différentes couches

Page 53: L’estimation

Les réseaux multi-couches formels

Définition du neurone formelDéfinition de l’architecture multi-couches

Algorithme d’apprentissage = rétropropagation du gradient

Page 54: L’estimation

Le neurone formel

O W Oi ij jj

( )xe x

1

1

a1

aj

an

ai

wi1

wij

win

x

1(x)

Page 55: L’estimation

Architecture multi-couches

Couches entièrement connectées

Pas de connexion récurrente

Perceptron multi-couches

décisionentrées

sens de propagation

connexion totale entredeux couches successives

Page 56: L’estimation

Fonctionnement du réseau multi-couches

décisionentrées

sens de propagation

connexion totale entredeux couches successives

S w wj j j j jj

jj

jL L L

L

L

L

, , (...)1

1

Page 57: L’estimation

Apprentissage du réseau

Base d’exemples

Erreur du réseau

Minimisation de l’erreurpar descente de gradient

Mise en oeuvre en rétro-propageant le signal d’erreur à travers le réseau en sens inverse

X D X Yn n1 1, ,... , ,

E W D X F Xi W ii

( ) ( ) ( ) 2

W t W t EW( ) ( ) 1

Page 58: L’estimation

Algorithme derétropropagation du gradient

signald’erreur

rétropropagation

Mise en oeuvre élégante (inversion du réseau et

propagation d’un signal d’erreur)

Non garantie de convergence (problème inhérent à la méthode de

gradient)

Page 59: L’estimation

Réseaux neuronaux & Estimation

Problème de l’estimation : estimer une relation de dépendance entre les variables

Utilisation des RN : approximer F par un réseau neuronal multi-couches à une sortie

Résultat théorique : les RN sont des approximateurs universels

),...,,( 21 pXXXFY

Page 60: L’estimation

Réseaux neuronaux & Classification

classe 1

classe 2

F(x)=0

Classification avec séparation non linéaire

Page 61: L’estimation

Avantages et Inconvénients

Avantages Séparation non linéaire Approximateur universel Aucune forme explicite a priori de la séparation

Inconvénients Boîte noire (difficile d’interpréter les paramètres) Convergence vers un minimum local Contrôle de la robustesse