L’estimation

L’estimation

Plan

Définition et Objectifs Rappel régression linéaire Réseaux neuronaux Démonstrations

Définition et Objectifs

Prévoir la valeur d’une variablenon observée à partir de variables

observées

Applications typiques Prévision

Finance, économie, météo, environnement. Modélisation numérique

Représentation numérique de systèmes physiques difficiles à décrire par des équations explicites : moteurs, …

Caractérisation

Généralisation de la classification à une variable à prévoir continue

Comme la classification C’est un problème supervisé Il comporte 2 utilisations (mais dans une moindre mesure)

Utilisation descriptive Exprimer l’équation de dépendance entre les variables

d’entrée et la variable de sortie. Etudier la sensibilité aux variables d’entrée

Utilisation décisionnelle Calculer l’estimation de la sortie en fonction des entrées La nature fondamentale du problème est un calcul

d’espérance conditionnelle : E(Demain|Aujourd’hui)

Caractérisation (suite)

Les variables observées peuvent être Qualitatives ou quantitatives

La variable à prévoir est continue Le modèle est mis au point sur un ensemble de

données où toutes les variables sont observées (y compris la sortie)

Exemple : Prévision financière Données : Historique de données macroéconomiques et

financières Variables explicatives : Production industrielle, Devises, Taux

de chomage, Taux d’utilisation des capacités, etc. Variable à prévoir : Indice boursier (CAC40)

Techniques disponibles

Régression linéaire Régression polynomiale ou autres Réseaux neuronaux Support Vector Machines

Régression linéaire

La régression linéaire : rappels

Cadre théorique : variables aléatoires Cadre expérimental : observations En pratique :

Un ensemble de couples (X,Y) On pose :

Y* = b0 + b1X1 + b2X2 + … + bpXp On cherche Y* qui minimise (Y*-Y)2

On peut trouver facilement les (bi), et on peut mesurer la qualité de l’ajustement

Cas non linéaires ?

Réseaux neuronaux

Plan

Fondements biologiques Le perceptron Les réseaux multicouches Applications : estimation, classification

Fondements biologiques

Objectifs : Reproduire les capacités de raisonnement de l’homme

Comment : Reproduire le fonctionnement des structures de base du

cerveau

Approche Modéliser l’élément de base (le neurone) Modéliser la structure du système (le réseau) Modéliser le fonctionnement du système (dynamique et

apprentissage)

Le neurone

Corps cellulaire Dendrites Axone

Le corps cellulaire

Contient le noyau de la cellule

Quelques de diamètre

Vie du neurone Intégration de

signaux Génération de l’influx

Les dendrites

Extensions tubulaires du corps cellulaire

Quelques 1/10 de diamètre

Réception des signaux

L’axone

Fibre nerveuse 1mm à quelques m

de longueur

Transport des signaux

Le neurone : résumé

Structure Fonction

Dendrite Réception des signaux des autres neurones

Corps cellulaire Intégration des signaux de génération de l’influx

Axone Conduction et transmission de l’influx

La synapse

Point de contact entre neurones axone / dendrite axone / axone axone / corps

cellulaire etc.

Le fonctionnement du système

Au niveau microscopique Neurones, synapses

Au niveau macroscopique Réseau

Fonctionnement micro

Réception Dendrite

Intégration Corps cellulaire

Génération Corps cellulaire

Conduction Axone

Transmission Synapse

De l’influx nerveux MEMBRANE

Le corps cellulaire

Sommateur à seuil : réception de signaux sommation génération si influx

total dépasse un certain seuil

dendrites

axone

seuillage

sommation

L’influx nerveux

Membrane au repos : ddp = -70 mV

Influx = inversion locale de polarité

+ + + + + + + + + + + + +

+ + + + + + + + + + + + +

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

membrane au repos

- 70 mV

+ + + + + ~ ~ + + + + + +

+ + + + + ~ ~ + + + + + +

~ ~ ~ ~ ~ + + ~ ~ ~ ~ ~ ~

influx

- 70 mV

La membrane au repos

Maintien de la ddp canaux K+ ouverts canaux Na+ fermés

Ions K+ pression osmotique :

vers l’exterieur ddp : vers l’intérieur

Maintien couche K+

[K+] [Na+]

[Cl~][Na+]

[Na+]

[Na+]

[Cl~]

[K+]

[K+]

[K+]

pompes

canaux

Propagation de l’influx

Inversion locale ouverture canaux Na+

(aval) ouverture canaux K+

(amont) Résultats

inversion progresse rétablissement du potentiel

(K+) rétablissement des

concentrations (pompes)

Délai de réaction

entrée [Na+]

sortie [K+]

+ + + + + + ~ ~ ~ ~ + + + + + + + +

+ + + + + + ~ ~ ~ ~ + + + + + + + +

~ ~ ~ ~ ~ ~ + + + + ~ ~ ~ ~ ~ ~ ~ ~

La réception de l’influx

Transformation du signal électrique en signal chimique(bouton synaptique)

Transformation inverse (dendrite)

influxaxone

neurotransmetteurs

récepteurs

dendrite

Le modèle du neurone

Un sommateur à seuil reçoit un ensemble

d’influx effectue une sommation émet lui-même un influx

si la somme des influx reçus dépasse un certain seuil

Le neurone = séparateur linéaireNeurone de Mc Cullogh &

Pitts (1943)

Un neurone pour réaliser des fonctions logiques

ET logique

OU logique

X

Y

-1.5

X

Y

-0.5

Le modèle du réseau

Le système visuel : réseau de neurones réels le mieux connu capable de réaliser des fonctions

complexes dont les ordinateurs sont encore incapables (reconnaissance des formes)

Architecture du système visuel

Architecture en couches***

Niveaux d’abstraction successifs

rétine cellulesganglionnaires

cellulessimples

cellulescomplexes(OU)(ET)

Architecture en couches***

Niveaux d’abstraction successifs

Fonctionnement du système

Le système visuel de la grenouille détecte 4 types de stimuli : Un objet pénètre dans le

champ visuel

Un objet pénètre dans le champ visuel et s’y arrête

Le niveau d’éclairement général du champ visuel diminue

Un petit objet de forme arrondie pénètre dans le champ visuel et s’y déplace de façon erratique

Stimuli , , FUITE

Stimulus ATTAQUE

En laboratoire, la grenouille est incapable de se nourrir de moucherons déjà tués : le

stimulus correspondant n’est pas reconnu !!

Adaptation

Constat :La capacité de traitement de stimuli complexes

est insuffisante=> Adaptation nécessaire

Support de l’adaptation :Les synapses

Principe :Le réseau de neurones adapte la fonction qu’il réalise à son environnement en modifiant la force des relations entre les neurones.Un nouveau stimulus pourra alors progressivement déclencher une action

Fondements biologiques : résumé

3 idées : Une cellule à seuil pour réaliser des

séparations Un réseau à couches pour hiérarchiser les

informations Un mécanisme d’apprentissage des

connexions pour adapter le réseau à une fonction donnée

Principe des modélisations

A partir du modèle biologique Modèle du neurone (neurone formel) Modèle du réseau (architecture et

fonctionnement) Mécanisme d’apprentissage

Modèle du neurone

wi,1

wi,j

wi,n

ai

a1

aj

an

Sommateur à seuil

Architecture du réseau(1) Hiérarchique

décisionsituation

sens de propagation

connexion totale entre deuxcouches successives

Architecture du réseau :(2) Complètement connecté

Fonctionnement du réseau

Le réseau est un système dynamique Etat initial

Aléatoire Fixé par l’extérieur (ex : rétine)

Règle de fonctionnement Séquentiel Parallèle

Apprentissage

Non supervisé L’environnement imprime sa marque sur le

réseau neuronal : le réseau devient d’une certaine façon une image de l’environnement

Supervisé On introduit explicitement la notion de tâche

à accomplir pour le système. Le réseau neuronal doit alors s’adapter pour réaliser une fonction donnée.

Apprentissage non supervisé :La règle de Hebb

Ai = activation du neurone i

i jWij

Wij(t+1)=Wij(t)+k

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)

Wij(t+1)=Wij(t)+kAiAj

Règle de Hebb : exemple

Cette matrice représente un réseau de neurones complètement connecté sur lequel on a formé la lettre A (les connexions ne sont pas représentées). Si on forme successivement un ensemble de lettres, et que deux neurones sont souvent activés simultanément, alors la règle de Hebb conduira à renforcer la connexion entre ces deux neurones.

Apprentissage supervisé

Principe On dispose d’un ensemble d’exemples

(X,Y), où X est l’entrée et Y la sortie. Présenter un exemple Xk au réseau Le faire fonctionner Comparer la sortie du réseau avec Yk

Modifier les poids du réseau s’il y a une erreur

Apprentissage supervisé

Règles de modification des poids Dépendent de l’architecture La règle de Hebb peut s’appliquer

Le perceptron

1958 (Rosenblatt) Première tentative d’intégrer :

Le neurone à seuil La règle de Hebb

Propriétés : spécifications précises assez complexes pour être intéressant assez simple pour être étudié biologiquement plausible

Description

Neurones à seuil Architecture

calquée sur celle du système visuel

Apprentissage par essai et erreur

Couche d’association figée

rétine

association

décision

Fonctionnement du perceptron

On présente Xk sur la rétine du perceptron, et on souhaite avoir la réponse dk (binaire)

Quatre cas peuvent se produire dk=1 et sk=1 => ok dk=1 et sk=0 => erreur dk=0 et sk=1 => erreur dk=0 et sk=0 => ok

Règle d’apprentissage du perceptron

Cas d’erreur Par exemple dk=1 et sk=0

Explication La somme pondérée des entrées de la cellule

de décision est trop faible Action

Augmenter les poids dont l’entrée est positive

Diminuer les poids dont l’entrée est négative

Règle d’apprentissage du perceptron

Wi(k+1)= Wi(k)+(dk-sk).ai

Cette règle Peut se ramener à la règle de Hebb entre

les cellules d’association et la cellule de décision

Converge si la solution existe La solution existe ssi

Le problème est linéairement séparable

Limites du perceptron : le XOR

rétine

association

décision

Le problème du XOR

?

Le problème du XOR n’est pas linéairement séparable : il s’agirait ici de faire passer une droite séparant les points blancs des noirs.

Solution du problème du XOR

En ajoutant une cellule d’association qui réalise le ET logique des deux cellules de la rétine, le problème du XOR devient linéairement séparable : il suffit à présent de faire passer un plan pour séparer les points blancs des noirs, ce que réalise le plan figuré sur le dessin.

Théorème de connexité (Papert & Minsky)

• Non connexeL+M+R > s

• ConnexeL’+M+R <= s

=> L’< L

• ConnexeL+M+R’ <= s=> R’<R

• Non connexeL’+M+R’ > s

=> R’>R : impossible

m cases

m+2 cases

Faites-vous mieux qu’un perceptron ?

Performances & limitations du perceptron

Théorème de convergence si la solution existe Réalisation de n’importe quelle fonction

logique en spécifiant la couche intermédiaire Impossible d’apprendre la première couche =>

on ne peut pas apprendre n’importe quelle fonction logique

La limitation porte sur la méthode d’apprentissage : comment faire apprendre les poids rétine->association ?

Conclusion

Nécessité de faire apprendre la 1ère couche intermédiaire

Nécessité d’une connexion totale entre les différentes couches

Les réseaux multi-couches formels

Définition du neurone formelDéfinition de l’architecture multi-couches

Algorithme d’apprentissage = rétropropagation du gradient

Le neurone formel

O W Oi ij jj

( )xe x

1

1

a1

aj

an

ai

wi1

wij

win

x

1(x)

Architecture multi-couches

Couches entièrement connectées

Pas de connexion récurrente

Perceptron multi-couches

décisionentrées

sens de propagation

connexion totale entredeux couches successives

Fonctionnement du réseau multi-couches

décisionentrées

sens de propagation

connexion totale entredeux couches successives

S w wj j j j jj

jj

jL L L

L

L

L

, , (...)1

1

Apprentissage du réseau

Base d’exemples

Erreur du réseau

Minimisation de l’erreurpar descente de gradient

Mise en oeuvre en rétro-propageant le signal d’erreur à travers le réseau en sens inverse

X D X Yn n1 1, ,... , ,

E W D X F Xi W ii

( ) ( ) ( ) 2

W t W t EW( ) ( ) 1

Algorithme derétropropagation du gradient

signald’erreur

rétropropagation

Mise en oeuvre élégante (inversion du réseau et

propagation d’un signal d’erreur)

Non garantie de convergence (problème inhérent à la méthode de

gradient)

Réseaux neuronaux & Estimation

Problème de l’estimation : estimer une relation de dépendance entre les variables

Utilisation des RN : approximer F par un réseau neuronal multi-couches à une sortie

Résultat théorique : les RN sont des approximateurs universels

),...,,( 21 pXXXFY

Réseaux neuronaux & Classification

classe 1

classe 2

F(x)=0

Classification avec séparation non linéaire

Avantages et Inconvénients

Avantages Séparation non linéaire Approximateur universel Aucune forme explicite a priori de la séparation

Inconvénients Boîte noire (difficile d’interpréter les paramètres) Convergence vers un minimum local Contrôle de la robustesse

Documents

L’estimation