53
oratoire Systèmes Complexes C E M I F Université d ’Évry Val d ’Ess Étude de l ’émergence Étude de l ’émergence de facultés d ’apprentissage de facultés d ’apprentissage fiables et prédictibles fiables et prédictibles d ’actions réflexes, d ’actions réflexes, à partir de modèles paramétriques à partir de modèles paramétriques soumis à des contraintes internes soumis à des contraintes internes Frédéric Davesne sous la direction de Claude Barret Étude de l ’émergence Étude de l ’émergence de de facultés d ’apprentissage facultés d ’apprentissage fiables et prédictibles fiables et prédictibles d ’actions réflexes d ’actions réflexes , , à partir de modèles paramétriques à partir de modèles paramétriques soumis à des contraintes internes soumis à des contraintes internes Étude de Étude de l ’émergence l ’émergence de facultés d ’apprentissage de facultés d ’apprentissage fiables et prédictibles fiables et prédictibles d ’actions réflexes, d ’actions réflexes, à partir de modèles paramétriques à partir de modèles paramétriques soumis à des soumis à des contraintes contraintes internes internes

Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

Embed Size (px)

Citation preview

Page 1: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

Laboratoire Systèmes Complexes

CE

MIF

Université d ’Évry Val d ’Essonne

Étude de l ’émergenceÉtude de l ’émergencede facultés d ’apprentissagede facultés d ’apprentissage

fiables et prédictiblesfiables et prédictiblesd ’actions réflexes,d ’actions réflexes,

à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des contraintes internessoumis à des contraintes internes

Frédéric Davesne

sous la direction de Claude Barret

Étude de l ’émergenceÉtude de l ’émergencede de facultés d ’apprentissagefacultés d ’apprentissage

fiables et prédictiblesfiables et prédictiblesd ’actions réflexesd ’actions réflexes,,

à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des contraintes internessoumis à des contraintes internes

Étude de Étude de l ’émergencel ’émergencede facultés d ’apprentissagede facultés d ’apprentissage

fiables et prédictiblesfiables et prédictiblesd ’actions réflexes,d ’actions réflexes,

à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des soumis à des contraintescontraintes internes internes

Page 2: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

2

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2 Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie

effecteurs

Système artificiel (robot miniature Khepera)

Environnement

capteurs

traitementinformatique

Intr

oduc

tion

On part d ’un exemple de système On part d ’un exemple de système artificielartificiel

Schéma bloc usueld ’un modèle

d ’actions réflexes

Page 3: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

3

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Intr

oduc

tion

Fiabilité

Propension à ne pas tomber en panne

Mesurée en nombre de pannes par unité de temps

Prédictibilité

Propension à pouvoir déduire de l ’observationd ’un événement les causes de sa survenue

Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie

DéfinitionsDéfinitions

Page 4: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

4

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie

Traitement informatiqueTraitement informatique

Intr

oduc

tion traitement

informatiqueLe problème

est modélisable

Le problèmen ’est pas

modélisable

Environnement contraint,modèle connu des capteurs

et des effecteurs

Programmationd ’une relation fonctionnelle,

déduite du calcul,entre capteurs et effecteurs

prédictibilité,fiabilité

Environnement inconnu,modèles inconnus des capteurs

ou des effecteurs

Programmationd  ’heuristiques,

techniques d ’apprentissage

prédictibilité,fiabilité? ?

Page 5: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

5

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2Fondation de la thèse: cœur du Fondation de la thèse: cœur du débatdébat

Intr

oduc

tion

système ouvert,apprentissage/adaptation

pas de modèle a priori,incertitude

fiabilité,prédictibilité

Y-a-t-il un lien formel possible ?Y-a-t-il un lien formel possible ?Notre thèse:Oui, théoriquement:c ’est une caractéristiquemajeure du vivant Non, en pratique:

pour des techniques d ’apprentissage usuelles

fossé entrele vivant et l ’imitation du vivant

?

Page 6: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

6

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Objectif à long terme de la rechercheObjectif à long terme de la rechercheIn

trod

ucti

on

Spécifier un outil permettant de répondre à un problème d ’ingénierie

Prédictibilité de l ’apprentissageFiabilité du résultat d ’apprentissage

En suivant une démarche intellectuelle classique en sciences physiques et pas une démarched ’ingénierie

Technique d ’apprentissage telle que:

Page 7: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

7

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

1- Constats expérimentaux

3- Modélisation Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux

2- Postulats de travail

Étude et application de techniques d ’Apprentissage par Renforcement

Étude bibliographique exploratoiredans le domaine du vivant

Retour critique sur les postulats de travail

démarche

Travail de thèseTravail de thèseIn

trod

ucti

on

P

P

P

Page 8: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

8

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

1.1- Problème du pendule inversé1.1- Problème du pendule inversé1

23

1- C

onst

ats

exp

érim

enta

ux

Page 9: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

9

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

1.2- Apprentissage par renforcement1.2- Apprentissage par renforcement

Utilisation d ’une technique d ’apprentissage par renforcement:Q(lambda) [Peng1995], dérivée du Q-Learning [Watkins1989]

1- C

onst

ats

exp

érim

enta

ux

Choix de a(t) au centre du dilemme exploration/exploitation Réglage empirique pour ce dilemme

1

23

Page 10: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

10

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Résultat classique d ’apprentissageRésultat classique d ’apprentissage

Résultat d ’apprentissage avec un critère d ’arrêt peu exigent

Résultat comparableà celui obtenu dans[Barto et al 1983]

MAIS ...

1- C

onst

ats

exp

érim

enta

ux

1

23

Page 11: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

11

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2Avec des critères de réussite plus Avec des critères de réussite plus sévèressévères

Si on prolonge la durée d ’apprentissage ...

Le résultat d ’apprentissagen ’est pas fiable, mais il semble modélisable ...

MAIS ...

Fonction de répartition

1- C

onst

ats

exp

érim

enta

ux

1

23

Premier exemplePremier exemple

Page 12: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

12

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2Avec des critères de réussite plus Avec des critères de réussite plus sévèressévères

On n ’aboutit pas à un modèle de

répartition stationnaire des durées de viabilité

Pas de prédictibilité !!!

réglage du paramètrede température

mécanisme d ’associationdonnées d ’entrée/état

Causes probables:

Causes contextuelles

1- C

onst

ats

exp

érim

enta

ux

1

23

Deuxième exempleDeuxième exemple

Page 13: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

13

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Travail de thèseTravail de thèse

1- Constats expérimentaux

3- Modélisation Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux

2- Postulats de travail

Étude et application de techniques d ’Apprentissage par Renforcement

Étude bibliographique exploratoiredans le domaine du vivant

Retour critique sur les postulats de travail

1

23

Page 14: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

14

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Rappel de la problématiqueRappel de la problématique2-

Pos

tula

ts d

e tr

avai

l

fiabilité,prédictibilité

système ouvert,apprentissage/adaptation

pas de modèle a priori,incertitude

2.1- Démarche

2.3- Types d ’apprentissage

2.2- Nature del ’apprentissage

1

23

?

2.4- Nature de la perception

Page 15: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

15

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Mise en cause du contexte Mise en cause du contexte d ’apprentissaged ’apprentissage

traitementinformatique

2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée

Systèmeapprenant

Environnement

Contexted ’apprentissage

Lien univoqueEffecteurs=f(capteurs)

capteurseffecteurs

Traitement informatique

Paramètres ou heuristiquesqui guident l ’apprentissage,pré-traitement des données

effecteurs capteursapprentissage

2- P

ostu

lats

de

trav

ail

1

23

Page 16: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

16

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Ce que nous souhaitonsCe que nous souhaitons

2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée

Contexted ’apprentissage

EnvironnementSystèmeouvert

Lien univoqueinteraction

capteurseffecteurs

L ’apprentissage doit pouvoir être déduit exclusivement de l ’étude de l ’interaction système/environnement

1

23

2- P

ostu

lats

de

trav

ail

Page 17: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

17

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

La démarche que nous adoptonsLa démarche que nous adoptons

2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée2-

Pos

tula

ts d

e tr

avai

l1

23

Spécificationde l ’interaction

Système abstraitAction de l ’environnementRéaction du système

Étude mathématique Évolutions possibles du système

InterprétationRecherche de propriétésémergentes du système

Expérimentations Algorithmes

1er PostulatCette démarche permet d ’obtenir

les caractéristiques de fiabilitéet de prédictibilité

Page 18: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

18

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Caractéristiques du systèmeCaractéristiques du système

– soumis à des contraintes internessoumis à des contraintes internes

– structure déformablestructure déformable

2.2- Nature de l ’apprentissage2.2- Nature de l ’apprentissage2-

Pos

tula

ts d

e tr

avai

l1

23

Page 19: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

19

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Dynamique du systèmeDynamique du système

2.2- Nature de l ’apprentissage2.2- Nature de l ’apprentissage

temps

Système enéquilibre

Système enéquilibre

Action de l ’environnement

Réactiondu système

Retour àl ’équilibre

La réaction du système doit le conduire à respecterses contraintes internes, quel que soit l ’environnement

Environnement

Systèmeouvert

1

23

2- P

ostu

lats

de

trav

ail

interaction

2ème PostulatL ’apprentissage est une propriété

émergente d ’un système

soumis à des contraintes internesvérifiées à chaque instant

Page 20: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

20

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

2.3- Types d ’apprentissage2.3- Types d ’apprentissage

temps

ApprentissagePerceptif

Apprentissaged ’Objectif

3ème Postulat

• non supervisé

• phase d ’exploration

• semi-supervisé

• phase d ’exploitation

• prédiction• catégorisation a posteriori par détection

• construction procédurale

2- P

ostu

lats

de

trav

ail

1

23

Page 21: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

21

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Modèle à deux sous-systèmesModèle à deux sous-systèmes

2.3- Types d ’apprentissage2.3- Types d ’apprentissage

Sous-Systèmed ’apprentissage

d ’Objectif(SSO)

étataction

Signal derenforcement

environnement

Sous-Systèmed ’apprentissage

Perceptif (SSP)

Signaux(hormis renforcement)

état

1

23

2- P

ostu

lats

de

trav

ail

Page 22: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

22

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

2.3- Types d’apprentissage2.3- Types d’apprentissage

Pourquoi deux sous-systèmes ?Pourquoi deux sous-systèmes ?– Associer à chaque problématique un sous-systèmeAssocier à chaque problématique un sous-système

SSO: apprentissage semi-supervisé (par renforcement)SSO: apprentissage semi-supervisé (par renforcement) SSP: traitement du signalSSP: traitement du signal

– Montrer la faisabilité de notre approche sur un cas Montrer la faisabilité de notre approche sur un cas solvable dans la durée d ’une thèse (SSO)solvable dans la durée d ’une thèse (SSO)

Attention !!! Attention !!! – Cela ne signifie pas que l ’action ne peut pas être Cela ne signifie pas que l ’action ne peut pas être

utilisée dans la perceptionutilisée dans la perception– Nous considérons le lien causal entre la formation de Nous considérons le lien causal entre la formation de

la perception et les capacités à effectuer des tâchesla perception et les capacités à effectuer des tâches

2- P

ostu

lats

de

trav

ail

1

23

Page 23: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

23

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

2.4- Nature de la perception2.4- Nature de la perception

À chaque instant, la perception est le résultat À chaque instant, la perception est le résultat d ’un processus d ’anticipation [Berthoz]d ’un processus d ’anticipation [Berthoz]

L ’anticipation est une propriété émergente L ’anticipation est une propriété émergente d ’un système soumis à des contraintes d ’un système soumis à des contraintes internesinternes– ce système est le résultat de l ’Apprentissage ce système est le résultat de l ’Apprentissage

PerceptifPerceptif

Ce qui est anticipé est la détection d ’un ou Ce qui est anticipé est la détection d ’un ou de plusieurs de plusieurs événements raresévénements rares

1

23

2- P

ostu

lats

de

trav

ail

4ème Postulat

Page 24: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

24

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

2.4- Nature de la perception2.4- Nature de la perception

Signauxcapteurs

Mémoire ?(anticipation)

Processus desélection

(détecteur)

État ?(perception)

SSP

h pas de temps

Modèle de SSPModèle de SSP

1

23

2- P

ostu

lats

de

trav

ail

Page 25: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

25

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Définitiona priori

d’unévénement

Rôle de la mémoireRôle de la mémoire– Permet la détection d ’une structure Permet la détection d ’une structure

ordonnéeordonnée– ensemble d ’événementsensemble d ’événements dont la dont la probabilité probabilité

d ’apparitiond ’apparition est très faible est très faible– entropieentropie associée très faible associée très faible

– non détection d ’une structure non ordonnéenon détection d ’une structure non ordonnée

Ordonnéou

pas ordonné ?

Ordonnéou

pas ordonné ?

2.4- Nature de la perception2.4- Nature de la perception

Contraintes de SSPs’appliquent sur

la mémoire

2- P

ostu

lats

de

trav

ail

1

23

La mémoire est définie a priori par un ensemble d’événements détectables tel que la probabilité d’apparition d’au moins un

événement est très faible

Page 26: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

26

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Travail de thèseTravail de thèse

1- Constats expérimentaux

3- Modélisation

2- Postulats de travail

Étude et application de techniques d ’Apprentissage par Renforcement

Étude bibliographique exploratoiredans le domaine du vivant

Retour critique sur les postulats de travail

1

23

Page 27: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

27

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3- Modélisation3- Modélisation

SSO

étataction

Signal derenforcement

environnement

SSPSignaux

(hormis renforcement)état

1

23

3.1- étude complète de SSO

3.2- spécification du sous-système SSP

Page 28: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

28

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.1.1- Application de notre démarche à 3.1.1- Application de notre démarche à SSOSSO

3.1-

Mod

élis

atio

n -

SS

O Spécification préliminairesSpécification préliminaires– systèmesystème– contraintes internescontraintes internes– mécanisme d ’action et de réactionmécanisme d ’action et de réaction

Résultats théoriquesRésultats théoriques

AlgorithmesAlgorithmes

ExpérimentationsExpérimentations

1

23 3.1

Page 29: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

29

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.1.2- Spécification du sous-système 3.1.2- Spécification du sous-système SS2SS2

Exemple: 4 états et 2 actions a et bExemple: 4 états et 2 actions a et b

État ei possédant un marquage Mi

État transitoire ei,k = état+choix d ’une action, marquage Mi,k (Q-value)

État terminal de marquage +1État terminal de marquage -1

e1e2

e3e4

e1,a e1,b e2,be2,a

e3,a e3,be4,a e4,b

État actif

Renforcement

(1,-1,0)

action

(a,b)

(e1,e2,e3,e4)

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 30: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

30

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.3- Action - contraintes - réaction3.1.3- Action - contraintes - réaction

Action de l ’environnement sur SSOAction de l ’environnement sur SSO– création de transitions entre les ecréation de transitions entre les ei,ki,k et les e et les eii

Contraintes appliquées à SSOContraintes appliquées à SSO– relient les valeurs des marquages Mrelient les valeurs des marquages Mii des états e des états eii et et

des marquages Mdes marquages Mi,ki,k des états transitoires e des états transitoires ei,ki,k

Réaction de SSORéaction de SSO– modification des marquages Mmodification des marquages Mii et M et Mi,ki,k (phase de (phase de

propagation)propagation)

1

23 3.1

3.1-

Mod

élis

atio

n -

SS

O

Page 31: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

31

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

0

e4

a

3.1.4- Dynamique de SSO3.1.4- Dynamique de SSO

e1e2

e3e4

e1,a e1,b e2,be2,a

e3,a e3,be4,a e4,b

État actif

Renforcement

action

Exemple d ’évolution de SSOExemple d ’évolution de SSO

eS

1

e4

0

b

eE

-1

e1

0

b

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 32: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

32

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.5- Résultats théoriques3.1.5- Résultats théoriques

– Dans tous les cas, la phase de propagation se Dans tous les cas, la phase de propagation se termine et conduit à un respect des contraintestermine et conduit à un respect des contraintes

– Sous certaines conditions, la valeur des marquages MSous certaines conditions, la valeur des marquages M ii est interprétable en termes de fiabilité du systèmeest interprétable en termes de fiabilité du système

– Au bout d ’un temps fini, la valeur des marquages Au bout d ’un temps fini, la valeur des marquages reste inchangée si l ’environnement ne varie pasreste inchangée si l ’environnement ne varie pas

– Si on choisit une politique de choix d ’action « Winner Si on choisit une politique de choix d ’action « Winner Take All », l ’évolution du comportement du système Take All », l ’évolution du comportement du système SSO peut être interprétée comme un apprentissageSSO peut être interprétée comme un apprentissage

1

23 3.1

3.1-

Mod

élis

atio

n -

SS

O

Page 33: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

33

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.6- Algorithme CbL3.1.6- Algorithme CbL

Réception de l’état initial ei

du sous-système SSO

Choix d’une action ak et exécution jusqu’àdétection d’un changement d’état ej

La transition ei,k/ej existe-t-elle ?oui

non

Création de la transitionPhase de propagationFin

Si ej terminal

Fin

Si ej terminal

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 34: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

34

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux

Problème jouet du labyrintheProblème jouet du labyrinthe

Un état = une case

4 actions: haut, bas, gauche, droite

renforcement1 = atteinte objectif-1 = cogne mur0 sinon

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 35: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

35

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux

Premier essai d ’apprentissagePremier essai d ’apprentissage

• Politique de commande après apprentissage

Optimalité ???

Dans ce cas, oui !

1

23 3.1

3.1-

Mod

élis

atio

n -

SS

O

Page 36: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

36

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux

Premier essai d ’apprentissage (suite)Premier essai d ’apprentissage (suite)

Optimalité ???

Dans ce cas, non Mais il ne s ’agit pas

de notre objectif !3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 37: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

37

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux

Comportement de l ’algorithme CbLComportement de l ’algorithme CbL

Phase de propagation Performance du système

exploration exploitation

Découvertede la cible

Découvertede la cible

exploration exploitation

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 38: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

38

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux

On part de cet environnement ...

Incrémentalité de CbLIncrémentalité de CbL

Après ajout d ’une cible ...Après ajouts successifsde trois autres cibles et d ’un obstacle ...

Découverte des cibleset obstacles

1

23 3.1

3.1-

Mod

élis

atio

n -

SS

O

Page 39: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

39

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.1.8- Comparaison avec les techniques 3.1.8- Comparaison avec les techniques d’ARd’AR

– modification des modification des Q-valuesQ-values uniquement lorsque une uniquement lorsque une nouvelle transition est découvertenouvelle transition est découverte

– séparation nette entre séparation nette entre phase d ’exploration et phase phase d ’exploration et phase d ’exploitationd ’exploitation (au moment de la découverte d ’une cible) (au moment de la découverte d ’une cible)

– l ’optimalitél ’optimalité est garantie si la phase d ’exploration est est garantie si la phase d ’exploration est exhaustive avant la découverte d ’une cibleexhaustive avant la découverte d ’une cible

– temps de convergencetemps de convergence très inférieur pour CbL très inférieur pour CbL

– la notion de la notion de tracetrace est induite par la propagation qui suit est induite par la propagation qui suit un rétablissement des contraintes internesun rétablissement des contraintes internes

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 40: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

40

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.1.9- Conclusion3.1.9- Conclusion

faisabilité de notre démarche faisabilité de notre démarche intellectuelleintellectuelle

obtention d ’un algorithme CbL de obtention d ’un algorithme CbL de bonne qualitébonne qualité

très simple à mettre en œuvre, pas de très simple à mettre en œuvre, pas de paramètres à réglerparamètres à régler

3.1-

Mod

élis

atio

n -

SS

O1

23 3.1

Page 41: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

41

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3- Modélisation3- Modélisation

SSO

étataction

Signal derenforcement

environnement

SSPSignaux

(hormis renforcement)état

1

23

3.1- étude complète de SSO

3.2- spécification du sous-système SSP

Page 42: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

42

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

3.2- Rappel du modèle de SSP3.2- Rappel du modèle de SSP

Signauxcapteurs

Mémoire ?(anticipation)

Processus desélection

(détecteur)

État ?(perception)

SSP

h pas de temps

En suivant le 4En suivant le 4èmeème postulat postulat

3.1-

Mod

élis

atio

n -

SS

O1

23 3.2

Page 43: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

43

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.2.1- Application de notre démarche à 3.2.1- Application de notre démarche à SSPSSP

3.1-

Mod

élis

atio

n -

SS

O Cas d ’un SSP avec une mémoire à un Cas d ’un SSP avec une mémoire à un événementévénement– constitution de la mémoire, condition de constitution de la mémoire, condition de

détection de l ’événementdétection de l ’événement– résultats théoriquesrésultats théoriques

Cas d ’un SSP avec une mémoire contenant Cas d ’un SSP avec une mémoire contenant un ensemble paramétrisable d ’élémentsun ensemble paramétrisable d ’éléments– exemple de mémoireexemple de mémoire– résolution du problème de détectionrésolution du problème de détection

1

23 3.2

Page 44: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

44

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.2.2- Cas d’une mémoire à un 3.2.2- Cas d’une mémoire à un événémentévénément

Constitution de la mémoireConstitution de la mémoire– les paramètresles paramètres

fonction f continue par morceaux, à valeurs dans fonction f continue par morceaux, à valeurs dans [0,1][0,1]

trois paramètres l, h et itrois paramètres l, h et i

– événement à détecterévénement à détecter au plus i valeurs du signal X à l ’extérieur du au plus i valeurs du signal X à l ’extérieur du

cylindrecylindre

cylindre de génératricef, de section l et delongueur h

f

1

23 3.2

3.2-

Mod

élis

atio

n -

SS

P

Page 45: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

45

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.2.2- Cas d’une mémoire à un 3.2.2- Cas d’une mémoire à un événémentévénément

Résultats théoriquesRésultats théoriques– théorème d ’existencethéorème d ’existence

pour une probabilité fixée, on montre que sous certaines pour une probabilité fixée, on montre que sous certaines conditions, il existe des triplets (h,i,l) admissibles.conditions, il existe des triplets (h,i,l) admissibles.

– équivalent du théorème de Shannon sur équivalent du théorème de Shannon sur l ’échantillonnagel ’échantillonnage

pour un signal fixé et une probabilité donnée, il existe un pour un signal fixé et une probabilité donnée, il existe un nombre h de points minimum, en dessous duquel aucun nombre h de points minimum, en dessous duquel aucun triplet (h,i,l) n ’est admissibletriplet (h,i,l) n ’est admissible

Extension à une mémoire composée Extension à une mémoire composée d ’événements non détectables d ’événements non détectables simultanémentsimultanément

1

23 3.2

3.2-

Mod

élis

atio

n -

SS

P

Page 46: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

46

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

23.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont

des fonctions paramétriques des fonctions paramétriques 1

23 3.2

3.2-

Mod

élis

atio

n -

SS

P Théorie: nous conjecturons des résultats Théorie: nous conjecturons des résultats similaires aux précédentssimilaires aux précédents

Sélection = résolution numérique d ’un Sélection = résolution numérique d ’un problème inverse pour un système de h problème inverse pour un système de h inéquationsinéquations– analyse par intervallesanalyse par intervalles– algorithme SIVIA (Walter et Jaulin)algorithme SIVIA (Walter et Jaulin)

adapté à notre problématique: détection ssi au adapté à notre problématique: détection ssi au moins h-i inéquations satisfaitesmoins h-i inéquations satisfaites

garantit d ’encadrer l ’ensemble des solutionsgarantit d ’encadrer l ’ensemble des solutions

Page 47: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

47

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Exemple: une génératrice = une droite Exemple: une génératrice = une droite de paramètres a et b de paramètres a et b

3.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont des fonctions paramétriques des fonctions paramétriques

1

23 3.2

3.2-

Mod

élis

atio

n -

SS

P

a

b

Une solution pour un signal sinusoïdalà un instant t

Page 48: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

48

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Évolution de la sélection pour un signal Évolution de la sélection pour un signal carré et signal de densité gaussienne carré et signal de densité gaussienne bi-modalebi-modaleRéponse à un

signal carréRéponse à un signal stationnairede densité gaussienne bi-modale

1

23 3.2

3.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont des fonctions paramétriques des fonctions paramétriques

3.2-

Mod

élis

atio

n -

SS

P

2 états 1 état

Page 49: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

49

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Formalisation du respect des contraintesFormalisation du respect des contraintes Étude de la dynamique du système apprenantÉtude de la dynamique du système apprenant

– interaction entre le système apprenant et son interaction entre le système apprenant et son environnementenvironnement

Déduction des propriétés émergentes Déduction des propriétés émergentes potentiellespotentielles– apprentissageapprentissage

Une méthodologieUn modèle paramétrique à deux niveaux de l ’apprentissage d ’actions réflexes

apprentissage d ’objectif (AO)apprentissage perceptif (AP)

Des contraintes associées à ce modèle

Algorithmes de résolution des problèmes à contraintesApplications de l ’algorithme d ’AO

problème jouetrobot mobile simulé

étude a posteriori du comportement du système apprenant

ConclusionConclusion

Élaboration d ’unebase de travail

Validation

théorique

expérimentale

Page 50: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

50

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

ConclusionConclusion

Idées fortesIdées fortes

– remplacer la mesure par la détection remplacer la mesure par la détection d ’événementsd ’événements

pour SSO: détection d ’une nouvelle transitionpour SSO: détection d ’une nouvelle transition pour SSP: pour la catégorisationpour SSP: pour la catégorisation

– remplacer la précision par la fiabilitéremplacer la précision par la fiabilité grâce à l ’utilisation de contraintes dont on exprime grâce à l ’utilisation de contraintes dont on exprime

les effets par le calculles effets par le calcul

Page 51: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

51

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Perspectives: première étapePerspectives: première étape

Système perceptif, signal mono-Système perceptif, signal mono-dimensionneldimensionnel– équilibre de SSP: savoir détecter si les équilibre de SSP: savoir détecter si les

contraintes sont respectées ou noncontraintes sont respectées ou non point de vue théorique (conjectures à démontrer)point de vue théorique (conjectures à démontrer) point de vue algorithmiquepoint de vue algorithmique

– dynamique de SSP: établir le mécanisme dynamique de SSP: établir le mécanisme d ’apprentissage perceptifd ’apprentissage perceptif

modification des génératrices de E pour « coller » à modification des génératrices de E pour « coller » à l ’expérience réelle (emploi de réseaux de neurones l ’expérience réelle (emploi de réseaux de neurones pour créer des génératrices « adéquates »)pour créer des génératrices « adéquates »)

attention !!! Cela doit se faire à entropie bornéeattention !!! Cela doit se faire à entropie bornée

Page 52: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

52

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Perspectives: deuxième étapePerspectives: deuxième étape

Système perceptif, signal multi-Système perceptif, signal multi-dimensionneldimensionnel

– généralisation à partir de l ’étude d ’un SSPgénéralisation à partir de l ’étude d ’un SSP utilisation d ’un unique capteur déplaçable dans utilisation d ’un unique capteur déplaçable dans

l ’espacel ’espace

contrôler les mouvements de ce capteur pour contrôler les mouvements de ce capteur pour intervenir sur la récupération de données de celui-ciintervenir sur la récupération de données de celui-ci

problème: critère de sélection des actions pour problème: critère de sélection des actions pour constituer le mouvementconstituer le mouvement

exemple d ’inspiration: saccades occulairesexemple d ’inspiration: saccades occulaires

Page 53: Laboratoire Systèmes Complexes CEMIF Université d Évry Val d Essonne Étude de l émergence de facultés d apprentissage fiables et prédictibles d actions

53

Fré

déri

c D

aves

ne -

Sou

tena

nce

de th

èse

19 A

vril

200

2

Fin de l ’exposé !