Upload
berdine-lagarde
View
104
Download
0
Embed Size (px)
Citation preview
Laboratoire Systèmes Complexes
CE
MIF
Université d ’Évry Val d ’Essonne
Étude de l ’émergenceÉtude de l ’émergencede facultés d ’apprentissagede facultés d ’apprentissage
fiables et prédictiblesfiables et prédictiblesd ’actions réflexes,d ’actions réflexes,
à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des contraintes internessoumis à des contraintes internes
Frédéric Davesne
sous la direction de Claude Barret
Étude de l ’émergenceÉtude de l ’émergencede de facultés d ’apprentissagefacultés d ’apprentissage
fiables et prédictiblesfiables et prédictiblesd ’actions réflexesd ’actions réflexes,,
à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des contraintes internessoumis à des contraintes internes
Étude de Étude de l ’émergencel ’émergencede facultés d ’apprentissagede facultés d ’apprentissage
fiables et prédictiblesfiables et prédictiblesd ’actions réflexes,d ’actions réflexes,
à partir de modèles paramétriquesà partir de modèles paramétriquessoumis à des soumis à des contraintescontraintes internes internes
2
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2 Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie
effecteurs
Système artificiel (robot miniature Khepera)
Environnement
capteurs
traitementinformatique
Intr
oduc
tion
On part d ’un exemple de système On part d ’un exemple de système artificielartificiel
Schéma bloc usueld ’un modèle
d ’actions réflexes
3
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Intr
oduc
tion
Fiabilité
Propension à ne pas tomber en panne
Mesurée en nombre de pannes par unité de temps
Prédictibilité
Propension à pouvoir déduire de l ’observationd ’un événement les causes de sa survenue
Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie
DéfinitionsDéfinitions
4
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2Mise en situation: problème Mise en situation: problème d ’ingénieried ’ingénierie
Traitement informatiqueTraitement informatique
Intr
oduc
tion traitement
informatiqueLe problème
est modélisable
Le problèmen ’est pas
modélisable
Environnement contraint,modèle connu des capteurs
et des effecteurs
Programmationd ’une relation fonctionnelle,
déduite du calcul,entre capteurs et effecteurs
prédictibilité,fiabilité
Environnement inconnu,modèles inconnus des capteurs
ou des effecteurs
Programmationd ’heuristiques,
techniques d ’apprentissage
prédictibilité,fiabilité? ?
5
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2Fondation de la thèse: cœur du Fondation de la thèse: cœur du débatdébat
Intr
oduc
tion
système ouvert,apprentissage/adaptation
pas de modèle a priori,incertitude
fiabilité,prédictibilité
Y-a-t-il un lien formel possible ?Y-a-t-il un lien formel possible ?Notre thèse:Oui, théoriquement:c ’est une caractéristiquemajeure du vivant Non, en pratique:
pour des techniques d ’apprentissage usuelles
fossé entrele vivant et l ’imitation du vivant
?
6
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Objectif à long terme de la rechercheObjectif à long terme de la rechercheIn
trod
ucti
on
Spécifier un outil permettant de répondre à un problème d ’ingénierie
Prédictibilité de l ’apprentissageFiabilité du résultat d ’apprentissage
En suivant une démarche intellectuelle classique en sciences physiques et pas une démarched ’ingénierie
Technique d ’apprentissage telle que:
7
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
1- Constats expérimentaux
3- Modélisation Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux
2- Postulats de travail
Étude et application de techniques d ’Apprentissage par Renforcement
Étude bibliographique exploratoiredans le domaine du vivant
Retour critique sur les postulats de travail
démarche
Travail de thèseTravail de thèseIn
trod
ucti
on
P
P
P
8
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
1.1- Problème du pendule inversé1.1- Problème du pendule inversé1
23
1- C
onst
ats
exp
érim
enta
ux
9
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
1.2- Apprentissage par renforcement1.2- Apprentissage par renforcement
Utilisation d ’une technique d ’apprentissage par renforcement:Q(lambda) [Peng1995], dérivée du Q-Learning [Watkins1989]
1- C
onst
ats
exp
érim
enta
ux
Choix de a(t) au centre du dilemme exploration/exploitation Réglage empirique pour ce dilemme
1
23
10
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Résultat classique d ’apprentissageRésultat classique d ’apprentissage
Résultat d ’apprentissage avec un critère d ’arrêt peu exigent
Résultat comparableà celui obtenu dans[Barto et al 1983]
MAIS ...
1- C
onst
ats
exp
érim
enta
ux
1
23
11
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2Avec des critères de réussite plus Avec des critères de réussite plus sévèressévères
Si on prolonge la durée d ’apprentissage ...
Le résultat d ’apprentissagen ’est pas fiable, mais il semble modélisable ...
MAIS ...
Fonction de répartition
1- C
onst
ats
exp
érim
enta
ux
1
23
Premier exemplePremier exemple
12
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2Avec des critères de réussite plus Avec des critères de réussite plus sévèressévères
On n ’aboutit pas à un modèle de
répartition stationnaire des durées de viabilité
Pas de prédictibilité !!!
réglage du paramètrede température
mécanisme d ’associationdonnées d ’entrée/état
Causes probables:
Causes contextuelles
1- C
onst
ats
exp
érim
enta
ux
1
23
Deuxième exempleDeuxième exemple
13
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Travail de thèseTravail de thèse
1- Constats expérimentaux
3- Modélisation Choix d ’un modèle Étude mathématique Algorithmes Résultats expérimentaux
2- Postulats de travail
Étude et application de techniques d ’Apprentissage par Renforcement
Étude bibliographique exploratoiredans le domaine du vivant
Retour critique sur les postulats de travail
1
23
14
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Rappel de la problématiqueRappel de la problématique2-
Pos
tula
ts d
e tr
avai
l
fiabilité,prédictibilité
système ouvert,apprentissage/adaptation
pas de modèle a priori,incertitude
2.1- Démarche
2.3- Types d ’apprentissage
2.2- Nature del ’apprentissage
1
23
?
2.4- Nature de la perception
15
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Mise en cause du contexte Mise en cause du contexte d ’apprentissaged ’apprentissage
traitementinformatique
2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée
Systèmeapprenant
Environnement
Contexted ’apprentissage
Lien univoqueEffecteurs=f(capteurs)
capteurseffecteurs
Traitement informatique
Paramètres ou heuristiquesqui guident l ’apprentissage,pré-traitement des données
effecteurs capteursapprentissage
2- P
ostu
lats
de
trav
ail
1
23
16
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Ce que nous souhaitonsCe que nous souhaitons
2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée
Contexted ’apprentissage
EnvironnementSystèmeouvert
Lien univoqueinteraction
capteurseffecteurs
L ’apprentissage doit pouvoir être déduit exclusivement de l ’étude de l ’interaction système/environnement
1
23
2- P
ostu
lats
de
trav
ail
17
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
La démarche que nous adoptonsLa démarche que nous adoptons
2.1- Nature de la démarche utilisée2.1- Nature de la démarche utilisée2-
Pos
tula
ts d
e tr
avai
l1
23
Spécificationde l ’interaction
Système abstraitAction de l ’environnementRéaction du système
Étude mathématique Évolutions possibles du système
InterprétationRecherche de propriétésémergentes du système
Expérimentations Algorithmes
1er PostulatCette démarche permet d ’obtenir
les caractéristiques de fiabilitéet de prédictibilité
18
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Caractéristiques du systèmeCaractéristiques du système
– soumis à des contraintes internessoumis à des contraintes internes
– structure déformablestructure déformable
2.2- Nature de l ’apprentissage2.2- Nature de l ’apprentissage2-
Pos
tula
ts d
e tr
avai
l1
23
19
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Dynamique du systèmeDynamique du système
2.2- Nature de l ’apprentissage2.2- Nature de l ’apprentissage
temps
Système enéquilibre
Système enéquilibre
Action de l ’environnement
Réactiondu système
Retour àl ’équilibre
La réaction du système doit le conduire à respecterses contraintes internes, quel que soit l ’environnement
Environnement
Systèmeouvert
1
23
2- P
ostu
lats
de
trav
ail
interaction
2ème PostulatL ’apprentissage est une propriété
émergente d ’un système
soumis à des contraintes internesvérifiées à chaque instant
20
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
2.3- Types d ’apprentissage2.3- Types d ’apprentissage
temps
ApprentissagePerceptif
Apprentissaged ’Objectif
3ème Postulat
• non supervisé
• phase d ’exploration
• semi-supervisé
• phase d ’exploitation
• prédiction• catégorisation a posteriori par détection
• construction procédurale
2- P
ostu
lats
de
trav
ail
1
23
21
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Modèle à deux sous-systèmesModèle à deux sous-systèmes
2.3- Types d ’apprentissage2.3- Types d ’apprentissage
Sous-Systèmed ’apprentissage
d ’Objectif(SSO)
étataction
Signal derenforcement
environnement
Sous-Systèmed ’apprentissage
Perceptif (SSP)
Signaux(hormis renforcement)
état
1
23
2- P
ostu
lats
de
trav
ail
22
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
2.3- Types d’apprentissage2.3- Types d’apprentissage
Pourquoi deux sous-systèmes ?Pourquoi deux sous-systèmes ?– Associer à chaque problématique un sous-systèmeAssocier à chaque problématique un sous-système
SSO: apprentissage semi-supervisé (par renforcement)SSO: apprentissage semi-supervisé (par renforcement) SSP: traitement du signalSSP: traitement du signal
– Montrer la faisabilité de notre approche sur un cas Montrer la faisabilité de notre approche sur un cas solvable dans la durée d ’une thèse (SSO)solvable dans la durée d ’une thèse (SSO)
Attention !!! Attention !!! – Cela ne signifie pas que l ’action ne peut pas être Cela ne signifie pas que l ’action ne peut pas être
utilisée dans la perceptionutilisée dans la perception– Nous considérons le lien causal entre la formation de Nous considérons le lien causal entre la formation de
la perception et les capacités à effectuer des tâchesla perception et les capacités à effectuer des tâches
2- P
ostu
lats
de
trav
ail
1
23
23
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
2.4- Nature de la perception2.4- Nature de la perception
À chaque instant, la perception est le résultat À chaque instant, la perception est le résultat d ’un processus d ’anticipation [Berthoz]d ’un processus d ’anticipation [Berthoz]
L ’anticipation est une propriété émergente L ’anticipation est une propriété émergente d ’un système soumis à des contraintes d ’un système soumis à des contraintes internesinternes– ce système est le résultat de l ’Apprentissage ce système est le résultat de l ’Apprentissage
PerceptifPerceptif
Ce qui est anticipé est la détection d ’un ou Ce qui est anticipé est la détection d ’un ou de plusieurs de plusieurs événements raresévénements rares
1
23
2- P
ostu
lats
de
trav
ail
4ème Postulat
24
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
2.4- Nature de la perception2.4- Nature de la perception
Signauxcapteurs
Mémoire ?(anticipation)
Processus desélection
(détecteur)
État ?(perception)
SSP
h pas de temps
Modèle de SSPModèle de SSP
1
23
2- P
ostu
lats
de
trav
ail
25
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Définitiona priori
d’unévénement
Rôle de la mémoireRôle de la mémoire– Permet la détection d ’une structure Permet la détection d ’une structure
ordonnéeordonnée– ensemble d ’événementsensemble d ’événements dont la dont la probabilité probabilité
d ’apparitiond ’apparition est très faible est très faible– entropieentropie associée très faible associée très faible
– non détection d ’une structure non ordonnéenon détection d ’une structure non ordonnée
Ordonnéou
pas ordonné ?
Ordonnéou
pas ordonné ?
2.4- Nature de la perception2.4- Nature de la perception
Contraintes de SSPs’appliquent sur
la mémoire
2- P
ostu
lats
de
trav
ail
1
23
La mémoire est définie a priori par un ensemble d’événements détectables tel que la probabilité d’apparition d’au moins un
événement est très faible
26
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Travail de thèseTravail de thèse
1- Constats expérimentaux
3- Modélisation
2- Postulats de travail
Étude et application de techniques d ’Apprentissage par Renforcement
Étude bibliographique exploratoiredans le domaine du vivant
Retour critique sur les postulats de travail
1
23
27
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3- Modélisation3- Modélisation
SSO
étataction
Signal derenforcement
environnement
SSPSignaux
(hormis renforcement)état
1
23
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
28
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.1.1- Application de notre démarche à 3.1.1- Application de notre démarche à SSOSSO
3.1-
Mod
élis
atio
n -
SS
O Spécification préliminairesSpécification préliminaires– systèmesystème– contraintes internescontraintes internes– mécanisme d ’action et de réactionmécanisme d ’action et de réaction
Résultats théoriquesRésultats théoriques
AlgorithmesAlgorithmes
ExpérimentationsExpérimentations
1
23 3.1
29
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.1.2- Spécification du sous-système 3.1.2- Spécification du sous-système SS2SS2
Exemple: 4 états et 2 actions a et bExemple: 4 états et 2 actions a et b
État ei possédant un marquage Mi
État transitoire ei,k = état+choix d ’une action, marquage Mi,k (Q-value)
État terminal de marquage +1État terminal de marquage -1
e1e2
e3e4
e1,a e1,b e2,be2,a
e3,a e3,be4,a e4,b
État actif
Renforcement
(1,-1,0)
action
(a,b)
(e1,e2,e3,e4)
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
30
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.3- Action - contraintes - réaction3.1.3- Action - contraintes - réaction
Action de l ’environnement sur SSOAction de l ’environnement sur SSO– création de transitions entre les ecréation de transitions entre les ei,ki,k et les e et les eii
Contraintes appliquées à SSOContraintes appliquées à SSO– relient les valeurs des marquages Mrelient les valeurs des marquages Mii des états e des états eii et et
des marquages Mdes marquages Mi,ki,k des états transitoires e des états transitoires ei,ki,k
Réaction de SSORéaction de SSO– modification des marquages Mmodification des marquages Mii et M et Mi,ki,k (phase de (phase de
propagation)propagation)
1
23 3.1
3.1-
Mod
élis
atio
n -
SS
O
31
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
0
e4
a
3.1.4- Dynamique de SSO3.1.4- Dynamique de SSO
e1e2
e3e4
e1,a e1,b e2,be2,a
e3,a e3,be4,a e4,b
État actif
Renforcement
action
Exemple d ’évolution de SSOExemple d ’évolution de SSO
eS
1
e4
0
b
eE
-1
e1
0
b
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
32
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.5- Résultats théoriques3.1.5- Résultats théoriques
– Dans tous les cas, la phase de propagation se Dans tous les cas, la phase de propagation se termine et conduit à un respect des contraintestermine et conduit à un respect des contraintes
– Sous certaines conditions, la valeur des marquages MSous certaines conditions, la valeur des marquages M ii est interprétable en termes de fiabilité du systèmeest interprétable en termes de fiabilité du système
– Au bout d ’un temps fini, la valeur des marquages Au bout d ’un temps fini, la valeur des marquages reste inchangée si l ’environnement ne varie pasreste inchangée si l ’environnement ne varie pas
– Si on choisit une politique de choix d ’action « Winner Si on choisit une politique de choix d ’action « Winner Take All », l ’évolution du comportement du système Take All », l ’évolution du comportement du système SSO peut être interprétée comme un apprentissageSSO peut être interprétée comme un apprentissage
1
23 3.1
3.1-
Mod
élis
atio
n -
SS
O
33
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.6- Algorithme CbL3.1.6- Algorithme CbL
Réception de l’état initial ei
du sous-système SSO
Choix d’une action ak et exécution jusqu’àdétection d’un changement d’état ej
La transition ei,k/ej existe-t-elle ?oui
non
Création de la transitionPhase de propagationFin
Si ej terminal
Fin
Si ej terminal
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
34
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux
Problème jouet du labyrintheProblème jouet du labyrinthe
Un état = une case
4 actions: haut, bas, gauche, droite
renforcement1 = atteinte objectif-1 = cogne mur0 sinon
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
35
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux
Premier essai d ’apprentissagePremier essai d ’apprentissage
• Politique de commande après apprentissage
Optimalité ???
Dans ce cas, oui !
1
23 3.1
3.1-
Mod
élis
atio
n -
SS
O
36
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux
Premier essai d ’apprentissage (suite)Premier essai d ’apprentissage (suite)
Optimalité ???
Dans ce cas, non Mais il ne s ’agit pas
de notre objectif !3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
37
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux
Comportement de l ’algorithme CbLComportement de l ’algorithme CbL
Phase de propagation Performance du système
exploration exploitation
Découvertede la cible
Découvertede la cible
exploration exploitation
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
38
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.7- Résultats expérimentaux3.1.7- Résultats expérimentaux
On part de cet environnement ...
Incrémentalité de CbLIncrémentalité de CbL
Après ajout d ’une cible ...Après ajouts successifsde trois autres cibles et d ’un obstacle ...
Découverte des cibleset obstacles
1
23 3.1
3.1-
Mod
élis
atio
n -
SS
O
39
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.1.8- Comparaison avec les techniques 3.1.8- Comparaison avec les techniques d’ARd’AR
– modification des modification des Q-valuesQ-values uniquement lorsque une uniquement lorsque une nouvelle transition est découvertenouvelle transition est découverte
– séparation nette entre séparation nette entre phase d ’exploration et phase phase d ’exploration et phase d ’exploitationd ’exploitation (au moment de la découverte d ’une cible) (au moment de la découverte d ’une cible)
– l ’optimalitél ’optimalité est garantie si la phase d ’exploration est est garantie si la phase d ’exploration est exhaustive avant la découverte d ’une cibleexhaustive avant la découverte d ’une cible
– temps de convergencetemps de convergence très inférieur pour CbL très inférieur pour CbL
– la notion de la notion de tracetrace est induite par la propagation qui suit est induite par la propagation qui suit un rétablissement des contraintes internesun rétablissement des contraintes internes
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
40
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.1.9- Conclusion3.1.9- Conclusion
faisabilité de notre démarche faisabilité de notre démarche intellectuelleintellectuelle
obtention d ’un algorithme CbL de obtention d ’un algorithme CbL de bonne qualitébonne qualité
très simple à mettre en œuvre, pas de très simple à mettre en œuvre, pas de paramètres à réglerparamètres à régler
3.1-
Mod
élis
atio
n -
SS
O1
23 3.1
41
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3- Modélisation3- Modélisation
SSO
étataction
Signal derenforcement
environnement
SSPSignaux
(hormis renforcement)état
1
23
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
42
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
3.2- Rappel du modèle de SSP3.2- Rappel du modèle de SSP
Signauxcapteurs
Mémoire ?(anticipation)
Processus desélection
(détecteur)
État ?(perception)
SSP
h pas de temps
En suivant le 4En suivant le 4èmeème postulat postulat
3.1-
Mod
élis
atio
n -
SS
O1
23 3.2
43
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.2.1- Application de notre démarche à 3.2.1- Application de notre démarche à SSPSSP
3.1-
Mod
élis
atio
n -
SS
O Cas d ’un SSP avec une mémoire à un Cas d ’un SSP avec une mémoire à un événementévénement– constitution de la mémoire, condition de constitution de la mémoire, condition de
détection de l ’événementdétection de l ’événement– résultats théoriquesrésultats théoriques
Cas d ’un SSP avec une mémoire contenant Cas d ’un SSP avec une mémoire contenant un ensemble paramétrisable d ’élémentsun ensemble paramétrisable d ’éléments– exemple de mémoireexemple de mémoire– résolution du problème de détectionrésolution du problème de détection
1
23 3.2
44
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.2.2- Cas d’une mémoire à un 3.2.2- Cas d’une mémoire à un événémentévénément
Constitution de la mémoireConstitution de la mémoire– les paramètresles paramètres
fonction f continue par morceaux, à valeurs dans fonction f continue par morceaux, à valeurs dans [0,1][0,1]
trois paramètres l, h et itrois paramètres l, h et i
– événement à détecterévénement à détecter au plus i valeurs du signal X à l ’extérieur du au plus i valeurs du signal X à l ’extérieur du
cylindrecylindre
cylindre de génératricef, de section l et delongueur h
f
1
23 3.2
3.2-
Mod
élis
atio
n -
SS
P
45
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.2.2- Cas d’une mémoire à un 3.2.2- Cas d’une mémoire à un événémentévénément
Résultats théoriquesRésultats théoriques– théorème d ’existencethéorème d ’existence
pour une probabilité fixée, on montre que sous certaines pour une probabilité fixée, on montre que sous certaines conditions, il existe des triplets (h,i,l) admissibles.conditions, il existe des triplets (h,i,l) admissibles.
– équivalent du théorème de Shannon sur équivalent du théorème de Shannon sur l ’échantillonnagel ’échantillonnage
pour un signal fixé et une probabilité donnée, il existe un pour un signal fixé et une probabilité donnée, il existe un nombre h de points minimum, en dessous duquel aucun nombre h de points minimum, en dessous duquel aucun triplet (h,i,l) n ’est admissibletriplet (h,i,l) n ’est admissible
Extension à une mémoire composée Extension à une mémoire composée d ’événements non détectables d ’événements non détectables simultanémentsimultanément
1
23 3.2
3.2-
Mod
élis
atio
n -
SS
P
46
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
23.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont
des fonctions paramétriques des fonctions paramétriques 1
23 3.2
3.2-
Mod
élis
atio
n -
SS
P Théorie: nous conjecturons des résultats Théorie: nous conjecturons des résultats similaires aux précédentssimilaires aux précédents
Sélection = résolution numérique d ’un Sélection = résolution numérique d ’un problème inverse pour un système de h problème inverse pour un système de h inéquationsinéquations– analyse par intervallesanalyse par intervalles– algorithme SIVIA (Walter et Jaulin)algorithme SIVIA (Walter et Jaulin)
adapté à notre problématique: détection ssi au adapté à notre problématique: détection ssi au moins h-i inéquations satisfaitesmoins h-i inéquations satisfaites
garantit d ’encadrer l ’ensemble des solutionsgarantit d ’encadrer l ’ensemble des solutions
47
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Exemple: une génératrice = une droite Exemple: une génératrice = une droite de paramètres a et b de paramètres a et b
3.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont des fonctions paramétriques des fonctions paramétriques
1
23 3.2
3.2-
Mod
élis
atio
n -
SS
P
a
b
Une solution pour un signal sinusoïdalà un instant t
48
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Évolution de la sélection pour un signal Évolution de la sélection pour un signal carré et signal de densité gaussienne carré et signal de densité gaussienne bi-modalebi-modaleRéponse à un
signal carréRéponse à un signal stationnairede densité gaussienne bi-modale
1
23 3.2
3.2.3- Cas où les génératrices sont 3.2.3- Cas où les génératrices sont des fonctions paramétriques des fonctions paramétriques
3.2-
Mod
élis
atio
n -
SS
P
2 états 1 état
49
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Formalisation du respect des contraintesFormalisation du respect des contraintes Étude de la dynamique du système apprenantÉtude de la dynamique du système apprenant
– interaction entre le système apprenant et son interaction entre le système apprenant et son environnementenvironnement
Déduction des propriétés émergentes Déduction des propriétés émergentes potentiellespotentielles– apprentissageapprentissage
Une méthodologieUn modèle paramétrique à deux niveaux de l ’apprentissage d ’actions réflexes
apprentissage d ’objectif (AO)apprentissage perceptif (AP)
Des contraintes associées à ce modèle
Algorithmes de résolution des problèmes à contraintesApplications de l ’algorithme d ’AO
problème jouetrobot mobile simulé
étude a posteriori du comportement du système apprenant
ConclusionConclusion
Élaboration d ’unebase de travail
Validation
théorique
expérimentale
50
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
ConclusionConclusion
Idées fortesIdées fortes
– remplacer la mesure par la détection remplacer la mesure par la détection d ’événementsd ’événements
pour SSO: détection d ’une nouvelle transitionpour SSO: détection d ’une nouvelle transition pour SSP: pour la catégorisationpour SSP: pour la catégorisation
– remplacer la précision par la fiabilitéremplacer la précision par la fiabilité grâce à l ’utilisation de contraintes dont on exprime grâce à l ’utilisation de contraintes dont on exprime
les effets par le calculles effets par le calcul
51
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Perspectives: première étapePerspectives: première étape
Système perceptif, signal mono-Système perceptif, signal mono-dimensionneldimensionnel– équilibre de SSP: savoir détecter si les équilibre de SSP: savoir détecter si les
contraintes sont respectées ou noncontraintes sont respectées ou non point de vue théorique (conjectures à démontrer)point de vue théorique (conjectures à démontrer) point de vue algorithmiquepoint de vue algorithmique
– dynamique de SSP: établir le mécanisme dynamique de SSP: établir le mécanisme d ’apprentissage perceptifd ’apprentissage perceptif
modification des génératrices de E pour « coller » à modification des génératrices de E pour « coller » à l ’expérience réelle (emploi de réseaux de neurones l ’expérience réelle (emploi de réseaux de neurones pour créer des génératrices « adéquates »)pour créer des génératrices « adéquates »)
attention !!! Cela doit se faire à entropie bornéeattention !!! Cela doit se faire à entropie bornée
52
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Perspectives: deuxième étapePerspectives: deuxième étape
Système perceptif, signal multi-Système perceptif, signal multi-dimensionneldimensionnel
– généralisation à partir de l ’étude d ’un SSPgénéralisation à partir de l ’étude d ’un SSP utilisation d ’un unique capteur déplaçable dans utilisation d ’un unique capteur déplaçable dans
l ’espacel ’espace
contrôler les mouvements de ce capteur pour contrôler les mouvements de ce capteur pour intervenir sur la récupération de données de celui-ciintervenir sur la récupération de données de celui-ci
problème: critère de sélection des actions pour problème: critère de sélection des actions pour constituer le mouvementconstituer le mouvement
exemple d ’inspiration: saccades occulairesexemple d ’inspiration: saccades occulaires
53
Fré
déri
c D
aves
ne -
Sou
tena
nce
de th
èse
19 A
vril
200
2
Fin de l ’exposé !