72
APPROCHES TOPOLOGIQUES POUR L’ANALYSE EXPLORATOIRE DE DONNÉES ET L’AIDE À LA DÉCISION SOUTENANCE D’HABILITATION A DIRIGER DES RECHERCHES 11 juillet 2012 Michaël Aupetit Expert senior CEA CEA LIST Laboratoire Information, Modèles et Apprentissage CEA | 10 AVRIL 2012

Soutenance hdr aupetit_2012

Embed Size (px)

DESCRIPTION

Soutenance de mon HDR le 11 juillet 2012 devant le jury composé de Michèle SEBAG, Jean-Daniel FEKETE, Gérard GOVAERT, Younès BENNANI, Michel VERLEYSEN.

Citation preview

Page 1: Soutenance hdr aupetit_2012

APPROCHES TOPOLOGIQUES POUR

L’ANALYSE EXPLORATOIRE DE DONNÉES

ET L’AIDE À LA DÉCISION

SOUTENANCE D’HABILITATION A DIRIGER DES RECHERCHES

11 juillet 2012

Michaël Aupetit

Expert senior CEA

CEA LIST

Laboratoire Information, Modèles et Apprentissage

CEA | 10 AVRIL 2012

Page 2: Soutenance hdr aupetit_2012

CONTEXTEDES DONNEES A LA DECISIONAPPROCHE TOPOLOGIQUEDEUX AXES DE RECHERCHESVISUALISATION TOPOLOGIQUE IN SITUMODELISATION TOPOLOGIQUE IN SITUPERSPECTIVESCONCLUSION

| PAGE 2

CEA | 10 AVRIL 2012

Page 3: Soutenance hdr aupetit_2012

CONTEXTE

| PAGE 3

CEA | 10 AVRIL 2012

Page 4: Soutenance hdr aupetit_2012

CONTEXTE

| PAGE 4CEA | 11 JUILLET 2012

Une information sans contexte n’a pas de sens

Page 5: Soutenance hdr aupetit_2012

CONTEXTE

| PAGE 5CEA | 11 JUILLET 2012

-300

000

-100

00

-600

0

-500

-150

-50

-30

-20

-10

-5

(Néant)

Années

Notre parcours

Mon parcours

Page 6: Soutenance hdr aupetit_2012

CONTEXTE

| PAGE 6CEA | 11 JUILLET 2012

-300

000

-100

00

-600

0

-500

-150

-50

-30

-20

-10

-5

Années

…à un monde fortement instrumentéet automatisé.

Une explosion technologique

D’un monde sans machines…

Page 7: Soutenance hdr aupetit_2012

…mais aussi des calamités

CONTEXTE

| PAGE 7CEA | 11 JUILLET 2012

-300

000

-100

00

-600

0

-500

-150

-50

-30

-20

-10

-5

Temps en années

Un monde toujours incertain

D’une nature qui dicte ses lois… …à une technologie qui génère des solutions…

Page 8: Soutenance hdr aupetit_2012

CONTEXTE

| PAGE 8CEA | 11 JUILLET 2012

-300

000

-100

00

-600

0

-500

-150

-50

-30

-20

-10

-5

Du graphique pour communiquer…

Temps en années

Face aux incertitudes, un besoin inné de comprendre et de contrôler

… au graphique pour comprendre et agir

Page 9: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

| PAGE 9

CEA | 10 AVRIL 2012

Page 10: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

Des données au modèle

Agir c’est modifier le monde

Pour bien agir, il faut prédire les conséquences de nos actes

Pour prédire il faut un modèle simulable du système réel sur lequel on agit

Pour calibrer ce modèle, il faut des données observées sur le système réel

Pour acquérir ces données, on instrumente le système réel

| PAGE 10CEA | 11 JUILLET 2012

Page 11: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

Les modèles statistiques

Les données sont des individus, mesures simultanées de plusieurs variables (pression, température, vitesse, débit, densité…)

Hypothèse Statistique - l’ensemble des individus forme un échantillon

supposé issu d’une population plus vaste mais inobservable suivant une certaine fonction densité de probabilité

Inférence Bayésienne [Jayne 2003]- Estimer les paramètres d’un modèle de la

population à partir de l’échantillon et d’une hypothèse a priori

| PAGE 11CEA | 11 JUILLET 2012

Page 12: Soutenance hdr aupetit_2012

Deux types de modèles [Tukey 1977]

Modèles descriptifs pour l’analyse exploratoire de donnée

Modèles prédictifs pour l’analyse confirmatoire et l’inférence

DES DONNÉES À LA DÉCISION

| PAGE 12CEA | 11 JUILLET 2012

Exploration et décision

Représentation

Monde objectif

Monde objectif

Monde subjectif

Modèle prédictif

Action

(taux de réussite 73.4992%)

Système réel

Monde subjectif

Chaîne de mesure

Modèle descriptif

Page 13: Soutenance hdr aupetit_2012

Le besoin d’interprétabilité

En pratique- système réel inconnu- décisions prises à partir du modèleNécessité de distinguer - la part de réalité reproduite par le modèle - la part d’artifice introduite par le modèle Le modèle doit être interprétable

DES DONNÉES À LA DÉCISION

| PAGE 13CEA | 11 JUILLET 2012

ModèleAdjacence des terres, mers, fleuves, montagnes…

Longues distances, formes…

Vitesse du vent, pression,plus court chemin…

Système réel

Page 14: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

Les conditions de l’interprétabilité

Interaction avec l’analyste- se forger une représentation mentale (subjective) dont le

modèle est l’implémentation objective- s’investir dans la conception du modèle [Gibson 1979]

pour corréler perceptions et actions : changer interactivement de points de vue

- « On ne connaît un objet qu’en agissant sur lui et en le transformant » [Piaget 1970]

Elément d’une famille de modèles interprétables- hiérarchie de modèles simples (empan mnésique 7), - transparent (montre les relations élémentaires)- prévisible (confiance)- complet (non muet)- contextualisé (fournit une référence)- sensé (reliant au sens fournit a priori)

| PAGE 14CEA | 11 JUILLET 2012

Explorationinteractive

Modèle interprétable

Page 15: Soutenance hdr aupetit_2012

L’interprétabilité pour l’aide à la décision

Conception interactive du modèle par analyse exploratoire

Exploitation du modèle prédictif implémentation objective du modèle mental subjectif

DES DONNÉES À LA DÉCISION

| PAGE 15CEA | 11 JUILLET 2012

Système réelExploration et décision

Modèle descriptif

Représentation

Modèle prédictifinterprétable

Action

Système réel(taux de réussite

100%)

Page 16: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

La visualisation comme canal de transmission vers l’analysteDeux modes de représentation graphique

Propriétés du canal visuel- Plus grande bande passante de tous nos sens- Perception pré-attentive diminue la charge cognitive [Triesman 1985]- Théorie psychologique de la Gestalt [1920]

- le tout est plus que la somme des parties- loi de continuité- loi de proximité- loi de similitude

| PAGE 16CEA | 11 JUILLET 2012

Pour compter le nombre dee dans un texte il fautle scanner totalement.

Pour compter le nombre dee dans un texte il fautle scanner totalement.

symbolique (conventionnel) analogique (perceptuel)

Page 17: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

Qu’est-ce qu’une bonne représentation graphique?

Objectif de la représentation graphique- corréler les variables abstraites (informations topologique, statistiques et

géométriques) aux variables graphiques (position, couleur, forme des glyphes…) en minimisant la charge cognitive (perception pré-attentive)

Critères- expressivité (ne montrer que le nécessaire)- efficacité (choix des bonnes variables graphiques)- vérité (toute valeur estimée est montrée avec son incertitude)

| PAGE 17CEA | 11 JUILLET 2012

Age

fem

me

Age mari

Age mari

Age femme

I1 20 19

I2 42 37

I3 35 38

… … …

Aha!

Age femme = k1* Age mari + k2

« The purpose of visualization is insight, not pictures » Ben Schneiderman, 2008

Page 18: Soutenance hdr aupetit_2012

DES DONNÉES À LA DÉCISION

Chaîne de visualisation : des capteurs aux neurones

V1 V2

I1 2 3.4

I2 1 -0.7

I3 0.33 4

… … …

ND

Réalité

Capteurs

Mesures (données brutes)

Nuage dans IR2

Espace de représentation- Choix individus et variables abstraites, - Codage géométrique - Choix des variables graphiques

Rendu , type d’écran

Perception visuelle

Cognition

Filtrage

Encodage graphique

Réglage écran

Choix capteursExpérience

Echan

tillon

nage

Incertit

udes, bru

it

Distorsions géométriques et topologiques

Acuité visuelleperception des couleurs…

Illusions cognitives, biais d’attention, croyance a priori…

Nb de pixels, rendu des couleurs…

Action possible

Distorsion possible

Concentration, apprentissage

Port de lunettes

Page 19: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

| PAGE 19

CEA | 10 AVRIL 2012

Page 20: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Notions de base

La Topologie étudie, caractérise (invariants) et classes les espaces

Deux espaces ont même topologie si et seulement s’ils sont homéomorphes, liés par une fonction H continue de réciproque H-1 continue

| PAGE 20CEA | 11 JUILLET 2012

x’ = H(x)

H H-1

Page 21: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Points clefs de l’approche topologique

Conditions pour obtenir un bon modèle prédictif (capacités de généralisation)- régularité, continuité du phénomène modélisé - des causes voisines engendrent des effets voisins

| PAGE 21CEA | 11 JUILLET 2012

Prédiction ?

présent

présent

Prédiction ?

Page 22: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Points clefs de l’approche topologique

Robustesse- Géométrie préservée par isométries (translations, rotations, symétries)- Probabilités préservées par similitudes (isométries + homothéties)- Topologie (connexités, dimension, torsion) préservée par homéomorphismes- Connexités préservées par homotopies

Fiabilité- Il est plus probable que la chaîne de mesure soit une homotopie- l’information topologique a plus de chance de survivre à la chaîne de mesure- l’information topologique est plus fiable que l’information probabiliste ou géométrique

| PAGE 22CEA | 11 JUILLET 2012

U

Isométries Similitudes Homéomorphismes Homotopies

U U

Objet initial

ConnexitéTopologie

ProbabilitésGéométrie

Page 23: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Gestalt visuelle et Topologie : le principe de fiabilité

Gestalt : loi de similitude « qui se ressemble s’assemble »

Principe de fiabilité - Les objets qui apparaissent immédiatement comme voisins à l’écran (pré-

attentif) doivent être le plus souvent effectivement voisins suivant l’information à transmettre, afin de diminuer la charge cognitive nécessaire pour reconstituer l’information qui n’est pas transmise suivant ce principe

| PAGE 23CEA | 11 JUILLET 2012

L’information topologique forme le contexte dans lequel s’interprètent les autres informations

Sans topologie Avec topologie

Page 24: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Applications de l’approche topologique

Contrôle d’un système critique

Projections non linéaires - diagnostic a priori- distances géodésiques

| PAGE 24CEA | 11 JUILLET 2012

Mauvaise généralisation d’un modèle prédictif ignorantl’information topologique

[Zeller 1996]

Page 25: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Applications de l’approche topologique

Discrimination semi-supervisée

Classification automatique

Autres applications- débruitage- reparamétrage- préservation de l’interprétabilité dans les systèmes d’inférence floue

| PAGE 25CEA | 11 JUILLET 2012

Etat épileptique

Etat normal

Espace des phases EEG [Kalitzin et al. 2010]

Prise en compte uniquement des données étiquetées

- 1

+1

Prise en compte de la connexité des données non étiquetées

Page 26: Soutenance hdr aupetit_2012

Topologie et cognition

La sélection Darwinienne d’un encodage neuronal topologique montre l’importance de l’information topologique dans les processus cognitifs

La grammaire et le langage [Petitot 1991] s’appuient sur les structures topologiques émergeant de notre système primitif de perception du temps et de l’espace.

APPROCHE TOPOLOGIQUE

| PAGE 26CEA | 11 JUILLET 2012

Carte de Kohonen de différentes trajectoires [Bernard 2009]

Reconstitution de l’organisation de la rétine à partir des images perçues [leRoux 2007]

Carte rétinotopique d’une souris [Hübener 2003]

Page 27: Soutenance hdr aupetit_2012

Topologie et représentation (Intelligence Artificielle)

Description topologique primitive

Description objective (« réalisme » vs « constructivisme »)

APPROCHE TOPOLOGIQUE

| PAGE 27CEA | 11 JUILLET 2012

Plan objectif Pd’un bâtiment Plan subjectif P1

du bâtimentPlan subjectif P2

du bâtiment

Malgré le système de mesure et l’expérience radicalement différents de chaque observateur, un invariant topologique persiste entre eux et le monde objectif :

la connexité du plan du bâtiment (encodée par un graphe reliant les pièces)

Descriptions géométriques et probabilistes s’appuient sur la description topologique

Page 28: Soutenance hdr aupetit_2012

APPROCHE TOPOLOGIQUE

Les clefs de l’approche topologique pour l’aide à la décision

Perception visuelle native (Gestalt, traitement pré-attentif rapide)

Description primaire essentielle (Mathématiques)

Robuste des capteurs aux neurones (information objective et partageable)

Essentielle à l’interprétabilité par le principe de fiabilité (carte contextuelle)

Solution de problèmes classiques en fouille de données et apprentissage automatique

Encodée dans le cortex visuel (rôle analytique et plausibilité biologique)

Solution de problèmes fondamentaux de l’Intelligence Artificielle

| PAGE 28CEA | 11 JUILLET 2012

Page 29: Soutenance hdr aupetit_2012

DEUX AXES DE RECHERCHE

| PAGE 29

CEA | 10 AVRIL 2012

Page 30: Soutenance hdr aupetit_2012

Comment transmettre l’information topologique à l’analyste ?

En 2 dimensions

DEUX AXES DE RECHERCHES

| PAGE 30CEA | 11 JUILLET 2012

Topologique Statistique GéométriqueStructures sous-jacentes Densités sous-jacentes Formes sous-jacentes

et position des points

Inférence sur la population (modèle prédictif)

Mesure sur l’échantillon (modèle descriptif)

Problème, en pratique plus de 2 variables à analyser

Page 31: Soutenance hdr aupetit_2012

DEUX AXES DE RECHERCHES

Comment transmettre l’information topologique à l’analyste ?

En dimension supérieure à 2

| PAGE 31CEA | 11 JUILLET 2012

Données multivariées

Modèle topologique

subjectif???

Représentation perceptuelleDistorsions dues à la projection

Visualisationd’Information

Visualisation topologique in situ

Représentation symboliqueConnexité préservée par la projection

Apprentissage Automatique

Modèle topologique objectif

Modélisation topologique in situ

Page 32: Soutenance hdr aupetit_2012

DEUX AXES DE RECHERCHES

Comment transmettre l’information topologique à l’analyste ?

| PAGE 32CEA | 11 JUILLET 2012

Représentation perceptuelle

Données multivariées

Visualisationd’Information

Modèle topologique

subjectif

Visualisation topologique in situ

Page 33: Soutenance hdr aupetit_2012

VISUALISATION TOPOLOGIQUE IN SITU

| PAGE 33

CEA | 10 AVRIL 2012

Page 34: Soutenance hdr aupetit_2012

Données

Tâches / mesure de similarité entre individus (MI) ou entre variables (MV)

Groupes I’ et I’’ d’individussimilaires (euclidien) / {V2,V4}

I’

I’’

Groupes {V1,V2} et {V3,V4} de variablessimilaires (corrélation) / individus I

V1 V2 …

I1 2 3.4 …

I2 1 -0.7 …

I3 0.33

4 …

… … … …

I

VT 1 D1

N

I1 I2 I3 …

I1 0 2 1.3 …

I2 2 0 -0.7 …

I3 1.3 -0.7 0 …

… … … … …

I

I

MI

N

11 NV2

V1

MV…

Grouper les individus Grouper les variables

VISUALISATION TOPOLOGIQUE IN SITU

Page 35: Soutenance hdr aupetit_2012

Distorsions de projection(réduction de dimension, contraintes

topologiques, optima locaux)

Distorsions de perception(pixels écran, rendu couleurs, acuité visuelle,

illusions perceptuelles, biais cognitifs…)

Ce qui est montré Ce qui est perçuMI

Inférence ???

Distorsions dans la chaîne de visualisation

VISUALISATION TOPOLOGIQUE IN SITU

Page 36: Soutenance hdr aupetit_2012

???

Déchirures Faux Voisinages

Espace d’origine Espace de projection

[T, MI , MV ] [ ]

Inférence possible car connaissances externes aux données

Distorsions de projection

VISUALISATION TOPOLOGIQUE IN SITU

Page 37: Soutenance hdr aupetit_2012

Espace de projection

???

Espace d’origine

n’est qu’une estimation de MI

seule ne permet pas de reconstruire MI

MI = + E

[E] MI

Diagramme de Shepard

[T, MI , MV ] [ ]

Non interprétable !!!

Distorsions de projection

VISUALISATION TOPOLOGIQUE IN SITU

Page 38: Soutenance hdr aupetit_2012

Trois règles d’inférence graphique à partir de la projection

Aucune distorsionLe groupe existe

dans l’espace d’origine Chevauchement vraiLes deux classesse chevauchent

dans l’espace d’origine

Séparation vraieLes deux groupes

sont séparéesdans l’espace d’origine

Echelle de couleur 2D perceptuellement uniforme

D

FV

Déchirure Faux Voisinage D&FVOrigine

Montrer et E sur la même représentation graphique : CheckViz

[ ][ ][ ][MI]

VISUALISATION TOPOLOGIQUE IN SITU

Page 39: Soutenance hdr aupetit_2012

D

FV

Classe bleue et classe verte séparées dans l’espace d’origine

Séparation vraie

[ , E ] [ , E ]

Classe rouge morceléedans l’espace d’origine

Aucune distorsion

CheckViz

VISUALISATION TOPOLOGIQUE IN SITU

Page 40: Soutenance hdr aupetit_2012

MS*

MS*MS*

MS*

Déchirure Déchirure

Déchirure Faux voisinage

[ , MI ]

Montrer et MI sur la même représentation graphique : ProxiViz

[ ]

Non interprétable !!!

[ , E ]

VISUALISATION TOPOLOGIQUE IN SITU

CheckViz

Page 41: Soutenance hdr aupetit_2012

Projection ACC données ISOLETD=617, N=1800

Proximité intra-classe

Proximité inter-classe

ProxiViz

Structureinférée fausse

Structureinférée

d’origine

VISUALISATION TOPOLOGIQUE IN SITU

Applications

Page 42: Soutenance hdr aupetit_2012

GTM GTM + ProxiViz

Les données Oil Flow (1000 individus, 3 classes, 12 variables) sont projetées (à droite) par une carte topographique générative (GTM). La classe verte semble formée de deux composantes (ellipses rouges). Est-ce vrai?

Question Réponse

2 groupes? 1 groupe

Applications

VISUALISATION TOPOLOGIQUE IN SITU

Page 43: Soutenance hdr aupetit_2012

Lorène Allano, Sylvain Lespinats, Jean-Philippe Poli

ClassiViz : Extension de ProxiViz à la classification

Projet ERITR@C

Applications

Page 44: Soutenance hdr aupetit_2012

T-ShirtVélos

Arbres Livres

MoteursPlantes

Carton

Câbles

Jouets

Bassines

ClassiViz Brevet en cours

de dépôt PCT

Projet ERITR@CAnalyser des conteneurs

sans les ouvrir

ClassiViz dans le projet ERITR@C

Carte des contenus de référence

[ , MI ][ ]

Très forte

Très faible

Similarité de la donnée à classer avec les

données de référence

T-ShirtVélos

Arbres Livres

MoteursPlantes

Carton

Câbles

Jouets

BassinesSignature chimique mesurée

Contenu réel caché

Interprétation « le contenu réel est composé de matériaux plutôt présents dans les arbres et les T-Shirts »

Page 45: Soutenance hdr aupetit_2012

VISUALISATION TOPOLOGIQUE IN SITU

Paradigme WinSitu pour l’interprétabilité

3 principes clefs pour l’interprétabilitéPrincipe de fiabilité

- une projection minimisant les distorsions E

Principe d’authenticité

- une information authentique T ou MI - ou bien les distorsions E associées à des règles d’interprétation

explicites

Principe d’efficacité

- covisualisation de ces informations

Les représentations graphiques par projection non linéaire deviennent exploitablesLes projections non linéaires ne sont pas une fin en soi mais un moyen,

support contextuel graphique d’une l’information authentique supplémentaire| PAGE 45CEA | 11 JUILLET 2012

Page 46: Soutenance hdr aupetit_2012

VISUALISATION TOPOLOGIQUE IN SITU

| PAGE 46CEA | 11 JUILLET 2012

Paradigme WinSitu

Page 47: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

| PAGE 47

CEA | 10 AVRIL 2012

Page 48: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

| PAGE 48CEA | 11 JUILLET 2012

Données multivariées

Représentation symboliqueApprentissage Automatique

Modèle topologique

subjectif

Modélisation topologique in situ

Page 49: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 50: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 51: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 52: Soutenance hdr aupetit_2012

Graphe de Delaunay

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 53: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 54: Soutenance hdr aupetit_2012

41

7 2

24

7

Synthèse de la connexitéGraphe des classes

1 sommet par composante

connexe

1 arête entre 2 sommets initialement connectés

MODELISATION TOPOLOGIQUE IN SITU

Modèle descriptif multidimensionnel

Page 55: Soutenance hdr aupetit_2012

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Modèle topologique objectif

Sélection de modèle par Bayesian Information Criterion

MODELISATION TOPOLOGIQUE IN SITU

Modèle génératif multidimensionnel

)jc(p

)j(p

),jx(p

c

j

)jc(p)jc(p

)j(p)j(p

01

01

Jj

)c,x(p ),jx(p )jc(p)j(pMaximisation

de la vraisemblance

Page 56: Soutenance hdr aupetit_2012

Comment définir un modèle génératif

basé sur des points et des segments ?

Point Gaussien

2

2

22

22

)Ax(

exp)(),Ax(pDA

Segment Gaussien AB

dv),vx(p),ABx(p

A

B

peut être exprimée à l’aide de la fonction « erf »

MODELISATION TOPOLOGIQUE IN SITU

Page 57: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Application données Oil Flow

| PAGE 57CEA | 11 JUILLET 2012

Graphe de classes issu du GGG

1 groupe

GTM GTM + ProxiViz

Les données Oil Flow (1000 individus, 3 classes, 12 variables) sont projetées (à droite) par une carte topographique générative (GTM). La classe verte semble formée de deux composantes (ellipses rouges). Est-ce vrai?

Question Réponse

2 groupes? 1 groupe

Page 58: Soutenance hdr aupetit_2012

MODELISATION TOPOLOGIQUE IN SITU

Application données Oil Flow

| PAGE 58CEA | 11 JUILLET 2012

Les données Oil Flow (1000 individus, 3 classes, 12 variables) sont projetées (à droite) par une carte topographique générative (GTM). La classe verte semble formée de deux composantes (ellipses rouges). Est-ce vrai?

ACPACP locale

Graphe de classes issu du GGG

1 groupe?

2 groupes

2 groupes

Question Réponse

Page 59: Soutenance hdr aupetit_2012

Application données Teapot 365 images de 192 pixels (1 donnée = 1 point en 192 dimensions)

d’une théière en rotation. Retrait de 10 images pour former 2 variétés linéiques

MODELISATION TOPOLOGIQUE IN SITU

Page 60: Soutenance hdr aupetit_2012

Application données Teapot 365 images de 192 pixels (1 donnée = 1 point en 192 dimensions)

d’une théière en rotation. Retrait de 10 images pour former 2 variétés linéiques

MODELISATION TOPOLOGIQUE IN SITU

2 composantes connexes

N*0 = 67 Projection du graphe GGG par ACP Projection des images par ACP

Page 61: Soutenance hdr aupetit_2012

Apprentissage semi-supervisé avec le GGG

Probabilité d’appartenance à la classe rouge ou bleue

en chaque sommet wdu GGG

P(rouge|w) = 1

P(rouge|w) = 0

Sans propagation

Modèle de densitéfourni par le GGG

Graphe pondéré par la densitépour la propagation des classes

Avec propagation

2 individus étiquetés, l’un de classe bleue (en bas), l’autre de classe rouge (en haut)

P(rouge|w) = 0.5 P(bleue|w) = 0.5

P(bleue|w) = 1

P(bleue|w) = 0

MODELISATION TOPOLOGIQUE IN SITU

Avantage : Sélection de modèle avec BIC et toutes les données au lieu de validation croisée sur peu de données étiquetées

Page 62: Soutenance hdr aupetit_2012

PERSPECTIVES

| PAGE 62

CEA | 10 AVRIL 2012

Page 63: Soutenance hdr aupetit_2012

PERSPECTIVES

Visualisation in situ

Topologie et distorsions- Formaliser la distinction entre

étirements/déchirures et compression/recollement

- Validation du principe de fiabilité : Déchirures préférables aux recollements

ProxiViz interactifParcours exploratoireOutils d’assistance visuelle à la modélisation topologiquePassage à l’échelle, synthétiser l’information en multi-échelle

Formaliser l’interprétabilitéTransmission du sens

Critère d’authenticitéReprésentation graphique du fond plutôt que de la forme

| PAGE 63CEA | 11 JUILLET 2012

Page 64: Soutenance hdr aupetit_2012

Full text Schema Full visualization

What could we do here to ease inference

from graphics

???

Aide à l’interprétation des graphiquesM

ech

anic

sP

rob

abili

stic

m

od

els

Info

Vis

Page 65: Soutenance hdr aupetit_2012

PERSPECTIVES

Visualisation in situ

Extension à d’autres types de données (arbres, graphes, signaux…)Extension à d’autres types de représentation (TreeMap, Coordonnées Parallèles, SOM…)

Autres applicationsClassiMap

| PAGE 65CEA | 11 JUILLET 2012

[Vesanto99]

[Rousset & Guinot 2001]

Page 66: Soutenance hdr aupetit_2012

PERSPECTIVES

Modélisation in situ

Extension aux complexes simpliciaux (GGSC) pour extraire les nombres de Betti

Gérer la complexité de calculDelaunay ou pasPertinence du critère BIC pour la sélection de modèleFonction de densité linéaire par morceaux (plutôt que constante)

| PAGE 66CEA | 11 JUILLET 2012

1-cycle which can contract to a point

Red and brown 1-cycles cannot collapse

to each otherThey form a homology group,

the rank of which is 2(b1=2)

1-cycles which cannot contract to a point

(b0,b1,b2)= (1,2,1)# of connected components# of independent 1-cycles (tunnels)# of independent 2-cycles (cavities)

Nombres de Betti

Page 67: Soutenance hdr aupetit_2012

PERSPECTIVES

Persistence Topologique

Page 68: Soutenance hdr aupetit_2012

PERSPECTIVES

Modélisation in situ

Encoder les nombres de Betti dans le graphe des classesEntrelacement, inclusion [Egenhofer 1994]Visualisation complémentaire avec ProxiViz sur le graphe des classes

Structures multi-échelleComment intégrer l’approche persistence topologique avec des critères statistiques, lien avec modèles bayésiens

Autres types de données (réseaux sociaux) Co-clustering topologique

comment détecter les sous-groupes indépendants de variables dépendantes

Passage à l’échelle pour traiter des masses de donnéesLien avec l’IA symbolique

Similarité entre Complexes simpliciaux et treillis de concepts

| PAGE 68CEA | 11 JUILLET 2012

Page 69: Soutenance hdr aupetit_2012

PERSPECTIVES

Futurs possibles

Traiter des masses de données (Big Data)Agents explorateurs et exploration visuelle de

l’état de l’explorationGrammaire des compositions graphiques

interprétables pour rendre de plus en plus transparente l’IHM (pianiste virtuose faisant corps avec son piano) accroître la surface de contact

Topologie au cœur des réseauxSociaux, neuronaux, biologiques, numériques,

transport, sémantiqueSynthétiser l’information topologique pour

supprimer l’effet pelote de liens

| PAGE 69CEA | 11 JUILLET 2012

Page 70: Soutenance hdr aupetit_2012

PERSPECTIVES

Futurs possibles

Des machines conscientesL’internet des objets (objets, bâtiments, véhicules)Objets autonomes quelle réaction des humains?Besoin de contrôle de l’état cognitif des ces

machines (ce qu’elles perçoivent et ce qu’elles veulent faire, pathologies des machines conscientes…)

Assurer et rassurer le propriétaire humainConcevoir dès le départ la machine pour que ses

états mentaux soient interprétables et modifiables par les personnes habilitées (Robopsychologues d’Asimov « Menteur !» 1941)

Page 71: Soutenance hdr aupetit_2012

CONCLUSION

| PAGE 71

CEA | 10 AVRIL 2012

Page 72: Soutenance hdr aupetit_2012

CONCLUSION

Je suis convaincu que la topologie est au cœur de nos processus cognitifs et forme le substrat sur lequel se bâtit notre relation au monde

J’ai engagé l’exploration de cette hypothèse

Je compte poursuivre cette exploration et en exploiter les résultats pour concevoir des machines intelligente en mesure de nous assister et dont nous puissions conserver la maîtrise

| PAGE 72CEA | 11 JUILLET 2012

ProxiVizCheckVizWinSitu

GGGSGGGSSGGG

Merci de votre attention