Apprentissage de structure de réseaux bayésiens à partir ... · Apprentissage de structure de...

Apprentissage de structurede réseaux bayésiens à partir

de réseaux markoviens

Christophe Gonzales et Nicolas Jouve

{Christophe.Gonzales, Nicolas.Jouve}@lip6.fr

LIP6 – Université Paris 6

Introduction RB et RM Méthode Apprentissage du RM Orientation Raffinement Conclusions

Introduction

Apprentissage de structure : étant donné un échantillon d’unedistribution P, trouver un graphe représentant P « au mieux »

Deux approches :

Contraintes : tests d’indépendance conditionnelle (e.g. χ2)Optimisation : exploration heuristique de l’espace desmodèles, dotés d’une mesure de qualité (e.g. BIC)

Introduction

Apprentissage de structure : étant donné un échantillon d’unedistribution P, trouver un graphe représentant P « au mieux »

Deux approches :

Contraintes : tests d’indépendance conditionnelle (e.g. χ2)Optimisation : exploration heuristique de l’espace desmodèles, dotés d’une mesure de qualité (e.g. BIC)

Introduction

Approche optimisation : quel espace utiliser ?

RB : structures équivalentes forment des plateaux dans lafonction scoreClasses d’équivalence (graphes partiellement orientés) :

espace plus petit et mieux adapté à l’explorationgarantie d’optimalité (algo Greedy Equivalent Search)

RM : contrepartie non orientée des RB

exponentiellement plus petitvoisinage plus simple

Motivation : peut-on tirer profit de l’espace des RM ?

Introduction

Plan de l’exposéRéseaux bayésiens et markoviensNotre méthodeApprentissage du RMOrientationRaffinementConclusions et perspectives

Réseaux markoviens et bayésiens

Réseau markovien bayésienGraphe non orienté orienté sans circuits

Critère

Séparation :X ⊥s Y | Z

si toute chaîne entre X et Y

possède un nœud dans Z

d-séparation :X ⊥ds Y | Zsi ∀ chaîne ch entre X et Y ∃un nœud S de ch t.q.

- si S est convergent sur ch,

ni S ni aucun de ses descendants n’ap-

partiennent à Z,

- sinon, S appartient à Z.

Factoris.si P > 0, P(V) =

QC∈C ψ(C),

où C est l’ens. des cliques du graphe.P(V) =

Qni=1 P(Xi |Parents(Xi))

Critère

partiennent à Z,

QC∈C ψ(C),

Critère

partiennent à Z,

QC∈C ψ(C),

Critère

partiennent à Z,

QC∈C ψ(C),

Optimalité

Ppté de Markov Globale : X ⊥ Y | Z =⇒ X⊥⊥PY | ZOptimalité : G contenant P est optimale s’il n’existe pas G′contenant P tq (i) G « contient » G′ et (ii) G et G′ ne sontpas équivalentesP DAG-isomorphe =⇒ ∃B∗ RB optimal, unique auxéquivalents prèsP DAG-isomorphe =⇒ P > 0 =⇒ ∃!G∗ RM optimal, graphemoral de B∗

Optimalité

Ppté de Markov Globale : X ⊥ Y | Z =⇒ X⊥⊥PY | ZOptimalité : G contenant P est optimale s’il n’existe pas G′contenant P tq (i) G « contient » G′ et (ii) G et G′ ne sontpas équivalentesP DAG-isomorphe =⇒ ∃B∗ RB optimal, unique auxéquivalents prèsP DAG-isomorphe =⇒ P > 0 =⇒ ∃!G∗ RM optimal, graphemoral de B∗

De Markov à Bayes : tout est dans la V-structure

L’information liée à l’orientation réside dans les nœudsconvergents, et plus précisément dans les V-structuresPasser d’un modèle à l’autre :

RB = RM ssi le graphe est triangulé (NB : DAG sans VS esttriangulé)RB → RM : moralisationRM → RB : démoralisation...

Notre méthode

Hypothèses : P est DAG-isomorphe et les données sont ennombre suffisant

construire le RM optimal G∗

l’orienter en un RB B0

raffiner B0 dans l’espace des CE jusqu’à obtenir B∗

Approche exacte (comme GES) malgré la NP-difficulté duproblème mais...

le pire cas ne semble pas fréquenton obtient des réseaux aux propriétés intéressantes entemps polynomialla phase de raffinement est anytime

Notre méthode

Hypothèses : P est DAG-isomorphe et les données sont ennombre suffisant

construire le RM optimal G∗

l’orienter en un RB B0

raffiner B0 dans l’espace des CE jusqu’à obtenir B∗

Approche exacte (comme GES) malgré la NP-difficulté duproblème mais...

le pire cas ne semble pas fréquenton obtient des réseaux aux propriétés intéressantes entemps polynomialla phase de raffinement est anytime

Exploration de l’espace des RM

Deux approches :

Optimisation : impossible dans ce contexte car l’estimationdu MV est très coûteuse dans le cas général⇒ Contraintes, mais les tests IC sont non-significatifs sil’ensemble conditionnant est trop grand (pour une quantitéde données raisonnable)

Exploration de l’espace des RM

Deux approches :

Optimisation : impossible dans ce contexte car l’estimationdu MV est très coûteuse dans le cas général⇒ Contraintes, mais les tests IC sont non-significatifs sil’ensemble conditionnant est trop grand (pour une quantitéde données raisonnable)

Apprentissage de G∗

1 G graphe vide2 Phase d’ajouts :

TQ c’est possible,

Choisir (X , Y ) 6∈ G tq X 6 � Y | SepG(X , Y )L’ajouter

3 Phase de retraits :∀(X , Y ) ∈ G tq X⊥⊥Y | SepG(X , Y ), ôter (X , Y )

↪→ On montre qu’on obtient G∗, en temps polynomial

Apprentissage de G∗

1 G graphe vide2 Phase d’ajouts :

TQ c’est possible,

Choisir (X , Y ) 6∈ G tq X 6 � Y | SepG(X , Y )L’ajouter

3 Phase de retraits :∀(X , Y ) ∈ G tq X⊥⊥Y | SepG(X , Y ), ôter (X , Y )

↪→ On montre qu’on obtient G∗, en temps polynomial

Comment éviter les tests non-significatifs ?

Construction incrémentale plutôt qu’agrégation decouvertures de MarkovCalculs de séparateurs (presque) minimaux partriangulation du graphe courant et collecte-diffusion dansl’arbre de jonctionChoix heuristique de l’arête à ajouter : dépendance la plusgrande, mesurée par l’écart normalisé au seuil du χ2

Orientation

Boucle sur les nœuds :Choisir X n’appartenant qu’à une unique cliqueOrienter les arêtes adjacentes vers luiTenter d’ôter des arêtes de moralisation entre ses voisins

Orientation

G∗ G1 G2 G3 G4 G5 G6

B∗ B1 B2 B3 B4 B5 B6 = B

Propriétés

A chaque pas, il existe bien un nœud n’appartenant qu’àune unique clique si l’algo est appliqué à G∗

Sinon, il faut trianguler localementOn obtient un RB B0 contenant P, de graphe moral G∗, entemps polynomialOn a révélé des VS de B∗ mais en général pas toutes

Propriétés

Raffinement

Greedy Equivalent Search comprend deux phases(exponentielles) :

Phase d’ajouts : construction d’un RB contenant PPhase de retraits : raffinement d’un RB contenant Pjusqu’à B∗

=⇒ on peut appliquer la phase 2 de GES à B0

Raffinement

Greedy Equivalent Search comprend deux phases(exponentielles) :

Phase d’ajouts : construction d’un RB contenant PPhase de retraits : raffinement d’un RB contenant Pjusqu’à B∗

=⇒ on peut appliquer la phase 2 de GES à B0

Conclusions

on conserve la propriété d’optimalité de GESon remplace sa première phase exponentielle par unephase polynomiale

plus rapide !on obtient de bons réseaux (optimaux pour l’inférence) entemps polynomial

la phase de raffinement (exponentielle) est anytime

↪→ Principe : exploiter d’abord et intégralement l’informationaccessible polynomialement, à savoir l’aspect non orienté dumodèle

Conclusions

Perspectives

Poursuivre les expérimentationsExploiter les propriétés de B0 pour optimiser la phase 2Etudier plus précisément la robustesse de la méthode àses deux hypohtèses

Apprentissage de structure de réseaux bayésiens à partir ... · Apprentissage de structure de...

Documents

Réseaux Bayésiens pour l’aide à la décision

IFT 615 – Intelligence artificielle Raisonnement probabiliste - réseaux bayésiens Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615

Evaluation des algorithmes d’apprentissage de structure pour les réseaux Bayésiens dynamiques

Mélanges bayésiens de modèles d'extrêmes multivariés,

Réseaux Bayésiens - Inria · 2008. 2. 4. · Plan Le tutoriel proposé est inspiré des formations réseaux bayésiens effectuées pour le réseau RISC du RISC en 2005 et 2006,

Apprentissage,RéseauxdeNeuronesetApplicationsolivier.teytaud.pagesperso-orange.fr/publis/serpilliere.pdf · Motsclés: apprentissage, réseaux de neurones, VC-théorie, classes de

Réseaux Bayésiens - Deptinfo

! Les Réseaux de Neurones Artificiels · – +Si apprentissage stochastique (après présentation de chaque exemple) – Si apprentissage total (après présentation de l’ensemble

Apprentissage, réseaux de neurones et modèles graphiques

Apprentissage de la structure de réseaux bayésiens

Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

1 Approches explicites (CRIL) DADDI, tâche 2. Motivations Détection des attaques "rares" - "nouvelles" Classées " Normal " Réseaux bayésiens Approche

Réseaux bayésiens: Inférence Chap. 14 Sections 4 – 5

Introduction aux Réseaux Bayésiens

Ingénieur en apprentissage Informatique parcours ...cuvelier/docs/... · Ingénieur en apprentissage Informatique parcours. Informatique et réseaux. ... de tout ingénieur : anglais,

Raisonner avec l’incertain : Les réseaux bayésiens

Estimation de la qualité du produit logiciel Réseaux Bayésiens · fonctionnels implicites et explicites et les caractéristiques qualité du logiciel. La démarche qualité intègre

Application de la modélisation par Réseaux Bayésiens à la

IFT 616 Intelligence Artificielle Jean-François Landry Département dinformatique Université de Sherbrooke Réseaux bayésiens dynamiques

Adaptation dynamique et apprentissage dans les réseaux de