Champs de Markov cachés pour la classification de gènes.. …en combinant des données individuelles et de paires Matthieu VIGNES & Florence FORBES (INRIA

Champs de Markov cachés pour la classification de gènes..

…en combinant des données individuelles et de paires

Matthieu VIGNES & Florence FORBES (INRIA Rhône-Alpes – Equipe Mistis)

{matthieu.vignes,florence.forbes}[AT]inrialpes.fr http://mistis.inrialpes.fr/people/vignes/

RIA’s mars 2006

Introduction Contexte

Intégrer différents types de données issues de bases de données pour la classification d’entités biologiques

Travaux antétieurs Classification hiérarchique (Eisen et al 1998), k-means

(Tavazoie et al, 1999), SVM (Brown et al, 2000), SOM (Tamayo et al, 1999), bi-clustering (Tanay et al, 2004), méthodes à noyaux (Vert et al, 2003), etc.

Aussi modèles de mélange : Yeung et al, 2001 Limitation majeure de toutes ces approches : données

individuelles et de paires ne sont pas incorporées dans un modèle statistique unique

Modèle de champ de Markov caché

)()()(1

ki

K

kkii xfcZPxP

L’objet i interagit avec ses voisins via un Champ de Markov :

),(exp)()( 1 zHWZP

xi donnée individuelle associée à l’objet i

zi étiquette de l’objet i


Prise en compte des voisinages au travers de la fonction d’énergie H


Prise en compte des voisinages au travers de la fonction d’énergie H

Difficultés: calcul de W(D) et de probabilités conditionnelles nécessaires mais impossibles explicitement approximations de type champ moyen nécessaires (Celeux et al 2003)

Construction du système de voisinage

2 enzymes sont voisines si elles catalysent 2 réactions ayant au moins 1 composé en commun comme réactif ou produit

2 gènes sont voisins s’ils sont associés à ces 2 enzymes

On traduit un enchaînement métabolique potentiel élargi.

Limitation de la base de données...

Expériences sur données simulées

5 jeux de 1536 objets en dimension 20 répartis dans 6 classes.


EM (haut) comparé à l’algorithme en champ simulé (bas)


En Champ simulé, une classe «poubelle» peut apparaître…

Expériences sur données issues de la levure

Données d’expression publiques (Chu et al, 1998)

Base de données LIGAND de KEGG pour la définition des voisinages

635 gènes en dimension 10 : 6 classes (BIC)


Problème majeur de la validation (Handl et al, 2005)

(1) On regarde si on retrouve des voies métaboliques


(2) On s’intéresse à la distribution de propriétés qui joueront le rôle de critère biologique Exemple des termes GO (p-valeurs :

Benjamini et al, 2003)

Conclusion Prise en compte simultanée de plusieurs

types de données individuelles et de paires

Bon comportement du modèle et bons résultats sur données simulées et réelles

Perspectives : écrire le programme pour des données manquantes, modélisation de classes empiétantes (Battle et al, 2004).

Conclusion Prise en compte simultanée de plusieurs types Prise en compte simultanée de plusieurs types

de données individuelles et de pairesde données individuelles et de paires Bon comportement du modèle et bons Bon comportement du modèle et bons

résultats sur données simulées et réellesrésultats sur données simulées et réelles Perspectives : écrire le programme pour des Perspectives : écrire le programme pour des

données manquantes, modélisation de classes données manquantes, modélisation de classes empiétantes (Battle empiétantes (Battle et alet al, 2004)., 2004).

Merci de votre attention!!

Documents

Champs de Markov cachés pour la classification de gènes.. …en combinant des données individuelles et de paires Matthieu VIGNES & Florence FORBES (INRIA