11
Problèmes d’apprentissage posés par la régulation de l’expression des gènes Florence d’Alché-Buc

Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Embed Size (px)

DESCRIPTION

Problèmes d’apprentissage posés par la régulation de l’expression des gènes. Florence d’Alché-Buc. Extraction des réseaux de régulation géniques : un objectif à long terme. Données d’expression des gènes issues des biopuces. Apprentissage. Informations extraites de bases d’articles. -. - PowerPoint PPT Presentation

Citation preview

Page 1: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Problèmes d’apprentissage posés par la régulation de l’expression des

gènes

Florence d’Alché-Buc

Page 2: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Extraction des réseaux de régulation géniques : un objectif à long terme

Apprentissage

Données d’expression des gènes

issues des biopuces

Informations extraites

de bases d’articles

Informations sur les protéines :

fonctions

-

+

: gène

Activation (ou inhibition) par le biais

D’une protéine

Page 3: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Décomposition en sous-problèmes

- Pb 1 : Classification non supervisée de données d’expression

- Pb 2 : Extraction de la structure du réseau de régulation

- Pb 3 : A structure fixée, modélisation de la dynamique du réseau et

identification de ses paramètres

Page 4: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Présentation du sous-problème 1 :

Objectif :

Regrouper les gènes de profils expérimentaux similaires

Classification non supervisée de données d’expression

Page 5: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Quelles données ?

Exemples :

(de Jong 2001) : Initiation de la sporulation chez Bacillus Subtilis

Page 6: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Origine des données : les biopuces ou puces à ADN

- permettent d’acquérir lesdifférences d'expression entre les gènes et ceci à l'échelle d'un génome complet (ex : génome de la levure : > 6000 gènes)

- technologie difficile à mettre en place : Plusieurs techniques : fluorescence, radioactivité ….Données résultantes : bruitées, difficiles à normaliser …

Page 7: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Source site ENS :Auteur Philippe Marc

Biopuces

Page 8: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Biopuce : image des intensités lumineuses correspondant auxTaux d’ARN :

Source site ENS :Auteur Philippe Marc

Page 9: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Données observées

Type 1 : une matrice n x m : n lignes décrivant n gènes, n colonnesCorrespondant aux expériences réaliséesType 2 : une matrice n x m : les colonnes correspondent à une seuleExpérience mais pour laquelle on a pris différents instantsExpérimentaux Type 3 : n x (m1 + m2 + … mp)P expériences sur une même puce : avec mi instants expérimentauxEnsemble de profils cinétiques

Profils cinétiques

Page 10: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Exemple de clustering obtenu avec une classification hiérarchique(logiciel d’Eisen, réf : Eisen et al. 1998)

Page 11: Problèmes d’apprentissage posés par la régulation de l’expression des gènes

Clustering

Type 1 : de nombreuses méthodes peuvent être appliquées :Déjà : classification hiérarchique, K-moyennes, cartes de Kohonen

Type 2 : inclure dans les dissimilarités la notion de séquence, miseEn correspondance par time warping (utilisé en reconnaisance de Caractères)

Ordre de grandeur actuel : milliers de gènes, dimension 100