57
Les biopuces et le grand séquençage: des outils pour comprendre le vivant à l’échelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Embed Size (px)

Citation preview

Page 1: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Les biopuces et le grand séquençage: des outils pour comprendre le vivant

à l’échelle génomique

Philippe Kastner

ESBS – septembre 2009

Partie 3: applications

Page 2: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Utilisation des biopuces pour l’étude du transcriptome

1. Conception d’une expérience de microarray

2. Méthodes d’analyse

3. Exemples d’application

Page 3: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Comment concevoir une expérience de microarrays ?

But: déterminer les variations biologiques entre différents échantillons.

Mais il faut distinguer celles-ci des variations

liées à la technologie, ou à celles liées à la variabililé intrinsèque des échantillons

Page 4: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Thomas Hudson, Montreal Genome Center

Page 5: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Intensité croissante

Page 6: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

6 échantillons: A1, A2, A3, B1, B2, B3

Microarray comprenant 20 000 gènes

échelle d’expression: 1- 10000

Mesures pour un gène X

A1 A2 A3 B1 B2 B3

25 30 35 55 50 66

Test t: p = 0,01

Pour combien de gènes une telle valeur peut-elle être obtenue par hasard ? (« false discovery rate », ou FDR)

Différences d’expression réelles ou artéfactuelle ?

Page 7: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Comparaison Nombre de gènes différentiels

(Changement > 2x, p <0,01)

(A1, A2, A3) vs (B1, B2, B3) 300

(A1, B2, A3) vs (B1, A2, B3) 150

(A1, B2, B3) vs (B1, A2, A3) 200

(A1, A2, B1) vs (B2, B3, A3) 100

Estimation du nombre de gènes différentiels « réels »

La moitié des gènes différentiels est artéfactuelle !

Solutions: multiplier les réplicats

augmenter la stringence des critères de sélection.

Page 8: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Number of replicates Type of sample

Cell lines

Mouse cells

Mouse organs

Human cells

Human tumors

Interested by Big changes

2 2-3 3-4 5-6 >30

Small changes

4-5 5-6 10 10-15 >60

variabilité

Combien de réplicats sont-ils nécessaires pour une expérience réussie ?

Page 9: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Deux grands types de méthodes de « clustering »

A. Méthodes hiérarchique: génération d’un dendogramme (arbre) qui relie tous les gènes ou échantillons entre eux.

B. Méthodes par partitionnement, qui divise les gènes en K classes ayant des profils similaires (K défini par l’utilisateur)

- K-means

- Self-organizing maps (SOM)

- analyse par composantes principales (PCA)

Page 10: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Regroupement en fonction de profils d’expression

similaires

1. Gènes

Évolution temporelle de l’expression des gènes dans des fibroblastes humains stimulés par du sérum (Pat Brown, 1997)

Visualisation d’une chorégraphie de l’expression génique dans le temps.

700 gènes

(Première expérience publiée de microarrays)

Page 11: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Different cell lines to be compared

Genes belonging to one cluster

Fold Changes

1-2-4-6 +6+4+2

Regroupement en fonction de profils d’expression similaires

2. échantillons

Page 12: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

– N expériences

– chaque gène est considéré comme un vecteur dans un espace de dimension N (coordonnées = valeurs d’expression dans chaque expérience)

– Partitionnement des gènes en K classes optimisées selon des critères de proximité des gènes dans l’espace vectoriel

Méthodes par partitionnement

(K-means, Fuzzy C-means, Self organizing maps)

Page 13: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Analyse par partitionnement de données correspondant à 5 types de leucémies T (20 groupes)

Visualisation et sélection des classses de gènes intéressantes

Page 14: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Ikaros

TelJak2 Tal-Lmo1

bcat

Analyse par partitionnement de données correspondant à 5 types de leucémies T (20 groupes)

Page 15: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

B-catenin ICN1 Ikaros TelJak2 Tal-Lmo1

Visualisation des clusters FCM (4208 genes)

Page 16: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Applications des microarrays

1. Expression différentielleQuestion: pourquoi B est-il différent de A ?

(KO vs WT; effet d’un traitement; sain vs malade, etc …)

Comparaison de A et B 200 gènes différentiels !!

Et ensuite ??? …. Extraction d’un sens biologique

-Analyse biographique- Annotation fonctionnelle des gènes (gene ontology: codification des annotations)

Identification de gènes candidats ou voies moléculaires

Page 17: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple 1: Lymphomes thymiques chez des souris mutantes pour le gène Ikaros

Recherche de la voie moléculaire impliquée dans le développement de ces tumeurs par une analyse du transcriptome.

Page 18: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

6 IkL/L tumors

4 Tel-Jak2 tumors

5 non tumoral thymocytes

Genes specifically deregulated in IkL/L tumors ?

Conception expérimentale

Page 19: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Hes1

Notch1Deltex 1

pT

Notch upregulation is associated with tumors lacking Ikaros

IkL/L tumors

IkL/L tumor

TelJak2 tumors

Notch pathway signature

Expérience fondatrice d’un projet concernant le rôle d’Ikaros dans la régulation de la voie Notch.

Page 20: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Applications des microarrays

2. Transcriptome comme mesure phénotypique d’un système biologique

Concept: Profil apparenté de l’expression des gènes implique une similitude d’état biologique

Application principale: classification des tumeurs

Page 21: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

2285 échantillons de tumeursde 20 types de cancer différents

2198 probe sets

Meta-analysis of 2285 tumors, from 20 different cancer types

Projet « carte d’identité des tumeurs » de la Ligue contre le Cancer

Page 22: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Example 2 : Cancer Expression Analysis•Large Diffuse B-Cell Lymphomas (LDBCL)

•No reliable indicators to subtype them

• Analysis of >100 LDBCL samples, as well as normal subsets of B lymphocytes

•Hybridise to 18K human “lymphoma” slide

•Alizadeh et al. , Nature 2000

• Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.

Page 23: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications
Page 24: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Identification de deux groupes de tumeurs distincts

Page 25: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Mortality and LDBCL

Pronostic différent pour les deux groupes de tumeurs

Page 26: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Signature transcriptomique

Ensemble de gènes caractéristiques d’un état biologique donné- type cellulaire (ex: signature des pDCs)- stimulation d’une voie moléculaire (ex: Notch)

Page 27: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple 3: analyse de la signature de cellules dendritiques plasmacytoïdes

Liu et al, Nature Immunol, 2004

Page 28: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Comment les pDCs se développent-elles ?

Controverses dans la littérature:

Les pDCs sont-elles apparentées aux cellules myéloïdes (macrophages, monocytes) ou lymphoïdes (lymphocytes) ?

Les pDCs sont-elles apparentées aux autres types de cellules dendritiques « conventionnelles », impliquées dans la présentation des antigènes ?

Page 29: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Une vue génomique des cellules dendritiques

1. Assemblage de profils d’expression génique pour la plupart des types cellulaires immunitaires (macrophages, neutrophiles, lymphocytes B, T, NK, pDCs, cDCs) = « compendium »

2. Pour l’homme et la souris

3. Clustering pour visualiser les distances entre lignage

4. Identification de programmes d’expression géniques conservés

Robbins et al, 2008 (Genome Biology)

Page 30: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Hierarchical clustering Principal component analysis (PCA)

(Projection on first 2 dimensions)

1. SOURIS

Similitude des profils transcriptomiques des DC

Page 31: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

2. HOMME

Publicly available datasets on Affymetrix U133 v2

Similitude des profils transcriptomiques des DC

Page 32: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Pan-DC genes

pDC specific genes (500 genes)

Conventional DC genes

Signature des DC de souris

(Fuzzy C-means clustering)

Page 33: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Signatures des DC humaines

pDC genes

Pan DC genes

Conventional DC genes

Page 34: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

B cells T cells pDCs cDCs

Ebf1 Camk4 Epha2 Arhgap22

Cd19 4430004N04Rik Pacsin1 Btbd4

Klhl14 Trat1 Zfp521 Slamf8

Bank1 CxCr6 Sh3bgr 9130211l03Rik

Pax5 Tnfrsf25 Tex2 Nav1

Blr1 Ccdc64 Runx2 Ct2a

Ralgps2 Plcg1 Atp13a2 Avpi1

CD79b Lat Maged1 Spint1

Gènes les plus fortement associés à des types de cellules spécifiques

Rouge: connu pour être spécifique de ces lignages

Page 35: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Conclusion des études transcriptomiques

Proximité des programmes géniques des pDC et cDC: les DC constituent-elles une branche développementale séparée du système hématopoîétique ?

Signatures conservées entre l’homme et la souris

Les gènes spécifiques des DCs sont largement inconnus

Page 36: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple 4: Absence de cellules dendritiques plasmacytoïdes (pDC) chez les mutants IkL/L

B220

120G8

Spleen LN Blood

0.21 0.08 0.04

0.01 0.01 0.0

WT

IkL/L

B220

120G8

Spleen LN Blood

0.21 0.08 0.04

0.01 0.01 0.0

WT

IkL/L

Page 37: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Les pDC sont-elles bloquées dans leur différenciation dans la moelle osseuse ?

120G8

B220

WT

B220

120G8

IkL/L

Gated on CD11c + cells41.4

120G8

B220

WT

B220

120G8

IkL/L

Gated on CD11c + cells

120G8

B220

WT

B220

120G8

IkL/L

Gated on CD11c + cells41.4

Présence d’une population exprimant un marqueur des pDC, 120G8, mais pas B220

Page 38: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Analyse du transcriptome (Affymetrix: 45000 gènes)

Comparaison à divers types cellulaires hématopoïétiques

La population 120G8+ mutante appartient-elle au lignage des pDC ?

Page 39: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Surexpression de la plupart des gènes dérégulés

(scatter plot)

Page 40: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Les pDC IkL/L possèdent la signature pDC

Dérégulation (surexpression) d’un grand nombre de gènes

Sous-signature commune avec les DC conventionnelles

Visualisation des gènes spécifiques des populations WT et mutantes

Clustering hiérarchique)

Page 41: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Applications des microarrays

3. Data mining

Recherche d’informations « cachées » dans les données de transcriptome

Confrontation des données:

- à d’autres sets de données transcriptomiques

- aux données de séquence et d’organisation des génomes

- aux données de fonctions des gènes

Page 42: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Nature Genetics 22, 281 (1999)

Question: En confrontant les séquences des promoteurs de gènes co-régulés, peut-on découvrir de nouvelles séquences régulatrices ?

Données: de transcriptome du cycle cellulaire de levure (2 cycles)

1. partition en 30 classes de gènes (K-means)

2. pour chaque classe:

Enrichissement par rapport à une fonction ?

Présence de motifs spécifiques dans les promoteurs (1kb en amont du site d’initiation)?

méthode: déplacement d’une fenêtre de 10pb à travers la séquence, recherche de séquences homologues dans les autres gènes du cluster

calcul d’un score (MAP score). Si MAP score >10 , = significatif

Exemple 5: Profils d’expression et recherche de motifs régulateurs

Page 43: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

18 motifs dans 12 clusters

Motifs spécifiques d’un cluster donné

Éléments régulateurs connus et inconnus

Identification de nouveaux sites régulateurs

Page 44: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Gènes co-exprimés Motif régulateur commun ?

Présence d’un ou plusieurs motifs donné

Gènes corégulés ?

Page 45: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

General scheme (1)

• clustering-based approaches for finding motifs from gene expression and sequence data

classify

Page 46: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

General scheme (2)

• sequence(/knowledge)-based approaches for finding motifs from gene expression and sequence data

Page 47: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Données: levures cultivées dans différentes conditions

Etude des promoteurs des groupes 1 et 4: enrichissement de deux motifs régulateurs, PAC et RRPE, souvent présents de façon conjointe.

Page 48: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Question: la présence de l’un ou des deux motifs PAC et/ou RRPE permet-elle de prédire la régulation du gène correspondant?

Très bonne corrélation des profils d’expression qui contiennent la suite RRPE, PAC

Page 49: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Idée: gènes aux fonctions similaires sont régulés de façon similaire

Compendium : base de données de profils d’expression

(levures cultivées dans différentes conditions, souches mutantes, etc …)

Gène à la fonction inconnue:

- profil d’expression similaire à ???

- Souche mutante pour ce gène: profil similaire à ???

Exemple 6: découverte de fonction de gènes

Page 50: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple: découverte de la fonction du gène YER044C

Gènes

Souches mutantes

Forte association avec des gènes impliqués dans la synthèse de l’ergostérol

Validation fonctionelle

Page 51: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Question: la comparaison des profils d’expression géniques et des localisations chromosomiques permet-elle d’identifier des région de gènes corégulés ?

Données: cycle cellulaire de la levure

1. Pour tous les couples de gènes, calcul des corrélation des profils d’expression (valeurs entre -1 et 1)

2. Représentation par ordre sur les chromosomes

Exemple 7: recherche de gènes voisins co-régulés

Page 52: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple de résultats

Page 53: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Question: l’expression des gènes humains varie-t-elle en fonction de domaines chromosomiques ?

1. Mesure du niveau d’expression de tous les gènes humains dans 12 tissus (SAGE)

2. Représentation du niveau d’expression en fonction de la position géographique sur les chromosomes

Exemple 8: influence de la localisation chromosomique sur le niveau d’expression génique

Page 54: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Exemple: chromosome 11

tissus

Intégration du niveau d’expression sur une fenêtre de 39 gènes

Positions sur le chromosome

Identification de domaines d’expression génique élevée (RIDGE)

influence de l’environnement chromosomique large sur la façon dont un gène est exprimé

Page 55: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Variations importantes des niveaux d’expression entre chromosomes

Page 56: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Corrélation entre densité génique et niveaux d’expression

Page 57: Les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique Philippe Kastner ESBS – septembre 2009 Partie 3: applications

Biopuces

• Analyse sans à priori des systèmes biologique: outils puissant générer des hypothèses

• Analyse globale, permettant de révéler des propriétés nouvelles, non visibles par des études restreintes.