49
Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Blanchette & al, 2006

Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Embed Size (px)

Citation preview

Page 1: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Élodie BoulierNhu Ha Vo

Sharon Harel

Genome-wide computational prediction of transcriptional regulatory modules reveals new

insights into human gene expression

Blanchette & al, 2006

Page 2: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Rappel sur la transcription et la traduction d’un gène

Page 3: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Régulation de l’expression

des gènes

Croissance cellulaire

Différentiation

Division

Adaptation à l’environnement

Page 4: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Expression des gènes

Régulée au niveau de la TRANSCRIPTIONOutils : Site de liaison des Facteurs de transcription

(TFBS)Acteurs : Facteurs de transcription (TF)

Facteurs de transcriptionActivateurs

Facteurs de transcriptionRépresseurs

TRANSCRIPTION

+ -

Page 5: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Structure d’un gène

Page 6: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Structure d’un gène (suite)

PROMOTEUR

Page 7: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Structure d’un gène (suite)

1kb en amont du début de site de la transcription

Page 8: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Facteurs de transcription

http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg

Page 9: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Les Facteurs de Transcription (suite)

Lient :

Des séquences dégénérées d’ ADN (5–15 pb)

Des motifs consensus

Page 10: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Position-weighted matrices (PWM)

PWM

Sites de liaison de facteurs de transcription (TFBS)

Régions de régulation

+ Motifs courts dégénérés

-Taille du génome -

ACGTACGTACGAATGC

Probabilité de retrouver une base à une position

TF1

Page 11: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Méthodes de prédictions existantes

Page 12: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Sensibilité à la DNAse I

Page 13: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Algorithmes basés sur les séquencesIdentification de motifs surreprésentés dans la séquence du promoteur

Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts

Genome wide et de novo : prédit des région ayant un potentiel régulatoire

Page 14: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Modules cis-régulateur (CRM)CRM

TF

PROMOTEUR

Page 15: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

CRM

ADN

TFBS

TF1TF2 TF4 TF3 TF5 (1à 5 TF)

Modules cis-régulateur (CRM) …suite

Page 16: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Reconnaître de nouveaux modules

Utilisation de caractéristiques de CRM connus :

1.Plusieurs sites de liaison pour peu de TF ≠

2.Sites de liaisons plus conservés que les régions intergéniques

3.Les gènes régulés par un lot de TF commun a tendance à être co-exprimés

Page 17: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

17

Fonction de l’algorithme Identifier les régions importantes de

régulation d’expression de gènesPrédire quel facteur de transcription se lie à

quelle région

Page 18: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

18

DonnéesDonnées provenant de Transfac

481 PWM (Position Weight Matrices)229 familles TF (Transcription Factor)

Données provenant de Alignement Multiz Alignement Humain – Souris – Rat

34 % du génome humain

Page 19: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

19

Prédiction TFBS pour chaque espèceTrouver le hitScore pour chaque espèceFenêtre de 100, 200, 500, 1000, 2000 bpCalcul:

Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la

séquenceCalcul hitScoreHum (m, p)

Calcul hitScoreSouris (m, p)

Calcul hitScoreRat (m, p)

Page 20: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

20

Prédiction TFBS conservée

Trouver le hitScore d’alignement conservée

Calcul:hitScorealn (m, p) = hitScoreHum (m, p) +

½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))

Page 21: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

21

Sélection tags plus significatifs• Seul les hitScorealn (m, p) > 10 sont

retenu pour construire les modules.

Page 22: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

22

Total tags score

TotalScore(m, p1…p2) = max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)

Page 23: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

23

P-ValueP-Value est assigné au TotalScoreP-Value dépend :

longueur de la régioncontenu en GC de la régionfréquence et distribution en hitScore prédit

pour cette matrice dans le génome

Page 24: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

24

Module score

Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé

Calcul:moduleScore(p1…p2) = max{k = 1…5} – log

(pValueMaxUnif(k, 481, Πi = 1…k pValue(totalScore(tagk, p1…p2))))

Page 25: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

25

Résultats118 402 Modules Couvrant 2.88% du génome humain58 % des modules sont moins que 500 bpLongueur moyenne de 635 bp par moduleMoyen de 3.1 tags par Module

Page 26: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

26

Résultats (suite) Tag le plus sélectionné :

E2F (5401 fois sur les 118 402 modules)

2 sets de tags les plus sélectionnés Facteur de transcription associé au

promoteur (E2F, ZF5, TBP)

Facteur de transcription homeobox(famille NKX, famille POU, etc)

Page 27: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

27

Comparaison

Page 28: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

28

Comparaison « Regulatory potential » Kolbe et al. 2004 and King et al. (2005)

Prédiction de CRMApplique au génome de l’humain ainsi que le

bléPermet identifier les séquences et les

conservations entre espècesPermet distinguer les ensembles de régions

de régulation connu et régions non fonctionnelRésultat :

Plus de 25 % des bases de pCRM est dans King et al.

9 fois plus que prédiction aléatoire

Page 29: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Validation expérimentale des prédictions de novo

Permet de définir la spécificité du prédicteur

Spécificité= Performance

Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature

Page 30: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

ChIP on Chip

Page 31: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Spécificité de novo du prédicteur

3% de validation des pCRM pour le TF ER

17% de validation des pCRM pour le TF E2F4

Sous-estimation de la spécificité

Page 32: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Facteurs contribuant à la faible spécificité du prédicteur

1 seule lignée cellulaire/TF

Lignée cellulaire cancéreuse

Page 33: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Facteurs contribuant à la faible spécificité du prédicteur

1 seule condition d’induction de la transcription

Page 34: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Facteurs contribuant à la faible spécificité du prédicteur

Page 35: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Autre méthode d’évaluation de la spécifité

ER lie 55 modules

E2F4 lie 433 modules

Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al.

24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité

236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité

Page 36: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Amélioration Possible

Cellules, Tissus, Conditions physiologiques

HAIRE

Page 37: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Distribution des pCRM sur le génome

Informations sur nouveaux gènesEnhancersTranscrits non-codants TSS alternatifsDéfinition du rôle de gènes peu caractériser

Page 38: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Figure 3. Distribution of pCRMs along a region of chromosome 11

Page 39: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression
Page 40: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Figure 4. Distribution of pCRMs relative to specific regions of genes

Région promotrice

Promoteur ou mode activation alternatif

Enhancer ou transcrit antisense

Page 41: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

DNA-Looping

[Adaptée de Freeman, Biological Sciences 2002]

Page 42: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Régulation par Transcrit antisense

ARN codant

ARN antisense

Inhibition post-transcriptionnelle

Page 43: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Distribution des pCRMs pour un TF individuel

Page 44: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes

Page 45: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Autres observations2 modules rapproché : ↑ probabilité de

contenir les TFBS pour les mêmes TFLa plupart des TF de longue portée

présente une corrélation situés >10kb en amont des TSS

pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

Page 46: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

pCRMs tissus spécifique1 Famille TF gènes potentiellement

régulé (1 pCRM 10kb en amont du TSS)

Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains

27 familles présente une corrélation d’expression tissulaire

Page 47: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

pCRM tissus spécifiquespaire TF = famille génes

potentiellement régulésCorrélation entre l’expression tissulaire et

la co-liaison de la paire de TF595 paires de TF présentent une corrélation

d’expression tissulaire.EX: OCT1 caractérisé et exprimé dans le

cerveau BACH1 est associé à OCT1, mais non

caractérisé

Page 48: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

ConclusionPrédiction avec spécificité acceptable entre

24 et 54%Sensibilité des prédictions de 34%

(TransFac)Grand potentiel de développement des

connaissances sur la régulation génique Découverte de nouveaux gènes codant et

de fonctions biologiquesÉlucidation du rôle de TF: expression

tissulaire

Page 49: Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression

Questions

La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod