Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional...

Preview:

Citation preview

Élodie BoulierNhu Ha Vo

Sharon Harel

Genome-wide computational prediction of transcriptional regulatory modules reveals new

insights into human gene expression

Blanchette & al, 2006

Rappel sur la transcription et la traduction d’un gène

Régulation de l’expression

des gènes

Croissance cellulaire

Différentiation

Division

Adaptation à l’environnement

Expression des gènes

Régulée au niveau de la TRANSCRIPTIONOutils : Site de liaison des Facteurs de transcription

(TFBS)Acteurs : Facteurs de transcription (TF)

Facteurs de transcriptionActivateurs

Facteurs de transcriptionRépresseurs

TRANSCRIPTION

+ -

Structure d’un gène

Structure d’un gène (suite)

PROMOTEUR

Structure d’un gène (suite)

1kb en amont du début de site de la transcription

Facteurs de transcription

http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg

Les Facteurs de Transcription (suite)

Lient :

Des séquences dégénérées d’ ADN (5–15 pb)

Des motifs consensus

Position-weighted matrices (PWM)

PWM

Sites de liaison de facteurs de transcription (TFBS)

Régions de régulation

+ Motifs courts dégénérés

-Taille du génome -

ACGTACGTACGAATGC

Probabilité de retrouver une base à une position

TF1

Méthodes de prédictions existantes

Sensibilité à la DNAse I

Algorithmes basés sur les séquencesIdentification de motifs surreprésentés dans la séquence du promoteur

Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts

Genome wide et de novo : prédit des région ayant un potentiel régulatoire

Modules cis-régulateur (CRM)CRM

TF

PROMOTEUR

CRM

ADN

TFBS

TF1TF2 TF4 TF3 TF5 (1à 5 TF)

Modules cis-régulateur (CRM) …suite

Reconnaître de nouveaux modules

Utilisation de caractéristiques de CRM connus :

1.Plusieurs sites de liaison pour peu de TF ≠

2.Sites de liaisons plus conservés que les régions intergéniques

3.Les gènes régulés par un lot de TF commun a tendance à être co-exprimés

17

Fonction de l’algorithme Identifier les régions importantes de

régulation d’expression de gènesPrédire quel facteur de transcription se lie à

quelle région

18

DonnéesDonnées provenant de Transfac

481 PWM (Position Weight Matrices)229 familles TF (Transcription Factor)

Données provenant de Alignement Multiz Alignement Humain – Souris – Rat

34 % du génome humain

19

Prédiction TFBS pour chaque espèceTrouver le hitScore pour chaque espèceFenêtre de 100, 200, 500, 1000, 2000 bpCalcul:

Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la

séquenceCalcul hitScoreHum (m, p)

Calcul hitScoreSouris (m, p)

Calcul hitScoreRat (m, p)

20

Prédiction TFBS conservée

Trouver le hitScore d’alignement conservée

Calcul:hitScorealn (m, p) = hitScoreHum (m, p) +

½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))

21

Sélection tags plus significatifs• Seul les hitScorealn (m, p) > 10 sont

retenu pour construire les modules.

22

Total tags score

TotalScore(m, p1…p2) = max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)

23

P-ValueP-Value est assigné au TotalScoreP-Value dépend :

longueur de la régioncontenu en GC de la régionfréquence et distribution en hitScore prédit

pour cette matrice dans le génome

24

Module score

Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé

Calcul:moduleScore(p1…p2) = max{k = 1…5} – log

(pValueMaxUnif(k, 481, Πi = 1…k pValue(totalScore(tagk, p1…p2))))

25

Résultats118 402 Modules Couvrant 2.88% du génome humain58 % des modules sont moins que 500 bpLongueur moyenne de 635 bp par moduleMoyen de 3.1 tags par Module

26

Résultats (suite) Tag le plus sélectionné :

E2F (5401 fois sur les 118 402 modules)

2 sets de tags les plus sélectionnés Facteur de transcription associé au

promoteur (E2F, ZF5, TBP)

Facteur de transcription homeobox(famille NKX, famille POU, etc)

27

Comparaison

28

Comparaison « Regulatory potential » Kolbe et al. 2004 and King et al. (2005)

Prédiction de CRMApplique au génome de l’humain ainsi que le

bléPermet identifier les séquences et les

conservations entre espècesPermet distinguer les ensembles de régions

de régulation connu et régions non fonctionnelRésultat :

Plus de 25 % des bases de pCRM est dans King et al.

9 fois plus que prédiction aléatoire

Validation expérimentale des prédictions de novo

Permet de définir la spécificité du prédicteur

Spécificité= Performance

Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature

ChIP on Chip

Spécificité de novo du prédicteur

3% de validation des pCRM pour le TF ER

17% de validation des pCRM pour le TF E2F4

Sous-estimation de la spécificité

Facteurs contribuant à la faible spécificité du prédicteur

1 seule lignée cellulaire/TF

Lignée cellulaire cancéreuse

Facteurs contribuant à la faible spécificité du prédicteur

1 seule condition d’induction de la transcription

Facteurs contribuant à la faible spécificité du prédicteur

Autre méthode d’évaluation de la spécifité

ER lie 55 modules

E2F4 lie 433 modules

Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al.

24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité

236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité

Amélioration Possible

Cellules, Tissus, Conditions physiologiques

HAIRE

Distribution des pCRM sur le génome

Informations sur nouveaux gènesEnhancersTranscrits non-codants TSS alternatifsDéfinition du rôle de gènes peu caractériser

Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Figure 3. Distribution of pCRMs along a region of chromosome 11

Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Figure 4. Distribution of pCRMs relative to specific regions of genes

Région promotrice

Promoteur ou mode activation alternatif

Enhancer ou transcrit antisense

DNA-Looping

[Adaptée de Freeman, Biological Sciences 2002]

Régulation par Transcrit antisense

ARN codant

ARN antisense

Inhibition post-transcriptionnelle

Distribution des pCRMs pour un TF individuel

Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes

Autres observations2 modules rapproché : ↑ probabilité de

contenir les TFBS pour les mêmes TFLa plupart des TF de longue portée

présente une corrélation situés >10kb en amont des TSS

pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

pCRMs tissus spécifique1 Famille TF gènes potentiellement

régulé (1 pCRM 10kb en amont du TSS)

Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains

27 familles présente une corrélation d’expression tissulaire

pCRM tissus spécifiquespaire TF = famille génes

potentiellement régulésCorrélation entre l’expression tissulaire et

la co-liaison de la paire de TF595 paires de TF présentent une corrélation

d’expression tissulaire.EX: OCT1 caractérisé et exprimé dans le

cerveau BACH1 est associé à OCT1, mais non

caractérisé

ConclusionPrédiction avec spécificité acceptable entre

24 et 54%Sensibilité des prédictions de 34%

(TransFac)Grand potentiel de développement des

connaissances sur la régulation génique Découverte de nouveaux gènes codant et

de fonctions biologiquesÉlucidation du rôle de TF: expression

tissulaire

Questions

La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod

Recommended