77
Identification et analyse bioinformatiques d'éléments cis- régulateurs dans les génomes Bernard Jacq, M2 BBSG 2008 Module GF

Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

  • Upload
    storm

  • View
    29

  • Download
    6

Embed Size (px)

DESCRIPTION

Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes. Bernard Jacq, M2 BBSG 2008 Module GF. Plan du cours (1ère partie) Rappels biologiques. Introduction Les éléments cis-régulateurs(ADN) Les éléments trans-régulateurs (protéines) - PowerPoint PPT Presentation

Citation preview

Page 1: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Identification et analyse bioinformatiques d'éléments cis-

régulateursdans les génomes

Bernard Jacq,M2 BBSG 2008Module GF

Page 2: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan du cours (1ère partie)Rappels biologiques

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo

Page 3: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

LE CONTROLE DE L’INFORMATION GENETIQUE EUCARYOTE

ARNADN PROTEINE

TRANSCRIPTION TRADUCTION

Page 4: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Quelques généralités sur la régulation de la transcription eucaryote (1/2)

• La variabilité d’expression des gènes eucaryotes résulte d’interactions entre des régions particulières des gènes et des combinaisons de facteurs protéiques spécifiques

• Ces régions d ’ADN sont d’une part les promoteurs (éléments génériques) et d’autres part différents types de régions appelées éléments cis-régulateurs (spécifiques)

• Le promoteur est défini comme la région d’ADN immédiatement en amont du site d’initiation de la transcription, au niveau de laquelle s’assemble le complexe d’initiation de la transcription (polymérase, cofacteurs)

Page 5: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Quelques généralités sur la régulation de la transcription eucaryote (2/2)

• Il y a différentes classes d’éléments cis-régulateurs:– enhanceurs– silenceurs– insulateurs– sites d’attachement à la matrice chromosomique

• l’ensemble des éléments cis-régulateurs d’un gène a généralement une organisation modulaire: différents sous-éléments cis-régulateurs sont chacun responsables d’une partie du patron d’expression global du gène

• les différents modules interagissent avec le même promoteur et la machinerie de transcription qui y est fixée

Page 6: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

LE CONTROLE COMPLEXE DE L’ACTIVITE D’UN GENE PAR PLUSIEURS

INTERACTIONS PROTEINE-ADN

Page 7: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan du cours (1ère partie)

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo

Page 8: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les Promoteurs eucaryotes

Ils sont consistués d’un groupe de motifs d’ADN regroupés en une 100aine de pb en 5’ du site d’initiation

• TATA Box•  INR Box

• DPE Box

Page 9: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

La TATA box est reconnue par la TBP (TATA binding Protein).L’ INR (initiator) et le DPE (downstream promoter element) sont reconnus par des TAFs (facteurs de transcription)

Promoteur

Page 10: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Exemples de TATA Boxes

Page 11: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Une façon de présenter des séquences consensus:Les « sequence logos »

Page 12: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les Enhanceurs

• Aussi appelées Upstream Activation Sequences (UAS)

• Séquences qui assistent le promoteur dans l’initiation

• Peuvent être situées en amont ou en aval du promoteur (et même du gène)

• Peuvent être actives dans l’une ou l’autre orientation

• Sont reconnues par des facteurs de transcription spécifiques

Page 13: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan du cours (1ère partie)

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Régions régulatrices et régulation in vivo

Page 14: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• Les éléments cis-régulateurs de la transcription sont reconnus par un grand nombre de facteurs protéiques :

• certains sont ubiquitaires : polymérase sur promoteur et FT généraux

• la majorité sont spécifiques : facteurs de transcription sur les enhanceurs

• Il existe plusieurs centaines de facteurs de transcription différents chez chaque organisme eucaryote, regroupés en quelques dizaines de familles structurales

Les Protéines régulatrices de la transcription chez les eucaryotes

Page 15: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les principales famillesde protéines régulatrices

Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper

Page 16: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les principales famillesde protéines régulatrices

Protéines à motifs HTH Protéines à doigts à zinc Protéines Leucine zipper

Page 17: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan du cours (1ère partie)

• Introduction• Les éléments cis-régulateurs (ADN)• Les éléments trans-régulateurs (protéines)• Modules cis-régulateurs et régulation in vivo

Page 18: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Modules régulateurs

• Des gènes exprimés dans des contextes spatio-temporaux spécifiques possèdent souvent des MCR (modules cis-régulateurs) spécifiques : séquence régulatrice possédant un nombre significativement élevé de sites de fixation pour des facteurs de transcription tissu-spécifiques.

Photoreceptors

-140 -60

Ret-1 CRX NRL

NRL CRX Ret-1

-200 -40

Rhodopsin Enhancer

Rhodopsin Promoter

Arrestin

CRX Ret-3

-1760-1950

AIRS

Rat senescence marker

Human glucose-6-phosphatase

Human Protein C

Liver Skeletal muscleAChR-?

MCK5'

MLC-1f3f

-

Myf/E Myf/E Myf/E TEF

119 +30

Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2

-1256 -1050

Myf/E Myf/E Myf/E Mef-2

+25,000 +25,200

HNF-4 HNF-1HNF-4 HNF-3 HNF-3

-240 -133

-135

C/EBP C/EBP HNF-1 C/EBP HNF-1

-38

HNF-1HNF -3 C/EBPNF-I

-80 -9

NF-I

Photoreceptors

-140 -60

Ret-1 CRX NRL

-140 -60

Ret-1 CRX NRL

NRL CRX Ret-1

-200 -40

NRL CRX Ret-1

-200 -40

RhodopsinEnhancer

RhodopsinPromoter

Arrestin

CRX Ret-3

-1760-1950

AIRS CRX Ret-3

-1760-1950

AIRS

Ratsenescencemarker

Humanglucose-6 -phosphatase

HumanProteinC

Liver SkeletalmuscleAChR -?

MCK5'

MLC-1f3f

-

Myf/E Myf/E Myf/E TEF

119 +30

Myf/E Myf/E Myf/E TEF

119 +30

Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2

-1256 -1050

Myf/EMyf/E

Myf/EMyf/ESRF/CArG Mef-2 Novel Mef-2

-1256 -1050

Myf/E Myf/E Myf/E Mef-2

+25,000 +25,200

Myf/E Myf/E Myf/E Mef-2

+25,000 +25,200

HNF-4 HNF-1HNF-4 HNF-3 HNF-3

-240 -133

HNF-4 HNF-1HNF-4 HNF-3 HNF-3

-240 -133

-135

C/EBP C/EBP HNF-1 C/EBP HNF-1

-38-135

C/EBP C/EBP HNF-1 C/EBP HNF-1

-38

HNF-1HNF -3 C/EBPNF-I

-80 -9

NF-I HNF-1HNF -3 C/EBPNF-I

-80 -9

NF-I

Page 19: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Beaucoup de genes eucaryotes sont controlés par des combinaisons d’activateurs

et de répresseurs

Page 20: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

stripes 3 + 7 stripe 2

repression site cluster

ps 6,8,10,12 stripesblastoderm +mesodermat GBE

ftzzebra element

evestripes 2 & 3+7

elements

kniposterior element

rholateral neurectoderm

stripe element

UbxPBX element

Quelques exemples d’éléments cis-régulateurs chez la Drosophile

Page 21: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan du cours (2ème partie)

Bioinformatique

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle génomique

Page 22: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les motifs sont courts (6 à 20 pb) Ils utilisent un alphabet limité (A,C,G,T) Ils peuvent présenter une variabilité de séquence importante (sont dégénérés) Ils possèdent un faible contenu d’information (8 à 12 bits, soit un site tous les 250-4000pb) L’affinité de différents sites pour une même protéine peut varier de 3 ordres de magnitude La fonction régulatrice dépend souvent d ’interactions coopératives avec des sites voisins Ces sites sont trouvés dans les régions non-codantes

Celles-ci représentent:- 11% du génome d’E. coli- 25% du génome de la levure- 97% du génome humain

Les problèmes spécifiques liés à la recherche de motifs d’interaction dans

l’ADN

Page 23: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

L’analyse bioinformatique de régions

cis-régulatrices

2 situations différentes

1) Recherche de motifs connus dans une ou plusieurs séquences

- Expressions régulières

- Matrices consensus

2) Découverte de motifs : Un groupe de séquences régulatrices doit contenir des motifs identiques ou similaires pour un ou plusieurs facteurs de transcription, mais ces motifs sont inconnus

Page 24: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle

génomique

Plan du cours (2ème partie)

Page 25: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Différentes représentations d'un motif Différentes représentations d'un motif -> recherche dans de nouvelles -> recherche dans de nouvelles

séquencesséquences

YYYWGASTCACollection de sites -> recherche d'expressions

régulières (avec/sans substitution/délétion/insertion)

AAAAGAGTCAAAATGACTCAAAGTGAGTCAAAAAGAGTCAGGATGAGTCAAAATGAGTCAGAATGAGTCAAAAAGAGTCA

1 2 2 4 5 6 7 8 9 10

A 6 7 7 3 0 8 0 0 0 8T 0 0 0 5 0 0 0 8 0 0G 2 1 1 0 8 0 7 0 0 0C 0 0 0 0 0 0 1 0 8 0

Matrice de fréquence + "scoring scheme" + seuil

-> application lors du parcours de séquence

Séquence consensus (utilisation du code IUPAC)

-> recherche d'une expression régulière

Sequence logoReprésentation du contenu informationnel (en bits)

Page 26: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 27: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 28: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Passage d ’une matrice de fréquence à une matrice de poids-position

Page 29: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

PosBase123456789101112A132080000012C223808000202G123000805452T 410000083222VCACGTKB

Site reconnu par le facteur Pho4p de la levure

Sites régulateurs: matrices pondérées

(Source : TRANSFAC)

Position

Fréquence observée de chaque base à la position i

Valeur entre0 et 2 (bits)

seq(i) = fb,i log2b

fb,i

pb

Fréquence génomique de la base b

Crédit: Denis Thieffry

Page 30: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• La séquence est parcourue avec la matrice, et un score est calculé pour chaque position

• Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionel

• Comment définir un seuil significatif ?

Recherche d'un motif avec une matrice pondérée

Page 31: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Evaluation des outils de recherche de sites

Constitution de collections de séquences contrôles:

+ contenant des sites caractérisés

- ne contenant assurément pas de sites

- séquences "aléatoires"

- séquences "brouillées"

Différentes situations:• Site correctement reconnu = "vrai positif"• Prédiction abusive = "faux positif"• Site manqué = "faux négatif"• Absence de site correctement prédite = "vrai négatif"

Crédit: Denis Thieffry

Page 32: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Compromis lors de la recherche de sites entre:

• Sélectivité = Nbre vrais positifs/ Nbre total hits

• Sensibilité = Nbre vrais positifs/ Nbre total sites

=> Double évaluation:

Total sites = vrais positifs + faux négatifs

Total "hits" = vrais positifs + faux positifs

Grande sélectivité faible sensibilité

-> grande confiance dans les sites prédits

mais beaucoup de sites réels sont manqués

Faible sélectivité grande sensibilité

-> les sites réels sont noyés dans une mer de faux positifs

Crédit: Denis Thieffry

Page 33: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

ENSEMBLE DE SEQUENCES

PROMOTEURS VRAIS

PROMOTEURS TROUVES

PROMOTEURS CORRECTE-

MENTPREDITS

VRAISNEGATIFS

FAUXPOSITIFS

VRAISPOSITIFS

FAUXNEGATIFS

COMMENT EVALUER LES PERFORMANCES DE LA METHODE ?TAUX DE RAPPEL = VRAIS POSITIFS/VRAIS POSITIFS +FAUX NEGATIFSTAUX DE PRECISION = VRAIS POSITIFS/VRAIS POSITIFS +FAUX POSITIFS

NB: TAUX DE PRECISION ET DE RAPPEL VARIENT EN SENS INVERSE

EVALUATION DES PERFORMANCES

Page 34: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Compromis lors de la recherche de sites

vrais négatifs

vrais positifs

faux positifsfaux négatifs scoreseuil

nombrede sitesreconnus

Crédit: Denis Thieffry

Page 35: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Fré

qu

en

ce

Faux positifsVrai positifsTotal hits

Fré

qu

en

ce

Fré

qu

en

ce

Pouvoir discriminant d'une matrice

Faiblement discriminantFortement discriminant

Raisonnablement discriminant

Faux positifsVrai positifsTotal hits

Faux positifsVrai positifsTotal hits

Score

ScoreScore

Crédit: Denis Thieffry

Page 36: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 37: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Sites de facteurs de transcription de Drosophile

Page 38: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Pause …..

Page 39: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Plan (2ème partie)

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l ’échelle

génomique

Plan du cours (2ème partie)

Page 40: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Algorithmes de découverte de motifs

• Fréquences d'oligonucleotides– (W)consensus

• Algorithmes stochastiques – Gibbs sampling (AlignACE)– Maximum expectation (MEME)

• HMM

• Neural networks

Page 41: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

1) Sélection d'un nombre aléatoire de positions dans un ensemble de séquences

2) Création d'une matrice avec ces positions

3) Isolation d'une séquence de l'ensemble et recherche du meilleur score avec la matrice

4) Remplacement de l'ancienne position avec la nouvelle position et actualisation de la matrice

5) Recommencer à partir de (3) pour un nombre fixe de cycles

Faites comme si vous connaissiez le motif, cela pourrait bien devenir vrai...

A 1 0 1 1 1 0C 0 1 1 2 1 0G 2 1 1 0 0 0T 1 2 1 0 2 3

N itérations

Trouvé

Pas trouvé

Découverte de motifs: Gibbs sampler (A Neuwalt)

Crédit: Denis Thieffry

Page 42: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Gibbs Sampling Example

• The following slides illustrate Gibbs sampling to discover a motif in yeast DNA sequences.

• This example uses a sequence model that allows multiple sites per sequence.

• Columns are sampled as well as sites.

Page 43: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

300-600 bp of upstream sequence per gene are searched in

Saccharomyces cerevisiae.

The Input Data SetThe Input Data Set

Source: G.M. Church

Page 44: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

AAAAGAGTCA

AAATGACTCA

AAGTGAGTCA

AAAAGAGTCA

GGATGAGTCA

AAATGAGTCA

GAATGAGTCA

AAAAGAGTCA

**********MAP score = 20.37 (maximum)

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

The Target MotifThe Target Motif(ce qu’il faudra découvrir)(ce qu’il faudra découvrir)

Source: G.M. Church

Page 45: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCACMAP score = -10.0

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Initial SeedingInitial Seeding

Source: G.M. Church

Page 46: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

Add?

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

TCTCTCTCCA

How much better is the alignment with this site as opposed to without?

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

SamplingSampling

Source: G.M. Church

Page 47: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

Add?

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

How much better is the alignment with this site as opposed to without?

Remove.

ATGAAAAAAT

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Continued SamplingContinued Sampling

Source: G.M. Church

Page 48: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

**********

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

Add?

**********

TGAAAAATTC

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

How much better is the alignment with this site as opposed to without?

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Continued SamplingContinued Sampling

Source: G.M. Church

Page 49: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

**********

GACATCGAAA

GCACTTCGGC

GAGTCATTAC

GTAAATTGTC

CCACAGTCCG

TGTGAAGCAC

********* *

GACATCGAAAC

GCACTTCGGCG

GAGTCATTACA

GTAAATTGTCA

CCACAGTCCGC

TGTGAAGCACA

How much better is the alignment with this new

column structure?

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

Column SamplingColumn Sampling

Source: G.M. Church

Page 50: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

5’- TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT

5’- ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG

5’- CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT

5’- TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC

5’- ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA

5’- ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA

5’- GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA

AAAAGAGTCA

AAATGACTCA

AAGTGAGTCA

AAAAGAGTCA

GGATGAGTCA

AAATGAGTCA

GAATGAGTCA

AAAAGAGTCA

**********MAP score = 20.37

…HIS7

…ARO4

…ILV6

…THR4

…ARO1

…HOM2

…PRO3

The Best MotifThe Best Motif

Source: G.M. Church

Page 51: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• Motifs de fixation à l’ADN• Recherche de sites• Découverte de sites• Recherche de sites à l’échelle

génomique

Plan du cours (2ème partie)

Page 52: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Sites de contrôle de la transcription(~7 bases d’information)

Genome de la levure:(12,5 Mb)

• 7 bases d’information (14 bits) ~ 1 occurence toutes les 16000 bases.• Une moyenne de 1500 occurences dans un génome de 12 Mb (24 * 106 sites).• Le nombre réel de sites biologiquement significatifs est probablement beaucoup plus faible .

Faisabilité d’une recherche de Faisabilité d’une recherche de motifs sur l’ensemble d’un motifs sur l’ensemble d’un

génomegénome

Page 53: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• On peut mettre à profit :

• les données d’expression d’ARN (microarrays): clusterisation en utilisant les données de mutations, les conditions expérimentales, les cinétiques d’expression.

• les données d’expression spatio-temporelle: hybridations in situ chez les métazoaires

• les catégorisations fonctionnelles des gènes (f. biochimique, f. cellulaire)

Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche

génomique ? (1)génomique ? (1)

Page 54: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• On peut mettre à profit :

• la conservation inter-spécifique (phylogenomic footprinting)

• la sélection des séquences: éliminer les régions codantes (ORFs), les régions répétitives, et toute séquence susceptible de ne pas contenir de régions de régulation

• Le regroupement (clusterisation) de sites identiques:il est rare de trouver un seul site pour un facteur de transcription donné dans une région cis-régulatrice confirmée) ou de sites pour des FT de même spécificité Spatio-temporelle

Comment réduire l’espace de recherche dans Comment réduire l’espace de recherche dans les séquences pour une recherche les séquences pour une recherche

génomique ? (2)génomique ? (2)

Page 55: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Des Microarrays à la découverte de motifs cis-régulateurs

A1234Z4321

Clustering

EMBL

start

Blast

start

Recherche de motifs

Microarrays

D ’après Magali Lescot

Page 56: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Comparaisons Homme-souris genome pour localiser des sites de régulation

(Phylogenomic footprinting)

"98% of experimentally defined ... binding sites of skeletal-muscle-specific transcription factors are confined to the 19% of human sequences that are most conserved in the orthologous rodent sequences ... the binding specificities of all three major ... factors (MYF, SRD & MEF2) can be computationally identified."

Wasserman et al, Nat Genet 2000 Oct;26(2):225-8

Page 57: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Phylogenomic footprinting: utilisation du programme Vista

Page 58: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Exemple d ’utilisation de la notion de clusters de sites différents

Page 59: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Exemple d ’utilisation de la notion de clusters de sites différents

Page 60: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Exemple d ’utilisation de la notion de clusters de sites différents

Page 61: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Our Approach.

first step Grouping of genes based on the motifs that are overrepresented in their upstream regions. To each possible word w we associate the set Sw of all the genes in whose upstream region the word w is overrepresented

second step Select those sets which show some kind of functional characterization using microarray experiments or Gene Ontology annotations.

Microarray: For each set Sw we compare the expression distribution within the set with the genome wide one (using for example Kolmogorv- Smirnov test).

Une autre aproche (M. Caselle, Université de Turin)

Page 62: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 63: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Les sets S (mots)

• Pour chaque mot (5 à 8 pb), calculer sa fréquence dans toutes les régions en 5’ des gènes de tout le génome considéré comme un échantillon unique.

• On compte ensuite l’occurrence du mot dans la région 5’ de chaque gène pris isolément

• Si le nombre d’occurrences du mot dans la région 5’ du gène G est statistiquement significative (comparé par exemple à une distribution binomiale basée sur les fréquences de référence ci-dessus, alors le gène G

appartient au sous-ensemble S

Page 64: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Le Filtre GO (Gene Ontology)

• Pour chaque sous-ensemble S, on calcule la prévalence de tous les termes GO parmi les gènes annotés de S et la probabilité qu’une telle prévalence puisse survenir au hasard dans un jeu de même taille de gènes choisis au hasard.

• On considère qu’un gène est annoté pour un terme GO t s’il est directement annoté avec ce terme ou l’un quelconque de ses descendants dans le graphe GO.

Page 65: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• Pour un terme GO donné t, on appelle K(t) est le nombre total d’ORFs annotés avec ce terme dans le génome et K(m,t) le nombre d’ORFs annotés avec lui dans le set S(m). Si J et j(m) dénotent le nombre d’ORFs dans le génome et dans ke set S(m) respectivement, la probabilité du terme t est décrite par une loi hypergéométrique

• De cette façon, une p-value peut ête associée à chaque paire constituée d’un motif et d’un terme GO donnés

Page 66: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Taux de fausses découvertes

• Le problème: vu le très grand nombre de P-values qui seront calculées (égal en principe au nombre de termes GO multiplié par le nombre de motifs analysés), il est clair que quelques valeurs faibles de P-values (faux positifs) peuvent apparaître dûes au hasard

• La façon classique de gérer ce problème (la correction de Bonferroni) n’est pas appropriée gans notre cas:

• A cause de la nature hiérarchique de l’ontologie GO, les différentes P-values calculées ne peuvent être considérées comme indépendantes les unes des autres.

Page 67: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

• Comment gérer ce problème ?

• Les auteurs proposent de générer un grand nombre Nr de sets de gènes comparable en taille à la taille typique des sets associés aux motifs puis de classer ces sets « random » sur la base de leurs meilleures P-values

• De cette façon, on peut déterminer une probabilité p f(C) de taux de fausse découverte qui soit une fonction du seuil des P-values C

Page 68: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 69: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 70: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 71: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 72: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 73: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 74: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes
Page 75: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Peut-on prédire la localisation de sites de fixation de FT sur une séquence ?

Peut-on prédire la localisation d’un (ou plusieurs) promoteurs sur une séquence ?

Peut-on prédire l’emplacement de régions régulatrices sur une séquence ?

Quelques problèmes d’actualité en bioinformatique des séquences régulatrices

Echelle de facilité de la tâche

Assez Facile Difficile

Page 76: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

Peut-on comparer des régions régulatrices ?

Peut-on prédire parmi des sites pour des FT ceux qui sont vraisemblables biologiquement et ceux qui ne le sont pas ?

Peut-on prédire l’expression spatiale d’un gène par l’analyse de ses régions régulatrices ?

Quelques problèmes d’actualité en bioinformatique des séquences régulatrices (suite)

Page 77: Identification et analyse bioinformatiques d'éléments cis-régulateurs dans les génomes

C’est fini !