90
Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret [email protected]

Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret [email protected]

Embed Size (px)

Citation preview

Page 1: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences génomiques

DEA en bioinformatique

Lausanne, 3 mai 2001Laurent Duret

[email protected]

Page 2: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Plan

• Taille des génomes, paradoxe de la valeur C

• Contenu informationnel

• Séquences répétées

• Organisation en isochore des génomes de vertébrés

• Prédiction de gène protéiques

• Prédiction de régions régulatrices non-codantes

• Usage des codons synonymes

Page 3: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

What is a genome ?1911 - gene:

Elementary unit, responsible for the transmission of hereditary characters

1920 - genome:

Set of genes of an organism

1944 - Avery et al.

DNA is the molecule of heredity

1950-70 :

Double helix

Genetic code

Page 4: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mycoplasma genitalium0,6 Mb

Genomes sizes E. coli 4,7 Mb

YeastS. cerevisiae

13,5 Mb

NematodeC. elegans

100 Mb

ProtozoaAmoeba dubia

700 000 Mb

PufferfishFugu

rubripes400 Mb

Man3400 Mb

Xenopuslaevis

3100 Mb

AmphibiaNewt

100 000 Mb

DipnoiLungfish

150 000 Mb

ProkaryotesEukaryotes

Page 5: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr
Page 6: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

13%2%85%Drosophila85%2%13%E. coli70%2%28% YeastS. cerevisiae

5%2%93%Man27%2%71%NematodeC. elegansProportion of functional elements within genomes

2%98%0,01%Lunfish (dipnoi)Coding (protein)RNANon-coding

Page 7: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

How many genes in the human genome ?Technique Gene estimate Comments/assumptions

Estimation 100,000 if average size = 30 kb

Estimation 300,000 if average size = 10 kb

RNA reassociation 20,000 - 92,000

Genomic sequencing (1994) 71,000 biased toward gene-rich region?

CpG islands 67,000 assumes 66% human genes have CpG islands

EST analysis (1994) 64,000 matching with GenBank; 50% EST redundancy

Chromosome 22 (1999) 45,000 correction for high gene density on chrom. 22

Chromosome 21 (2000) + 22 40,000

Exofish (2000) 28,000-34,000 Comparison human/fish

EST (2000) 35,000 Number of genes

EST (2000) 120,000 Number of transcripts

Complete genome (2001) 30,000-40,000 Known genes + predictions

Page 8: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Functional elements in the human genome

Untranslated RNAs: Xist, H19, His-1, bic, etc.

Regulatory elements: promoters, enhancers, etc.

Repeated sequences (SINES, LINES, HERV, etc.) : 40% of the human genome

3.4 109 nt 30,000-40,000 protein-coding genes

86% no known function61%25%introns1.5%12%protein-coding regionscentromeres, telomeres,

replication origins,SAR

RNA0.5%intergenic

Page 9: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• 1396 complete human genes (exons + introns) from GenBank (1999)

• Average size (25%, 75%)

– Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb)

– CDS 1300 nt ± 1200 (600, 1500)

– Exon (coding) 200 nt ± 180 (110, 200)

– Intron 1800 nt ± 3000 (500, 2000)

– 5'UTR 210 nt (Pesole et al. 1999)

– 3'UTR 740 nt (Pesole et al. 1999)

• Intron/exon

– Number of introns: 6 ±3 introns / kb CDS

– Introns / (introns + CDS): 80%

– 5' introns in 15% of genes (more ?), 3 ’introns very rare

• Alternative splicing in more than 30% of human genes (Hanke et al. 1999)

Page 10: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• GenBank: bias towards short genes

• 2408 complete human genes (exons + introns)

≤949698Publication date48121620222000Gene size (coding exons+introns) kb

Page 11: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• GenBank: bias towards short genes

• 1396 complete human genes (exons + introns)

• 9268 complete human mRNA

Sequence:cDNA

complete gene (exons+introns)

400800120016002000889092949698Average CDS size (nt)Publication date

Page 12: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Overlapping genesN-myc geneN-cym geneIA IB II IIIIII II IPOL II

promoter

polyadenylationsite

transcriptionmaturation5'pm7GpppAAAAAAAAAAsmall nucleolar

RNA

mRNAoverlapping protein genessmall nucleolar RNA genes within intronsof protein genes

Page 13: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Tandem repeatsRepeated sequencesInterspersed repeatsDNA transposons retroelementsRecombination- DNA polymerase slippage:

CACACACACACA

- unequal crossing-over

motif bloc size % humangenome

satellite: 2-2000 nt up to 10 Mb 10%minisatellite: 2-64 nt 100-20,000 bp ?microsatellite: 1-6 nt 10-100 bp 2%

Page 14: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

ADN satellite: centromères

CTTCGTTGGAAACGGGAsatellite α (171 )pb

(17 )site CenpB pb répétitions de satelliteα

répétitions d'ordre, supérieur spécifiques

de chaque chromosome( 10 )jusqu'à Mb

centromèrechromosome

Page 15: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Reverse transcriptase:RetroelementsNucleusCellRNADNAtranscriptionreverse transcriptionintegrationLINEs (long interspersed elements): 6-8 kbretroposons

SINEs (short interspersed elements):80-300 bpsmall-RNA-derived retrosequences (tRNA), pol III

Endogenous Retroviruses: 5-10 kb

LTR gag pol env LTRRetrovirusRetrotransposonRetroposonRetroséquenceRetrovirus

Page 16: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

NucleusCellLINE reverse transcriptaseRetrosequences:opportunist retroelements

reverse transcriptionDNARNALINERNART protein

Page 17: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Pseudogenes1 - gene duplication generepeated elementinequal crossing-over2 - gene inactivation mutationA - pseudogenes derived from recombinationB - retropseudogenesgenepromoterAAAAAAtranscription + maturationmRNADNAretrotranscription + integrationAAAAAADNA

Page 18: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Retropseudogènes

• 23,000 à 33,000 retropseudogènes dans le génome humain

• Les gènes qui génèrent des retropseudogènes sont généralement de type housekeeping

• Gonçalves et al. 2000

Page 19: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des éléments transposables dans le génome humain

• Total = 42% (Smit 1999)

0%4%8%12%AluLINE1MIRLINE2LTR elementsDNAtranposon

Page 20: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des éléments transposables dans le génome humain (Smit 1999)

0%5%10%15%20%25%30%AluLINE1AutosomesChromosome X

Page 21: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochore organization of vertebrate genomes

Page 22: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Organisation en isochore des génomes de vertébrés: mise en évidence expérimentale

densité à l'équilibre, g/cm31,6901,7001,71030%41%51%satellitetaux C+Gcomposantmajeur

Fractionnement du génome de la souris par centrifugation en gradient de densité (Bernardi et al. 1976)

Page 23: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences publiées dans les banques de données.

Corrélation entre la composition en base en position 3 des codons et celle de l'envirronement génomique dans lequel se trouve le gène

Page 24: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences publiées dans les banques de données.

Distribution en fréquence des gènes dans les différentes classes d'isochores

CDS GC3%

0

1

2

3

4

5

6

7

0 20 40 60 80 100

Moy = .612Ecart-t = .1585447 séq

0

1

2

3

4

5

6

7

0 20 40 60 80 100

Moy = .639Ecart-t = .171818 séq

Homme Poulet

Nb

de

gèn

es (

%)

0

2

4

6

8

10

12

0 20 40 60 80 100

Moy = .509Ecart-t = .106703 séq

Xénope0 20 40 60 80 100

Danio

Moy = .580Ecart-t = .103173 séq

0

2

4

6

8

10

12

14

Page 25: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Evolution de la structure en isochore chez les vertébrés

Page 26: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochore organization of vertebrate genomes

• Insertion of repeated sequences (A. Smit 1996)

• Recombination frequency (Eyre-Walker 1993)

• Chromosome banding (Saccone, 1993)

• Replication timing (Bernardi, 1998)

• Gene density (Mouchiroud, 1991)

• Gene expression ?? -> No

• Gene structure (Duret, 1995)

isochore %C+G % total genomic DNA

L1+L2 : 33%-44% 62 %

H1+H2 : 44%-51% 31%

H3 : 51%-60% 3-5%

H1+H2L1+L2H3H1+H2L1+L2L1+L2>300 kbBernardi et al. 1985

Page 27: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and insertion of repeat sequences (Smit 1999)

4%8%12%16%20%AluLINE-1LTR-

elements

Density in repeat sequencesG+C content of genomic sequence:G+C < 39%G+C > 47%G+C 39%-47%

4419 human genomic sequences > 50 kb4419 human genomic sequences > 50 kb

Page 28: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and gene density

MHC locus (3.6 Mb) MHC locus (3.6 Mb) (The MHC sequencing consortium 1999)(The MHC sequencing consortium 1999)

Class I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenesClass I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenesClass III (H3 isochore): 84 genes/Mb, no pseudogeneClass III (H3 isochore): 84 genes/Mb, no pseudogene

Class II boundaries correlate with switching of replication timingClass II boundaries correlate with switching of replication timing

isochore % total genomic DNA %total genes

L1+L2 : 62 % 31%

H1+H2 : 31% 39%

H3 : 3-5% 30%

2060100140Number of genes / MbL1+L2H1+H2H3Mouchiroud et al. 1991

Page 29: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and introns length

• 760 complete human genes• L1L2: intron G+C content < 46%• H1H2: intron G+C content 46-54%• H3: intron G+C content >54%

Average intron length (bp)Gene compaction (intron length/coding region length)40080012001600200024681012L1L2H1H2H3L1L2H1H2H3

Duret, Mouchiroud and Gautier, 1995

Page 30: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Next steps in genome projects

• Identify genes and other functional elements within genomic sequence (where are the genes ?)

• Determine the function of genes (what do they do ?)

Page 31: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction ab initio de gènes eucaryotes

• Introns, exons• Prédiction de gènes protéiques

– Recherche de phases ouvertes de lecture (ORF: open reading frame)

Phase +0Phase +1Phase +2

ATGTACCGTCGATCGTAGCTTGATCGATCGTACATGGCAGCTAGCATCGAACTAGCTAGC

Phase -0Phase -1Phase -2

• Taille moyenne des ORF: ± 150 nt– Statistiques sur les nucléotides, usage des codons

• Hexamères

– Signaux d ’épissage

Page 32: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes (suite)

• Construction d ’un modèle de gène protéique– Combinaison d ’exons de phases compatibles (pondération en fonction des

scores de chaque exon potentiel)

– Recherche de limites de gènes• Exons terminaux (5 ’, 3 ’)• Promoteur• Signal de polyadénylation

...123 123 123 Exon i123 123 123...Exon i+1GT............AGIntron ...123 123 12 3 123 123 123...GT............AG ...123 123 1 23 123 123 123...GT............AG

polyApolyAPromoteurPromoteur

Page 33: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes: qualité de la prédiction

• Comparaison des différents logiciels: sensibilité/spécificité– Sensibilité : fraction des exons présents dans la séquence qui sont bien retrouvés – Spécificité : fraction des vrais exons parmi tous ceux qui sont prédits– Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e)

– Jeu de données Burset-Guigo (1996): 570 gènes de vertébrés

Sn_e Sp_e Sn_n Sp_nGenScan 0.78 0.81 0.93 0.93FGENES 1.6 0.83 0.82 0.92 0.93Grail2 0.36 0.43 0.72 0.87

Page 34: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes: qualité de la prédiction

• Comparaison des différents logiciels: sensibilité/spécificité– Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e)

– Locus BRCA2 (1.4 Mb, chrom. 13q) (Sanger Centre 1999): région "difficile" pour les logiciels de prédiction. 159 exons

Sn_e Sp_e Sn_n Sp_nGenScan 0.66 0.36 0.81 0.44FGENES 1.6 0.69 0.57 0.79 0.66FGENES 1.6 masked 0.69 0.65 0.79 0.74GenScan+FGENES 0.61 0.82 0.67 0.90

Page 35: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes protéiques complets• C. elegans: la plupart des ‘ gènes ’ annotés sont seulement des prédictions• Peut-on utiliser ces méthodes pour annoter les séquences génomique humaines ?

– + les faux positifs ! + épissage alternatif !– exons non-codants !

00.20.40.60.8113579111315Sensibilité par exon:90%80%

Probabilité de détecter tous les exons d’un gènesNombre d’exons du gène

Page 36: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Un peu d ’optimisme

• Fraction de la longueur des gènes correctement prédits:

70-80%

• Probabilité que deux exons potentiels consécutifs soient réels (et donc positifs en RT-PCR)

0.5

Page 37: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prediction of functional elements (2)

Large scale transcriptome projects: ESTs, full-length cDNA Identification of transcribed genes (protein or non-coding RNA) Information on alternative splicing, polyadenylation (Hanke et al.

1999, Gautheret et al. 1998), expression pattern SIM4: align a cDNA to genomic DNA Very useful but ...

Problems with genes expressed at low level, narrow tissue distribution, stage-specific expression, …

Limited tissue sampling Artifacts in ESTs (introns, partially matured RNA, …) Limited to polyadenylated RNA

Page 38: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prediction of functional elements (3) Comparative sequence analysis (phylogenetic footprinting)

Function => selective pressureCorollary

Sequence conservation = selective pressure = function provided the number of aligned homologous sequences represents enough

evolutionary time for the accumulation of mutations at the less constrained (presumably selectively neutral) base positions.

• Evolutionary rate in non-functional DNA: ~ 0.3% / My (± 0.069)

Man/Mouse: ~ 80 Myrs 46-58% identity

Mammals/Birds: ~ 300 Myr 26-28% identity

Random sequences 25% identity

Page 39: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse comparative des gènes de -actine de l'homme et de la carpe

CarpeHomme5’UTR 3’UTR site polyA échelle de similarité: pas de similarité significative70 - 80% identité80 - 90% identitérégions codantes: éléments régulateurs:introns:ATGcodon stop

Page 40: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

coding exon: 12%

repeated elements : 21%

promoter

Comparison of human and mouse CD4-C9 locus:

gene-rich, repeated-element poor, G+C-rich region (50.5%)

Human chromosome 12p13

Mouse chromosome 6

8 genes: CD4, A, B, GNB3, C8, ISOT, TPI, C9

CD4 A

Mouse

Human

B GNB3 ISOT TPI C9C8

Page 41: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

MouseHumanTsxComparison of human and mouse TSX-XIST genomic locus:gene-poor, repeated-element rich, G+C-poor region (39.9%)mouse TSX gene: 10,100 bp mRNA 794 bpexon 1: 165 bpexon 2: 36 bpexon 3: 37 bpexon 4: 82 bp

(repeated elements filtered)

exon 5: 101 bpexon 6: 59 bpexon 7: 317 bp

TSX pseudogene ?XISTXistcoding exon: 0.2%repeated elements: 53%promoter

Page 42: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Approche comparative (suite)

• Comparaison d ’une séquence génomique avec des gènes déjà caractérisés dans d ’autres espèces (WISE2: alignement ADN/protéine avec épissage)

• Comparaison de séquences génomiques (non-annotées) homologues– Locus mnd2 (homme souris) (Jang et al. 1999): >80 kb– Prédiction d ’exons internes basée sur la conservation de séquence

ORF ≥ 80 ntSéquence protéique ≥ 70% similaritéSéquence ADN ≥50% identitéGT AG conservés=> détection de tous les exons internes du gène D6Mm5e

• Généralisation de la méthode : Sensibilité ? Spécificité ?

Page 43: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Approche comparative: quelle est la bonne distance ?

Guigo, Duret, Wiehe

0.960.48Homme/drosophile (670 Ma) 33

0.880.81Homme/fugu (450 Ma) 17

0.870.85Homme/poulet (300 Ma) 35

0.680.95Homme/souris (80-100 Ma) 28

0.530.99Rat/souris (≈15 Ma) 8

Sp_nSn_ndistance N

Recherche d’exons codants conservés entre séquences génomiques orthologues (TBLASTX)Recherche d’exons codants conservés entre séquences génomiques orthologues (TBLASTX)

Page 44: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Phylogenetic footprinting Advantages

Works for all kinds of functional elements (transcribed or not, coding or not) as far as the information is in the primary sequence

Does not require any a priori knowledge of the functional elements

Limits Absence of evolutionary conservation does not mean absence of function No efficient method to detect unknown conserved secondary structure in

RNA Function, but what function ? Number of sequences to compare : > 200 Myrs of evolution

Mammals/birds: 310 Myrs Human + mouse + bovine : 240 Myrs

Page 45: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Annotation systématiquedu génome humain

• ENSEMBL project– http://www.ensembl.org/

• Human Genome Project Working Draft at UCSC– http://genome.ucsc.edu/

• The genome channel– http://compbio.ornl.gov/channel/index.html

Page 46: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de régions régulatrices

• Méthodes ab initio

– Prédiction de promoteurs

– Îlots CpG

• Approche comparative

Page 47: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs eucaryotes

• Combinaison de sites de fixation de facteur de transcription (ordre, orientation, distance)

• Motifs courts, dégénérés– Difficile de distinguer les vrais sites des faux positifs:– Motif à 4 bases: ≈1/256 pb (1/128 pb sur les deux brins)

• Boîtes TATA, CAAT , GC: absents dans beaucoup de promoteurs

• Banques de données de sites de fixation de facteurs de transcription (TRANSFAC), de promoteurs caractérisés expérimentalement (EPD)

• PromoterScan (Prestridge 1995): Mesure de la densité en sites potentiels de fixation de facteurs de transcription de long de la séquence (pondération en fonction de la fréquence des sites dans ou en dehors des vrais promoteurs)

Page 48: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs: sensibilité, spécificité

• Sensibilité: fraction des promoteurs qui sont trouvés par le logiciel

– PromoterScan: sensibilité = 70% (promoteurs à boîte TATA)

• Spécificité: fraction des vrais promoteurs parmi ceux qui ont été prédits

– PromoterScan: spécificité = 20%– Un faux positif / 10 kb

• Génome humain: ≈100 000 gènes, ≈1 promoteur/30 kb

sensibilité=vrais_ positifs

vrais_ positifs+faux_ négatifs

spécificité=vrais_ positifs

vrais_ positifs+faux_ positifs

SpécificitéSensibilité1000Seuil

Page 49: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs eucaryotes: recherches en cours

• Prise en compte de l'orientation relative et des distances entre sites de fixation de facteurs de transcription– COMPEL (Kolchanov 1998): banque de données d'éléments composites– FastM : recherche dans une séquence génomique d'une combinaison de deux sites

de fixation de facteurs de transcription à une distance définie l'un de l'autre

• Recherche de corrélations entre sites– PromoterInspector (Werner 2000)

• Sensibilité: 40%• Spécificité: 45%

http://www.gsf.de/biodv/index.html

• Combinaison recherche ab initio / approche comparative: recherche de sites potentiels parmi les régions conservées

Page 50: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Îlots CpG• Génome de vertébrés :

– méthylation des C dans les dinucléotides 5 ’-CG-3 ’(CpG)

• Me-C fortement mutable -> T5 ’-CG- 3 ’ 5 ’-TG-3 ’ 5 ’-CA-3 ’

3 ’-GC- 5 ’ 3 ’-AC-5 ’ 3 ’-GT-5 ’

• Génome des vertébrés: globalement dépourvu en CpG (excès de TG, CA)

• Certaines régions (200 nt à plusieurs kb) échappent à la méthylation– Pas de déplétion en CpG: CpGo/e proche de 1

– Riche en G+C

– Îlot CpG:Longueur > 500 nt

CpGo/e > 0.6

G+C > 50%

ouou

CpGo /e =Nombre_ de_ CpG_ observéNombre_ de_CpG_ attendu

=0.25

01CpGo/e

Page 51: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

La déamination des cytosines

Cytosine

N

C

CH

C

NH

NH2

O

CH

réparation

Cytosine

N

C

CH

C

NH

NH2

O

CH

Cytosine méthylée

N

C

CH

C

NH

NH2

O

CH

CH3

Uracile

HN

C

CH

C

NH

O

CH

O

déamination

Thymine

HN

C

CH

C

NH

O

CH

O

CH3

déamination TpGou

CpA

Page 52: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Îlots CpG: associé aux régions promotrices ?

• Bird (1986), Gardiner-Garden (1987) Larsen (1992) ref– 40% des gènes tissu-spécifiques possèdent un îlot CpG en 5 ’

– 100% des gènes ‘ housekeeping ’ possèdent un îlot CpG en 5 ’

• Rechercher des îlots CpG pour prédire des régions promotrices ?– Sensibilité: 40-100%

– Spécificité ?? (Quelle fraction des îlots CpG correspond effectivement à des régions promotrices ?)

• Ponger (2001): comparaison des îlot CpG qui recouvre ou non le site d ’initiation de la transcription

Page 53: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des gènes humains avec un îlot CpG recouvrant le site d ’initiation de la transcription

– 800 gènes humains avec promoteur décrit

– Mesure de la distribution tissulaire à l ’aide d ’EST (20 tissus)

0%20%40%60%80%0-23-67-20Nombre de tissus où le gène est exprimé

Page 54: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Comparaison des îlots CpG recouvrant ou non le site d ’initiation de la transcription

– 272 îlots start CpG recouvrant le site d ’initiation de la transcription (start)

– 1078 îlots CpG en dehors d ’un promoteur connu (other) (en excluant les séquences répétées)

0 2460.50.70.91.11.350%60%70%80%otherstartG+C%CpGo/eLongueur(kb)

Page 55: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Recherche de régions régulatrices par analyse comparative (empreintes phylogénétiques)

• Goodman et al. 1988: régulation de l’expression des gènes du cluster -globine au cours du développement

• Alignement de séquences orthologues de 6 mammifères (> 270 Ma d’évolution)

• 13 empreintes phylogénétiques: ≥ 6 nt, conservation 100%

• Analyse par retard de bande sur gel:

• 12/13 (92%) correspondent à des sites de fixation de protéines

• 1996: 35 empreintes phylogénétiques avec protéines fixatrices identifiées

• Enhancers de gènes HOX (Fugu/souris) (Aparicio et al. 1995)

• enhancer TCR α (homme/souris) (Luo, 1998)

• promoteur COX5B (11 primates) (Bachman, 1996)

• promoteur uPAR (homme/souris) (Soravia, 1995)

Page 56: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Large scale phylogenetic footprinting

Non-coding sequences : 325,247 sequences 145 Mb

everything except protein-coding regions and structural RNA genes (rRNA, tRNA, snRNA, scRNA)

Introns, 5' and 3' untranslated regions, intergenic sequences

Filtering of microsatellite repeats and cloning vectors: XBLAST

Similarity search: BLASTN + LFASTA

Vertebrates, insects, nematode

Page 57: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Metazoan Genome ProjectsMillion yearsPorifera (sponge)Nematodes (C. elegans)Arthropods (Drosophila)EchinodermsUrochordataCephalochordata (amphioxus)Jawless fisheschondrichthyes (ray, shark)actinopterygii (bony fishes)amphibians mammals birds reptiles600400200800VertebratesSequencing effort: 9 to 100 Mb 0.8 to 2.4 Mb less than 0.2 Mb

Page 58: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Sequence Similarities1- Identification of new genes

protein-genes, RNA-genes: intronic snoRNA genes

2- Retroviral elements, retrotransposons

3- Low complexity sequences:

GC-rich, AT-rich, cryptic microsatellites

4- Artefacts:

annotation errors, sample contamination (sponge insulin, ascidian RNA, chicken TGFB1)

5- 326 highly conserved regions (HCRs)

- do not code for proteins

- do not correspond to any known structural RNA

Page 59: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

326 Highly Conserved Regions (HCRs)

• > 70% identity over 50 to 2000 nt after more than 300 Myrs

• Unique sequences

• Generally specific of only one gene

• Longest HCR:

84% identity over 1930 nt after 300 Myrs

3’UTR deltaEF1 transcription factor

• Oldest HCRs: 500 to 600 Myrs

• No HCR between vertebrates and insects or nematode

Page 60: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Oldest HCRsMillion yearsPorifera (sponge)Nematodes (C. elegans)Arthropods (Drosophila)EchinodermsUrochordataCephalochordata (amphioxus)Jawless fisheschondrichthyes (ray, shark)actinopterygii (bony fishes)amphibians mammals birds reptiles600400200800Sequencing effort: 9 to 100 Mb 0.8 to 2.4 Mb less than 0.2 MbHistone 3’UTRα- actin3’UTR

3 5’HOX UTRVertebrates

Page 61: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Conservation pattern in 3’UTRsposition relative to the stop codon (nt)10005000150020002400c-fosTransferrin receptorbirdmammalEndoplasmic-reticulum Ca2+ ATPase birdmammalbirdmammalsimilarity: <60% ≥60% ≥70% ≥80%

Page 62: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Distribution of HCRs within genes3'-non-coding5'-non-codingintrons0%10%20%30%40%mammals / birdsmammals / amphibiansmammals / bony fishes2841917296512563812 Frequency of orthologous

genes containing HCRs

Page 63: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

HCRs and multigenic familiesHistone replacement variant H3.3A0400600100014001800AAAAAAAAUGStopAUGStopAAAAAAAHistone replacement variant H3.3BHistone replacement variant H3.3A and H3.3B, Calmodulinsnt• several genes coding for a same protein

• non-coding sequences are distinct, and conserved

Page 64: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Function of 3’HCRs: mRNA stability, translation

A+U-rich element: stability, translationposition relative to the stop codon (nt)10005000150020002400c-fosTransferrin receptorbirdmammalbirdmammalsimilarity: <60% ≥60% ≥70% ≥80%IRE : Iron Responsive Element

IRP : Iron Regulatory Protein

CCAGUGN5'3'

Page 65: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Function of 3’HCRs:mRNA subcellular localization

Myosin heavy chain, c-myc, vimentin, -actin

chickencarp (bony fish)site poly(A)site poly(A)0200400600800position relative to the stop codon (nt)localization signalssimilarity: <60% ≥60% ≥70% ≥80%- 3’actin UTR

Page 66: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Comparaison des régions non-codantes de 77 gènes orthologues homme/souris (Jareborg et al. 1999)

0.20.40.60.81Upstream(1 kb)5’UTRIntrons3’UTRs

Upstream015’UTRcoding exon

intron3’UTR

Fraction des régions non-codantes conservées entre homme et souris

Page 67: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Next steps in genome projects

• Identify genes and other functional elements within genomic sequence (where are the genes ?)

• Determine the function of genes (what do they do ?)

Page 68: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de fonction par homologie ?• Similarité entre séquences homologie• Homologie structure conservée• Structure conservée fonction conservée

• Oui, mais …– Fonction: concept flou

• activité biochimique identique ? e.g. même ligand pour un récepteur, même substrat pour une enzyme, même gènes cibles pour un facteur de transcription.

• distribution tissulaire ? (isoformes tissu-spécifiques).• compartimentalisation cellulaire: cytoplasme, mitochondrie, etc.

– Protéines homologues de fonction différentes • Protéines homologues ligands (activateur/répresseur) d ’un même récepteur• Recrutement pour une fonction totalement différente: -cristalline / α-énolase

– Orthologie/paralogie

– Évolution modulaire

Page 69: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de fonction par homologie ?

MZEORFG: 1 ILNSPDRACNLAKQAFDEAISELDSLGEESYKDSTLIMQLLXDNLTLWTSDTNEDGGDE 59 I N+P++AC LAKQAFD+AI+ELD+L E+SYKDSTLIMQLL DNLTLWTSD ++ EBOV1433P: 186 IQNAPEQACLLAKQAFDDAIAELDTLNEDSYKDSTLIMQLLRDNLTLWTSDQQDEEAGE 244

Score = 87.4 bits (213), Expect = 1e-17 Identities = 41/59 (69%), Positives = 50/59 (84%)

LOCUS BOV1433P 1696 bp mRNA MAM 26-APR-1993DEFINITION Bovine brain-specific 14-3-3 protein eta chain mRNA, complete cds.ACCESSION J03868

LOCUS MZEORFG 187 bp mRNA PLN 31-MAY-1994DEFINITION Zea mays putative brain specific 14-3-3 protein, tau protein homolog mRNA, partial cds.

Page 70: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Orthologie/paralogiespéciationduplicationPrimatesRongeursHommeRatGène ancestral

de l’insulineSourisRatSourisINSINS1INS1INS1INS2INS2INS2Homologie: deux gènes sont homologues si ils ont un ancêtre commun

Orthologie: deux gènes sont orthologues si ils ont divergé à la suite d’un évènement de spéciation

Paralogie: deux gènes sont paralogues si ils ont divergé à la suite d’un évènement de duplication

Orthologie ≠ équivalence fonctionnelle

!

Page 71: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Approche phylogénétique pour la prédiction de fonction

1) Identifier les homologues

2) Aligner les séquences

3) Calculer l’arbre phylogénétique

2A3A1A1B2B3B2A3A1A1B2B3B2A3A1A1B2B3B2A3A1A1B2B3B2ADuplication de gènes4) Placer les fonctions connues sur l’arbre

5) Inférer la fonction probable des gènes

Page 72: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Evolution modulaire

ABC

Page 73: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Synonymous codon usage61 codons, 20 amino-acids: genetic code degeneracy

Synonymous codon usage is not random: some codons are preferentially used

Synonymous codon usage bias

0.0%25.0%50.0%75.0%Example: Proline codon usage in Escherichia coli (4300 genes)

Page 74: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mycoplasmacapricolum

Micrococcusluteus

Saccharomyces cerevisiae

Caenorhabditis elegans

Mus musculus0%25%50%75%100%CCUCCCCCACCGExample: proline codon usage in different speciesMST serine/threonine kinaseInositol 5-phosphatase0%25%50%75%CCU

CCC

CCA

CCG

Example: proline codon usage in different human genesSYNONYMOUS CODON USAGE BIAS VARIES ...... ACCORDING TO THE SPECIES... ACCORDING TO GENES WITHIN A SAME GENOME

Page 75: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

HOW TO EXPLAIN BIASES IN SYNONYMOUS CODON USAGE ?SELECTIONIST AND NEUTRALIST HYPOTHESES

Selection of codons that are optimal for translation

(speed or accuracy)

Mutational biasCodon usage bias is correlated with gene expression level

Prefered codons correspond to the most abundant tRNAs

Selective pressure on synonymous sites => synonymous substitution rate is negatively corelated with codon usage bias

Examples: E. coli, B. subtilis, yeast

No relationship with gene expression level

Mutational biases affect all positions within a genome (not only synonymous codon position) => correlation between codon usage and whole genome base composition

Examples: - Borrelia burgdorferi:

whole genome : 29% G+C3rd codon position : 21% G+Cother positions: 32% G+C

- Mycobacterium tuberculosis: whole genome : 66% G+C3rd codon position : 79% G+Cother positions: 60% G+C

Selection-mutation-drift model

Page 76: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mise en évidence d’une pression de sélection sur le choix des codons synonymes chez des organismes

pluricellulaires

• Corrélation entre biais d’usage des codons synoymes et niveau d’expression des gènes

• C. elegans • D. melanogaster • A. thaliana

• Corrélation entre l’abondance des ARNt et l’usage des codons synoymes

• D. melanogaster (White et al.1973, Moriyama & Powell 1997) • C. elegans

Page 77: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Expressed Sequence Tags (ESTs)Inventory of mRNAs expressed by a given organism in different tissues (or cell cultures), development stages, sexes, in response to stimuli, pathologies, etc.

Procedure• cDNA libraries

- polyA+ selection- normalization: reduce the abundance of

over-expressed mRNA

• automatic sequencing from 3' or 5' end, single read

Result• partial mRNA sequences (300-500 nt)• high error rate (3-6%)• high redundancy

Page 78: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

In Silico Northern Blot• probe = mRNA sequence (or coding-region, when only the genomic sequence is known)

• filtering of repeated elements (microsatellites, Alu, LINEs, etc.)

• similarity search (BLASTN2) against a species-specific EST collection

• threshold for positive matches : ≥ 95% identity over 100 nt or more

- low enough to tolerate sequencing errors- high enough to distinguish different members of a gene family

• we only retained cDNA libraries that had been sufficiently sampled (> 10.000 ESTs)• cell culture, pathologies, unidentified cDNA libraries were not considered

number of ESTs number of different tissues/stages

Human 802,246 22/3C. elegans 67,987 2/2A. thaliana 36,200 1Drosophila 27,491 2/2

Expression pattern

• tissue distribution: tissue-specific vs. housekeeping

• expression level: number of EST matches / total number of ESTs in that cDNA library

Page 79: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

No EST detected low moderate high

0.350.400.450.500.550.600.350.400.550.600.650.70Caenorhabditis elegansDrosophila melanogasterArabidopsis thalianaprotein length< 333 aa333-570 aa> 570 aaFavError bars indicate the 95% confidence interval.mRNA abundance:Frequency of favored codons (Fav),

protein length and expression level

Page 80: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

No ESTLowInterme-diateHighExpressionIntron G+C contentD. melanogasterN = 439A. thalianaN = 2386C. elegansN = 7891

Mutational bias or selection ?In Drosophila, C. elegans and A. thaliana most of favored codons end in C or G.

Does codon usage reflect a mutational bias towards G or C in highly expressed genes ?

Page 81: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

0.300.400.500.60both in embryo and adultonly in adultonly in embryoNo ESTprotein length< 333 aa333-570 aa> 570 aaExpression during development :FavCaenorhabditis elegansFrequency of favored codons (Fav), protein length and expression during

development in C. elegans.

Favored codons are the same in embryo- and adult- specific genes

Page 82: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mise en évidence d’une pression de sélection sur le choix des codons synonymes chez des organismes

pluricellulaires

• Corrélation entre biais d’usage des codons synoymes et niveau d’expression des gènes

• C. elegans • D. melanogaster • A. thaliana

• Corrélation entre l’abondance des ARNt et l’usage des codons synoymes

• D. melanogaster (White et al.1973, Moriyama & Powell 1997) • C. elegans

Page 83: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Isoaccepting tRNA gene copy numberFrequency of amino-acids (weighted according to protein

expression levels)

515253545R = 0.82p < 0.00010%2%4%6%8%ACDEFGHILMNPQRSTVWYK Relationship between the number of tRNA genes and amino-acid usage in

C. elegans genome

580 tRNA genes

Page 84: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr
Page 85: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Example: proline

tRNA Codon

CGG CCG

GGG CCC

AGG CCT

TGG CCA

Relationship between favored codons and tRNA abundance in C. elegans genome

Anticodon-codon recognition(Wooble):

Anticodon CodonA UC GG C, UU A, GI U, C, (A)

A’s at first anticodon position are predicted as I’s

In all cases, favored codons are decoded by the most frequent tRNA gene

Page 86: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Selection on codon usage =selection for higher translation efficiency

- elongation rate

- cost of proofreading

=> no relationship between codon usage and gene length

- translation accuracy

the energetic cost of translation and the probability of misincorporation increase with protein length:

=> stronger selective pressure on codon usage in long genes => positive correlation between codon usage and gene length

E. coli (Eyre-Walker, 1996; Moriyama & Powell, 1998)

Page 87: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Correlation between protein length and Fav (a) or Favmax (b) in C. elegans highly expressed genes

number of codons (log scale) 0.2 0.4 0.6 0.8 25 80 250 800 2500 8000 R = -0.60 p<0.0001 Fav number of codons (log scale) 0.2 0.4 0.6 0.8 25 80 250 800 2500 8000 R = -0.42 p<0.0001 Favmax Favmax = maximum Fav value along coding sequences, using a sliding window of 150 codons, moved by steps of 3 codons. Variation of codon usage along genes ?

Page 88: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr
Page 89: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mutations and evolutionBase modificationReplication error

etc.

MutationDNA repairs < 0 : Negative selection|Ns| << 1 : Random genetic drift s > 0 :Positive selectionFixationselective advantage or disadvantage (s)Population (N)Probability of fixation : p = f(s, N) somatic

transmission to the offspringIndividual|Ns| << 1 : rate of evolution = rate of mutationgermline

no transmission to the offspringallele lossPolymorphismRate of mutation:etc. Rate of molecular evolution

= f(mutation rate, probability of fixation)

environmentsensibility to mutagensfidelity of polymerasesefficiency of DNA repair

Page 90: Analyse statistique des séquences génomiques DEA en bioinformatique Lausanne, 3 mai 2001 Laurent Duret duret@biomserv.univ-lyon1.fr

Mammals: small population size:(~104 i.e. 100 to 1000 times smaller than drosophila)

the small selective differences between alternative synonymous codons is not sufficient to overcome random genetic drift

C. elegans, A. thaliana , D. melanogaster: selection on synonymous codon usage (translation efficency)

Mammals: no evidence for selection on codon usage

Probability of fixation of a new mutation :

p = f(s, N)

s : selective advantage or disadvantage

N : population size

| Ns | << 1 : random genetic drift