83
Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret [email protected]

Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret [email protected]

Embed Size (px)

Citation preview

Page 1: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences génomiques

DEA en bioinformatique

Marseille 10 Novembre 2000Laurent Duret

[email protected]

Page 2: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Plan• Taille des génomes, paradoxe de la valeur C

• Contenu informationnel

• Séquences répétées

• Organisation en isochore des génomes de vertébrés

• Projets génomes: état des lieux

• Recherche de gènes protéiques– Méthodes ab initio

– Utilisation des EST

– Approche comparative

• Recherche de régions régulatrices non-codantes– Méthodes ab initio

– Approche comparative

Page 3: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

What is a genome ?1911 - gene:

Elementary unit, responsible for the transmission of hereditary characters

1920 - genome:

Set of genes of an organism

1944 - Avery et al.

DNA is the molecule of heredity

1950-70 :

Double helix

Genetic code

Page 4: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Mycoplasma genitalium0,6 Mb

Genomes sizes E. coli 4,7 Mb

YeastS. cerevisiae

13,5 Mb

NematodeC. elegans

100 Mb

ProtozoaAmoeba dubia

700 000 Mb

PufferfishFugu

rubripes400 Mb

Man3400 Mb

Xenopuslaevis

3100 Mb

AmphibiaNewt

100 000 Mb

DipnoiLungfish

150 000 Mb

ProkaryotesEukaryotes

Page 5: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr
Page 6: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

13%2%85%Drosophila85%2%13%E. coli70%2%28% YeastS. cerevisiae

5%2%93%Man27%2%71%NematodeC. elegansProportion of functional elements within genomes

2%98%0,01%Lunfish (dipnoi)Coding (protein)RNANon-coding

Page 7: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Functional elements in the human genome

3.4 109 nt 50,000-100,000 protein-coding genes

81% no known function43%38%introns4%12%protein-coding regions

centromeres, telomeres,

RNA2%intergenic

Untranslated RNAs: Xist, H19, His-1, bic, etc.

Regulatory elements: promoters, enhancers, etc.

2% ??

Page 8: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

How many genes in the human genome ?Fields et al. 1994

Technique Gene estimate Comments/assumptions

Estimation 100,000 if average size = 30 kb

Estimation 300,000 if average size = 10 kb

Transcribed genome 20,000

RNA reassociation 20,000 - 92,000

Genomic sequencing (1994) 71,000 biased toward gene-rich region?

CpG islands 67,000 assumes 66% human genes have CpG islands

EST analysis (1994) 64,000 matching with GenBank; 50% EST redundancy

Chromosome 22 (1999) 45,000 correction for high gene density on chrom. 22

Chromosome 21 (2000) + 22 40,000

Liang et al. (2000) 120,000 ESTErwing & Green (2000) 34,000 EST + chrom. 22Roest Crollius et al. (2000) 31,000 Fish / human

Page 9: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• 1396 complete human genes (exons + introns) from GenBank (1999)

• Average size (25%, 75%)

– Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb)

– CDS 1300 nt ± 1200 (600, 1500)

– Exon (coding) 200 nt ± 180 (110, 200)

– Intron 1800 nt ± 3000 (500, 2000)

– 5'UTR 210 nt (Pesole et al. 1999)

– 3'UTR 740 nt (Pesole et al. 1999)

• Intron/exon

– Number of introns: 6 ±3 introns / kb CDS

– Introns / (introns + CDS): 80%

– 5' introns in 15% of genes (more ?), 3 ’introns very rare

• Alternative splicing in more than 30% of human genes (Hanke et al. 1999)

Page 10: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• GenBank: bias towards short genes

• 1396 complete human genes (exons + introns)

≤949596979899Publication date48121620Gene size (coding exons+introns) kb

5101520253035≤949596979899Publication dateGene size (coding exons+introns) kb

Page 11: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• GenBank: bias towards short genes

• 1396 complete human genes (exons + introns)

• 9268 complete human mRNA

Sequence:cDNA

complete gene (exons+introns)

400800120016002000889092949698Average CDS size (nt)Publication date

Page 12: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Overlapping genesN-myc geneN-cym geneIA IB II IIIIII II IPOL II

promoter

polyadenylationsite

transcriptionmaturation5'pm7GpppAAAAAAAAAAsmall nucleolar

RNA

mRNAoverlapping protein genessmall nucleolar RNA genes within intronsof protein genes

Page 13: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Tandem repeatsRepeated sequencesInterspersed repeatsDNA transposons retroelementsRecombination- DNA polymerase slippage:

CACACACACACA

- unequal crossing-over

motif bloc size % humangenome

satellite: 2-2000 nt up to 10 Mb 10%minisatellite: 2-64 nt 100-20,000 bp ?microsatellite: 1-6 nt 10-100 bp 2%

Page 14: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

ADN satellite: centromères

CTTCGTTGGAAACGGGAsatellite α (171 )pb

(17 )site CenpB pb répétitions de satelliteα

répétitions d'ordre, supérieur spécifiques

de chaque chromosome( 10 )jusqu'à Mb

centromèrechromosome

Page 15: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Reverse transcriptase:RetroelementsNucleusCellRNADNAtranscriptionreverse transcriptionintegrationLINEs (long interspersed elements): 6-8 kbretroposons

SINEs (short interspersed elements):80-300 bpsmall-RNA-derived retrosequences (tRNA), pol III

Endogenous Retroviruses: 5-10 kb

LTR gag pol env LTRRetrovirusRetrotransposonRetroposonRetroséquenceRetrovirus

Page 16: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

NucleusCellLINE reverse transcriptaseRetrosequences:opportunist retroelements

reverse transcriptionDNARNALINERNART protein

Page 17: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Pseudogenes1 - gene duplication generepeated elementinequal crossing-over2 - gene inactivation mutationA - pseudogenes derived from recombinationB - retropseudogenesgenepromoterAAAAAAtranscription + maturationmRNADNAretrotranscription + integrationAAAAAADNA

Page 18: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Retropseudogènes

• 23,000 à 33,000 retropseudogènes dans le génome humain

• Les gènes qui génèrent des retropseudogènes sont généralement de type housekeeping

• Gonçalves et al. 2000

Page 19: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des éléments transposables dans le génome humain

• Total = 42% (Smit 1999)

0%4%8%12%AluLINE1MIRLINE2LTR elementsDNAtranposon

Page 20: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des éléments transposables dans le génome humain (Smit 1999)

0%5%10%15%20%25%30%AluLINE1AutosomesChromosome X

Page 21: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochore organization of vertebrate genomes

Page 22: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Organisation en isochore des génomes de vertébrés: mise en évidence expérimentale

densité à l'équilibre, g/cm31,6901,7001,71030%41%51%satellitetaux C+Gcomposantmajeur

Fractionnement du génome de la souris par centrifugation en gradient de densité (Bernardi et al. 1976)

Page 23: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences publiées dans les banques de données.

Corrélation entre la composition en base en position 3 des codons et celle de l'envirronement génomique dans lequel se trouve le gène

Page 24: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse statistique des séquences publiées dans les banques de données.

Distribution en fréquence des gènes dans les différentes classes d'isochores

CDS GC3%

0

1

2

3

4

5

6

7

0 20 40 60 80 100

Moy = .612Ecart-t = .1585447 séq

0

1

2

3

4

5

6

7

0 20 40 60 80 100

Moy = .639Ecart-t = .171818 séq

Homme Poulet

Nb

de

gèn

es (

%)

0

2

4

6

8

10

12

0 20 40 60 80 100

Moy = .509Ecart-t = .106703 séq

Xénope0 20 40 60 80 100

Danio

Moy = .580Ecart-t = .103173 séq

0

2

4

6

8

10

12

14

Page 25: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Evolution de la structure en isochore chez les vertébrés

Page 26: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochore organization of vertebrate genomes

• Insertion of repeated sequences (A. Smit 1996)

• Recombination frequency (Eyre-Walker 1993)

• Chromosome banding (Saccone, 1993)

• Replication timing (Bernardi, 1998)

• Gene density (Mouchiroud, 1991)

• Gene expression ?? -> No

• Gene structure (Duret, 1995)

isochore %C+G % total genomic DNA

L1+L2 : 33%-44% 62 %

H1+H2 : 44%-51% 31%

H3 : 51%-60% 3-5%

H1+H2L1+L2H3H1+H2L1+L2L1+L2>300 kbBernardi et al. 1985

Page 27: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and insertion of repeat sequences (Smit 1999)

4%8%12%16%20%AluLINE-1LTR-

elements

Density in repeat sequencesG+C content of genomic sequence:G+C < 39%G+C > 47%G+C 39%-47%

4419 human genomic sequences > 50 kb4419 human genomic sequences > 50 kb

Page 28: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and gene density

MHC locus (3.6 Mb) MHC locus (3.6 Mb) (The MHC sequencing consortium 1999)(The MHC sequencing consortium 1999)

Class I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenesClass I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenesClass III (H3 isochore): 84 genes/Mb, no pseudogeneClass III (H3 isochore): 84 genes/Mb, no pseudogene

Class II boundaries correlate with switching of replication timingClass II boundaries correlate with switching of replication timing

Chromosome 21Chromosome 21

isochore % total genomic DNA %total genes

L1+L2 : 62 % 31%

H1+H2 : 31% 39%

H3 : 3-5% 30%

2060100140Number of genes / MbL1+L2H1+H2H3Mouchiroud et al. 1991

Page 29: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Isochores and introns length

• 760 complete human genes• L1L2: intron G+C content < 46%• H1H2: intron G+C content 46-54%• H3: intron G+C content >54%

Average intron length (bp)Gene compaction (intron length/coding region length)40080012001600200024681012L1L2H1H2H3L1L2H1H2H3

Duret, Mouchiroud and Gautier, 1995

Page 30: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets Génome: état des lieux

• Les différents projets génome

• Nature et qualité des séquences produites

• Annotation des séquences génomiques: recherche de régions fonctionnelles

Page 31: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Les projets génomes: objectifs

• faire l'inventaire de l'information génétique nécessaire au développement et à la reproduction des organismes

• comprendre l'organisation du génome (système d'information intégré ?)

• comprendre l'évolution des génomes

• applications médicales, agronomiques, industrielles

Page 32: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Sequencing Projects :Genome / Transcriptome

gene (DNA)messenger RNA (mRNA)proteinexonintrontranscription, maturationtranslationchromosome (DNA)AAAAAAAA50-250 106 nt5-50 103 nt1-10 103 ntGenomeprojectsTranscriptomeprojects (ESTs)

Page 33: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets Génome

• Eubacteria: 29 génomes complets (dont 19 dans les 12 derniers mois !)

• Archaea: 6 génomes complets• Eukaryotes: 3 (4) génomes complets

– levure: 13 Mb 100%

– P. falciparum 30 Mb 24%

– C. elegans (nematode) 100 Mb 95%

– A. thaliana 120 Mb 60%

– Drosophila 170 Mb 60% (100%)

– homme 3200 Mb 25%• « draft » 90% complete in 2000, finished in 2003

– souris 3000 Mb 1%

Page 34: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Stratégie de séquençage du génome humain (projet public)

Génome

Clonage dans un vecteur pour inserts longs (100-200 kb exemple: BAC)

Construction d’une carte génomique

Sélection des clones à séquencer

Sous-clonage dans un vecteur pour inserts courts (2-10 kb exemple: M13)

Séquençage des clones

Construction des contigs: ré-ordonner les séquences

Finitions: fermeture des trous

Page 35: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Etapes du séquençage génomique

ébaucheébauche(draft)(draft)

Phase 0

Phase 1

Phase 2

Phase 3

Clone BAC (150-200 kb)Séquençage des clones M13AssemblageSous-clonage dans M13 (1-2 kb)

Phase 0-1: séquence non-terminée; contigs non-ordonnés, non-orientés; gapsPhase 0-1: séquence non-terminée; contigs non-ordonnés, non-orientés; gapsPhase 2: séquence non-terminée; contigs ordonnés, orientés; gapsPhase 2: séquence non-terminée; contigs ordonnés, orientés; gapsPhase 3: séquence terminéePhase 3: séquence terminée

Phase 0-2: séquences mentionnées HTG (High Throughput Genome Phase 0-2: séquences mentionnées HTG (High Throughput Genome sequences) dans les banques de donnéessequences) dans les banques de données

Page 36: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets EST (transcriptome)

• Expressed Sequence Tags (EST)

• Inventaire des ARNm exprimés par un organisme, dans différents tissus, stades de développement, pathologies, …

• Extraction et clonage des ARNm (banques d ’ADNc)

• Séquençage systématique des clones– Séquences partielles d ’ARNm (300-500 nt)

– Erreurs de séquence (1-3%)

– Redondance (gènes fortement exprimés)

– Qualité suffisante pour identifier un gène

• Automatisation

Page 37: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets EST à grande échelle

• Homo sapiens 1,611,810

• Mus musculus (souris) 697,486

• Rattus sp. (rat) 124,378

• Caenorhabditis elegans (nématode) 101,232

• Drosophila melanogaster 86,121

• Oryza sativa (riz) 47,083

• Arabidopsis thaliana (arabette) 45,752

• Danio rerio (poisson zèbre) 40,001

• Zea mays (maïs) 39,285

• Lycopersicon esculentum (tomate) 38,047

Nombre d'EST (Nov. 99)Nombre d'EST (Nov. 99)

Page 38: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets GSS

• Genome Survey Sequence (GSS)

• Echantillonage aléatoire de séquence génomiques: donner un premier aperçu du contenu d'un génome

• Banques d ’ADN génomique

• Séquençage systématique de clones– Séquences courtes (< 1kb)

– Erreurs de séquence (1-3%)

– Qualité suffisante pour identifier un gène

• Automatisation

Page 39: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Projets GSS à grande échelle

• Homo sapiens 863,041

• Mus musculus (souris) 452,033

• Tetraodon nigroviridis 188,963

• Oryza sativa (riz) 93,107

• Strongylocentrotus purpuratus (oursin) 76,019

• Arabidopsis thaliana (arabette) 61,265

• Trypanosoma brucei 48,123

• Drosophila melanogaster 44,785

• Takifugu rubripes 42,929

Nombre de GSS (Nov. 2000)Nombre de GSS (Nov. 2000)

Page 40: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Genome Sequence Data• Traditional sequences: correspond to biologically

characterized genes, annotated by reearchers or database curators, usually relatively short (<20,000).

• Finished genome sequences: long contiguous sequences, correspond to clones (cosmid, BAC, PAC); partly automatically generated annotations covers repetitive elements, kown and predicted genes, EST matches

• Unfinished genome sequences (draft): large sequence entries consisting of unordered pieces separated by runs of N's, correspond to clones, contain minimal annotation.

• Genome survey sequences: low-quality, single pass sequences from a variety of different projects (BAC end sequencing, polymorphism studies, CpG islands, etc.), minimal annotation.

Page 41: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Different types of nucleotide sequences in current databases

StandardHigh throughput genome (HTG)

Genome survey sequence (GSS)

Expressed sequence tags (EST)

Contents

biologically characterized genes and RNAs, finished clones from genome projects

unfinished clones from genome projects

single pass sequences from random genomic clones

single pass sequences from random cDNA clones

Length variable >20,000 bp <1,000 bp <1,000 bp

Accuracy medium-high high low low

Annotation

medium to high, rich biological annotation

technically use- ful, biologically poor

technically use- ful, biologically poor

technically use- ful, biologically poor

Page 42: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

GenBank release 119 (September 28, 2000)

Division Entries Nucleotides % nt

EST 5,843,794 2,337,244,350 23%

HTG 77,960 4,373,497,668 44%

GSS 1,724,845 951,450,849 9%

PRI 135,144 1,073,472,484 11%

Other 882,631 1,296,473,741 13%

Total 8,664,374 10,032,139,092 100%

Human 3,518,824 6,253,704,359 62%

Page 43: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

The human genome sequencing projectWhere are we today (July 17 2000) ?

• According to Phillip Bucher (SIB, Lausanne) statistics and genome coverage estimates (see also EBI's statistics: http://www.ebi.ac.uk/~sterk/ genome-MOT)

Estimated size of human genome 3260 MB 100.00%

EMBL sequences in HUM division: 770 MB 23.60%(7858 entries, ave. Size: 101.3 kb)

Human sequences in HTG division: 3629 MB 111.30%(23681 entries, ave. Size: 153.3 kb)

Total: 4399 MB 134.90%

Estimated redundancy (35%) -1540 MB -47.70%

Corrected total: 2859 MB 87.90%

Page 44: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Exponential growth of sequence data

• Doubling time: 13 mounths (8 mounths)

-500

0

500

1000

1500

2000

2500

3000

3500

82 86 90 94 98Date

0.1

1

10

100

1000

10000

82 86 90 94 98Date

Publicly available sequences (Mb)

Page 45: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Contenu des banques de séquences nucléiques• Avril 2000:

– 6.106 séquences

– 7.109 bases

– 60 000 espèces

• 9 espèces (0.02%) représentent à elles seules 85% des séquences– Homo sapiens 62.1%

– Mus musculus 7.7%

– Drosophila melanogaster 6.1%

– Caenorhabditis elegans 3.3%

– Arabidopsis thaliana 2.9%

– Oryza sativa 1.3%

– Rattus norvegicus 0.8%

– Danio rerio 0.6%

– Saccharomyces cerevisiae 0.6%

Page 46: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Next steps in genome projects

• Identify genes and other functional elements within genomic sequence (where are the genes ?)

• Determine the function of genes (what do they do ?)

Page 47: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Structure of human protein genes

• 1396 complete human genes (exons + introns) from GenBank

• Average size (25%, 75%)

– Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb)

– CDS 1300 nt ± 1200 (600, 1500)

– Exon (coding) 200 nt ± 180 (110, 200)

– Intron 1800 nt ± 3000 (500, 2000)

– 5'UTR 210 nt (Pesole et al. 1999)

– 3'UTR 740 nt (Pesole et al. 1999)

• Intron/exon

– Number of introns: 6 ±3 introns / kb CDS

– Introns / (introns + CDS): 80%

– 5' introns in 15% of genes (more ?), 3 ’introns very rare

• Alternative splicing in more than 30% of human genes (Hanke et al. 1999)

Page 48: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes (1)méthodes ab initio

• Prédiction d ’exons codants– Recherche de phases ouvertes de lecture (ORF: open reading frame)

• Taille moyenne des exons: ± 150 nt

– Statistiques sur les nucléotides, usage des codons• Périodicité d'ordre 3, fréquence d ’hexamères

– Signaux d ’épissage

• Construction d ’un modèle de gène protéique– Combinaison d ’exons de phases compatibles (pondération en fonction des scores de chaque

exon potentiel)– Recherche de limites de gènes

• Exons terminaux (5 ’, 3 ’)• Promoteur• Signal de polyadénylation

• Epissage alternatif ?? Exons non codants ?? Gène transcrits non codants (Xist, …) ??

Page 49: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes: qualité de la prédiction

• Comparaison des différents logiciels: sensibilité/spécificité– Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e)

– Jeu de données Burset-Guigo (1996): 570 gènes de vertébrés

– Jeu de données Salamov et al (1998): 660 gènes humains

Sn_e Sp_e Sn_n Sp_nGenScan 0.78 0.81 0.93 0.93FGENES 1.6 0.83 0.82 0.92 0.93Grail2 0.36 0.43 0.72 0.87

Sn_e Sp_e Sn_n Sp_nGenScan 0.70 0.71 0.92 0.90FGENES 1.6 0.77 0.77 0.90 0.91

Page 50: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes: qualité de la prédiction

• Comparaison des différents logiciels: sensibilité/spécificité– Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e)

– Locus BRCA2 (1.4 Mb, chrom. 13q) (Sanger Centre 1999): région "difficile" pour les logiciels de prédiction. 159 exons

Sn_e Sp_e Sn_n Sp_nGenScan 0.66 0.36 0.81 0.44FGENES 1.6 0.69 0.57 0.79 0.66FGENES 1.6 masked 0.69 0.65 0.79 0.74GenScan+FGENES 0.61 0.82 0.67 0.90

Page 51: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes protéiques complets• C. elegans: la plupart des ‘ gènes ’ annotés sont seulement des prédictions:

– 50% de prédictions fausses (dont la moitié sont exploitables) (J. Thierry-Mieg)

• Peut-on utiliser ces méthodes pour annoter les séquences génomique humaines ?

– + les faux positifs ! + épissage alternatif

00.20.40.60.8113579111315Sensibilité par exon:90%80%

Probabilité de détecter tous les exons d’un gènesNombre d’exons du gène

Page 52: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Un peu d ’optimisme

• Fraction de la longueur des gènes correctement prédits:

70-80%

• Probabilité que deux exons potentiels consécutifs soient réels (et donc positifs en RT-PCR)

0.5

Page 53: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prediction of functional elements (2): ESTs

Large scale transcriptome projects: ESTs, full-length cDNA Identification of transcribed genes (protein or non-coding RNA) Information on alternative splicing, polyadenylation (Hanke et al.

1999, Gautheret et al. 1998), expression pattern SIM4: align a cDNA to genomic DNA Very useful but ...

Problems with genes expressed at low level, narrow tissue distribution, stage-specific expression, …

Limited tissue sampling Artifacts in ESTs (introns, partially matured RNA, …) Limited to polyadenylated RNA

Page 54: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes (suite): approche comparative

tirer des informations de l'histoire évolutive des gènes

3,5 milliard d'années d'évolution

MUTATIONS:

- substitutions- insertions ou délétions locales- recombinaisons intergéniques, brassage d'exons- duplications ou pertes de gènes- pertes ou duplications de chromosomes- duplications de génomes- transgénèse (transfert horizontal de gènes)- etc.

Page 55: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

EVOLUTION MOLECULAIRE

"Nothing happens, but if it does it's not important"Dan Graur

- les individus qui portent des mutations délétères n'ont pas ou peu de descendance. Ces mutations disparaissent rapidement de la population: sélection

- les individus qui portent des mutations non (ou faiblement) délétère peuvent transmettre ces mutations à leur descendance. Ces mutations, dites "neutres", sont fixées aléatoirement dans la population (i.e. la majorité des individus portent ce génotype mutant): dérive génétique

- les très rares mutations avantageuses sont positivement sélectionnées

Les génomes sont le fruit de ces deux forces évolutives:

sélection

dérive génétique

Page 56: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction des régions fonctionnelles (gènes protéiques,

ARN, régions régulatrices) (2) Comparative sequence analysis (phylogenetic footprinting)

Function => selective pressure

Corollary Sequence conservation = selective pressure = function

provided the number of aligned homologous sequences represents enough evolutionary time for the accumulation of mutations at the less constrained (presumably selectively neutral)

base positions.

• Evolutionary rate in non-functional DNA: ~ 0.3% / My (± 0.069)

Man/Mouse: ~ 80 Myrs 46-58% identity

Mammals/Birds: ~ 300 Myr 26-28% identity

Random sequences 25% identity

Page 57: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de gènes eucaryotes (3)

• Approche comparative– Comparaison d ’une séquence génomique avec des gènes déjà caractérisés dans d ’autres

espèces • BLASTX• WISE2: alignement ADN/protéine avec épissage)

– Comparaison de séquences génomiques (non-annotées) homologues• Locus mnd2 (homme souris) (Jang et al. 1999): >80 kb• Prédiction d ’exons internes basée sur la conservation de séquence

ORF ≥ 80 nt

Séquence protéique ≥ 70% similarité

Séquence ADN ≥50% identité

GT AG conservés

=> détection de tous les exons internes du gène D6Mm5e

• Généralisation de la méthode:– ROSETTA (Genome Res. 2000 10:950)

– ALFRESCO (Genome Res. 2000 10:1148)

– WABA (Genome Res. 2000 10:1115)

Page 58: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

TsxXISTMouseHumanMouseHumanTsxComparison of human and mouse TSX-XIST genomic locus:gene-poor, repeated-element rich, G+C-poor region (39.9%)mouse TSX gene: 10,100 bp mRNA 794 bpexon 1: 165 bpexon 2: 36 bpexon 3: 37 bpexon 4: 82 bp

(repeated elements filtered)

exon 5: 101 bpexon 6: 59 bpexon 7: 317 bp

TSX pseudogene ?XISTXistXistcoding exon: 0.2%repeated elements: 53%promoter

Page 59: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

coding exon: 12%repeated elements : 21%promoterComparison of human and mouse CD4-C9 locus:gene-rich, repeated-element poor, G+C-rich region (50.5%)

Human chromosome 12p13Mouse chromosome 6

8 genes: CD4, A, B, GNB3, C8, ISOT, TPI, C9

CD4AMouseHumanBGNB3ISOTTPIC9C8

Page 60: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de régions régulatrices

• Méthodes ab initio

– Prédiction de promoteurs

– Îlots CpG

• Approche comparative

Page 61: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs eucaryotes

• Combinaison de sites de fixation de facteur de transcription (ordre, orientation, distance)

• Motifs courts, dégénérés– Difficile de distinguer les vrais sites des faux positifs:– Motif à 4 bases: ≈1/256 pb (1/128 pb sur les deux brins)

• Boîtes TATA, CAAT , GC: absents dans beaucoup de promoteurs

• Banques de données de sites de fixation de facteurs de transcription (TRANSFAC), de promoteurs caractérisés expérimentalement (EPD)

• PromoterScan (Prestridge 1995): Mesure de la densité en sites potentiels de fixation de facteurs de transcription de long de la séquence (pondération en fonction de la fréquence des sites dans ou en dehors des vrais promoteurs)

Page 62: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs: sensibilité, spécificité

• Sensibilité: fraction des promoteurs qui sont trouvés par le logiciel

– PromoterScan: sensibilité = 70% (promoteurs à boîte TATA)

• Spécificité: fraction des vrais promoteurs parmi ceux qui ont été prédits

– PromoterScan: spécificité = 20%– Un faux positif / 10 kb

• Génome humain: ≈100 000 gènes, ≈1 promoteur/30 kb

sensibilité=vrais_positifs

vrais_positifs+faux_négatifs

spécificité=vrais_ positifs

vrais_ positifs+faux_ positifs

SpécificitéSensibilité1000Seuil

Page 63: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prédiction de promoteurs eucaryotes: recherches en cours

• Prise en compte de l'orientation relative et des distances entre sites de fixation de facteurs de transcription– COMPEL (Kolchanov 1998): banque de données d'éléments composites– FastM : recherche dans une séquence génomique d'une combinaison de deux sites

de fixation de facteurs de transcription à une distance définie l'un de l'autre

• Recherche de corrélations entre sites– PromoterInspector (Werner 2000)

• Sensibilité: 40%• Spécificité: 45%

http://www.gsf.de/biodv/index.html

• Combinaison recherche ab initio / approche comparative: recherche de sites potentiels parmi les régions conservées

Page 64: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Îlots CpG• Génome de vertébrés :

– méthylation des C dans les dinucléotides 5 ’-CG-3 ’(CpG)

• Me-C fortement mutable -> T5 ’-CG- 3 ’ 5 ’-TG-3 ’ 5 ’-CA-3 ’

3 ’-GC- 5 ’ 3 ’-AC-5 ’ 3 ’-GT-5 ’

• Génome des vertébrés: globalement dépourvu en CpG (excès de TG, CA)

• Certaines régions (200 nt à plusieurs kb) échappent à la méthylation– Pas de déplétion en CpG: CpGo/e proche de 1

– Riche en G+C

– Îlot CpG:Longueur > 500 nt

CpGo/e > 0.6

G+C > 50%

ouou

CpGo /e =Nombre_de_CpG_observéNombre_de_CpG_attendu

=0.25

01CpGo/e

Page 65: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

La déamination des cytosines

Cytosine

N

C

CH

C

NH

NH2

O

CH

réparation

Cytosine

N

C

CH

C

NH

NH2

O

CH

Cytosine méthylée

N

C

CH

C

NH

NH2

O

CH

CH3

Uracile

HN

C

CH

C

NH

O

CH

O

déamination

Thymine

HN

C

CH

C

NH

O

CH

O

CH3

déamination TpGou

CpA

Page 66: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Îlots CpG: associé aux régions promotrices ?

• Bird (1986), Gardiner-Garden (1987) Larsen (1992) ref– 40% des gènes tissu-spécifiques possèdent un îlot CpG en 5 ’

– 100% des gènes ‘ housekeeping ’ possèdent un îlot CpG en 5 ’

• Rechercher des îlots CpG pour prédire des régions promotrices ?– Sensibilité: 40-100%

– Spécificité ?? (Quelle fraction des îlots CpG correspond effectivement à des régions promotrices ?)

• Ioshikhes & Zhang (2000): comparaison des îlots CpG qui recouvrent ou non le site d ’initiation de la transcription

Page 67: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Fréquence des gènes humains avec un îlot CpG recouvrant le site d ’initiation de la transcription

– 800 gènes humains avec promoteur décrit

– Mesure de la distribution tissulaire à l ’aide d ’EST (20 tissus)

0%20%40%60%80%0-23-67-20Nombre de tissus où le gène est exprimé

Page 68: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Comparaison des îlots CpG recouvrant ou non le site d ’initiation de la transcription

– 272 îlots start CpG recouvrant le site d ’initiation de la transcription (start)

– 1078 îlots CpG en dehors d ’un promoteur connu (other) (en excluant les séquences répétées)

0 2460.50.70.91.11.350%60%70%80%otherstartG+C%CpGo/eLongueur(kb)

Page 69: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Prediction of functional elements (2) Comparative sequence analysis (phylogenetic footprinting)

Function => selective pressure

Corollary Sequence conservation = selective pressure = function

provided the number of aligned homologous sequences represents enough evolutionary time for the accumulation of mutations at the less constrained (presumably selectively neutral)

base positions.

• Evolutionary rate in non-functional DNA: ~ 0.3% / My (± 0.069)

Man/Mouse: ~ 80 Myrs 46-58% identity

Mammals/Birds: ~ 300 Myr 26-28% identity

Random sequences 25% identity

Page 70: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Analyse comparative des gènes de -actine de l'homme et de la carpe

CarpeHomme5’UTR 3’UTR site polyA échelle de similarité: pas de similarité significative70 - 80% identité80 - 90% identitérégions codantes: éléments régulateurs:introns:ATGcodon stop

Page 71: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Recherche de régions régulatrices par analyse comparative (empreintes phylogénétiques)

• Goodman et al. 1988: régulation de l’expression des gènes du cluster -globine au cours du développement

• Alignement de séquences orthologues de 6 mammifères (> 270 Ma d’évolution)

• 13 empreintes phylogénétiques: ≥ 6 nt, conservation 100%

• Analyse par retard de bande sur gel:

• 12/13 (92%) correspondent à des sites de fixation de protéines

• 1996: 35 empreintes phylogénétiques avec protéines fixatrices identifiées

• Enhancers de gènes HOX (Fugu/souris) (Aparicio et al. 1995)

• enhancer TCR α (homme/souris) (Luo, 1998)

• promoteur COX5B (11 primates) (Bachman, 1996)

• promoteur uPAR (homme/souris) (Soravia, 1995)

Page 72: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Large scale phylogenetic footprinting

Non-coding sequences : 325,247 sequences 145 Mb

everything except protein-coding regions and structural RNA genes (rRNA, tRNA, snRNA, scRNA)

Introns, 5' and 3' untranslated regions, intergenic sequences

Filtering of microsatellite repeats and cloning vectors: XBLAST

Similarity search: BLASTN + LFASTA

Vertebrates, insects, nematode

Page 73: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Metazoan Genome ProjectsMillion yearsPorifera (sponge)Nematodes (C. elegans)Arthropods (Drosophila)EchinodermsUrochordataCephalochordata (amphioxus)Jawless fisheschondrichthyes (ray, shark)actinopterygii (bony fishes)amphibians mammals birds reptiles600400200800VertebratesSequencing effort: 9 to 100 Mb 0.8 to 2.4 Mb less than 0.2 Mb

Page 74: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Sequence Similarities1- Identification of new genes

protein-genes, RNA-genes: intronic snoRNA genes

2- Retroviral elements, retrotransposons

3- Low complexity sequences:

GC-rich, AT-rich, cryptic microsatellites

4- Artefacts:

annotation errors, sample contamination (sponge insulin, ascidian RNA, chicken TGFB1)

5- 326 highly conserved regions (HCRs)

- do not code for proteins

- do not correspond to any known structural RNA

Page 75: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

326 Highly Conserved Regions (HCRs)

• > 70% identity over 50 to 2000 nt after more than 300 Myrs

• Unique sequences

• Generally specific of only one gene

• Longest HCR:

84% identity over 1930 nt after 300 Myrs

3’UTR deltaEF1 transcription factor

• Oldest HCRs: 500 to 600 Myrs

• No HCR between vertebrates and insects or nematode

Page 76: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Oldest HCRsMillion yearsPorifera (sponge)Nematodes (C. elegans)Arthropods (Drosophila)EchinodermsUrochordataCephalochordata (amphioxus)Jawless fisheschondrichthyes (ray, shark)actinopterygii (bony fishes)amphibians mammals birds reptiles600400200800Sequencing effort: 9 to 100 Mb 0.8 to 2.4 Mb less than 0.2 MbHistone 3’UTRα- actin3’UTR

3 5’HOX UTRVertebrates

Page 77: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Conservation pattern in 3’UTRsposition relative to the stop codon (nt)10005000150020002400c-fosTransferrin receptorbirdmammalEndoplasmic-reticulum Ca2+ ATPase birdmammalbirdmammalsimilarity: <60% ≥60% ≥70% ≥80%

Page 78: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Distribution of HCRs within genes3'-non-coding5'-non-codingintrons0%10%20%30%40%mammals / birdsmammals / amphibiansmammals / bony fishes2841917296512563812 Frequency of orthologous

genes containing HCRs

Page 79: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

HCRs and multigenic familiesHistone replacement variant H3.3A0400600100014001800AAAAAAAAUGStopAUGStopAAAAAAAHistone replacement variant H3.3BHistone replacement variant H3.3A and H3.3B, Calmodulinsnt• several genes coding for a same protein

• non-coding sequences are distinct, and conserved

Page 80: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Function of 3’HCRs: mRNA stability, translation

A+U-rich element: stability, translationposition relative to the stop codon (nt)10005000150020002400c-fosTransferrin receptorbirdmammalbirdmammalsimilarity: <60% ≥60% ≥70% ≥80%IRE : Iron Responsive Element

IRP : Iron Regulatory Protein

CCAGUGN5'3'

Page 81: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Function of 3’HCRs:mRNA subcellular localization

Myosin heavy chain, c-myc, vimentin, -actin

chickencarp (bony fish)site poly(A)site poly(A)0200400600800position relative to the stop codon (nt)localization signalssimilarity: <60% ≥60% ≥70% ≥80%- 3’actin UTR

Page 82: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Comparaison des régions non-codantes de 77 gènes orthologues homme/souris (Jareborg et al. 1999)

0.20.40.60.81Upstream(1 kb)5’UTRIntrons3’UTRs

Upstream015’UTRcoding exon

intron3’UTR

Fraction des régions non-codantes conservées entre homme et souris

Page 83: Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Phylogenetic footprinting Advantages

Works for all kinds of functional elements (transcribed or not, coding or not) as far as the information is in the primary sequence

Does not require any a priori knowledge of the functional elements

Limits Absence of evolutionary conservation does not mean absence of function No efficient method to detect unknown conserved secondary structure in RNA Function, but what function ? Depends on the sequencing status of other genomes

Human, mouse, fugu, C. elegans, drosophila, yeast, A. thaliana

Number of sequences to compare : > 200 Myrs of evolution Mammals/birds: 310 Myrs Human + mouse + bovine : 240 Myrs