65
MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Embed Size (px)

Citation preview

Page 1: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Bienvenue !

Page 2: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Formation continue du 19 et 20 janvier 2006

“Exploragénomes”

Contact: [email protected]

Page 3: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Quelques concepts utiles pour appréhender

les banques de donnéesdans le domaine des Sciences de la Vie

Page 4: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Explosion des données en biologie

• Nouvelles techniques de biologie moléculaires et nouvelles approches

Exemples: séquençage de génomes complets, microarrays

->-> quantités importantes de donnéesquantités importantes de données (séquences, informations génomiques et biologiques…etc) qu’il faut gérer , stocker et accéder en retour…

->-> les banques de donnéesbanques de données: encyclopédies informatiques

Les banques de données sont devenus des outils indispensables pour les biologistes au même titre que les publications scientifiques.

Page 5: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Banques de données en biologie

Il existe plus d'un millier de banques de données dans le domaine des sciences de la vie.

Afin d'y voir plus clair -> classification

Exemples:

* séquences en acides nucléiques (DNA et mRNA); * séquences en acides aminés (protéines);

* références bibliographiques;

* informations générales sur les gènes et/ou les maladies;

* informations sur la structure tridimensionnelle des protéines ou de l'ADN;

Page 6: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Important:Important:

Banques de données ‘sources’ (musées, complètes, remises à jour régulièrement, ‘sur la durée’…mais pas facile d’accès….)

Banques de données ‘jolies’(facile d’accès, mais…pas complètes, durée de vie plus courte….)

Page 7: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Quelques noms de banques de données:

* séquences en acides nucléiques (DNA et mRNA); EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq

* références bibliographiques; PubMed

* informations générales sur les gènes et/ou les maladies; EntrezGene, OMIM, HMGD

* informations sur la structure tridimensionnelle des protéines ou de l'ADN; PDB

Il existe aussi des banques spécialisées, comme Newt, qui donne des informations sur la classification des espèces

Page 8: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

20 Sep 2005

200’000 organisms;

EMBL/GenBank/DDBJ

Page 9: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

25 oct 2005

EMBL/GenBank/DDBJ http://www3.ebi.ac.uk/Services/DBStats/

The more representated species are also the more redundant

Page 10: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Celles que vous allez découvrir aujourd’hui…

* séquences en acides nucléiques: DNA et mRNA; EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq

* références bibliographiques; PubMed

* informations générales sur les gènes et les maladies associées: EntrezGene, OMIM, HMGD

* informations sur la structure tridimensionnelle des protéines ou de l‘ADN; PDB

Il existe aussi des banques spécialiées, comme Newt, qui donne des informations sur la classification des espèces.

Page 11: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Ben dis donc…y a

du boulot !

Page 12: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Quelques remarques

1. Il n’existe pas une “banque centrale” qui contient toutes les infos: il est toujours nécessaire de grapiller les infos dans différentes banques.

2. Les données s'accroissent quotidiennement (il y a en moyenne un nouveau génome séquencé toutes les semaines) et sont continuellement remises à jour: le résultats de vos requêtes peut donc être différent d'un jour à l'autre (contenu, liens ou “look”) !

Page 13: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

3. Beaucoup de chercheurs travaillent sur un même sujet ->-> un gène, plusieurs séquences ->-> redondance.

Ces séquences peuvent être différentes (erreurs de séquençage ou mutations, longueurs variables).

4. Les banques de données sont liées entre elles (“links”, cross-références ->-> réseau). Ces liens ne sont pas toujours bidirectionnels !

5. Les banques de données contiennent des erreurs !

Page 14: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

C’est pas fini…

Page 15: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Comment accéder aux banques de données ?

-> moteur de recherche spécialisé ou Google

Comment accéder aux données qui se trouvent dans les banques de données ?

-> portail d’accès

Page 16: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

OMIM

Entrez Gene

RefSeq

Serveur du NCBI (USA)

PubMed

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

…….

Page 17: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

OMIM

Entrez Gene

RefSeq

Serveur du NCBI (USA)

PubMed

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Moteurs de recherche spécialisés« Mapviewer » « Gene and Diseases » « Entrez »

…….

Page 18: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Moteur de recherche spécialisé

OMIM

Entrez Gene

RefSeq

Serveur du NCBI (USA)

PubMed

Mapviewer

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Page 19: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Moteur de recherche spécialisé

OMIM

Entrez Gene

RefSeq

Serveur du NCBI (USA)RéseauRéseau

PubMed

Mapviewer

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Page 20: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Moteur de recherche spécialisé

OMIM

Entrez GeneRefSeq

Serveur du NCBI (USA)LogosLogos

Mapviewer

2652 Hs

*303800

NM_000513 NT_025965

NP_000504.1

Page 21: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Moteur de recherche spécialisé

OMIM

Entrez Gene

RefSeq

Serveur du NCBI (USA)Numéro d’accessionNuméro d’accession

PubMed

Mapviewer

Gene assNT_025965. ociated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

Gene associated with color blindness

2652 Hs

*303800

NP_000504.1NM_000513

Gene assNT_025965. ociated with color blindness

Gene assNT_025965. ociated with color blindness

Gene assNT_025965. ociated with color blindness

Page 22: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Swiss-Prot« Protein Knowledgebase »

OMIM

Newt

PDB

Serveur ExPASy (Genève)Réseau depuis la banque de donnée Swiss-ProtRéseau depuis la banque de donnée Swiss-Prot

PubMed

EMBL

Liens vers

plus de 100 banques de données

Page 23: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Page 24: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Quelques définitions

L’information génétique est stockée dans les chromosomes qui se trouvent dans un

compartiment particulier de la cellule, appelé noyau.noyau

Une cellule vue en coupe

Page 25: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

AT GC TA A

T

Un chromosome est comme une pelote de lainedont le fil est l’ADN

Cellule

Noyau Chromosome

ADN

L’information génétique est stockée dans les chromosomes

Page 26: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Cellule

Noyau Chromosome

ADN

AT GC TA A

T

Un chromosome est comme une pelote de lainedont le fil est l’ADN

Page 27: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Cellule

Noyau Chromosome

ADN L’ADN est une chaîne composée de 4 « molécules » différentes

symbolisées par les lettres A T G C

AT GC TA A

T

Page 28: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

AT GC TA A

T

Cellule

Noyau Chromosome

ADN

tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactacttagcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacagtgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctgacatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatcatttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaagtcatactttttttttttttttttttttgctaactctagaagcttttctgttatctctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgatctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaagagcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcggtaaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacctgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgcttttggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtgagactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtcctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgcattccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttcttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtttcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctggccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac

3 milliards de « caractères »…

Oups…ça fait 2

m.d’ADN par

cellule !CA

T GC TA A

T

Page 29: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactacttagcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacagtgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctgacatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatcatttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaagtcatactttttttttttttttttttttgctaactctagaagcttttctgttatctctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgatctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaagagcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcggtaaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacctgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgcttttggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtgagactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtcctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgcattccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttcttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtttcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctggccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac

Chez l’homme, L’information génétique est formée parun texte de 3 milliards de caractères

unique pour chaque individu:

« le génome humain »

une séquence d’ADN…

Page 30: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Cellule

Noyau Chromosome

ADN

Un gène

Page 31: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Pre-mRNAhnRNA

protéine

exon exonexonintron intronDNA(génomique)

AUG/Met Stop

mRNA (cDNA, EST)

AUG/Met Stop

transcription

Splicing (épissage)

traduction

Un gène eucaryotique

Page 32: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

1-1002

1084 - 1304

1407 - 1451

1662 - 1913

Les introns sont représentés en rouge

DNA génomique

En noir, la séquence codante (CDS en anglais)

Page 33: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

mRNA virtuel

Traduction en ‘protéine’

Page 34: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Met STOPintron

Page 35: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Notions de mRNA, cDNA

Page 36: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Définition (text book):

La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’

Le mRNA a la même séquence que le brin DNA sens (codant)

Page 37: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Coding strandComplementary strand

Définition (text book):

La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’

Le mRNA (cDNA) a la même séquence que le brin DNA sens (codant)

Page 38: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Page 39: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Les protéines: quelques chiffres

Chez l’homme, on pense qu’il existe environ 25’000 recettes ou gènes;

On sait que la photocopie de la recette et/ou la protéine peuvent être modifiées: il y aurait plus de

1 million de protéines différentes !

Bienvenue au Royaume des protéines !

Page 40: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

From Genome to Proteome

ProteomeProteome

Alternative splicingof mRNA

Post-translational

proteinmodification

(PTM)Definition of PTM:Any modification of a polypeptide chain

that involves the formation or breakage ofa covalent bond.

Incre

ase

in co

mp

lexity

10

-42

%5

to 1

0 fo

ld

GenomeGenome

Human: about 25’000 genes

Human: about one million of ‘different’ proteins; several proteomes

« After ribosomes »

Page 41: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

The shortest sequence is GWA_SEPOF (P83570): 2 amino acids. The longest sequence is SNE1_HUMAN (Q8NF91): 8’797 amino acids.

 Q8WZ42: 34’350 amino acids.

http://www.expasy.org/sprot/relnotes/relstat.html

Page 42: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Multiple alignment of the end of the available GCR sequences

Annotation of the sequence differences

Page 43: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Page 44: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

La bioinformatique, c’est quoi ?

L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants.

Page 45: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données;

Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données;

Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine;

Page 46: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Bioinformatique - application 1:acquisition de données

• Exemples: lecture d’images de gels 2D, spectrométrie de masse (MS), séquençage ADN...

• Détection de signaux ou d’images• Absence de contexte biologique.

Page 47: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Séquençage d’ADNInformatique instrumentale

Programme pour analyser les données

d’un séquenceur ADN

Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.

Page 48: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Bioinformatique - application 2:Assemblage des séquences d’ADN

• Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp !

Nature 409, 860-921 (2001)

Page 49: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Bioinformatique - application 2:Assemblage des séquences d’ADN

• -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome (« contig ») à partir de séquences de 1000 bp;

• Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives.

“Celera-generated shotgun data set consisted of 27 million sequencing reads …”Whole-genome shotgun assembly and comparison of human genome assemblies.PNAS 101(7):1916-21 (2004)

Page 50: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC

Génome humain

3.2 milliards de pb

2.7 milliards de $ (coût en 2000)

100 $ (coût en 2008 ?)

Page 51: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Le génome humain (3ème version) contient actuellement encore 341 « trous »

(essentiellement vers les centromères/télomères, régions répétitives)

Nature (oct 2004), 431, 931

Page 52: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Contenu des banques de données de séquences en acides nucléiques

EMBL/GenBank/DDBJhttp://www.ebi.ac.uk/embl/index.html

Octobre 2004

Craig VenterEx: mer des Sargasses1 milliard pb/semainehttp://www3.ebi.ac.uk/Services/DBStats/

Page 53: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

We have applied "whole-genome shotgun sequencing" to microbial populations collected en masse on tangential flow and impact filters from seawater samples collected from the Sargasso Sea near Bermuda. A total of 1.045 billion base pairs of nonredundant sequence was generated, annotated, and analyzed to elucidate the gene content, diversity, and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 previously unknown bacterial phylotypes. We have identified over 1.2 million previously unknown genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity.

Science 304:66-74(2004).

Page 54: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénomehttp://www.ncbi.nlm.nih.gov/Genomes/index.html

Tous ces sites sont constamment remis à jour !

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi

Page 55: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Page 56: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Une protéine: comment c’est fabriqué ?

Page 57: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Noyau de la cellule=

Bibliothèque

Chromosomes (ADN)=

Livres de recettes(23 x 2 chez l’homme)

Une cellule

Page 58: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Noyau = Bibliothèque

1 recette pour 1 protéine =

1 gène

Chromosomes (ADN) =

Livres de recettes

Une cellule

Page 59: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Noyau = Bibliothèque

Chromosomes (ADN)= Livres

1 gène = 1 recette

Photocopie de la recette (ARN)

Une cellule

Page 60: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Noyau

Chromosomes (ADN)

1 gène = 1 recette

Photocopie de la recette (ARN)

Une cellule

Page 61: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

NoyauChromosomes (ADN)

1 gène

Photocopie (ARN)

Machine à fabriquer les protéines (ribosomes)

Une cellule

Page 62: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Photocopie (ARN)

Machine à fabriquer les protéines

Une cellule

Page 63: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Photocopie de la recette

Machine à fabriquer les protéines

Une cellule

Page 64: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

MCB19-20 janvier 2006

Exploragénome

Page 65: MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Real life of a protein sequence …

TrEMBL Genpept

CoDing Sequences provided by submitters

cDNAs, ESTs, genomes, …

EMBL, GenBank, DDBJ

Data not submitted to public databases, delayed or cancelled…

Swiss-Prot

CoDing Sequences provided by submitter

and« de novo » gene prediction

RefSeqXP_NNNNN

UniProt: Swiss-Prot + TrEMBL + (PIR)NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF

Manually annotated

PRF

Scientific publications derived sequences

with or without annotated CDS

3D structures