22
La banque UniprotKB et le logiciel Blast

La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Embed Size (px)

Citation preview

Page 1: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

La banque UniprotKB et le logiciel Blast

Page 2: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

UniProtKB• Disponible depuis n’importe quel navigateur web

Page 3: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Un exemple de recherche de protéine

Page 4: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Histoire d’UniProtKB

1986 : SwissProt

+ 2002 : UniProtKB

Institut Européen de Bioinformatique Protein

Information Ressource

Page 5: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Organisation de la banque de données

• Données entrées à la main• Résultats vérifiés, issus d’articles scientifiques, références systématiques.• 541000 protéines, +600/mois

45 000 000 protéines

• Données entrées automatiquement, par analyse informatique de génomes• Résultats parfois peu fiables (identification des séquences codantes automatiques et déductions des fonctions par comparaison aux protéines connues)• 44 500 000 protéines, +2M le mois dernier

Page 6: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Evolution du nombre de protéines de la banque Tr-EMBL

Page 7: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Comment identifier automatiquement une protéine ?

4 types de preuves :

– au niveau protéique 0.05%– au niveau transcriptionnel 2%– déduction par homologie 23% – Prédiction par analyse de séquence 75%

Page 8: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Comment identifier automatiquement une protéine ?

La prédiction par analyse de séquence

Identification des CDS (CoDing Sequence) et non des ORF (Open Reading Frame)

• Trouver le cadre de lecture : zone pauvre en codons stop• Identifier les séquences proches de séquences connues• Chez les eucaryotes : le problème des introns/exons -> reconnaissance

statistique

Page 9: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Quelques exemples d’utilisation

Page 10: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 11: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 12: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 13: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 14: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 15: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 16: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Le logiciel BLASTBasic Alignment Search Tool

Page 17: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 18: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 19: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web
Page 20: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Principales utilisations de ces outils

• C’est avant tout une mine d’informations sur les protéines !

• Pour l’identification d’une nouvelle protéine : travail préliminaire de comparaison aux protéines connues

• Etude de mécanismes d’évolution• Travail statistique général sur les protéines

Page 21: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Statistiques généralesComposition en acides aminés

5.1 Composition in percent for the complete database

Ala (A) 8.66 Gln (Q) 3.99 Leu (L) 9.96 Ser (S) 6.55 Arg (R) 5.35 Glu (E) 6.22 Lys (K) 5.33 Thr (T) 5.55 Asn (N) 4.11 Gly (G) 7.08 Met (M)2.49 Trp (W) 1.28 Asp (D) 5.34 His (H) 2.19 Phe (F) 4.05 Tyr (Y) 3.08 Cys (C) 1.19 Ile (I) 6.10 Pro (P) 4.56 Val (V) 6.80 Asx (B) 0.000 Glx (Z) 0 Xaa (X) 0.02

Taille des séquences

Page 22: La banque UniprotKB et le logiciel Blast. UniProtKB Disponible depuis nimporte quel navigateur web

Conclusion