34
1 Sébastien Boisvert, François Laviolette et Jacques Corbeil La génomique, les superordinateurs et le logiciel d'assemblage Ray

La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

1

Sébastien Boisvert, François Laviolette et Jacques Corbeil

La génomique, les superordinateurs et le logiciel

d'assemblage Ray

Page 2: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

2

Attributs de la présentation

Clé Valeur

Numéro 2074

Mode de présentation Oral

Édition du congrès 81

Durée 20 minutes

Questions 5 minutes

Jour mardi 7 mai 2013

Horaire 8 h 30 à 12 h 00

Lieu Pavillon Alexandre-Vachon - 3380

Choix du domaine de recherche 209 - Techniques, mesures et systèmes

Second domaine de recherche (optionnel) 206 - Organismes vivants

Choix de la discipline 216 - Biotechnologies et biométrie

Page 3: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

3

ADN

● Stockage à long terme des plans pour construire un organisme vivant

● 4 symboles: A, T, C, G

Watson J.D. and Crick F.H.C.A Structure for Deoxyribose Nucleic AcidNature 171, 737-738 (1953)http://www.nature.com/nature/dna50/archive.html

Page 4: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

4

Information génétique

ADN

ARN

protéine

Image: Wikipedia

Page 5: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

5

Génome

● Ensemble du matériel génétique d'un organisme vivant

génomicien

Page 6: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

6

Séquençeur

● Technologie qui peut lire l'ADN

technicien

Page 7: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

7

Technologies

Jay Shendure & Hanlee JiNext-generation DNA sequencingNature Biotechnology 26, 1135 - 1145 (2008) http://www.nature.com/nbt/journal/v26/n10/full/nbt1486.html

Fig. 1

Page 8: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

8

Problématique

● Beaucoup de données générées● Le Illumina HiSeq 2000 génère 600

Gigabases / 11 jours

Page 9: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

9

Manque de logiciels parallèles

● Beaucoup de données● Superordinateurs disponibles● Manque de logiciels

John D McPhersonNext-generation gapNature Methods 6, S2 - S5 (2009) http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.f.268.html

Page 10: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

10

Types d'analyse● Assemblage de novo (sans référence)● Alignement (avec référence)

Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assemblyNature Methods 6, S6 - S12 (2009)http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.1376.html

Ewan BirneyPhoto: http://www.ebi.ac.uk/~birney/Paul Flicek

Photo: http://www.ebi.ac.uk

Page 11: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

11

Assemblage de novo

Photo: http://www.flickr.com/photos/carmyarmyofmeAttribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 Générique (CC BY-NC-ND 2.0)

Page 12: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

12Image: http://reasontostand.org/

Alignement

Page 13: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

13

Assemblage de novo

● Reconstruire un génome à partir de courtes pièces

Sébastien Boisvert, François Laviolette, and Jacques CorbeilRay: Simultaneous Assembly of Reads from a Mix of High-Throughput Sequencing Technologies Journal of Computational Biology. November 2010, 17(11): 1519-1533.http://online.liebertpub.com/doi/abs/10.1089/cmb.2009.0238

Fig. 1

Page 14: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

14

Comment représenter un génome en construction ?

● Graphe G = (V, E)● Il y a 4611686018427387904 mots de 31

nucléotides (A, T, C, G}● Considérer seulement les mots qui sont

visibles dans les données

Page 15: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

15

Graphe de Bruijn

● Alphabet: {A, T, C, G}● Diamètre: k● Sommets: Alphabet ^ Diamètre● Arêtes: (u, v) dans E si chevauchement de u

et v sur k -1 unités

Pavel A. Pevzner, Haixu Tang, and Michael S. WatermanAn Eulerian path approach to DNA fragment assemblyPNAS August 14, 2001 vol. 98 no. 17 9748-9753 http://www.pnas.org/content/98/17/9748.full

Page 16: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

16● http://browser.cloud.raytrek.com/client/?map=0&section=3&region=2&location=187&zoom=3.5091959149814884

Le graphe en action

sommet

profondeur de séquençage

relation

Page 17: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

17

Erreurs de séquençage: impasses

1

23

4

5

1 structure vraie du génome2 impasse3 impasse4 impasse5 impasse

Page 18: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

18

Superordinateur

Ordinateur avec 8 coeurs

Adapteur de communication

Câble de réseau

Routeur du réseau

Page 19: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

19

Passage de messages● Interface de passage de message (MPI)● Rangs● Message

Page 20: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

20

Méta-génome

● Ensemble de génomes● Exemple: tous les génomes dans un système

digestif humain● Assemblage de novo de métagénome: pas de

distribution globale de la profondeur

Page 21: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

21

Ray

● Modulaire● 26 modules● C++ 1998● MPI 1.0● Utilise RayPlatform (cadriciel)● Assembleur, profileur

Page 22: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

22

Ray Méta pour assembler des méta-génomes

Sébastien Boisvert, Frédéric Raymond, Élénie Godzaridis, François Laviolette et Jacques CorbeilRay Meta: scalable de novo metagenome assembly and profilingGenome Biology 2012, 13:R122 doi:10.1186/gb-2012-13-12-r122http://genomebiology.com/2012/13/12/R122

Fig. 1

Page 23: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

23

Ray Communities pour la quantification biologique

Fig. 2 Boisvert et al. 2013 Genome Biology

100 génomes bactériensNoir: résultat attenduBleu: résultat obtenu

1000 génomes bactériensNoir: résultat attenduBleu: résultat obtenu

Page 24: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

24

Profilage taxonomique

● Génomes pré-classés dans un arbre taxonomique

Fig. 3 Boisvert et al. 2013 Genome Biology

Page 25: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

25

Fig. 4 Boisvert et al. 2013 Genome Biology

Entérotypes

Page 26: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

26

Ontologie de gènes

Fig. 5A et B Boisvert et al. 2013 Genome Biology

● Ontologie est un vocabulaire contrôlé

● Utiliser le graphe de Bruijn coloré pour dénombrer les fonctions

Page 27: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

27

L'explorateur Ray Cloud Browser

● Projet démarré en novembre 2012● http://github.com/sebhtml/Ray-Cloud-Browser

Page 28: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

28

Buts de Ray Cloud Browser

● Aider à mieux comprendre les algorithmes d'assemblage de novo

● Vulgariser la science génomique● Partager des assemblages dans les nuages

Page 29: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

29

Algorithmes

● Loi universelle de la gravitation de Newton● Loi des ressorts de Hooke● Arbre quadruple● Algorithme Barnes-Hut● Amortissement (“dampening”)● Mise en scène (matériaux, calques)

Page 31: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

31

Remerciements

● Financement:● 2010-2013 Bourse d'études supérieures du

Canada Frederick Banting et Charles Best - Bourse au doctorat

Page 32: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

32

Remerciements

● Co-auteurs de l'article paru dans Genome Biology:

● Dr Frédéric Raymond● Mme Élénie Godzaridis● Pr François Laviolette● Pr Jacques Corbeil

Page 33: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

33

Physique et de l'affichage de Ray Cloud Browser

● Jean-François Erdelyi

Page 34: La génomique, les superordinateurs et le logiciel d ...10 Types d'analyse Assemblage de novo (sans référence) Alignement (avec référence) Paul Flicek & Ewan Birney Sense from

34

Remerciements

● Infrastructure de calcul