49
1 La recherche en biologie computationnelle par Sébastien Boisvert http://boisvert.info BIF-1000 La profession de bioinformatien Mercredi le 19 octobre 2011 Local PLT-2510 30 minutes

La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

1

La recherche en biologie computationnelle

par Sébastien Boisverthttp://boisvert.info

BIF-1000La profession de bioinformatien

Mercredi le 19 octobre 2011Local PLT-2510

30 minutes

Page 2: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

2

Questions *

● Quand as-tu décidé de faire de la bio-informatique et pourquoi ?

● Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique ?

● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?

● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?

* Questions pertinentes selon Élénie Godzaridis, collègue (bio-) informaticienne

Page 3: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

3

Question 1● Quand as-tu décidé de faire de la bio-

informatique et pourquoi ?

Page 4: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

4

31 mars 1998: StarCraft

● Secondaire 1● Programmation

Page 5: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

5

31 mars 1998: The Matrix

● Un monde de machines qui cultivent les humains pour obtenir de l'énergie.

● Les humains vivent dans la matrice, un monde virtuel créé par les machines.

Page 6: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

6

1998: TI-80

● Texas Instrument

● Programmable en BASIC

Processor proprietaryFrequency 980 kHzUser Memory 7 KB of RAM

Page 7: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

7

1999: Cours introduction à l'Internet

● Secondaire 3● Appris le HTML et le CSS● http://www.w3schools.com/

Page 8: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

8

2001: Cours de chimie

● Secondaire 5● Prof: Chau Ly-Hai● Il a dit que la biotechnologie est l'avenir.

Page 9: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

9

2002-2005: cégep

● DEC en techniques de laboratoire● Spécialisation en biotechnologies

Cégep de Lévis-Lauzon

Page 10: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

10

31 mars 2003: Red Hat Linux 9

Page 11: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

11

Mai – juin 2005: stage au CHUL

● Cancer du sein● Séquençage de l'ADN● J'ai vu que l'informatique était très important en

génétique

Page 12: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

12

Réponse à la question

● Quand as-tu décidé de faire de la bio-informatique et pourquoi ?

● Quand: au cégep● Pourquoi: parce que la biotechnologie est

l'avenir et que l'informatique est omni-présente dans notre société

Page 13: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

13

Question 2

● Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique ?

Page 14: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

14

Pour répondre à la question

● Description de mon cheminement universitaire

Page 15: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

15

2005-2008: baccalauréat

● Biotechnologie● Concentration en bio-informatique● Université de Sherbrooke

● 1/3 informatique● 2/3 biologie● 0.001% bio-informatique

Page 16: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

16

Mai – août 2006: stage 1

● Centre de recherche en infectiologie de l'Université Laval

● Biopuces, biostatistiques● Développement web● Le parasite Leishmania

● Langages:

ANSI C, ISO C++, Perl, Ruby, R, HTML, CSS● GNU, Linux, subversion, Ruby on Rails

Page 17: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

17

Janvier – avril 2007: stage 2

● Centre de recherche en infectiologie de l'Université Laval

● Biopuces, biostatistiques● Entrepôts de données, services web, interfaces● Virus respiratoires

● Langages:

ANSI C, ISO C++, R, Ruby, HTML, CSS● Ruby on Rails

Page 18: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

18

Sept. – décembre 2007: stage 3● Groupe de recherche en apprentissage

automatique de l'Université Laval● Virus de l'immuno-déficience humaine

● Technologies:

Noyaux, Machines à vecteurs de support● Langages:

ISO C++, Ruby

Page 19: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

19

Mai – juillet 2008: stage à McGill● Stage au Centre

d'innovation de l'Université McGill et Génome Québec

● Développement d'outils génomiques

● Génome de Leishmania tarentolae

● Technologie de séquençage 454

Page 20: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

20

2008-2009: maîtrise

● Université Laval● Directeur: Jacques Corbeil (médecine)● Codirecteur: Mario Marchand (informatique)

Jacques Corbeil

Mario Marchand

Page 21: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

21

2008-2009: articles

● Sébastien Boisvert, Mario Marchand, François Laviolette, and Jacques Corbeil.

HIV-1 coreceptor usage prediction without multiple alignments: an application of string kernels. Retrovirology 2008 Dec 4;5:110.

● http://boisvert.info/publications.html

Page 22: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

22

2009: Financement

● Frederick Banting and Charles Best Canada Graduate Scholarship - Master’s Award, Canadian Institutes of Health Research (CIHR)

● 17500 $ pour 1 année

Page 23: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

23

2010: début d'un doctorat● Directeur: Jacques Corbeil (médecine)● Codirecteur: François Laviolette (informatique)

● Frederick Banting and Charles Best Canada Graduate Scholarship - Doctoral Award

Canadian Institutes of Health Research (CIHR)● 105 000 $ pour 3 années

François Laviolette

Page 24: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

24

Réponse à la question● Qu'as-tu retiré personnellement et

professionnellement de ta formation universitaire en bio-informatique ?

● Personnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour les logiciels libres et Linux

● Professionnellement: grand réseau de contact à travers le Canada, expertise dans des domaines de pointe de l'informatique et dans la génétique, profil interdisciplinaire

Page 25: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

25

Question 3

● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?

Page 26: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

26

Défi 0

● Parler deux langages – pour les biologistes (1) et pour les informaticiens (2)

Page 27: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

27

Défi 1

● Comprendre la biologie derrière les données

Page 28: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

28

2010: Illumina HiSeq 2000

● Séquençeur d'ADN

● Flow Cell v3● 8 lignes● 11 jours● > 6 000 000 000

séquences de 101 nucléotides

Page 29: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

29

Juillet – août 2011: stage à Toronto

● Ontario Institute for Cancer Research

● Super-ordinateur à l'interne

● ~4000 coeurs● Plusieurs séquençeurs

Illumina HiSeq 2000● Plusieurs peta-octets

de disques

Page 30: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

30

Défi 2

● Concevoir et implémenter des logiciels libres

Page 31: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

31

Architecture d'un jeu vidéo (C++)

● Jeu multi-joueur: calcul sur plusieurs ordinateurs

● while(leJeuRoule()){

recevoirDesInformationsDuRéseau();

recevoirDesEntréesDuClavierEtDeLaSouris();

avancerEtatDuJeu();

envoyerDesInformationsSurLeRéseau();

dessinerLeJeuSurEcran();

jouerLesSons();

}

Page 32: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

32

Architecture de Ray (C++)

● Ray: logiciel que je développe● Calcul distribué: calcul sur plusieurs ordinateurs

● while(leProgrammeRoule()){

recevoirDesMessagesDuRéseau();

traiterLesMessagesReçus();

avancerEtatDuCalcul();

envoyerDesMessagesSurLeRéseau();

}

Page 33: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

33

Défi 3

● Utiliser des infrastructures informatiques de prochaine génération

Page 34: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

34

2010: le colosse● À l'Université

Laval● 7680 coeurs de

calcul● Réseau

Infiniband (latence de 10 us)

● 500 tera-octets de disques

Page 35: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

35

Défi 4

● Comprendre des concepts abstraits pour les améliorer

Page 36: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

36

Graphe de Bruijn

● Un entier k, disons k=3● Un alphabet fini, disons {A,T,C,G}

● Les sommets: tous les mots de longueur k possibles avec {A,T,C,G}

● Arcs entre u et v si les k-1 dernières lettres de u sont les k-1 premières de v

● Exemple: ATG -> TGC

Page 37: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

37

Séquences et chemins

● x = ATACGGCAT● Sous-séquences de longueur 3 de x:

{ATA,TAC,ACG,CGG,GGC,GCA,CAT}● x est un chemin dans le graphe de Bruijn pour

k=3 avec l'alphabet {A,T,C,G}

● ATA -> TAC -> ACG -> CGG -> GGC -> GCA -> CAT

Page 38: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

38

Défi 5

● Partager les découvertes

Page 39: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

39

2010: première publication sur Ray

● Assembleur de novo● ISO C++ 1998● Massivement distribué● Standard MPI (Message-Passing Interface)● http://denovoassembler.sourceforge.net

● Journal of Computational Biology, November 2010, 17(11): 1519-1533.

Page 40: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

40

Réponse à la question

● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?

● En général: communication, algorithmes, planification

● Au jour le jour: trouver le bug X qui cause un problème

Page 41: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

41

Question 4

● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?

Page 42: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

42

Réponse à la question

● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?

● Avoir une composante informatique dans une formation permet d'avoir des compétences ré-utilisables

● Pour toi: post-doctorats, professeur-chercheur en bio-informatique, consultant/conseiller en calcul à haute performance, consultant/conseiller en logiciels libres

● Pour la bio-informatique: je me base sur l'opinions des géants de la bio-informatique

Page 43: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

43

Créer demain avec les géants d'hier

Page 44: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

44

Eugene W. Myers

● E. Myers (1986). "An O(ND) Difference Algorithm and Its Variations". Algorithmica 1 (2): 251–266 algorithme pour obtenir la différence entre deux fichiers

● Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403–410. outil de recherche blast

● Myers EW et al. (2000) "A whole-genome assembly of Drosophila." Science. 24;287(5461):2196-204 preuve de concept du shotgun sequencing & assembly

L'avenir: créer des algorithmes qui aident les biologistes

Page 45: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

45

Pavel A. Pevzner● Pevzner PA, Tang H, Waterman

MS. (2001) "An Eulerian path approach to DNA fragment assembly" PNAS 14;98(17):9748-53. approche complètement différence pour assembler les génomes

L'avenir: utiliser la combinatoire pour comprendre le vivant

Page 46: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

46

Steven L. Salzberg

● The knight of open access and open source in bioinformatics

● Algorithmes en bio-informatique (MUMmer, bowtie, GLIMMER, et beaucoup d'autres)

L'avenir: un monde bio-informatique ouvert, libre et honnête qui fait la promotion de l'innovation ouverte pour accélérer le progrès

Page 47: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

47

George Church

● Le présent: on peut lire l'ADN● L'avenir: pouvoir écrire l'ADN pour

permettre le traitement de maladies génétiques et pour créer des énergies vertes

Page 48: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

48

Jean-Philippe Vert

● Saigo H, Vert JP, Ueda N, Akutsu T. Protein homology detection using string alignment kernels. Bioinformatics. 22;20(11):1682-9.

● L'avenir: prédire le cancer avec l'intelligence artificielle

Page 49: La recherche en biologie computationnellePersonnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour

49

Pour en savoir plus

● Tweets Http://twitter.com/sebhtml● Site web Http://boisvert.info● Blogue http://dskernel.blogspot.com