Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1
La recherche en biologie computationnelle
par Sébastien Boisverthttp://boisvert.info
BIF-1000La profession de bioinformatien
Mercredi le 19 octobre 2011Local PLT-2510
30 minutes
2
Questions *
● Quand as-tu décidé de faire de la bio-informatique et pourquoi ?
● Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique ?
● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?
● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?
* Questions pertinentes selon Élénie Godzaridis, collègue (bio-) informaticienne
3
Question 1● Quand as-tu décidé de faire de la bio-
informatique et pourquoi ?
4
31 mars 1998: StarCraft
● Secondaire 1● Programmation
5
31 mars 1998: The Matrix
● Un monde de machines qui cultivent les humains pour obtenir de l'énergie.
● Les humains vivent dans la matrice, un monde virtuel créé par les machines.
6
1998: TI-80
● Texas Instrument
● Programmable en BASIC
Processor proprietaryFrequency 980 kHzUser Memory 7 KB of RAM
7
1999: Cours introduction à l'Internet
● Secondaire 3● Appris le HTML et le CSS● http://www.w3schools.com/
8
2001: Cours de chimie
● Secondaire 5● Prof: Chau Ly-Hai● Il a dit que la biotechnologie est l'avenir.
9
2002-2005: cégep
● DEC en techniques de laboratoire● Spécialisation en biotechnologies
Cégep de Lévis-Lauzon
10
31 mars 2003: Red Hat Linux 9
11
Mai – juin 2005: stage au CHUL
● Cancer du sein● Séquençage de l'ADN● J'ai vu que l'informatique était très important en
génétique
12
Réponse à la question
● Quand as-tu décidé de faire de la bio-informatique et pourquoi ?
● Quand: au cégep● Pourquoi: parce que la biotechnologie est
l'avenir et que l'informatique est omni-présente dans notre société
13
Question 2
● Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique ?
14
Pour répondre à la question
● Description de mon cheminement universitaire
15
2005-2008: baccalauréat
● Biotechnologie● Concentration en bio-informatique● Université de Sherbrooke
● 1/3 informatique● 2/3 biologie● 0.001% bio-informatique
16
Mai – août 2006: stage 1
● Centre de recherche en infectiologie de l'Université Laval
● Biopuces, biostatistiques● Développement web● Le parasite Leishmania
● Langages:
ANSI C, ISO C++, Perl, Ruby, R, HTML, CSS● GNU, Linux, subversion, Ruby on Rails
17
Janvier – avril 2007: stage 2
● Centre de recherche en infectiologie de l'Université Laval
● Biopuces, biostatistiques● Entrepôts de données, services web, interfaces● Virus respiratoires
● Langages:
ANSI C, ISO C++, R, Ruby, HTML, CSS● Ruby on Rails
18
Sept. – décembre 2007: stage 3● Groupe de recherche en apprentissage
automatique de l'Université Laval● Virus de l'immuno-déficience humaine
● Technologies:
Noyaux, Machines à vecteurs de support● Langages:
ISO C++, Ruby
19
Mai – juillet 2008: stage à McGill● Stage au Centre
d'innovation de l'Université McGill et Génome Québec
● Développement d'outils génomiques
● Génome de Leishmania tarentolae
● Technologie de séquençage 454
20
2008-2009: maîtrise
● Université Laval● Directeur: Jacques Corbeil (médecine)● Codirecteur: Mario Marchand (informatique)
Jacques Corbeil
Mario Marchand
21
2008-2009: articles
● Sébastien Boisvert, Mario Marchand, François Laviolette, and Jacques Corbeil.
HIV-1 coreceptor usage prediction without multiple alignments: an application of string kernels. Retrovirology 2008 Dec 4;5:110.
● http://boisvert.info/publications.html
22
2009: Financement
● Frederick Banting and Charles Best Canada Graduate Scholarship - Master’s Award, Canadian Institutes of Health Research (CIHR)
● 17500 $ pour 1 année
23
2010: début d'un doctorat● Directeur: Jacques Corbeil (médecine)● Codirecteur: François Laviolette (informatique)
● Frederick Banting and Charles Best Canada Graduate Scholarship - Doctoral Award
Canadian Institutes of Health Research (CIHR)● 105 000 $ pour 3 années
François Laviolette
24
Réponse à la question● Qu'as-tu retiré personnellement et
professionnellement de ta formation universitaire en bio-informatique ?
● Personnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour les logiciels libres et Linux
● Professionnellement: grand réseau de contact à travers le Canada, expertise dans des domaines de pointe de l'informatique et dans la génétique, profil interdisciplinaire
25
Question 3
● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?
26
Défi 0
● Parler deux langages – pour les biologistes (1) et pour les informaticiens (2)
27
Défi 1
● Comprendre la biologie derrière les données
28
2010: Illumina HiSeq 2000
● Séquençeur d'ADN
● Flow Cell v3● 8 lignes● 11 jours● > 6 000 000 000
séquences de 101 nucléotides
29
Juillet – août 2011: stage à Toronto
● Ontario Institute for Cancer Research
● Super-ordinateur à l'interne
● ~4000 coeurs● Plusieurs séquençeurs
Illumina HiSeq 2000● Plusieurs peta-octets
de disques
30
Défi 2
● Concevoir et implémenter des logiciels libres
31
Architecture d'un jeu vidéo (C++)
● Jeu multi-joueur: calcul sur plusieurs ordinateurs
● while(leJeuRoule()){
recevoirDesInformationsDuRéseau();
recevoirDesEntréesDuClavierEtDeLaSouris();
avancerEtatDuJeu();
envoyerDesInformationsSurLeRéseau();
dessinerLeJeuSurEcran();
jouerLesSons();
}
32
Architecture de Ray (C++)
● Ray: logiciel que je développe● Calcul distribué: calcul sur plusieurs ordinateurs
● while(leProgrammeRoule()){
recevoirDesMessagesDuRéseau();
traiterLesMessagesReçus();
avancerEtatDuCalcul();
envoyerDesMessagesSurLeRéseau();
}
33
Défi 3
● Utiliser des infrastructures informatiques de prochaine génération
34
2010: le colosse● À l'Université
Laval● 7680 coeurs de
calcul● Réseau
Infiniband (latence de 10 us)
● 500 tera-octets de disques
35
Défi 4
● Comprendre des concepts abstraits pour les améliorer
36
Graphe de Bruijn
● Un entier k, disons k=3● Un alphabet fini, disons {A,T,C,G}
● Les sommets: tous les mots de longueur k possibles avec {A,T,C,G}
● Arcs entre u et v si les k-1 dernières lettres de u sont les k-1 premières de v
● Exemple: ATG -> TGC
37
Séquences et chemins
● x = ATACGGCAT● Sous-séquences de longueur 3 de x:
{ATA,TAC,ACG,CGG,GGC,GCA,CAT}● x est un chemin dans le graphe de Bruijn pour
k=3 avec l'alphabet {A,T,C,G}
● ATA -> TAC -> ACG -> CGG -> GGC -> GCA -> CAT
38
Défi 5
● Partager les découvertes
39
2010: première publication sur Ray
● Assembleur de novo● ISO C++ 1998● Massivement distribué● Standard MPI (Message-Passing Interface)● http://denovoassembler.sourceforge.net
● Journal of Computational Biology, November 2010, 17(11): 1519-1533.
40
Réponse à la question
● Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour ?
● En général: communication, algorithmes, planification
● Au jour le jour: trouver le bug X qui cause un problème
41
Question 4
● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?
42
Réponse à la question
● Que vois-tu comme avenir pour toi et pour la bio-informatique en général ?
● Avoir une composante informatique dans une formation permet d'avoir des compétences ré-utilisables
● Pour toi: post-doctorats, professeur-chercheur en bio-informatique, consultant/conseiller en calcul à haute performance, consultant/conseiller en logiciels libres
● Pour la bio-informatique: je me base sur l'opinions des géants de la bio-informatique
43
Créer demain avec les géants d'hier
44
Eugene W. Myers
● E. Myers (1986). "An O(ND) Difference Algorithm and Its Variations". Algorithmica 1 (2): 251–266 algorithme pour obtenir la différence entre deux fichiers
● Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403–410. outil de recherche blast
● Myers EW et al. (2000) "A whole-genome assembly of Drosophila." Science. 24;287(5461):2196-204 preuve de concept du shotgun sequencing & assembly
L'avenir: créer des algorithmes qui aident les biologistes
45
Pavel A. Pevzner● Pevzner PA, Tang H, Waterman
MS. (2001) "An Eulerian path approach to DNA fragment assembly" PNAS 14;98(17):9748-53. approche complètement différence pour assembler les génomes
L'avenir: utiliser la combinatoire pour comprendre le vivant
46
Steven L. Salzberg
● The knight of open access and open source in bioinformatics
● Algorithmes en bio-informatique (MUMmer, bowtie, GLIMMER, et beaucoup d'autres)
L'avenir: un monde bio-informatique ouvert, libre et honnête qui fait la promotion de l'innovation ouverte pour accélérer le progrès
47
George Church
● Le présent: on peut lire l'ADN● L'avenir: pouvoir écrire l'ADN pour
permettre le traitement de maladies génétiques et pour créer des énergies vertes
48
Jean-Philippe Vert
● Saigo H, Vert JP, Ueda N, Akutsu T. Protein homology detection using string alignment kernels. Bioinformatics. 22;20(11):1682-9.
● L'avenir: prédire le cancer avec l'intelligence artificielle
49
Pour en savoir plus
● Tweets Http://twitter.com/sebhtml● Site web Http://boisvert.info● Blogue http://dskernel.blogspot.com