64
Bachar Cheaib Laboratoire Derome Le 07 Avril 2015 Lire un métagénome c’est retrouver son chemin dans une forêt ?

Lire un métagénome c’est retrouver son chemin dans une forêt

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Lire un métagénome c’est retrouver son chemin dans une forêt

Bachar Cheaib Laboratoire Derome Le 07 Avril 2015 

Lire un métagénome c’est retrouver son chemin dans une forêt ? 

Page 2: Lire un métagénome c’est retrouver son chemin dans une forêt

Du ciel confortable (bio) à la forêt inconfortable (bioinfo)  

Page 3: Lire un métagénome c’est retrouver son chemin dans une forêt

NGS 

Page 4: Lire un métagénome c’est retrouver son chemin dans une forêt

Rendre la complexité simple et lisible 

Page 5: Lire un métagénome c’est retrouver son chemin dans une forêt

La métagénomique une méthode d’accès aux  ressources généMques 

culture cellulaire  

ÉchanMllonnage 

Page 6: Lire un métagénome c’est retrouver son chemin dans une forêt
Page 7: Lire un métagénome c’est retrouver son chemin dans une forêt

ÉchanMllonnage 

Microfiltrage 

adapté  

Extrac3on de 

L’ADN total  

La métagénomique une méthode d’accès aux  ressources généMques 

Page 8: Lire un métagénome c’est retrouver son chemin dans une forêt

ÉchanMllonnage 

Coupure 

La métagénomique une méthode d’accès aux  ressources généMques 

Microfiltrage 

adapté  

Extrac3on de 

L’ADN total  Prépara3on 

des librairies 

amplifica3on 

Page 9: Lire un métagénome c’est retrouver son chemin dans une forêt

ÉchanMllonnage 

Coupure Prépara3on 

des librairies 

amplifica3on 

Séquençage 

massif  

fragments 

courts 

La métagénomique une méthode d’accès aux  ressources généMques 

Microfiltrage 

adapté  

Extrac3on de 

L’ADN total  

Page 10: Lire un métagénome c’est retrouver son chemin dans une forêt

Du séquençage à la bioinformaMque 

Page 11: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Page 12: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation

Page 13: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Function

abundance

Page 14: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Page 15: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Polymorphism

Page 16: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Polymorphism

Metabolic abundance

Page 17: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads features

Data exploraMon ( i.e SGA Preqc)  

Per‐base error rates 

Sequence coverage  

Repeat‐content 

Metagenome size, 

Before filtering…   

Page 18: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads features

Before filtering…   

Page 19: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads features

Before filtering…   

Page 20: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Page 21: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

NGS technologies

Fastx-toolkit,

Trimmomatic,

Sickle,

ERNE-filter,

Deconseq

Page 22: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

NGS technologies

‐  Fastx‐toolkit for Short‐Reads FASTA/FASTQ (Hannon Lab ) ‐  TrimmomaMc (Bolger et al 2014, Bioinforma3cs) 

‐  Sickle (Joshi NA and Fass JN. , 2011) ‐  ERNE (Extended Randomized Numerical alignEr) (Fabbro et al, 2013) ‐  Deconseq (DECONtamina3on of SEQuence data) (Schmeider and Edwards, 2011) 

Fastx-toolkit,

Trimmomatic,

Sickle,

ERNE-filter,

Deconseq

Page 23: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

NGS technologies

Assembly

RAY META

SOAP, SGA

Fermi, MetaVelvet,

Newbler

Fastx-toolkit,

Trimmomatic,

Sickle,

ERNE-filter,

Deconseq

Page 24: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation

Page 25: Lire un métagénome c’est retrouver son chemin dans une forêt

Inconnu 

Connu 

Retrouver le connu et prédire l’inconnu 

Page 26: Lire un métagénome c’est retrouver son chemin dans une forêt

Inconnu 

Connu 

Retrouver le connu et prédire l’inconnu 

Page 27: Lire un métagénome c’est retrouver son chemin dans une forêt

Generalist  Specialist 

Curated/

verified 

 

Not 

verified/

curated 

GeneBank 

EMBL 

… 

SwissProt 

… 

Curated/

verified 

 

Not 

verified/

curated 

SEED 

Model organisms 

Databases (FlyBase) 

 

Local databases 

… 

Pfam 

ProDom 

… 

Sequence/funcMon/structure  Sequence/funcMon/structure 

Page 28: Lire un métagénome c’est retrouver son chemin dans une forêt

FuncMonal classificaMon  

•  The gene/protein family approach or the Clusters of Orthologous Groups(COG)s, (clustering algorithms based similarity) 

•  The Subsystem approach to genome annotaMon (Overbeek et al 2005) 

•  Bio‐ontology (rarely used in metagenomics) 

Page 29: Lire un métagénome c’est retrouver son chemin dans une forêt

h^p://portal.nersc.gov/project/m1317/FOAM/ 

Page 30: Lire un métagénome c’est retrouver son chemin dans une forêt

Bio‐onthologies 

Page 31: Lire un métagénome c’est retrouver son chemin dans une forêt

Inconnu 

Connu 

Retrouver le connu et prédire l’inconnu 

métagenome 

Page 32: Lire un métagénome c’est retrouver son chemin dans une forêt

Inconnu 

Connu 

Retrouver le connu et prédire l’inconnu 

métagenome 

•  Importance de 

l’algorithmique de 

graphes 

•  Assemblage des 

nouveaux génomes 

•  Découverte des 

nouvelles organismes  

Page 33: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Function

abundance

Page 34: Lire un métagénome c’est retrouver son chemin dans une forêt

FindORFS 

•  Ab ini3o/De novo  

(based gene content) 

•  Similarity methods 

•  Combined  

•  Compara3ve  

Annota3on against 

databases 

•  Local and global

similarity search

•  Exact matching

etc

Func3onal 

annota3on and 

classifica3on 

….. 

GLIMMER 

METAGENE‐ANNOTATOR 

GeneMark 

FragGeneScan 

….. 

 

Page 35: Lire un métagénome c’est retrouver son chemin dans une forêt

Func3onal annota3on 

and classifica3on 

ORFS (FragGenScan)  BLAT 

The SEED 

database 

(Overbeek et al 2014) 

(Oberbeek et al 2005) 

Page 36: Lire un métagénome c’est retrouver son chemin dans une forêt

Func3onal annota3on 

and classifica3on 

ORFS (FragGenScan)  BLAT/BLAST 

The SEED 

database 

4 hierarchical levels 

Level 1  

(27 categories) 

(Overbeek et al 2014) 

(Oberbeek et al 2005) 

RAST, Rapid Annota3ons 

 using Subsystems Technology 

Page 37: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Page 38: Lire un métagénome c’est retrouver son chemin dans une forêt

Taxonomic assignment 

(binning) 

Amplicons of markers  from metagenomes  

Whole MG content  

Gene Markers 

All genes 

16S 

House‐keeping 

Specific biomarkers 

Page 39: Lire un métagénome c’est retrouver son chemin dans une forêt

Taxonomic assignment 

(binning) 

Whole MG content  

All genes 

LCA (Lowest Common 

Ancestor) 

Best hit  

Representa3ve hit 

Assignement des taxons 

Page 40: Lire un métagénome c’est retrouver son chemin dans une forêt

Bazinet and Cummings BMC Bioinforma3cs 2012 

Similarity based PhylogeneMc‐based ComposiMon‐based 

Page 41: Lire un métagénome c’est retrouver son chemin dans une forêt

Bazinet and Cummings, 2012 

Page 42: Lire un métagénome c’est retrouver son chemin dans une forêt

Taxonomic assignment 

(binning) 

OTUs Profiling based  

16S gene markers 

Alpha‐Diversity es3ma3on 

Mothur  (Uclust) 

Qiime (Usearch)  

OTU (Opera3onal Taxonomic 

Unit) Clustering 

For Amplicons only, not metagenomes  

16S 

Gene Markers 

Page 43: Lire un métagénome c’est retrouver son chemin dans une forêt

Taxonomic assignment 

(binning) 

Amplicons of markers  from metagenomes  

OTUs based Gene Markers 

16S 

House‐keeping 

Biodiversity sampling ? RarefacMon curves 

Specific biomarkers 

Page 44: Lire un métagénome c’est retrouver son chemin dans une forêt

Taxonomic assignment 

(binning) 

OTUs Profiling based  

16S gene markers 

Alpha‐Diversity es3ma3on 

Mothur  (Uclust) 

Qiime (Usearch)  

OTU (Opera3onal Taxonomic 

Unit) Clustering 

For Amplicons only, not metagenomes  

16S 

Gene Markers  House‐

keeping 

OTUs profiling based

housekeeping genes

Metaphlan

Mapping/similarity

research

BOWTIE/BLAST 

(Segata et al, 2012) 

Page 45: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Polymorphism

Page 46: Lire un métagénome c’est retrouver son chemin dans une forêt

Environmental biomarkers annotated from contigs

Calling Variants (SNP)s

Page 47: Lire un métagénome c’est retrouver son chemin dans une forêt

Mappings Reads/Contigs

Calling Variants (SNP)s

SamTools, VCFTools

FreeBayes, picard

GATK, Platypus

1 ? 

Next club discussion ?  

Tools based mapping 

Environmental biomarkers annotated from contigs

Page 48: Lire un métagénome c’est retrouver son chemin dans une forêt

Mappings Reads/Contigs

Tools EvaluaMon 

Rufallo et al, 2011 

SEAL evaluator : Seal is available as open source at h^p://compbio.case .edu/seal/ 

Page 49: Lire un métagénome c’est retrouver son chemin dans une forêt

Rufallo et al, 2011 

Indexing run3me versus Alignment Run3me 

Page 50: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenomes Reads

Preprocessing

(Trimming, Quality Control,

Decontamination)

Assembly

Annotation Taxonomic

abundance

Function abundance

Polymorphism

Metabolic abundance

Page 51: Lire un métagénome c’est retrouver son chemin dans une forêt

Functional metagenome

annotations

Mapping metabolic pathways

KEGG MAP TOOL 

Abundance of pathways

enzymes

Page 52: Lire un métagénome c’est retrouver son chemin dans une forêt

Pipeline d’analyse de “reads” aux métabolites 

Prétraitement 

Page 53: Lire un métagénome c’est retrouver son chemin dans une forêt

Pipeline d’analyse de “reads” aux métabolites 

LCA 

MGRAST 

Assignement des taxons 

Prétraitement 

Taxonomie 

Page 54: Lire un métagénome c’est retrouver son chemin dans une forêt

Pipeline d’analyse de “reads” aux métabolites 

LCA 

MGRAST 

Assignement des taxons 

Prétraitement 

Taxonomie 

FoncMon 

Page 55: Lire un métagénome c’est retrouver son chemin dans une forêt

Pipeline d’analyse de “reads” aux métabolites 

LCA 

MGRAST 

Assignement des taxons 

Prétraitement  Polymorphisme 

Taxonomie 

FoncMon 

Metabolic abundance

Page 56: Lire un métagénome c’est retrouver son chemin dans une forêt

Metagenome webservers and soeware 

•  MG‐RAST 

•  METAGENassist 

•  AMPHORA2 

•  QIIME (amplicons) 

•  MOTHUR (amplicons) 

•  MEGAN 

 

etc 

 

Page 57: Lire un métagénome c’est retrouver son chemin dans une forêt

Quelques astuces … 

•  Chercher des études compara3ves ou des logiciels d’évalua3on 

•  Chercher des références pour l’op3misa3on des paramètres  

•  Choisir les bonnes ressources d’annota3on 

•  Faire des expériences supplémentaires pour évaluer la per3nence 

et la fiabilité des méthodes 

•  Ouvrir la boite noire des ou3ls, logiciels, web serveurs etc.  

Page 58: Lire un métagénome c’est retrouver son chemin dans une forêt

“Whether you want  to uncover  the  secrets of 

the  universe,  or  you  just  want  to  pursue  a 

career  in  the  21st  century,  basic  computer 

programming is an essen0al skill to learn.”  

 

Stephen Hawking 

Page 59: Lire un métagénome c’est retrouver son chemin dans une forêt

Club of “Biocoders” idea ?  

R,  Python, PERL, AWK … 

“Scripts developed over 0me and (some0mes) s0ll usefull” 

Page 60: Lire un métagénome c’est retrouver son chemin dans une forêt

References 

•  Sharon et Banfield, Science, 2013 

•  Albertsen et al, Nature biotechnology, 2013 

•  Iverson et al, Science, 2012 

•  Yilmaz et al, Nature biotechnology, 2011 

•  Luo et al., Methods in enzymology, 2013 

•  Sharpton et al., Fron3ers in PLANT science, 2014 

•  Caporaso et al, Nature Methods, 2010 

•  Huson et al, Genome Research, 2011 

 

Page 61: Lire un métagénome c’est retrouver son chemin dans une forêt
Page 62: Lire un métagénome c’est retrouver son chemin dans une forêt

QuesMons ? 

Page 63: Lire un métagénome c’est retrouver son chemin dans une forêt

Mande et al, 2012 

Page 64: Lire un métagénome c’est retrouver son chemin dans une forêt

Mande et al, 2012 

U=Unknown  

K=known