19
Pôle de Biologie Médicale et Pathologie (Dr M. VAUBOURDOLLE) Département de Génétique Médicale (Pr J.P. SIFFROI) UF de Génétique Moléculaire (Pr S. AMSELEM) Site Trousseau Utilisation du séquençage nouvelle génération pour le diagnostic des maladies rares Bruno Copin Bioinformaticien

Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Pôle de Biologie Médicale et Pathologie (Dr M. VAUBOURDOLLE)

Département de Génétique Médicale (Pr J.P. SIFFROI) UF de Génétique Moléculaire (Pr S. AMSELEM)

Site Trousseau

Utilisation du séquençage nouvelle génération pour le diagnostic des maladies rares

Bruno Copin Bioinformaticien

Page 2: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Fichiers de sortie des séquenceurs :

• Images (photos), logs …

• Fastq : @HWI-ST278R:335:C16J4ACXX:4:1101:1729:2093 1:N:0:CTTGTA

GAGGACTTCAGTGAGTAGGGCGTGAGAGGGAGGTAGGGTAAGTTGGACTGACCAGGGTCTGAGATCTAACTCAAGT

+

@@@DDDDDHFHBFEF<AFEH@G2@)8?EHIIII)?GGI9?;F8<CGCHC@D)=@EHHA=EC;BBBDDDCCCCAAC#

@HWI-ST278R:335:C16J4ACXX:4:1101:1920:2095 1:N:0:CTTGTA

AAGAAGGGGACTTCAAAAATATGCTTCGGTTAAAAGAACTGGGAATCAACAATATGTGCGAGCTCGTTTCTGTCGC

+

@@?DD>DDFHFFDIIH9FFHIICH?<FHG:DGIG4:?DGB?9@GGIHGBDCFG9F>.=@BA<B<BD31;ACC@C?#

• VCF (variant calling format):

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003

20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.

20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3

20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4

• BAM (binaire d’un SAM - Sequence Alignment/Map)

Analyse bioinformatique

Page 3: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Contrôles de qualité

Analyse bioinformatique

• La représentation des échantillons sur la flow cell doit être la plus homogène possible

=> Vu directement sur le séquenceur

• Si un échantillon est sous ou sur représenté, il faut contrôler les données avec un outil comme fastqc

Page 4: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Buts :

• Avoir un système automatique, de la génération des fichiers « bruts » de

NGS (multiplateformes – Illumina) avec une interface unique

• Collecter tous les variants de toutes les études dans des bases de données

• Analyser depuis son poste de travail (restriction, être sur le réseau de

l’hôpital)

• Pouvoir enregistrer des annotations non disponibles automatiquement ainsi

que des commentaires récupérables ultérieurement pour d’autres ADNs.

Analyse bioinformatique

Page 5: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

fastqToVcf.pl Génération de 250 GO de fichiers par Id

Insert_VCF4.pl

ADN_L001_R(1/2)_001.fastq.gz

(5GO chacun)

Insertion dans la base des 3 fichiers annotés de façon indirecte Création de table de hachage (Une table de hachage est, en informatique, une structure de données qui permet une

association clé-élément, c'est-à-dire une implémentation du type abstrait tableau associatif) pour un gain de temps. L’insertion est réalisée de façon à utiliser un maximum de processeurs de libres

Analyse bioinformatique

Page 6: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Table ADN ~80 colonnes

• Sha (concaténation

Chr_Start_End_Ref_Alt =>clé primaire)

• Chr

• Start

• End

• Ref

• Alt

• FuncGene

• GeneName

• ExonicFunGene

• AaChange

• dbSnp132

• ScoreTFBSconsSite

• FTrans

• ScoreTargetScans

• CibleTargetScans

• WgRNA

• PhastConsElements46wayScore

• PhastConsElements46wayLod

• GenomicSuperDupsScore

• GenomicSuperDupsPos

• DGV

• gwasCatalog

• MafEvs

• Maf1kgAll

• Maf1kgAfr

• Maf1kgAmr

• Maf1kgAsn

• Maf1kgEur

• Sift-LJB2

• Polyphen2-HDIV-LJB2

• Pp2-Hdiv-Pred-LJB2

• PolyPhen2-Hvar-LJB2

• PolyPhen2_HVAR_Pred-LJB2

• LRT-LJB2

• LRT_Pred-LJB2

• MutationTaster-LJB2

• MutationTaster-Pred-LJB2

• MutationAssessor-LJB2

• MutationAssessor-Pred-LJB2

• FATHMM-LJB2

• GERP-LJB2

• PhyloP-LJB2

• SiPhy-LJB2

• Genotype-Bowtie2

• Qual-Bowtie2

• DPused-Bowtie2

• INDEL-Bowtie2

• DP-Bowtie2

• VDB-Bowtie2

• AF1-Bowtie2

• AC1-Bowtie2

• DP4-Bowtie2

• MQ-Bowtie2

• FQ-Bowtie2

• PV4-Bowtie2

• BiasStrand-Bowtie2

• BiasBaseQ

• BiasMapQ

• BiasTail

• Genotype-Bwa

• Qualx-Bwa

• DPused-Bwa

• Qual-Bwa

• AF-Bwa

• AN-Bwa

• DB-Bwa

• DP-Bwa

• DS-Bwa

• Dels-Bwa

• HRun-Bwa

• FS-Bwa

• Haplotype-Bwa

• MLEAC-Bwa

• MLEAF-Bwa

• MQ-Bwa

• MQ0-Bwa

• QD-Bwa

• BiasStrand-Bwa

• VQSLOD-Bwa

• INDEL-Bwa

• HOMLEN

• HOMSEQ

• SVLEN

• SVTYPE

• NTLEN

• DP-Pindel

• date dateTIME

• Val1

• Val2

• Val3

• Val4

• dateValidation

Analyse bioinformatique

Page 7: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Table AllVariants (concaténation de tables par Chromosome)

• Sha (concaténation Chr_Start_End_Ref_Alt =>clé primaire) • Chr • Start • End • Ref • Alt • Het nbre d’ADN hétérozygotes pour la variation • Hom • Het_ADN N° ADN htz pour la variation • Hom_ADN • Date (timestamp) • Commentaire • Date commentaire

Analyse bioinformatique

Page 8: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Mise à disposition des données pour annotations manuelles et classement des variants

Analyse bioinformatique

Page 9: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Sélection d’un ADN pour un gène

Analyse bioinformatique

Page 10: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Analyse bioinformatique

Maf1kGAll Status Variant

Commentaire Variant

Validation technicien

Validation Ingénieur

Validation Biologiste

junior

Validation Biologiste

senior

0.0005 Pathogenic 5 MLG: p.Glu29*, décrit plusieurs

familles Kott et al.

Phil 01-01-2015 15:03:22

Marie 04-01-2015 15:03:22

Marie 04-01-2015 15:03:22

0.09 Guy 02-01-2015 15:03:22

Flo 03-01-2015 15:03:22

Marie 04-01-2015 15:03:22

Marie 04-01-2015 15:03:22

0.83

5 pathogenic

4 likely patho

3 VOUS

2 Likely benign

1 benign

0 artefact

Page 11: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Visualisation des données d’un variant 1/3

Analyse bioinformatique

Page 12: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Analyse bioinformatique Visualisation des données d’un variant 2/3

Page 13: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Analyse bioinformatique Visualisation des données d’un variant 3/3

Page 14: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Synthèse de l’analyse

Un tableau regroupant les variants classés est créé suivant les règles actuelles : 5 pathogène sûr 4 pathogène probable 3 variants de signification inconnue 2 polymorphisme probable 1 polymorphisme sûr

Analyse bioinformatique

Page 15: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Outils utilisés

BWA (Burrows-Wheeler Aligner Li H. and Durbin R. (2009) Bioinformatics, 25:1754-60)

Bowtie2 ( Langmead B, Salzberg S. Nature Methods. 2012, 9:357-359. Johns Hopkins University)

GATK (The Genome Analysis Toolkit McKenna A, et al.(2010). . Genome Res. 20:1297-303. Broad Institute)

Picard & SAMtools, Projets opensource (Li H.*, Handsaker B.*, Wysoker A., Fennell T., Ruan J., Homer N., Marth G.,

Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9)

Annovar (Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010)

Pindel (Ye K, Schulz MH, Long Q, Apweiler R, Ning Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics. 2009 Nov 1;25(21):2865-71. Epub 2009 Jun 26.)

MySql Apache PHP PERL

Analyse bioinformatique

Page 16: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Plateforme Bioinformatique IDF-Seq IT

Page 17: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Depuis mi-2016, la plateforme bioinformatique propose l’infrastructure, les outils et l’expertise permettant:

• Le stockage des données de génomique NGS produites au niveau des 12 GH de l’AP-HP

• Leur analyse dans le cadre de processus maitrisés et normalisés

• L’exploitation et le partage des résultats

• La création et l’animation d'une communauté bioinformatique

• Le support technique et scientifique, la formation

• La veille technologique en bioinformatique

Contact [email protected]

Localisation

Campus Picpus, 33 bd Picpus, 75012 Paris 6ème étage, Bureau 607

Missions de la plateforme de bioinformatique

Page 18: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

MERCI pour votre attention !!

Analyse bioinformatique

Page 19: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons

Elimination des duplicats Uniquement pour capture

Analyse bioinformatique