Upload
lucette-bailleul
View
105
Download
2
Embed Size (px)
Citation preview
J’ai fait séquencer mes petits ARN.J’ai fait séquencer mes petits ARN.Et Maintenant ?Et Maintenant ?
Introduction à l’analyse des données de séquençage à haut débit en génomique fonctionnelle.28 mars 2012, 15:30 – 17:00
http://drosophile.org
Les trois principales Les trois principales classes de petits ARNs chez classes de petits ARNs chez
la drosophilela drosophile
metHen1
Produits des snoRNA, tRNA, rRNA.2S Droso (30nt)+
20-30nt RNA gel purification
small RNA deep sequencingsmall RNA deep sequencing
(Biases)
Library “Bar coding”
Que Puis-je Faire avec mes Que Puis-je Faire avec mes séquences de petits ARN ?séquences de petits ARN ?
AnnotationAnnotation VisualisationVisualisation Découverte de lociDécouverte de loci Quantification d’expressionQuantification d’expression Analyse structurale des précurseurs, signatures, …Analyse structurale des précurseurs, signatures, … Mise en évidence de « visiteurs » (virus, …)Mise en évidence de « visiteurs » (virus, …) ……
Informatique Bioinformatique
MatérielMatériel
Un fichier de séquence au format fastqUn fichier de séquence au format fastq Un ordinateur avec ~ 8 Mo RAMUn ordinateur avec ~ 8 Mo RAM Un « Operating System Unix compliant »Un « Operating System Unix compliant » Un maniement confortable de cet OSUn maniement confortable de cet OS Quelques logiciels génériques très utilesQuelques logiciels génériques très utiles
Un « vrai » éditeur de texte (TextWrangler, etc..)Un « vrai » éditeur de texte (TextWrangler, etc..) R, R, GnuplotGnuplot
…… Une bonne connaissance du webUne bonne connaissance du web Le maniement niveau DébutantLe maniement niveau Débutant++++ d’un langage de programmation d’un langage de programmation
PerlPerl PythonPython
Que contient le gros fichier Que contient le gros fichier fastqfastq que j’ai que j’ai téléchargé (et décompressé) ?téléchargé (et décompressé) ?
* Limite max pour ouvrir un gros fichier texte (~1.2 Go)Terminal Unix. Naviguer dans le dossier qui contient le fichierTaper la commande more <nom_du_fichier>
lbcd-05:GKG13demo deepseq$ more GKG-13.fastq @HWIEAS210R_0028:2:1:3019:1114#AGAAGA/1TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA+HWIEAS210R_0028:2:1:3019:1114#AGAAGA/1bBb`bfffffhhhhhhhhhhhhhhhhhhhfhhhhhhgh@HWIEAS210R_0028:2:1:3925:1114#AGAAGA/1TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC+HWIEAS210R_0028:2:1:3925:1114#AGAAGA/1]B]VWaaaaaagggfggggggcggggegdgfgeggbab@HWIEAS210R_0028:2:1:6220:1114#AGAAGA/1TNGGAACTTCATACCGTGCTCTCTGTAGGCACCATCAA+HWIEAS210R_0028:2:1:6220:1114#AGAAGA/1aB^^afffffhhhhhhhhhhhhhhhhhhhhhhhchhhh@HWIEAS210R_0028:2:1:6252:1115#AGAAGA/1TNCTTGGACTACATATGGTTGAGGGTTGTACTGTAGGC+HWIEAS210R_0028:2:1:6252:1115#AGAAGA/1aBa^\ddeeehhhhhhhhhhhhhhhhghhhhhhhefff@HWIEAS210R_0028:2:1:6534:1114#AGAAGA/1TNAATGCACTATCTGGTACGACTGTAGGCACCATCAAT+HWIEAS210R_0028:2:1:6534:1114#AGAAGA/1aB\^^eeeeegcggfffffffcfffgcgcfffffR^^]@HWIEAS210R_0028:2:1:8869:1114#AGAAGA/1GNGGACTGAAGTGGAGCTGTAGGCACCATCAATAGATC+HWIEAS210R_0028:2:1:8869:1114#AGAAGA/1aBaaaeeeeehhhhhhhhhhhhfgfhhgfhhhhgga^^
………
Combien de séquences dans mon fichier ?Combien de séquences dans mon fichier ?
Terminal Unix. Naviguer dans le dossier qui contient le fichier Taper la commande wc - l <nom_du_fichier>
lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq
25703828 GKG-13.fastq
>>> 25 703 828 / 46 425 957 séquences
Mes séquences contiennent-elles le bon adaptateur ?Mes séquences contiennent-elles le bon adaptateur ?
Taper la commande cat <nom_du_fichier> | grep CTGTAGG | wc -l
lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq | grep CTGTAGG | wc -l
6355061
6 355 061 sur6 425 957 séquencesPas mal
Séquence de mon adaptateur: CTGTAGGCACCATCAAT
lbcd-05:GKG13demo deepseq$ wc -l GKG-13.fastq | grep ATCTCGT| wc -l
308
A contrario
Quelle est la qualité de mes séquences ?Quelle est la qualité de mes séquences ?
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Comment retirer l’adaptateur ?Comment retirer l’adaptateur ?
deepseq$ fastq_to_fasta -r –n -i GKG-13.fastq -o GKG-13.fasta
Séquence de mon adaptateur: CTGTAGGCACCATCAAT
http://hannonlab.cshl.edu/fastx_toolkit/index.html
deepseq$ more GKG-13.fasta >1AATGGCACTGGAAGAATTCACCTGTAGGCACCATCAAT>2TCTCGGTAGAACCTCCACTGTAGGCACCATCAATAGAT>3TTTGTGACCGACACTAACGGGTACTGTAGGCACCATCA>4TGGAATGTAAAGAAGTATGGAGCTGTAGGCACCATCAA>5GTCAGCAACTTGATTCCAGCAATCTGTAGGCACCATCA>6AATGGCACTGGAAGAATTCACGGGCTGTAGGCACCATC>7TGGAAGACTAGTGATTTTGTTCTGTAGGCACCATCAAT>8TGAACACAGCTGGTGGTATCCCTGTAGGCACCATCAAT
deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -i GKG-13.fasta -o GKG-13_clipped.fasta
deepseq$ more GKG-13_clipped.fasta
>18AATGGCACTGGAAGAATTCAC>20TTTGTGACCGACACTAACGGGTA>21TGGAATGTAAAGAAGTATGGAG>22GTCAGCAACTTGATTCCAGCAAT>23AATGGCACTGGAAGAATTCACGGG>24TGGAAGACTAGTGATTTTGTT>25TGAACACAGCTGGTGGTATCC>26TAAGTACTAGTGCCGCAGGA>27TGAACACAGCTGGTGGTATC>28TAGGAACTTCATACCGTGCTCT
deepseq$ fastq_to_fasta -r -n -i GKG-13.fastq |
fastx_clipper -a CTGTAGGCACCATCAAT -l 18 -o GKG-13_clip-pipe.fasta
J’utilise fastx_clipper et fastQC pour visualiser la J’utilise fastx_clipper et fastQC pour visualiser la distribution de taille de mes séquencesdistribution de taille de mes séquences
deepseq$ fastx_clipper -a CTGTAGGCACCATCAAT -l 0 -i GKG-13.fastq -o GKG-13_clipped.fastq
deepseq$ more GKG-13_clipped.fastq @HWIEAS210R_0028:2:1:1313:1120#AGAAGA/1AATGGCACTGGAAGAATTCAC+HWIEAS210R_0028:2:1:1313:1120#AGAAGA/1fe\gggd\fgeeeggdaggag@HWIEAS210R_0028:2:1:1387:1119#AGAAGA/1TCTCGGTAGAACCTCCA+HWIEAS210R_0028:2:1:1387:1119#AGAAGA/1gggggeggfffgggfff@HWIEAS210R_0028:2:1:1849:1120#AGAAGA/1TTTGTGACCGACACTAACGGGTA+HWIEAS210R_0028:2:1:1849:1120#AGAAGA/1hhhhhhhhhfhgfhhhhgehhha
http://bowtie-bio.sourceforge.net/
Bowtie aligne des reads sur un génome de référence préalablement préparéJe télécharge Bowtie, je l’installe, et je lis le manuel
Je télécharge mon génome au format FASTAJe prépare mon « index » Bowtie
deepseq$ bowtie-build fasta_libraries/dmel-all-chromosome-r5.37.fasta dmel-r5.37
~5 mindeepseq$ ls –laht-rw-r--r-- 1 deepseq staff 49M Mar 24 17:24 dmel-r5.37.rev.1.ebwt-rw-r--r-- 1 deepseq staff 19M Mar 24 17:24 dmel-r5.37.rev.2.ebwt-rw-r--r-- 1 deepseq staff 49M Mar 24 17:20 dmel-r5.37.1.ebwt-rw-r--r-- 1 deepseq staff 19M Mar 24 17:20 dmel-r5.37.2.ebwt-rw-r--r-- 1 deepseq staff 331K Mar 24 17:16 dmel-r5.37.3.ebwt-rw-r--r-- 1 deepseq staff 39M Mar 24 17:16 dmel-r5.37.4.ebwt
deepseq$ bowtie ~/bin/bowtie/indexes/5.43_Dmel/5.43_Dmel -f GKG-13_clip-pipe.fasta -v 1 -k 1 -p 12 --al droso_matched_GKG-13.fa --un unmatched_GKG13.fa > GKG13_bowtie_output.tabulated
J’aligne mes reads avec bowtieJ’aligne mes reads avec bowtie
~/bin/bowtie/indexes/5.43_Dmel/5.43_Dmel-f GKG-13_clip-pipe.fasta-v 1-k 1-p 12--al droso_matched_GKG-13.fa--un unmatched_GKG13.fa> GKG13_bowtie_output.tabulated
# reads processed: 5997502# reads with at least one reported alignment: 5045151 (84.12%)# reads that failed to align: 952351 (15.88%)Reported 5045151 alignments to 1 output stream(s)
… … et je récupèreet je récupèredeepseq$ ls -laht-rw-r--r-- 1 deepseq staff 351M Mar 24 17:46 GKG13_bowtie_output.tabulated-rw-r--r-- 1 deepseq staff 156M Mar 24 17:46 droso_matched_GKG-13.fa-rw-r--r-- 1 deepseq staff 28M Mar 24 17:46 unmatched_GKG13.fa
deepseq$ more GKG13_bowtie_output.tabulated21 + 2L 20487495 TGGAATGTAAAGAAGTATGGAG 30 - 3L 15836559 GTGAATTCTCCCAGTGCCAAG 25 + 3R 5916902 TGAACACAGCTGGTGGTATCC 23 - 2L 11953462 CCCGTGAATTCTTCCAGTGCCATT 27 + 3R 5916902 TGAACACAGCTGGTGGTATC 26 - 3R 9289997 TCCTGCGGCACTAGTACTTA 18 - 2L 11953465 GTGAATTCTTCCAGTGCCATT 22 - 3R 8377246 ATTGCTGGAATCAAGTTGCTGAC 20 + 3L 11650036 TTTGTGACCGACACTAACGGGTA 24 + 2R 16493585 TGGAAGACTAGTGATTTTGTT 28 + 3L 10358380 TAGGAACTTCATACCGTGCTCT 35 + X 18022302 CTTGTGCGTGTGACAGCGGCT 41 - 3RHet 138608 TGGCGACCGTGACAGGACCCG 42 + 3R 5916902 TGAACACAGCTGGTGGTATCC
deepseq$ more droso_matched_GKG-13.fa>21TGGAATGTAAAGAAGTATGGAG>26TAAGTACTAGTGCCGCAGGA>24TGGAAGACTAGTGATTTTGTT>23AATGGCACTGGAAGAATTCACGGG>27TGAACACAGCTGGTGGTATC
deepseq$ more unmatched_GKG13.fa>29AGGGGGCTATTTCACTACTGGA>33CGATGATGACGGTACCCGTAGA>37GCTAGTCGGTACTTGAAAC>59TGGTTGCAATAGCTTCTGGCGGA>61GATGAGTGCTAGATGTAGGGA
Un fichier d’alignement
Un fichier des séquences alignéesUn fichier des séquences non alignées
Sequence reads (fasta format)
Bowtie Pre-miRNAs (miRBase)
Unmatched reads
Unmatched reads
Transposons
Unmatched reads
Genes
Unmatched reads
Unmatched reads
Remaining unmatched sequences
Bowtie
Bowtie
Non coding RNAs
Bowtie
Bowtie
Bowtie
Intergenic regions
Viruses, transgenes, etc…
hierarchical
annotation
of
sequence
datasets
Un pipeline d’annotations « génomiques »Un pipeline d’annotations « génomiques »
Matched reads(fasta)
Read Count
Matched reads(fasta)
Read Count
Matched reads(fasta)
Read Count
Matched reads(fasta)
Read Count
Matched reads(fasta)
Read Count
Matched reads(fasta)
Read Count
Je veux visualiser mes reads dans un « Genome Je veux visualiser mes reads dans un « Genome Browser »Browser »
http://samtools.sourceforge.net/
Un pipeline sommaire pour préparer un fichier de visualisationdeepseq$ bowtie -v 1 -M 1 --best /Users/deepseq/bin/bowtie/indexes/5.37_Dmel -p 12 -f GKG-
13_clip-pipe.fasta -S | samtools view -bS -o GKG-13_clip-pipe.fasta.bam - ; samtools sort GKG-
13_clip-pipe.fasta.bam GKG-13_clip-pipe.fasta.bam.sorted ; samtools index GKG-13_clip-
pipe.fasta.bam.sorted.bam
306K GKG-13_clip-pipe.fasta.bam.sorted.bam.bai
42M GKG-13_clip-pipe.fasta.bam.sorted.bam
80M GKG-13_clip-pipe.fasta.bam
Je veux visualiser mes reads dans un « Genome Je veux visualiser mes reads dans un « Genome Browser » (2)Browser » (2)
J’upload mes fichiers bam et bai sur un serveur accessibleJ’indique l’URL du fichier bam à Ensembl (Gbrowse, Modencode, etc..)
Je veux visualiser mes reads dans un « Genome Je veux visualiser mes reads dans un « Genome Browser » (3)Browser » (3)
Je navigue dans les régions d’intérêt, après avoir indiqué au Browser d’inclure mon « track »
Je veux visualiser mes reads dans un « Genome Je veux visualiser mes reads dans un « Genome Browser » (4)Browser » (4)
Encore un…
Un “profiler” maison pour les micros ARNsUn “profiler” maison pour les micros ARNs
Sequence reads (fasta format)
BowtiePre-miRNAs (miRBase)Indéxé pour Bowtie
Bowtie Output
Analyse “textuelle”
Cartes des reads par miRNA Liste de comptage par miR_5p et miR_3p
deepseq$ miRNA_bowtie_profiler.py GKG-13_clip-pipe.fasta ~/bin/bowtie/indexes/dme_miR_r17.1.ebwt
# bowtie -v 1 -M 1 --best --strata -p 12 --norc --suppress 2,6,7,8 /Users/deepseq/bin/bowtie/indexes/dme_miR_r17 -f GKG-13_clip-pipe.fasta
# reads processed: 5997502# reads with at least one reported alignment: 3886779 (64.81%)# reads that failed to align: 2060565 (34.36%)# reads with alignments sampled due to -M: 50158 (0.84%)Reported 3886779 alignments to 1 output stream(s)
# Parsing completed in 1 minutes and 36.7 seconds
miRNA_bowtie_profiler.py : Cartes des reads, par miRmiRNA_bowtie_profiler.py : Cartes des reads, par miR
offsets
counts
sizes
miRNA_bowtie_profiler.py : Attribution des reads “5p” et “3p”miRNA_bowtie_profiler.py : Attribution des reads “5p” et “3p”
987 reads 16003 reads = 16990, ~ 17009 reads+
miRs « 5p » miRs « 3p »
*
miRNA_bowtie_profiler.py : Liste de comptage des miRsmiRNA_bowtie_profiler.py : Liste de comptage des miRs
......
......
Analyse d’expression différentielleAnalyse d’expression différentielle
Sequence reads (fasta format)
BowtiePre-miRNAs (miRBase)Indéxé pour Bowtie
Bowtie Output
Analyse “textuelle”
Cartes des reads par miRNA Liste de comptage par miR_5p et miR_3p
deepseq$ miRNA_bowtie_profiler.py GKG-13_clip-pipe.fasta ~/bin/bowtie/indexes/dme_miR_r17.1.ebwt
DESeq
Heatplus
edgeR
(Bioconductor)
http://www.r-project.org/
days
L3 PF PF+12h
Ecdysone titer
Read count table
Profiling des miRNAs Profiling des miRNAs durant la durant la métamorphose de la métamorphose de la drosophiledrosophile
days
L3 PF PF+12h
Clustering of miRNA read counts Clustering of miRNA read counts after normalizationafter normalization
Ecdysone titer
DESeq Heatplus
Analyse d’expression différentielleAnalyse d’expression différentiellePF PF+12h
Larva
Metamorphosis
Up-regulated 27
Down_regulated 27
Metamorphosis
Up-regulated 0
Down_regulated 0
« Differential calling » avec le jeu complet de données
« Differential calling » sans replicats
Message:
Le Deep Seq n’échappe pas au tests statistiques
Les réplicats sont nécessaires pour estimer le bruit biologique
Naive and primed murine pluripotent stem cells have distinct miRNA signatures Naive and primed murine pluripotent stem cells have distinct miRNA signatures
ESC1 ESC2 EpiSC2EpiSC1EpiSC3
miR-290-295
miR-302/367
miR17-92
28/40
M. Cohen-Tannoudji (Institut Pasteur)A.Jouneau (INRA Jouy en Josas)E. Heard (Institut Curie)C. Antoniewski (Institut Pasteur)
Normalized miR read count profilesNormalized miR read count profiles
29/40
A lattice of miR read profiles for rapid, visual annotationA lattice of miR read profiles for rapid, visual annotation
30/40
31/40
““Stereo” lattice reveals changes in miR biogenesis between ES and EpiSCsStereo” lattice reveals changes in miR biogenesis between ES and EpiSCs
% length
ESC EpiSC
32/40
Small RNA signaturesSmall RNA signatures
AUGCUUUCAUGGCAUCCUUACUUUACGAAAGUACCGUAGGAA-100 +100
AUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUACAUGCUUUCAUGGCAUCCUUAC
UUUACGAAAGUACCGUAGGAAUUUACGAAAGUACCGUAGGAAUUUACGAAAGUACCGUAGGAAUUUACGAAAGUACCGUAGGAA
|||||||||||||||||||||
123456789.........19...
Signature piRNASignature piRNA
UUGCUUUCAUGGCAUCCUUACCGAUCAGCUUCUUUACGAAACGAAAGUACCG-100 +100|||||||||||||||||||||
12345678910.............
P-element
Cartographie des ARN de 24-26nt d’ovaires de drosophile
Signature piRNASignature piRNA
UUGCUUUCAUGGCAUCCUUACCGAUCAGCUUCUUUACGAAACGAAAGUACCG-100 +100|||||||||||||||||||||
12345678910.............
P-element
Cartographie des ARN de 24-26nt d’ovaires de drosophile