ParSNP HashParSNP Hash
Pipeline to parse SNP data and outputsummary statistics across slidingwindowsPipeline to parse SNP data and outputsummary statistics across slidingwindows
ObjectiveObjective
Parse VCF filesParse VCF files
Calculate summary statistics across sliding windowsthroughout the genomeCalculate summary statistics across sliding windowsthroughout the genome
Implement NTFreq module to calculate nucleotidefrequencies for each population and combinedpopulationImplement NTFreq module to calculate nucleotidefrequencies for each population and combinedpopulation
Implement TajimasD module to calculate Tajima’s DImplement TajimasD module to calculate Tajima’s D
Implement GO module to annotate identified SNPsImplement GO module to annotate identified SNPs
Data setData set
Simulated data set for chromosome 2R inDrosophila melanogasterSimulated data set for chromosome 2R inDrosophila melanogaster
1.4 Mbp1.4 Mbp
populationspopulations
Pooled individuals per populationPooled individuals per population
75bp reads, error rate 1%75bp reads, error rate 1%
10,000 simulated SNPs10,000 simulated SNPs
100x coverage per variant100x coverage per variant
At least 100bp apartAt least 100bp apart
Allelic Frequencies ranging from .1 to .9 per populationAllelic Frequencies ranging from .1 to .9 per population
Data to Variant Call FormatData to Variant Call Format
Index Reference GenomeIndex Reference Genome
Only chromosome 2R of D. melanogasterOnly chromosome 2R of D. melanogaster
-Genome build Dmel from Flybase-Genome build Dmel from Flybase
Use BWA to Align FastQ to Reference GenomeUse BWA to Align FastQ to Reference Genome
Gap open penalty 1Disallowing deletion within 12 bp of 3’UTRGap open penalty 1Disallowing deletion within 12 bp of 3’UTR
 Gap extension max 12Maximum level of gap extensions 12 Gap extension max 12Maximum level of gap extensions 12
Use SAMTools to Remove Ambiguously mapped RegionsUse SAMTools to Remove Ambiguously mapped Regions
 (MAPQ >= 20) (MAPQ >= 20)
Use BCFTools mpileup to Generate Binary Code Format (BCF)Use BCFTools mpileup to Generate Binary Code Format (BCF)
BCF -> VCFBCF -> VCF
FastQ -> sai -> SAM -> BAM - > .bcf -> VCF
F
a
s
t
Q
 -
>
 s
a
i
 -
>
 S
A
M
 -
>
 B
A
M
 -
 >
 .
b
c
f
 -
>
 V
C
F
Formatting data: Parse VCFFormatting data: Parse VCF
For each window:For each window:
Fetch the VCF rows from each BCF fileFetch the VCF rows from each BCF file
Convert the VCF rows into hashes of arraysConvert the VCF rows into hashes of arrays
Compute the Theta, Pi, Tajima’s for eachpopulationCompute the Theta, Pi, Tajima’s for eachpopulation
Compute Fst for each window between eachpopulationCompute Fst for each window between eachpopulation
Sliding windowsSliding windows
Sliding window size is specified, and calledmodules are calculated across specifiedwindow sizeSliding window size is specified, and calledmodules are calculated across specifiedwindow size
Module 1: Calculate allele frequenciesModule 1: Calculate allele frequencies
Input is taken from parsed VCF fileInput is taken from parsed VCF file
Hashes are created for each population withthe following structureHashes are created for each population withthe following structure
{SNP_location} {nucleotide} -> frequency;{SNP_location} {nucleotide} -> frequency;
Hashes created for full datasetHashes created for full dataset
{SNP_location}{Population} -> {nucleotide} ->frequency{SNP_location}{Population} -> {nucleotide} ->frequency
Output site frequency spectraOutput site frequency spectra
Site frequency spectrum (SFS) output as thefollowing hash:Site frequency spectrum (SFS) output as thefollowing hash:
{nonref_allele}{frequency}->count;{nonref_allele}{frequency}->count;
Allows us to calculate histogram for the non-reference allele frequenciesAllows us to calculate histogram for the non-reference allele frequencies
Send output to to generate SFS graphsSend output to to generate SFS graphs
Module 2: Calculate SummaryStatistics and Tajima’s DModule 2: Calculate SummaryStatistics and Tajima’s D
theta_pi (index of diversity)theta_pi (index of diversity)
theta_watterson (index of diversity)theta_watterson (index of diversity)
Screen shot 2011-10-31 at 5.36.01 PM.png
Screen shot 2011-10-31 at 5.36.11 PM.png
Module 2: Calculate SummaryStatistics and Tajima’s DModule 2: Calculate SummaryStatistics and Tajima’s D
Tajima’s (index of selection/populationexpansion)Tajima’s (index of selection/populationexpansion)
Screen shot 2011-10-31 at 5.38.36 PM.png
Screen shot 2011-10-31 at 5.46.01 PM.png
Screen shot 2011-10-31 at 5.46.07 PM.png
Module 3: FST for DNA sequenceModule 3: FST for DNA sequence
Calculate FST (index of differentiation) accordingto Hudson et al. 1992Calculate FST (index of differentiation) accordingto Hudson et al. 1992
– Hw/Hb– Hw/Hb
Hw: average number of differences withineach populationHw: average number of differences withineach population
Hb: average number of differences betweenthe populationsHb: average number of differences betweenthe populations
Module 4: GO annotationsModule 4: GO annotations
Module takes SNP list as inputModule takes SNP list as input
Outputs the following:Outputs the following:
List of genes that have overlap with SNP positionsList of genes that have overlap with SNP positions
Gene Ontology (GO) IDs and terms associatedwith each SNP matched geneGene Ontology (GO) IDs and terms associatedwith each SNP matched gene
List of genes for selected windowList of genes for selected window
Visualization using GOSlimVisualization using GOSlim
Data visualizationData visualization
Integrated Genomics Viewer (IGV)Integrated Genomics Viewer (IGV)
Broad InstituteBroad Institute
http://www.broadinstitute.org/igv/http://www.broadinstitute.org/igv/
SFS for population and 2SFS for population and 2
pop1_sfs.png
pop2fs.png
Sliding window for summary statisticsSliding window for summary statistics
igv_snapshot2.png
igv_snapshot2.png
Phist greater than 0.1 in window 1080001 - 1100000
Go Accession IDOntologySpecific
GO:0000124Cellular ComponentSpt-Ada-Gcn5-acetyltransferase complex
GO:0005703Cellular Component(Thought to be a site of active transcription)
GO:0005634Cellular Component(Nucleus)
GO:0006911Biological ProcessPhagosome biosynthesis/formation
GO:0045747Biological ProcessUp regulation of Notch signaling pathway
GO:0006355Biological ProcessRegulation of cellular transcription, DNA-dependent
GO:0000910Biological Process(Cytoplasm division)
GO:0016773Molecular Function(Intermolecular transfer of phosphorus group to an alcohol group)
GO:0005700Cellular Component(Polytene associated)
GO:0005488Molecular Function(Ligand, non-covalent partner)
GO:0005737Cellular Component(Ambiguous)
GO:0035222Biological Process(Patterning in wing imaginal disc)
GO:0005875Cellular Component(Microtubule associated)
GO:0004672Molecular FunctionProtamine kinase activity
GO:0000123Cellular ComponentHistone acetylase complex
Identify differentiated genomic regionsIdentify differentiated genomic regions
For each window with Fst 0.1, print thename of the SNP and associated GO termFor each window with Fst 0.1, print thename of the SNP and associated GO term
Phist  (Fst) greater than 0.1 in window 1080001 - 1100000
Go Accession IDOntologySpecific
GO:0000124Cellular ComponentSpt-Ada-Gcn5-acetyltransferase complex
GO:0005703Cellular Component(Thought to be a site of active transcription)
GO:0005634Cellular Component(Nucleus)
GO:0006911Biological ProcessPhagosome biosynthesis/formation
GO:0045747Biological ProcessRegulation of cellular transcription, DNA-dependent
GO:0000910Biological Process(Cytoplasm division)
GO:0016773Molecular Function(Intermolecular transfer of phosphorus group to an alcoholgroup)GO:0005700Cellular Component(Polytene associated)
GO:0005488Molecular Function(Ligand, non-covalent partner)
GO:0005737Cellular Component(Ambiguous)
GO:0035222Biological Process(Patterning in wing imaginal disc)
GO:0005875Cellular Component(Microtubule associated)
GO:0004672Molecular FunctionProtamine kinase activity
GO:0000123Cellular ComponentHistone acetylase complex
Thank YouThank You
Use PERL or die , print  “ (X_x);Use PERL or die , print  “ (X_x);
##Hashes to Hashes####Hashes to Hashes##
Print “ %”;Print “ %”;
parsnip1.gif
parsnip1_inv.png