Genboree Microbiome Workbench 16S Workshop Part I
March 11th, 2014
Julia Cope
Emily Hollister
Kevin Riehle
C:\Users\jcope\Desktop\16S_Workshop_2014\genboree.jpg
C:\Users\jcope\Desktop\16S_Workshop_2014\logo_sm.gif
Genboree Workflow
Create Group
Create Database
Create Project
Upload Files 
Create Samples (Sample Import using metadatafile) 
Link Samples to Sequence Files (Sample FileLinker) 
QC and Attach Sequences (Sequence Import) 
QIIME   
RDP 
Data Analysis - QIIME
How to select samples for analysis
Chimera removal and why you should bethinking about it
Output
downloading and organization
making sense of the files
Data Analysis - QIIME
How to select samples for analysis
Data Analysis - QIIME
Selecting samples for analysis
INPUT =  One or more Sequence Import folders
All should be of the same variable region; ideally produced with the same primer andsequencing direction
OUTPUT Targets = Your database (required), your project (optional)
Data Analysis - QIIME
Caveats:
All samples in your input folder will be analyzed
This includes no-template controls and positive controls
The % variation explained by you PCoA may be influenced by theinclusion of these samples
QIIME on Genboree is not currently set up to allow users to subsampletheir data
This can be problematic if sequencing depth varies substantiallyacross samples
It does however perform a “rounding up” normalization step
A bit about sequencing depthHow deep should you go?
There is no good answer
Strong biological patterns can be detectedwith low sequencing depth
10s to 100s of sequences cansometimes be enough
1000s tend to be the norm
Subtle biological patterns tend to requiregreater sequencing depth for detection
Sequencing depth can be dictated by:
Sample quality
The number of samples placed on a run
Project budget
Kuczynzski et al. 2010 Nature Methods 7: 813-819
Unequal sequencing depthWhat’s the problem?
http://www.cs.unc.edu/%7Elguan/Research.files/backgroundSubtractionResult.JPG
http://www.cs.unc.edu/~lguan/Research.files/backgroundSubtractionResult.JPG
Being certain that you are seeing the full view
(…or at least equivalent glimpses of the) of your communities
Unequal sequencing depthWhat’s the problem?
PC1_vs_PC2_plot.png
PC1_vs_PC3_plot.png
PC3_vs_PC2_plot.png
Unequal depth
Avg Red = 5995 seqs
Avg Blue = 11672 seqs
Same data set
Sampled are colored
by library size
Red ~4000
Orange ~5000
Yellow ~6000
Green 8,000-10,000
Blues 11,000-17,000
C:\Emily_VM\scratch\unequal_beta\unweighted_unifrac_2d_continuous\20140227194218Pt0U5pRUsgtR00OlGG7m\20140227194229XByuvtXtnSnFuGt9dOdN\PC1_vs_PC2_plot.png
C:\Emily_VM\scratch\unequal_beta\unweighted_unifrac_2d_continuous\20140227194218Pt0U5pRUsgtR00OlGG7m\20140227194229XByuvtXtnSnFuGt9dOdN\PC3_vs_PC2_plot.png
C:\Emily_VM\scratch\unequal_beta\unweighted_unifrac_2d_continuous\20140227194218Pt0U5pRUsgtR00OlGG7m\20140227194229XByuvtXtnSnFuGt9dOdN\PC1_vs_PC3_plot.png
Unequal sequencing depthWhat’s the problem?
PC1_vs_PC2_plot.png
PC1_vs_PC3_plot.png
PC3_vs_PC2_plot.png
C:\Emily_VM\scratch\3698seqs_beta\unweighted_unifrac_2d_continuous\20140227191605Qtptar9PQUx0qbRdin40\20140227191607iB9E9TsAEP1QOYWZHvfw\PC1_vs_PC2_plot.png
C:\Emily_VM\scratch\3698seqs_beta\unweighted_unifrac_2d_continuous\20140227191605Qtptar9PQUx0qbRdin40\20140227191607iB9E9TsAEP1QOYWZHvfw\PC3_vs_PC2_plot.png
C:\Emily_VM\scratch\3698seqs_beta\unweighted_unifrac_2d_continuous\20140227191605Qtptar9PQUx0qbRdin40\20140227191607iB9E9TsAEP1QOYWZHvfw\PC1_vs_PC3_plot.png
Unequal depth
Avg Red = 5995 seqs
Avg Blue = 11672 seqs
Equal depth
All libraries were
sub-sampled to
~4000 reads.
Data Analysis - QIIME
Chimera removal and why you should bethinking about it
What is a chimeric sequence?
How frequently do they occur?
An example from real data
Why should you think about chimeras?
How to screen for chimeras using Genboree
What is a Chimeric Sequence?
In Greek mythology:
A creature that was an amalgam ofmultiple animals
Body of a lion, head of a goat, tailresembling a snake
In your sequence data:
The combination of multiple sequencesduring PCR to create a hybrid
In sequence databases:
A not-so-small nightmare of junk data
Mis-annotation
Enhanced “discovery” of novel organisms
Figure 1.
Chimera generation figure from: Haas et al. 2011, Genome Research 21:494-504
How frequently do chimeras occur?
Schloss et al 2011:
With mock communities of knowncomposition:
~8% of raw sequences were chimeric
Incidence increased with sequencing depth
Approaches for detection:
Multiple algorithms available
Genboree uses ChimeraSlayer
How it works:
The ends of each read (~30% of total length)are compared to a chimera-free referencedatabase
Potential “parent” sequences are identified
Identity of potential chimera to in silicochimera evaluated
Schloss et al. 2011 PLoS ONE 6(12):e27310
AATCGCGACCTGTTTAACCGTAGGTC
AATCGCGACCTGTTTAACCGTAGGTC
AAACGCTTACGGAGCTACACGAGTC
Query
Parent 1
Parent 2
AATCGCGACCTGTGCTACACGGGTA
AATCGCGACCTGTTTAACCGTAGGTC
AAACGCTTACGGAGCTACACGGGTA
Query
Parent 1
Parent 2
Likely Chimera
Non-chimera
An example from real data
http://genome.cshlp.org/content/21/3/494/F4.large.jpg
Chimeric alignment from: Haas et al. 2011, Genome Research 21:494-504
Alignment of chimeric sequences derived from Streptococcus (top, red) and Staphylococcus (bottom, black)Sequences were generated from 4 replicate PCR reactions/454 runs of V3V5 sequence
Why should you think about chimeras?
Spurious results
Artificially increases estimates of richness anddiversity
You may discover a “new” (but fake) species
Should you trust all flagged chimeras?
Most people do but….buyer beware
False-positive rates are in the 1-4% range
Some taxa are poorly represented in referencedatabases
Prevotella and Acinetobacter are known to producefalse-positive results in ChimeraSlayer
How to verify (digging in to your QIIME output)
Obtain representative sequence(s) and verify theiridentity (e.g., BLAST vs. NCBI nt database, RDPSeqMatch)
Sogin et al 2006 PNAS 103:12115-12120
How to screen chimeras in Genboree
Run a QIIME job
INPUT = Sequence Import folder
OUTPUT Targets = Your database (required), your project (optional)
How to screen chimeras in Genboree
Select “Remove Chimeras” in the Tool Settings dialogue box
Provide a study name
Provide a job name (TIP: add chimeras_removed to you job name so thatyour output reflects that you selected this option)
Click SUBMIT
Data Analysis - QIIME
Output
downloading and organization
making sense of the files
How do I get my files out?
Entire folders can be archived/downloaded
INPUT = Folder to be archived
OUTPUT = Database to house archive
How do I get my files out?
Entire folders can be archived/downloaded
Provide and archive name
Choose your compression type
Decide if you want the directory structure to be preserved
SUBMIT
How do I get my files out?
Single files, including archives, can be downloaded one by one
Click on your file of interest in the DATA SELECTOR window
Click on the “Click to Download File” link in the DETAILS window
Save the file to your computer or storage drive
Most file types will require decompression
QIIME – making sense of the files
fasta.result.tar.gz
jobFile.json
mapping.txt
otu.table
phylogenetic.result.tar.gz
plots.result.tar.gz
raw.results.tar.gz
repr_set.fasta.ignore
sample.metadata
settings.json
taxonomy.result.tar.gz
QIIME – making sense of the files
fasta.result.tar.gz: multiple sequence alignment of your representative sequences file.Rep seqs = representative sequence for each OTU.
jobFile.json: a log of the settings used by Genboree to run your analysis
mapping.txt: a QIIME-compatible metadata file, includes barcode information
otu.table: a spreadsheet of OTU by sample distributions
phylogenetic.result.tar.gz: a phylogenetic tree of your rep seqs, additional filesrequired for iTOL
plots.result.tar.gz: figures, html files for all PCoA plots produced in your QIIME run
raw.results.tar.gzmapping file, otu table, rep seqs file, distance matrices underlyingall PCoA calculations
repr_set.fasta.ignore: RDP classification (with confidence scores) of each rep seq
sample.metadata: like the mapping.txt file, with additional file locations for Genboree
settings.json: similar to the jobFile.json file
taxonomy.result.tar.gz: taxonomic summaries (per sample, at the Kingdom, Phylum,Class, Order, Family,  and Genus levels)
Genboree Workflow
Create Group
Create Database
Create Project
Upload Files 
Create Samples (Sample Import using metadatafile) 
Link Samples to Sequence Files (Sample FileLinker) 
QC and Attach Sequences (Sequence Import) 
QIIME   
RDP 
Data Analysis - RDP
How to select samples
Output
Downloading and organization
making sense of the files
Data Analysis - RDP
Selecting samples for analysis
INPUT =  One or more Sequence Import folders
All should be of the same variable region; ideally produced with the same primer andsequencing direction
OUTPUT Targets = Your database (required), your project (optional)
Data Analysis - RDP
Caveats:
All samples in your input folder will be analyzed
This includes no-template controls and positive controls
RDP on Genboree does not pre-filter for chimeric sequences
RDP on Genboree is not currently set up to allow users to subsample theirdata
Depending on your application, this may be problematic if sequencingdepth varies substantially across samples
It does however perform a “rounding up” normalization step andpresents data on a relative abundance basis
How do I get my files out?
Entire folders can be archived/downloaded
INPUT = Folder to be archived
OUTPUT = Database to house archive
How do I get my files out?
Entire folders can be archived/downloaded
Provide and archive name
Choose your compression type
Decide if you want the directory structure to be preserved
SUBMIT
How do I get my files out?
Single files, including archives, can be downloaded one by one
Click on your file of interest in the DATA SELECTOR window
Click on the “Click to Download File” link in the DETAILS window
Save the file to your computer or storage drive
Most file types will require decompression
RDP – making sense of the files
domain.result.tar.gz
phylum.result.tar.gz
class.result.tar.gz
order.result.tar.gz
family.result.tar.gz
genus.result.tar.gz
sample.metadata
settings.json
count.result.tar.gz
count.xlsx
count_normalized.xlsx
weighted.xlsx
weighted_normalized.xlsx
png.result.tar.gz
RDP – making sense of the files
domain.result.tar.gz
phylum.result.tar.gz
class.result.tar.gz
order.result.tar.gz
family.result.tar.gz
genus.result.tar.gz
sample.metadata
settings.json
count.xlsx
count_normalized.xlsx
weighted.xlsx
weighted_normalized.xlsx
png.result.tar.gz
Per sample summaries at various taxonomic levels, including rawcounts and weighted values
Per sample summaries at various taxonomic levels, raw counts orrelative abundances (normalized)
All of the plots produced during your run (e.g., heatmaps, stacked bar graphs)
Per sample summaries at various taxonomic levels, weighted byconfidence of ID assignments (raw counts or normalized)
Individual Time
Confirm user accounts are created.
Confirm users know where mock data or theirdata set are.