IMGS 2012Bioinformatics Workshop:RNA Seq using Galaxy
IMG-logo.png
Typical RNA_Seq Project Work Flow
 Sequencing
 Sequencing
 Tissue Sample
 Tissue Sample
 Cufflinks
 Cufflinks
 TopHat
 TopHat
 FASTQ file
 FASTQ file
 QC
 QC
 Gene/Transcript/ExonExpression
 Gene/Transcript/ExonExpression
Visualization
Visualization
 Total RNA
 Total RNA
 mRNA
 mRNA
 cDNA
 cDNA
 StatisticalAnalysis
 StatisticalAnalysis
JAX Computational Sciences Service
Focus for Today
RNASeq Tasks, Tools and File Formats
Quality Control
Alignment
Summarization
FastQ,SangerFastQ
Cufflinks
TopHat
FastQC
SAM/BAM
GTF
Differential GeneExpression
Cuffdiff,Edge,DESeq, baySeq
Task
Tool
File Format
IGV
Tools
History
Dialog/Parameter Selection
Data upload review
Our data are H1 human embryonic stem cellRNA Seq data from the CalTech encodeproject. Single end reads from Illumina.
Typical RNA_Seq Project Work Flow
 Sequencing
 Sequencing
 Tissue Sample
 Tissue Sample
 Cufflinks
 Cufflinks
 TopHat
 TopHat
 FASTQ file
 FASTQ file
 QC
 QC
 Gene/Transcript/ExonExpression
 Gene/Transcript/ExonExpression
Visualization
Visualization
 Total RNA
 Total RNA
 mRNA
 mRNA
 cDNA
 cDNA
 StatisticalAnalysis
 StatisticalAnalysis
JAX Computational Sciences Service
Prior to alignment, perform some quality control(QC) assessments of the data.
Here we use FastQC **.
**http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
FastQC provides a wide range of QC checks. Herewe will only look at “Per base sequence quality”
Sequence quality per base position
Per base quality graph
The central red line is the median value
The yellow box represents the inter-quartilerange (25-75%)
The upper and lower whiskers represent the10% and 90% points
The blue line represents the mean quality
Per base quality graph
Good data
Consistent
High Quality Along the reads
Bad data
High Variance
Quality Decrease with Length
Per base quality graph
Quality Score
Position along sequencing read
Ourdata…
Galaxy has several tools for trimming sequences,removing adapters, etc. prior to alignment.
Using the information from FastQC, let’strim our input sequences so that theaggregate quality score is 15.
Typical RNA_Seq Project Work Flow
 Sequencing
 Sequencing
 Tissue Sample
 Tissue Sample
 Cufflinks
 Cufflinks
 TopHat
 TopHat
 FASTQ file
 FASTQ file
 QC
 QC
 Gene/Transcript/ExonExpression
 Gene/Transcript/ExonExpression
Visualization
Visualization
 Total RNA
 Total RNA
 mRNA
 mRNA
 cDNA
 cDNA
 StatisticalAnalysis
 StatisticalAnalysis
JAX Computational Sciences Service
TopHat
Trapnell et al. (2009). Bioinformatics 25:1105-1111.
http://tophat.cbcb.umd.edu/
Figure from: Trapnell et al. (2010). Nature Biotechnology 28:511-515.
TopHat is a good tool foraligning RNA Seq datacompared to other aligners(Maq, BWA) because it takessplicing into account duringthe alignment process.
Setting parameters for TopHat in Galaxy
Be sure to use thequality trimmedsequences!
Does it seem like your Galaxy jobs never finish?!
Galaxy is increasingly popular so it can taketime for some of these computationallyexpensive processes to run…don’t restart yourjob or you will go to the end of the line!
Your job will continue to run on the Galaxyservers even if you shut down your computer.
C:\Documents and Settings\cjb\Local Settings\Temporary Internet Files\Content.IE5\EYWCBOSJ\MP900178843[1].jpg
For now we have pre-computed data toillustrate the mainpoints!
Visualizing alignments in Galaxy
When TopHat finishesthe alignments areavailable in BAM format.
You can look at thealignments in a variety ofbrowsers….
Which browser you choose is amatter of personal preference.
chr19:2,373,346-2,398,357
UCSC Browser…the track and thetitle of the track are madeautomatically for you from Galaxy.
UCSC also has controls to let youdisplay many other kinds ofannotations as tracks.
Click on an elementin the TopHat trackto see the details ofthe alignment…all ofthis information isstored in that verycompact BAM file!!!
Launch IGV (IntegratedGenome Viewer)
Typical RNA_Seq Project Work Flow
 Sequencing
 Sequencing
 Tissue Sample
 Tissue Sample
 Cufflinks
 Cufflinks
 TopHat
 TopHat
 FASTQ file
 FASTQ file
 QC
 QC
 Gene/Transcript/ExonExpression
 Gene/Transcript/ExonExpression
Visualization
Visualization
 Total RNA
 Total RNA
 mRNA
 mRNA
 cDNA
 cDNA
 StatisticalAnalysis
 StatisticalAnalysis
JAX Computational Sciences Service
Cufflinks
Trapnell et al. (2010). Nature Biotechnology 28:511-515.
http://cufflinks.cbcb.umd.edu/
 Assembles transcripts,
 Estimates theirabundances, and
Tests for differentialexpression and regulationin RNA-Seq samples
There are several ways to generate annotationfiles for Cufflinks to use.
Here we will create an annotation file using theUCSC genome browser tool in Galaxy.
A.There are many options for the features toinclude in the annotation file.
B.Cufflinks expects a GTF file format
A
B
Once you have selected your annotations…youcan send them directly to your history inGalaxy.
Setting parametersfor Cufflinks
Use the referenceannotations you justdownloaded…
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM521256
Example of an RNA Seq data set inNCBI’s Gene Expression Omnibus(GEO)…you don’t always need theraw sequences to do RNA Seq, youcan start with a SAM or BAM file.
SAM files need to beconverted into BAMformat in order torun Cufflinks….
There’s a tool inGalaxy for that!!
Cufflinks output canbe downloaded andviewed in Excel.
RPKM vs FPKM
Reads Per Kilobase of transcript per Million mapped reads(RPKM)
Used for single end sequencing reads
Count # of uniquely mappable reads to a set of exons that constitute agene prediction/model.
Fragments Per Kilobase of exon per Million fragmentsmapped (FPKM)
Used for paired-end sequence data
FPKM is an estimate of the number of reads per transcript
TopHat aligns reads to the genome
Cufflinks assembles reads into transcript models/fragments
Cufflinks counts the number of reads per fragment to estimateFPKM
FPKM is used as an indication of expression level for a gene
Quantification of gene expressionusing RNA Seq can be complicated byreads that don’t map uniquely to thegenome. RNA Seq by ExpectationMaximization (RSEM) takes mappinguncertainty into account whenestimating expression levels.
Typical RNA_Seq Project Work Flow
 Sequencing
 Sequencing
 Tissue Sample
 Tissue Sample
 Cufflinks
 Cufflinks
 TopHat
 TopHat
 FASTQ file
 FASTQ file
 QC
 QC
 Gene/Transcript/ExonExpression
 Gene/Transcript/ExonExpression
Visualization
Visualization
 Total RNA
 Total RNA
 mRNA
 mRNA
 cDNA
 cDNA
 StatisticalAnalysis
 StatisticalAnalysis
JAX Computational Sciences Service
Differential Gene Expression
For RNA Seq data from multipleconditions, Cuffdiff can be used todetect significant differences intranscript expression..
Is the abundance of transcriptsdifferent between two samples?
http://www.ijbcb.org/DEB/php/onlinetool.php
edgeR
DESeq
Bayseq
Is there a difference in totalexpression of a given gene due totreatment conditions?
Summing Up
Alignments, Assemblies, and Annotations areessential to using Next Gen sequence data forbiological investigation
Know the strengths and weaknesses of each
http://scattergather.razorfish.com/wp-content/uploads/2009/07/blind_faith.jpg
Have Fun! But Be Careful!
Don’t just go along for the ride!
Tutorial Web Site
http://www.ncbi.nlm.nih.gov/staff/church/GenomeAnalysis/index.shtml
This site will beaccessible after themeeting. Checkback for updatesand new tutorials.
http://seqanswers.com/
SEQanswers is a veryactive publicdiscussion board onsequence analysisissues.