RNA-seq: A High-resolution View of the Transcriptome

Sean Davis, M.D., Ph.D.
Genetics Branch, Center for Cancer Research
National Cancer Institute
National Institutes of Health
RNA-seq: A high-resolution
View of the Transcriptome

Normal
Karyotype
Tumor
Karyotype

phenotype
Gene Copy
Number
Sequence
Variation
Chromatin
Structure and
Function
Gene
Expression
Transcriptional
Regulation
DNA
Methylation
Patient and
Population
Characteristics

High Throughput
Sequencing
AKA, NGS

DNA
(0.1-1.0 ug)
Single molecule array
Sample preparation
Cluster growth
5’
5’3’
G
T
C
A
G
T
C
A
G
T
C
A
C
A
G
T
C
A
T
C
A
C
C
T
A
G
C
G
T
A
G
T
1 2 3 7 8 94 5 6
Image acquisition Base calling
T G C T A C G A T …
Sequencing
Illumina SBS Technology
Reversible Terminator Chemistry Foundation
© Illumina, Inc.http://www.illumina.com/technology/sequencing_technology.ilmn
http://seqanswers.com/forums/showthread.php?t=21

Single end vs paired end sequencing
Illumina Paired-end
sequencingPaired-end: useful for RRBS, essential for RNA-seq, not useful for ChIP-
seq

What comes out of the machine:
short reads in fastq format
@D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1
CTCCTGGAAAACGCTTTGGTAGATTTGGCCAGGAGCTTTCTTTTATGTAAATTG
+D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1
[^^cedeefee`cghhhfcRX`_gfghf^bZbecgêeb[caefèfâ_èXa
@D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1
TCCANCCATGGCAAATTCCATGGCACCGTCAAGGCTGAGAACGGGAAGCTTGTC
+D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1
ab_eBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
@D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1
TACAAGTGCAGCATCAAGGAGCGAATGCTCTACTCCAGCTGCAAGAGCCGCCTC
+D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1
_[_ceeec[êeghdffffhhêfh_egfhfgeec_fbafhhhhd`caegfheh
@D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1
GAAGGAGAGAAGGGGAGGAGGGCGGGGGGCACCTACTACATCGCCCTCCACATC
+D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1
^_accceg`gga`f[fgcbÙcgfaa_LVV^[bbbbbRWW`W^Y[_[^bbbbb
@D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1
GTGGCCGATTCCTGAGCTGTGTTTGAGGAGAGGGCGGAGTGCCATCTGGGTAGC
+D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1
QS to int In
R:
as.integer(ch
arToRaw(‘e'))
-33

Pair end sequencing
s_8_1_sequence.txt.gz s_8_2_sequence.txt.gz
@D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1
CTCCTGGAAAACGCTTTGGTAGATTTGGCCAGGAGCTTTCTTTTATGTAAATTG
+D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1
[^^cedeefee`cghhhfcRX`_gfghf^bZbecgêeb[caefèfâ_èXa
@D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1
TCCANCCATGGCAAATTCCATGGCACCGTCAAGGCTGAGAACGGGAAGCTTGTC
+D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1
ab_eBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
@D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1
TACAAGTGCAGCATCAAGGAGCGAATGCTCTACTCCAGCTGCAAGAGCCGCCTC
+D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1
_[_ceeec[êeghdffffhhêfh_egfhfgeec_fbafhhhhd`caegfheh
@D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1
GAAGGAGAGAAGGGGAGGAGGGCGGGGGGCACCTACTACATCGCCCTCCACATC
+D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1
^_accceg`gga`f[fgcbÙcgfaa_LVV^[bbbbbRWW`W^Y[_[^bbbbb
@D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1
GTGGCCGATTCCTGAGCTGTGTTTGAGGAGAGGGCGGAGTGCCATCTGGGTAGC
+D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1
aa_eeeeegggggihhiiifgeghfeghbgcghifiidg^dbgggeeeee`dcd
@D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/2
GGCATATTTAACAGCATTGAACAGAATTCTGTGTCCTGTAAAAAAATTAGCTTA
+D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/2
a__aaa`ce`cgcffdf_acdaêa]befffbeged`g[aè_caaac]cb`gb
@D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/2
TTGAGGCTGTTGTCATACTTCTCATGGTTCACACCCATGACGAACATGGGGGCG
+D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/2
a__eeeeeggegefhhhiiihhhhhiieghhhghhiiffhiififhhiihegic
@D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/2
CGGGGTGCACCTCGTCGTAGAGGAACTCTGCCGTCAGCTCTGCCCCATCGCCAA
+D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/2
^__ee__cge`cghghhfgddgfgi]ehhfffffêc[beegidffhhfhadba
@D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/2
CTTAGTCTCAGTTTTCCTCCAGCAGCCTGAGGAAACTCAAAGGCACAGTTCCCA
+D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/2
_abeaaacg^gêghhhhgafghhdfghfedeghfiiicfbgdHYagfeecggf
@D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/2
TAGGCTCAAAGTCTAACGCCAATCCCGAACCTGGGCATCTGTACACACACACAC
+D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/2
abbeceeegggcghiihiihhhhiifhiiiiihiiiiiiiheghèggfebfhg
… …

Approaches to RNA-seq
Nature Biotech (2010) 28, 421-423

Splice Read Placement Accuracy

Models for RNA-seq
• Count-based models
• Multi-reads (isoform resolution)
• Paired-end reads (include length resolution
step)
• Positional bias along transcript length
• Sequence bias

L. Pachter (2011) arXiv:1104.3889v

Sequence Bias--priming
Hansen (2010), NAR

Hierarchical Clustering
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
Gene 6
Gene 7
Gene 8

Distance Metrics
 Euclidean distance
 Manhattan distance
 Minkowski distance (generalized distance)

Distance Metrics
• Correlation
– maximum value of 1 if X and Y are perfectly correlated
– minimum value of -1 if X and Y are exactly opposite
– d(X,Y) = 1 – rxy
• Many, many others
• Choice of distance metric can be driven by
underlying data (eg., binary data, categorical data,
outliers, etc.)

Example of Distance Metric Choice

Example
• dat = matrix(rnorm(10000),ncol=20)
• dat[1:100,1:10] = dat[1:100,1:10]+1
• hclust
• dist
• as.dist(1-cor)

RNA-seq workflow as
proposed by Anders et al.
in Nature Protocols

False Positive Fusion Detection

Experimental Design
• What are my goals?
– Differential expression?
– Transcriptome assembly?
– Identify rare, novel trancripts?
• System characteristics?
– Large, expanded genome?
– Intron/exon structures complex?
– No reference genome or transcriptome

Experimental Design
• Technical replicates
– Probably not needed due to low technical variation
• Biological replicates
– Not explicitly needed for transcript assembly
– Essential for differential expression analysis
– Number of replicates often driven by sample
availability for human studies
– More is almost always better

Links of Interest
• http://bioconductor.org
• http://biostars.org
• http://www.rna-seqblog.com/
• https://genome.ucsc.edu/ENCODE/
• http://www.ncbi.nlm.nih.gov/gds/

RNA-seq: A High-resolution View of the Transcriptome

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to RNA-seq: A High-resolution View of the Transcriptome

Similar to RNA-seq: A High-resolution View of the Transcriptome (20)

More from Sean Davis

More from Sean Davis (10)

Recently uploaded

Recently uploaded (20)

RNA-seq: A High-resolution View of the Transcriptome

Editor's Notes