转录组测序数据挖掘

RNA-Seq，不只是差异表达
余胜
yusheng@benagen.com
贝纳基因
www.benagen.com

内容提要
RNA-Seq概览
从理解RNA-Seq实验开始…
RNA-Seq数据分析，不只是差异表达

RNA-Seq概览—常规实验流程

RNA-Seq概览—基础数据分析

Poly(A) select 或者 ’rRNA minus’, Why?
80%
15%
4% 1%
rRNA
tRNA
mRNA
others
mRNA仅占全部RNA分子量的4%左右。有必要采取富集措
施提高其丰度，使mRNA-reads在测序结果中的比例显著增
加。

随机打断+反转录+扩增带来的损失
Huang R, Jaritz M, Guenzl P, et al. PLoS ONE. 2011;6:e27288
从reads在mRNA上的位置分布来看，
不论是RNA水解，还是cDNA打断，3’
和5’端UTR均有损耗。这一类实验方
法的reads数据难以用于转录起始/终
止位置的研究…

对应的解决方法
最后，添加新的测序接头，上机
测序
Pelechano V, Wei W, Steinmetz LM. Nature 2013, 497:127–131.
添加末端端接头+反转录扩增
合成双链+添加含生物素标记(5’)
环化双链产物+随机打断+富集含
生物素标记的片段

链特异性测序的优势
Parkhomchuk D, Borodina T, Amstislavskiy V, Banaru M, Hallen L, et al. Nucleic Acids 2009, Res 37: e123.
链特异性测序可以很好的解决正负链overlapped-
gene情况。据称，使用这一方法，约5%的基因的表
达定量将更为准确，同时对转录组的拼接也有帮
助。

对RNA-Seq研究范围的进一步认识
转录本序列
 SSR分析标记开发
 基因/基因家族功能
与进化分析
 系统发育分析
SNP/indel
 群体进化分析
 mRNA编辑分析
Gene, 多个样本 主成分分析（PCA
）
 样本聚类分析
 条件特异表达分
析
 共表达分析
 eQTL分析
Gene, 少量样本
 差异表达分析
 差异剪切分析
Allele, 多个样本
 新的分析1？
 新的分析2？
Allele, 少量样本
 Allele-specific 差异
表达分析
 Allele-spedific差异
剪切分析
广
度
深度
基因表达、剪切数据
RNA-Seq

RNA-Seq用于SSR分析标记开发
Mono-nucleotide repeats 7,693 57.7%
Di-nucleotide repeats 3,733 28.0%
Tri-nucleotide repeats 1,538 11.5%
Other repeats 363 2.8%
Total repeats 13,327 100%
Fu, B. & He, S. DNA research 2012,19, 131-142.

RNA-Seq用于系统发育分析
Hartmann S, Helm C, Nickel B, Meyer M, Struck TH, et al.PLoS ONE 2012, 7(1): e29843.

RNA-Seq用于系统发育分析
http://www.1kite.org/

RNA-seq，差异表达分析
鉴定差异表达基因(e.g. DESeq)；
差异表达基因功能 (e.g.
GO,KEGG pathway)富集分析；

RNA-Seq，可变剪切与差异剪切分析
Lalonde E, et al. Genome Res 2011,21(4):545–554.
上述基因的多种剪切形式(转录
本)；
一个基因(rs7911488)在两个不同的
样品中的reads mapping示意图，显
示使用了不同的外显子(存在剪切
差异)；
上述基因所有的剪切形式(转录本)
在不同样品中的相对含量出现变
化；

RNA-Seq，条件特异表达分析
狭义条件特异表达基因：只在特定的条件(e.g. 特定组织，特定时间点)下
正常表达的基因。
Schug J, Schuller WP, Kappen C, et al. Genome Biol 2005, 6: R33.

RNA-Seq，共表达分析
绿：纤维连接蛋白红：甲壳素
Zhang G, Fang X, Guo X, Li L, Luo R, et al. Nature 2012, 490: 49–54.

RNA-Seq，共表达分析
Xue Z, Huang K, Cai C, Cai L, Jiang CY, et al. Nature 2013,500: 593–597.
共表达基因模块
具有条件特异表
达性质的共表达
基因模块

RNA-Seq，样品聚类分析和主成分分析 (PCA)
样品聚类分析主成分分析(PCA)

RNA-Seq，allele-specific expression (ASE)分析

RNA-Seq，allele specific splicing (ASS)分析
Montgomery SB, Sammeth M, et al. Nature 2010, 64:773-777

RNA-Seq用于群体进化分析
Varshney, R. K. et al. Nature biotechnology 2013,31, 240-246.
a.遗传组成分析；
b.主成分分析；
c.系统发育分析；

RNA-Seq用于mRNA编辑分析
Peng Z, Cheng Y, B, Kang L, Tian Z, et al. Nature
Biotechnology 2012, 30: 253–262.
Ramaswami G, Lin W, Piskol R, Tan
MH, Davis C, et al. Nat Methods
2012.

对RNA-Seq分析细节的不断完善
RNA-Seq
关注reads
counts/FPKM的
置信区间
Novel
transcripts 差异
分析
……

关注表达量的置信区间
RSEM, eXpress, et al.
期望最大化(EM)算法
 彻底排除了不确
定性；
 相似程度高的基
因呈现低表达量
；
Unique-reads
 有效利用好所有
数据，包括
unique-reads和
multi-reads；
 引入了不确定性
；
Unique-reads
Multi-reads

关注表达量的置信区间
eXpress
关注置信区间
RSEM
默认关闭，请设置

Novel transcripts的差异表达
Reads
alignment1
Reference
gene.gff
Novel
transcripts1.gff
Reads counts1
of genes
Reads
alignment2
Reads counts2
of genes
Novel
transcripts2.gff
Different
expressed genes
Old pipeline

Novel transcripts的差异表达
Reads
alignment1
Reads
alignment2
Reference
gene.gff
transcripts1.gff transcripts2.gff
Novel
transcripts.gff
Reads
alignment1
Reference
gene.gff
+
Novel
transcripts.g
ff
Reads counts1
of genes
Reads
alignment2
Reads counts2
of genes
Different
expressed genes
New pipeline

总结
 RNA-Seq是运用高通量测序技术，对生物样本中的全部mRNA进行测序
+研究的过程，它包括实验(包括实验设计、取样)和信息分析两部分内
容。
 RNA-Seq实验技术正持续发展。理解不同RNA-Seq实验技术的优缺点，
至少可以让我们明确特定RNA-Seq实验对于信息分析的影响。
 RNA-Seq在基因表达研究中应用最广，研究不断深入(e.g. gene 到
allele)，研究广度不断拓展(e.g. 少量样品到大规模样本)上；而另一方
面，RNA-Seq也胜任于SSR标记开发、系统发育分析、群体进化分析、
mRNA编辑等多项其他研究。
 关注表达量置信区间和novel transcripts的差异分析，两个例子，说明
我们更加准确、全面的RNA-Seq分析服务。

利用RNA-seq进行转录组研究
之
实验与分析方案设计
王崇志
wangchongzhi@benagen.com
贝纳基因
www.benagen.com

Q：蚕的变态发育研究
 细分成几个发育阶段？
 每个阶段取几个重复？
 每个重复测多少reads？

基因组的考虑
物种数
多倍体/杂合
生物上的考虑
器官/组织/细胞类型
发育阶段
处理
经济上的考虑
预算
技术上的考虑
技能/硬件
对照重复
所用技术
文库制备测序量
分析流程
概览

技术上的考虑
研究背景的考虑
重复数与测序量的确定
无重复样本的研究方案

技术背景的考虑
研究背景的考虑
重复数与测序量的确定
无重复样本的研究方案

1. 用户错误：如贴错标签。
2. 样品降解：如组织自溶，FFPE样品的交联。
3. 异源序列污染：如宿主。
4. DNA起始量低：会在PCR过程中产生更多的假突变
(GA)。
NGS中的实验误差：样品制备

1. 用户错误：如样品残留。
2. PCR扩增错误：同前面第4点。
3. 引物偏向：如甲基化、错配、二级结构与熔解温度。
4. 3’端捕获偏向：poly(A)富集时。
5. 私有突变：如在重复区域或私有变异上引导错误。
6. 机器故障。
7. 嵌合reads。
8. 条形码和/或接头错误。
NGS中的实验误差：文库制备

1. 用户错误：如流动槽过载引起的簇crosstalk。
2. 移相：如延伸过快或过慢。
3. “Dead”荧光团：受损核苷酸以及重叠信号。
4. 序列背景：如富含GC，低复杂度区域，及同聚物。
5. 机器故障：如激光器、硬盘、软件和流体系统。
6. 链的偏向。
NGS中的实验误差：测序成像

Illumina文库与数据类型
常用类型定序：PE90定量：SE50

转录组denovo
新基因的发现
ncRNA的发现
参考集各元素(isoform/gene)的表达定量
多样本间高丰度mRNA种类的显著变化检测
遗传标记的开发
癌细胞表达分型
群体分析
常见的转录组研究

转录组的复杂性
最简单情形：One Genome => Gene 1 copy => Single mRNA

几个物种？①分离单个物种的问题；②物种互作研究

平均几个allele？①多倍体②杂合率③复杂基因家族（串联复制）

平均几个isoform？①可变剪接

不同时间点？①发育阶段（很难选择相同阶段）②对处理的响应

有机体的不同部分？①特定器官②特定组织/细胞类型

参考序列：
基因组 and/or 转录组
Can I use ______ as a reference?
a different accession
a different species in same genus
a different species in same family
有无参考序列
使用Arabidopsis thaliana col. 作为参
考序列的reads mapping结果

How deep is deep enough？
对人B-cell的一项研究称：
精确测量所有表达转录本，需要~500M reads；精确测量绝大多数转
录本，需要~100M reads（SE50）。
对大肠杆菌的一项研究表明，上述两个值为50M 和10M（76-101 PE）。
不过由于尚未达成转录组分析的金标准，对具体数值的确定仍存在争议。
Toung JM, Morley M, Li M, Cheung VG. Genome Res. 2011 Jun;21(6):991-8
Haas et al. BMC Genomics 2012 13:734.

more sequence？
对于测序深度来说，单位功效的成本在测序深度达到某个数
值D0后开始升高，即边际收益递减。
基因的差异表达研究: 哺乳动物的D0为~10M SE50 reads；
转录本的差异表达研究: 相应的D0为~30M SE50 reads；
差异可变剪接分析: 可能需要>400M的PE100 reads。

随机化Randomization
materials & order（required by random variable(s)）
重复Replication
error estimate & more accurate parameter
repeated measure differs from replication.
区组化Blocking（control(s)的推广）
Reduce or eliminate variation introduced by nuisance factors.
实验设计三大统计学原则

生物学差异是基因表达自身的特性，与检测技术的选择以及数据处理的方式无关。
Sequencing technology does not eliminate biological variability. Kasper D Hansen, Zhijin
Wu, Rafael A Irizarry & Jeffrey T Leek. Nat Biotechnol., 2011. 29(7): 572–573
测序技术不能消除生物学差异

从方差分解看重复的意义
Var(Expr) = Across Group Variability + Measurement Error + Biological
Variability
Var(Expr) : 表达的变异程度
Across Group Variability ：case(s)-control之间的差异
Measurement Error ：技术先进性、平台稳定性问题，技术重复
Biological Variability ：样本间差异、个体差异，生物学重复

重复的意义
增加样本对研究对象空间的代表性
减少目标属性度量的误差
以增强结论的可靠性和适用范围
reproducibility研究结果的可再现性 repeatability研究过程的可重复性

More replicate？
（单样本无法反映组内可变性）
要研究case-control的表达差异，组内重复数>=2；
重复数从2增到3，对研究功效提升很明显，故推荐重复数=3；
从3增到4乃至更大，功效提升渐低，条件允许时重复数5~10
即可。
如果是eQTL、eGWAS等大规模分析，样本数>=30，最好100
以上

More sampling points？
如果研究发育阶段或不同浓度的处理条件，则对象是一个时间
序列或梯度序列样本；
或者涉及多个不同的品种或处理条件，这时，在测序量和重复
数之上还需确定分组数（或时间点数/浓度水平数）。
需要结合研究对象和目的以及预算情况来确定分组数。

可能没有重复样本
尝试性（pilot）试验（系统论的实验设计思想）：
序贯式迭代深入（探索性研究的反馈控制）
阶段性试验：
样本很罕见或难获取

细化分析与知识驱动
细化分析
测序偏倚的度量和校正
测序质量与饱和度评价
重复性分析(有重复时)
知识驱动
过表达基因的功能与通路网络+qPCR验证+其他文献/数据库证据
根据先验知识排除一些假阴假阳性，再次分析并进行两个结果的比较

偏倚的度量和纠正
对测序数据进行测序偏倚的度量和校正是值得尝试的工作
seqbias from R/Bioconductor, Jones DC et al. 2012

测序质量与饱和度评价
测序深度够不够？
事后论证：用事实说话

重复性分析
ENCODE的RNA-seq
指南：
通常两个生物重复之间的
R^2应该在0.92到0.98之间。
生物相关性低于0.9的实验
需要重做或进行解释。

必不可少的步骤
目前还没有关于分析金标准的一致看法，典型的分析流程至少包含以下
步骤：
mapping of the reads 【mismatch】
summarization of the reads per adopted gene model【multi-reads】
normalization【reads counts, FPKM, TPM，percellome】
testing for differential expression【GFOLD，edgeR，NOIseq】
eventually, system biological analysis(GO, pathway, network etc.)

用知识驱动方法进行研究
过表达基因的功能与通路网络+qPCR验证+其他文献/数据库证据
与GO和pathway富集分析相对的一种分析
根据差异表达p-value和logFC构建基因网络
然后通过GO来分析网络的功能
从而确定有意义的网络
并在其中选择显著差异表达的基因进行qPCR验证。

先验知识的影响
根据先验知识排除一些假阴假阳性，再次分析并进行两个结果的比较
如果先验知识争议较大，而对结果影响较小，则结果较有意义；
如果先验知识确信无疑，而对结果影响较大，则选择再次分析的结果。

转录组测序数据挖掘

Recommended

Recommended

More Related Content

Featured

Featured (20)

转录组测序数据挖掘

Editor's Notes