Your SlideShare is downloading. ×
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
转录组测序数据挖掘
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

转录组测序数据挖掘

689

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
689
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • RNA‐Seq is a general term to describe the process of high‐throughput sequencing of all messenger RNA (the ”transcriptome”) present in a specific condition.
  • http://www.nature.com/ni/journal/v13/n9/fig_tab/ni.2407_F1.html
  • 理解RNA-Seq实验,有助于我们了解不同的实验方法对于分析的影响,进而依据自身的研究目的,选择最佳的实验手段;在我个人理解,RNA-Seq在向着两个方向持续地发展:1.让我们能够高效地、有选择性地获取特定信息;2.使得我们获得的信息尽可能地准确和全面。
  • 对应第一个发展方向:让我们能够高效地、有选择性地获取特定信息;
  • 对应第二个发展方向:使得我们获得的信息尽可能地准确和全面。
  • 对应第二个发展方向:使得我们获得的信息尽可能地准确和全面。另有一个重要的关注点,PCR反应的偏向性,即不同GC含量,不同长度的DNA分子在PCR反应过程中,扩增效率不一致。这显然会导致鉴定出的基因表达量出现偏差,进而影响差异表达基因鉴定及下游的诸多分析。早在2010年,一篇naturemethods文章已经实现了免扩增+链特异性RNA-Seq测序。时间有限,这里不作详细探讨。
  • 如果群体可以合理的分为不同的亚群体,可以进行位点选择分析,鉴定收到特定选择作用的位点。
  • Transcript

    • 1. RNA-Seq,不只是差异表达 余 胜 yusheng@benagen.com 贝纳基因 www.benagen.com
    • 2. 内容提要 RNA-Seq概览 从理解RNA-Seq实验开始… RNA-Seq数据分析,不只是差异表达
    • 3. RNA-Seq概览—常规实验流程
    • 4. RNA-Seq概览—基础数据分析
    • 5. 内容提要 RNA-Seq概览 从理解RNA-Seq实验开始… RNA-Seq数据分析,不只是差异表达
    • 6. Poly(A) select 或者 ’rRNA minus’, Why? 80% 15% 4% 1% rRNA tRNA mRNA others mRNA仅占全部RNA分子量的4%左右。有必要采取富集措 施提高其丰度,使mRNA-reads在测序结果中的比例显著增 加。
    • 7. 随机打断+反转录+扩增 带来的损失 Huang R, Jaritz M, Guenzl P, et al. PLoS ONE. 2011;6:e27288 从reads在mRNA上的位置分布来看, 不论是RNA水解,还是cDNA打断,3’ 和5’端UTR均有损耗。这一类实验方 法的reads数据难以用于转录起始/终 止位置的研究…
    • 8. 对应的解决方法 最后,添加新的测序接头,上机 测序 Pelechano V, Wei W, Steinmetz LM. Nature 2013, 497:127–131. 添加末端端接头+反转录扩增 合成双链+添加含生物素标记(5’) 环化双链产物+随机打断+富集含 生物素标记的片段
    • 9. 链特异性测序的优势 Parkhomchuk D, Borodina T, Amstislavskiy V, Banaru M, Hallen L, et al. Nucleic Acids 2009, Res 37: e123. 链特异性测序可以很好的解决正负链overlapped- gene情况。据称,使用这一方法,约5%的基因的表 达定量将更为准确,同时对转录组的拼接也有帮 助。
    • 10. 内容提要 RNA-Seq概览 从理解RNA-Seq实验开始… RNA-Seq数据分析,不只是差异表达
    • 11. 对RNA-Seq研究范围的进一步认识 转录本序列  SSR分析标记开发  基因/基因家族功能 与进化分析  系统发育分析 SNP/indel  群体进化分析  mRNA编辑分析 Gene, 多个样本 主成分分析(PCA )  样本聚类分析  条件特异表达分 析  共表达分析  eQTL分析 Gene, 少量样本  差异表达分析  差异剪切分析 Allele, 多个样本  新的分析1?  新的分析2? Allele, 少量样本  Allele-specific 差异 表达分析  Allele-spedific差异 剪切分析 广 度 深度 基因表达、剪切数据 RNA-Seq
    • 12. RNA-Seq用于SSR分析标记开发 Mono-nucleotide repeats 7,693 57.7% Di-nucleotide repeats 3,733 28.0% Tri-nucleotide repeats 1,538 11.5% Other repeats 363 2.8% Total repeats 13,327 100% Fu, B. & He, S. DNA research 2012,19, 131-142.
    • 13. RNA-Seq用于系统发育分析 Hartmann S, Helm C, Nickel B, Meyer M, Struck TH, et al.PLoS ONE 2012, 7(1): e29843.
    • 14. RNA-Seq用于系统发育分析 http://www.1kite.org/
    • 15. RNA-seq,差异表达分析 鉴定差异表达基因(e.g. DESeq); 差异表达基因功能 (e.g. GO,KEGG pathway)富集分析;
    • 16. RNA-Seq,可变剪切与差异剪切分析 Lalonde E, et al. Genome Res 2011,21(4):545–554. 上述基因的多种剪切形式(转录 本); 一个基因(rs7911488)在两个不同的 样品中的reads mapping示意图,显 示使用了不同的外显子(存在剪切 差异); 上述基因所有的剪切形式(转录本) 在不同样品中的相对含量出现变 化;
    • 17. RNA-Seq,条件特异表达分析 狭义条件特异表达基因:只在特定的条件(e.g. 特定组织,特定时间点)下 正常表达的基因。 Schug J, Schuller WP, Kappen C, et al. Genome Biol 2005, 6: R33.
    • 18. RNA-Seq,共表达分析 绿:纤维连接蛋白红:甲壳素 Zhang G, Fang X, Guo X, Li L, Luo R, et al. Nature 2012, 490: 49–54.
    • 19. RNA-Seq,共表达分析 Xue Z, Huang K, Cai C, Cai L, Jiang CY, et al. Nature 2013,500: 593–597. 共表达基因模块 具有条件特异表 达性质的共表达 基因模块
    • 20. RNA-Seq,样品聚类分析和主成分分析 (PCA) Xue Z, Huang K, Cai C, Cai L, Jiang CY, et al. Nature 2013,500: 593–597. 样品聚类分析 主成分分析(PCA)
    • 21. RNA-Seq,eQTL分析
    • 22. RNA-Seq,allele-specific expression (ASE)分析 Xue Z, Huang K, Cai C, Cai L, Jiang CY, et al. Nature 2013,500: 593–597.
    • 23. RNA-Seq,allele specific splicing (ASS)分析 Montgomery SB, Sammeth M, et al. Nature 2010, 64:773-777
    • 24. RNA-Seq用于群体进化分析 Varshney, R. K. et al. Nature biotechnology 2013,31, 240-246. a.遗传组成分析; b.主成分分析; c.系统发育分析;
    • 25. RNA-Seq用于mRNA编辑分析 Peng Z, Cheng Y, B, Kang L, Tian Z, et al. Nature Biotechnology 2012, 30: 253–262. Ramaswami G, Lin W, Piskol R, Tan MH, Davis C, et al. Nat Methods 2012.
    • 26. 对RNA-Seq分析细节的不断完善 RNA-Seq 关注reads counts/FPKM的 置信区间 Novel transcripts 差异 分析 ……
    • 27. 关注表达量的置信区间 RSEM, eXpress, et al. 期望最大化(EM)算法  彻底排除了不确 定性;  相似程度高的基 因呈现低表达量 ; Unique-reads  有效利用好所有 数据,包括 unique-reads和 multi-reads;  引入了不确定性 ; Unique-reads Multi-reads
    • 28. 关注表达量的置信区间 eXpress 关注置信区间 RSEM 默认关闭,请设置
    • 29. Novel transcripts的差异表达 Reads alignment1 Reference gene.gff Novel transcripts1.gff Reads counts1 of genes Reads alignment2 Reads counts2 of genes Novel transcripts2.gff Different expressed genes Old pipeline
    • 30. Novel transcripts的差异表达 Reads alignment1 Reads alignment2 Reference gene.gff transcripts1.gff transcripts2.gff Novel transcripts.gff Reads alignment1 Reference gene.gff + Novel transcripts.g ff Reads counts1 of genes Reads alignment2 Reads counts2 of genes Different expressed genes New pipeline
    • 31. 总结  RNA-Seq是运用高通量测序技术,对生物样本中的全部mRNA进行测序 +研究的过程,它包括实验(包括实验设计、取样)和信息分析两部分内 容。  RNA-Seq实验技术正持续发展。理解不同RNA-Seq实验技术的优缺点, 至少可以让我们明确特定RNA-Seq实验对于信息分析的影响。  RNA-Seq在基因表达研究中应用最广,研究不断深入(e.g. gene 到 allele),研究广度不断拓展(e.g. 少量样品 到 大规模样本)上;而另一方 面,RNA-Seq也胜任于SSR标记开发、系统发育分析、群体进化分析、 mRNA编辑等多项其他研究。  关注表达量置信区间和novel transcripts的差异分析,两个例子,说明 我们更加准确、全面的RNA-Seq分析服务。
    • 32.  谢谢!
    • 33. 利用RNA-seq进行转录组研究 之 实验与分析方案设计 王崇志 wangchongzhi@benagen.com 贝纳基因 www.benagen.com
    • 34. Q:蚕的变态发育研究  细分成几个发育阶段?  每个阶段取几个重复?  每个重复测多少reads?
    • 35. 基因组的考虑 物种数 多倍体/杂合 生物上的考虑 器官/组织/细胞类型 发育阶段 处理 经济上的考虑 预算 技术上的考虑 技能/硬件 对照 重复 所用技术 文库制备 测序量 分析流程 概 览
    • 36. 技术上的考虑 研究背景的考虑 重复数与测序量的确定 无重复样本的研究方案
    • 37. 技术背景的考虑 研究背景的考虑 重复数与测序量的确定 无重复样本的研究方案
    • 38. 1. 用户错误:如贴错标签。 2. 样品降解:如组织自溶,FFPE样品的交联。 3. 异源序列污染:如宿主。 4. DNA起始量低:会在PCR过程中产生更多的假突变 (GA)。 NGS中的实验误差:样品制备
    • 39. 1. 用户错误:如样品残留。 2. PCR扩增错误:同前面第4点。 3. 引物偏向:如甲基化、错配、二级结构与熔解温度。 4. 3’端捕获偏向:poly(A)富集时。 5. 私有突变:如在重复区域或私有变异上引导错误。 6. 机器故障。 7. 嵌合reads。 8. 条形码和/或接头错误。 NGS中的实验误差:文库制备
    • 40. 1. 用户错误:如流动槽过载引起的簇crosstalk。 2. 移相:如延伸过快或过慢。 3. “Dead”荧光团:受损核苷酸以及重叠信号。 4. 序列背景:如富含GC,低复杂度区域,及同聚物。 5. 机器故障:如激光器、硬盘、软件和流体系统。 6. 链的偏向。 NGS中的实验误差:测序成像
    • 41. Illumina文库与数据类型 常用类型 定序:PE90定量:SE50
    • 42. 技术背景的考虑 研究背景的考虑 重复数与测序量的确定 无重复样本的研究方案
    • 43. 转录组denovo 新基因的发现 ncRNA的发现 参考集各元素(isoform/gene)的表达定量 多样本间高丰度mRNA种类的显著变化检测 遗传标记的开发 癌细胞表达分型 群体分析 常见的转录组研究
    • 44. 转录组的复杂性 最简单情形:One Genome => Gene 1 copy => Single mRNA
    • 45. 转录组的复杂性 几个物种?①分离单个物种的问题;②物种互作研究
    • 46. 转录组的复杂性 平均几个allele?①多倍体②杂合率③复杂基因家族(串联复制)
    • 47. 转录组的复杂性 平均几个isoform?①可变剪接
    • 48. 转录组的复杂性 不同时间点?①发育阶段(很难选择相同阶段)②对处理的响应
    • 49. 转录组的复杂性 有机体的不同部分?①特定器官②特定组织/细胞类型
    • 50. 参考序列: 基因组 and/or 转录组 Can I use ______ as a reference? a different accession a different species in same genus a different species in same family 有无参考序列 使用Arabidopsis thaliana col. 作为参 考序列的reads mapping结果
    • 51. 技术背景的考虑 研究背景的考虑 重复数与测序量的确定 无重复样本的研究方案
    • 52. How deep is deep enough? 对人B-cell的一项研究称: 精确测量所有表达转录本,需要~500M reads;精确测量绝大多数转 录本,需要~100M reads(SE50)。 对大肠杆菌的一项研究表明,上述两个值为50M 和10M(76-101 PE)。 不过由于尚未达成转录组分析的金标准,对具体数值的确定仍存在争议。 Toung JM, Morley M, Li M, Cheung VG. Genome Res. 2011 Jun;21(6):991-8 Haas et al. BMC Genomics 2012 13:734.
    • 53. 测序饱和现象
    • 54. more sequence? 对于测序深度来说,单位功效的成本在测序深度达到某个数 值D0后开始升高,即边际收益递减。 基因的差异表达研究: 哺乳动物的D0为~10M SE50 reads; 转录本的差异表达研究: 相应的D0为~30M SE50 reads; 差异可变剪接分析: 可能需要>400M的PE100 reads。
    • 55. 随机化Randomization materials & order(required by random variable(s)) 重复Replication error estimate & more accurate parameter repeated measure differs from replication. 区组化Blocking(control(s)的推广) Reduce or eliminate variation introduced by nuisance factors. 实验设计三大统计学原则
    • 56. 生物学差异是基因表达自身的特性,与检测技术的选择以及数据处理的方式无关。 Sequencing technology does not eliminate biological variability. Kasper D Hansen, Zhijin Wu, Rafael A Irizarry & Jeffrey T Leek. Nat Biotechnol., 2011. 29(7): 572–573 测序技术不能消除生物学差异
    • 57. 从方差分解看重复的意义 Var(Expr) = Across Group Variability + Measurement Error + Biological Variability Var(Expr) : 表达的变异程度 Across Group Variability :case(s)-control之间的差异 Measurement Error :技术先进性、平台稳定性问题,技术重复 Biological Variability :样本间差异、个体差异,生物学重复
    • 58. 重复的意义 增加样本对研究对象空间的代表性 减少目标属性度量的误差 以增强结论的可靠性和适用范围 reproducibility研究结果的可再现性 repeatability研究过程的可重复性
    • 59. More replicate? (单样本无法反映组内可变性) 要研究case-control的表达差异,组内重复数>=2; 重复数从2增到3,对研究功效提升很明显,故推荐重复数=3; 从3增到4乃至更大,功效提升渐低,条件允许时重复数5~10 即可。 如果是eQTL、eGWAS等大规模分析,样本数>=30,最好100 以上
    • 60. More sampling points? 如果研究发育阶段或不同浓度的处理条件,则对象是一个时间 序列或梯度序列样本; 或者涉及多个不同的品种或处理条件,这时,在测序量和重复 数之上还需确定分组数(或时间点数/浓度水平数)。 需要结合研究对象和目的以及预算情况来确定分组数。
    • 61. 技术上的考虑 研究背景的考虑 重复数与测序量的确定 无重复样本的研究方案
    • 62. 可能没有重复样本 尝试性(pilot)试验(系统论的实验设计思想): 序贯式迭代深入(探索性研究的反馈控制) 阶段性试验: 样本很罕见或难获取
    • 63. 细化分析与知识驱动 细化分析 测序偏倚的度量和校正 测序质量与饱和度评价 重复性分析(有重复时) 知识驱动 过表达基因的功能与通路网络+qPCR验证+其他文献/数据库证据 根据先验知识排除一些假阴假阳性,再次分析并进行两个结果的比较
    • 64. 偏倚的度量和纠正 对测序数据进行测序偏倚的度量和校正是值得尝试的工作 seqbias from R/Bioconductor, Jones DC et al. 2012
    • 65. 测序质量与饱和度评价 测序深度够不够? 事后论证:用事实说话
    • 66. 重复性分析 ENCODE的RNA-seq 指南: 通常两个生物重复之间的 R^2应该在0.92到0.98之间。 生物相关性低于0.9的实验 需要重做或进行解释。
    • 67. 必不可少的步骤 目前还没有关于分析金标准的一致看法,典型的分析流程至少包含以下 步骤: mapping of the reads 【mismatch】 summarization of the reads per adopted gene model【multi-reads】 normalization【reads counts, FPKM, TPM,percellome】 testing for differential expression【GFOLD,edgeR,NOIseq】 eventually, system biological analysis(GO, pathway, network etc.)
    • 68. 用知识驱动方法进行研究 过表达基因的功能与通路网络+qPCR验证+其他文献/数据库证据 与GO和pathway富集分析相对的一种分析 根据差异表达p-value和logFC构建基因网络 然后通过GO来分析网络的功能 从而确定有意义的网络 并在其中选择显著差异表达的基因进行qPCR验证。
    • 69. 先验知识的影响 根据先验知识排除一些假阴假阳性,再次分析并进行两个结果的比较 如果先验知识争议较大,而对结果影响较小,则结果较有意义; 如果先验知识确信无疑,而对结果影响较大,则选择再次分析的结果。
    • 70. Thank You !

    ×