论文初稿_徐玮1. 分类号 密级
UDC 编号
中国科学院研究生院
博士学位论文
基于第二代测序技术的生后小鼠大脑组织发育的转录组研
究及藓羽藻叶绿体基因组的测序分析和进化研究
徐玮
指导教师 于军研究员 博士 胡松年研究员 博士
中国科学院北京基因组研究所
2. 申请学位级别 理学博士 学科专业名称 生物信息学
论文提交日期 2011 年 4 月 论文答辩日期 2011 年 4 月
培养单位 中国科学院北京基因组研究所
学位授予单位 中国科学院研究生院
答辩委员会主席
2
3. The Transcriptome Dynamics of Mouse Cerebrum Development via
New Generation Sequencing Technology And Evolution Research of
Bryopsis hypnoides Chloroplast via Shot-gun Sequencing
A Dissertation Submitted to the Degree Committee of
Institute of Genomics, Chinese Academy of Sciences
4. 目 录
By Wei Xu
Supervised by Professor Jun Yu and Professor Songnian Hu
April 2011
4
7. 目 录
目 录
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组变化
中文摘要 ............................................................................................................................. 1
ABSTRACT ......................................................................................................................... 3
引言....................................................................................................................................... 5
第一章 文献综述 ............................................................................................................... 6
1.1 哺乳动物大脑发育的研究背景 ........................................................................................................... 6
1.1.1 大脑的结构及功能 ............................................................................................................................ 6
1.1.2 大脑的发育过程 ................................................................................................................................ 8
1.1.3 大脑发育的分子调控 ........................................................................................................................ 9
1.1.3.1 激素对大脑发育的调控 ................................................................................................................. 9
1.1.3.2 肿瘤发生相关基因对大脑发育的调控 ......................................................................................... 9
1.1.3.3 大脑发育过程中的神经营养因子假说 ....................................................................................... 10
1.1.3.4 神经元诱向因子对大脑发育的调控 ........................................................................................... 11
1.1.3.5 大脑发育调控中的重要信号通路 ............................................................................................... 11
1.2 转录组学的研究方法 ......................................................................................................................... 12
1.2.1 EST表达序列标签 ............................................................................................................................ 13
1.2.1.1 EST技术的形成和发展 ................................................................................................................. 13
1.2.1.2 EST技术流程及分析思路 ............................................................................................................. 14
1.2.1.3 EST技术的应用 ............................................................................................................................. 14
1.2.1.4 EST技术的不足 ............................................................................................................................. 15
1.2.2 DNA微阵列(基因芯片) ..................................................................................................................... 16
Ⅰ
8. 目 录
1.2.2.1 基因芯片的工作原理 ................................................................................................................... 16
1.2.2.2 基因芯片的技术流程 ................................................................................................................... 16
1.2.2.3 基因芯片技术的应用 ................................................................................................................... 18
1.2.2.4 基因芯片的缺点 ........................................................................................................................... 18
1.2.3 SAGE基因表达系列分析 ................................................................................................................ 18
1.2.3.1 SAGE的理论基础 ......................................................................................................................... 18
1.2.3.2 SAGE的技术流程 ......................................................................................................................... 19
2
9. 目 录
1.2.3.3 SAGE的优点和应用 ...................................................................................................................... 20
1.2.4 大规模平行信号测序系统(MPSS) ................................................................................................... 21
1.2.5 上述各技术间的优缺点比较 ........................................................................................................... 22
1.2.6 RNA-seq技术及其应用 ..................................................................................................................... 22
1.2.6.1 新一代测序技术发展概况 ............................................................................................................ 23
1.2.6.2 SOLiD技术原理及技术流程 ......................................................................................................... 23
1.2.6.3 SOLiD测序技术的应用 ................................................................................................................. 29
第二章 材料与方法 .......................................................................................................... 30
2.1 实验材料 .............................................................................................................................................. 30
2.2 主要化学试剂 ...................................................................................................................................... 30
2.3 常用溶液和培养基 .............................................................................................................................. 30
2.4 试剂盒 .................................................................................................................................................. 31
2.5 实验方法 .............................................................................................................................................. 31
2.5.1 小鼠的处理和取样 ........................................................................................................................... 31
2.5.2 转录组文库的构建 ........................................................................................................................... 31
2.5.2.1 总RNA提取 ................................................................................................................................... 31
2.5.2.2 核糖体RNA的去除(rmRNA-Seq) ................................................................................................. 32
2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 ............................................................. 33
2.5.2.4 文库检验 ........................................................................................................................................ 35
2.5.2.5 SOLiD油包水PCR及上机测序 ...................................................................................................... 35
2.5.3 RT-PCR ............................................................................................................................................ 35
2.6 数据分析方法 ...................................................................................................................................... 37
Ⅱ
10. 目 录
2.6.1 SOLiD序列在基因组上的注释 ........................................................................................................ 37
2.6.2 可变剪切分析 ................................................................................................................................... 38
2.6.3 基因表达谱分析 ............................................................................................................................... 39
2.6.4 差异表达基因的判断和功能分类 ................................................................................................... 39
2.6.5 内含子的表达分析 ........................................................................................................................... 39
2.6.6 基因间区的表达分析 ....................................................................................................................... 39
2.6.7 转录因子在三文库中表达情况的分析 ........................................................................................... 40
第三章 结果 ...................................................................................................................... 41
2
11. 目 录
3.1 转录组文库的构建 .............................................................................................................................. 41
3.2 RNA-seq数据的性质 ............................................................................................................................ 42
3.2.1 测序数据的筛选 ............................................................................................................................... 42
3.2.2 测序数据的注释 ............................................................................................................................... 43
3.3 基因表达谱的分析 .............................................................................................................................. 44
3.3.1 三个文库中表达基因数量及种类的变化 ....................................................................................... 44
3.3.2 三个文库的基因表达谱分析 ........................................................................................................... 46
3.3.3 表达基因的功能分类 ....................................................................................................................... 48
3.4 基因内含子区域的表达分析 .............................................................................................................. 52
3.5 基因间区的表达分析 .......................................................................................................................... 54
3.6 基因可变剪切的分析 .......................................................................................................................... 54
3.7 差异表达基因的分析 .......................................................................................................................... 55
3.7.1 差异表达基因的数量及种类 ........................................................................................................... 55
3.7.2 差异表达基因的功能分类 ............................................................................................................... 56
3.7.3 差异表达基因的通路分析 ............................................................................................................... 57
3.7.3.1 差异表达基因在MAPK信号通路上的定位 ................................................................................ 58
3.7.3.2 差异表达基因在细胞骨架肌动蛋白的调节通路上的定位 ........................................................ 59
3.7.3.3 差异表达基因在轴突导向通路上的定位 .................................................................................... 60
3.8 转录因子的表达分析 .......................................................................................................................... 62
3.8.1 三个文库中转录因子的判断和丰度分布 ....................................................................................... 62
3.8.2 低表达转录因子的分析 ................................................................................................................... 63
3.8.3 高表达转录因子的分析 ................................................................................................................... 63
Ⅲ
12. 目 录
3.8.3.1 高表达转录因子的判断和分布 .................................................................................................... 63
3.8.3.2 高表达转录因子的功能分类 ........................................................................................................ 64
3.8.3.3 差异性高表达转录因子的分析 .................................................................................................... 64
第四章 讨论及后续工作计划 .......................................................................................... 67
4.1 小鼠大脑转录组的特点 ....................................................................................................................... 67
4.2 小鼠大脑生后发育的特点 ................................................................................................................... 67
4.3 本文创新点 ........................................................................................................................................... 67
4.4 后续工作计划 ....................................................................................................................................... 68
2
13. 目 录
第二部分 藓羽藻的叶绿体基因组测序分析及其进化研究
中文摘要 ............................................................................................................................ 69
ABSTRACT ........................................................................................................................ 70
引言 .................................................................................................................................... 72
第一章 文献综述 .............................................................................................................. 73
1.1 绿藻门概述 .......................................................................................................................................... 73
1.2 藻类叶绿体基因组概况 ...................................................................................................................... 74
1.2.1 叶绿体基因组的结构特征 ............................................................................................................... 74
1.2.2 叶绿体基因组的起源 ....................................................................................................................... 75
1.2.3 叶绿体基因组的基因组成 ............................................................................................................... 76
1.2.4 叶绿体基因组在藻类系统发育研究中的应用 ............................................................................... 76
第二章 材料与方法 .......................................................................................................... 78
2.1 实验材料 .............................................................................................................................................. 78
2.2 叶绿体DNA的提取和纯化 ................................................................................................................. 78
2.2.1 叶绿体的分离纯化 ........................................................................................................................... 78
2.2.2 叶绿体DNA的提取(高盐低PH法) ................................................................................................... 78
2.2.3 叶绿体DNA的纯化(CsCl密度梯度离心法) .................................................................................... 79
2.3 叶绿体基因组文库的构建 ................................................................................................................. 79
2.4 叶绿体基因组的测序及组装 ............................................................................................................. 80
2.5 序列分析 ............................................................................................................................................. 80
2.6 系统发育树的构建 ............................................................................................................................. 80
第三章 结果 ..................................................................................................................... 82
IV
14. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
3.1 叶绿体及其DNA的提取 .................................................................................................................... 82
3.2 叶绿体基因组文库的构建及测序拼接 ............................................................................................. 82
3.3 藓羽藻cpDNA的基因组特征 ............................................................................................................ 83
3.4 系统发育关系 ..................................................................................................................................... 87
第四章 结论 ..................................................................................................................... 90
参考文献 ........................................................................................................................... 91
发表文章目录 ................................................................................................................. 100
致谢 ................................................................................................................................. 101
1
15. 摘 要
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录
组研究
摘 要
大脑又称端脑,由左右两半球组成,是控制运动、产生感觉及实现高级
脑功能的高级神经中枢。但迄今为止,大脑发育的分子机制和调控机理尚未被
完全阐明。本研究采用新一代测序技术 (SOLiD) 对小鼠大脑发育的三个代表性
时期 ( 幼年期, 1 周龄;青春期, 4 周龄;成年期, 10 周龄 ) 进行转录组学研
究,以全面了解在这三个关键时期大脑组织中基因的表达变化情况。
我们对小鼠三个时期大脑的转录组文库利用第二代测序仪 SOLiD 进行了
RNA 水 平 上 的 Shot-gun 测 序 (RNA-seq) , 并 将 所 得 序 列 比 对 到 小 鼠 基 因 组
上,然后利用 NCBI 的 Genbank 数据库对序列进行了注释。在三个样本中,我
们分别得到了 11,929,828 、16,614,876 和 15,111,661 条序列专一比对到小鼠基因
组上,其中 33 ~ 47% 的序列位于外显子区域, 28 ~ 34% 的序列位于内含子区
域,其它序列则分布在基因间区。我们分别鉴定出 15,344 、16,048 和 15,775 个
基因在幼年期、青春期和成年期小鼠大脑中表达。
我们采用 RPKM 值衡量基因表达丰度,对三个不同时期大脑基因表达谱
进行了聚类分析,结果发现幼年期和青春期的小鼠大脑基因表达谱聚为一类。
1
16. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
基因差异表达分析表明, 5,768 个基因在青春期小鼠大脑与幼年期小鼠大脑中
存在显著差异表达,其中有 4,106 个基因表现为在青春期小鼠中表达丰度的上
调;成年小鼠和青春期小鼠大脑之间差异表达基因个数为 6,787 个,其中有
5,623 个基因表现为在成年期小鼠中表达丰度的下调。这表明在生后小鼠的大
脑发育过程中,大脑组织中的基因总体上呈现出先扬后抑的趋势,青春期小
鼠的大脑基因表达相对于其他两个时期最为活跃。这些差异表达的基因功能涉
及能量代谢、信号转导和细胞凋亡等多方面,值得一提的是,这些差异表达的
基因还包括了大量癌症和神经性疾病的相关基因,说明这些基因参与了生后
小鼠大脑发育的调控过程。
我们共发现了 1,493 个转录因子在三个时期小鼠卵巢中表达,这其中既有
已报道在大脑发育过程中起重要作用的转录因子,如: E2f 家族、 Pax6 、
2
17. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
Six3 、Rax 、ISL-1 等,也有大量的在大脑发育过程中功能未知的转录因子。另
外,我们在三个时期小鼠大脑组织中分别发现了 254 、304 、382 个低表达的转
录因子( RPKM< 1 ),其中一些转录因子如 Neurog2 、Pax6 、Six3 等在小鼠大
脑发育过程中发挥重要作用。这些低表达的转录因子较难被芯片方法检测到,
它们的发现可以使我们更深入地了解小鼠大脑的发育模式。
我们研究了内含子区域与外显子的表达相关性,发现在幼年期、青春期
和成年期的小鼠大脑组织中,分别有 2,079 、 2,520 和 4,061 个基因的内含子区
域异常活跃的表达。
我们在三个时期的大脑发育过程中,共发现有 10,590 个基因具有可变剪
切 形 式 。 另 外 , 在 基 因 间 区 中 一 共 鉴 定 出 了 23,266 个 具 有 转 录 活 性 的 位
点, 70.8% 的位点 (16,477 个 ) 注释在基因的 UTR 区域, 20.7% 的位点( 4,806
个)有转录本( EST )支持,另外有大约 0.9% 的位点( 216 个)注释为已知的
ncRNA ,而剩下 7.6% 的转录活性位点( 1,767 个)以前没有被定义过。
关键词: 大脑发育,基因表达谱,SOLiD,转录组
2
19. Abstract
Abstract
Brain, which is also called cerebrum, consists of two hemispheres. It’s the senior
nervous center controlling movements, producing feelings and realizing higher-level
brain functions. The molecular mechanism and regulation mechanism of brain
development has not yet been fully expounded. In this study, to help assess the
expression changes of genes involved in postnatal brain development, we carried out
a comparative study on mouse brain transcriptomes at three crucially developmental
stages (infant stage, 1weeks old; juvenile stage, 4 weeks old; adult stage, 10 weeks
old) using the next-generation sequencing technology (SOLiD).
Using SOLiD, we sequenced the transcriptomes at three developmental stages
(RNA-seq), then aligned the obtained reads to the mouse genome and annotated genes
using the GenBank database on NCBI. We acquired 11,929,828, 16,614,876 and
15,111,661 uniquely-mapped reads from infant, juvenile, and adult cerebrum samples,
respectively. Of these uniquely-mapped reads, 33%-47% were mapped to exons,
28%-34% were mapped to introns, and the others were mapped to intergenic regions.
We identified 15,344, 16,048 and 15,775 expressed genes in the mouse cerebrum of
infancy, juvenile and adult, respectively.
We used RPKM value to normalize the gene expression abundance among the
three developmental stages. The gene expression profiles were clustered into two
groups, one contains infant and juvenile cerebrums, and the other contains adult
cerebrum only.
Through comparative analysis of gene expression profiles, we found 5,768
expressed genes changed significantly between infant and juvenile cerebrums, while
the number of that between juvenile and adult cerebrums was 6,787 . Compared to
infant cerebrum, 4,106 differentially expressed genes were up-regulated in juvenile
cerebrum, while compared to juvenile cerebrum, 5,623 differentially expressed genes
were down-regulated in juvenile cerebrum. This phenomenon suggests that the
abundance of cerebrum expressed genes during the three stages were up-regulated and
3
20. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
then down-regulated. The gene expression was enhanced markedly during puberty
comparied to other stages. These differently expressed genes reflected a vast
repertoire of genes involved in energy metabolism, signal transduction, cell apoptosis,
and so on. Remarkably, these differentially expressed genes also includes a large
number of genes related to cancers and neurologic diseases, suggested these genes
may play a role in the postnatal development of mouse cerebrum.
In our research, we found 1,493 transcription factors(Tfs) which involved in the
development of mouse cerebrum, some of which are essential for cerebrum
development such as E2f family, Pax6, Six3, Rax, ISL-1. The function of most Tfs
during cerebrum development are still unclear. In addition, we found 254, 304, 382
Tfs with low expression abundance (RPKM<1) in the three samples, respectively,
including some important genes for the postnatal development of mouse cerebrum
(Neurog2 、 Pax6 、 Six3). These lowly expressed Tfs undetected by DNA microarray
before may help us understand the cerebrum transcriptome deeply.
We studied the correlation between introns and exons and identified 2,079,
2,520 and 4,061 genes have intronic regions showing significant exprssion in three
stages, respectively.
Our recearches indetated that 10,590 genes have alternative transcripts in the
three samples totally. Moreover, we found 23,266 transciptional loci in the intergenic
region in all, 70.8% of which were annotated to the UTR extenstion region(16,477) ,
20.7% of which were confirmed by EST, 0.9% of which were annotated as the known
ncRNA, and other 7.6% (1,767) were identified as new transciptional loci.
Keywords: Cerebrum development, Gene expression profile, SOLiD,
4
21. 引 言
引 言
大脑又称端脑,是脊椎动物 脑的高级神经系统 的主要部分,具有控制和
协调运动、感觉和高级心理运行等功能。大脑发育是一个极其复杂的过程,受多
方面因素的调控。出生时的大脑具备了成年大脑的基本形态,但大脑皮层结构还
不明显,神经元还未发育成熟。在大脑的生后发育过程中,大脑皮层结构的完
善、神经元的成熟、突触的形成和连接等都是由多个基因调控的复杂的分子生物
学过程。随着研究的深入,近年来发现了许多对大脑生后发育极其重要的基因,
这些基因可以帮助我们更全面的了解大脑生后发育过程中重要基因的表达模式。
传统的基因敲除模型的研究方法每次只能对有限的几个基因进行研究,不利于
研究大脑生后发育的整个分子调控机制。
近年来,随着生物技术的不断进步,转录组学成为系统研究特定组织或细
胞基因表达调控的重要手段。传统应用于转录组的研究方法主要有表达序列标签
(EST)、DNA芯片(DNA Microarray)、基因表达系列分析(SAGE)和大规模平行信号
测序系统(MPSS)。然而这些传统方法或多或少存在一些缺点,如EST方法实验周
期较长信息量少,实验花费较多; DNA芯片背景信号多; SAGE 在短序列标签
的测序方法上较为费时、费力,注释不准确[1-9]。随着新一代的大规模测序技术
的发展 (主要是以 Solexa和SOLiD测序仪为代表 ),目前RNA shot-gun测序 (RNA-
seq)的方法被成功地应用于转录组的研究。其特点是测序通量大、花费少,深度
取样可以更加真实的反映生物体内转录组的情况。本研究中,我们成功地把
RNA-seq 技术应用到对小鼠大脑生后发育的转录组研究上[10-15]。
5
22. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
我们采用新一代测序技术SOLiD对幼年期、青春期和成年期小鼠大脑的转录
组进行了研究,并对3个不同发育时期的小鼠大脑基因表达谱进行了比较分析,
发现了一些对大脑发育起重要调控作用的基因及调控因子,此外我们还研究了
非编码区在大脑生后发育不同时期的表达变化情况。这些结果让我们对大脑生后
发育过程中基因的表达和调控有了新的认识,为进一步从分子水平上对大脑发
育进行研究提供了理论基础。
4
23. 文献综述
第一章 文献综述
1.1 哺乳动物大脑发育的研究背景
1.1.1 大脑的结构和功能
大脑又称端脑,是指占据颅腔的大部分的大而圆的脑组织,主要包括左右
大脑半球,是脊椎动物在长期进化过程中发展起来的思维和意识的器官。
大脑半球主要包括灰质和白质两部分。覆盖在大脑半球表面的一层灰质称
为大脑皮层,是神经元胞体集中的地方。这些神经元在皮层中的分布具有严格的
层次,大脑半球内侧面的古皮层分化较简单,一般只有三层 ,而在大脑半球外侧
面的新皮层则分化程度较高,共有六层。皮层的深面为白质,白质内还有灰质
核,这些核靠近脑底,称为基底核(或称基底神经节)。基底核中主要为纹状体。
纹状体由尾状核和豆状核组成。尾状核前端粗、尾端细,弯曲并环绕丘脑;豆状
核位于尾状核与丘脑的外侧,又分为苍白球与壳核。尾状核与壳核在种系发生
(即动物进化 )上出现较迟,称为新纹状体,而苍白球在种系发生上出现较早,
称为旧纹状体。纹状体的主要功能是使肌肉的运动协调,维持躯体一定的姿势。
左、右大脑半球由胼胝体相连。半球内的腔隙称为侧脑室,它们借室间孔与
第三脑室相通。每个半球有三个面,即膨隆的背外侧面,垂直的内侧面和凹凸不
平的底面。背外侧面与内侧面以上缘为界,背外侧面与底面以下缘为界。半球表
面凹凸不平,布满深浅不同的沟和裂,沟裂之间的隆起称为脑回。背外侧面的主
要沟裂有:中央沟从上缘近中点斜向前下方;大脑外侧裂起自半球底面,转至
外侧面由前下方斜向后上方;在半球的内侧面有顶枕裂从后上方斜向前下方;
距状裂由后部向前连顶枕裂,向后达枕极附近。这些沟裂将大脑半球分为五个
叶:即中央沟以前、外侧裂以上的额叶,外侧裂以下的颞叶、顶枕裂后方的枕
叶,外侧裂上方、中央沟与顶枕裂之间的顶叶,以及深藏在外侧裂里的脑岛。另
7
25. 文献综述
1.1.2 大脑的发育过程
大脑发育是一个极其复杂的过程,对小鼠不同发育时期的脑组织进行HE染
色及尼式染色的研究结果表明,小鼠的大脑发育大致经历了以下几个过程
[16]:
(1) 神经管形成阶段:胚胎7-9.5天。胚胎7.5天时,小鼠已经明显分化出了内、
中、外三胚层,外胚层增厚形成神经板,进而深陷形成神经沟,神经沟由4-5层
小而圆、排列紧密的细胞组成,为假复层柱状上皮,核分裂相普遍存在。胚胎9.5
天神经沟已开始闭合形成神经管,但前后神经孔仍可见。前端已开始形成五个脑
泡,但尚未完全形成。
(2) 脑泡形成-神经上皮阶段:胚胎9.5 -11.5天,端脑脑泡形成,此时脑泡壁较
薄,只有几层细胞,还属于神经上皮阶段,细胞小而圆,排列紧密,嗜碱性强。
胚胎11.5天时,小鼠已具备了完整的五个脑泡,即端脑、间脑、中脑、后脑和末
脑,端脑脑泡壁进一步增厚,细胞层数达 15-16 层,此时细胞仍处于未分化状
态,同时开始出现脉络丛。
(3) 神经元分化阶段:胚胎 11.5-17.5天,脑泡壁不断增厚,神经前体细胞继续
分化增殖,新产生的神经元开始发生迁移,并逐渐形成各种脑部结构。胚胎13.5
天,端脑位置向前,上部及两侧扩大,形成两个大脑半球,同时脑泡壁继续增
厚,细胞已达数十层,可清楚的分为室管膜层,外套层和边缘层。同时,两大脑
半球底壁增厚明显,形成纹状体原基,此时海马原基也已形成,可清楚的分为
9
30. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
动,并与突触可塑性、LTP及学习记忆机制等密切相关[41, 42]。
1.1.3.4 神经元诱向因子对大脑发育的调控
在神经系统的发育过程中,神经突起的生长需要多种因子的作用。其中神经
元与其靶细胞之间精确联系的形成是依靠多种细胞外的诱向因子介导实现的
[43]。神经轴突前端的生长锥表面存在多种诱向因子的受体,它们可特异地识别
环境中各种诱向因子,并向细胞内传递吸引或是排斥的信号 [44],从而调节生
长锥前端前伸和回缩力量的平衡,最终实现对轴突的生长方向以及轴突与特定
靶细胞的功能联系的调节作用。
已经发现的对神经轴突具有诱向作用的蛋白质基本属于四大家族:
ephrin、neuropilin、slit 和 netrin,这些已经发现的诱向因子又可分为两大类:一类
固着在细胞膜表面或胞外基质中,影响局部的神经纤维生长,例如
ephrin,MAG,NOGO 等;另一类则是分泌性分子,能扩散一定的距离并形成
浓度梯度从而发挥作用,如 netrin,slit 以及 semaphorin 家族的大多数成员以及
各种神经营养因子。
1.1.3.5 大脑发育调控中的重要信号通路
大脑是一个结构极其复杂的器官,从细胞水平看,神经干细胞增殖、分化形
成了丰富的的神经元类型以及不同的亚型;从网络水平看,不同的神经元细胞
发出的各种纤维有序的纵横交错,形成类型繁多的突触联系。这个精确而复杂的
神经信息传递网络的形成,需要各种信号通路的参与,它们识别大脑发育过程
中的各种信号分子,调节发育时期相关基因的特异性表达,在神经元数量的控
制、神经细胞特性的决定、细胞分化的时空控制和格局化等方面发挥了重要的作
10
31. 文献综述
用。
(1) Notch 信号通路
Notch信号通路由Notch、Delta配体和CSLDNA结合蛋白(在鼠中称为Rbpj)等
组成。Notch受体一旦被激活,就被 γ-分泌酶蛋白酶复合体所裂解,释放出一个
胞内区片断NICD,即Notch受体的活性部分,NICD转移进入细胞核,与保守
15
32. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
的DNA结合蛋白Rbpj转录调节蛋白结合形成一个复合物,这一复合物与靶基因
的相互作用可以抑制未分化的前体细胞向神经细胞的特异分化[45, 46]。
Notch 信号通路介导的“旁侧抑制”机制被认为是决定神经干细胞分化命运
的一个关键环节。在神经系统早期发育的邻近细胞中,主要表达 Delta配体的细
胞向神经元或神经胶质细胞方向分化,而其周围主要表达Notch受体的细胞则被
抑制分化为神经细胞,但仍保持进行各种分化的活性状态,从而形成了不同的
细胞系[47-49]。
研究表明, Notch信号不仅与神经元的分化有关,而且与神经轴突的延长及
复 杂 有 关 。 另 外 , Notch 通 路 与 神 经 管 发 育 的 关 系 也 已 经 得 到 了 研 究
[50-55]。Notch信号通路参与了神经系统发育中的信号转导通路调控,并与其他
转 录 因 子 形 成 复 杂 的 调 控 网 络 [56] 。 Notch 信 号 通 路 的 相 关 基 因 主 要 包 括
Notch1、Msi1、Numb、Psen1、Rbpj、Hes1、Sox1和Neurog2等。
(2) MAPK信号通路
有丝分裂原激活蛋白激酶 (MAPK)是一类丝 /苏氨酸蛋白激酶,是与细胞内
靶效应以及细胞增殖有关的关键酶。MAPK通路作为体内细胞两个重要通路--Ras
12
36. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
的重视,并且不断发展和成熟起来; 1991 年, Adams 等人从三种人脑组织的
cDNA文库中随机挑取609个克隆进行测序,得到一组人脑组织的EST[62];1992
年,科学家建立了EST数据库,用以收集所有的EST数据,后来作为GenBank中
的一个数据库; 1993年,Boguski和Schuler首次提出了构建以 EST为界标的人类
基因组转录图谱计划,科学家们提前进入对基因组的功能研究领域[63-66]。截止
到 2011 年 3 月份, NCBI 中 dbEST 已经收录了来自 1500 多个物种的 69,033,603 条
EST序列。
1.2.1.2 EST技术流程及分析思路
典型的真核生物 mRNA 分子是由 5’UTR(untranslationed region) 、 ORF (open
reading frame)、3’UTR和3’末端的polyA(20~200bp)尾巴四部分组成的。EST技术
就是根据mRNA的结构特点发展起来的,其基本流程如图1-4所示:首先从目标
样本中提取总 RNA ,分离得到 mRNA ,用 Oligo(dT) 或随机引物作为逆转录引
物,在逆转录酶的作用下进行反转录 PCR 合成 cDNA ,选择合适的载体构建
cDNA文库,然后在 cDNA文库中随机挑取克隆进行 5’或3’端测序,最终得到长
度为240-480bp的EST 序列,然后对所得EST 数据运用生物信息学方法及软件进
14
37. 文献综述
行注释和分析。
图 1-4 EST 技术基本流程
1.2.1.3 EST技术的应用
EST技术广泛应用于基因表达谱研究、基因图谱构建、选择性剪切识别、基因
识别、单核苷酸多态性 (SNP)研究、系统进化分析以及基因芯片技术等诸多方
面。EST的应用主要在以下几个领域:
(1)基因表达谱构建
基因表达谱是反映生物体在特定组织、器官或某一特定生理阶段细胞中所有
基因表达水平的图谱,可用来分析基因表达水平的差异情况。基因表达谱、差异
表达研究是 EST技术应用的主要方面。通过对特定组织或发育时期的非标准化
cDNA文库随机挑取克隆并进行大规模 EST测序,基本可明确该组织或该时期基
因表达及表达丰度等,从而能在整体基因组水平上研究其生物学特性及分子机
制。
(2)构建基因物理图谱
基因物理图谱是以已知的特异 DNA序列为标记、标记间距以物理距离碱基
对 表 示 的 染 色 体 图 谱 。 供 识 别 的 标 记 以 序 列 标 签 位 点 (Sequence–Tagged
21
40. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
1.2.2 DNA微阵列(基因芯片)
基因芯片又被称为DNA芯片、DNA微阵列或生物芯片,是由美国斯坦福大
学Brown小组建立的方法。基因芯片技术是将大量寡核苷酸或DNA密集排列于硅
片等固相支持物作为探针,与标记的样品分子进行杂交,然后通过检测每个探
针分子的杂交信号强度进而获取样品分子的数量和序列信息。基因芯片技术已广
泛应用于测序、表达谱分析、不同基因型细胞的表型分析以及基因诊断、药物设计
等领域[68]。
1.2.2.1 基因芯片的工作原理
基因芯片的测序原理与经典的核酸分子杂交方法一致,具体工作原理如图
1-5所示,在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧
光标记的核酸序列与基因芯片上对应位置的核酸探针产生互补匹配时,通过确
定荧光强度最强的探针位置,获得一组序列完全互补的探针序列,从而得到靶
核酸的序列。
图1-5 基因芯片的工作原理
1.2.2.2 基因芯片的技术流程
基因芯片主要技术流程包括:芯片的设计与制备,样品的制备与标记,杂
交反应,以及杂交信号的检测与分析(图1-6)[69]。
(1) 芯片的制备
16
41. 文献综述
目前芯片的载体以玻璃片或硅片为主,应用原位合成和微矩阵的方法将寡
核苷酸或cDNA作为探针按一定顺序排列在载体上。
(2) 样品的准备
从实验样本中获得的生物样品 (DNA 或 mRNA) 通常都不能直接与芯片反
应,需进行一定程度的PCR扩增。靶分子的标记主要有荧光标记、生物素标记和
放射性同位素标记等几种,目前最为常见的是荧光标记法。实验中先用荧光色素
Cy–3、Cy–5或生物素标记dNTPs,然后DNA聚合酶选择荧光标记的dNTP为底物
使引物延伸,这样新生成的DNA片段中就掺入了荧光分子。对于cDNA,一般是
在反转录过程中掺入荧光基因[70, 71]。
(3) 分子杂交
分子杂交是荧光标记的样品与芯片上的探针进行反应产生一系列信息的过
程。芯片杂交是固–液相杂交,待测样品经扩增、标记后,能够与芯片上的探针
阵列进行分子杂交,杂交条件因靶分子的类型不同而变化。杂交后芯片要洗涤除
去未杂交上的分子,靶分子与探针之间的杂交是芯片检测最关键一步。
(4) 信号检测与分析
携带荧光标记的分子结合在芯片特定的位置上,在激光的激发下,含荧光
标记的DNA片段发射荧光。样品与探针完全配对的杂交分子,产生荧光强度最
强的信号;不完全杂交的双链分子荧光信号较弱;不能杂交的则检测不到荧光
信号或只检测到芯片上原有的荧光信号。 荧光强度与样品中的靶分子含量有一
25
43. 文献综述
1.2.2.3 基因芯片技术的应用
基因芯片技术已广泛应用于基因表达分析、基因诊断、药物筛选、序列分析等
诸多领域,在农业、工业、食品和环境监测等方面也表现出极大的应用潜力。主要
应用如下:
(1) 基因表达水平的检测;
(2) 基因突变位点及多态性检测;
(3) DNA序列测定;
(4) 药物筛选;
(5) 寻找新基因[73-77]。
1.2.2.4 基因芯片的缺点
芯片技术在获取细胞内基因和蛋白质的表达谱信息上具有很大的优势,但
也存在许多技术问题,如:技术成本昂贵、方法复杂、分析范围较狭窄等。从技术
角度来说主要包括以下几个方面的不足:
(1) 可重复性差,假阳性/阴性比较多。
(2) 获取的信息比较纷杂,判断的标准不一。如何准确的获取有用的信息还
是难点。
(3) 必须结合其他的试验技术加以证明才能获得可靠的分析结果。
1.2.3 SAGE基因表达系列分析
27
44. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
基因表达系列分析 (Serial analysis of gene expression SAGE) 是 Velculescu 于
1995年首次提出的一种快速分析基因表达信息的技术。它可以在整体水平对细胞
或组织中的大量转录本同时进行定量分析。SAGE技术已成功应用于转录组研究
及不同样本间差异表达基因的鉴定。SAGE文库中包括大量能唯一代表基因转录
本序列的tag(~21bp),tag出现的频率反应了该tag所代表基因的表达丰度[7, 8]。
1.2.3.1 SAGE的理论基础
SAGE的理论基础主要有以下三个:
(1) 在一个转录体系内,每个转录本都可以用一个来自于转录本特定区域的
tag(~21bp)来表示。
(2) 将这些短 tag 连接成标签多聚体进行克隆测序,就可以得到对数以千计
的mRNA转录本,从而对它们进行批量分析。
(3) 各转录本的表达水平可以用tag出现的次数进行定量。
1.2.3.2 SAGE的技术流程
SAGE的技术流程如图1-7所示,主要分为三个阶段:
(1) SAGE 文库的构建:利用限制性内切酶 NlaIII( 锚定酶 )识别 CATG 位点的
18
45. 文献综述
特性在其3’端进行酶切,然后用链霉素包被的磁珠进行亲和纯化;将cDNA分为
A 和 B 两部分,分别连接接头 A 或接头 B ,每一种接头都含有 CATG 四碱基突出
端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);利用标签
酶BsmFI识别其位点 3’端下游的 14-17bp处的特性进行酶切,产生连有接头的短
cDNA片段;混合并连接两个短 cDNA 片段,构成双标签后,用引物 A和 B进行
PCR扩增;用锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4 DNA
连接酶连接成多聚体,选择合适的片段长度,克隆进载体。得到的克隆插入序列
由一系列的 20-22bp长的SAGE双标签组成,每两个双标签中间由 4bp的NlaIII酶
切位点分隔开。
(2) SAGE文库的测序:利用质粒载体上的通用引物,对插入片断进行单向
测序。SAGE要求质量高而且读长长的序列,以免单碱基测序错误而导致原有标
签有用信息的丢失进而产生一个并不存在的标签。
(3) 标 签 序 列 的 提 取 : 在 双 标 签 多 聚 体 序 列 中 定 位 NlaIII 酶 切 位 点 ( 即
CATG),然后提取CATG位点之间的20-22bp长的双标签序列,去除重复出现的
双标签序列,包括在反向互补方向上重复的双标签序列;截取每个双标签序列
最靠近两头末端的 10个碱基,即为标签序列;去除与接头序列相对应的标签 (即
TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、 、 、 四
C T G
29
47. 文献综述
图1-7 SAGE技术流程
(引自http://www.bgilt.com/UserFiles/Image/sage1.gif)
1.2.3.3 SAGE的优点和应用
SAGE是一项快捷、有效的基因表达研究技术,其优点主要表现在:能够发
现低丰度转录本、检测向上或向下调控的基因、测量表达的复合效应、鉴定新基因
等等。在技术方面,SAGE具有假阳性率低、可重复性强、实验周期相对较短、大
量数据可用于多重比较等诸多优点,非常适合比较不同发育状态或疾病状态的
生物基因表达。SAGE 技术广泛应用于定量比较正常与疾病状态下组织细胞的特
异基因表达、研究基因表达调控机制、寻找新基因等方面。此外,由于SAGE能够
同时最大限度的收集一种基因组的基因表达信息,利用基因的表达信息与基因
组图谱融合绘制的染色体表达图谱, 使基因表达与物理结构联系起来, 更利
于基因表达模式的研究。需要注意的是,SAGE必须和其它技术相互融合、互为
补充,才能最大可能地进行基因组基因表达的全面研究。
1.2.4大规模平行信号测序系统(MPSS)
大 规 模 平 行 测 序 技 术 (Massively Parallel Signature Sequencing, MPSS) 是
Brenner 等于 2000 年建立,由美国 Lynex 公司将其商品化的一种基因克隆新技
术,其核心技术分别由Mega Clone、MPSS和生物信息分析三部分组成,具有高
31
48. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
通量、高特异性和高敏感性。通过标签库的建立、微珠与标签的连接、酶切连接反
应和生物信息分析等步骤 , 获得基因表达序列(图1-8)。每一标签序列在样品中的
频率(拷贝数)就代表了与该标签序列对应的基因表达水平。所测定的基因表达水
平是以计算mRNA拷贝数为基础的,是一个数字表达系统。
MPSS与基因芯片技术相比较,具有下列优点:
(1) 可以避免在cDNA芯片技术中出现的高度同源序列的交叉杂交,保证基
因的高度特异性。
(2) MPSS的高分辨率使其可以检测很低表达水平的基因;
(3) MPSS技术检测基因不需要预先知道该基因的相关信息,可以应用于任
何生物体的基因表达检测。
总之,MPSS具有能测定表达水平较低、差异较小的基因,不必预先知道基
因的序列以及自动化和高通量等特点,是值得推广的技术[4, 78]。
图1-8 MPSS技术中微珠与标签的连接(左)、酶切连接反应(右)
(引自Reinartz等,2002)
20
49. 文献综述
1.2.5 上述各技术间的优缺点比较
上述各种技术的优缺点比较如表1-1所示:
(1) EST 测序在提供大量序列信息的同时也产生了大量的冗余序列,特别
是那些高表达的基因。虽然这些冗余序列可以通过均一化或消减的策略降低,但
是因为时间和费用方面的局限, EST 测序不是一个可行的寻找差异表达的方法
[62]。
(2) 芯片可以同时检测几千个基因的表达信息,但是不能给出芯片上包含的
有关该基因的任何信息,因此需要一些已知的信息。芯片存在的缺陷也是相当明
显的:首先是成本高昂的问题,一般实验室难以承担其高昂的费用;其次在芯
片实验技术上还有多个环节尚待提高,如在探针合成方面如何进一步提高合成
效率及芯片的集成程度以及样品制备的简单化与标准化[1, 75]。
(3) SAGE和 MPSS产生大量的序列数据,而且能够表现实际的不同转录本
的比例。但它们有共同的缺点,即所产生的短 tag(17-20bp)在进行数据处理的时
候遇到很多的问题。此外,MPSS的专利技术的费用也较昂贵。
表1-1 转录组学研究方法的优缺点比较
1.2.6 RNA-seq技术及其应用
与原核生物相比,真核生物的转录组非常复杂,其中有大量的重叠转录本、转
33
51. 文献综述
1.2.6.1 新一代测序技术发展概况
传统的DNA测序方法一直面临着测序流程复杂、测序时间长、成本高和通量
小 等 问 题 。 而 新 一 代 测 序 技 术 如 454 Life Sciences 公 司 开 发 的 454 测 序 系
统、 Illumina 公司开发的 Solexa 测序系统以及 Applied Biosystems 公司开发的 ABI
SOLiD测序系统等都用到了DNA分子高效扩增策略。这些高通量测序仪的共同特
点就是不需要大肠杆菌进行DNA模板扩增,且测序所得序列相对较短:其中测
序最长的454测序仪测序长度也仅为 200-300个碱基,其余三种序列都只有几十
个碱基。这些新测序平台已经被广泛应用于生物学研究的许多方面,测序原理及
序列长度的差异也决定了这四种测序仪在不同领域的应用。
1.2.6.2 SOLiD技术原理及技术流程
SOLiD 的技术原理是: SOLiD 使用连接法测序获得基于“双碱基编码原
理” 的SOLiD颜色编码序列,随后的数据分析将原始颜色序列与转换成颜色编
码的reference序列进行比较,把SOLiD颜色序列定位到reference上,同时校正测
序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。
35
52. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
(1) SOLiD基因组文库的构建
使用SOLiD测序时,可根据实际需要,制备片段文库或末端配对文库。制备
片段文库就是在短DNA片(60-110 bp)两端加上SOLiD接头(P1、P2 adapter);而制
备末端配对文库时,先在长片段 DNA(600bp 到 10kb) 两端连接 EcoP15I 酶切位
点,加入生物素标记的 internal 接头使该连接产物自我环化,然后用 EcoP15I 酶
切,并在酶切产物两端加 SOLiD接头,最后用亲和素磁珠特异吸附得到包含两
个25 bp末端及internal接头的目标DNA片段(~85bp)。两种文库的最终产物是两端
分别带有 P1 、 P2 adapter 的 DNA 双链,插入片段及 SOLiD 接头总长为 120-180
bp[79]。具体流程见图1-10。
图1-10 SOLiD文库构建示意图
(2) 油包水PCR
文库制备得到末端带P1、 adapter但内部插入序列不同的DNA双链模板。
P2 油
包水PCR的作用相当于传统的大肠杆菌系统,可以独立地扩增DNA模板。油包水
PCR通过形成数目庞大的独立PCR反应空间实现单条DNA模板的独立扩增。“油
24
54. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
图1-11 油包水PCR
(3) 含DNA模板的P1磁珠的固定
油包水PCR后将含DNA模板扩增产物的P1磁珠富集起来并进行变性处理,
从而得到含单链 DNA模板的P1磁珠,再对其进行末端修饰。最后把这些末端修
饰的含单链 DNA模板的P1磁珠通过共价键固定到 SOLiD玻片表面。这些均匀分
布在SOLiD玻片表面的磁珠是 SOLiD测序反应的最小单元 (图1-12)。SOLiD测序
反应在这些磁珠上并行进行,测序完成后,每个磁珠得到一条 SOLiD颜色编码
序列。每次连接反应后,SOLiD测序仪照相系统会记录SOLiD玻片上所有磁珠的
光
24
55. 文献综述
信号,测序完成后, SOLiD图像处理系统可以根据磁珠在玻片上的位置将照片
上光信号对应到每个磁珠,最终得到每个磁珠的颜色编码信息。
图1-12 SOLiD玻片及P1磁珠
(4) SOLiD双碱基编码原理及测序流程
SOLiD“双碱基编码原理”阐明了荧光探针的颜色类型与探针编码区碱基对
的对应关系。SOLiD连接反应底物是8碱基单链荧光探针。连接反应时,探针按照
碱基互补规则与单链DNA模板配对。如图1-13中的“底物探针”所示,探针5’末
端可分别标记“CY5,Texas Red,CY3,6-FAMTM”4种颜色的荧光染料,并用
数字“3,2,1,0”表示;探针3’端第1、2位构成的碱基对是表征探针染料类型
的编码区,“双碱基编码矩阵”规定了该编码区 16种碱基对和4种探针颜色的对
应关系,3~5位的“n”表示随机碱基,而 6~8位的“z”指的是可以和任何碱基
配对的特殊碱基,因此,SOLiD连接反应底物中共有45 种荧光探针。
图1-13 SOLiD 双碱基编码原理
SOLiD测序通常包括五轮测序反应。每轮测序反应从“连接引物”锚定反应
39
57. 文献综述
图1-14 SOLiD 原始颜色序列的产生
由于第二轮测序反应连接引物n-1起始位置比第一轮连接引物n前移一个碱
基,所以第二轮测序反应得到以模板链第 0,1位起始的7个碱基对的颜色信息。
五轮测序反应后,SOLiD图像处理系统自动将把对应于模板链第0、1位,第1、2
位......第34、 位的颜色信息顺次串联,得到由35个“0,1,2,3”组成的SOLiD
35
原始颜色序列。
41
58. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
表1-2 单张SOLiD玻片测序通量
有三种规格的SOLiD玻片:1-well,整张玻片没有分隔,可放一个样品; 4-well,玻片
被平均分成 4 个独立小室,能同时测序 4 个独立样品; 8-well ,玻片被平均分成 8 个独立小
室,能同时测序8个独立样品;而fragment文库有16种barcoding P2引物,所以一张玻片中最
多可以放8╳16个不同的fragment文库样品。
如表1-2 所示,片段文库和末端配对文库的测序长度不同。片段文库中每轮
引物锚定反应后有7个连接反应,所以整个 SOLiD测序过程包含35个连接反应,
最终得到由35个“0,1,2,4”组成的SOLiD原始颜色序列;而末端配对文库进
行正反向测序,一个测序方向每轮引物锚定后有 5个连接反应,则共有25个连接
反应,得到由25个由“0,1,2,4”组成的SOLiD原始颜色序列;但由于是双向
测序,一个磁珠得到两条序列,即2×25个由“0,1,2,4”组成SOLiD原始颜色
序列。
(5) 数据分析原理
SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上,按
照“双碱基编码矩阵”,只要知道所测 DNA序列中任何一个位置的碱基类型,
就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双
碱基与颜色信息的兼并特性(一种颜色对应 4种碱基对),前面碱基的颜色编码
28
59. 文献综述
直接影响紧跟其后碱基的解码,当测序错误时,错误的颜色编码将影响其后的
所有碱基的正确解码,引起“连锁解码错误”(图1-15.1)。
图1-15 SOLiD数据分析原理
为避免“连锁解码错误”的发生, SOLiD 数据分析软件不直接将 SOLiD 原
始颜色序列解码成碱基序列,而是依靠所测物种的 reference 碱基序列完成后续
分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转
换成颜色编码序列,然后比较 SOLiD 原始颜色序列和颜色编码的 reference 序
列,获得SOLiD原始颜色序列在reference序列上位置及两者的匹配度信息。颜色
编码的 reference 和 SOLiD 原始序列的不完全匹配主要有两种情况:“单颜色不
匹配” 和“两连续颜色不匹配”(图1-15)。由于SOLiD测序以对DNA模板中的每
个碱基所包含的颜色信息独立地检测了两次,并且 SNP位点将改变连续的两个
颜色编码(图1-15.2),所以SOLiD分析软件认为“单颜色不匹配”为测序错误并
对该测序错误进行自动校正;而“两连续颜色不匹配”可能是 SNP ,SOLiD 分
析软件将根据定位到该 reference 区域所有 SOLiD 原始颜色序列一致性及对应质
43
61. 材料与方法
第二章 材料与方法
2.1 实验材料
小鼠大脑分别取自一周、四周、十周的成年雄性BALB/c小鼠,购于北京维通
利华实验动物技术有限公司,符合SPF/VAF级别标准。
2.2 主要化学试剂
Trizol、10bp DNA Ladder、SYBR Gold Gel Stain、SuperScript II反转录酶试剂
购 于 Invitrogen , pUC18 DNA/Mspl 购 于 TIANGEN , DNAaseI(10U/μL) 购 于
NEB , Nuclease-free Water 购于 Ambion , pGEM-T 载体、 T4 连接酶、 One Shot
Top10 Competent Cell 购 于 Promega , 其 他 常 见 试 剂 如 乙 醇 (Ethanol) 、 异 丙 醇
(Isopropanol)、苯酚(Phenol)、氯仿(Chloroform)等均为国产分析纯试剂。
2.3 常用溶液和培养基
溶液1:50mM Tris-HCl,10mM EDTA,0.2mg/mL RNAase A
溶液2:0.2M NaOH,1%SDS (现用现配)
溶液3:3M KAc,pH5.2
糖原(Glycogen):5mg/mL, -20℃保存
45
62. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
IPTG(200mg/mL):水溶液,-20℃保存
TE缓冲液:10mM Tris-HCl,1mM EDTA,pH 8.0
X-gal:二甲基甲酰胺溶解配制成储存液,-20℃避光保存
10×TBE : 108g Tris , 56g 硼酸, 40mL 0.5M EDTA(pH 8.0) ,加水至 1L ,使用时
稀释至1 × TBE工作液
6% Nondenaturing PAGE(6mL) : 4.2mL Deionized water , 1.2mL 30%
Acrylamide,0.6mL 10×TBE,110mL 10% APS,10mL TEMED
液体(LB)培养基(1L):胰蛋白胨10g,酵母提取物5g,NaCl 10g,以1M NaOH调
pH至7.0
固体(LB)培养基(1L):液体LB培养基中加1.5%的琼脂糖
0.01M 磷酸盐缓冲液 (PBS) :称 7.9g NaCl, 0.2g KCl , 0.24g KH2PO4( 或者 1.44g
Na2HPO4) 和 1.8g K2HPO4 ,溶于 800 mL 蒸馏水中,用 HCl 调节溶液的 pH 值至
7.4,最后加蒸馏水定容至 1 L,保存于4℃冰箱中即可。需要注意的是,通常所
说的浓度0.01 M 指的是缓冲溶液中所有的磷酸根浓度,而非 Na离子或K离子的
浓度,Na 离子和K 离子只是用来调节渗透压的。
30
63. 材料与方法
2.4 试剂盒
RiboMinus Eukaryote Kit for RNA-Seq购于Invitrogen, SOLiD Whole Transcriptome
Analysis Kit(SOLiD Small RNA Expression Kit)、flash PAGE Reaction Clean-Up Kit
购 于 Ambion , Oligotex mRNA Mini Kit 、 MinElute PCR Purification Kit 购 于
QIAGEN。
2.5 实验方法
2.5.1 小鼠的处理和取样
采用颈椎脱臼法将小鼠处死,取其大脑组织,用 0.01M PBS 缓冲液清洗,
放入液氮中冻存,立即研磨或者-80℃保存备用。
2.5.2 转录组文库的构建
转 录 组 文 库 的 构 建 分 为 total RNA 提 取 、 ribosomal RNA 去 除 /mRNA 分
离、RNA打断、反转录以及PCR扩增几个步骤。rmRNA-Seq转录组文库构建流程见
图2.1。
2.5.2.1 总RNA提取
应用TRIZOL法提取总RNA,具体步骤如下:每0.1g研磨好的大脑组织加入
47
64. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
1mL TRIZOL试剂,混匀后颠倒混匀数下,室温静置 5分钟;按总体积的1/5加入
氯仿( 约0.2mL) ,颠倒混匀 15秒钟,室温静置 2-5 分钟;4℃ 13000rpm 离心 15分
钟,转上层水相(约400μL)于另一1.5mL EP 管中(可以重复用TRIZOL抽提一遍,
也 可以用氯仿单独抽提一遍 ) ,加入等体积异丙醇,混匀 -20℃ 静置约 30 分
钟, 4℃ 13000rpm 离心 15 分钟,弃上清;加入预冷的 75 %乙醇 ( 用 DEPC 水
配)1mL ,4℃ 13000rpm 离心5分钟,弃上清,重复 75%乙醇洗一次;空气干燥
5-10分钟(不能完全干燥,否则 RNA将会很难溶解 );最后溶于 Nuclease-free水中
至20μL (10μL-20μL);用琼脂糖电泳检测总 RNA的完整性,完整的RNA其28S亮
度 是 18S 的 2 倍 ; 检 测 其 OD 值 , 纯 RNA 样 品 的 OD260/OD280 值 为
1.7-2.0,OD260/OD230值大于2.0。
30
65. 材料与方法
图2-1 转录组文库构建流程图
2.5.2.2 核糖体RNA的去除(rmRNA-Seq)
细胞转录本中大部分的转录产物是核糖体 RNA( 约占 90% 以上 ) ,这对于转
录组研究来说是无用信息,因此首先采用探针结合的方法将其中的
18S、 、
28S 5.8S 和5S rRNA 去除。应用Invitrogen公司生产的试剂盒——RiboMinus
Eukaryote Kit for RNA-Seq去除总RNA中的核糖体RNA。具体实验步骤如下:
(1) 杂交步骤
先设置水浴 70-75°C 和 37°C ;取总 RNA~8μg(<20μL) ,连同 10μL RiboMinus
探 针 (15pmol/μL) 和 300μL 杂 交 液 加 入 到 RNase-free 的 1.5mL 的 离 心 管 中 , 在
70-75°C水浴中孵育5分钟使RNA变性;之后将样品放入37°C水浴使样品在30分
钟内慢慢冷却到37°C,使RNA和探针充分的接触和杂交,千万不能将样品直接
放到冷水中降温。在样品冷却的过程中,开始准备磁珠。
(2) 磁珠准备
充分涡旋,使磁珠悬浮起来、混匀;吸取 750μL 磁珠悬浮液加入到 RNase-
free 的 1.5mL 的离心管中,将离心管放在磁力架上 1 分钟,磁珠紧贴在离心管内
49
66. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
壁上,轻轻的吸走上清,弃掉;加入 750μL DEPC水,轻轻涡旋使磁珠悬浮,之
后放在磁力架上1分钟,吸走并弃掉上清,重复洗一遍磁珠;加入 750μL杂交液
使磁珠悬浮,并转移250μL磁珠到一个新的离心管中备用;将含有 500μL磁珠的
离心管放在磁力架上 1分钟,吸取并弃掉上清,加入 200μL杂交液使磁珠悬浮,
将离心管放在37°C水浴中孵育直到使用。
(3) 去除rRNA
30分钟后杂交样品冷却到 37°C,轻轻离心使样品都集中到离心管底部,转
移杂交样品 (~330μL) 到上述已经准备好的 200μL 磁珠中,轻轻涡旋使其充分混
匀,在37°C水浴中孵育15分钟,在孵育过程中,轻轻混匀几次;将离心管放在
磁力架上1分钟,吸取上清 ~530μL(注意千万不要丢弃上清,这里面才含有我们
想要的 RiboMinus RNA) ,同时将含有 250μL 磁珠的离心管放在磁力架上 1 分
钟,吸走并弃掉上清,加入从另一离心管中取出的 ~530μL上清,混匀后37°C孵
育15分钟,同样在孵育过程中轻轻混匀几次;将离心管放在磁力架上 2分钟,转
移上清(~530μL)至一新的离心管中。
(4) 乙醇沉淀法浓缩RiboMinus RNA
32
67. 材料与方法
转移 RiboMinus RNA 样品至一个新的 RNase-free 的2mL 离心管中,加入 4μL
糖元(5mg/mL)、1/10体积的(53μL)5M醋酸铵和2.5倍体积(1325μL)的无水乙醇,
充分混匀, -20°C 或者-80°C急冻至少30分钟;4°C >=12000g离心15分钟,弃上
清,加入 500μL 冷的 70% 乙醇, 4°C >=12000g 离心 5 分钟,弃上清,重复洗一
遍;风干沉淀~5分钟,~5-8μL Nuclease-free水溶解
(5) 检测RiboMinus RNA的质量
取 1μL 样 品检测 OD 及 rRNA 去除 效果 (Agilent 2100 bioanalyzer) ,在没有
Agilent 2100 bioanalyzer的情况下可以应用电泳检测,但应注意电泳检测的上样
量大于200ng时,才可以分辨rRNA去除效果。
2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库
具体实验步骤如下:
(1) RNase III 酶切RNA
将去除 rRNA 后的 (RiboMinus RNA) 样品 / 分离得到的 mRNA 样品 1μg(≤8μL)
加入1μL 酶切buffer和1μL RNase III,在PCR 仪上37°C 10 分钟。
(2) flashPAGE 电泳分离片段
51
68. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
打断完毕,取下后立即加入 10μL flashPAGE loading buffer (含有的变性剂
可使蛋白直接变性终止反应),混匀后 95°C 2min,变性后立即放置冰上;依照
说明清洗并连接好flashPAGE 电泳仪,依次加入250μL 下液,预制胶,300μL 上
32
69. 材料与方法
液,加入样品,接通电源, 75V电泳;当蓝色指示剂刚刚电泳出预制胶进入下
液时 (约 12 分钟),打开电泳仪,吸出下液到新的 2mL EP 管中,此时电泳液中
的 RNA 片段小于 50bp;清洗下槽,重新加入250μL 下液,继续电泳约45 分钟,
这时下液获取的是大于50bp的RNA片段。
(3) flashPAGE Reaction Clean-up Kit 回收RNA片段
回收后的下液依照 flashPAGE Reaction Clean-up Kit 步骤进行回收,注意如
果下液的体积大于230μL,提示预制胶有侧漏现象,此时获得的样品无法使用。
回收的产物通过冻干或空气干燥 (小于 40°C)浓缩到 3μL ,通常会获得 100-400ng
产物。
(4) 接头杂交及连接
冰上 0.2mL RCR 管中准备杂交混合液 (Mix) : 2μL 接头 Mix A , 3μL 杂交
液, 3μL RNA 片段化产物,共 8μL 体系。混匀,进行杂交反应: 65°C 10 分
钟,16°C 5 分钟;取出放置冰上立即进行以下步骤,依下面步骤加入连接反应
试剂:10μL连接缓冲液,2μL 连接酶Mix,混匀后16°C 连接16 小时。
(5) 逆转录及RNaseH 消化
53
70. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
逆转录反应体系如下: Nuclease-free Water 13μL ,10X RT Buffer 4 μL , 2.5
mM dNTP mix 2 μL,ArrayScript Reverse Transcriptase 1 μL。加入上述混好的Mix
到连接好接头的体系中, 42°C 30分钟合成cDNA;取合成好的一链产物10μL 进
行 RNaseH消化,剩余产物-80°C保存;在10μL 一链产物中加入1μL RNaseH 混
匀,37°C 30分钟。
(6) PCR 扩增
以上述50μL体系作为实验性PCR检测cDNA进行PCR的条件,条件允许的可
以进行大规模性扩增,每个样本保证进行 3个以上100μL的规模性PCR扩增以获
取足够量的DNA产物。50μL体系不能使用大于1μL的cDNA,否则会抑制PCR扩
增反应。 反应条件为:95°C 5min;95°C 30s,62°C 30S,72°C 30S,15-18个
PCR
循环;72°C 7min。循环数视50μL体系反应结果而定,在能达到所需量产物的情
况下,循环数越少越好。
(7) PCR 产物纯化
PCR 产物应用QIAGEN公司的MinElute PCR Purification Kit进行纯化。
(8) 6% PAGE 分离回收DNA 片段
34
71. 材料与方法
用 6% 的聚丙烯酰胺凝胶电泳分离上述纯化后的 PCR 产物,以 10bp DNA
ladder作为Marker,用SYBR Gold染料染~15分钟,切取约140–200bp大小的片段
(不要切取小于110bp的副产物);将PAGE胶切成胶粒,加入200μL PAGE Elution
Buffer到放有切好的胶粒的EP管中,常温振荡过夜,吸取buffer到新的EP管中。
再向胶粒中加入250μL的PAGE Elution Buffer,37℃放置两小时。
(9) 异丙醇沉淀DNA
合并上述两次的PAGE Elution Buffer,加入1/100体积的糖原和0.7倍体积的
异丙醇,混匀后室温静置 5min ,室温离心 13000g 20 分钟,弃上清,空气干
燥,10μLNuclease-free Water溶解,供后续实验使用。
2.5.2.4 文库检验
取少量的上述产物连接到 T 载体,电转到大肠杆菌感受态细胞中,涂板培
养,挑取白斑摇菌,提取质粒后做 ET测序反应,3730测序,对测序结果进行分
析,验证接头的添加效率和基本的rRNA片段污染程度,供后续实验参考。
2.5.2.5 SOLiD油包水PCR及上机测序
这部分实验由我所测序平台的专门实验人员完成,包括:油包水 PCR富集
55
73. 材料与方法
用如前介绍的 Trizol 方法提取小鼠 cerebrum 的总 RNA ,并用 DNAase I 处
理,防止基因组DNA 的污染。
(2) 反转成cDNA
分别用随机引物和 Oligo-dT 做反转,反转酶为 Invitrogen 公司的SuperScript
II。反转的体系和方法如下:
A: 随机引物反转:
在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好
的如下Mix加入其中,混匀,室温下(25 ℃)放置2分钟,加入1μL RT 酶,混匀,
室温下10分钟,接着42℃ 50分钟,最后70℃ 15分钟, -20℃保存备用或者立即
进行后续实验。
B: Oligo-dT 反转:
在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好
的如下Mix加入其中,混匀, 42 ℃ 2分钟,加入1μL RT酶,混匀,接着42℃ 50
57
74. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究
分钟,最后70℃ 15分钟,-20℃保存备用或者立即进行后续实验。
(3) PCR 条件
95°C 5分钟, 95°C 15秒, 60°C 15秒, 72°C 40秒,40个循环,最后72°C延伸
5分钟,4°C保存。
2.6 数据分析方法
2.6.1 SOLiD序列在基因组上的注释
SOLiD 序列的注释和分析流程如图2.2所示。首先,原始的数据过滤掉rRNA
序列后,将用于进一步的分析;将长度为 35bp的全长序列与小鼠全基因组数据
相比较,未比对到基因组上的35bp序列继续与可变剪接数据集相比对。对于没有
比对到基因组上的序列,我们认为是由于测序质量低导致的,而且从 SOLiD 测
序的特点来看,越测到最后质量就越低。因此为了最大限度地注释序列,把在这
一步骤上没有比对上的序列,将其最后 5个碱基去掉,用剩下的 30bp 的序列继
续同小鼠全基因组比对,同理,将 30bp 的没有比对上的序列继续截掉后 5 个碱
基,用剩下的25bp的序列与基因组序列比对。经过这三个步骤之后,所有被注释
36