论文初稿_徐玮
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
2,121
On Slideshare
2,121
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
33
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 分类号 密级 UDC 编号 中国科学院研究生院 博士学位论文基于第二代测序技术的生后小鼠大脑组织发育的转录组研 究及藓羽藻叶绿体基因组的测序分析和进化研究 徐玮指导教师 于军研究员 博士 胡松年研究员 博士 中国科学院北京基因组研究所
  • 2. 申请学位级别 理学博士 学科专业名称 生物信息学论文提交日期 2011 年 4 月 论文答辩日期 2011 年 4 月培养单位 中国科学院北京基因组研究所学位授予单位 中国科学院研究生院 答辩委员会主席 2
  • 3. The Transcriptome Dynamics of Mouse Cerebrum Development viaNew Generation Sequencing Technology And Evolution Research ofBryopsis hypnoides Chloroplast via Shot-gun Sequencing A Dissertation Submitted to the Degree Committee of Institute of Genomics, Chinese Academy of Sciences
  • 4. 目 录 By Wei XuSupervised by Professor Jun Yu and Professor Songnian Hu April 2011 4
  • 5. 独创性声明 本人声明所呈交的博士学位论文是本人在导师的指导下独立进行研究工作所取得的成果。除文中已经加以标注和致谢的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品/研究成果。对本论文研究做出重要贡献的其他个人和集体均已在论文中以明确方式标明并表示谢意。 学位论文作者签名: 日期: 论文版权使用授权书
  • 6. 目 录 本人授权中国科学院北京基因组研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文。 (保密论文在解密后适用本授权书。) 作者签名: 导师签名: 日期: 6
  • 7. 目 录 目 录第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组变化中文摘要 ............................................................................................................................. 1ABSTRACT ......................................................................................................................... 3引言....................................................................................................................................... 5第一章 文献综述 ............................................................................................................... 61.1 哺乳动物大脑发育的研究背景 ........................................................................................................... 61.1.1 大脑的结构及功能 ............................................................................................................................ 61.1.2 大脑的发育过程 ................................................................................................................................ 81.1.3 大脑发育的分子调控 ........................................................................................................................ 91.1.3.1 激素对大脑发育的调控 ................................................................................................................. 91.1.3.2 肿瘤发生相关基因对大脑发育的调控 ......................................................................................... 91.1.3.3 大脑发育过程中的神经营养因子假说 ....................................................................................... 101.1.3.4 神经元诱向因子对大脑发育的调控 ........................................................................................... 111.1.3.5 大脑发育调控中的重要信号通路 ............................................................................................... 111.2 转录组学的研究方法 ......................................................................................................................... 121.2.1 EST表达序列标签 ............................................................................................................................ 131.2.1.1 EST技术的形成和发展 ................................................................................................................. 131.2.1.2 EST技术流程及分析思路 ............................................................................................................. 141.2.1.3 EST技术的应用 ............................................................................................................................. 141.2.1.4 EST技术的不足 ............................................................................................................................. 151.2.2 DNA微阵列(基因芯片) ..................................................................................................................... 16 Ⅰ
  • 8. 目 录1.2.2.1 基因芯片的工作原理 ................................................................................................................... 161.2.2.2 基因芯片的技术流程 ................................................................................................................... 161.2.2.3 基因芯片技术的应用 ................................................................................................................... 181.2.2.4 基因芯片的缺点 ........................................................................................................................... 181.2.3 SAGE基因表达系列分析 ................................................................................................................ 181.2.3.1 SAGE的理论基础 ......................................................................................................................... 181.2.3.2 SAGE的技术流程 ......................................................................................................................... 19 2
  • 9. 目 录1.2.3.3 SAGE的优点和应用 ...................................................................................................................... 201.2.4 大规模平行信号测序系统(MPSS) ................................................................................................... 211.2.5 上述各技术间的优缺点比较 ........................................................................................................... 221.2.6 RNA-seq技术及其应用 ..................................................................................................................... 221.2.6.1 新一代测序技术发展概况 ............................................................................................................ 231.2.6.2 SOLiD技术原理及技术流程 ......................................................................................................... 231.2.6.3 SOLiD测序技术的应用 ................................................................................................................. 29第二章 材料与方法 .......................................................................................................... 302.1 实验材料 .............................................................................................................................................. 302.2 主要化学试剂 ...................................................................................................................................... 302.3 常用溶液和培养基 .............................................................................................................................. 302.4 试剂盒 .................................................................................................................................................. 312.5 实验方法 .............................................................................................................................................. 312.5.1 小鼠的处理和取样 ........................................................................................................................... 312.5.2 转录组文库的构建 ........................................................................................................................... 312.5.2.1 总RNA提取 ................................................................................................................................... 312.5.2.2 核糖体RNA的去除(rmRNA-Seq) ................................................................................................. 322.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 ............................................................. 332.5.2.4 文库检验 ........................................................................................................................................ 352.5.2.5 SOLiD油包水PCR及上机测序 ...................................................................................................... 352.5.3 RT-PCR ............................................................................................................................................ 352.6 数据分析方法 ...................................................................................................................................... 37 Ⅱ
  • 10. 目 录2.6.1 SOLiD序列在基因组上的注释 ........................................................................................................ 372.6.2 可变剪切分析 ................................................................................................................................... 382.6.3 基因表达谱分析 ............................................................................................................................... 392.6.4 差异表达基因的判断和功能分类 ................................................................................................... 392.6.5 内含子的表达分析 ........................................................................................................................... 392.6.6 基因间区的表达分析 ....................................................................................................................... 392.6.7 转录因子在三文库中表达情况的分析 ........................................................................................... 40第三章 结果 ...................................................................................................................... 41 2
  • 11. 目 录3.1 转录组文库的构建 .............................................................................................................................. 413.2 RNA-seq数据的性质 ............................................................................................................................ 423.2.1 测序数据的筛选 ............................................................................................................................... 423.2.2 测序数据的注释 ............................................................................................................................... 433.3 基因表达谱的分析 .............................................................................................................................. 443.3.1 三个文库中表达基因数量及种类的变化 ....................................................................................... 443.3.2 三个文库的基因表达谱分析 ........................................................................................................... 463.3.3 表达基因的功能分类 ....................................................................................................................... 483.4 基因内含子区域的表达分析 .............................................................................................................. 523.5 基因间区的表达分析 .......................................................................................................................... 543.6 基因可变剪切的分析 .......................................................................................................................... 543.7 差异表达基因的分析 .......................................................................................................................... 553.7.1 差异表达基因的数量及种类 ........................................................................................................... 553.7.2 差异表达基因的功能分类 ............................................................................................................... 563.7.3 差异表达基因的通路分析 ............................................................................................................... 573.7.3.1 差异表达基因在MAPK信号通路上的定位 ................................................................................ 583.7.3.2 差异表达基因在细胞骨架肌动蛋白的调节通路上的定位 ........................................................ 593.7.3.3 差异表达基因在轴突导向通路上的定位 .................................................................................... 603.8 转录因子的表达分析 .......................................................................................................................... 623.8.1 三个文库中转录因子的判断和丰度分布 ....................................................................................... 623.8.2 低表达转录因子的分析 ................................................................................................................... 633.8.3 高表达转录因子的分析 ................................................................................................................... 63 Ⅲ
  • 12. 目 录3.8.3.1 高表达转录因子的判断和分布 .................................................................................................... 633.8.3.2 高表达转录因子的功能分类 ........................................................................................................ 643.8.3.3 差异性高表达转录因子的分析 .................................................................................................... 64第四章 讨论及后续工作计划 .......................................................................................... 674.1 小鼠大脑转录组的特点 ....................................................................................................................... 674.2 小鼠大脑生后发育的特点 ................................................................................................................... 674.3 本文创新点 ........................................................................................................................................... 674.4 后续工作计划 ....................................................................................................................................... 68 2
  • 13. 目 录第二部分 藓羽藻的叶绿体基因组测序分析及其进化研究中文摘要 ............................................................................................................................ 69ABSTRACT ........................................................................................................................ 70引言 .................................................................................................................................... 72第一章 文献综述 .............................................................................................................. 731.1 绿藻门概述 .......................................................................................................................................... 731.2 藻类叶绿体基因组概况 ...................................................................................................................... 741.2.1 叶绿体基因组的结构特征 ............................................................................................................... 741.2.2 叶绿体基因组的起源 ....................................................................................................................... 751.2.3 叶绿体基因组的基因组成 ............................................................................................................... 761.2.4 叶绿体基因组在藻类系统发育研究中的应用 ............................................................................... 76第二章 材料与方法 .......................................................................................................... 782.1 实验材料 .............................................................................................................................................. 782.2 叶绿体DNA的提取和纯化 ................................................................................................................. 782.2.1 叶绿体的分离纯化 ........................................................................................................................... 782.2.2 叶绿体DNA的提取(高盐低PH法) ................................................................................................... 782.2.3 叶绿体DNA的纯化(CsCl密度梯度离心法) .................................................................................... 792.3 叶绿体基因组文库的构建 ................................................................................................................. 792.4 叶绿体基因组的测序及组装 ............................................................................................................. 802.5 序列分析 ............................................................................................................................................. 802.6 系统发育树的构建 ............................................................................................................................. 80第三章 结果 ..................................................................................................................... 82 IV
  • 14. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究3.1 叶绿体及其DNA的提取 .................................................................................................................... 823.2 叶绿体基因组文库的构建及测序拼接 ............................................................................................. 823.3 藓羽藻cpDNA的基因组特征 ............................................................................................................ 833.4 系统发育关系 ..................................................................................................................................... 87第四章 结论 ..................................................................................................................... 90参考文献 ........................................................................................................................... 91发表文章目录 ................................................................................................................. 100致谢 ................................................................................................................................. 101 1
  • 15. 摘 要第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录 组研究 摘 要 大脑又称端脑,由左右两半球组成,是控制运动、产生感觉及实现高级脑功能的高级神经中枢。但迄今为止,大脑发育的分子机制和调控机理尚未被完全阐明。本研究采用新一代测序技术 (SOLiD) 对小鼠大脑发育的三个代表性时期 ( 幼年期, 1 周龄;青春期, 4 周龄;成年期, 10 周龄 ) 进行转录组学研究,以全面了解在这三个关键时期大脑组织中基因的表达变化情况。 我们对小鼠三个时期大脑的转录组文库利用第二代测序仪 SOLiD 进行了RNA 水 平 上 的 Shot-gun 测 序 (RNA-seq) , 并 将 所 得 序 列 比 对 到 小 鼠 基 因 组上,然后利用 NCBI 的 Genbank 数据库对序列进行了注释。在三个样本中,我们分别得到了 11,929,828 、16,614,876 和 15,111,661 条序列专一比对到小鼠基因组上,其中 33 ~ 47% 的序列位于外显子区域, 28 ~ 34% 的序列位于内含子区域,其它序列则分布在基因间区。我们分别鉴定出 15,344 、16,048 和 15,775 个基因在幼年期、青春期和成年期小鼠大脑中表达。 我们采用 RPKM 值衡量基因表达丰度,对三个不同时期大脑基因表达谱进行了聚类分析,结果发现幼年期和青春期的小鼠大脑基因表达谱聚为一类。 1
  • 16. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究基因差异表达分析表明, 5,768 个基因在青春期小鼠大脑与幼年期小鼠大脑中存在显著差异表达,其中有 4,106 个基因表现为在青春期小鼠中表达丰度的上调;成年小鼠和青春期小鼠大脑之间差异表达基因个数为 6,787 个,其中有5,623 个基因表现为在成年期小鼠中表达丰度的下调。这表明在生后小鼠的大脑发育过程中,大脑组织中的基因总体上呈现出先扬后抑的趋势,青春期小鼠的大脑基因表达相对于其他两个时期最为活跃。这些差异表达的基因功能涉及能量代谢、信号转导和细胞凋亡等多方面,值得一提的是,这些差异表达的基因还包括了大量癌症和神经性疾病的相关基因,说明这些基因参与了生后小鼠大脑发育的调控过程。 我们共发现了 1,493 个转录因子在三个时期小鼠卵巢中表达,这其中既有已报道在大脑发育过程中起重要作用的转录因子,如: E2f 家族、 Pax6 、 2
  • 17. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究Six3 、Rax 、ISL-1 等,也有大量的在大脑发育过程中功能未知的转录因子。另外,我们在三个时期小鼠大脑组织中分别发现了 254 、304 、382 个低表达的转录因子( RPKM< 1 ),其中一些转录因子如 Neurog2 、Pax6 、Six3 等在小鼠大脑发育过程中发挥重要作用。这些低表达的转录因子较难被芯片方法检测到,它们的发现可以使我们更深入地了解小鼠大脑的发育模式。 我们研究了内含子区域与外显子的表达相关性,发现在幼年期、青春期和成年期的小鼠大脑组织中,分别有 2,079 、 2,520 和 4,061 个基因的内含子区域异常活跃的表达。 我们在三个时期的大脑发育过程中,共发现有 10,590 个基因具有可变剪切 形 式 。 另 外 , 在 基 因 间 区 中 一 共 鉴 定 出 了 23,266 个 具 有 转 录 活 性 的 位点, 70.8% 的位点 (16,477 个 ) 注释在基因的 UTR 区域, 20.7% 的位点( 4,806个)有转录本( EST )支持,另外有大约 0.9% 的位点( 216 个)注释为已知的ncRNA ,而剩下 7.6% 的转录活性位点( 1,767 个)以前没有被定义过。关键词: 大脑发育,基因表达谱,SOLiD,转录组 2
  • 18. Abstract Abstract Brain, which is also called cerebrum, consists of two hemispheres. It’s the seniornervous center controlling movements, producing feelings and realizing higher-levelbrain functions. The molecular mechanism and regulation mechanism of braindevelopment has not yet been fully expounded. In this study, to help assess theexpression changes of genes involved in postnatal brain development, we carried outa comparative study on mouse brain transcriptomes at three crucially developmentalstages (infant stage, 1weeks old; juvenile stage, 4 weeks old; adult stage, 10 weeksold) using the next-generation sequencing technology (SOLiD). Using SOLiD, we sequenced the transcriptomes at three developmental stages(RNA-seq), then aligned the obtained reads to the mouse genome and annotated genesusing the GenBank database on NCBI. We acquired 11,929,828, 16,614,876 and15,111,661 uniquely-mapped reads from infant, juvenile, and adult cerebrum samples,respectively. Of these uniquely-mapped reads, 33%-47% were mapped to exons,28%-34% were mapped to introns, and the others were mapped to intergenic regions.We identified 15,344, 16,048 and 15,775 expressed genes in the mouse cerebrum ofinfancy, juvenile and adult, respectively. We used RPKM value to normalize the gene expression abundance among thethree developmental stages. The gene expression profiles were clustered into twogroups, one contains infant and juvenile cerebrums, and the other contains adultcerebrum only. Through comparative analysis of gene expression profiles, we found 5,768expressed genes changed significantly between infant and juvenile cerebrums, whilethe number of that between juvenile and adult cerebrums was 6,787 . Compared toinfant cerebrum, 4,106 differentially expressed genes were up-regulated in juvenilecerebrum, while compared to juvenile cerebrum, 5,623 differentially expressed geneswere down-regulated in juvenile cerebrum. This phenomenon suggests that theabundance of cerebrum expressed genes during the three stages were up-regulated and 3
  • 19. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究then down-regulated. The gene expression was enhanced markedly during pubertycomparied to other stages. These differently expressed genes reflected a vastrepertoire of genes involved in energy metabolism, signal transduction, cell apoptosis,and so on. Remarkably, these differentially expressed genes also includes a largenumber of genes related to cancers and neurologic diseases, suggested these genesmay play a role in the postnatal development of mouse cerebrum. In our research, we found 1,493 transcription factors(Tfs) which involved in thedevelopment of mouse cerebrum, some of which are essential for cerebrumdevelopment such as E2f family, Pax6, Six3, Rax, ISL-1. The function of most Tfsduring cerebrum development are still unclear. In addition, we found 254, 304, 382Tfs with low expression abundance (RPKM<1) in the three samples, respectively,including some important genes for the postnatal development of mouse cerebrum(Neurog2 、 Pax6 、 Six3). These lowly expressed Tfs undetected by DNA microarraybefore may help us understand the cerebrum transcriptome deeply. We studied the correlation between introns and exons and identified 2,079,2,520 and 4,061 genes have intronic regions showing significant exprssion in threestages, respectively. Our recearches indetated that 10,590 genes have alternative transcripts in thethree samples totally. Moreover, we found 23,266 transciptional loci in the intergenicregion in all, 70.8% of which were annotated to the UTR extenstion region(16,477) ,20.7% of which were confirmed by EST, 0.9% of which were annotated as the knownncRNA, and other 7.6% (1,767) were identified as new transciptional loci.Keywords: Cerebrum development, Gene expression profile, SOLiD, 4
  • 20. 引 言 引 言 大脑又称端脑,是脊椎动物 脑的高级神经系统 的主要部分,具有控制和协调运动、感觉和高级心理运行等功能。大脑发育是一个极其复杂的过程,受多方面因素的调控。出生时的大脑具备了成年大脑的基本形态,但大脑皮层结构还不明显,神经元还未发育成熟。在大脑的生后发育过程中,大脑皮层结构的完善、神经元的成熟、突触的形成和连接等都是由多个基因调控的复杂的分子生物学过程。随着研究的深入,近年来发现了许多对大脑生后发育极其重要的基因,这些基因可以帮助我们更全面的了解大脑生后发育过程中重要基因的表达模式。传统的基因敲除模型的研究方法每次只能对有限的几个基因进行研究,不利于研究大脑生后发育的整个分子调控机制。 近年来,随着生物技术的不断进步,转录组学成为系统研究特定组织或细胞基因表达调控的重要手段。传统应用于转录组的研究方法主要有表达序列标签(EST)、DNA芯片(DNA Microarray)、基因表达系列分析(SAGE)和大规模平行信号测序系统(MPSS)。然而这些传统方法或多或少存在一些缺点,如EST方法实验周期较长信息量少,实验花费较多; DNA芯片背景信号多; SAGE 在短序列标签的测序方法上较为费时、费力,注释不准确[1-9]。随着新一代的大规模测序技术的发展 (主要是以 Solexa和SOLiD测序仪为代表 ),目前RNA shot-gun测序 (RNA-seq)的方法被成功地应用于转录组的研究。其特点是测序通量大、花费少,深度取样可以更加真实的反映生物体内转录组的情况。本研究中,我们成功地把RNA-seq 技术应用到对小鼠大脑生后发育的转录组研究上[10-15]。 5
  • 21. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 我们采用新一代测序技术SOLiD对幼年期、青春期和成年期小鼠大脑的转录组进行了研究,并对3个不同发育时期的小鼠大脑基因表达谱进行了比较分析,发现了一些对大脑发育起重要调控作用的基因及调控因子,此外我们还研究了非编码区在大脑生后发育不同时期的表达变化情况。这些结果让我们对大脑生后发育过程中基因的表达和调控有了新的认识,为进一步从分子水平上对大脑发育进行研究提供了理论基础。 4
  • 22. 文献综述 第一章 文献综述1.1 哺乳动物大脑发育的研究背景1.1.1 大脑的结构和功能 大脑又称端脑,是指占据颅腔的大部分的大而圆的脑组织,主要包括左右大脑半球,是脊椎动物在长期进化过程中发展起来的思维和意识的器官。 大脑半球主要包括灰质和白质两部分。覆盖在大脑半球表面的一层灰质称为大脑皮层,是神经元胞体集中的地方。这些神经元在皮层中的分布具有严格的层次,大脑半球内侧面的古皮层分化较简单,一般只有三层 ,而在大脑半球外侧面的新皮层则分化程度较高,共有六层。皮层的深面为白质,白质内还有灰质核,这些核靠近脑底,称为基底核(或称基底神经节)。基底核中主要为纹状体。纹状体由尾状核和豆状核组成。尾状核前端粗、尾端细,弯曲并环绕丘脑;豆状核位于尾状核与丘脑的外侧,又分为苍白球与壳核。尾状核与壳核在种系发生(即动物进化 )上出现较迟,称为新纹状体,而苍白球在种系发生上出现较早,称为旧纹状体。纹状体的主要功能是使肌肉的运动协调,维持躯体一定的姿势。 左、右大脑半球由胼胝体相连。半球内的腔隙称为侧脑室,它们借室间孔与第三脑室相通。每个半球有三个面,即膨隆的背外侧面,垂直的内侧面和凹凸不平的底面。背外侧面与内侧面以上缘为界,背外侧面与底面以下缘为界。半球表面凹凸不平,布满深浅不同的沟和裂,沟裂之间的隆起称为脑回。背外侧面的主要沟裂有:中央沟从上缘近中点斜向前下方;大脑外侧裂起自半球底面,转至外侧面由前下方斜向后上方;在半球的内侧面有顶枕裂从后上方斜向前下方;距状裂由后部向前连顶枕裂,向后达枕极附近。这些沟裂将大脑半球分为五个叶:即中央沟以前、外侧裂以上的额叶,外侧裂以下的颞叶、顶枕裂后方的枕叶,外侧裂上方、中央沟与顶枕裂之间的顶叶,以及深藏在外侧裂里的脑岛。另 7
  • 23. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究外,以中央沟为界,在中央沟与中央前沟之间为中央前回;中央沟与中央后沟之间为中央后回。大脑半球的构造见图 1-1。 图 1-1 大脑半球构造图 大脑是控制运动、产生感觉及实现高级脑功能的高级神经中枢,大脑的左、右两个半球又分别称为左、右脑。左脑与右脑形状相同,功能却大不一样。左脑司语言,也就是用语言来处理讯息,把进入脑内看到、听到、触到、嗅到及品尝到(左脑五感)的讯息转换成语言来传达,相当费时。左脑主要控制著知识、判断、思考等,和显意识有密切的关系;右脑是将收到的讯息以图像处理,瞬间即可处理完毕,因此能够把大量的资讯一并处理 (心算、速读等即为右脑处理资讯的表现方式) ,右脑控制着自律神经与宇宙波动共振等,和潜意识有关。一般情况下右脑的五感都受到左脑理性的控制与压抑,因此很难发挥即有的潜在本能。大脑的功能分区见图 1-2。 图 1-2 大脑皮层的功能分区 6
  • 24. 文献综述1.1.2 大脑的发育过程 大脑发育是一个极其复杂的过程,对小鼠不同发育时期的脑组织进行HE染色及尼式染色的研究结果表明,小鼠的大脑发育大致经历了以下几个过程[16]: (1) 神经管形成阶段:胚胎7-9.5天。胚胎7.5天时,小鼠已经明显分化出了内、中、外三胚层,外胚层增厚形成神经板,进而深陷形成神经沟,神经沟由4-5层小而圆、排列紧密的细胞组成,为假复层柱状上皮,核分裂相普遍存在。胚胎9.5天神经沟已开始闭合形成神经管,但前后神经孔仍可见。前端已开始形成五个脑泡,但尚未完全形成。 (2) 脑泡形成-神经上皮阶段:胚胎9.5 -11.5天,端脑脑泡形成,此时脑泡壁较薄,只有几层细胞,还属于神经上皮阶段,细胞小而圆,排列紧密,嗜碱性强。胚胎11.5天时,小鼠已具备了完整的五个脑泡,即端脑、间脑、中脑、后脑和末脑,端脑脑泡壁进一步增厚,细胞层数达 15-16 层,此时细胞仍处于未分化状态,同时开始出现脉络丛。 (3) 神经元分化阶段:胚胎 11.5-17.5天,脑泡壁不断增厚,神经前体细胞继续分化增殖,新产生的神经元开始发生迁移,并逐渐形成各种脑部结构。胚胎13.5天,端脑位置向前,上部及两侧扩大,形成两个大脑半球,同时脑泡壁继续增厚,细胞已达数十层,可清楚的分为室管膜层,外套层和边缘层。同时,两大脑半球底壁增厚明显,形成纹状体原基,此时海马原基也已形成,可清楚的分为 9
  • 25. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究三层。胚胎15.5天,端脑脑泡壁进一步增厚,神经细胞由外套层向边缘层迁移,形成原始大脑皮层 (新皮质),并且可分为三层,即颗粒上层、颗粒层及颗粒下层。在这一时期侧脑室脉络丛逐渐发达,可以看到一些血管及神经纤维,一些联合纤维如胼胝体等也开始发育,一些神经细胞中开始出现颗粒状的尼氏体。胚胎17.5天,脑泡壁进一步增厚,大脑皮质开始分层,此时可大致分为四层:分子层、椎体细胞层、颗粒细胞层和多形层,上矢状沟出现,纹状体进一步增大填充侧脑室。海马发育渐趋完善并且已发育出齿状回。此时大部分神经细胞内都含有尼氏体,呈条状或颗粒状。 (4) 神经元成熟阶段:胚胎后期至生后小鼠成年期。神经元逐渐发育成熟,末端突起形成突触,并联合形成突触连接。生后 1天的小鼠已具备了成年小鼠脑部的基本形态,各脑部结构位置基本确定,只是大脑皮层的六层结构的分化还不明显,小脑也未发育完善。海马的锥体细胞层,齿状回颗粒细胞层已形成,但整体细胞较集中。生后7天、 天至成年,大脑皮层以及海马各细胞层细胞数量逐渐 14增多但相对分散。1.1.3 大脑发育的分子调控1.1.3.1 激素对大脑发育的调控 甲状腺激素在哺乳动物的生长发育过程中发挥重要作用。生后大脑的发育主要是以器官的成熟为特征,轴突和树突的生长、突触和髓鞘的形成、神经元的迁移、特异种群细胞的分化等都发生在脑发育的晚期,这一过程受到甲状腺激素的调节。脑发育的后期,如果缺乏甲状腺激素,大脑皮层的树突生长和突触形成均减少;由于大脑皮层的细胞相距较近;呈堆积状态;因而使脑体积减小。出生后 8
  • 26. 文献综述10天时切除甲状腺的大鼠其视皮层的锥体细胞顶树突上的棘突数量明显减少。这可能就是甲低时智能障碍、学习和行为缺陷的主要原因[17]。研究表明,甲低对大鼠脑发育的影响与人类的呆小病非常相似。而且发现,如果在一个关键的“窗口期”及时补充甲状腺激素,甲低所致的脑组织病变大多可以恢复正常;如果错过这个“窗口期” 则治疗收效甚微,脑组织将发生不可逆的损伤。这个“窗口期”,人类为出生后3个月之前,大鼠为出生后2周之前[18]。 甲状腺激素主要是在细胞核内发挥作用,它与 TR结合,后者与另外一种核受体——维甲酸X受体(RXR)形成异源二聚体,这个异源二聚体作用于靶基因启动子的甲状腺激素反应元件,通过与共抑制因子、共激活因子等复合物的相互作用,在转录水平调节靶基因的表达。甲状腺激素调节脑发育的靶分子主要包括树突结构和突触形成相关基因、髓鞘形成的相关基因与蛋白质、细胞分化与迁移相关基因以及转录因子基因等。  雌激素可以调节突触可塑性以及学习和记忆等脑的高级功能,脑内雌激素的来源包括透过血脑屏障的循环雌激素以及脑局部合成的雌激素,即脑源性雌激素。脑源性雌激素具备神经递质/神经调质的部分功能性特征,有可能作为神经递质/神经调质在脑发育过程中发挥作用[19]。1.1.3.2 肿瘤发生相关基因对大脑发育的调控 许多肿瘤发生相关基因与大脑结构和功能的分化密切相关。研究显示,抑癌基因对神经干细胞的增殖分化有调控作用[20]。Erbb基因是一种原癌基因,在脑 11
  • 27. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究的神经元、少突胶质细胞和星形胶质细胞表达,通过编码甲状腺激素受体,参与甲状腺激素对脑发育的调控过程 [21-26];PTEN基因是人类发现的第一个具有脂质、蛋白质双重磷酸化酶功能的肿瘤抑制基因。近年来研究表明PTEN不仅在调控肿瘤发生发展中发挥作用,也通过其介导的信号网络广泛参与神经元的极性建立、增殖、迁徙、分化、凋亡及突触分化等[27-30],从而在调控脑发育和分化过程中起到重要作用;ndrg2基因为正常脑组织和多种肿瘤组织的差异表达基因,参与抑制肿瘤的发生和转移。ndrg2参与了应激反应和Alzheimer病等脑部疾病的发生发展,并与神经细胞的增殖分化有着一定联系 [31]; APC 全称为大肠腺瘤样息肉基因,是一种肿瘤抑制基因,在结肠癌等肿瘤中常存在截短突变, APC作为Wnt信号通路的负调控因子参与脑的发育 [32, 33];nov基因全称为肾母细胞瘤过度表达基因,是一种原癌基因,与神经系统的结构和功能分化有关; SIM2基因与肿瘤的发生发展密切相关,能够在转录水平上调节灭活致癌物质的关键代谢酶,研究表明, SIM2 基因对大脑发育和神经元分化有重要作用 [34, 35] ;Fetuin 是半胱氨酸蛋白酶抑制剂超家族 cystatin的一个分支,功能涉及到肿瘤的发生、发展,并与胚胎时期的大脑发育密切相关。1.1.3.3 大脑发育过程中的神经营养因子假说 在大脑发育过程中会产生大量的神经元细胞,而大脑发育成熟后只保留了 10
  • 28. 文献综述部分神经元细胞,其余大部分细胞发生了凋亡,目前认为,各种神经营养因子在这一过程中起了决定作用,神经元对数量有限的营养因子的竞争决定了细胞的存活或凋亡,这就是神经营养因子学说[36-38]。神经营养因子是脊椎动物神经系统发育及功能维持的重要调节因子,在神经系统发育过程中参与对神经元的生长、发育、分化、存活、凋亡和损伤后修复等的调节过程[39]。 目前已明确的神经营养因子有神经生长因子 (NGF)、脑源性神经营养因子(BDNF)、NT-3、NT-4/5、睫状神经营养因子(CNTF) 等,它们可以是靶器官来源的,也可以是局部产生的 (如胶质细胞 ),可以通过自分泌或旁分泌的方式发挥作用。这些神经营养因子分别通过与 trkA (NGF 受体 ) 、 trkB (BDNF 、 NT-4 受体)、trkC (NT-3受体)高亲和力受体, 或低亲和力受体p75LNGFR(共用受体)结合,从而激活一些信号途径,使bc1-2、 c1-XL、 b Mc1-1等抑制细胞凋亡基因上调表达或bax、 、 、 bak bad bc1-Xs等促进凋亡基因下调表达,从而调节发育过程中细胞的存活与凋亡[38, 40]。 脑源性神经营养因子(BDNF)是神经营养因子蛋白质家族的一员。它在脑中含量非常丰富,尤其在大脑皮质和海马部位。BDNF在神经元的生长、发育、分化、存活、凋亡等过程中发挥重要作用。近年来,大量研究证实,脑源性神经营养因子不仅具有长时程的营养调节功能,还能够急性调控神经元的突触传递活 13
  • 29. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究动,并与突触可塑性、LTP及学习记忆机制等密切相关[41, 42]。1.1.3.4 神经元诱向因子对大脑发育的调控 在神经系统的发育过程中,神经突起的生长需要多种因子的作用。其中神经元与其靶细胞之间精确联系的形成是依靠多种细胞外的诱向因子介导实现的[43]。神经轴突前端的生长锥表面存在多种诱向因子的受体,它们可特异地识别环境中各种诱向因子,并向细胞内传递吸引或是排斥的信号 [44],从而调节生长锥前端前伸和回缩力量的平衡,最终实现对轴突的生长方向以及轴突与特定靶细胞的功能联系的调节作用。 已经发现的对神经轴突具有诱向作用的蛋白质基本属于四大家族:ephrin、neuropilin、slit 和 netrin,这些已经发现的诱向因子又可分为两大类:一类固着在细胞膜表面或胞外基质中,影响局部的神经纤维生长,例如ephrin,MAG,NOGO 等;另一类则是分泌性分子,能扩散一定的距离并形成浓度梯度从而发挥作用,如 netrin,slit 以及 semaphorin 家族的大多数成员以及各种神经营养因子。1.1.3.5 大脑发育调控中的重要信号通路 大脑是一个结构极其复杂的器官,从细胞水平看,神经干细胞增殖、分化形成了丰富的的神经元类型以及不同的亚型;从网络水平看,不同的神经元细胞发出的各种纤维有序的纵横交错,形成类型繁多的突触联系。这个精确而复杂的神经信息传递网络的形成,需要各种信号通路的参与,它们识别大脑发育过程中的各种信号分子,调节发育时期相关基因的特异性表达,在神经元数量的控制、神经细胞特性的决定、细胞分化的时空控制和格局化等方面发挥了重要的作 10
  • 30. 文献综述用。 (1) Notch 信号通路 Notch信号通路由Notch、Delta配体和CSLDNA结合蛋白(在鼠中称为Rbpj)等组成。Notch受体一旦被激活,就被 γ-分泌酶蛋白酶复合体所裂解,释放出一个胞内区片断NICD,即Notch受体的活性部分,NICD转移进入细胞核,与保守 15
  • 31. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究的DNA结合蛋白Rbpj转录调节蛋白结合形成一个复合物,这一复合物与靶基因的相互作用可以抑制未分化的前体细胞向神经细胞的特异分化[45, 46]。 Notch 信号通路介导的“旁侧抑制”机制被认为是决定神经干细胞分化命运的一个关键环节。在神经系统早期发育的邻近细胞中,主要表达 Delta配体的细胞向神经元或神经胶质细胞方向分化,而其周围主要表达Notch受体的细胞则被抑制分化为神经细胞,但仍保持进行各种分化的活性状态,从而形成了不同的细胞系[47-49]。 研究表明, Notch信号不仅与神经元的分化有关,而且与神经轴突的延长及复 杂 有 关 。 另 外 , Notch 通 路 与 神 经 管 发 育 的 关 系 也 已 经 得 到 了 研 究[50-55]。Notch信号通路参与了神经系统发育中的信号转导通路调控,并与其他转 录 因 子 形 成 复 杂 的 调 控 网 络 [56] 。 Notch 信 号 通 路 的 相 关 基 因 主 要 包 括Notch1、Msi1、Numb、Psen1、Rbpj、Hes1、Sox1和Neurog2等。 (2) MAPK信号通路 有丝分裂原激活蛋白激酶 (MAPK)是一类丝 /苏氨酸蛋白激酶,是与细胞内靶效应以及细胞增殖有关的关键酶。MAPK通路作为体内细胞两个重要通路--Ras 12
  • 32. 文献综述通路(引起细胞增殖)和Jak-STAT通路(产生各种细胞效应的独立信号级联)的交汇点,在胞外到细胞核内的细胞信号传导过程中起着至关重要的作用[57]。该通路参与了细胞生长、发育、增殖、分化、死亡及细胞间的功能同步等多种生理过程,并在细胞恶性转化等病理过程中发挥重要作用。 MAPK 级联途径主要包括Ras/ERK( 细 胞 外 信 号 调 节 激 酶 ) 、 JNK/SAPK( 应 急 激 活 的 c-jun NH2 终 端 激酶 ) 、 P38MAPK/HOG-l 和 ERK5( 大 丝 裂 素 蛋 白 活 化 激 酶 , BMK1) 四 条 途 径[58-60]。 (3) Wnt-catenin信号通路 Wnt-catenin信号通路是调控细胞增殖分化的关键环节,它广泛参与了细胞增殖、细胞命运特化、细胞极性及细胞迁移等的调控过程,在胚胎发育和肿瘤发生过程中发挥重要作用。Wnt-catenin信号通路广泛参与了生后大鼠大脑皮层的发育及功能活动,主要体现在对神经前体细胞增殖分化、神经系统的模式发生以及神经元突起形成的调控作用 [61]。此外, Wnst基因在神经管和神经嵴细胞的增殖、凋亡以及命运决定的调控过程中也扮演了重要角色。1.2 转录组学的研究方法 转录组是指由基因组DNA转录的mRNA总和,也称为表达谱。目前研究转录组学的主要方法是利用DNA芯片技术检测有机体中的表达谱,进而研究细胞的 17
  • 33. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究表型和功能。传统被广泛应用于表达谱研究的技术包括以下几种:表达序列标签(EST)测序、微阵列分析(DNA Microarray)、大规模平行信号测序系统(MPSS)和基因表达连续分析(SAGE)。这些技术可以分为两类,一类通过杂交信号的相对强度来估计表达强度,如 RNA印迹和微阵列;另一类则基于对样本中每个 RNA分子的计数来完成,如EST、SAGE和MPSS。近几年,随着测序技术的发展,应用新一代测序仪为主的RNA-Seq技术成为人们研究转录组的主要方法。1.2.1 EST表达序列标签 表达序列标签( Expressed sequence tags EST )是把 mRNA 反转录得到的cDNA克隆到载体构建成cDNA文库后, 随机挑选cDNA克隆,对其5’或3’端进行单向测序后获得的 cDNA 部分序列 ( 原理如图 1-3 所示 ) 。 EST 的平均长度为240-480bp,它来源于特定环境下特定组织的总 mRNA,因此可以根据每个基因在相应组织中出现的相对数量来说明该组织中的基因表达水平。 图1-3 EST测序原理1.2.1.1 EST技术的形成和发展 早在 1983年, Costanzo 等人便提出了表达序列标签概念的雏形,并对肝脏 12
  • 34. 文献综述的cDNA文库进行了随机测序,证实所测到的序列可以用于研究 DNA序列与基因功能之间的关系; 1989年,人类基因组计划启动之后, EST 技术开始引起科学家们 19
  • 35. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究的重视,并且不断发展和成熟起来; 1991 年, Adams 等人从三种人脑组织的cDNA文库中随机挑取609个克隆进行测序,得到一组人脑组织的EST[62];1992年,科学家建立了EST数据库,用以收集所有的EST数据,后来作为GenBank中的一个数据库; 1993年,Boguski和Schuler首次提出了构建以 EST为界标的人类基因组转录图谱计划,科学家们提前进入对基因组的功能研究领域[63-66]。截止到 2011 年 3 月份, NCBI 中 dbEST 已经收录了来自 1500 多个物种的 69,033,603 条EST序列。1.2.1.2 EST技术流程及分析思路 典型的真核生物 mRNA 分子是由 5’UTR(untranslationed region) 、 ORF (openreading frame)、3’UTR和3’末端的polyA(20~200bp)尾巴四部分组成的。EST技术就是根据mRNA的结构特点发展起来的,其基本流程如图1-4所示:首先从目标样本中提取总 RNA ,分离得到 mRNA ,用 Oligo(dT) 或随机引物作为逆转录引物,在逆转录酶的作用下进行反转录 PCR 合成 cDNA ,选择合适的载体构建cDNA文库,然后在 cDNA文库中随机挑取克隆进行 5’或3’端测序,最终得到长度为240-480bp的EST 序列,然后对所得EST 数据运用生物信息学方法及软件进 14
  • 36. 文献综述行注释和分析。 图 1-4 EST 技术基本流程1.2.1.3 EST技术的应用 EST技术广泛应用于基因表达谱研究、基因图谱构建、选择性剪切识别、基因识别、单核苷酸多态性 (SNP)研究、系统进化分析以及基因芯片技术等诸多方面。EST的应用主要在以下几个领域: (1)基因表达谱构建 基因表达谱是反映生物体在特定组织、器官或某一特定生理阶段细胞中所有基因表达水平的图谱,可用来分析基因表达水平的差异情况。基因表达谱、差异表达研究是 EST技术应用的主要方面。通过对特定组织或发育时期的非标准化cDNA文库随机挑取克隆并进行大规模 EST测序,基本可明确该组织或该时期基因表达及表达丰度等,从而能在整体基因组水平上研究其生物学特性及分子机制。 (2)构建基因物理图谱 基因物理图谱是以已知的特异 DNA序列为标记、标记间距以物理距离碱基对 表 示 的 染 色 体 图 谱 。 供 识 别 的 标 记 以 序 列 标 签 位 点 (Sequence–Tagged 21
  • 37. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究Sites,STS)最为常用,因此物理图谱通常又称为STS图谱。STS是基因组中唯一存在的、长度在200-300bp之间的特异性序列,来源于基因组中的单拷贝序列、基因表达序列或者遗传标记序列。1994年Kurata用水稻愈伤组织的883条EST构建了第一张植物基因表达图谱,这张图谱包含了 1383个DNA标记,包括883个cDNA片段标记、265个染色体DNA标记、147个PAPD标记及88个其它DNA片段标记[67]。 (3)选择性剪切识别 选择性剪切(alternative splicing,AS)是指从同一个mRNA前体中通过不同剪切方式产生不同 mRNA剪切异构体的过程,这些异构体相应的蛋白产物会表现出不同功能。选择性剪切在高等哺乳动物中普遍存在,其最直接的结果是改变基因的转录产物,并可能由此改变所编码蛋白的功能。运用EST序列或mRNA序列与基因组序列进行联配是发现选择性剪切的常用方法。1.2.1.4 EST技术的不足 EST的不足主要表现在以下几个方面: (1) EST序列很短,没有给出完整的表达序列。 (2) 不易获得低丰度的表达基因。 14
  • 38. 文献综述(3) 出错率较高,可达2%–5%;(4) 有时会出现载体序列和核外mRNA的污染或基因组DNA的污染;(5) 有时出现镶嵌克隆;(6) 序列的高冗余度,使得需要处理的数据量很大。 23
  • 39. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究1.2.2 DNA微阵列(基因芯片) 基因芯片又被称为DNA芯片、DNA微阵列或生物芯片,是由美国斯坦福大学Brown小组建立的方法。基因芯片技术是将大量寡核苷酸或DNA密集排列于硅片等固相支持物作为探针,与标记的样品分子进行杂交,然后通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。基因芯片技术已广泛应用于测序、表达谱分析、不同基因型细胞的表型分析以及基因诊断、药物设计等领域[68]。1.2.2.1 基因芯片的工作原理 基因芯片的测序原理与经典的核酸分子杂交方法一致,具体工作原理如图1-5所示,在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧光标记的核酸序列与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列,从而得到靶核酸的序列。 图1-5 基因芯片的工作原理1.2.2.2 基因芯片的技术流程 基因芯片主要技术流程包括:芯片的设计与制备,样品的制备与标记,杂交反应,以及杂交信号的检测与分析(图1-6)[69]。 (1) 芯片的制备 16
  • 40. 文献综述 目前芯片的载体以玻璃片或硅片为主,应用原位合成和微矩阵的方法将寡核苷酸或cDNA作为探针按一定顺序排列在载体上。 (2) 样品的准备 从实验样本中获得的生物样品 (DNA 或 mRNA) 通常都不能直接与芯片反应,需进行一定程度的PCR扩增。靶分子的标记主要有荧光标记、生物素标记和放射性同位素标记等几种,目前最为常见的是荧光标记法。实验中先用荧光色素Cy–3、Cy–5或生物素标记dNTPs,然后DNA聚合酶选择荧光标记的dNTP为底物使引物延伸,这样新生成的DNA片段中就掺入了荧光分子。对于cDNA,一般是在反转录过程中掺入荧光基因[70, 71]。 (3) 分子杂交 分子杂交是荧光标记的样品与芯片上的探针进行反应产生一系列信息的过程。芯片杂交是固–液相杂交,待测样品经扩增、标记后,能够与芯片上的探针阵列进行分子杂交,杂交条件因靶分子的类型不同而变化。杂交后芯片要洗涤除去未杂交上的分子,靶分子与探针之间的杂交是芯片检测最关键一步。 (4) 信号检测与分析 携带荧光标记的分子结合在芯片特定的位置上,在激光的激发下,含荧光标记的DNA片段发射荧光。样品与探针完全配对的杂交分子,产生荧光强度最强的信号;不完全杂交的双链分子荧光信号较弱;不能杂交的则检测不到荧光信号或只检测到芯片上原有的荧光信号。 荧光强度与样品中的靶分子含量有一 25
  • 41. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究定的线性关系。 杂交反应后的芯片上各个反应点的荧光强弱用荧光共聚焦显微镜、激光扫描仪或落射显微镜等进行检测,由计算机记录下来,然后通过专业的软件进行定量分析和处理[72]。 图1-6 基因芯片技术流程 16
  • 42. 文献综述1.2.2.3 基因芯片技术的应用 基因芯片技术已广泛应用于基因表达分析、基因诊断、药物筛选、序列分析等诸多领域,在农业、工业、食品和环境监测等方面也表现出极大的应用潜力。主要应用如下: (1) 基因表达水平的检测; (2) 基因突变位点及多态性检测; (3) DNA序列测定; (4) 药物筛选; (5) 寻找新基因[73-77]。1.2.2.4 基因芯片的缺点 芯片技术在获取细胞内基因和蛋白质的表达谱信息上具有很大的优势,但也存在许多技术问题,如:技术成本昂贵、方法复杂、分析范围较狭窄等。从技术角度来说主要包括以下几个方面的不足: (1) 可重复性差,假阳性/阴性比较多。 (2) 获取的信息比较纷杂,判断的标准不一。如何准确的获取有用的信息还是难点。 (3) 必须结合其他的试验技术加以证明才能获得可靠的分析结果。1.2.3 SAGE基因表达系列分析 27
  • 43. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 基因表达系列分析 (Serial analysis of gene expression SAGE) 是 Velculescu 于1995年首次提出的一种快速分析基因表达信息的技术。它可以在整体水平对细胞或组织中的大量转录本同时进行定量分析。SAGE技术已成功应用于转录组研究及不同样本间差异表达基因的鉴定。SAGE文库中包括大量能唯一代表基因转录本序列的tag(~21bp),tag出现的频率反应了该tag所代表基因的表达丰度[7, 8]。1.2.3.1 SAGE的理论基础 SAGE的理论基础主要有以下三个: (1) 在一个转录体系内,每个转录本都可以用一个来自于转录本特定区域的tag(~21bp)来表示。 (2) 将这些短 tag 连接成标签多聚体进行克隆测序,就可以得到对数以千计的mRNA转录本,从而对它们进行批量分析。 (3) 各转录本的表达水平可以用tag出现的次数进行定量。1.2.3.2 SAGE的技术流程 SAGE的技术流程如图1-7所示,主要分为三个阶段: (1) SAGE 文库的构建:利用限制性内切酶 NlaIII( 锚定酶 )识别 CATG 位点的 18
  • 44. 文献综述特性在其3’端进行酶切,然后用链霉素包被的磁珠进行亲和纯化;将cDNA分为A 和 B 两部分,分别连接接头 A 或接头 B ,每一种接头都含有 CATG 四碱基突出端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);利用标签酶BsmFI识别其位点 3’端下游的 14-17bp处的特性进行酶切,产生连有接头的短cDNA片段;混合并连接两个短 cDNA 片段,构成双标签后,用引物 A和 B进行PCR扩增;用锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4 DNA连接酶连接成多聚体,选择合适的片段长度,克隆进载体。得到的克隆插入序列由一系列的 20-22bp长的SAGE双标签组成,每两个双标签中间由 4bp的NlaIII酶切位点分隔开。 (2) SAGE文库的测序:利用质粒载体上的通用引物,对插入片断进行单向测序。SAGE要求质量高而且读长长的序列,以免单碱基测序错误而导致原有标签有用信息的丢失进而产生一个并不存在的标签。 (3) 标 签 序 列 的 提 取 : 在 双 标 签 多 聚 体 序 列 中 定 位 NlaIII 酶 切 位 点 ( 即CATG),然后提取CATG位点之间的20-22bp长的双标签序列,去除重复出现的双标签序列,包括在反向互补方向上重复的双标签序列;截取每个双标签序列最靠近两头末端的 10个碱基,即为标签序列;去除与接头序列相对应的标签 (即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、 、 、 四 C T G 29
  • 45. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究种碱基以外的碱基 )的标签;最后计算每个标签的出现次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。标签序列的提取工作可以由SAGEnet提供的SAGE提取软件包来完成,也可以使用 NCBI提供的UNIX操作系统和C程序来完成。 18
  • 46. 文献综述 图1-7 SAGE技术流程 (引自http://www.bgilt.com/UserFiles/Image/sage1.gif)1.2.3.3 SAGE的优点和应用 SAGE是一项快捷、有效的基因表达研究技术,其优点主要表现在:能够发现低丰度转录本、检测向上或向下调控的基因、测量表达的复合效应、鉴定新基因等等。在技术方面,SAGE具有假阳性率低、可重复性强、实验周期相对较短、大量数据可用于多重比较等诸多优点,非常适合比较不同发育状态或疾病状态的生物基因表达。SAGE 技术广泛应用于定量比较正常与疾病状态下组织细胞的特异基因表达、研究基因表达调控机制、寻找新基因等方面。此外,由于SAGE能够同时最大限度的收集一种基因组的基因表达信息,利用基因的表达信息与基因组图谱融合绘制的染色体表达图谱, 使基因表达与物理结构联系起来, 更利于基因表达模式的研究。需要注意的是,SAGE必须和其它技术相互融合、互为补充,才能最大可能地进行基因组基因表达的全面研究。1.2.4大规模平行信号测序系统(MPSS) 大 规 模 平 行 测 序 技 术 (Massively Parallel Signature Sequencing, MPSS) 是Brenner 等于 2000 年建立,由美国 Lynex 公司将其商品化的一种基因克隆新技术,其核心技术分别由Mega Clone、MPSS和生物信息分析三部分组成,具有高 31
  • 47. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究通量、高特异性和高敏感性。通过标签库的建立、微珠与标签的连接、酶切连接反应和生物信息分析等步骤 , 获得基因表达序列(图1-8)。每一标签序列在样品中的频率(拷贝数)就代表了与该标签序列对应的基因表达水平。所测定的基因表达水平是以计算mRNA拷贝数为基础的,是一个数字表达系统。 MPSS与基因芯片技术相比较,具有下列优点: (1) 可以避免在cDNA芯片技术中出现的高度同源序列的交叉杂交,保证基因的高度特异性。 (2) MPSS的高分辨率使其可以检测很低表达水平的基因; (3) MPSS技术检测基因不需要预先知道该基因的相关信息,可以应用于任何生物体的基因表达检测。 总之,MPSS具有能测定表达水平较低、差异较小的基因,不必预先知道基因的序列以及自动化和高通量等特点,是值得推广的技术[4, 78]。 图1-8 MPSS技术中微珠与标签的连接(左)、酶切连接反应(右) (引自Reinartz等,2002) 20
  • 48. 文献综述1.2.5 上述各技术间的优缺点比较 上述各种技术的优缺点比较如表1-1所示: (1) EST 测序在提供大量序列信息的同时也产生了大量的冗余序列,特别是那些高表达的基因。虽然这些冗余序列可以通过均一化或消减的策略降低,但是因为时间和费用方面的局限, EST 测序不是一个可行的寻找差异表达的方法[62]。 (2) 芯片可以同时检测几千个基因的表达信息,但是不能给出芯片上包含的有关该基因的任何信息,因此需要一些已知的信息。芯片存在的缺陷也是相当明显的:首先是成本高昂的问题,一般实验室难以承担其高昂的费用;其次在芯片实验技术上还有多个环节尚待提高,如在探针合成方面如何进一步提高合成效率及芯片的集成程度以及样品制备的简单化与标准化[1, 75]。 (3) SAGE和 MPSS产生大量的序列数据,而且能够表现实际的不同转录本的比例。但它们有共同的缺点,即所产生的短 tag(17-20bp)在进行数据处理的时候遇到很多的问题。此外,MPSS的专利技术的费用也较昂贵。 表1-1 转录组学研究方法的优缺点比较1.2.6 RNA-seq技术及其应用 与原核生物相比,真核生物的转录组非常复杂,其中有大量的重叠转录本、转 33
  • 49. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究录的基因间区序列和大量的非编码 RNA。过去十几年的研究使我们对这种复杂性有了更加深刻的认识和理解,也因此产生和发展了一系列相关技术,如EST、芯片技术、SAGE、MPSS 等。近几年随着测序技术的发展,应用新一代测序仪为主的RNA–seq技术成为研究转录组的新方法。RNA-seq 利用大规模测序技术直接对 cDNA 序列进行测序,产生数以千万计的 reads数量,从而使得一段特殊的基因组区域的转录水平可以直接通过比对到该基因组区域的 reads数来衡量。与以往的研究方法相比, RNA-seq技术的最大特点就是它的数据高通量,产生海量的转录数据,其中包括大量之前的方法所检测不到的、表达丰度非常低的转录本信息,从而使我们能够尽可能的深度挖掘出转录组的信息,对整个转录组的情况实现更加全面和真实的了解。 RNA-seq-技术的原理如图1-9所示。 图1-9 RNA-seq技术原理 (引自Graveley, 2008) 利用新一代测序技术研究转录组的方法为转录组的研究提供了一个新的角度。与其他研究转录组的方法相比,RNA-seq技术才处于刚刚发展的初期,但是随着它可用性的提高和费用的下降,RNA-seq技术具有非常广阔的前景。 22
  • 50. 文献综述1.2.6.1 新一代测序技术发展概况 传统的DNA测序方法一直面临着测序流程复杂、测序时间长、成本高和通量小 等 问 题 。 而 新 一 代 测 序 技 术 如 454 Life Sciences 公 司 开 发 的 454 测 序 系统、 Illumina 公司开发的 Solexa 测序系统以及 Applied Biosystems 公司开发的 ABISOLiD测序系统等都用到了DNA分子高效扩增策略。这些高通量测序仪的共同特点就是不需要大肠杆菌进行DNA模板扩增,且测序所得序列相对较短:其中测序最长的454测序仪测序长度也仅为 200-300个碱基,其余三种序列都只有几十个碱基。这些新测序平台已经被广泛应用于生物学研究的许多方面,测序原理及序列长度的差异也决定了这四种测序仪在不同领域的应用。1.2.6.2 SOLiD技术原理及技术流程 SOLiD 的技术原理是: SOLiD 使用连接法测序获得基于“双碱基编码原理” 的SOLiD颜色编码序列,随后的数据分析将原始颜色序列与转换成颜色编码的reference序列进行比较,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 35
  • 51. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 (1) SOLiD基因组文库的构建 使用SOLiD测序时,可根据实际需要,制备片段文库或末端配对文库。制备片段文库就是在短DNA片(60-110 bp)两端加上SOLiD接头(P1、P2 adapter);而制备末端配对文库时,先在长片段 DNA(600bp 到 10kb) 两端连接 EcoP15I 酶切位点,加入生物素标记的 internal 接头使该连接产物自我环化,然后用 EcoP15I 酶切,并在酶切产物两端加 SOLiD接头,最后用亲和素磁珠特异吸附得到包含两个25 bp末端及internal接头的目标DNA片段(~85bp)。两种文库的最终产物是两端分别带有 P1 、 P2 adapter 的 DNA 双链,插入片段及 SOLiD 接头总长为 120-180bp[79]。具体流程见图1-10。 图1-10 SOLiD文库构建示意图 (2) 油包水PCR 文库制备得到末端带P1、 adapter但内部插入序列不同的DNA双链模板。 P2 油包水PCR的作用相当于传统的大肠杆菌系统,可以独立地扩增DNA模板。油包水PCR通过形成数目庞大的独立PCR反应空间实现单条DNA模板的独立扩增。“油 24
  • 52. 文献综述包水”是指在 PCR反应前,将包含 PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。和普通PCR一样,油包水PCR也在水溶液中反应。该水溶液含PCR所需试剂,DNA模板,可以与P1、P2 adapter结合的P1、P2 PCR引物(P1引物含量远小于P2及P1磁珠)。与普通PCR不同的是,油包水PCR水溶液有两种形态的P1引物:存在于水溶液的极少量“游离态P1引物”,被固定在P1磁珠球形表面的“固定态P1引物”(SOLiD系统把表面固定有大量P1引物的磁珠称为“ P1 磁珠” ) 。 PCR 反应过程中,磁珠表面的 P1 引物可以和 DNA 模板的 P1adapter负链结合,引导DNA模板合成,其合成产物同时“固定”到 P1磁珠球形表面;“游离态 P1引物”可以和“散落”在水溶液中的 DNA模板结合,从而提高DNA模板利用率;P2引物和以上两种形态P1引物共同作用使DNA模板指数级扩增。理想状态下,每个小水滴只含单条 DNA模板和一个P1磁珠,由于水相中的P2引物和P1磁珠表面的P1引物所介导的 PCR反应,这条DNA模板的拷贝数指数级增加。 PCR 反应结束后,该 P1 磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。详细流程见图1-11。 37
  • 53. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图1-11 油包水PCR (3) 含DNA模板的P1磁珠的固定 油包水PCR后将含DNA模板扩增产物的P1磁珠富集起来并进行变性处理,从而得到含单链 DNA模板的P1磁珠,再对其进行末端修饰。最后把这些末端修饰的含单链 DNA模板的P1磁珠通过共价键固定到 SOLiD玻片表面。这些均匀分布在SOLiD玻片表面的磁珠是 SOLiD测序反应的最小单元 (图1-12)。SOLiD测序反应在这些磁珠上并行进行,测序完成后,每个磁珠得到一条 SOLiD颜色编码序列。每次连接反应后,SOLiD测序仪照相系统会记录SOLiD玻片上所有磁珠的光 24
  • 54. 文献综述信号,测序完成后, SOLiD图像处理系统可以根据磁珠在玻片上的位置将照片上光信号对应到每个磁珠,最终得到每个磁珠的颜色编码信息。 图1-12 SOLiD玻片及P1磁珠 (4) SOLiD双碱基编码原理及测序流程 SOLiD“双碱基编码原理”阐明了荧光探针的颜色类型与探针编码区碱基对的对应关系。SOLiD连接反应底物是8碱基单链荧光探针。连接反应时,探针按照碱基互补规则与单链DNA模板配对。如图1-13中的“底物探针”所示,探针5’末端可分别标记“CY5,Texas Red,CY3,6-FAMTM”4种颜色的荧光染料,并用数字“3,2,1,0”表示;探针3’端第1、2位构成的碱基对是表征探针染料类型的编码区,“双碱基编码矩阵”规定了该编码区 16种碱基对和4种探针颜色的对应关系,3~5位的“n”表示随机碱基,而 6~8位的“z”指的是可以和任何碱基配对的特殊碱基,因此,SOLiD连接反应底物中共有45 种荧光探针。 图1-13 SOLiD 双碱基编码原理 SOLiD测序通常包括五轮测序反应。每轮测序反应从“连接引物”锚定反应 39
  • 55. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究开始,后跟7次连接反应。五种“连接引物”(n,n-1,n-2,n-3,n-4)长度相同,都与P1引物区域互补,但对应于 P1引物区域的起始位置依次相差一个碱基;连接引物5’端含磷酸基团,可以引导每轮反应中第一次连接反应。以一个磁珠上发生的SOLiD测序反应为例 (图1-14):第一轮测序反应时,引物 n锚定完成后,由于每个磁珠只含有均质单链 DNA模板,连接反应只掺入一种与模板 1-8位互补的8 碱基荧光探针, SOLiD 测序仪根据光信号记录该探针第 1 、 2 位编码区颜色信息,由于该探针与模板 1-8 位互补配对,所以该探针颜色信息对应于模板链第1、 位碱基序列,随后的化学处理断裂探针第5、 位碱基间的化学键,并除去6-8 2 6位碱基及5’末端荧光基团,暴露探针第5位碱基5’端磷酸,为下一次连接反应作准备。第二次连接反应加入的探针与DNA模板链第6-14位互补配对,测序仪记录对应于模板链第 6 、 7 位碱基的颜色信息,而第三次连接得到对应于模板链第11、 位碱基序列的颜色信息......以此类推,第一轮测序反应获得了模板链7个碱 12基对的颜色信息(1、 ,6、 ,11、 ,15、 ,21、 ,26、 ,31、 。 2 7 12 16 22 27 32) 第一轮测序反应后, SOLiD 测序仪将包括“连接引物”和连接产物在内的新合成链除去,只留下模板链,为第二轮测序反应准备。 26
  • 56. 文献综述 图1-14 SOLiD 原始颜色序列的产生 由于第二轮测序反应连接引物n-1起始位置比第一轮连接引物n前移一个碱基,所以第二轮测序反应得到以模板链第 0,1位起始的7个碱基对的颜色信息。五轮测序反应后,SOLiD图像处理系统自动将把对应于模板链第0、1位,第1、2位......第34、 位的颜色信息顺次串联,得到由35个“0,1,2,3”组成的SOLiD 35原始颜色序列。 41
  • 57. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 表1-2 单张SOLiD玻片测序通量 有三种规格的SOLiD玻片:1-well,整张玻片没有分隔,可放一个样品; 4-well,玻片被平均分成 4 个独立小室,能同时测序 4 个独立样品; 8-well ,玻片被平均分成 8 个独立小室,能同时测序8个独立样品;而fragment文库有16种barcoding P2引物,所以一张玻片中最多可以放8╳16个不同的fragment文库样品。 如表1-2 所示,片段文库和末端配对文库的测序长度不同。片段文库中每轮引物锚定反应后有7个连接反应,所以整个 SOLiD测序过程包含35个连接反应,最终得到由35个“0,1,2,4”组成的SOLiD原始颜色序列;而末端配对文库进行正反向测序,一个测序方向每轮引物锚定后有 5个连接反应,则共有25个连接反应,得到由25个由“0,1,2,4”组成的SOLiD原始颜色序列;但由于是双向测序,一个磁珠得到两条序列,即2×25个由“0,1,2,4”组成SOLiD原始颜色序列。 (5) 数据分析原理 SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上,按照“双碱基编码矩阵”,只要知道所测 DNA序列中任何一个位置的碱基类型,就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双碱基与颜色信息的兼并特性(一种颜色对应 4种碱基对),前面碱基的颜色编码 28
  • 58. 文献综述直接影响紧跟其后碱基的解码,当测序错误时,错误的颜色编码将影响其后的所有碱基的正确解码,引起“连锁解码错误”(图1-15.1)。 图1-15 SOLiD数据分析原理 为避免“连锁解码错误”的发生, SOLiD 数据分析软件不直接将 SOLiD 原始颜色序列解码成碱基序列,而是依靠所测物种的 reference 碱基序列完成后续分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转换成颜色编码序列,然后比较 SOLiD 原始颜色序列和颜色编码的 reference 序列,获得SOLiD原始颜色序列在reference序列上位置及两者的匹配度信息。颜色编码的 reference 和 SOLiD 原始序列的不完全匹配主要有两种情况:“单颜色不匹配” 和“两连续颜色不匹配”(图1-15)。由于SOLiD测序以对DNA模板中的每个碱基所包含的颜色信息独立地检测了两次,并且 SNP位点将改变连续的两个颜色编码(图1-15.2),所以SOLiD分析软件认为“单颜色不匹配”为测序错误并对该测序错误进行自动校正;而“两连续颜色不匹配”可能是 SNP ,SOLiD 分析软件将根据定位到该 reference 区域所有 SOLiD 原始颜色序列一致性及对应质 43
  • 59. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究量值综合评判。通过与颜色编码reference序列比较并校正测序错误后,SOLiD原始颜色序列被转成个数相同的碱基序列。1.2.6.3 SOLiD测序技术的应用 研究者可以基因组 DNA 为初始样本构建 SOLiD 文库 (fragment 文库及 mate-paired文库),以恰当的全基因组序列为reference进行全基因组重测序,还可以对特 定 基 因 组 区 域 进 行 富 集 测 序 , 进 而 可 以 快 速 鉴 定 SNP 和 基 因 组 结 构 变化。RNA-seq 高通量测序仪使测序成本大大降低,也促进了针对细胞全部转录产物的深度测序研究。此外,由于SOLiD所得序列的测序方向明确,提供了序列来自转录本的正义链还是反义链这一有用信息,使我们能够对测序结果及后面的数据分析进行正确全面的了解。 28
  • 60. 材料与方法 第二章 材料与方法2.1 实验材料 小鼠大脑分别取自一周、四周、十周的成年雄性BALB/c小鼠,购于北京维通利华实验动物技术有限公司,符合SPF/VAF级别标准。2.2 主要化学试剂 Trizol、10bp DNA Ladder、SYBR Gold Gel Stain、SuperScript II反转录酶试剂购 于 Invitrogen , pUC18 DNA/Mspl 购 于 TIANGEN , DNAaseI(10U/μL) 购 于NEB , Nuclease-free Water 购于 Ambion , pGEM-T 载体、 T4 连接酶、 One ShotTop10 Competent Cell 购 于 Promega , 其 他 常 见 试 剂 如 乙 醇 (Ethanol) 、 异 丙 醇(Isopropanol)、苯酚(Phenol)、氯仿(Chloroform)等均为国产分析纯试剂。2.3 常用溶液和培养基溶液1:50mM Tris-HCl,10mM EDTA,0.2mg/mL RNAase A溶液2:0.2M NaOH,1%SDS (现用现配)溶液3:3M KAc,pH5.2糖原(Glycogen):5mg/mL, -20℃保存 45
  • 61. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究IPTG(200mg/mL):水溶液,-20℃保存TE缓冲液:10mM Tris-HCl,1mM EDTA,pH 8.0X-gal:二甲基甲酰胺溶解配制成储存液,-20℃避光保存10×TBE : 108g Tris , 56g 硼酸, 40mL 0.5M EDTA(pH 8.0) ,加水至 1L ,使用时稀释至1 × TBE工作液6% Nondenaturing PAGE(6mL) : 4.2mL Deionized water , 1.2mL 30%Acrylamide,0.6mL 10×TBE,110mL 10% APS,10mL TEMED液体(LB)培养基(1L):胰蛋白胨10g,酵母提取物5g,NaCl 10g,以1M NaOH调pH至7.0固体(LB)培养基(1L):液体LB培养基中加1.5%的琼脂糖0.01M 磷酸盐缓冲液 (PBS) :称 7.9g NaCl, 0.2g KCl , 0.24g KH2PO4( 或者 1.44gNa2HPO4) 和 1.8g K2HPO4 ,溶于 800 mL 蒸馏水中,用 HCl 调节溶液的 pH 值至7.4,最后加蒸馏水定容至 1 L,保存于4℃冰箱中即可。需要注意的是,通常所说的浓度0.01 M 指的是缓冲溶液中所有的磷酸根浓度,而非 Na离子或K离子的浓度,Na 离子和K 离子只是用来调节渗透压的。 30
  • 62. 材料与方法2.4 试剂盒RiboMinus Eukaryote Kit for RNA-Seq购于Invitrogen, SOLiD Whole TranscriptomeAnalysis Kit(SOLiD Small RNA Expression Kit)、flash PAGE Reaction Clean-Up Kit购 于 Ambion , Oligotex mRNA Mini Kit 、 MinElute PCR Purification Kit 购 于QIAGEN。2.5 实验方法2.5.1 小鼠的处理和取样 采用颈椎脱臼法将小鼠处死,取其大脑组织,用 0.01M PBS 缓冲液清洗,放入液氮中冻存,立即研磨或者-80℃保存备用。2.5.2 转录组文库的构建 转 录 组 文 库 的 构 建 分 为 total RNA 提 取 、 ribosomal RNA 去 除 /mRNA 分离、RNA打断、反转录以及PCR扩增几个步骤。rmRNA-Seq转录组文库构建流程见图2.1。2.5.2.1 总RNA提取 应用TRIZOL法提取总RNA,具体步骤如下:每0.1g研磨好的大脑组织加入 47
  • 63. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究1mL TRIZOL试剂,混匀后颠倒混匀数下,室温静置 5分钟;按总体积的1/5加入氯仿( 约0.2mL) ,颠倒混匀 15秒钟,室温静置 2-5 分钟;4℃ 13000rpm 离心 15分钟,转上层水相(约400μL)于另一1.5mL EP 管中(可以重复用TRIZOL抽提一遍,也 可以用氯仿单独抽提一遍 ) ,加入等体积异丙醇,混匀 -20℃ 静置约 30 分钟, 4℃ 13000rpm 离心 15 分钟,弃上清;加入预冷的 75 %乙醇 ( 用 DEPC 水配)1mL ,4℃ 13000rpm 离心5分钟,弃上清,重复 75%乙醇洗一次;空气干燥5-10分钟(不能完全干燥,否则 RNA将会很难溶解 );最后溶于 Nuclease-free水中至20μL (10μL-20μL);用琼脂糖电泳检测总 RNA的完整性,完整的RNA其28S亮度 是 18S 的 2 倍 ; 检 测 其 OD 值 , 纯 RNA 样 品 的 OD260/OD280 值 为1.7-2.0,OD260/OD230值大于2.0。 30
  • 64. 材料与方法 图2-1 转录组文库构建流程图2.5.2.2 核糖体RNA的去除(rmRNA-Seq) 细胞转录本中大部分的转录产物是核糖体 RNA( 约占 90% 以上 ) ,这对于转录组研究来说是无用信息,因此首先采用探针结合的方法将其中的18S、 、 28S 5.8S 和5S rRNA 去除。应用Invitrogen公司生产的试剂盒——RiboMinusEukaryote Kit for RNA-Seq去除总RNA中的核糖体RNA。具体实验步骤如下: (1) 杂交步骤 先设置水浴 70-75°C 和 37°C ;取总 RNA~8μg(<20μL) ,连同 10μL RiboMinus探 针 (15pmol/μL) 和 300μL 杂 交 液 加 入 到 RNase-free 的 1.5mL 的 离 心 管 中 , 在70-75°C水浴中孵育5分钟使RNA变性;之后将样品放入37°C水浴使样品在30分钟内慢慢冷却到37°C,使RNA和探针充分的接触和杂交,千万不能将样品直接放到冷水中降温。在样品冷却的过程中,开始准备磁珠。 (2) 磁珠准备 充分涡旋,使磁珠悬浮起来、混匀;吸取 750μL 磁珠悬浮液加入到 RNase-free 的 1.5mL 的离心管中,将离心管放在磁力架上 1 分钟,磁珠紧贴在离心管内 49
  • 65. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究壁上,轻轻的吸走上清,弃掉;加入 750μL DEPC水,轻轻涡旋使磁珠悬浮,之后放在磁力架上1分钟,吸走并弃掉上清,重复洗一遍磁珠;加入 750μL杂交液使磁珠悬浮,并转移250μL磁珠到一个新的离心管中备用;将含有 500μL磁珠的离心管放在磁力架上 1分钟,吸取并弃掉上清,加入 200μL杂交液使磁珠悬浮,将离心管放在37°C水浴中孵育直到使用。 (3) 去除rRNA 30分钟后杂交样品冷却到 37°C,轻轻离心使样品都集中到离心管底部,转移杂交样品 (~330μL) 到上述已经准备好的 200μL 磁珠中,轻轻涡旋使其充分混匀,在37°C水浴中孵育15分钟,在孵育过程中,轻轻混匀几次;将离心管放在磁力架上1分钟,吸取上清 ~530μL(注意千万不要丢弃上清,这里面才含有我们想要的 RiboMinus RNA) ,同时将含有 250μL 磁珠的离心管放在磁力架上 1 分钟,吸走并弃掉上清,加入从另一离心管中取出的 ~530μL上清,混匀后37°C孵育15分钟,同样在孵育过程中轻轻混匀几次;将离心管放在磁力架上 2分钟,转移上清(~530μL)至一新的离心管中。 (4) 乙醇沉淀法浓缩RiboMinus RNA 32
  • 66. 材料与方法 转移 RiboMinus RNA 样品至一个新的 RNase-free 的2mL 离心管中,加入 4μL糖元(5mg/mL)、1/10体积的(53μL)5M醋酸铵和2.5倍体积(1325μL)的无水乙醇,充分混匀, -20°C 或者-80°C急冻至少30分钟;4°C >=12000g离心15分钟,弃上清,加入 500μL 冷的 70% 乙醇, 4°C >=12000g 离心 5 分钟,弃上清,重复洗一遍;风干沉淀~5分钟,~5-8μL Nuclease-free水溶解 (5) 检测RiboMinus RNA的质量 取 1μL 样 品检测 OD 及 rRNA 去除 效果 (Agilent 2100 bioanalyzer) ,在没有Agilent 2100 bioanalyzer的情况下可以应用电泳检测,但应注意电泳检测的上样量大于200ng时,才可以分辨rRNA去除效果。2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 具体实验步骤如下: (1) RNase III 酶切RNA 将去除 rRNA 后的 (RiboMinus RNA) 样品 / 分离得到的 mRNA 样品 1μg(≤8μL)加入1μL 酶切buffer和1μL RNase III,在PCR 仪上37°C 10 分钟。 (2) flashPAGE 电泳分离片段 51
  • 67. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 打断完毕,取下后立即加入 10μL flashPAGE loading buffer (含有的变性剂可使蛋白直接变性终止反应),混匀后 95°C 2min,变性后立即放置冰上;依照说明清洗并连接好flashPAGE 电泳仪,依次加入250μL 下液,预制胶,300μL 上 32
  • 68. 材料与方法液,加入样品,接通电源, 75V电泳;当蓝色指示剂刚刚电泳出预制胶进入下液时 (约 12 分钟),打开电泳仪,吸出下液到新的 2mL EP 管中,此时电泳液中的 RNA 片段小于 50bp;清洗下槽,重新加入250μL 下液,继续电泳约45 分钟,这时下液获取的是大于50bp的RNA片段。 (3) flashPAGE Reaction Clean-up Kit 回收RNA片段 回收后的下液依照 flashPAGE Reaction Clean-up Kit 步骤进行回收,注意如果下液的体积大于230μL,提示预制胶有侧漏现象,此时获得的样品无法使用。回收的产物通过冻干或空气干燥 (小于 40°C)浓缩到 3μL ,通常会获得 100-400ng产物。 (4) 接头杂交及连接 冰上 0.2mL RCR 管中准备杂交混合液 (Mix) : 2μL 接头 Mix A , 3μL 杂交液, 3μL RNA 片段化产物,共 8μL 体系。混匀,进行杂交反应: 65°C 10 分钟,16°C 5 分钟;取出放置冰上立即进行以下步骤,依下面步骤加入连接反应试剂:10μL连接缓冲液,2μL 连接酶Mix,混匀后16°C 连接16 小时。 (5) 逆转录及RNaseH 消化 53
  • 69. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 逆转录反应体系如下: Nuclease-free Water 13μL ,10X RT Buffer 4 μL , 2.5mM dNTP mix 2 μL,ArrayScript Reverse Transcriptase 1 μL。加入上述混好的Mix到连接好接头的体系中, 42°C 30分钟合成cDNA;取合成好的一链产物10μL 进行 RNaseH消化,剩余产物-80°C保存;在10μL 一链产物中加入1μL RNaseH 混匀,37°C 30分钟。 (6) PCR 扩增 以上述50μL体系作为实验性PCR检测cDNA进行PCR的条件,条件允许的可以进行大规模性扩增,每个样本保证进行 3个以上100μL的规模性PCR扩增以获取足够量的DNA产物。50μL体系不能使用大于1μL的cDNA,否则会抑制PCR扩增反应。 反应条件为:95°C 5min;95°C 30s,62°C 30S,72°C 30S,15-18个 PCR循环;72°C 7min。循环数视50μL体系反应结果而定,在能达到所需量产物的情况下,循环数越少越好。 (7) PCR 产物纯化 PCR 产物应用QIAGEN公司的MinElute PCR Purification Kit进行纯化。 (8) 6% PAGE 分离回收DNA 片段 34
  • 70. 材料与方法 用 6% 的聚丙烯酰胺凝胶电泳分离上述纯化后的 PCR 产物,以 10bp DNAladder作为Marker,用SYBR Gold染料染~15分钟,切取约140–200bp大小的片段(不要切取小于110bp的副产物);将PAGE胶切成胶粒,加入200μL PAGE ElutionBuffer到放有切好的胶粒的EP管中,常温振荡过夜,吸取buffer到新的EP管中。再向胶粒中加入250μL的PAGE Elution Buffer,37℃放置两小时。 (9) 异丙醇沉淀DNA 合并上述两次的PAGE Elution Buffer,加入1/100体积的糖原和0.7倍体积的异丙醇,混匀后室温静置 5min ,室温离心 13000g 20 分钟,弃上清,空气干燥,10μLNuclease-free Water溶解,供后续实验使用。2.5.2.4 文库检验 取少量的上述产物连接到 T 载体,电转到大肠杆菌感受态细胞中,涂板培养,挑取白斑摇菌,提取质粒后做 ET测序反应,3730测序,对测序结果进行分析,验证接头的添加效率和基本的rRNA片段污染程度,供后续实验参考。2.5.2.5 SOLiD油包水PCR及上机测序 这部分实验由我所测序平台的专门实验人员完成,包括:油包水 PCR富集 55
  • 71. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究磁珠富集、磁珠沉积,制备上机玻片以及最后的上机测序。2.5.3 RT-PCR 应用RT-PCR 的方法来验证实验所鉴定的转录本的真实存在,具体方法和步骤如下: (1) 总RNA 的提取和处理 34
  • 72. 材料与方法 用如前介绍的 Trizol 方法提取小鼠 cerebrum 的总 RNA ,并用 DNAase I 处理,防止基因组DNA 的污染。 (2) 反转成cDNA 分别用随机引物和 Oligo-dT 做反转,反转酶为 Invitrogen 公司的SuperScriptII。反转的体系和方法如下: A: 随机引物反转: 在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好的如下Mix加入其中,混匀,室温下(25 ℃)放置2分钟,加入1μL RT 酶,混匀,室温下10分钟,接着42℃ 50分钟,最后70℃ 15分钟, -20℃保存备用或者立即进行后续实验。 B: Oligo-dT 反转: 在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好的如下Mix加入其中,混匀, 42 ℃ 2分钟,加入1μL RT酶,混匀,接着42℃ 50 57
  • 73. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究分钟,最后70℃ 15分钟,-20℃保存备用或者立即进行后续实验。 (3) PCR 条件 95°C 5分钟, 95°C 15秒, 60°C 15秒, 72°C 40秒,40个循环,最后72°C延伸5分钟,4°C保存。2.6 数据分析方法2.6.1 SOLiD序列在基因组上的注释 SOLiD 序列的注释和分析流程如图2.2所示。首先,原始的数据过滤掉rRNA序列后,将用于进一步的分析;将长度为 35bp的全长序列与小鼠全基因组数据相比较,未比对到基因组上的35bp序列继续与可变剪接数据集相比对。对于没有比对到基因组上的序列,我们认为是由于测序质量低导致的,而且从 SOLiD 测序的特点来看,越测到最后质量就越低。因此为了最大限度地注释序列,把在这一步骤上没有比对上的序列,将其最后 5个碱基去掉,用剩下的 30bp 的序列继续同小鼠全基因组比对,同理,将 30bp 的没有比对上的序列继续截掉后 5 个碱基,用剩下的25bp的序列与基因组序列比对。经过这三个步骤之后,所有被注释 36
  • 74. 材料与方法的序列进行随后的基因表达、非蛋白编码 RNA的分析等,所有比对上可变剪切的数据可以用来评价剪切效率和寻找新的可变剪切情况。 在注释过程中使用的小鼠全基因组序列和 rRNA 序列均来自NCBI 数据库。同时,应用corona_lite_v0.31R2 作为比对工具。 59
  • 75. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图2-2 SOLiD数据的注释和分析流程2.6.2 可变剪切分析 在SOLiD转录组数据中,其中一部分序列来自外显子连接区域,这部分序列是比对不上基因组的,为了注释这部分序列,我们构建了一个可变剪切数据集,如图2.3所示。利用refseq数据库注释的基因 [80],将基因中每个外显子的紧邻剪切点的34bp序列自由组合,从而构建该可变剪切数据集。这个数据集不仅包含了已知的可变剪接形式,还包含了其他所有可能得可变剪接形式,从而使我们有可能发现和找到基因的新的可变剪接形式。 图2-3 可变剪切数据集的构建示意图2.6.3 基因表达谱分析 在进行基因表达分析时,主要参考refseq数据库的基因注释信息。我们用属于基因外显子区域的序列数来衡量基因表达情况,每个基因含有 5个以上序列时才算是表达。另外定义以每个基因单位长度序列的 RPKM(reads per kilobase of exon model permillion mapped reads) 值作为该基因的表达量 [81] , RPKM =( 比对到外显子的序列数目 ×109 )/( 外显子的长度 × 比对到基因组的所有序列数 ) 。基于表达基因的 38
  • 76. 材料与方法RPKM 值,对三个不同发育时期小鼠大脑组织的基因表达谱进行聚类分析。2.6.4 差异表达基因的判断和功能分类 采用IDEG6网站中的AC(Audic-Claverie)统计法计算p值[82],对基因在两个文库间的表达量差异进行统计学比较,以p=0为差异显著来定义差异表达基因。根据每个文库的差异基因信息,利用 GO和KEGG数据,对这些差异基因的功能进行注释和分类[83, 84],并应用KEGG显示差异基因在各个途径中的表达信息。2.6.5 内含子的表达分析 在对基因内含子进行表达分析时,主要参考 refseq数据库的基因注释信息。用属于基因内含子区域的序列数来衡量其表达情况,同样用RPKM值对其表达量进行归一化。 在基因的内含子区域,我们定义了一些显著表达的区域。首先将每个基因的所有内含子区域连接起来,以200bp为窗口计算其RPKM值,如果某个区域内的RPKM值大于该基因RPKM值的2倍,且没有比对到ncRNA数据库中,则认为这个200bp的内含子区域显著表达,进而对显著表达区域进行下一步分析。2.6.6 基因间区的表达分析 首先根据refseq数据库收集的转录本信息,统计小鼠基因组上所有有转录本 61
  • 77. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究证据支持的转录区域, 然后根据refseq数据库的基因注释来定义基因间区域,并对其表达区域进行了严格定义,如果在基因间区存在连续 35 个以上碱基有reads覆盖,且每个碱基覆盖的 reads数目不小于 5,则定义其为基因间区的表达位点。 38
  • 78. 材料与方法2.6.7 转录因子在三文库中表达情况的分析 收集公共数据库中的 1727 个转录因子 [85],对在三个时期中表达的转录因子进行鉴定及不同丰度分布的统计,分别对低表达和高表达的转录因子进行鉴定和分布统计,并对高表达转录因子进行GO分类,对不同时期特异性表达的高转录因子进行 KEGG功能分类,同时对不同时期的差异性高表达转录因子进行鉴定以及GO分类。 63
  • 79. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 第三章 结果3.1 转录组文库的构建 我们用Trizol方法分别提取三个时期小鼠大脑组织样本的 total RNA,并通过琼脂糖凝胶电泳检测 total RNA的质量。然后用AB公司Ribosomal RNA DepletionKit 试剂盒中的生物素标记的探针与 total RNA 中的 rRNA 进行杂交,将 28s 和 18srRNA去除,并用电泳检测其去除情况(图3-1)。对去除rRNA的RibominusRNA进行RNase酶切,将酶切后的 RNA与接头序列进行杂交和连接反应,再经逆转录成为cDNA片段。纯化cDNA片段,用6%聚丙烯酰胺凝胶对140-200nt处的cDNA片段进行回收 ( 图3-2) ,对回收后的 cDNA 片段进行 PCR 扩增,扩增后的 DNA片段纯化后即为我们构建的转录组文库。 图3-1 琼脂糖凝胶电泳 1:total RNA 2:RiboMinus RNA 3:DL2000 marker 40
  • 80. 结 果 图3-2 6%聚丙烯酰胺凝胶电泳 1-5:cDNA样品 6:pUC18 marker3.2 RNA-seq数据的性质 3.2.1 测序数据的筛选 我们共构建了小鼠大脑组织三个不同发育阶段时期的转录组文库,分别是:幼年期(1周龄)、青春期(4周龄)和成年期(10周龄)。经过Solid测序,分别获得了44,557,729、59,257,530和72,729,636条reads序列。 tag的平均质量值大于8为标 以准 对 所 有 reads 进 行 筛 选 , 在 三 个 文 库 中 分 别 得 到 38,582,926 、 54,963,892 和66,683,563条高质量的reads。 在三个文库中,我们发现snoRNA基因数量较少但表达量极高。snoRNA又称核仁小分子RNA,是一类在真核生物中普遍存在的、多富集于核仁区、代谢稳定的小分子非编码 RNA,在核糖体RNA前体的剪接加工和转录后修饰过程中起重要作用[86]。由于snoRNA基因占有专一比对序列的比例极大,会对后续工作中以RPKM值衡量其他基因表达丰度带来偏差,因此我们将比对到 snoRNA基因编 65
  • 81. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究码区的 reads 事先移除;此外,由于实验部分不能彻底的去除 rRNA ,导致有些reads比对到rRNA基因的编码区,我们也将这些reads也事先移除。 经过snoRNA和rRNA的移除,三个文库最终分别得到了37,277,112、50,344,730和61,626,755条reads,我们对这些reads进行了后续研究。 3.2.2 测序数据的注释 对于每一个文库所得到的 reads 序列,采取图 2-2 的流程在基因组上进行注释,注释结果如表3-1所示。 表3-1 三个文库测序数据的注释情况 结果发现,三个文库的整体注释率分别为:38.87%、42.49%和42.10%,专一比对到基因组上的reads数分别为:11,929,828、16,614,876和15,111,661,在专一比对序列中,其中有26.83% -37.52%的序列比对到外显子区域,21.82%-26.47%的序列比对到内含子区域,38.84%-50.12%的序列比对到基因间区,1.23%-2.25%的序列比对到可变剪切数据库。专一比对序列的注释情况如图3-3。 42
  • 82. 结 果 图3-3 专一比对序列的正负链注释情况3.3 基因表达谱的分析3.3.1 三个文库中表达基因数量及种类的变化 我们统计了三个文库中所有表达基因的数量及表达丰度。为减少误差,以 5条以上序列专一比对到外显子区域作为标准来定义表达基因。根据GenBank数据库的基因注释信息,小鼠基因组一共有 21,896 个基因,我们在幼年期,青春期,成年期小鼠大脑组织的转录组文库中分别检测到15,344、16,048和15,775个表达基因,占整个基因组基因的70.1%-73.3%。 表达基因在三个文库中的分布情况如图3-4所示。三个时期的小鼠大脑组织的转录组文库一共有 16,858个基因表达,其中14,607个基因在三个发育阶段持续表达,幼年期、青春期和成年期分别有218、 和449个基因是在其发育阶段特定 489表达。 图3-4 表达基因在三个文库中的分布情况 67
  • 83. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 以RPKM衡量基因的表达丰度,我们将表达基因的 RPKM值分为6个等级,并统计了三个文库中基因的表达丰度情况。如图3-5所示,大部分基因为中表达(RPKM为10-100),高表达的基因较少,青春期文库所占的中高表达及高表达的基因比例相对较高。此外,我们在三个文库中分别发现了3,378、3,664和4208个低表达的基因,以及少量的极低表达基因,成年期文库所占低表达基因的比例相对较高。能够发现更多的低表达基因也是RNA-seq的主要优势,我们将对这些低表达基因进行进一步的分析。 图3-5 三个文库中基因的表达丰度分类情况 44
  • 84. 结 果3.3.2 三个文库的基因表达谱分析 为了从总体上了解生后小鼠大脑组织的发育情况,我们对幼年期、青春期和成年期的转录组文库进行了聚类分析(图3-6)。结果发现,幼年期和青春期聚为一类,成年期单独聚为一类。从基因的表达变化情况来看,三个时期都不相同,其中幼年期和成年期的基因表达情况几乎相反,说明这三个时期的大脑发育过程中,基因的表达模式不断变化,虽然幼年期和青春期的基因表达模式更为接近,但也存在许多不同点,到成年期之后,这种变化更为明显。 图3-6 三个文库的聚类分析 用三个文库中各染色体上表达基因的 RPKM总和来衡量各染色体在该转录文库中的转录活性(图3-7B),结果显示,在三个时期的大脑发育过程中,青春期各染色体的转录活性明显高于其他两个时期,这与图3-5中青春期中高表达及高表达的基因个数最多的结果是一致的。染色体的转录活性与该染色体所表达的基因个数是基本对应的,表达基因越多,转录活性越大,比如chr2 、 chr7 、 chr11 ;例外的如 chr18 ,表达基因较少,但转录活性相对较大 ( 图3-7A)。 A. 三个文库中各染色体表达基因的个数统计 B. 三个文库中各染色体表达基因的RPKM总和 69
  • 85. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图3-7 三个文库中各染色体的转录活性情况 46
  • 86. 结 果 由于每个染色体上的表达基因个数不相同,我们对上述各染色体取基因的平均RPKM值来衡量该染色体的活跃程度 (活跃程度 =表达基因的 RPKM总和/表达基因的个数),结果如图3-8所示。各染色体的表达活跃程度基本一致,是一个先扬后抑的过程,青春期的染色体基因表达最为活跃,成年期的活跃程度略微小于青春期。值得一提的是, chr18的活跃程度与其他染色体明显不同,青春期和成年期chr18的活跃程度显著增高,我们发现这主要是因为位于 chr18上的Mbp基因在青春期与成年期的高表达造成的,这两个时期 Mbp的表达量比幼年期的表达量高出数十倍。髓鞘(myelin sheath)是一层脂肪组织,包裹在某些神经元的轴突外,具有绝缘作用并提高神经冲动的传导速度,同时有保护轴突的作用。MBP是中枢神经系统(CNS)髓鞘的主要蛋白质,位于髓鞘浆膜面,维持CNS髓鞘结构和功能的稳定,具有神经组织特异性。髓鞘形成大约开始于小鼠生后的2周,研究表明 MBP蛋白含量的高低可以定量评估髓鞘化的水平, MBP增加提示髓鞘形成或再生[87, 88]。我们推测小鼠青春期是髓鞘形成的主要阶段,这一阶段相对于幼年期 Mbp的表达量显著的增高,成年后 Mbp表达量有所回落,但也维持在相对较高的水平。 图3-8 三个文库中各染色体的表达活跃程度 71
  • 87. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究3.3.3 表达基因的功能分类 我们对三个文库中的表达基因进行了GO功能分类(图3-9),结果没有发现在某一种功能分类中出现基因富集的情况,也没有发现小鼠大脑发育的三个阶段中出现表达基因显著增多的情况,这说明大脑发育是一个广泛的过程,涉及到各个功能基因的表达和协调。 图3-9 三个文库表达基因的GO分类 我们用各GO功能分类中的表达基因的 RPKM 总和来衡量该分类的转录活力(图3-10),在细胞组分中,细胞和细胞器的组分表达较为活跃,是维持细胞结构功能的基础性表达 (图3-10A);分子功能中,绑定和粘连相关功能的表达活性较高,可能与突触发生和神经元的迁移及相互作用有关 (图3-10B);而在生物过程中,有多个活跃表达的功能分类,包括一些代谢、胞内的生物过程,以及调节相关的功能分类等(图3-10C)。 48
  • 88. 结 果A. 细胞组分转录活性 B. 分子功能转录活性 73
  • 89. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 C. 生物过程转录活性 图3-10 GO分类中各功能分类的转录活性 我们同样用 KEGG对表达基因进行功能分类,并统计各功能分类的转录活性,如图3-11所示。结果表明,信号转导、免疫系统、癌症等功能在表达基因个数及表达活性方面都比较显著,内分泌系统、神经系统及神经变性类疾病这些功能分类的表达活性也较高。之前许多研究报道肿瘤发生的相关基因在大脑的生长发育中作为调节因子起重要作用,它们参与调控细胞的增殖和分化。因此,我们推测这些高表达的癌症及疾病相关基因可能对小鼠大脑的生后发育具有重要的调节功能。另外,我们对KEGG各功能分类基因的平均RPKM值进行了统计,以便更好的说明各分类基因的表达活跃程度 (图3-12)。KEGG分析同样也表明青春期的基因表达较其他两个时期更为活跃,与之前的分析结果一致,感觉系统相关基因表达活跃度相对较高,且在三个时期呈不断下调状态,提示感觉系统的发育可能开始于初生阶段或更早的时期。 50
  • 90. 结 果图3-11 表达基因KEGG功能分类及转录活性 75
  • 91. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图3-12 表达基因KEGG各功能分类基因的平均RPKM值3.4 基因内含子区域的表达分析 如表3-1显示,大约有 21.82-26.47%的专一比对序列被注释在基因的内含子区域。我们推测内含子区域的这些表达序列主要有两个来源:一是来自细胞内一些未成熟、未经剪切加工的前体mRNA,这一类内含子序列与基因表达量具有较高相关性,因为基因表达量越高,编码的前体 mRNA就越多,测到其中内含子的序列也就越多;而与基因表达相关性较小的内含子序列可能是位于内含子区域的一些具有功能 RNA 分子,比如一些没有注释到的外显子和非编码蛋白的RNA等,我们对这一类内含子表达序列也进行了后续分析。 我们将不同时期基因和其内含子区域的表达量进行相关性分析,结果如图 52
  • 92. 结 果3-13所示。三个文库中基因与其内含子的表达相关性系数 R在0.68左右,相关性较好,说明大部分内含子来自前体 mRNA;同时也显示少数内含子与所在基因的表达相关性较小。 图 3-13 三个文库中基因与其内含子的表达相关性 77
  • 93. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 为了寻找内含子区域的潜在功能 RNA,我们将一个基因的所有内含子区域连接起来,以200bp为窗口计算该段内含子的 RPKM,并与该基因的 RPKM值作比较,挑出内含子 RPKM 值高于基因 RPKM 值 2 倍的窗口区,过滤掉比对到ncRNA数据库的序列之后,将剩余的窗口区定义为表达活跃的内含子区段,并对这些区段进行了统计,结果在幼年期、青春期和成年期的大脑转录组文库中分别在2,079、2,520和4,061个表达基因中定义了9,613、13,593和21,234个表达活跃的内含子区段。这些基因绝大多数为极低表达或低表达,其内含子区域可能表达某些功能元件,因表达量较低在之前未被检测或注释。3.5 基因间区的表达分析 我们用 refseq 的基因注释模型来定义基因间区,并对基因间区的转录活性位点进行严格筛选,如果基因间区的某一区段的每个碱基都有 5 条专一比对序列支持,且这一区段的长度不小于 35bp,我们就把这一区段定义为一个转录活性位点。按此标准,在三个文库中分别定义了 10011、8639 和 4616 个转录活性位点,将这些活性位点分别与已知的基因 UTR 区域、小鼠基因组的 EST 数据库以及 non-coding RNA 数据库进行比对,结果如图 3-14 所示,这些转录活性位点大部分 (67-72%)比对到 UTR 区域, 19%-24%有 EST 支持,还有约 1%比对到 non- 54
  • 94. 结 果coding RNA 上。此外,我们还发现 7-8% 没有已知数据支持的新的转录活性位点,在三个文库中分别为 772、650 和 345 个新的活性位点。 图 3-14 基因间区转录活性位点的注释情况3.6 基因可变剪切的分析 在三个文库中有328,486、299,210和226,629条专一比对序列比对到可变剪切数据库中,分别有7726、7382和6685个基因具有可变剪切形式。在小鼠生后的大脑发育过程中,有些基因是以不同的剪切形式存在的,如大脑发育调节蛋白( Drebrin),它是一种神经元特异性的肌动蛋白结合蛋白,可通过改变细胞骨架的理化性质影响神经元树突棘及突触的形态和功能,调节突触可塑性,在大脑发育中起重要作用。Drebrin分为两个亚型:胚胎型(Drebrin E) 和成人型(DrebrinA),它们是由同一基因经转录水平的选择性剪接而分别表达。Drebrin E只在胚胎时期出现,普遍存在于发育期脑部神经元的整个细胞内,在脑外也有表达;而Drebrin A只在成熟脑组织中表达,具有神经元特异性,主要聚集于兴奋性突触 79
  • 95. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究树突棘中[89]。因此,基因的选择性剪切在大脑发育过程中具有重要意义。对于选择性剪切的基因鉴定及功能分析,我们将在后续工作中进行深入研究。3.7 差异表达基因的分析 3.7.1 差异表达基因的数量及种类 利用 IDEG6 软件对三个文库中的表达基因进行相关性分析,并对差异表达基因进行鉴定和统计,如图 3-15 所示。在幼年期与青春期文库之间一共鉴定了5,768 个差异表达基因,其中 4,106 个表现为上调,1,662 个基因表现为下调;在青春期和成年期文库之间一共鉴定了 6,787 个基因,其中 1,164 个表现为上调,5,623 个表现为下调。可以看出,青春期与成年期之间大脑转录组比幼年期与青春期大脑转录组的差异表达基因明显增多,说明青春期与成年期的大脑转录组差别要更大一些,这也与表达基因的聚类分析结果一致(图 3-4)。幼年期与青春期之间,以及青春期与成年期之间的大脑转录组文库的上下调情况正好相反:前者大部分表现为上调,小部分下调;而后者绝大部分都表现为下调。这表明在生后小鼠的大脑发育过程中,大脑组织中的基因总体上呈现出先扬后抑的趋势,青春期小鼠的大脑基因表达相对于其他两个时期最为活跃,青春期与成年期的差异较幼年期与青春期的差异更为明显。 图 3-15 文库间的差异表达基因统计 54
  • 96. 结 果 我们统计了表达基因在这三个文库中的总体表达变化情况 (表 3-2),发现在各库中表达变化的基因中, 2,351 个基因是先上调后下调; 1,536 个基因在幼年期到青春期上调,之后没有明显的变化;2,703 个基因在青春期到成年期出现下调,而在幼年期到青春期没有变化。这三类基因占到表达变化基因的大部分,说明大多数表达基因在幼年期到青春期呈上调状态,在青春期到成年期呈下调状态,这一结果与之前我们分析的基因表达趋势一致。 表 3-2 表达基因的总体变化情况 3.7.2 差异表达基因的功能分类 对幼年期与青春期、青春期与成年期的小鼠大脑组织转录组文库中的差异表达基因分别进行 GO 分类(图 3-16),可以看出辅助转运蛋白、电子载体、营养储藏和蛋白酶体调节因子功能相关的差异基因在幼年期与青春期为上调状态,而在青春期与成年期为下调状态,推测这些功能的相关基因可能与大脑生后发育过程中信号通路的活跃、营养物质的运输与贮藏有密切联系。另外,节律运动的相关基因也出现了较为明显的先扬后抑的表达变化。节律运动来自中枢模式发生器(CPG),即脊髓系统,而 CPG 是否受到来自大脑皮层的信号调控是高等动物和低等动物节律运动的区别[90-92]。节律功能相关基因在两个文库中的上调预示着青春期小鼠大脑已经对脊髓系统的节律运动进行调控。此外,化学诱导物在三个时期表现为持续下调状态。 81
  • 97. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图 3-16 三个文库中差异基因的 GO 分类3.7.3 差异表达基因的通路分析 56
  • 98. 结 果 为了进一步了解小鼠大脑发育过程在转录组水平上的变化,我们对幼年期和青春期、青春期与幼年期的文库差异表达基因进行了 KEGG 代谢途径分析。从总体上看,幼年期与青春期的差异基因在通路上是上调的,说明这一时期的基础代谢、信号转导、细胞凋亡等功能处于全面活跃状态,大脑组织发育明显,细胞生长、分化频繁发生;青春期到成年期阶段,各项功能活跃度大幅下降,说明青春期为小鼠大脑的生后发育高峰期,而大脑成熟之后,各项功能的相关基因表达度都降至或接近成年水平。我们对几个经典的重要通路进行详细说明。 3.7.3.1 差异表达基因在 MAPK 信号通路上的定位 丝裂素活化蛋白激酶(MAPK)信号通路通过三级级联途径,将胞外信号传导至细胞核内,对细胞增殖和分化等过程具有重要作用。已有研究证明,MAPK 信号通路对神经胶质细胞的生长和分化[93, 94]、神经元的增殖和成熟[95, 96]、神经细胞的凋亡[97, 98],以及脑发育异常及脑损伤修复都具有重要的作用。 我们将幼年期与青春期、青春期与成年期的差异表达基因定位在 MAPK 信号 通 路 上 , 发 现 前 者 在 总 体 上 明 显 上 调 ( 图 3-12A) , 其 关 键 基 因 如BDNF、PKC、 等都出现了显著的上调。 Ras 此外,对其他通路调节的一些转录因子如 Elk-1、c-JUN、ATF-2、Nur77 等也都出现了显著上调。而青春期和成年期位于MAPK 信号通路上的差异基因则表现出了总体上的明显下调(图 3-12B),相关的关键基因及转录因子都显著下调,但转录因子 Nur77 在两组通路中都表现出了 83
  • 99. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究上调,提示 ERK5 信号通路可能在大脑生后发育的整个过程中持续发挥作用。 A 幼年期与青春期文库的差异表达基因在 MAPK 信号通路上的定位 B 青春期与成年期文库的差异表达基因在 MAPK 信号通路上的定位 图 3-17 MAPK 信号通路分析 此外,定位在其他一些重要的信号通路上的差异表达基因,如 Wnt 信号通路、TGF-BETA 信号通路、VEGF 信号通路、Hedgehog 信号通路、Notch 信号通路等也都表现出了明显的先上调后下调的趋势,这些信号通路在神经元细胞的增殖、分化、成熟、运动及相互作用方面具有重要作用。 3.7.3.2 差异表达基因在细胞骨架肌动蛋白的调节通路上的定位 在哺乳动物的脑发育过程中存在神经细胞的迁移现象,即未成熟的神经细胞要精确迁移到达最后行使功能的目的地,然后才发育成熟,形成有功能的突触,最终行使其生理功能[99],神经细胞迁移涉及到信号转导、骨架蛋白、微丝微管蛋白等的功能协调。 58
  • 100. 结 果 我们对差异基因在细胞骨架肌动蛋白的调节通路上进行了定位,发现这些差异基因在生后发育的三个时期也存在先上调后下调的表达趋势 (图 3-18)。同样,与细胞迁移及粘附有关的通路如粘着斑、粘着连接、紧密连接等在幼年期到青春期相比于青春期到成年期都呈现出明显活跃的表达状态,提示在小鼠大脑的生后发育过程中,出生后到青春期这一阶段可能是细胞迁移活动不断增强的时期。 A. 幼年期与青春期的差异基因在细胞骨架肌动蛋白调节通路上的定位 B. 青春期与成年期的差异基因在细胞骨架肌动蛋白调节通路上的定位 图 3-18 细胞骨架肌动蛋白的调节通路分析 3.7.3.3 差异表达基因在轴突导向通路上的定位 轴突是从神经元细胞体发出的一根细长的圆柱形突起,轴突导向是指其在生长锥的指引下,经过复杂路径到达靶位点的过程 [100],这一过程需要许多导向因子的参与。轴突的导向生长对神经细胞的成熟、功能突触的形成及最终形成复杂高效的神经网络都有十分重要的功能。 在幼年期到青春期的大脑发育过程中,轴突导向通路上的许多基因上调(图3-19A),如受体基因UNC-5、CGL-1,以及神经元发育相关基因ROCK、PAK等。有趣的是,在这一时期的轴突导向通路中,与轴突吸引生长的相关基因大多表现为下调,与轴突排斥生长的许多相关基因表现为上调。而在青春期到成年期的大脑发育阶段,轴突排斥生长的上调趋势变得非常微弱,轴突导向通路在大脑生后的发育过程中整体上表现为下调状态 (图3-19B)。我们推测小鼠大脑的轴突排斥生长在生后相对活跃并一直持续至青春期,青春期之后,排斥生长趋于缓慢直至成年,而轴突吸引生长可能发生在胚胎期或初生阶段,随着生后发育基因表达不断降低。 85
  • 101. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究A 幼年期与青春期文库的差异表达基因在轴突导向通路上的定位B 青春期与成年期文库的差异表达基因在轴突导向通路上的定位 图 3-19 轴突导向通路分析 60
  • 102. 结 果 胞内钙为多种导向因子的下游效应开关,研究表明,吸引导向因子和排斥导向因子在作用于生长锥时都可引起胞内钙浓度的升高,只不过升高模式有所不同[101, 102]。我们发现,Ca2+信号通路在小鼠大脑生后发育过程中也出现了明显的先上调后下调的趋势,提示神经细胞的迁移和轴突生长主要发生在青春期之前的阶段。3.8 转录因子的表达分析 转录因子(transcription factor)是指能与基因 5’端上游特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。在真核生物中,转录因子与 RNA 聚合酶 II 形成转录起始复合物,共同参与转录起始的过程,因此研究不同时期转录因子的表达变化,可以了解发育过程中转录组的表达变化情况。3.8.1 三个文库中转录因子的判断和丰度分布 公共数据库资源中共有的 1,624 个转录因子中[85],在三个时期的小鼠大脑组织中分别有 1,343、1,393 和 1,419 个转录因子表达,其中有 1289 个转录因子在三个文库均有表达,转录因子在三个文库中的分布情况如图 3-20 所示。分别以RPKM≦1、RPKM=1-10 以及 RPKM>10 定义转录因子的低表达、中表达及高表达,并进行表达丰度的分布统计 ( 图 3-21),发现青春期高表达转录因子的比例较其他两个时期要高,这也与各文库表达基因的丰度分布基本一致。 图 3-20 转录因子在三个文库中的分布 87
  • 103. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图 3-21 转录因子表达丰度分布3.8.2 低表达转录因子的分析 以 RPKM 值≦1 为标准,分别在三个文库内鉴定了 254、 和 382 个低表达 304转录因子。在这些转录因子中,有一些转录因子如 Neurog2 、Pax6 、Six3 等已被报道在大脑发育过程中行使功能,此外还有大量的低表达转录因子对大脑发育的作用未知。第二代测序技术的优势之一是它的高通量可以检测到更多传统方法所发现不到的低表达基因,因此对这些低表达转录因子的进一步研究,将并有助于我们了解生后大脑的发育模式。3.8.3 高表达转录因子的分析3.8.3.1 高表达转录因子的判断和分布 在三个时期中分别有 224、 和 163 个转录因子活跃表达。 241 在三个文库中的分布统计(图 3-22),发现共有 121 个转录因子在三个时期持续高表达。 图 3-22 高表达转录因子在三个文库中的分布情况 62
  • 104. 结 果3.8.3.2 高表达转录因子的功能分类 对这些高表达的转录因子进行 GO 分类,如图 3-23 所示。可以看出这些转录因子涉及各个功能领域,其中青春期小鼠大脑转录组文库的转录调节因子存在较多的特异性表达。统计各个时期特有的高表达转录因子的功能分类统计结果表明(表 3-3),许多信号及神经发育相关的高表达转录因子在青春期的特异性表达明显增多,这些通路广泛涉及神经系统发育的各个方面,提示青春期的大脑发育较其他两个时期更为活跃,这与我们之前有表达基因分析得出的结果基本一致。 图 3-23 高表达转录因子的 GO 分类3.8.3.3 差异性高表达转录因子的分析 对三个时期的高表达转录因子的差异分析结果表明,幼年期和青春期之间有 101 个差异因子,其中 56 个上调,45 个下调;青春期和成年期之间有 103 个差异因子,其中 23 个上调,80 个下调。高表达转录因子在幼年期到青春期中上调居多,而在青春期与成年期之间大多表现为下调,这一趋势跟差异表达基因在不同时期的分布非常相似。 对不同时期的差异高表达转录因子的 GO 分类结果可以看出(图 3-24),幼年期到青春期的大脑发育中,转运因子、细胞定位、突触、刺激反应及生物节律功能相关的高表达转录因子呈现出明显的上调趋势;而在青春期到成年期,转运因子和细胞定位功能相关的高表达转录因子出现了显著的下调。在之前的差异基因分析中,细胞迁移、轴突生长等功能通路都呈现出先上调后下调的趋势,与差异 89
  • 105. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究高表达转录因子的 GO 分类结果大致相符。 表 3-3 不同时期特异性高表达的转录因子的功能分类 64
  • 106. 结 果A. 幼年期与青春期之间差异高表达转录因子的 GO 分类B. 青春期与成年期之间差异高表达转录因子的 GO 分类图 3-24 不同时期差异高表达转录因子的 GO 分类 91
  • 107. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 第四章 讨论及后续工作计划4.1 小鼠大脑转录组的概况 在本课题中,我们以在总 RNA 中去除 rRNA 后的 RNA 作为构建文库的材料,这使得我们不仅能够研究 poly-A 转录本,还能够从可变剪切、内含子和基因间区等方面更加全面的研究小鼠大脑生后发育过程中的转录组特点。 我们在三个不同发育时期的大脑转录组中分别检测到 15,344 , 16,048 和15,775 个表达基因,在三个时期内分别定义了 9,613、13,593 和 21,234 个内含子显著表达区域以及 10,011、8,639 和 4,616 个基因间区的活性位点,并对这些活性位点分类,最后在三个时期分别鉴定出了 772、650 和 345 个新的活性位点。4.2 小鼠大脑生后发育的特点 我们对表达基因进行了一系列的分析,包括基因表达谱的聚类分析、各染色体的表达活力、各基因功能分类的表达活力,以及差异表达基因在三个时期的分布、功能分类以及在 KEGG 代谢通路中的定位。这些结果都表明,小鼠大脑在生后发育过程中经历了一个先上调后下调的过程,青春期是生后大脑发育最活跃的时期,青春期与成年期的基因表达情况相对于青春期与幼年期来说差别更大一些。幼年期到青春期基因的表达数目明显增多,表达丰度明显增高,上调基因占多数,且代谢通路绝大部分都处于活跃上调状态;青春期至成年期,基因表达数目明显减少,表达丰度明显降低,下调基因占绝大多数,且代谢通路绝大部分处于下调状态,整个大脑发育趋于成熟稳定。对转录因子的分析也与此趋势相符。 66
  • 108. 讨论及后续工作计划 此外,在小鼠大脑的生后发育过程中,表达基因的内含子区域及基因间区也存在大量的转录活跃区域,许多表达基因具有可变剪接形式,这些还有待于进一步的分析。4.3 本文创新点 1、文本首次应用新一代测序技术( RNA-seq)对生后小鼠大脑组织在三个不同发育时期的基因表达谱进行了研究和分析,使我们能够更加深入和全面的了解生后小鼠大脑组织的基因表达谱的变化。一些基因在小鼠大脑的不同发育阶段存在显著的表达差异,说明大脑的生后发育呈现出明显的发育时期特异性,这些差异表达基因可以帮助我们更好的了解大脑生后的发育过程,为深入研究大脑生后发育的分子机制提供理论基础。 93
  • 109. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 2、首次将非编码的内含子区和基因间区纳入了小鼠大脑组织转录组的研究中。三个不同发育时期的小鼠大脑组织中分别鉴定出了大量的内含子表达异常活跃区域以及基因间区的表达活性转录本,这些非编码区域在不同时期的表达谱变化与表达基因的表达谱并不一致,其中内含子活跃表达的基因大都与一些疾病相关,这为今后非编码区域的研究提供了思路。 3、首次应用第二代测序手段对小鼠大脑组织不同发育时期基因的可变剪切情况进行了探讨。三个文库中共鉴定出 9,145 个基因具有可变剪切形式,这对于我们后续工作中分析表达基因可变剪切形式的变化,乃至分析大脑生后发育转录组的表达变化情况提供基础。4.4 后续工作计划 1、我们在生后小鼠大脑组织的三个不同发育阶段鉴定出了大量差异表达基因,数据分析表明这些基因可能在大脑发育过程中发挥着重要作用。在后续工作中,我们会采用 RT-PCR 的方法对这些基因在三个文库之间的差异表达情况进行验证,并结合不同发育阶段小鼠大脑的形态和生理特征对这些基因的功能进行推测,为下一步运用基因敲除小鼠模型的研究提供依据。 2、我们将在后续工作中对基因的可变剪切进行更为深入的研究,寻找新的可变剪切形式,分析大脑生后发育过程中的关键基因可变剪切形式的变化情况及与其基因功能的对应,然后进一步用实验方法对这些可变剪切的稳定性进行鉴定。 3、我们发现了一些在小鼠大脑生后发育过程中表达活跃的转录因子(例如Nfe2l1、Cbx6、Rbm9、Cnbp 等),将在后续工作中使用 CHIP-seq 技术鉴定转录因子 68
  • 110. 讨论及后续工作计划的靶基因,对其靶基因进行功能分类及各发育阶段表达谱变化的研究,明确这些转录因子在大脑生后发育过程中的生物学作用。4、我们会进一步优化内含子和基因间区转录功能元件的判断标准,为研究这些转录元件在转录组中的作用及与表达基因的相关性奠定基础。 95
  • 111. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究 摘 要 绿藻门植物被普遍认为是高等陆生植物的祖先,研究它的进化路线对于整个植物进化具有非常重要的意义。藻类植物的基因序列保守性较差,所以有必要通过对叶绿体整个基因组的比较来确定其进化过程。 我们选取中国海区最常见的羽藻——藓羽藻作为研究对象,对其叶绿体进行全基因组测序,并进行了比较基因组与系统发育等的分析。结果表明,藓羽藻的叶绿体基因组 (cpDNA) 全长为 153,429 bp ,为环形的双链 DNA ,不含反向重复序列, GC 含量无明显的偏向性,平均为 33.1% 。 藓羽藻 cpDNA 共编码 111 个基因,包括 69 个蛋白编码基因, 5 个 rRNA 基因和 37 个 tRNA 基因,此外还预测到 29 个长度在 300bp 以上的 ORF 。与大多数绿藻的基因组成相同,藓羽藻 cpDNA 所有的编码基因都是单拷贝。在基因排列方面,我们发现藓羽藻 cpDNA 含有一些保守的基因簇和基因对。 在藓羽藻 cpDNA 的编码基因中,发现有 10 个基因含有内含子,其中 除rrn16基因含有两个内含子外,其余9个基因各含有一个内含子。与其它已测序的绿藻 cpDNA 相比,藓羽藻 cpDNA 存在着 10 个特殊的 tRNA ,其中 5 个与一些有胚植物相对应,另外 5 个仅在一些细菌的基因组中发现。在其它绿藻cpDNA 68
  • 112. 摘 要中 , rrn3 和 rrn7 通 常 缺 失 , 而 藓 羽 藻 cpDNA 含 有 完 整 的 5 个 rRNA 基 因 :rrn23,rrn16,rrn7,rrn5和rrn3,目前仅在 C. reinhardtii cpDNA 中发现过这套完整的 rRNA 基因,并且与藓羽藻 cpDNA 中 rRNA 基因的排列顺序是一致的。 我们用 cpDNA 基因编码的 42 个较为保守的蛋白质串联序列,对包括藓羽藻及其近缘藻种、其他藻类和陆生植物在内的 31 种植物构建了系统发育树,以研究它们之间的进化关系。结果表明,植物界明显分为绿色植物和非绿色植物两大类群,而绿色植物又进一步分成绿藻门 (chlorophyta) 和 streptophyta 两大类。 MP 和 ML 法构建的系统发育树均显示藓羽藻与绿藻纲的 4 种藻聚成一支, 系统发育树所显示的支持率较高的系统发育关系与已发表的基于叶绿体基因组的进化关系的研究结果是一致的。关键词: 藓羽藻,叶绿体基因组,系统发育分析 97
  • 113. 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究 Abstract Chlorophyta is universally considered as the progenitor of land plants, theresearch of its development plays an important role in exploring the plant kingdom’sevolution. But because of the genes coded by genome are not conservative inChlorophyta plants, researching their chloroplast genomes(cpDNA) is necessary forthe study of evolution. Using Bryopsis hypnoides which is a pervasive algae in China sea as the studyobject, we sequence its cpDNA and perform comparative genomics and phylogenyanalysis. The cpDNA of B. hypnoides is cyclic and double-stranded which has153,429bp. It has no inverted repeat sequence, the mean GC content is 33.1% withscarcely bias. The cpDNA of B. hypnoides has 111 functional genes, including 69 protein-coding genes, 5 rRNA genes and 37 tRNA genes, and we predict 29 ORF with astandard of no less than 300bp. Like the most algaes, all genes of B. hypnoidescpDNA have single copy. We also study genes arrangement and discover many geneclusters and gene pairs in B. hypnoides cpDNA. There are 10 genes have introns, as well as rrn16 has 2 introns, the others has 1intron respectively. Compared with other completely sequenced algaes, B. hypnoidescpDNA has 10 unusual tRNA genes, 5 of which correspond to those identified insome embryophyte cpDNAs, whereas the other five have been found previously onlyin some bacterial genomes. B. hypnoides cpDNA has 5 rRNA genes: rrn23, rrn16,rrn7, rrn5, and rrn3, the same situation can be found only in C. reinhardtii cpDNA, asgenes rrn7 and rrn3 are absent from all other completely sequenced chlorophytecpDNAs, and both C. reinhardti and B. hypnoides have the same rRNA genesarrangement. We conduct phylogenetic analysis using the concatenated sequences of 42protein sequences from 31 algal/land plant organisms, including B. hypnoides, to 70
  • 114. Abstractelucidate their phylogenetic relationship. It’s distinctly that the tree identified twodistinct lineages: the green lineage and the non-green lineage. Moreover, thechlorophytes and streptophytes form two distinct green lineages. The trees inferredwith ML and MP methods both identified a clade uniting B. hypnoides and fourcomplete sequenced members of the Chlorophyceae. The relationships with highbootstrap in the phylogeny are congruent with recently published phylogenies basedon whole chloroplast genome sequences.Key words: Bryopsis hypnoides, chloroplast genome, phylogenetic analysis 99
  • 115. 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究 引 言 陆生植物起源于绿藻,这是一个被普遍接受的假说 [103] ,因此研究绿藻植物的进化情况对整个植物进化的研究和理解具有非常重要的作用。目前藻类植物的进化关系还不明朗,而藻类植物的基因序列保守性较差,因此有必要通过对叶绿体整个基因组的比较来确定其进化过程。 叶绿体普遍存在于陆地植物、藻类和部分原生生物中,是细胞内行使光合作用、具有自主遗传信息的重要细胞器。植物叶绿体DNA(cpDNA) 为闭环双链 DNA ,约 120-210kb 。大多数植物的cpDNA 由两个反向重复序列 (IR) 以及两个 IR 之间的大单拷贝区 (LSC) 和小单拷贝区 (SSC) 组成。与核基因组 DNA 相比,叶绿体基因组较小,结构也比较简单,重复序列相对较少;此外,叶绿体基因较为保守,进化速率仅为核基因的 1/5[104] 。与线粒体基因组相比,叶绿体基因组的重排事件发生频率很低。因此,叶绿体基因组结构和序列的信息在研究进化方面具有明显的优势,对叶绿体基因组的分析已经被广泛应用于揭示物种起源、进化演变及不同物种之间的亲缘关系等方面的研究。 藓 羽 藻 属 于 石 莼 纲 (Ulvophyceae) , 羽 藻 目 (Bryopsidales) , 羽 藻 科(Bryopsidaceae) ,是一种单细胞、多核的大型绿藻,丛生于中、低潮带的礁石及石沼中,取材方便,含量丰富。我们以藓羽藻的叶绿体基因组作为研究对象,对其进行基因组文库构建及测序,得到了完整的基因组序列,并对基因组的特征以及基因的分布和功能进行了分析。此外,我们挑选了藓羽藻叶绿体基因组中较为保守的基因所编码的氨基酸序列,与其他一些藻类或陆生植物的同源蛋白序列一起构建系统发育树,以此研究它们之间的进化关系,为藻类植物的进化提供更为完善的证据。 72
  • 116. 文献综述 第一章 文献综述1.1 绿藻门概述 绿藻门是藻类植物最大的一门,包括约350个属,8600种,在世界各地广泛分布,其中淡水种类约占90%,海产种类约占10%。绿藻门植物的细胞形态多种多样,主要分为单细胞、群体和多细胞三种类型。在生殖方面,绿藻门植物有营养生殖、无性生殖和有性生殖三种方式。绿藻门植物的生活史也是方式各异,包括单倍体的藻体型,双倍体的藻体型,以及双单倍体 (或单双倍体)的藻体型(即世代交替)。 植物界可以分成绿色植物和非绿色植物两大分支,绿色植物又可分为streptophyta和绿藻门两个分支。前者包括陆生植物和与之亲缘关系较近的绿藻—轮藻纲;后者则包括了除轮藻纲之外的所有绿藻植物[105, 106]。绿藻门植物的系统分类一直有所争议,目前普遍认可的一种分类是将绿藻门分为四个纲,即绿枝藻纲、trebouxiophyceae、石莼纲和绿藻纲,目前对绿藻门的系统发育研究表明,绿枝藻纲处于绿藻门系统发育树的底部,是绿藻门中最古老的一个纲,而其余三个纲的进化顺序还存在争议:基于叶绿体基因组蛋白质编码基因串联的核苷酸和氨基酸数据,得出石莼纲与Trebouxiophyceae 呈姊妹群的结论[107];但基于叶绿体基因的排列顺序的进化分析表明,石莼纲与绿藻纲呈姊妹群关系。它们之间的进化关系需要更进一步的研究来明确。绿藻门的分类情况和进化地位 101
  • 117. 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究如图1-1所示。 图1-1 绿藻门植物分类情况和进化地位示意图 72
  • 118. 文献综述 藓羽藻属于石莼纲,羽藻目,羽藻科,是一种单细胞、多核的大型绿藻,丛生于中、低潮带的礁石及石沼中,是我国海区最为常见的羽藻种类(图1-2)。对羽藻的研究主要集中在对微观结构以及生活史[108-111]、次生代谢物质[112, 113]、与海洋软体动物海蛞蝓特殊共生关系 [114-116]以及羽藻原生质体再生过程中团聚机理[117-119]等方面的研究。目前对羽藻叶绿体基因组的研究甚少,因此我们对藓羽藻叶绿体基因组进行了全面分析,并通过与其它植物构建系统发育树,对绿藻门植物的进化关系作了进一步的研究。 图1-2 藓羽藻1.2 藻类叶绿体基因组概况1.2.1 叶绿体基因组的结构特征  叶绿体DNA(cpDNA)由Ris和Plaut于1962年最早发现于衣藻叶绿体[120]。叶绿体基因组DNA一般为双链环状,极少数为线状(如伞藻)。藻类植物尤其是绿藻植物的cpDNA大小差异很大,目前发现的最小的绿藻cpDNA只有37 kb,来自一种寄生性的绿藻 (Helicosporidium sp.ex Simulium jonesii) ;而伞藻的 cpDNA 则高达2000 kb。 103
  • 119. 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究 叶绿体基因组结构比较保守,其双链环形 DNA 一般由大单拷贝区 (largesingle copy region,LSC)、小单拷贝区(small single copyregion,SSC)、反向重复区A(inverted repeat region A , IRA) 和反向重复区 B(inverted repeat region B , IRB) 四部分组成,其中2 个IR区域的序列相同,但方向相反(如图1-3所示)。在进化过程中,这4部分的结构顺序基本保持不变,但不同物种的叶绿体基因组在 IR区域的 IR长度和方向上有所变化。 区段可能在进化过程中得失过多次,这说明它不是叶绿体功能的必需部分,至少不一定总是必需的[121]。 研究表明,在藻类的 cpDNA中除了主基因组外,还存在一种小的环状 DNA分子,即质粒DNA,它和主基因组具有同源性,或以游离状态,或以整合到主基因组上的方式存在 [122-124],这说明藻类的叶绿体基因组是由大小不均一的DNA分子组成, 即藻类的cpDNA具有异质性。 图1-3 绿肾藻(Nephroselmis olivacea)的叶绿体基因组图谱[125] 内圈显示了叶绿体基因组的4个组成部分1.2.2 叶绿体基因组的起源 74
  • 120. 文献综述 关于cpDNA的起源,目前普遍认可的是“叶绿体起源于原始真核细胞内共生的蓝藻”这一假说,即具备光合能力的蓝藻被没有光合能力的单细胞原生生物吞噬,最终形成相互的依赖关系,并逐步演化成三个重要种群,即红藻、绿藻和褐藻,其中部分藻类还进行了第二次共生、第三次共生,甚至第四次共生[126,127]。但对于不同类型的叶绿体是单一起源还是多起源的问题,目前还存在争议。1.2.3 叶绿体基因组的基因组成 研究显示,从低等藻类到相对高等的绿藻再到高等陆生植物的进化过程中,质体基因组存在着容量从大到小、编码的基因从多到少、基因排列顺序变化较少而逐渐趋于稳定的规律。绿藻叶绿体的编码基因数量与陆生植物相近,但含有一些特殊的基因。 叶绿体基因组中编码的基因根据功能不同可分成三大类:第一类是与转录和翻译有关的基因,即遗传系统基因,主要包括核糖体RNA(rRNA)基因、转运RNA(tRNA)基因、核糖体蛋白基因、翻译因子和RNA 聚合酶亚基基因等;第二类是与光合作用有关的基因,即光合系统基因,主要包括核酮糖 -1,5-二磷酸羧化酶/加氧酶亚基基因、光系统I 基因、光系统II 基因、细胞色素 b/f 复合物基因、NAD(P)H 脱氢酶基因和ATP 合成酶基因等;第三类是与氨基酸、脂肪酸、色素等物质的生物合成有关的基因,即生物合成基因,主要是参与维持叶绿体的正常结构和生理功能[128],对这类基因研究较少,许多基因产物还没有最终确 105
  • 121. 第二部分 藓羽藻的叶绿体基因组测序分析和进化研究定。从基因在叶绿体基因组上的分布来看, IR 区域主要分布着编码 rRNA 的基因,以及一些功能未知的基因 (如ycf 基因);LSC 和SSC区域分布的主要是与光系统I和光系统II有关的基因、编码Rubisco大小亚基的基因、tRNA基因、ATP 酶基因、NAD(P)H质体醌氧化还原酶基因以及RNA聚合酶基因等。不同物种的叶绿体所包含的基因数量和种类会有较大的变化,有一些基因是藻类植物所特有的,在高等陆生植物中不存在,例如编码 Rubisco小亚基和藻红蛋白、藻蓝蛋白的基因等。1.2.4 叶绿体基因组在藻类系统发育研究中的应用 藻类植物的叶绿体基因组由于其基因组较小、结构简单、重复序列较少、基因进化保守、重排事件发生率低等一系列优点,被广泛应用于藻类植物的系统发育研究方面。叶绿体基因组的编码区和非编码区的分子进化速度有明显差异[129],适用于不同层次的系统学研究。编码区的DNA进化速度较慢,适用于科、目以上的较高分类单位的系统发育学研究。非编码区进化速度较快,适用于种、属以下的较低分类单位的系统发育学研究。 绿藻门的叶绿体基因组在进化过程中具有较大的可变性,因此,对叶绿体基因组的比较分析有助于阐明藻类植物的系统发育关系。到目前为止,有14种绿藻 门 植 物 的 叶 绿 体 基 因 组 序 列 已 测 定 , 它 们 包 括 绿 枝 藻 纲 的 Nephroselmisolivacea 、 Ostreococcus tauri 、 Pyramimonas parkeae 、 Pycnococcus provasolii 和 76
  • 122. 文献综述Monomastix sp. OKE-1 , trebouxiophyceae 的 Chlorella vulgaris 和 Leptosiraterrestris , 石 莼 纲 的 Pseudendoclonium akinetum 、 Oltmannsiellopsis viridis 和Helicosporidium sp , 以 及 绿 藻 纲 的 Chlamydomonas reinhardtii 、 Scenedesmusobliquus、Stigeoclonium helveticum和Oedogonium cardiacum [107, 125] [130-139]。目前对绿藻门的系统发育分析显示绿枝藻纲的进化地位最为古老,而石莼纲,Trebouxiophyceae和绿藻纲之间的进化关系仍不明确。这些已测序的绿藻叶绿体基因组的研究结果表明,藻类植物的叶绿体基因组在结构和功能上都比高等植物复杂得多,很难将其归类。因此,对更多绿藻叶绿体基因组序列的测定将会为藻类植物系统发育研究提供更好的证据。 107
  • 123. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 第二章 材料与方法2.1 实验材料 藓羽藻(Bryopsis hypnoides)采自青岛栈桥潮间带。2.2 叶绿体DNA的提取和纯化2.2.1 叶绿体的分离纯化 (1) 将新鲜采集的藓羽藻用新鲜过滤海水清洗几次,并用软笔刷去除附着物,洗净晾干。 (2) 剪碎藓羽藻藻体,挤出原生质体。加入适量冰预冷的叶绿体离心缓冲液(500 mM 蔗糖, 5 mM EDTA , 50 mM Tris , 0.1% BSA , 0.1% β- 巯基乙醇, pH7.2),四层纱布过滤,滤液于4℃,800g,离心10 min。 (3) 弃上清,沉淀重新用离心缓冲液悬浮, 4℃,800g ,离心10 min ,弃上清。显微镜下观察,此时大部分的沉淀颗粒都是叶绿体。 TM (4) 在 Beckman Coulter Optima XL-80K Ultracentrifuge 仪器上用 SW-40 转子 对 粗 提 的 叶 绿 体 进 行 不 连 续 蔗 糖 密 度 梯 度(10% , 20% , 30% , 40% , 50% , 60%) 超 速 离 心 , 超 速 离 心 条 件 为 :4℃,150,000×g,90 min。 (5) 将离心后呈现的各条叶绿体带分别取出,用冲洗缓冲液 (500 mM 蔗 78
  • 124. 材料与方法糖,50 mM Tris,0.1% BSA,pH 7.2)反复离心几次或透析处理,去掉高浓度的蔗糖,然后溶于定量的冲洗缓冲液中。显微镜下观察取完整的叶绿体的条带以进行叶绿体基因组的提取。2.2.2 叶绿体DNA的提取(高盐低PH 法) (1) 将分离的叶绿体溶于适量的裂解缓冲液(50 mM Tris,25 mM EDTA,2%SDS,50μg/ml 蛋白酶 K,pH 8.0)中,置于 40℃水浴中温育 3 h 左右,期间轻轻地摇动几次;然后于4℃,10,000×g,离心15 min, 去掉残渣。 (2) 上清液先用等体积酚抽提一次,再用酚:氯仿:异戊醇(25:24:1)抽提一次,最后用氯仿:异戊醇(24:1)抽提一次。 (3) 小心吸出水相并向水相中加入 1/10 体积的 3 M 乙酸钠 (pH 5.2)和两倍体积冰预冷的无水乙醇,于-20℃中静置数小时。 (4) 静置后在 4℃ , 10,000×g ,离心 10 min ,沉淀用冰预冷的 70% 乙醇洗一次,待乙醇挥发完全后,溶于适量无菌超纯水中待用或保存于-20℃。2.2.3 叶绿体DNA的纯化(CsCl 密度梯度离心法) (1) 每克高盐低 pH 法所提 cpDNA 原液中加入 1.01 克 CsCl ,混匀溶解 ( 可于30℃温育促溶)。 109
  • 125. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 (2) 每5克DNA原液中加入100 μl 溴化乙锭(EB)母液(10 mg/ml),混合后装入Beckman Ti 80超速离心管,上面封一层石蜡油。 TM (3) 在 Beckman Coulter Optima XL-80K Ultracentrifuge 仪器上用 BeckmanTi 80 转子进行超速离心,离心条件为20℃,240,000×g,38 h。 (4) 离心结束后取出离心管,将离心管放在紫外灯下水平照射并取出最亮的主带,用等体积去离子水饱和的正丁醇反复抽提去除 EB,直到粉红色看不见为止。 (5) 于 4℃ 用 TE(pH 8.0)进行透析,透析结束后加入 1/10 体积的 3 M 乙酸钠(pH 5.2)和两倍体积的冰预冷的无水乙醇,于-20℃中静置数小时。 (6) 4℃下最大转速离心,沉淀用冰预冷的 70%乙醇洗一次,待乙醇挥发完全后,溶于适量无菌超纯水中,用紫外分光光度计对DNA 浓度进行定量。2.3 叶绿体基因组文库的构建 (1) 取5μg 纯化的cpDNA,用超声打断。超声时间2s,间隔时间2s,工作次数4次。取2μl样品电泳检测,主带在1.5-3kb 。 (2) 末 端 补 平 : 90μl 补 平 体 系 (50μl DNA , 5μl T4 DNA polymerase , 7μl 78
  • 126. 材料与方法dNTP,9μl BSA,9μl 10×T4 Buffer,10μl ddH2O),37℃水浴1小时。 (3) 补平后的 DNA 片断于 0.8% 琼脂糖凝胶, 60v 电压下电泳 2 小时,在长波紫外灯下分别切割位于 1.5-2 , 2-2.5 , 2.5-3 kb 位置的 DNA 条带,用 QIAquick 凝胶试剂盒回收。 (4) 将 DNA 片 段 连 接 至 载 体 : 10μl 连 接 体 系 (7μl DNA , 1μlPBK(E/X)vector , 1μl T4 DNA ligase , 1μl T4 DNA ligase 10× Buffer) , 14℃ , 16小时。然后纯化产物,用半透膜过滤离子,以便下一步的电转化。 (5) 电转化:取感受态细胞40μl,冰上缓慢解冻,加入2μl连接产物,混匀后加到电击杯底部, 2.1kv 电击,迅速加入 1ml SOC , 37℃ , 170rpm 复苏 1 小时;涂平板,37℃过夜培养。 111
  • 127. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 (6) 蓝白斑筛选,挑取单克隆,用碱裂解法提取质粒模板。2.4 叶绿体基因组的测序及组装 测序文库平均插入片断大小为 2kb,利用 pUC18 多克隆位点两侧的 M13 通用引物通过自动测序仪ABI 3730进行测序,使用Phred/Phrap/Consed软件来进行组装,其中 Phred 程序将峰图文件转换为 phd 文件, phd2fasta 将 phd 文件转换为fasta文件;cross_match屏蔽载体序列; Phrap进行基因组的组装; Consed检查拼接和Finishing[140-142]。2.5 序列分析 通过NCBI(http://www.ncbi.nlm.nih.gov) 的BLAST 与 GeneBank 数据库的序列比对进行基因注释,并使用 ORF-finder 进行蛋白编码基因和 ORF 阅读框的确认;tRNA基因通过tRNAscan-SE软件进行预测;内含子/外显子的边界通过内含子二级结构的预测和 Wisconsin 软件包的 FRAMEALIGN 比对同源序列进行定位;基因组序列的环形图谱通过CGView 软件生成[143-145]。2.6 系统发育树的构建 从 GenBank上下载 31种陆生植物和藻类的叶绿体基因组全序列 ( 表2-1) ,选 80
  • 128. 材料与方法取 较 为 保 守 的 42 个 蛋 白 编 码 基 因(atpA,atpB,atpE,atpF,atpH,petB,petD,petG,psaA,psaB,psaC,psaJ,psbA,psbB,psbC,psbD,psbE,psbF,psbH,psbI,psbJ,psbK,psbN,psbT,psbZ,rpl2,rpl14,rpl16,rpl20,rpl36,rps2,rps3,rps4,rps7,rps8,rps11 , rps12 , rps14 , rps18 , rps19 , ycf3 , ycf4) ,将这些基因所编码的氨基酸序列连接后用 CLUSTAL X 1.81 软件进行多序列比对,然后分别用最大似然法(maximum likehood , ML) 和最大简约法 (maximum parsimony , MP) 构建系统发育树。 分析在PHYML 3.0 软件中完成,分析选择cpREV45+Γ+I 氨基酸替换模 ML型和 100 次重复的 bootstrap 检验; MP 树采用 MEGA 4.0 软件完成,选择 Close-Neighbor-Interchange 运算法则构建和1000 次自展检验。生成的系统发育树最后通过MEGA 4.0的TreeExplorer显示,并做相应的修改和编辑。 113
  • 129. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究表2-1 用于构建系统发育树的物种名称及序列号 80
  • 130. 结 果 第三章 结果3.1 叶绿体及其DNA的提取 对差速离心的叶绿体粗提液进行不连续的蔗糖密度梯度离心,结果分成五条带(图3-1),选取叶绿体浓度和个体都较大的第2,3条带进行叶绿体DNA的提取。 通过高盐低pH法和CsCl密度梯度离心相结合的方法提取和纯化 cpDNA。纯化后的cpDNA 经1%琼脂糖凝胶电泳检测显示条带单一(图3-2),紫外分光光度 260 280计检测OD /OD 值为1.79,其纯度及完整性均达到构建文库的要求。 图3-1 藓羽藻叶绿体的蔗糖密度 图3-2 纯化后的cpDNA经1% 梯度超速离心。图中数字表示分 琼脂糖凝胶电泳检测 离的叶绿体带层3.2 叶绿体基因组文库的构建及测序拼接 对提取的藓羽藻cpDNA用鸟枪法进行全基因组测序,将得到的3388条reads序列用 Phred/Phrap/Consed 软件进行组装 ( 表 3-1) ,结果共有 2955 条 reads 组装成111 个contigs,有效 reads 的平均长度为 828bp。大于 10kb 的contigs有 4个,这 4 个contigs的总长约125kb,占之前估测的藓羽藻cpDNA大小(150kb)的80%左右,其 115
  • 131. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究reads覆盖度为9.06,达到finish的要求。通过对组装后的文库进行finish补洞,最终形成一个完整的环状cpDNA。 表3-1 藓羽藻cpDNA文库组装情况3.3 藓羽藻cpDNA的基因组特征 藓羽藻叶绿体基因组全序列已提交至 GenBank( 登录号 GQ892829)。藓羽藻cpDNA全长153,429 bp,为环形双链DNA(图3-3);GC含量无明显的偏向性,平均为33.1%;不含反向重复序列(IR)。其他已测序的绿藻门植物cpDNA的基因组特征的比较情况如表 3-2 所示,可以看出藓羽藻 cpDNA 的 GC 含量与其他绿藻cpDNA基本持平,不含 IR的特征也与其近缘物种 C. sertularoides 和C. fragile 相一致。与其他已完成测序的绿藻门cpDNA 相比,藓羽藻与小球藻C. vulgaris 的序列最为接近。 图3-3 藓羽藻叶绿体基因组图谱 位置0在12点钟位置,蓝色表示CDs基因, 红色表示tRNA基因,紫色表示rRNA基因 82
  • 132. 结 果 表3-2 不同藻类植物cpDNA的基因组特征 藓羽藻叶绿体基因组共编码 111 个基因,包括 69 个蛋白编码基因, 5 个rRNA基因和37个tRNA 基因,所有的编码基因均为单拷贝。此外,还预测到29个长度大于300bp的ORF。藓羽藻cpDNA的基因组成及蛋白产物的功能分类如表 3-3所示。 117
  • 133. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 表3-3 藓羽藻cpDNA的基因组成 注:标*表示该基因含有内含子 将 藓 羽 藻 cpDNA 与 石 莼 纲 (Ulvophyceae) 、 Trebouxiophyceae 、 绿 藻 纲(Chlorophyceae)已测序cpDNA 的基因进行比较,发现它们有84个共有基因。与同纲的 O. viridis 和 P. akinetum 相比,藓羽藻 cpDNA 缺失了 7 个蛋白编码基因(chlI , minD , psaI , psaM , rpl19 , ycf1 和 ycf20) ,而在 O. viridis 和 P. akinetum中缺失的编码硫转运蛋白的cysA和cysT基因,在藓羽藻及另外两种藻类植物(C.vulgaris和L. terrestris)的cpDNA 中是存在的。另外,将非共有的基因在这些已测cpDNA中的缺失情况进行统计 (表3-4),结果表明,在这 42个非共有基因中,小球藻C. vulgaris与藓羽藻的共享基因最多,为14个,而藓羽藻与同为石莼纲的两种植物O. viridis 和P. akinetum的共享基因分别为12个和10个。 84
  • 134. 结 果 表3-4 藓羽藻和其它已测的绿藻cpDNA非共有基因的比较情况 注 : 1. 缩 写 : Cv: Chlorella vulgaris , Lt: Leptosira terrestris , Ov: Oltmannsiellopsis viridis , Pa:Pseudendoclonium akinetum , By: Bryopsis hypnoide , Cr: Chlamydomonas reinhardtii , So:Scenedesmus obliquus , Sh: Stigeoclonium helveticum , Oc: edogonium cardiacum 2. ●表示具有,○表示缺失 在基因排列方面,藓羽藻 cpDNA 具有一些保守的基因簇 (rpl16 -rpl14 -rpl5-rps8 -infA- rpl36 -rps11 -rpoA,rps2 –atpI –atpH –atpF -atpA,psbE –psbF –psbL -psbJ , ccsA –chlL –chlN) 和基因对 (psbB -psbT , rpl23 -rpl2 , atpB -atpE , petB-petD,rpl2 -rps19,rps12 -rps7,psbD -psbC,rpoC1 -rpoC2,rps19 -rps3,rps9 -rpl12, rps2 -atpI ,rpl20 -rps18, psbK -ycf12, psaA –psaB) ,而另外一些保守的基 因 对 和 基 因 簇 在 藓 羽 藻 的 cpDNA 中 是 缺 失 的 , 如 rps3 -rpl16 , rpoB-rpoC1,tufA -rpl19,petA -petL -petG。 我们发现有10个基因含有内含子,内含子长度从 348-2466 bp 不等,其中除rrn16 基 因 含 有 两 个 内 含 子 外 , 另 外 9 个 基 因(atpA,psaA, psbB ,rbcL ,rpl2, rpl5 ,rpl23, trnL-UAA, ycf3) 各含有一个内 119
  • 135. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究含子。其中,rpl2基因的内含子在陆生植物中普遍存在,但在绿藻门cpDNA中是首次发现。基因rpl5和rpl23的内含子在绿色植物界的cpDNA 中属首次发现。 藓羽藻cpDNA含有37 个tRNA 基因,长度为71 bp-115 bp不等,可以满足叶绿体蛋白翻译过程中所有密码子的需要。与其他已测序的绿藻 cpDNA 相比,藓羽 藻 cpDNA 存 在 10 个 特 殊 的 tRNA , 其 中 5 个 (trnA-AGC , trnE-CUC , trnI-AAU , trnV-CAC 和 trnV-AAC) 存 在 于 一 些 有 胚 植 物 中 , 而 另 外 5 个 (trnA-CGC,trnK-CUU,trnP-AGG,trnQ-CUG 和trnT-AGU)仅在一些细菌基因组中发现过。这些特殊的tRNA 基因是否为功能基因以及是否在藓羽藻叶绿体中执行一些特殊的生理功能,还有待于进一步证实。 藓羽藻叶绿体基因组的另一个显著特征与 C. reinhardtii cpDNA一样,含有一 整 套 rRNA 基因: rrn23 , rrn16 , rrn7 , rrn5 和 rrn3 ,而在其 它绿藻 cpDNA中,rrn3 和rrn7 通常缺失。C. reinhardtii 和藓羽藻cpDNA中rRNA的排列顺序是一致的:rrn16-rrn5-rrn23-rrn3-rrn7,不同的是, C. reinhardtii 中为连续排列,而藓羽藻中则被断裂成两部分, SSU和LSU 基因分别于环形基因图相对的两端,这一排列现象在同为石莼纲的 C. fragile和C. sertularoides中也发现过[146, 147],推测可能是反向重复缺失的结果。 86
  • 136. 结 果3.4 系统发育关系 选取31种植物叶绿体基因组的42个较为保守的蛋白编码基因串联的氨基酸数据,分别用 ML法和MP法构建系统发育树,在基因组水平上深入研究了藓羽藻与近缘藻种及其它一些藻类和陆生植物之间的系统发育关系(图3-4)。 121
  • 137. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 图3-4 31种藻类和陆生植物的系统发育树(ML树)注 : 以 Cyanophora paradoxa 作为 外类 群 , 各 分 支上 的数 值 分 别 为 ML/MP 的 bootstrap值,虚线表示MP树拓 扑结构有异于 ML树的部分,图表右侧显 示物种的从属关系。 系统发育树显示,植物界明显分为绿色植物和非绿色植物两支,而绿色植物又进一步分成绿藻门(chlorophyta)和streptophyta两个分支。MP和ML法构建的系统发育树均显示藓羽藻与绿藻纲的 4 种藻聚成一支,且支持率为中高水平(Bootstrap 值分别为90%和62%)。绿枝藻纲(Prasinophyceae)的绿肾藻N. olivacea位于进化最早的分支,这与之前研究显示的绿枝藻纲在绿藻门中最为古老的进化地位相符。一些代表性的非绿藻和streptophyta的进化关系与已发表的基于叶绿体基因组的进化关系是一致的,且支持率都比较高。例如在非绿藻中,红藻 P.purpurea 和 G. tenuistipitatevar. liui 聚 为 一 支 , 这 一 支 又 与 杂 色 藻 纲 的 G.theta,R. salina,O.sinensis 和E. huxleyi 形成姊妹群,而另外两种红藻 C.merolae和 C. caldarium 单独聚为一支;在 streptophyta 内, Chlorokybus 和 Mesostigma 聚为一支,并位于该门的基部;轮藻纲 (Charophyceae)的另外四种藻则与两种高等 88
  • 138. 结 果植物Ntabacum 和M. polymorpha 聚在一起[148, 149]。 123
  • 139. 第二部分 藓羽藻叶绿体基因组的测序分析和进化研究 第四章 结论 藓羽藻cpDNA从基因组的大小、基因组成和排列以及反向重复序列缺失的特征来看,都更接近于小球藻 C. vulgaris , 而不是同为石莼纲的 O. viridis 和 P.akinetum。之前研究表明,植物一些生理功能的缺失和获得似乎伴随着叶绿体基因组编码基因的改变,而藓羽藻的叶绿体基因组大小约为 153 kbp,其编码的基因也与大多数绿藻相同,因此藓羽藻叶绿体的自主性与 cpDNA 的大小和基因内容没有直接关联。 已有研究表明,大多数植物叶绿体的环状 DNA含有的反向重复序列 IRA 和IRB , 在 多 种 绿 藻 植 物 的 cpDNA 中 是 缺 失 的 , 如 绿 枝 藻 纲 的 Monomastix 和Pycnococcus , 石 莼 纲 的 Caulerpa 和 Codium , 绿 藻 纲 的 Stigeoclonium , 以 及trebouxiophytes的Chlorella、Helicosporidium和Leptosira,这表明IR的丢失在绿藻植物各支系中的演化是独立发生的。 在绿藻门植物的系统发育关系方面, 绿枝藻纲 (Prasinophyceae) 的基础地位已经确定, 但 石 莼 纲 (Ulvophyceae) , Trebouxiophyceae 和 绿 藻 纲(Chlorophyceae)之间的进化关系仍存在争议。叶绿体基因组蛋白质编码基因串联的核苷酸和氨基酸数据显示石莼纲 与 Trebouxiophyceae 呈姊妹群,而叶绿体基 90
  • 140. 结 果因的排列顺序和线粒体基因组蛋白质编码基因串联的核苷酸和氨基酸数据则显示石莼纲与绿藻纲呈姊妹群关系 [107, 150]。本研究结果显示,石莼纲植物在进化上分为两个分支,其中分支I(O. viridis 和 P. akinetum)与Trebouxiophyceae的分支I(C. vulgaris)聚在一起,而分支II(藓羽藻B. hypnoides)则与绿藻纲聚在一起。石莼纲植物(藓羽藻、 viridis 和P. akinetum)的cpDNA在基因顺序、 O. 基因组成和基因组结构特征方面也存在众多差异。因此我们认为石莼纲为多系起源,藓羽藻与O.viridis 和P. akinetum 位于石莼纲内的不同分支上。此外,我们的进化分析也显示Trebouxiophyceae 和绿枝藻纲同样是多系起源的,但具体的进化关系还很难确定,有待进一步的研究。 125
  • 141. 参考文献 参考文献 发表文章目录1. Lu F, Xu W, Tian C, Wang G, Niu J, Pan G, Hu S: The Bryopsis hypnoides plastid genome: multimeric forms and complete nucleotide sequence. PLoS One, 6(2):e14663.2. Qiang Lin, Peng Cui, Lingfang Zhang, Feng Ding, Chengqi Xin, Wei Xu, Daoyong Zhang, Fanglin Sun, Songnian Hu, Jun Yu: The disequilibrium of nucleosomes distribution along chromosomes plays a functionally and evolutionarily role in regulating gene expression. PLoS One 2011. (underview) 98
  • 142. 参考文献 致 谢 在基因组所五年的硕博连读学习生涯即将画上圆满的句点,在此,我怀着一颗感恩的心,感谢所有教导、帮助、支持和关心我的人。 首先感谢我的导师于军研究员和胡松年研究员。本论文是在于老师和胡老师的悉心指导下完成的。从论文的选题、技术流程设计和最后整理成文,都倾注了他们的大量心血。感谢两位老师带我走进生物科学的殿堂,他们渊博的学识、严谨的治学态度、忘我的敬业精神以及教导学生的细致和包容都深深影响着我。能成为于老师和胡老师的学生是我的幸运,两位老师为人、为师、为学的态度使我终身受益。 我还要感谢崔鹏师兄和丁峰师姐以及林强同学在研究思路、分析内容方面的指导和帮助,以及平时工作中对我的帮助和鼓励。感谢骆迎峰、耿佳宁和孟庆姝几位老师在课题开展过程中对我的指导及在生活中对我的帮助。感谢潘林林、林强、胡海岩、蔡亦梅、陈雅萍、胡阳、刘侃、刘万飞、辛成其、张玲芳、赵宇慧等实验室兄弟姐妹给我的热心帮助,是他们营造了良好的研究气氛和学习环境,使我度过了非常愉快和美好的五年学习时光,他们的友谊和留给我的美好回忆是我人生最宝贵的财富。感谢王丽、杨猛等北京基因组研究所所有给予过我帮助的工作人员,感谢同窗好友杨明、刘久成等对我的鼓励和帮助。 值此论文完成之际,特别感激深爱我的父母、朋友和家人,感谢他们五年以来对我的学业给予了无怨无悔的理解和支持,对我生活上的鼓励和帮助,以及在许多十字路口帮我找到方向,感激之情已非言语能尽。 最后,向所有关心和支持我的老师、同学和朋友表示最真挚的感谢!同时,向参加本论文评阅、评议和答辩委员会的全体专家、教授以及为论文答辩辛勤工作的人员致以崇高的敬意!谢谢! 徐玮 2011年4月于北京 127
  • 143. 参考文献 92