SlideShare a Scribd company logo
1 of 55
Download to read offline
上海交通大学学士学位论文
代谢网络的拓扑分析在线粒体进化研究中的应用
院 系: 生命科学技术学院
科 系: 生物工程
设计者:俞一明
导师: 王卓
代谢网络拓扑分析及在线粒体进化中的应用
上海交通大学 生命科学技术学院 俞一明
代谢网络拓扑分析在线粒体进化研究中的应用
摘要
内共生理论认为线粒体是由 Alpha Proteobacteria 中的一支通过和原始的真核细胞长期
共生进化而来的。根据单基因,特别是基于 SSU rRNA 构建的系统发育树确立了许多真细
菌与线粒体,核基因之间的亲缘关系。目前较普遍的观点是线粒体和 Alpha/rickettsiaszho 中
的 rpr 最为接近。但是由于单个基因的信息量有限,加上线粒体基因组的碱基组成非常不同,
很难反映物种之间整体的相似程度,利用现有数据库的全基因组信息和系统生物学的分析工
具将对线粒体的进化研究提供更加系统深入的解释。
复杂网络理论的迅速发展为在整体水平上研究生物网络的结构组成和功能提供了新的
平台。代谢网络由于其信息的完备性和可靠性而成为系统生物学领域一个重要的研究对象,
基于图论的方法已经证实代谢网络具有无标度网络和小世界特征。本文重构了包括线粒体
在内的 29 个物种的酶关联的代谢网络,发现亲缘关系较近的物种具有比较相似的网络拓扑
特征。特别注意到 Alpha/rickettsias 属的 rpr 和线粒体有最为相近的拓扑特征,这一结果和
之前基因组比对的结果相吻合,更有力地支持了“内共生学说”,说明结构的相似性和功能
存在对应关系。
许多研究发现代谢网络具有模块化特征,即网络可以被分割成彼此联系较少,而模块内
联系紧密的子集。本文利用模拟退火聚类方法得到 29 个物种的模块划分,将各模块内的酶
对应到相应的代谢功能,比较物种间各模块内每一功能大类的酶的数量,发现糖代谢、核
苷酸代谢、辅助因子代谢、脂类代谢等基础类代谢普遍存在于几个模块中,而对于多糖生
物合成,异源微生物的生物降解及次级代谢产物的生物合成,则明显的集中于某些模块中,
同时还发现线粒体中参与次级代谢产物的合成及异源微生物降解的酶几乎没有。网络整体
模块化结构的相似性分析表明不同的 α-Proteobacteria 呈现较为相似的模块化结构,而线粒
体则具有更显著的模块化程度,说明线粒体的全局代谢组与专门化功能间具有更好的协同
作用。
关键词:代谢网络,线粒体,内共生, 模块化,网络进化
代谢网络拓扑分析及在线粒体进化中的应用
上海交通大学 生命科学技术学院 俞一明
THE STUDY OF MITOCHONDRIA EVOLUTION BASE ON
TOPOLOGY ANALYSIS OF METABOLIC NETWORK
ABSTRACT
According to the theory of endosymbiosis, mitochondria is the endosymbiont of Alpha
Proteobactia which reside within a nucleus-containing (but amitochondriate) host cell.
Single-gene phylogenies (especially SSU rRNA-based ones) have established many of the
currently accepted affiliations among and between eubacterial, mitochondrial, and nuclear
genomes; however, the resolving power of single-gene analyses is limited by the inherently small
information content of individual genes, complicated in the particular case of mitochondria by
extreme differences in base composition. In this case, we try to use do a global analyses of
metabolic networks of mitochondria and related species in the framework of complex network
theory and systems biology, hoping that it will give us a more understanding to endosybiotic
process.
Recently, there has been much progress in understanding the importance of network structure
on its function. Different networks can have the same topological properties, the small world
property has been proved to be existed in social relation network, WWW, and all in biological
networks. In the thesis, I reconstructed 29 enzyme interaction networks, finding that similarity of
topological properties are basically coherent with phylogenical relatedness. Thus it proved again
that structural similarity can deduce functional similarity.
Modularity (the division of a network into much less related sub-networks)has been discussed
in many researches. In this work, simulated annealing is used to find modules. Then each enzyme
in the module is map to its functional categories. The comparison mitochondria modules and that
of rpr and aph show that mitochondria has evolved to be more specific in metabolism in each
module and at the same time, lost many or nearly all reactions in some categories like
biosynthesis of secondary metabolites,which is quite different from rpr and aph. This implies that
the functional difference between mitochondria and rpr is much large than the structural
similarity.
Key words: metabolic network, mitochondria, endosymbiosis, modularity, network evolution
代谢网络拓扑分析及在线粒体进化中的应用
上海交通大学 生命科学技术学院 俞一明
目 录
第一章 绪论 -------------------------------------------------------------------------------------------------1
1.1 网络的新科学--------------------------------------------------------------------------------------1
1.2 系统生物学的诞生与意义-----------------------------------------------------------------------1
1.3 代谢组学与代谢网络的研究内容与现状--------------------------------------------------------2
1.4 内共生学说与线粒体进化-------------------------------------------------------------------------3
1.4.1 内功生学说----------------------------------------------------------------------------------3
1.4.2 线粒体进化----------------------------------------------------------------------------------4
1.5 水平基因转移---------------------------------------------------------------------------------------5
1.6 本章小结----------------------------------------------------------------------------------------------5
第二章 基于图论的代谢网络静态分析方法-------------------------------------------------------------6
2.1 KEGG 数据库简介----------------------------------------------------------------------------------6
2.2 代谢网络的图表示及统计方法-------------------------------------------------------------------7
2.2.1 图的定义与网络的小世界性质----------------------------------------------------------8
2.2.2 代谢网络的图表示-------------------------------------------------------------------------8
2.3 本章小结---------------------------------------------------------------------------------------------9
第三章 线粒体与α-Proteobacteria等物种的代谢网络构建与拓扑结构分析---------------------10
3.1 数据来源与数据解析-----------------------------------------------------------------------------10
3.2 全基因组规模的代谢网络重构-----------------------------------------------------------------12
3.3 本章总结---------------------------------------------------------------------------------------------14
第四章 线粒体与α-Proteobacteria等物种的代谢网络模块化分析及比较------------------------15
4.1 代谢网络的模块化分解--------------------------------------------------------------------------15
4.2 物种间整体模块化结构的相似性比较--------------------------------------------------------18
4.2.1 模块相似性的度量方法-----------------------------------------------------------------18
4.2.2 各物种代谢网络全局模块化结构的比较--------------------------------------------20
4.3 模块与功能的对应关系--------------------------------------------------------------------------21
4.4 本章总结--------------------------------------------------------------------------------------------24
第五章 结论--------------------------------------------------------------------------------------------------25
参考文献-------------------------------------------------------------------------------------------------------26
谢辞-------------------------------------------------------------------------------------------------------------32
译文及原文----------------------------------------------------------------------------------------------------34
代谢网络拓扑分析及在线粒体进化中的应用
第 1 页 共 7 页
第一章 绪论
1.1 网络的新科学
从互联网,人际关系网,电力网,交通网,到神经网络,代谢网络,蛋白质相互作用
网,信号传递网,可以说,人们一直就生活在一个充满着各种各样的复杂网络的世界中。
而似乎有点出人意料的是,越来越多的研究表明,这些看上去各不相同的网络之间有着许
多惊人的相似之处。对于复杂网络的定量和定性特征的科学理解,
复杂网络的研究起始于 20 世纪 60 年代的随机图理论[1],然而现有的网络结构并不都
是随机的,上世纪末,这两篇论文开创开创了复杂网络研究的新纪元:一篇是美国 Cornell
大学理论与应用力学系的博士生 Watts 及其导师、非线性动力学专家 Strogatz 教授于 1998
年6月在Nature上发表的《“小世界”网络的集体动力学》的文章[2]
; 另一篇是美国Notre Dame
大学物理系的 Barabási 教授及其博士生 Albert 于 1999 年 10 月在 Science 上发表的《随机网
络中标度的涌现》[3]
。这两篇文章揭示了复杂网络的小世界特征和无标度性质,并建立了相
应的模型以阐述这些特性的产生机理。
1.2 系统生物学的诞生与意义
生命是非常复杂的系统。长期以来受研究手段和认识水平的局限,我们一直以还原论的
方式,将这个复杂系统分割成孤立的小单位,分别加以研究。分子生物学从诞生至今的五
十余年,人们对于生命在细胞与分子水平上的认识不断深入,许多成果也已经产生了广泛
的应用。但是,正如同盲人摸象,往往会误解大象的真实模样,如果要在更高的层次上了
解生命是什么,比如生命从何而来,生命如何产生越来越复杂的组织形式和功能单位,如
何对环境作出反应等等,就必须把所有我们所掌握的细节信息整合为一个逻辑自恰的系统,
从整体的观点来重新审视它。
2003 年人类基因组计划的完成,标志着生物医学研究进入大规模、并行化的时代,伴随
着一个又一个物种全基因组的测序完成,我们开始具备对一个生物系统中所有组成成分和
相互关系进行分析和建模技术能力。这就意味着从整体和系统的水平上研究复杂生命现象
开始成为可能。系统生物学就是在这样一个背景下应运而生的。
美国科学院院士、国际系统生物学创始人 Lee Hood 教授认为:系统生物学是“以生物系
统内的所有组成成分及其相互关系为对象,通过大规模动力学分析,用数学方法抽象出生
物系统的设计原理和运行规律”的科学。
如图 1-1 所示,系统生物学的基本工作流程有四个阶段。首先是对选定的某一生物系统
的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络和代谢途径,
以及细胞内和细胞间的作用机理,以此构造出一个初步的系统模型。第二步是系统地改变
被研究对象的内部组成成分(如基因突变)或外部生长条件,然后观测在这些情况下系统
组分或结构所发生的相应变化,包括基因表达、蛋白质表达和相互作用、代谢途径等的变
化,并把得到的有关信息进行整合。第三步是把通过实验得到的数据与根据模型预测的情
况进行比较,并对初始模型进行修订。第四阶段是根据修正后的模型的预测或假设,设定
和实施新的改变系统状态的实验,重复第二步和第三步,不断地通过实验数据对模型进行
修订和精练。系统生物学的目标就是要得到一个理想的模型,使其理论预测能够反映出生
物系统的真实性。整合是系统生物学的灵魂,信息是系统生物学的基础,干涉是系统生物
代谢网络拓扑分析及在线粒体进化中的应用
第 2 页 共 7 页
学的钥匙。
图 1-1 系统生物学的研究思路和流程[6]
Fig. 1-1 The idea and pipeline of research on system biology[4]
1.3 代谢网络的研究现状
代谢组学是一门对某一生物或细胞所有低分子量代谢产物进行定性和定量分析,以监测
活细胞中化学变化的科学。代谢处于生命活动调控的末端,因此代谢组学比基因组学、蛋
白质组学更接近生物体的表型。基因组学、蛋白质组学研究一般是发现和鉴别潜在的可能
性,而代谢组学研究则是发现和鉴别真实的变化。代谢组学作为基因型与表型之间的桥梁,
将基因产物和基因关联起来,实现基因功能的鉴定,成为功能基因组学研究的有力工具。
近几年来随着数百种生物的全基因组测序的完成,以及对基因功能不断深入和广泛的
了解,各种生物网络(包括代谢网络,基因调控网络,信号转导网络等)的研究在生命科
学领域中越来越受到重视。这主要是人们越来越深刻地认识到生物体中各组成成分(基因、
蛋白质、代谢物等)的功能都是通过与其它部分的相互作用体现出来的。因此,只有在系
统水平上对所有相关成分进行整体分析才能对生物的生理功能有全面的了解。在各种生物
网络中,代谢网络由于其信息的完备性和可靠性而成为系统生物学领域一个重要的研究对
象。代谢网络理论把细胞的生化反应看作是一个完备的相互作用体系,在网络整体的层面
上加以研究,而不是孤立地进行考虑[5]。众所周知,细胞代谢的网络由上万种酶催化的系列
反应系统、膜传递系统、信号转导系统组成,并且既受到精密调节,又互相协调,是一个极
其复杂的生命系统。各种代谢都不是孤立地进行的,而是相互作用、相互转化、相互制约的
一套完整、统一、灵敏的调节系统。
代谢网络由于其确凿的生物学意义,数据的可靠性和完备性而成为在复杂网络研究中
代谢网络拓扑分析及在线粒体进化中的应用
第 3 页 共 7 页
最早的生物学网络之一。从基因组水平重构得到的代谢网络通常具有较大的规模,包含几百
甚至上千个反应和代谢物,基于图论的方法是分析大规模复杂网络整体结构的有力工具。
Jeong 等最早用图论的形式来描述代谢网络[8],以代谢物作为图中的节点,若两个代谢物可在
一个反应中转化则两对应节点相连接。Wagner 和 Fell 用代谢物图和酶图两个图来表示代谢
网络[9]。他们的研究均表明代谢网络具有典型的无标度网络特征(即连接度分布符合幂率分
布)和小世界网络特征(即具有较高的聚类系数和较短的平均路径长度)。Jeong 等通过分
析得到 43 个物种的代谢网络具有基本一致的平均路径长度(约 3.2),但是其中包含了大量
普遍存在的小分子(如 ATP, ADP, NADP 等),它们会缩短网络的平均路径长度,导致结果
不符合生物学意义。因此,Ma 和 Zeng 在新的数据库中省略了大量类似的小分子,分析了
80 个物种的代谢网络,发现古细菌、真细菌和真核生物具有明显不同的平均路径长度,古
细菌和真核生物比真细菌具有较长的平均路径长度和网络直径,从而验证了古细菌和真核
生物更接近的进化关系[10]。
为进一步分析复杂代谢网络中蕴含的功能信息,需要识别功能模块。Hartwell 等, Ravasz
等和 Papin 等都发现代谢网络具有与社会网络类似的模块化结构[11-14]
。如何有效识别并提取
代谢网络中的功能模块是一项重要的研究工作。常规的聚类算法 (如 single-link,
complete-link, k-means 等)均可用于网络图的模块划分,但是这几种方法都需要预先设定划
分的模块数目,而大规模代谢网络的复杂性使得很难给定模块数目,因此限定了这些常规
方法的应用。Guimerà 和 Amaral 采用模拟退火算法识别代谢网络中的功能模块,通过最优
化模块性(modularity)目标函数,使得划分出的模块内部的点连接得尽可能紧密,而模块之
间的点连接得尽可能稀疏。并按照 KEGG 的功能分类评价得到的模块化结构,发现大多数
模块都主要对应于一类代谢过程[15-16]。在网络的层次上再一次验证了“结构决定功能”。
国外代谢网络方面的研究发展比较迅速,已经构建了很多代谢网络数据库,主要有
KEGG, WIT, BioCyc 等,使得直接从基因组注释信息重构相应生物的代谢网络成为可能。但
存在的问题是无法方便地得到一个包含特定生物代谢网络中所有已知反应的反应列表,因而
限制了对代谢网络做进一步的数学分析。基于此, Ma 和 Zeng[17]
在 KEGG 代谢反应数据库的
基础上进行修正补充后得到一个新的数据库,其中包含了所有已完成测序的生物的代谢网络
的反应列表(目前有近 150 种生物)。
1.4 内共生学说与线粒体进化-
1.4.1 内共生学说与线粒体的起源
在各种生态系统中,微生物不仅与环境因素有密切关系,而且与其他生物间也有密切
关系,其中最典型和最重要的相互关系为以下五种[18]
:
1) 互生现象(metabiosis):两种可以单独生活的微生物共存于同一环境时,互为对方提
供营养或创造良好生活条件,这种“可分可合,合比分好”的“互惠互利”关系称为互生,
又称代谢共栖或半共生。
2) 共生现象(symbiosis):两种不能单独生活的微生物生活在一起时,相互依赖,彼此
有利,甚至形成特殊的共生体,它们在生理上表现出一定的分工,在组织和形态上产生了
新的结构,两种生物间这种“相依为命”的关系称为共生。
3) 竞争现象(competition):生活在一起的两种微生物,为了生长争夺有限的同一营养
或其他共同需要的生长条件而相互竞争,互相受到不利影响,是一种“明争暗斗”的关系,
称为竞争。
4) 拮抗现象(antagonism):两种微生物生活在一起,其中一种能产生某种特殊的代谢
产物或改变环境条件,从而抑制或杀死另一种微生物的现象称为拮抗。
代谢网络拓扑分析及在线粒体进化中的应用
第 4 页 共 7 页
5) 寄生现象(parasitism):一种微生物生活在另一种微生物的体内或体外,依靠摄取后
者细胞的营养生长和繁殖,并使之遭受损害甚至死亡,是一种“损人利己”的关系,称为
寄生。
真核细胞的起源有多种学说,目前有代表性的是内共生学说。这一学说是由 Andreas
Schimper 在 1883 年提出的。由于当时没有线粒体和叶绿体含有遗传物质的证据,这一学说
长期得不到承认,直到上世纪六十年代,随着分子生物学的发展和这些细胞器内 DNA 的发
现,才又重新得到关注,并在七十年代被 Lynn Margulis 推而广之(她认为连细菌的鞭毛和
纤毛也是由一种螺旋菌共生而来)根据这个学说,大约在几十亿年前,有一种大型的有吞
噬能力的原核生物,叫作前真核细胞。前真核细胞先后吞噬了几种原核生物(如原始的需
氧型细菌、蓝藻等),这些被吞噬的生物不仅没有被消化分解,反而在前真核细胞中生存下
来了。在进化的过程中,被吞噬的生物由寄生过渡到共生,最终成为宿主细胞的细胞器[19,20]。
例如,前真核细胞吞噬了一种原始的需氧细菌(又称原线粒体),结果这种需氧细菌在前真
核细胞的细胞质里生存下来,并且逐步与前真核细胞形成了内共生关系:需氧细菌不断地
从前真核细胞获取糖酵解产物,而前真核细胞又从需氧细菌那里得到糖酵解产物进一步氧
化而释放的能量。在共同生存的过程中,需氧细菌中的原生质缩减,出现内膜和嵴,从而
成为宿主细胞内专门进行氧化磷酸化产生 ATP 的细胞器,这就是真核细胞中的线粒体。前
真核细胞在吞噬线粒体前身原始的需氧细菌的同时,还吞噬了蓝藻类的原核生物,蓝藻与
宿主细胞长期共生,成为了植物的叶绿体。图 2-5
图 2-5 真核细胞起源的内共生学说[19]
1.4.2 线粒体进化关系
推断物种之间的进化关系的一般方法是通过同源基因的序列比对。现在已知通过这种方
法分析进化关系有许多的困难。比如序列比对的可靠性,某个基因可能不存在于所有要分
析的物种中,还有各个物种,各个序列位点的突变频率都不相同使得用不同基因和蛋白质
序列构建的系统发生数都不相同。因此综合基因组蛋白质组代谢组的综合分析就别的很有
必要。线粒体和叶绿体都含有 DNA 以及用来表达这些基因的机制。根据线粒体基因进行同
源比对后人们普遍认为,线粒体是从 Proteobacteria 门中的 α 亚门中的一种细菌进化而来的
[21].但是线粒体在此亚门中确切的位置还不清楚,有人认为是 Rickettsiaceae 家族中的
代谢网络拓扑分析及在线粒体进化中的应用
第 5 页 共 7 页
Rickettsia 一类细菌,比如 rpr 和 rco,由于在漫长的进化历史中存在着大量的基因水平转移和
重组过程,线粒体的进化关系至今充满争议。同时,相比于叶绿体都非常小的基因组,线
粒体的基因组在不同物种间相差很大。小到 16-18kb 的后生动物中的线粒体,大如 2000kb
的某些高等植物的线粒体,高等植物中一些线粒体基因是从叶绿体和核内转移而来,这使
得线粒体的进化过程更加扑朔迷离。然而虽然在基因组规模上相差很大,线粒体在真核细
胞中的作用大致相同,它是细胞的能量工厂,负责生物的合成与降解代谢,同时它在起始
细胞凋亡中也有重要作用。由于代谢网络和细胞功能的密切对应,从代谢网络分析线粒体
的进化关系不失为一个有益的尝试。
1.4 水平基因转移
水平基因转移(horizontal gene transfer, HGT),又称横向基因转移(lateral gene transfer,
LGT)[22],是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。
差异生物个体可以是同种但含有不同的遗传信息的生物个体,也可以是远缘的,甚至没有亲
缘关系的生物个体。单个细胞内部细胞器主要指的是叶绿体、线粒体及细胞核。水平基因转
移是相对于垂直基因转移(亲代传递给子代)而提出的,它打破了亲缘关系的界限,使基因
流动的可能变得更为复杂。
在距今20亿年至10亿年之间,三域生物之间发生了大量的水平基因转移事件。认为现代
真核生物的核来自于古细菌,线粒体和叶绿体来自真细菌。同时还发生了许多其它对现代生
物影响深远的水平基因转移事件,证实了包括古细菌、细菌和真核在内的物种有10%或更多
的基因都是通过水平基因转移获得的[23-27]。因此,水平基因转移是细胞进化和三域生物出现
的主要驱动力量[28-32]。尽管存在水平基因转移导致基于不同基因构建的系统发育树具有不同
的拓扑结构,但是基于古细菌、真细菌和真核全基因组数据出发的系统发育分析证明物种间
的总体进化关系还是符合传统的进化树结构的[33]。
1.6 本章小结
通过代谢网络研究线粒体进化是生物学和复杂性科学的交汇点。从生物学的角度看,基
于全网络信息构建的进化关系可以避免针对不同基因构建的系统发育树产生的矛盾结果,
为”内共生学说”提供更有力的证据。而从复杂系统理论的角度看,两个生物作为具有复杂的
自适应能力的个体,如何产生相互合作与依赖的关系并实现效率的最大化(这里是代谢效率
和遗传效率),对这一问题的分析和研究必将会对其他复杂系统的构建和最优化有广泛的启
迪意义。
代谢网络拓扑分析及在线粒体进化中的应用
第 6 页 共 7 页
第二章 基于图论的代谢网络静态分析方法
2.1 KEGG 数据库简介
京都基因和基因组百科全书 (KEGG) 是系统分析基因功能,联系基因组信息和功能信息
的知识库。基因组信息存储在基因数据库里,包括完整和部分测序的基因组序列;更高级的
功能信息存储在通路数据库里,包括图解的细胞生化过程如代谢,膜转运,信号传递,细胞
周期,还包括同系保守的子通路等信息;KEGG 的另一个数据库是 LIGAND,包含关于化学物
质,酶分子,酶反应等信息。KEGG 提供了 Java 图形工具来访问基因组图谱,比较基因组图
谱和操作表达图谱,以及其它序列比较,图形比较和通路计算的工具,可以免费获取。
图 2-1.KEGG 数据库结构
表 2-1. KEGG 中的三大数据库
类别 数据库 用途 DBGET 搜寻类别
通路信息
KEGG PATHWAY
Database
在 KEGG pathway 中搜寻
用颜色标注 KEGG
PATHWAY
代谢网络拓扑分析及在线粒体进化中的应用
第 7 页 共 7 页
pathway
产生可能的反应路径
基因组信
息
KEGG GENES
Database
搜寻类似的基因序列
搜寻类似的基因组序列
KO
GENES
GENOME
化学信息
KEGG LIGAND
Database
搜寻类似的复合物结构
搜寻类似的多糖结构
搜寻类似的反应
COMPOUND
LIGAND
GLYCAN
REACTION
ENZYME
本课题主要使用 LIGAND 子目录下的 REACTION, 以及 PATHWAY 子目录下的各物种代谢
反应文件作为数据源,用于进行数据解析和构建网络。
2.2 代谢网络的图表示及统计方法
网络是一个包含大量个体和个体之间相互作用的系统,可以用节点和节点之间作用关系
构成的图G=(V, E)来表示,其中V代表顶点集合,E代表边集合。按照图中的边是否有方向,
可以把图分为有向图和无向图。描述网络拓扑性质的常用几何量包括度分布、集聚系数、路
径长度、网络直径等[37]。
对于无向图,顶点的度是指与此顶点连接的边的数量。有向图中,顶点的度是其出度和
入度之和,其中出度指起始于该顶点的边数,入度为指向该顶点的边数.网络的度分布是指
随机地选择一个顶点具有度为k的概率P(k),它是度量网络属性的一个重要几何量[37]。
在无向图中,顶点的集聚系数描述了其邻接点之间的连接程度,即网络的局部集团化
程度。在社会网络中描述为你的朋友,他们之间认识的可能性。顶点v的集聚系数的数学定
义为[37]:
其中d(v)是顶点v 的度,N(v)代表顶点v的 d(v)个邻接点之间的直接连线的数目。CC(v) 的
值介于0与1之间。如图3-6所示,若v的任两个邻居间都有连线,CC(v)等于1,若v的所有邻
居间都无连线,CC(v)等于0。
图2-2 无向图中顶点的集聚系数
最短路径 lij 定义为所有连通(i, j)的通路中,所经过其它顶点最少的一条(或几条)
代谢网络拓扑分析及在线粒体进化中的应用
第 8 页 共 7 页
路径,其长度称为最短路径长度。平均路径长度是对网络中任意一对顶点的最短路径长度求
平均,描述了网络中分离任意两个顶点所需的平均步数。网络直径是任意一对顶点的最短路
径长度的最大值[37]。
2.2.1 复杂网络的小世界性质
现实世界中的许多网络都具有“小世界”特性,即网络的平均路径长度很小,与网络的
规模成对数增长;网络的平均集聚系数远大于相同规模的随机网络的集聚系数,如电影演员
合作网络、电力网、万维网和细胞代谢网络等[37]。
1999年,Barabási和Albert在对万维网的网页之间的超级链接关系做统计分析时发现,
网络的度分布并没有呈现预想中的随机网络的度分布,而是服从幂率分布,即P(k)~k-γ,
在双对数坐标系下是一条下降的直线[38]。具有幂律度分布的网络也称为无标度网络,这
是由于幂律分布函数具有如下无标度性质:
f(ax)=bf(x)
那么必有(假定f(1)f’(1)≠0)
f(x)=f(1)x-γ, γ=-f(1)/f’(1)
(推倒从略)
这意味着网络中大多数节点的度很小,但存在少数节点的度远远高于网络的平均度,这
些连接度很高的节点称为集散节点(hub node)。经过大量的实证研究,人们发现属于生命领
域、技术领域、社会领域的不同网络如代谢网络、蛋白质相互作用网络、万维网、科学家合
作网络、电影演员合作网络等都呈现了共同的特征,即它们都是无标度网络,网络的度分布
服从幂率分布,幂指数γ介于2到3之间[39]。
2.2.2 代谢网络的图表示
复杂网络理论的迅速发展为在整体水平上研究生物网络的结构组成和功能提供了新的
平台。近几年,网络生物学的研究表明细胞网络同样遵循一定的普适规律。代谢网络是生物
体内发生的多个化学反应的总和。根据研究目的的不同,代谢网络可以表达成两种不同形式
的图:代谢物图和酶图。代谢物图是把代谢网络中的代谢物看成图中的节点,连接代谢物之
间的反应看成是图的边;酶图是把酶看成图中的节点,连接两个连续反应的中间化合物看成
是图的边,图3-9举例给出了两种图的表示方法。这样,代谢网络就描述为一个数学意义上的
图。
代谢网络拓扑分析及在线粒体进化中的应用
第 9 页 共 7 页
图3-9 代谢网络的代谢物图和酶图表示
[9]
Jeong等对分别属于古细菌、细菌、真菌的共43种生物的中央代谢网络进行了统计分析,
发现随机地选择一个底物参加k个反应的概率服从幂率分布,即P(k)~k-γ(γ≈2.2)[8]。
但是其中包含了被称为穿梭分子的化合物(如ATP, ADP, NADP等),有与这些分子参加很多
反应,把很多原本无关的化合物联系起来,从而大大缩短了网络的平均路径长度,湮没了物
种之间网络结构的差异性。因此,Ma和Zeng在新的数据库中省略这些分子,分析了80个物种
的代谢网络,发现古细菌、真细菌和真核三类生物具有明显不同的平均路径长度,古细菌和
真核比真细菌具有较长的平均路径长度和网络直径,从而验证了古细菌和真核更接近的进化
关系[10]。同样,他们也证实了代谢网络是无标度网络并具有“小世界”特征。
2.3 本章小结
本章首先介绍了 KEGG 数据库的结构和功能。随后引入图论的基本概念和复杂网络理论
的主要研究进展,介绍了普遍存在于生物学网络,互联网以及各种社会关系网络中的小世
界性质和无标度特征。基于已有的数据库和理论,我们构建了代谢网络的图论表示,并用
Pajek 软件进行可视化和结构分析。
代谢网络拓扑分析及在线粒体进化中的应用
第 10 页 共 7 页
第三章 线粒体与 α-Proteobacteria 等物种的代谢网络重构与
拓扑结构分析
3.1数据来源与解析
线粒体的代谢反应信息主要来源于 UCSD 系统生物学研究组构建的酵母线粒体网络[ ],
另外我们又将 Saccharomyces Genome Database 和 Comprehensive Yeast Genome Database 两
个数据库中定位在线粒体中的酶补充进来,构建了较为完整的酵母线粒体代谢网络。我们
从 KEGG 中获取了 rpr 等 11 个不同的 α-Proteobacteria 的代谢反应信息。另外,为了做对照
研究,还构建了 2 种真核、10 种真细菌以及 5 种古细菌的代谢网络。各物种的全名及其在
分类学上的位置如下:
Eukaryotes [35]
sce 酿酒酵母
cel 秀丽隐杆线虫
Prokaryotes (525)
Bacteria (484)
Proteobacteria (255)
Gamma/enterobacteria (38)
Proteobacteria (255)
eco Escherichia coli K-12 MG1655 大肠杆菌
sty Salmonella enterica serovar Typhi CT18
Gamma/others (83)
Beta (44)
nme Neisseria meningitidis MC58 (serogroup B)
Epsilon (11)
cje Campylobacter jejuni NCTC11168
Firmicutes (113)
Mollicutes (17)
mge Mycoplasma genitalium
mpn Mycoplasma pneumoniae
...
Delta (15)
Alpha/rickettsias (17)
rpr Rickettsia prowazekii 普氏里克次氏体
ama Anaplasma marginale 边缘边虫
aph Anaplasma phagocytophilum
eru Ehrlichia ruminantium Welgevonden (South Africa)
erw Ehrlichia ruminantium Welgevonden (France)
erg Ehrlichia ruminantium Gardel
代谢网络拓扑分析及在线粒体进化中的应用
第 11 页 共 7 页
ecn Ehrlichia canis 犬艾利希体
ech Ehrlichia chaffeensis 查芬埃里希氏体
Alpha/rhizobacteria (25)
mlo Mesorhizobium loti 百脉根根瘤菌
sme Sinorhizobium meliloti 苜蓿中华根瘤菌
atu Agrobacterium tumefaciens C58 (UWash/Dupont) 根癌土壤杆菌
bme Brucella melitensis 布鲁氏菌
Alpha/others (21)
ccr Caulobacter crescentus
...
Firmicutes (113)
Mollicutes (17)
mge Mycoplasma genitalium
mpn Mycoplasma pneumoniae
...
Spirochete (9)
bbu Borrelia burgdorferi
...
...
Archaea (41)
Euryarchaeota (28)
mja Methanococcus jannaschii
afu Archaeoglobus fulgidus
pab Pyrococcus abyssi
...
Crenarchaeota (12)
ape Aeropyrum pernix
pai Pyrobaculum aerophilum
Perl 是 Practical Extraction and Report Language(实用摘录和报告语言)的简称,是由 Larry
Wall[39]所发展的。在各种计算平台上,它被用作 Web 编程、数据库处理、XML 处理以及
系统管理——它能够完成所有这些工作,同时仍然是处理小的日常工作的完美工具。Perl
处理信息方面的很大一部分能力来源于一种叫做正则表达式的特殊语法。正则表达式赋予
了 Perl 极大的处理和操作自由文本中的模式的能力。其他语言也有支持正则表达式的,但
是没能像 Perl 结合得这么紧密。因而本文选用 perl 来解析 KEGG 数据库里的 flat text 格式
的反应信息。
基本表是指存储原始基本数据的表单,如表 3-1 所示:
表 3-1 基本表
基本表表名 数据源 功能
entry_all KEGGligandreaction 存储已知反应的代号
R1 KEGGligandreaction 存储已知所有反应的反应物
代谢网络拓扑分析及在线粒体进化中的应用
第 12 页 共 7 页
P1 KEGGligandreaction 存储已知所有反应的产物
pathway KEGGligandreaction 存储所有反应所属的代谢通路
protobacteria dataset.xls MA 和 Zeng 的数据
28 个物种含有的反应代号及 28 个物
种的酶列表
KEGG classification KEGGpathway 每个代谢通路对应的 kegg 功能分类
out mit dataset UCSD,CYGD,SGD 线粒体的代谢反应及对应的酶列表
reverse_all_me
Ma 和 Zeng 的数据外加根
据原则自己判断的
存储所有已知反应的可逆性信息
3.2 全基因组规模代谢网络的重构
这所有 28 个物种的代谢反应数据都来自于 KEGG 的 ftp,ftp://ftp.genome.jp/pub/kegg/,
比如通过 pathways>organism>rpr, 得到各个通路的图形化表示和文字信息。以 syw00010
糖酵解通路为例,syw00010.rn 和 syw00010.gene 分别给出了该通路中所有反应列表及各反
应中涉及的酶的列表,如表 3-2 和表 3-3 所示。
表 3-2 syw00010.rn 文件信息
R01061 D-Glyceraldehyde-3-phosphate : NAD+
oxidoreductase(phosphorylating) ;
(2R)-2-Hydroxy-3-(phosphonooxy)-propanal + Orthophosphate + NAD+
<=>
3-Phospho-D-glyceroyl phosphate + NADH + H+
R01063 D-Glyceraldehyde-3-phosphate:NADP+
oxidoreductase(phosphorylating) ;
(2R)-2-Hydroxy-3-(phosphonooxy)-propanal + Orthophosphate + NADP+ <=>
3-Phospho-D-glyceroyl phosphate + NADPH + H+
R00710 Acetaldehyde:NAD+
oxidoreductase ;
Acetaldehyde + NAD+
+ H2O <=> Acetate + NADH + H+
R00014 2-(alpha-Hydroxyethyl)thiamine diphosphate pyruvate-lyase (carboxylating) ;
2-(alpha-Hydroxyethyl)thiamine diphosphate + CO2 <=> Thiamin diphosphate +
Pyruvate
······ ······ ······ ······ ······ ······ ······
代谢网络拓扑分析及在线粒体进化中的应用
第 13 页 共 7 页
表 3-3 syw00010.gene 文件信息
SYNW1956 putative aldehyde dehydrogenase [EC:1.2.1.3]
SYNW1013 acs; acetyl-coenzyme A synthetase [EC:6.2.1.1]
SYNW1055 pdhB; pyruvate dehydrogenase E1 beta subunit [EC:1.2.4.1]
SYNW1620 pdhA; pyruvate dehydrogenase E1 alpha subunit [EC:1.2.4.1]
······ ······ ······ ······ ······ ······
在文件 syw00010.rn 中,左列表示该反应所对应的反应号,即 reaction number,右列包
含了该反应中酶和反应方程式的信息。在文件 syw00010.gene 中,左列标号为物种 syw 中的
基因标号,该标号与 reaction number 的对应关系可在文件 syw_gene_map.tab 中查到,右列
为该基因对应的酶的名称及其 EC number,这些酶催化该代谢通路中的反应。
由基因组数据重构针对特定生物的代谢网络是对这些大规模代谢网络进行结构和功能
分析的前提。基于某一物种的基因组注释信息,结合相关的酶反应数据库,就可以确定包含
在代谢网络中所有的代谢反应。其主要步骤如下
[29]
:
1) 从基因组序列中识别所有开放阅读框(ORF);
2) 通过序列相似性比对预测该物种的所有酶基因;
3) 查 询酶 命 名数 据库 (Enzyme nomenclature database) , 如ENZYME data bank
[40]
(http://expasy.hcuge.ch/),将酶基因与酶号对应(EC number);
4) 查询酶与反应关系的数据库,如KEGG的LIGAND/ENZYME
[39]
,将酶号对应上它所
催化的代谢反应。
上述方法特别适用于重构新测序物种的代谢网络。对于已经测序和注释的物种,在上述
提到的代谢数据库中可以方便地检索到某一生物中有哪些代谢反应,但存在的问题是无法方
便地得到一个包含特定生物代谢网络中所有已知反应的反应列表,因而限制了对代谢网络做
进一步的数学分析。基于此,Ma和Zeng在KEGG代谢反应数据库的基础上进行修正补充后得
到一个新的数据库,其中包含了所有已完成测序的生物的代谢网络的反应列表(目前有近150
种生物),并可利用程序自动更新以包含新的测序生物和新的基因组注释信息。反应方向是代
谢流程中一个关键因素,Ma和Zeng
[10]
构建的数据库中给出了KEGG中所有反应的可逆性信
息,其中1表示可逆反应,0表示不可逆反应,根据这些信息可以构建有向网络。由于kegg
数据库的更新,我又自己补充了一部分原本未知反应的可逆性。在细胞内,线粒体作为能量
工厂有大量的反应包含ATP、ADP,因而这两者不能作为穿梭化合物删去。最终决定省略掉
的 小 分 子 化 合 物 包 括 : H2O, O2, H+
, NAD+
, NADP+
, NADH, NADPH, CO2, NH3,
Orthophosphate和Pyrophosphate。但是省略的原则不是基于化合物决定的而是要视具体的反
应而定,例如H2O在很多反应中都是典型的小分子化合物,但在下面的反应中:
Putrescine + Oxygen + H2O <=> 4-Aminobutanal + NH3 + H2O2
H2O 生成 H2O2,参与主要化合物的转换而不仅仅是能量传递或电子转移的媒介,因此这个
反应中的 H2O 应该保留。
重构得到的各个物种的代谢网络的组成如表3-4所示。
表3-4
代谢网络拓扑分析及在线粒体进化中的应用
第 14 页 共 7 页
将输出的所有28个物种及线粒体酶的关联表作为txt2pajek.exe的输入文件,得到符合
pajek格式的输入文件,然后输入pajek,计算得到所有物种的拓扑特征参数,如表3-5。
表3-5 线粒体与α-Proteobacteria等物种的全网络拓扑特征
物种 平均路径长度 网络直径 平均聚类系数 酶的总数
Eukaryotes
sce 3.33015 11 0.51252 507
cel 3.24852 11 0.525571 417
Prokaryotes
eco 3.34728 12 0.4774 560
sty 3.39109 13 0.513362 644
nme 3.39437 13 0.515158 410
cje 3.34069 12 0.528206 337
mge 2.52009 7 0.630693 107
mcp 2.7092 8 0.624437 129
mpn 2.60556 7 0.621644 119
bbu 2.06129 6 0.669672 151
sme 3.30595 11 0.51584 653
atu 3.43064 11 0.509425 609
mlo 3.29314 11 0.513752 649
bme 3.4041 12 0.524005 609
ccr 3.37577 13 0.518203 514
ama 3.2323 12 0.532128 235
aph 3.16909 11 0.540027 177
ecn 2.45226 7 0.565044 232
ech 3.06365 11 0.493227 179
erg 3.10616 12 0.522344 204
erw 3.1627 12 0.524855 218
eru 3.14057 12 0.533872 219
rpr 2.87197 9 0.562141 172
Archaea
mja 3.28171 12 0.554276 155
afu 3.19526 12 0.541713 315
pab 3.3392 11 0.556933 267
ape 3.15507 11 0.564247 267
pai 3.09911 11 0.462269 290
Mit(mitochondria) 2.96638 9 0.554276 155
由表 3-5 可见,亲缘关系较近的物种在其代谢网络的特征参数上也较接近。特别注意
到 Alpha/rickettsias 属的 rpr 和线粒体有最为相近的拓扑特征,这一结果和之前基因组比对
的结果相吻合,使得这一假说更为可信。同时可以注意到,mge, mcp, mpn, bbu 这四种
Proteobacteria 虽然不属于 Alpha/rickettsias 属,但是其网络结构和 rpr, ecn 与 mit 的相似程度
要远大于同为 Alpha/rickettsias 属的其他物种,这主要是由于 mge,mcp,mpn,bbu 和 rpr,ecn
代谢网络拓扑分析及在线粒体进化中的应用
第 15 页 共 7 页
同为寄生性细菌,在长期的进化选择压力下,都选择向更小的基因组和更高的网络连通性
的方向进化。mit 作为/rickettsias 内共生的产物,和其他寄生菌相比,聚类系数较低,网络
直径较大,这可能是由于线粒体上存在许多水平转移的基因。以上的数据说明网络结构的
相似性的确和功能的相似性互相关联。
3.3 本章小结
本章重构了线粒体和 28 个物种的酶的相互关联网络。由于穿梭代谢物的存在会大大
缩短酶与酶之间的路径长度,无法反映网络真实的拓扑特征,因而首先剔除了 11 个穿梭代
谢物。然后通过化合物的关系建立各物种的酶网络。分析网络的拓扑参数后发现,亲缘关
系较近的物种之间在拓扑特征上一般也较相似,其中 rpr 和线粒体的各个参数最为相近,
这与从基因组水平的推断相一致。同时也可以看到寄生性的细菌由于环境的关系而在代谢
网络结构上有趋同的倾向。
第四章 线粒体与 α-Proteobacteria 等物种的代谢网络模块化
分析及比较
4.1 代谢网络的模块化分解
近几年来,随着用复杂网络理论描述代谢网络结构的陆续完成,人们逐渐转入对代谢网
络的分解和子网络之间的组成关系的研究,即如何把一个错综复杂的网络分解成具有特定功
能的多个子集团。在代谢网络调控方面已建立了一些有效的代谢通路分析方法,如基元模式
分析(elementary flux modes, EFMs)和极端途径分析(extreme pathways, EPs)。然而,将
这些方法应用到大规模的全基因组代谢网络时,会出现组合爆炸问题。因此,在利用这些方
法进行通路分析前,必须将网络分解成功能相对独立的子网络。一般有基于生物学意义和基
于网络的拓扑结构两种分解方法。如生物学家按照反应属于不同的代谢通路:糖代谢、氨基
酸代谢、脂代谢等,将代谢网络分解为子网络。 Schilling与Palsson提出了按照直观的生
物学标准将代谢网络分解为相对独立的反应簇的算法[44]。然而,由于网络结构是功能的反
应,而且已从拓扑结构上证实代谢网络是子模块按层次化的方式组织起来的[45],更多的算
法倾向于完全从网络拓扑结构出发的分解。
基于代谢流的网络模块化方法对于全基因组规模的代谢网络是不可实现的,并且得到的
各模块之间可能有较多的重叠。层次式聚类算法需要预先设定划分的模块数目 k,而代谢网
络的复杂连接决定了很难确定这个 k,所以不符合我们的应用目的。对于大规模的复杂网络
适合用图形化形式直观表示,因此利用图形聚类算法进行网络模块化分解受到越来越广泛的
重视。图形聚类的基本原则在于使各个模块具有一定的结构独立性,模块内部节点之间密切
代谢网络拓扑分析及在线粒体进化中的应用
第 16 页 共 7 页
相关而与其他模块中节点的连接较少。为了定量的描述这个原则,Newman 提出了网络模块
性(modularity)的概念。对于一个进行了模块划分的网络,其模块性 M 定义为[46]:
2
1 2
r
s s
s
l d
M
L L
  
   
   

其中,r 是模块的个数,L 是网络中所有节点的链接数目的总和,ls 是模块 s 内部节点间链
接数目的和,ds 是模块 s 内部节点的连接度的总和。在该定义下,0≤M<1,M 值越高,表明
网络的模块化程度越明显,M 值一般分布在 0.3-0.7 之间[43]。当节点随机划分时,M=0。
模拟退火算法是模拟固体的退火过程,对 Metropolis 算法进行迭代的组合优化算法。
设组合优化问题的一个解 i 和目标函数 f(i)分别与固体的一个微观状态 i 和能量状态 Ei 等
价,并用控制参数 t 担当固体退火过程中温度 T 的角色,则对于控制参数 t 的每一取值,算
法持续进行“产生新解-判断-接受/舍弃”的迭代过程,控制参数 t 随算法进程递减其值,
使得整个迭代过程与固体在某一恒定温度下趋于热平衡的过程相对应。模拟退火算法从某个
初始解出发,经过大量解的变换后,可以求得给定控制参数值时组合优化问题的相对最优解。
然后减少控制参数 t 的值,重复执行,就可以在控制参数 t 趋于零时最终求得组合优化问题
的整体最优解[47]。
模拟退火算法的基本思想为:
1) 初始化:初始温度T (充分大),初始解状态 S(是算法迭代的起点), 每个T 值的迭
代次数 L;
2) 对 k=1,……,L,反复做第 3)至第 6)步;
3) 产生新解 S′;
4) 计算增量 Δt′=C(S′) - C(S),其中 C(S)为目标函数;
5) 若 Δt′<0,则接受 S′作为新的当前解,否则以概率 exp(-Δt′/T) 接受 S′作为
新的当前解(Metropolis 准则)
6) 如果满足终止条件则输出当前解作为最优解,结束程序。终止条件通常取为连续若
干个新解都没有被接受时则终止迭代过程。
7) T 逐渐减少,且 T>0,然后转第 2)步。
Guimerà 和 Amaral 提出了利用模拟退火算法寻找使得网络模块性 M 最大的模块结构划
分的算法,即模拟退火聚类算法[15,16]。该算法是将模块性 M 的负值作为模拟退火算法中
的目标函数,每一个新状态的接受概率根据 Metropolis 准则定义为:
1 if
exp( ) if
f i
f i
f i
c c
p c c
c c
T


  
 

其中 Cf 是更新后的目标函数,Ci 是更新前的目标函数。
在每个温度 T,通过两类随机移动改变网络模块结构,1) 某一个节点从一个模块随机
移动到另一个模块,做 ni 次,定义 ni=fω2; 2) 随机合并两个模块或者将某一个模块随机
地划分成为两个模块,做 nc 次,定义 nc=fω。其中,ω 为整个网络的节点数目;f 为迭代
因子;温度 T 按照冷却因子 Δ 进行改变,T’=ΔT,一般 Δ∈[0.990,0.999]。当温度连
续改变 25 次模块性 M 都不变时,收敛,得到的收敛状态即为最终的聚类结果[15,16]。
本文选取了迭代因子 f=1,冷却因子 Δ=0.99 的聚类结果作为模拟退火聚类算法的聚类
结果。以线粒体为例,其模块化分解的结果如表 4-1,M= 0.42605。
代谢网络拓扑分析及在线粒体进化中的应用
第 17 页 共 7 页
表 4-1 线粒体代谢网络的模拟退火聚类结果
模块 0 1 2 3 4 5 6
酶 的 总
数
27 38 29 15 3 8 28
4.1.3.18
1.1.1.39
2.6.1.2
1.1.2.4
2.2.1.6
4.1.1.1
1.8.1.4
1.2.4.1
1.1.1.38
4.3.1.19
1.1.2.3
1.1.1.40
1.1.1.37
4.3.1.17
4.1.3.30
4.2.1.2
1.2.1.22
1.1.1.86
1.9.3.1
3.1.2.6
1.11.1.9
1.8.1.7
2.1.1.114
1.6.5.3
1.3.5.1
1.10.2.2
1.3.99.1
6.3.3.2
3.5.4.9
6.3.4.3
2.7.7.2
2.7.1.26
2.7.7.1
3.6.1.13
6.1.1.2
4.2.1.70
6.1.1.1
6.1.1.4
4.6.1.1
6.1.1.9
6.1.1.21
6.1.1.12
6.1.1.10
6.1.1.19
6.1.1.14
3.6.3.14
2.7.4.3
6.3.1.5
6.1.1.17
2.7.2.8
2.7.6.3
2.7.1.23
6.1.1.11
6.1.1.3
6.3.4.14
2.7.1.13
2.7.1.15
6.1.1.20
6.1.1.6
2.7.1.67
6.1.1.7
2.7.1.30
2.7.1.29
6.1.1.5
6.1.1.22
1.3.1.9
3.1.2.14
2.3.1.86
2.3.1.38
2.3.1.41
1.1.1.10
4.1.3.21
1.2.4.2
2.3.3.14
4.2.1.36
1.1.1.15
2.3.1.39
6.2.1.3
2.3.1.7
2.3.1.12
6.2.1.4
2.3.3.1
2.3.1.61
3.1.2.1
2.3.1.1
4.1.3.7
2.3.1.37
6.2.1.5
6.4.1.2
2.3.3.13
4.1.3.12
2.7.1.24
4.1.3.5
6.2.1.1
3.2.1.33
2.4.1.25
2.4.1.11
2.4.1.34
1.17.4.1
2.4.1.83
1.8.1.9
1.2.1.5
1.2.1.3
1.2.1.4
2.5.1.47
1.1.1.1
3.5.1.4
1.2.1.19
1.5.99.6
3.2.2.5
3.5.1.19
2.4.2.1
1.1.1.8
2.7.8.5
1.1.99.5
3.1.4.46
2.7.7.41
2.7.8.8
4.1.1.65
3.1.3.27
2.6.1.1
2.3.1.35
1.4.1.4
1.5.1.12
2.6.1.11
1.4.1.13
1.1.1.42
2.6.1.42
1.1.1.41
4.2.1.3
1.5.1.2
1.5.99.8
1.2.1.38
2.1.3.2
1.5.1.15
2.1.2.11
1.5.1.3
2.1.2.10
1.5.1.5
2.1.2.9
2.1.2.1
1.4.4.2
1.5.1.20
1.1.1.169
2.5.1.15
6.3.2.17
4.1.2.25
4.2.1.9
代谢网络拓扑分析及在线粒体进化中的应用
第 18 页 共 7 页
各物种的模块性指数如表4-2所示,可以看到,真细菌中的mge,mcp,mpn,bbu模块性最低,
rickettsias一类次之,而真核生物以及apha-proteobactia中的rhizobacteria的模块性都
较高,古细菌的模块性处于中间。线粒体虽然在酶的数量以及网络直径,平均路径长度等方
面和rpr最为接近,但是在模块性上要明显高于rpr以及其他寄生性的细菌。线粒体代谢网络
具有更显著的模块化程度一方面可能是因为线粒体的基因是由核基因、原始共生菌、叶绿体
经过多次重新组合镶嵌而成的。统一来源的酶之间连接较紧密,而不同来源的酶之间可能连
接较少。另一方面,线粒体有复杂的区室结构,全透的外膜和半透的内膜把线粒体分割成执
行不同代谢反应具有不同分工的区室,统一区室的酶连接较紧密,而跨膜需要能量消耗因而
连接较少。
表 4-2 各物种模拟退火的模块性指数
物种 模块性指数 物种 模块性指数
sce 0.424588 rickettsias
cel 0.450933 ama 0.282852
aph 0.24961
ecn 0.269804
eco 0.409419 ech 0.274587
sty 0.427313 erg 0.281673
nme 0.391668 erw 0.288097
cje 0.32513 eru 0.286795
mge 0.14458 rpr 0.313938
mcp 0.169135
mpn 0.159941 Archaea
bbu 0.129201 mja 0.238315
rhizobacteria afu 0.338957
pab 0.320697
sme 0.442676 ape 0.397284
atu 0.434055 pai 0.366926
mlo 0.432256
bme 0.455504
ccr 0.409407 mit 0.42605
4.2 物种间整体模块化结构的相似性比较
4.2.1 模块相似性的度量方法
为了比较叶绿体与蓝藻代谢网络的模块化结构,发现相似和不同的功能模块,本文基于
汉明距离的概念定义了如下的相似性指标来分析两个模块之间的相似性[48]。
对两个模块 a 和 b,每个模块中酶的数目分别为 Na 和 Nb。首先,计算两个模块中任意
两个酶的相似性。EC number 是按照酶促反应的性质对酶的分类命名,包含四位数字,例如
葡萄糖磷酸转移酶的分类编号是:EC 2.7.1.1,第1个数字(2)代表酶的分类名称(转移酶类),
代谢网络拓扑分析及在线粒体进化中的应用
第 19 页 共 7 页
第 2 个数字(7)代表亚类(磷酸转移酶类),第 3 个数字(1)代表亚亚类(以羟基作为受体的磷
酸转移酶类),第 4 个数字(1)代表该酶在亚-亚类中的排号(D 葡萄糖作为磷酸基的受体)。
相近的 EC 编号具有相似的功能,特别是只有最后一位不同的两个酶是非常相似的,如果我
们只找出各模块间完全相同的酶,就会忽略这些重要的信息,因此我们根据 EC 的等级定义
更为合理的酶相似性评价指标。我们把每一个酶的 EC number 看作一个向量,由四部分组成,
每一部分根据 EC 的等级分别赋予权重 0.1,0.2,0.3,0.4。对两个 EC,我们用向量 P 来描
述它们的一致性及差异性。如果它们在第 k 级的位置相同,则定义 Pk 为 1,否则 Pk 为 0。
酶 i 和 j 的相似性定义如下:
4
1
ij k k
k
S w P

 
例如,对于酶 1.1.1.2 和 1.1.3.1,其相似性 S 为:
3.004.003.012.011.0 s
注意,比较两个 EC 时要从高的级别到低的级别,如果第 k 级不同,即使第 t (t>=k)级
相同,Pt 依然为 0。例如,对于酶 1.1.1.2 和 1.3.1.2,其相似性 S 为: 0.1 1 0.1s    。
得到了 a,b 两个模块中任意两个酶的相似性之后,对模块 a 中的每一个酶取其与 b 中
酶的相似性的最大值,用 Sbest 表示。则模块 a,b 之间的相似性 Simiab 为:
1
1 aN
ab i
ia
Simi Sbest
N 
 
得到两个物种各个模块之间的相似性以后,需要进一步分析两个物种间的整体模块化结
构相似性。将每一个物种整体看作一个大类,该物种中的每一个模块看作大类中的元素,则
计算两个物种之间的相似性就等价于计算两个大类之间的相似性。
这里引入豪斯道夫度量(Hausdorff metric)的概念,豪斯道夫度量用来测量某些度量空
间中非空点集之间的距离[49]。
令 X 为一个度量空间, x 为它的度量。对一给定点 x X 及一非空集合 A X ,首先
定义 x 到 A 的距离为:
( , ) : inf ( , )H X
a A
x A x a 


则对于任意两个非空集合 ,A B X ,集合 A,B 之间的豪斯道夫距离定义为:
( , ): max( ( , ), ( , ))H asym asymA B A B B A  
其中
( , ): sup ( , )asym H
a A
A B a B 


基于豪斯道夫度量,我们给出了如下的物种间模块化结构相似性的定义:
令 C1 和 C2 表示两个大类(即两个物种),Sspecies(C1, C2)为物种之间的模块化结构
相似性,a 和 b 分别为 C1 和 C2 中的元素(即物种中的模块),首先定义 C1 中元素 a 到 C2
的距离 S(a,C2):
代谢网络拓扑分析及在线粒体进化中的应用
第 20 页 共 7 页
2
2( , ) max[ ( , )]
b C
S a C Simi a b


则 C1 和 C2 之间的相似性 S(C1, C2)定义为:
1
1 2 2( , ) min[ ( , )]
a C
S C C S a C


S(C1,C2)一般是不对称的,根据 S(C1,C2)的定义进一步定义 C2 和 C1 之间的相似性
S’(C2,C1):
2 1
2 1'( , ) min{max[ ( , )]}
b C a C
S C C Simi b a
 

根据以上几个定义,两个物种间整体模块化结构相似性 Species(C1,C2) 定义为:
1 2 1 2 2 1( , ) min[ ( , ), '( , )]speciesS C C S C C S C C
4.2.2 各物种代谢网络全局模块化结构的比较
基于上一章对于 28 个物种网络整体拓扑特征的比较,选取和线粒体拓扑特征较为相近
的 rpr,mge,mcp,mpn,bbu 以及同为 rickettsias 的 ama,aph,ecn,ech,erg,erw,eru,以及真细菌中的
eco,真核的 sce,古细菌中的 mja 进行模块化结构分析。
基于上节介绍的相似性评价方法,计算了这些物种两两间模块化结构的相似性,如表
4-3 所示。然后根据距离矩阵,利用层次聚类(hierarchical clustering)方法对各物种
进行聚类,得到结果图 4-1 所示。
表 4-3 各物种间整体模块化结构的相似性
ama aph bbu ech ecn eco erg eru Erw mcp mge mit mja mpn rpr sce
ama 1.00 0.52 0.35 0.45 0.39 0.32 0.42 0.65 0.42 0.21 0.20 0.33 0.31 0.20 0.45 0.32
aph 1.00 0.31 0.55 0.38 0.31 0.27 0.49 0.27 0.22 0.20 0.30 0.29 0.20 0.35 0.31
bbu 1.00 0.40 0.41 0.32 0.26 0.36 0.26 0.42 0.35 0.24 0.10 0.44 0.29 0.32
ech 1.00 0.38 0.35 0.46 0.46 0.40 0.21 0.19 0.31 0.32 0.21 0.35 0.40
ecn 1.00 0.43 0.38 0.46 0.38 0.26 0.21 0.32 0.40 0.22 0.36 0.44
eco 1.00 0.31 0.37 0.33 0.28 0.20 0.30 0.40 0.23 0.28 0.55
erg 1.00 0.77 0.74 0.23 0.17 0.31 0.32 0.17 0.48 0.34
eru 1.00 0.71 0.24 0.21 0.32 0.32 0.24 0.41 0.36
erw 1.00 0.23 0.17 0.30 0.33 0.24 0.33 0.33
mcp 1.00 0.48 0.22 0.10 0.48 0.24 0.21
mge 1.00 0.26 0.10 0.64 0.18 0.15
mit 1.00 0.24 0.31 0.27 0.33
mja 1.00 0.10 0.28 0.27
mpn 1.00 0.18 0.20
rpr 1.00 0.33
sce 1.00
代谢网络拓扑分析及在线粒体进化中的应用
第 21 页 共 7 页
图 4-1 16 个物种模块化结构的层次聚类
从图上可以看到,同属于 rickettsias 的 erg,eru,erw,ama,aph,ech,rpr,ecn 在一个分
支,特别是 erg,eru,erw 的模块化结构非常相似,而属于寄生性真细菌的 mge,mcp,mpn,bbu
聚为另一大类,然后是古细菌,最后是线粒体与各物种具有明显差异,其模块化程度最高。
这一结果基本上与物种的系统发育关系一致。由此我们可以看出,线粒体虽然在网络拓扑结
构上和 rpr 比较接近,但是其模块化程度明显高于 rpr,说明线粒体的全局代谢组与专门化
功能间具有更好的协同作用,有利于其更专一地执行能量代谢的功能。
4.3 模块与功能的对应关系
基于拓扑连接对代谢网络进行模块划分后,更重要的一步就是将各个模块对应到具体的
代谢通路,从而揭示模块化结构的生物学意义。KEGG 中将所有代谢反应主要分为九大类过
程
[70,71]
,分别为:糖代谢(carbohydrate metabolism)、能量代谢(energy metabolism)、脂类代谢
(lipid metabolism)、核苷酸代谢(nucleotide metabolism)、氨基酸代谢(amino-acid metabolism)、
多 糖生 物合 成与 代谢 (glycan biosynthesis and metabolism) 、 辅 助 因 子与维 生素 代谢
(metabolism of cofactors and vitamins)、次级代谢物的生物合成(biosynthesis of secondary
metabolites)和异源物质的生物降解(biodegradation of xenobiotics)。根据 KEGG 的九大功能分
类,我们将物种中每个模块内的酶与之进行匹配。
下图 4-2 为 rpr 的模块功能对应
由于模拟退火产生的模块数不固定,每个物种最后得到的模块数都不尽相同,很难比较。
因而我选取和线粒体有相同模块数且酶的数量也较为接近的 mge 进行模块功能匹配,比较线
粒体和真细菌之间功能模块的异同。线粒体与 mge 的模块功能划分如图 4-2 所示:
代谢网络拓扑分析及在线粒体进化中的应用
第 22 页 共 7 页
0
20
40
60
80
100
120
0 1 2 3 4
模块
酶
代谢网络拓扑分析及在线粒体进化中的应用
第 23 页 共 7 页
0
20
40
60
80
100
0 1 2 3 4 5 6
糖代谢 能量代谢 脂类代谢
核苷酸代谢 氨基酸代谢 多糖生物合成与代谢
辅助因子与维生素代谢 次级代谢物的生物合成 异源物质的生物降解
0
20
40
60
80
100
0 1 2 3 4 5 6
图 4-2 线粒体(上)与 mge(下)的模块功能划分
代谢网络拓扑分析及在线粒体进化中的应用
第 24 页 共 7 页
4.3 本章小结
代谢网络拓扑分析及在线粒体进化中的应用
第 25 页 共 7 页
第五章 结论
本文利用现有代谢数据库和文献信息重构了线粒体、α-Proteobacteria 及真核生
物、真细菌、古细菌共 29 个物种的全基因组规模代谢网络,比较了他们代谢网
络结构的相同和不同,发现亲缘关系相近的物种具有接近的网络拓扑特征,线粒
体和 α-Proteobacteria 中的 rpr 有相似的平均路径长度,聚类系数,网络直径,这和从序列
比对推测的结果相吻合。利用模拟退火聚类算法对代谢网络进行模块分解,发现各种不同的
α-Protobacteria 具有较为相似的模块化结构,而线粒体呈现出明显差异。经过模块功能的更
加细化的分析比较,表明线粒体缺失了次级代谢产物的合成及异源生物合成所需的大多数
酶,这一点和 rpr 以及其他的寄生性真细菌都不相同。线粒体具有更显著的模块化结构和功
能划分,说明其全局代谢组与专门化功能之间具有更好的协同作用。线粒体的这些特点是由
于在漫长的进化过程中,发生过大量水平基因转移,使得线粒体的基因组和代谢组方面都显
示出异质性。
目前关于线粒体进化的推测还很难有统一的结论,如何排除强烈的噪声干扰追踪线粒体
的进化起源,并揭示内共生过程中的演化规律及适应性,还有待于以下两方面条件的成熟:
1.各物种线粒体基因组图谱及其注释的完成;2.复杂网络的动力学性质的深入研究。
代谢网络拓扑分析及在线粒体进化中的应用
第 26 页 共 7 页
参考文献
[1] Erdos P,Renyi A. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad.
Sci.,1960,5:17~60
[2] Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks. Nature,1998,
393(6684):440~442
[3] Barabasi A L.Albert R. Emergence of scaling in random networks.
Science,1999,286(5439):509~512
[4] Kitano H. Computational systems biology. Nature, 2002, 402: 206-210
[5] 杨胜利,系统生物学研究进展,中国科学院院刊,2004,19(1):31-34
[6] Ideker T. Systems biology-what you need to know. Nature Biotech, 2004, 22: 473-475
[7] 吴家睿, 系统生物学面面观, 科学, 2002, 45(6): 21-24
[8] Jeong H, Tombor B, Albert1 R, etc. The large-scale organization of metabolic networks.
Nature, 2000, 407: 651-654
[9] Wagner A and Fell DA. The small world inside large metabolic networks. Proc. R. Soc.
Lond. B, 2001, 268: 1803-1810
[10] Ma HW and Zeng A-P. Reconstruction of metabolic networks from genome data and
analysis of their global structure for various organisms. Bioinformatics, 2003, 19: 270-277
[11] Hartwell LH, Hopfield JJ, Leibler S, etc. From molecular to modular cell biology. Nature,
1999, 402: C47–C52
[12] Ravasz E, Somera AL, Mongru DA, etc. Hierarchical organization of modularity in
metabolic networks. Science, 2002, 297: 1551–1555
[13] Rives AW and Galitski T. Modular organization of cellular networks. Proc. Natl. Acad. Sci.
U. S. A. 2003, 100: 1128–1133
[14] Papin JA, Reed JL and Palsson BO. Hierarchical thinking in network biology: the unbiased
modularization of biochemical networks. Trends Biochem. Sci. 2004, 29: 641–647
[15] Guimerà R and Amaral LAN. Functional cartography of complex metabolic networks,
Nature, 2005a, 433: 895-900
[16] Guimerà R and Amaral LAN. Cartography of complex networks: Modules and universal
roles. J. Stat. Mech. Theor. Exp. 2005b, P02001, 1-13
[17] Ma HW and Zeng A-P. Reconstruction of metabolic networks from genome data and
analysis of their global structure for various organisms. Bioinformatics, 2003, 19: 270-277
[18] 王希成,生物化学,北京,清华大学出版社,2001,197-211
[19] 丁明孝,王喜忠,王永潮等,细胞生物学,北京,高等教育出版社,1995,159-170;
374-383
代谢网络拓扑分析及在线粒体进化中的应用
第 27 页 共 7 页
[20] 匡廷云,马克平,白克智,生物质能研发展望,中国科学基金,2005(6):326-330
[21] Michael W.Gray, Gertraud B, B.Franz L. Mitochondrial Evolution Science 283(5407);1476
[22] Eisen JA. Horizontal gene transfer among microbial genomes: new insights from complete
genome analysis. Curr. Opin. Genet. Dev. 2000, 10: 606-611
[23] Aravind L, Tatusov RL, Wolf YI, Walker DR, Koonin EV. Evidence for massive gene
exchange between archaeal and bacterial hyperthermophiles. Trends Genet. 1998, 14:
442-444
[24] Garcia-Vallve S, Romeu A, Palau J. Horizontal gene transfer in bacterial and archaeal
complete genomes. Genome Res. 2000, 10: 1719–1725
[25] Hedges SB. The origin and evolution of model organisms. Nat. Rev. Genet. 2002, 3:
838-849
[26] Martin W. Mosaic bacterial chromosomes: a challenge on route to a tree of genomes.
Bioessays, 1999, 21: 99–104
[27] Woese CR. Interpreting the universal phylogenetic tree. Proc. Natl. Acad. Sci. U. S. A.
2000,
15: 8392–8396
[28] Woese CR. On the evolution of cells. Proc. Natl. Acad. Sci. U. S. A. 2002, 99: 8742–8747
[29] Dutta C, Pan A. Horizontal gene transfer and bacterial diversity. J. Biosci. 2002, 27: 27-33
[30] Jain R, Rivera MC, Moore JE, Lake JA. Horizontal gene transfer in microbial genome
evolution. Theor. Popul. Biol. 2002, 61: 489-495
[31] http://wit.mcs.anl.gov/WIT2/
[32] http://biocyc.org/
[33] Brown JR. Ancient horizontal gene transfer. Nature genetics, 2003, 4: 121-132
[34] http://www.ncgr.org/programs/pathways/
[35] http://www.genome.ad.jp/kegg/
[36] Kanehisa M and Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids
Res, 2000, 28(1): 27-30
[37] Albert R, Barabási A L. Statistical mechanics of complex networks. Reviews of modern
physics, 2002, 74: 47-97
[38] Barabási AL, Albert R. Emergence of scaling in random networks. Science, 1999, 286:
509-512
[39] Goto S, Nishioka T, Kanehisa M. LIGAND: chemical database for enzyme reactions.
Bioinformatics, 1998, 14: 591-599
[40] Bairoch A. The ENZYME data bank in 1995. Nucleic Acids Res., 1996, 24: 221–222
[41] Ravasz E, Somera AL, Mongru DA, etc. Hierarchical organization of modularity in
metabolic networks. Science, 2002, 297: 1551–1555
[42] Newman MEJ and Girvan M. Finding and evaluating community structure in networks.
Phys. Rev. E 69, 2004, 026113
代谢网络拓扑分析及在线粒体进化中的应用
第 28 页 共 7 页
[43] Guimerà R, Sales-Pardo M, and Amaral LAN. Modularity from fluctuations in random
graphs and complex networks. Phys. Rev. E 70, 2004, 025101(R)
[44] Schilling CH, Palsson BO. Assessment of the metabolic capabilities of Haemophilus
influenzae Rd through a genome-scale pathway analysis. J Theor Biol, 2000, 203: 249-283
[45] Redner S. An empirical study of the citation distribution. Eur. Phys. J. B, 1998, 4: 131-134
[46] Newman MEJ and Girvan M. Finding and evaluating community structure in networks.
Phys. Rev. E 69, 2004, 026113
[47]Kirkpatrick S, Gelatt CD and Vecchi MP. Optimization by simulated annealing. Science, 1983,
220: 671–680
[48]Glazko GV, Mushegian AR. Detection of evolutionarily stable fragments of cellular pathways
by hierarchical clustering of phyletic patterns. Genome Biol. 2004, 5: R32 1-13
[49] Nicolas A, Diego SC, Touradj E. MESH: measuring errors between surfaces using the
hausdorff distance. In Proceedings of the IEEE International Conference in Multimedia and
Expo (ICME), 2002, 705-708
[50] Lynn Margulis, René Fester Symbiosis as a source of evolutionary innovation:speciation
and morphogenesis. MIT Press 1991 ISBN 0262132699
Duarte, N.C., Herrgard, M.J., and Palsson, B.O. "Reconstruction and Validation of Saccharomyces
cerevisiae iND750, a Fully Compartmentalized Genome-scale Metabolic Model" Genome Research,
2004.
代谢网络拓扑分析及在线粒体进化中的应用
第 29 页 共 7 页
附录
以 mja 为例,构建酶与酶相互关联网络的程序 corelate.pl
my $count=0;
my @array=();
open(LIST,'keggdocentry_all.txt')||die "$!";
foreach(<LIST>)
{
chomp;
$array{$count}=$_;
$count++;
}
close(LIST);
##############################################
$count=0;
####################################these are entries of a certain
speciesopen(LIST,'keggdocmjaentry.txt')||die "$!";
foreach(<LIST>)
{ s/^s+//;
chomp;
my @array=split(/s+/,$_);
$mja_entry{$array[0]}=1;
$mja{$count}=$array[0];
$count++;
}
close(LIST);
######################################
$count=0;
open(LIST,'keggdocr1.txt')||die "$!";
foreach(<LIST>)
{
chomp;
my @array=split(/s+/,$_);
if(exists $mja_entry{$array{$count}}){
#print $mja_entry{$array{$count}},"n";
$reac{$array{$count}}=$_; ####extract reactions only in this species
}
$count++;
代谢网络拓扑分析及在线粒体进化中的应用
第 30 页 共 7 页
}
close(LIST);
##############################################
$count=0;
open(LIST,'keggdocmjaenzyme.txt')||die "$!";
foreach $cd(<LIST>)
{
chomp;
#print;
$cd=~s/^s+//;
$enzyme{$mja{$count}}=$cd;
$count++;
}
close(LIST);
##############################################
$count=0;
####################################
open(LIST,'keggdocp1.txt')||die "$!";
foreach(<LIST>)
{
chomp;
if(exists $mja_entry{$array{$count}}){
$proc{$array{$count}}=$_; ####same as above
}
$count++;
}
close(LIST);
########################################################
## if it is reversible reaction, combine reactors and products
open(LIST,'keggdocreverse_all_me.txt');
foreach(<LIST>)
{
chomp;
my @array=split(/s+/,$_);
if($array[1]==0)
{
$reac{$array[0]}="$reac{$array[0]}t$proc{$array[0]}";
$proc{$array[0]}="$reac{$array[0]}t$proc{$array[0]}";
}
$reversehash{$array[0]}=$array[1];
}
close(LIST);
#############################################
代谢网络拓扑分析及在线粒体进化中的应用
第 31 页 共 7 页
open(OUT,'>keggdocmjacorelation.txt');
my $len=@array=sort keys(%mja_entry);
for(my $i=0;$i<$len;$i++)
{
for(my $j=$i;$j<$len;$j++)
{
my @tmparray1=split(/s+/,$reac{$array[$i]});
my @tmparray2=split(/s+/,$proc{$array[$i]});
my @tmparray3=split(/s+/,$reac{$array[$j]});
my @tmparray4=split(/s+/,$proc{$array[$j]});
foreach my $arrayvalue1(@tmparray1)
{
$printtag=0;
next if(!$arrayvalue1);
foreach my $arrayvalue2(@tmparray4)
{
next if(!$arrayvalue2);
if($arrayvalue1 eq $arrayvalue2)
{
my @tmparray5=split(/s+/,$enzyme{$array[$i]});
my @tmparray6=split(/s+/,$enzyme{$array[$j]});
$printtag=1;
foreach my $arrayvalue3(@tmparray5)
{
foreach my $arrayvalue4(@tmparray6)
{ next if($arrayvalue4 eq $arrayvalue3);
print OUT "$arrayvalue4t$arrayvalue3n";
}
}
last;
}
}
last if($printtag==1);
}
foreach my $arrayvalue1(@tmparray3)
{
$printtag=0;
next if(!$arrayvalue1);
foreach my $arrayvalue2(@tmparray2)
{
next if(!$arrayvalue2);
if($arrayvalue1 eq $arrayvalue2)
{
my @tmparray5=split(/s+/,$enzyme{$array[$j]});
代谢网络拓扑分析及在线粒体进化中的应用
第 32 页 共 7 页
my @tmparray6=split(/s+/,$enzyme{$array[$i]});
$printtag=1;
foreach my $arrayvalue3(@tmparray5)
{
foreach my $arrayvalue4(@tmparray6)
{next if($arrayvalue4 eq $arrayvalue3);
print OUT "$arrayvalue4t$arrayvalue3n";
}
}
last;}}
last if($printtag==1);
} }}
close(OUT);
代谢网络拓扑分析及在线粒体进化中的应用
第 33 页 共 7 页
谢辞
在为期八个月的毕业设计中,我衷心感谢给予我帮助和鼓励的所有老师,学长和同学。
感谢魏老师的牵线搭桥,让我有幸了解到王卓老师的课题并从此开始了系统生物学和生物
信息学的学习和研究。感谢吴茂英老师和陈样宜师兄在程序设计方面提供的大量指导和帮
助,使我在短短几个月的时间内能对生物信息学常用软件,对于系统维护, linux 操作系统等
都有所了解,并且已经能够比较熟练的使用 perl 进行编程。当然还要感谢我的指导老师王
卓,既像师姐一样和我分享日常生活的喜怒哀乐,理解我在等待的日子里的苦恼焦虑,同
时又以一个非常严谨认真的科学态度训练我各方面的能力,给予我自由的同时也给与我挑
战。
代谢网络拓扑分析及在线粒体进化中的应用
第 34 页 共 7 页
译文及原文
复杂代谢网络的功能地图
摘要
高通量的技术使得生物数据库的规模爆炸式增长同时也是我们对生命和疾病的认识产
生了革命。然而,解释这些数据仍然是一个科学挑战。这里,我们提出了一种挖掘和显示复
杂网络中信息的新方法。值得一提的是,我们可以发现复杂网络中的功能模块,并把节点按
他们的进和出的模块连接度进行归类。因而这种方法得出了复杂网络的一种地图表示。代谢
网络是最有挑战性的生物学网络之一。我们在此用这一方法分析了三界十二个物种的代谢网
络。我们发现,一般 80%的节点之和对应模块中的其他节点相连。不同角色的节点收到不同
的进化选择压力。显著的一点是我们发现那些参加的反应不多但连接不同模块的代谢物比模
块内度最大的节点更加保守。
如果我们要得到一个复杂的大型网络中有用的拓扑信息,关于个节点的角色的了解是非
常重要的。一个地图的类比在此是非常有益的。比如在一个有一国内城市和乡镇作为节点,
道路为边组成的网络。很自然一个有固定大小的点和固定宽度的线组成的网是没有多大用处
的。而实际的地图上会重点标注首都和主要交通线,使我们能够一眼就看到有用的信息。同
样的,要冲成百上千节点和边组成的网络中得到信息也是很困难的,如果可能的话。除非节
点和边的信息可以方便的总结起来。在生物学网络中更是如此。
这里,我们提出了一种基于节点连接度的复杂网络地图表示方法。我们方法第一步是找
出复杂网络里的功能模块。在地图里,模块可以类比城市或地区,这样就得到一个简化的粗
粒化的网络的描述。之后我们把节点归结到各独立的普遍角色中去。
在社会关系网络中社团内紧密相连而和社团外连接很少这一现象是很常见的。这类模块
结构不仅在社会网络中而且在食物网和生化反应网中也被提及。模块结构对复杂网络功能的
重要性是被普遍公认的。因此,设计算法发现正确的模块划分就有了明确的需求。
我们用模拟退火算法来达到网络模块最大化。模拟退火是我们可以执行一种竭穷搜索并
使得发现最佳子划分的问题最小化。值得注意的是,我们的方法不需要事先确定模块的数目,
这个数目是算法自然产生的结果。我们的算法可以可信的发现网络中的模块,即使在 50%的
边饰连接到自己模块以外的。
图 1
当考察模块网络,猜测网络的节点是根据他们的角色来相互连接时似是而非的。这一事
实在社会网络的分析中早已经被认可。比如,在一个经典的等级组织中,首期执行官不是直
接和工厂员工向关联,而是和董事会的成员。这样一个在几乎任何组织中都成立。也就是,
三号黑体居中,
上下各空一行
代谢网络拓扑分析及在线粒体进化中的应用
第 35 页 共 7 页
首席执行官的角色不管在哪个组织中都存在。
我们提出了一种新的决定节点在复杂网络中角色的方法。我们的方法是建立在这个思想
上的:扮演相同角色的节点应该有相似的拓扑性质。我们的设想是,节电的角色可以在很大
程度上被他的模块内度和参与常数所决定。参与常数定义了节点在自身模块中和在其他模块
中的地位。一旦知道了网络中的模块,这两个参数是很容易计算的。
模块内度 zi 代表了节点 i 对模块内其他节点的连接情况。Zi 越大表明模块内度大,反之
亦然。参与常数 Pi 代表模块 i 的边分布在模块间是怎样的。参与常数 Pi 接近 1 说明它的边
平均分布在各模块,等于 0 则表明它的边都在自己的模块。
我们用启发式的方法划分出七个不同的普遍角色,每一个由 z-P 参数空间的不同区域来
定义。根据模块内度,我们可以把 z>=2.5 的节点作为中心节点,z<2.5 的不是中心。但中
心和非中心节点最终要被参与系数更加明确的决定下来。
图 2
我们发现,非中心节点可以自然的划分为四种角色:(R1)极端边缘节点;即所有的边
都在模块内的节点(P<=0.05)(R2)边缘节点;即大多是边在模块内的节点(0.05<P<=0.62)
(R3)非中心连接节点;即有许多模块外连接的节点(0.62<P<=0.80)(R4)非中心非亲戚
节点;既节点的边均匀分布于所有模块的节点(P>0.80)。我们发现,中心节点可以自然的
划分为三类:(R5)局域中心;即绝大多数的连接在模块内的中心节点(P<=0.30);(R6)连
接中心;即有许多连接到大多数其他模块的中心节点(0.30<P<=0.75);及(R7)非亲属中
心;既均匀连接分布于各模块的中心节点。
为了测试把这一方法运用于复杂生物网络的可行性,我们考察了 12 个物种代谢网络的
地图表示。四种细菌 四种真核生物(Escherichia coli, Bacillus subtilis, Lactococcus
lactis and Thermasynechococcus elongatus)四种真核生物(Plasmodium falciparum and
Homo sapiens) 和四种古细菌(Pyrococcus furiosus, Aeropyrum pernix, Archaeoglobus
fulgidus and Sulfolobus solfataricus).在代谢网络中,节点代表代谢物,如果两个节点
i 和 j 分别是一个反应的底物和产物则相连,反之亦然。在我们的分析中,我们使用 Ma 和
Zeng(MZ)从 KEGG 提取得数据加工得到的数据库。如果我们用完整的 KEGG 数据库结论也不会
改变。
图 3
图 4
首先,我们确定在不同代谢网络中的功能模块。单单依靠拓扑特征寻找模块是一项极其
重要的工作。比如,Schuler 等人已经报道说从完整的代谢网络中的道基元流模式是不可能
的,因为这种模式数量是呈组合爆炸式增长。我们的算法平均对每个代谢网络发现 15 个不
同的模块——最多的是大肠杆菌和人,有 19 个,最少的是 A. fulgidus, 有 11 个。如预期
中的,模块中的连接数要远远大于模块间的——一般是大 100-1,000 倍。
为了评估个模块和传统的生化反应途径的关系,我们使用 KEGG 提供的分类图表,其中
有九类主要反应通路:糖类代谢,能量代谢,脂类代谢,核酸代谢,氨基酸代谢,多糖合成
及代谢,辅助因子和维生素的代谢,次级代谢物合成及异源物质的降解。在 KEGG 中的每个
代谢物都至少归于一个反应途径;因而我们可以认定某个特定模块中的某个代谢物所属的反
代谢网络拓扑分析及在线粒体进化中的应用
第 36 页 共 7 页
应途径。我们发现绝大多数模块中的代谢物属于一个反应途径。比如,在大肠杆菌的 19 个
模块中,17 个模块中多于三分之一的代谢物属于一个代谢途径。有趣的是,另一些模块—
—大肠杆菌中有两个——不能归于一个传统的反应途径。这些模块一般在代谢中处于中心地
位,它们包涵了大多数在 KEGG 中归属于糖类和氨基酸代谢的代谢物。
接着我们认定各个反应物的角色。在图 2b 我们展示了在大肠杆菌代谢网络中的角色。
其他物种中也显示了类似的不同节点的度分布。尽管他们对应于进化中距离很远的物种。角
色 R1 包含了极端边缘的代谢物,占了网络中所有代谢物的 76%-86%。这样大大简化了网路
粗粒化表示,因为这些节点不需要分别认定。注意这一发现本身代表了走向从复杂网络中提
取标度特异性信息这一目标的重要一步。
模块和角色的信息是我们能够建立代谢网络的地图表示法。比如,大肠杆菌。这个表示
法是我们能发现相关的生物学信息。比如,我们发现代谢主要是围绕包含丙酮酸的模块的,
而这个模块有强烈的和以 CoA 为中心节点的模块相连。这些分子是连接糖类,氨基酸及脂类
代谢到TCA循环以产生ATP的关键。这两个模块通过关键代谢物和更加边缘化的模块相连接,
这些代谢物有:如 d-甘油醛 3-磷酸,d-果糖-6-核糖-5-磷酸(它和某些核苷酸代谢相连),
以及磷酸甘油(它和某些脂类代谢相连)。
我们的分析还发现那些起关节作用的节点之参与了一小部分基础的反应。举例来说,
N-carbamoyl-l-aspartate 只参与了三个反应但它很关键,因为他连接了嘧啶代谢,通过此
代谢的中心分子是脲嘧啶和丙氨酸及天冬氨酸代谢相连。这些非中心关联节点的潜在重要性
有另一考虑。有这样一种可能性,即不同角色的节点面对不同的进化选择压力。尤其,我们
预期那些起结构相关功能的节点是更加必须的应而也会更加保守。
为了对不同角色和保守性进行定量分析,我们定义了丢失速率 p lost(R),我们预期结构
相关的角色 p lost(R)较小,反之亦然。我们发现不同的角色有不同的丢失速率。就像预计的
一样,极端边缘节点(R1)有最高的丢失速率,而连接中心(R6)则是在所有物种中都最保
守的中心节点。
极端边缘节点与连接中心的 p lost(R)比较结果是很明显的,当时一点也不令人吃惊。然
而,非中心连接节点与局域中心节点的 p lost(R)比较则产生了令人吃惊的结果。属于局域中
心节点的代谢物有很多模块内连接,有时 5 倍于标准偏差的多于模块内平均节点连接。相反,
非中心连接点代谢物的连接数要不它们同一模块里其他节点少——少于角色 R5 的边的总
数。而非中心连接者可以分布于几个不同的模块。我们发现非中心连接着在系统层次上显著
的要比局域中心节点代谢物更加保守。
对于非中心连接者的高保守性的一个可能解释如下:连接着节点负责模块间代谢流。不
然的话这些模块就会很少相连或根本不想连。因而删除连接着代谢物很可能会对网络整体代
谢流产生很大影响。相比而言,有局域中心节点参与的代谢途径可以在模块内得到支持,使
得删除这些代谢物的影响相对较小,这样也就限制在只有局域中心节点的模块。
应而我们的结果指出有必要把负载的生物网络看成一个整体,而非关注与局域的性质。举例
来说,在蛋白质网络中,有报道说中心节点比非中心节点更重要。不考虑之一发现是否想管,
我们的结果指出网络中的全局角色可能是比度更好的度量节点重要性的指标。
代谢网络拓扑分析及在线粒体进化中的应用
第 37 页 共 7 页
我们的地图表示为提供了一种从复杂网络结构中分析数据并得到关于网络及其各组成
的功能的认识的标度特异性方法。一个尚未解决的问题是如何把现有的模块识别算法运用到
等级网络结构中。
对于代谢网络,这个相对来说已经被研究的比较深入的例子,我们的方法是我们能重新
发现已经确凿的生物学事实,并且发现新的重要结果,比如非中心连接点代谢物的显著的保
守性。可以预期,如果这一方法运用到其他不想代谢网络那样研究很透的复杂网络中也会得
到相似的结果。这其中,蛋白质相互作用网络和基因调控网络可能是最显著的例子。
把网络中的节点分到不同的模块,对于一个给定的划分,这一划分的模块数 M 是:
其中 N 是模块数,L 是网络中的连接数,Is 是模块 s 中的节点之间的连接数。d s 是模块 s
中各节点的度的总合。这样定义模块化的理由如下。
对网络进行模块划分,一个好的划分必须有尽可能多的模块内连接和尽可能少的模块间连
接。然而,如果我们尝试是模块间连接最少(或者,等价的,市模块内连接数最大)最佳的
划分将只有一个模块,且没有模块间连接。公式(1)注意到这一问题,通过假定当节点是
随机放到各模块或者所有节点在一个簇里时 M=0 来处理。
一个模块发掘算法的目标是发现最大模块系数的划分。已提出了几个方法来达到这一目
的。大多数的算法依靠启发式步骤并且使用 M,或类似的,只评价它们的表现。像比较而言,
我们用模拟退火来发现最大模块化的划分。
模拟退火用于模块识别
模拟退火是一中随机最优化技术,它使你能发现低花费的构象,不会被停留在高花费的
局部最小值。这是通过使用一个计算机温度 T。当 T 高时,四通可以发觉高化肥的构象,而
当温度低的时候,系统只会搜索低花费的区域。通过从高温 T 开始缓慢降温,系统逐步下降
到最小值,最终克服小的局部极小的壁垒。
当识别模块式,目标是使模块数最大化。因而花费是 C=-M, M 是公式(1)中已经定义
好的。在每一个温度下,我们执行一顶数量的随机初始化并一概率接受它们:
其中 C f 是初始化后的花费,C I 是初始化前的花费。
特别是,我们提出在各个温度下,有 n i = fS 2
个节点从一个模块移到另一个模块,当 S
是网络中节点的数目时。我们提出 n c = fS 次移动,其中包括合并两个模块或者分裂一个
模块。对于 f, 我们特地选择 f = 1。 在温度 T,当移动经过评估后,系统被降温到 T' = cT,
c = 0.995.
代谢网络拓扑分析及在线粒体进化中的应用
第 38 页 共 7 页
模块内度和参与常数
每个模块有几种不同的组织方式,从完全中心化的——有一个或几个节点连接所有其他
节点——到完全去中心化的,即所有节点都与相近的连接度。扮演相似角色的节点应该有相
近的模块内连接度。如果 I 是节点 I 到 s i 内其他节点的连接数, ¯si 是 对 s I 中所有节点
的平均数, si 是 sI 中 的标准方差,那么,
这就是所谓的 z-分。模块内的 z-分值表示节点 i 和其他统一模块的节点的连接程度。不同
的角色也可能是因为一个节点对其他模块的连接度。比如,两个有着相同 z-分的节点可能
扮演不同的角色,如果其中一个和其他模块的几个节点相连,而另一个没有。我们节点 i 的
参与系数 P I 如下:
其中 is 是节点 i 到模块 s 的节点的总连接数,k i 是结点 i 的总度数。因而节点的参与系
数接近 1 表示他的连接均匀分布于各模块,等于 0 表示连接全在自身模块内。
丢失速率
为了量化角色和保守性的关系,我们计算了代谢物从多大程度上又他们扮演的角色来决
定在各物种中的保守性的。特别的,对于一对物种,A 和 B, 我们定义丢失速率为概率 p(R
A = 0|R B = R) p lost(R), 如果一个代谢物在一个物种中扮演角色 R( R B = R)则它
不存在与给定的一个物种中(R A = 0)。结构上相关的角色应该有较小的 p lost(R),反之
亦然。
代谢网络拓扑分析及在线粒体进化中的应用
第 39 页 共 7 页
Functional cartography of complex metabolic
networks
Roger Guimerà
1
and Luís A. Nunes Amaral
1
1. NICO and Department of Chemical and Biological Engineering,
Northwestern University, Evanston, Illinois 60208, USA
Correspondence to: Luís A. Nunes Amaral
1
Correspondence and requests for
materials should be addressed to L.A.N.A.
(Email: amaral@northwestern.edu).
Top of page
Abstract
High-throughput techniques are leading to an explosive growth in the size
of biological databases and creating the opportunity to revolutionize our
understanding of life and disease. Interpretation of these data remains,
however, a major scientific challenge. Here, we propose a methodology that
enables us to extract and display information contained in complex
networks
1, 2, 3
. Specifically, we demonstrate that we can find functional
modules
4, 5
in complex networks, and classify nodes into universal roles
according to their pattern of intra- and inter-module connections. The
method thus yields a 'cartographic representation' of complex networks.
Metabolic networks
6, 7, 8
are among the most challenging biological networks
and, arguably, the ones with most potential for immediate applicability
9
.
We use our method to analyse the metabolic networks of twelve organisms
from three different superkingdoms. We find that, typically, 80% of the
nodes are only connected to other nodes within their respective modules,
and that nodes with different roles are affected by different evolutionary
constraints and pressures. Remarkably, we find that metabolites that
participate in only a few reactions but that connect different modules
are more conserved than hubs whose links are mostly within a single module.
If we are to extract the significant information from the topology of a
large, complex network, knowledge of the role of each node is of crucial
importance. A cartographic analogy is helpful to illustrate this point.
Consider the network formed by all cities and towns in a country (the nodes)
and all the roads that connect them (the links). It is clear that a map
in which each city and town is represented by a circle of fixed size and
each road is represented by a line of fixed width is hardly useful. Rather,
代谢网络拓扑分析及在线粒体进化中的应用
第 40 页 共 7 页
real maps emphasize capitals and important communication lines so that
we can obtain scale-specific information at a glance. Similarly, it is
difficult, if not impossible, to obtain information from a network with
hundreds or thousands of nodes and links, unless the information about
nodes and links is conveniently summarized. This is particularly true for
biological networks.
Here, we propose a methodology, which is based on the connectivity of the
nodes, that yields a cartographic representation of a complex network.
The first step in our method is to identify the functional modules
4, 5
in
the network. In the cartographic picture, modules are analogous to
countries or regions, and enable a coarse-grained, and thus simplified,
description of the network. Then we classify the nodes in the network into
a small number of system-independent 'universal roles'.
It is common that social networks have communities of highly
interconnected nodes that are less connected to nodes in other communities.
Such modular structures have been reported not only in social networks
5,
10, 11, 12
, but also in food webs
13
and biochemical networks
4, 14, 15, 16
. It is widely
believed that the modular structure of complex networks plays a critical
role in their functionality
4, 14, 16
. There is therefore a clear need to
develop algorithms to identify modules accurately
5, 11, 17, 18, 19, 20
.
We identify modules by maximizing the network's modularity
11, 18, 21
using
simulated annealing
22
(see Methods). Simulated annealing enables us to
perform an exhaustive search and to minimize the problem of finding
sub-optimal partitions. It is noteworthy that, in our method, we do not
need to specify a priori the number of modules; rather, this number is
an outcome of the algorithm. Our algorithm is able to reliably identify
modules in a network whose nodes have as many as 50% of their connections
outside their own module (Fig. 1).
Figure 1: Performance of module identification methods.
To test the performance of the method, we build 'random networks' with
known module structure. Each test network comprises 128 nodes divided into
代谢网络拓扑分析及在线粒体进化中的应用
第 41 页 共 7 页
4 modules of 32 nodes. Each node is connected to the other nodes in its
module with probability p i, and to nodes in other modules with probability
p o < p i. On average, thus, each node is connected to k out = 96 p o nodes
in other modules and to k in = 31 p i in the same module. Additionally,
p i and p o are selected so that the average degree of the nodes is k =
16. We display networks with: a, k in = 15 and k out = 1; b, k in = 11 and
k out = 5; and c, k in = k out = 8. d, The performance of a module identification
algorithm is typically defined as the fraction of correctly classified
nodes. We compare our algorithm to the Girvan–Newman algorithm
5,18
, which
is the reference algorithm for module identification
11,18,19
. Note that our
method is 90% accurate even when half of a node's links are to nodes in
outside modules. e, Our module-identification algorithm is stochastic,
so different runs yield, in principle, different partitions. To test the
robustness of the algorithm, we obtain 100 partitions of the network
depicted in c and plot, for each pair of nodes in the network, the fraction
of times that they are classified in the same module. As shown in the figure,
most pairs of nodes are either always classified in the same module (red)
or never classified in the same module (dark blue), which indicates that
the solution is robust.
High resolution image and legend (76K)
When considering modular networks, it is plausible to surmise that the
nodes in a network are connected according to the role they fulfil. This
fact has been long recognized in the analysis of social networks
23
. For
example, in a classical hierarchical organization, the chief executive
is not directly connected to plant employees but is connected to the
members of the board of directors. Such a statement holds for virtually
any organization; that is, the role of chief executive is defined
irrespective of the particular organization considered.
We propose a new method to determine the role of a node in a complex network.
Our approach is based on the idea that nodes with the same role should
have similar topological properties
24
(see Supplementary Information for
a discussion on how our approach relates to previous work). We predict
that the role of a node can be determined, to a great extent, by its
within-module degree and its participation coefficient, which define how
the node is positioned in its own module and with respect to other modules
25,
26
(see Methods). These two properties are easily computed once the modules
of a network are known.
代谢网络拓扑分析及在线粒体进化中的应用
第 42 页 共 7 页
The within-module degree z i measures how 'well-connected' node i is to
other nodes in the module. High values of z i indicate high within-module
degrees and vice versa. The participation coefficient P i measures how
'well-distributed' the links of node i are among different modules. The
participation coefficient P i is close to 1 if its links are uniformly
distributed among all the modules, and 0 if all its links are within its
own module.
We define heuristically seven different universal roles, each defined by
a different region in the z–P parameter space (Fig. 2). According to the
within-module degree, we classify nodes with z 2.5 as module hubs and
nodes with z < 2.5 as non-hubs. Both hub and non-hub nodes are then more
finely characterized by using the values of the participation coefficient
(see Supplementary Information for a detailed justification of this
classification scheme, and for a discussion on possible alternatives).
Figure 2: Roles and regions in the z–P parameter space.
代谢网络拓扑分析及在线粒体进化中的应用
第 43 页 共 7 页
a, Each node in a network can be characterized by its within-module degree
and its participation coefficient (see Methods for definitions). We
classify nodes with z 2.5 as module hubs and nodes with z < 2.5 as non-hubs.
We find that non-hub nodes can be naturally assigned into four different
roles: (R1) ultra-peripheral nodes; (R2) peripheral nodes; (R3) non-hub
connector nodes; and (R4) non-hub kinless nodes. We find that hub nodes
can be naturally assigned into three different roles: (R5) provincial hubs;
(R6) connector hubs; and (R7) kinless hubs (see text and Supplementary
Information for details). b, Metabolite role determination for the
metabolic network of E. coli, as obtained from the MZ database. Each
metabolite is represented as a point in the z–P parameter space, and is
coloured according to its role. c, Same as b but for the complete KEGG
database.
High resolution image and legend (188K)
We find that non-hub nodes can be naturally divided into four different
roles: (R1) ultra-peripheral nodes; that is, nodes with all their links
within their module (P 0.05); (R2) peripheral nodes; that is, nodes with
most links within their module (0.05 <P 0.62); (R3) non-hub connector
nodes; that is, nodes with many links to other modules (0.62 < P 0.80);
and (R4) non-hub kinless nodes; that is, nodes with links homogeneously
distributed among all modules (P > 0.80). We find that hub nodes can be
naturally divided into three different roles: (R5) provincial hubs; that
is, hub nodes with the vast majority of links within their module (P
0.30); (R6) connector hubs; that is, hubs with many links to most of the
other modules (0.30 < P 0.75); and (R7) kinless hubs; that is, hubs with
links homogeneously distributed among all modules (P > 0.75).
To test the applicability of our approach to complex biological networks,
we consider the cartographic representation of the metabolic networks
6,
7, 8, 9, 14
of twelve organisms: four bacteria (Escherichia coli, Bacillus
subtilis, Lactococcus lactis and Thermasynechococcus elongatus), four
eukaryotes (Saccharomyces cerevisiae, Caenorhabditis elegans,
Plasmodium falciparum and Homo sapiens), and four archaea (Pyrococcus
furiosus, Aeropyrum pernix, Archaeoglobus fulgidus and Sulfolobus
solfataricus). In metabolic networks, nodes represent metabolites and two
nodes i and j are connected by a link if there is a chemical reaction in
which i is a substrate and j a product, or vice versa. In our analysis,
we use the database developed by Ma and Zeng
8
(MZ) from the Kyoto
Encyclopedia of Genes and Genomes
27
(KEGG). The results we report are not
代谢网络拓扑分析及在线粒体进化中的应用
第 44 页 共 7 页
altered if we consider the complete KEGG database instead (Figs 2c and
4b, and Supplementary Information).
Figure 3: Cartographic representation of the metabolic network of E. coli.
Each circle represents a module and is coloured according to the KEGG
pathway classification of the metabolites it contains. Certain important
nodes are depicted as triangles (non-hub connectors), hexagons (connector
hubs) and squares (provincial hubs). Interactions between modules and
nodes are depicted using lines, with thickness proportional to the number
of actual links. Inset: metabolic network of E. coli, which contains 473
metabolites and 574 links. This representation was obtained using the
program Pajek. Each node is coloured according to the 'main' colour of
its module, as obtained from the cartographic representation.
High resolution image and legend (66K)
Figure 4: Roles of metabolites and inter-species conservation.
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure
Mitochondria evolution and its complex networks structure

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Mitochondria evolution and its complex networks structure

  • 2. 代谢网络拓扑分析及在线粒体进化中的应用 上海交通大学 生命科学技术学院 俞一明 代谢网络拓扑分析在线粒体进化研究中的应用 摘要 内共生理论认为线粒体是由 Alpha Proteobacteria 中的一支通过和原始的真核细胞长期 共生进化而来的。根据单基因,特别是基于 SSU rRNA 构建的系统发育树确立了许多真细 菌与线粒体,核基因之间的亲缘关系。目前较普遍的观点是线粒体和 Alpha/rickettsiaszho 中 的 rpr 最为接近。但是由于单个基因的信息量有限,加上线粒体基因组的碱基组成非常不同, 很难反映物种之间整体的相似程度,利用现有数据库的全基因组信息和系统生物学的分析工 具将对线粒体的进化研究提供更加系统深入的解释。 复杂网络理论的迅速发展为在整体水平上研究生物网络的结构组成和功能提供了新的 平台。代谢网络由于其信息的完备性和可靠性而成为系统生物学领域一个重要的研究对象, 基于图论的方法已经证实代谢网络具有无标度网络和小世界特征。本文重构了包括线粒体 在内的 29 个物种的酶关联的代谢网络,发现亲缘关系较近的物种具有比较相似的网络拓扑 特征。特别注意到 Alpha/rickettsias 属的 rpr 和线粒体有最为相近的拓扑特征,这一结果和 之前基因组比对的结果相吻合,更有力地支持了“内共生学说”,说明结构的相似性和功能 存在对应关系。 许多研究发现代谢网络具有模块化特征,即网络可以被分割成彼此联系较少,而模块内 联系紧密的子集。本文利用模拟退火聚类方法得到 29 个物种的模块划分,将各模块内的酶 对应到相应的代谢功能,比较物种间各模块内每一功能大类的酶的数量,发现糖代谢、核 苷酸代谢、辅助因子代谢、脂类代谢等基础类代谢普遍存在于几个模块中,而对于多糖生 物合成,异源微生物的生物降解及次级代谢产物的生物合成,则明显的集中于某些模块中, 同时还发现线粒体中参与次级代谢产物的合成及异源微生物降解的酶几乎没有。网络整体 模块化结构的相似性分析表明不同的 α-Proteobacteria 呈现较为相似的模块化结构,而线粒 体则具有更显著的模块化程度,说明线粒体的全局代谢组与专门化功能间具有更好的协同 作用。 关键词:代谢网络,线粒体,内共生, 模块化,网络进化
  • 3. 代谢网络拓扑分析及在线粒体进化中的应用 上海交通大学 生命科学技术学院 俞一明 THE STUDY OF MITOCHONDRIA EVOLUTION BASE ON TOPOLOGY ANALYSIS OF METABOLIC NETWORK ABSTRACT According to the theory of endosymbiosis, mitochondria is the endosymbiont of Alpha Proteobactia which reside within a nucleus-containing (but amitochondriate) host cell. Single-gene phylogenies (especially SSU rRNA-based ones) have established many of the currently accepted affiliations among and between eubacterial, mitochondrial, and nuclear genomes; however, the resolving power of single-gene analyses is limited by the inherently small information content of individual genes, complicated in the particular case of mitochondria by extreme differences in base composition. In this case, we try to use do a global analyses of metabolic networks of mitochondria and related species in the framework of complex network theory and systems biology, hoping that it will give us a more understanding to endosybiotic process. Recently, there has been much progress in understanding the importance of network structure on its function. Different networks can have the same topological properties, the small world property has been proved to be existed in social relation network, WWW, and all in biological networks. In the thesis, I reconstructed 29 enzyme interaction networks, finding that similarity of topological properties are basically coherent with phylogenical relatedness. Thus it proved again that structural similarity can deduce functional similarity. Modularity (the division of a network into much less related sub-networks)has been discussed in many researches. In this work, simulated annealing is used to find modules. Then each enzyme in the module is map to its functional categories. The comparison mitochondria modules and that of rpr and aph show that mitochondria has evolved to be more specific in metabolism in each module and at the same time, lost many or nearly all reactions in some categories like biosynthesis of secondary metabolites,which is quite different from rpr and aph. This implies that the functional difference between mitochondria and rpr is much large than the structural similarity. Key words: metabolic network, mitochondria, endosymbiosis, modularity, network evolution
  • 4. 代谢网络拓扑分析及在线粒体进化中的应用 上海交通大学 生命科学技术学院 俞一明 目 录 第一章 绪论 -------------------------------------------------------------------------------------------------1 1.1 网络的新科学--------------------------------------------------------------------------------------1 1.2 系统生物学的诞生与意义-----------------------------------------------------------------------1 1.3 代谢组学与代谢网络的研究内容与现状--------------------------------------------------------2 1.4 内共生学说与线粒体进化-------------------------------------------------------------------------3 1.4.1 内功生学说----------------------------------------------------------------------------------3 1.4.2 线粒体进化----------------------------------------------------------------------------------4 1.5 水平基因转移---------------------------------------------------------------------------------------5 1.6 本章小结----------------------------------------------------------------------------------------------5 第二章 基于图论的代谢网络静态分析方法-------------------------------------------------------------6 2.1 KEGG 数据库简介----------------------------------------------------------------------------------6 2.2 代谢网络的图表示及统计方法-------------------------------------------------------------------7 2.2.1 图的定义与网络的小世界性质----------------------------------------------------------8 2.2.2 代谢网络的图表示-------------------------------------------------------------------------8 2.3 本章小结---------------------------------------------------------------------------------------------9 第三章 线粒体与α-Proteobacteria等物种的代谢网络构建与拓扑结构分析---------------------10 3.1 数据来源与数据解析-----------------------------------------------------------------------------10 3.2 全基因组规模的代谢网络重构-----------------------------------------------------------------12 3.3 本章总结---------------------------------------------------------------------------------------------14 第四章 线粒体与α-Proteobacteria等物种的代谢网络模块化分析及比较------------------------15 4.1 代谢网络的模块化分解--------------------------------------------------------------------------15 4.2 物种间整体模块化结构的相似性比较--------------------------------------------------------18 4.2.1 模块相似性的度量方法-----------------------------------------------------------------18 4.2.2 各物种代谢网络全局模块化结构的比较--------------------------------------------20 4.3 模块与功能的对应关系--------------------------------------------------------------------------21 4.4 本章总结--------------------------------------------------------------------------------------------24 第五章 结论--------------------------------------------------------------------------------------------------25 参考文献-------------------------------------------------------------------------------------------------------26 谢辞-------------------------------------------------------------------------------------------------------------32 译文及原文----------------------------------------------------------------------------------------------------34
  • 5. 代谢网络拓扑分析及在线粒体进化中的应用 第 1 页 共 7 页 第一章 绪论 1.1 网络的新科学 从互联网,人际关系网,电力网,交通网,到神经网络,代谢网络,蛋白质相互作用 网,信号传递网,可以说,人们一直就生活在一个充满着各种各样的复杂网络的世界中。 而似乎有点出人意料的是,越来越多的研究表明,这些看上去各不相同的网络之间有着许 多惊人的相似之处。对于复杂网络的定量和定性特征的科学理解, 复杂网络的研究起始于 20 世纪 60 年代的随机图理论[1],然而现有的网络结构并不都 是随机的,上世纪末,这两篇论文开创开创了复杂网络研究的新纪元:一篇是美国 Cornell 大学理论与应用力学系的博士生 Watts 及其导师、非线性动力学专家 Strogatz 教授于 1998 年6月在Nature上发表的《“小世界”网络的集体动力学》的文章[2] ; 另一篇是美国Notre Dame 大学物理系的 Barabási 教授及其博士生 Albert 于 1999 年 10 月在 Science 上发表的《随机网 络中标度的涌现》[3] 。这两篇文章揭示了复杂网络的小世界特征和无标度性质,并建立了相 应的模型以阐述这些特性的产生机理。 1.2 系统生物学的诞生与意义 生命是非常复杂的系统。长期以来受研究手段和认识水平的局限,我们一直以还原论的 方式,将这个复杂系统分割成孤立的小单位,分别加以研究。分子生物学从诞生至今的五 十余年,人们对于生命在细胞与分子水平上的认识不断深入,许多成果也已经产生了广泛 的应用。但是,正如同盲人摸象,往往会误解大象的真实模样,如果要在更高的层次上了 解生命是什么,比如生命从何而来,生命如何产生越来越复杂的组织形式和功能单位,如 何对环境作出反应等等,就必须把所有我们所掌握的细节信息整合为一个逻辑自恰的系统, 从整体的观点来重新审视它。 2003 年人类基因组计划的完成,标志着生物医学研究进入大规模、并行化的时代,伴随 着一个又一个物种全基因组的测序完成,我们开始具备对一个生物系统中所有组成成分和 相互关系进行分析和建模技术能力。这就意味着从整体和系统的水平上研究复杂生命现象 开始成为可能。系统生物学就是在这样一个背景下应运而生的。 美国科学院院士、国际系统生物学创始人 Lee Hood 教授认为:系统生物学是“以生物系 统内的所有组成成分及其相互关系为对象,通过大规模动力学分析,用数学方法抽象出生 物系统的设计原理和运行规律”的科学。 如图 1-1 所示,系统生物学的基本工作流程有四个阶段。首先是对选定的某一生物系统 的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络和代谢途径, 以及细胞内和细胞间的作用机理,以此构造出一个初步的系统模型。第二步是系统地改变 被研究对象的内部组成成分(如基因突变)或外部生长条件,然后观测在这些情况下系统 组分或结构所发生的相应变化,包括基因表达、蛋白质表达和相互作用、代谢途径等的变 化,并把得到的有关信息进行整合。第三步是把通过实验得到的数据与根据模型预测的情 况进行比较,并对初始模型进行修订。第四阶段是根据修正后的模型的预测或假设,设定 和实施新的改变系统状态的实验,重复第二步和第三步,不断地通过实验数据对模型进行 修订和精练。系统生物学的目标就是要得到一个理想的模型,使其理论预测能够反映出生 物系统的真实性。整合是系统生物学的灵魂,信息是系统生物学的基础,干涉是系统生物
  • 6. 代谢网络拓扑分析及在线粒体进化中的应用 第 2 页 共 7 页 学的钥匙。 图 1-1 系统生物学的研究思路和流程[6] Fig. 1-1 The idea and pipeline of research on system biology[4] 1.3 代谢网络的研究现状 代谢组学是一门对某一生物或细胞所有低分子量代谢产物进行定性和定量分析,以监测 活细胞中化学变化的科学。代谢处于生命活动调控的末端,因此代谢组学比基因组学、蛋 白质组学更接近生物体的表型。基因组学、蛋白质组学研究一般是发现和鉴别潜在的可能 性,而代谢组学研究则是发现和鉴别真实的变化。代谢组学作为基因型与表型之间的桥梁, 将基因产物和基因关联起来,实现基因功能的鉴定,成为功能基因组学研究的有力工具。 近几年来随着数百种生物的全基因组测序的完成,以及对基因功能不断深入和广泛的 了解,各种生物网络(包括代谢网络,基因调控网络,信号转导网络等)的研究在生命科 学领域中越来越受到重视。这主要是人们越来越深刻地认识到生物体中各组成成分(基因、 蛋白质、代谢物等)的功能都是通过与其它部分的相互作用体现出来的。因此,只有在系 统水平上对所有相关成分进行整体分析才能对生物的生理功能有全面的了解。在各种生物 网络中,代谢网络由于其信息的完备性和可靠性而成为系统生物学领域一个重要的研究对 象。代谢网络理论把细胞的生化反应看作是一个完备的相互作用体系,在网络整体的层面 上加以研究,而不是孤立地进行考虑[5]。众所周知,细胞代谢的网络由上万种酶催化的系列 反应系统、膜传递系统、信号转导系统组成,并且既受到精密调节,又互相协调,是一个极 其复杂的生命系统。各种代谢都不是孤立地进行的,而是相互作用、相互转化、相互制约的 一套完整、统一、灵敏的调节系统。 代谢网络由于其确凿的生物学意义,数据的可靠性和完备性而成为在复杂网络研究中
  • 7. 代谢网络拓扑分析及在线粒体进化中的应用 第 3 页 共 7 页 最早的生物学网络之一。从基因组水平重构得到的代谢网络通常具有较大的规模,包含几百 甚至上千个反应和代谢物,基于图论的方法是分析大规模复杂网络整体结构的有力工具。 Jeong 等最早用图论的形式来描述代谢网络[8],以代谢物作为图中的节点,若两个代谢物可在 一个反应中转化则两对应节点相连接。Wagner 和 Fell 用代谢物图和酶图两个图来表示代谢 网络[9]。他们的研究均表明代谢网络具有典型的无标度网络特征(即连接度分布符合幂率分 布)和小世界网络特征(即具有较高的聚类系数和较短的平均路径长度)。Jeong 等通过分 析得到 43 个物种的代谢网络具有基本一致的平均路径长度(约 3.2),但是其中包含了大量 普遍存在的小分子(如 ATP, ADP, NADP 等),它们会缩短网络的平均路径长度,导致结果 不符合生物学意义。因此,Ma 和 Zeng 在新的数据库中省略了大量类似的小分子,分析了 80 个物种的代谢网络,发现古细菌、真细菌和真核生物具有明显不同的平均路径长度,古 细菌和真核生物比真细菌具有较长的平均路径长度和网络直径,从而验证了古细菌和真核 生物更接近的进化关系[10]。 为进一步分析复杂代谢网络中蕴含的功能信息,需要识别功能模块。Hartwell 等, Ravasz 等和 Papin 等都发现代谢网络具有与社会网络类似的模块化结构[11-14] 。如何有效识别并提取 代谢网络中的功能模块是一项重要的研究工作。常规的聚类算法 (如 single-link, complete-link, k-means 等)均可用于网络图的模块划分,但是这几种方法都需要预先设定划 分的模块数目,而大规模代谢网络的复杂性使得很难给定模块数目,因此限定了这些常规 方法的应用。Guimerà 和 Amaral 采用模拟退火算法识别代谢网络中的功能模块,通过最优 化模块性(modularity)目标函数,使得划分出的模块内部的点连接得尽可能紧密,而模块之 间的点连接得尽可能稀疏。并按照 KEGG 的功能分类评价得到的模块化结构,发现大多数 模块都主要对应于一类代谢过程[15-16]。在网络的层次上再一次验证了“结构决定功能”。 国外代谢网络方面的研究发展比较迅速,已经构建了很多代谢网络数据库,主要有 KEGG, WIT, BioCyc 等,使得直接从基因组注释信息重构相应生物的代谢网络成为可能。但 存在的问题是无法方便地得到一个包含特定生物代谢网络中所有已知反应的反应列表,因而 限制了对代谢网络做进一步的数学分析。基于此, Ma 和 Zeng[17] 在 KEGG 代谢反应数据库的 基础上进行修正补充后得到一个新的数据库,其中包含了所有已完成测序的生物的代谢网络 的反应列表(目前有近 150 种生物)。 1.4 内共生学说与线粒体进化- 1.4.1 内共生学说与线粒体的起源 在各种生态系统中,微生物不仅与环境因素有密切关系,而且与其他生物间也有密切 关系,其中最典型和最重要的相互关系为以下五种[18] : 1) 互生现象(metabiosis):两种可以单独生活的微生物共存于同一环境时,互为对方提 供营养或创造良好生活条件,这种“可分可合,合比分好”的“互惠互利”关系称为互生, 又称代谢共栖或半共生。 2) 共生现象(symbiosis):两种不能单独生活的微生物生活在一起时,相互依赖,彼此 有利,甚至形成特殊的共生体,它们在生理上表现出一定的分工,在组织和形态上产生了 新的结构,两种生物间这种“相依为命”的关系称为共生。 3) 竞争现象(competition):生活在一起的两种微生物,为了生长争夺有限的同一营养 或其他共同需要的生长条件而相互竞争,互相受到不利影响,是一种“明争暗斗”的关系, 称为竞争。 4) 拮抗现象(antagonism):两种微生物生活在一起,其中一种能产生某种特殊的代谢 产物或改变环境条件,从而抑制或杀死另一种微生物的现象称为拮抗。
  • 8. 代谢网络拓扑分析及在线粒体进化中的应用 第 4 页 共 7 页 5) 寄生现象(parasitism):一种微生物生活在另一种微生物的体内或体外,依靠摄取后 者细胞的营养生长和繁殖,并使之遭受损害甚至死亡,是一种“损人利己”的关系,称为 寄生。 真核细胞的起源有多种学说,目前有代表性的是内共生学说。这一学说是由 Andreas Schimper 在 1883 年提出的。由于当时没有线粒体和叶绿体含有遗传物质的证据,这一学说 长期得不到承认,直到上世纪六十年代,随着分子生物学的发展和这些细胞器内 DNA 的发 现,才又重新得到关注,并在七十年代被 Lynn Margulis 推而广之(她认为连细菌的鞭毛和 纤毛也是由一种螺旋菌共生而来)根据这个学说,大约在几十亿年前,有一种大型的有吞 噬能力的原核生物,叫作前真核细胞。前真核细胞先后吞噬了几种原核生物(如原始的需 氧型细菌、蓝藻等),这些被吞噬的生物不仅没有被消化分解,反而在前真核细胞中生存下 来了。在进化的过程中,被吞噬的生物由寄生过渡到共生,最终成为宿主细胞的细胞器[19,20]。 例如,前真核细胞吞噬了一种原始的需氧细菌(又称原线粒体),结果这种需氧细菌在前真 核细胞的细胞质里生存下来,并且逐步与前真核细胞形成了内共生关系:需氧细菌不断地 从前真核细胞获取糖酵解产物,而前真核细胞又从需氧细菌那里得到糖酵解产物进一步氧 化而释放的能量。在共同生存的过程中,需氧细菌中的原生质缩减,出现内膜和嵴,从而 成为宿主细胞内专门进行氧化磷酸化产生 ATP 的细胞器,这就是真核细胞中的线粒体。前 真核细胞在吞噬线粒体前身原始的需氧细菌的同时,还吞噬了蓝藻类的原核生物,蓝藻与 宿主细胞长期共生,成为了植物的叶绿体。图 2-5 图 2-5 真核细胞起源的内共生学说[19] 1.4.2 线粒体进化关系 推断物种之间的进化关系的一般方法是通过同源基因的序列比对。现在已知通过这种方 法分析进化关系有许多的困难。比如序列比对的可靠性,某个基因可能不存在于所有要分 析的物种中,还有各个物种,各个序列位点的突变频率都不相同使得用不同基因和蛋白质 序列构建的系统发生数都不相同。因此综合基因组蛋白质组代谢组的综合分析就别的很有 必要。线粒体和叶绿体都含有 DNA 以及用来表达这些基因的机制。根据线粒体基因进行同 源比对后人们普遍认为,线粒体是从 Proteobacteria 门中的 α 亚门中的一种细菌进化而来的 [21].但是线粒体在此亚门中确切的位置还不清楚,有人认为是 Rickettsiaceae 家族中的
  • 9. 代谢网络拓扑分析及在线粒体进化中的应用 第 5 页 共 7 页 Rickettsia 一类细菌,比如 rpr 和 rco,由于在漫长的进化历史中存在着大量的基因水平转移和 重组过程,线粒体的进化关系至今充满争议。同时,相比于叶绿体都非常小的基因组,线 粒体的基因组在不同物种间相差很大。小到 16-18kb 的后生动物中的线粒体,大如 2000kb 的某些高等植物的线粒体,高等植物中一些线粒体基因是从叶绿体和核内转移而来,这使 得线粒体的进化过程更加扑朔迷离。然而虽然在基因组规模上相差很大,线粒体在真核细 胞中的作用大致相同,它是细胞的能量工厂,负责生物的合成与降解代谢,同时它在起始 细胞凋亡中也有重要作用。由于代谢网络和细胞功能的密切对应,从代谢网络分析线粒体 的进化关系不失为一个有益的尝试。 1.4 水平基因转移 水平基因转移(horizontal gene transfer, HGT),又称横向基因转移(lateral gene transfer, LGT)[22],是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。 差异生物个体可以是同种但含有不同的遗传信息的生物个体,也可以是远缘的,甚至没有亲 缘关系的生物个体。单个细胞内部细胞器主要指的是叶绿体、线粒体及细胞核。水平基因转 移是相对于垂直基因转移(亲代传递给子代)而提出的,它打破了亲缘关系的界限,使基因 流动的可能变得更为复杂。 在距今20亿年至10亿年之间,三域生物之间发生了大量的水平基因转移事件。认为现代 真核生物的核来自于古细菌,线粒体和叶绿体来自真细菌。同时还发生了许多其它对现代生 物影响深远的水平基因转移事件,证实了包括古细菌、细菌和真核在内的物种有10%或更多 的基因都是通过水平基因转移获得的[23-27]。因此,水平基因转移是细胞进化和三域生物出现 的主要驱动力量[28-32]。尽管存在水平基因转移导致基于不同基因构建的系统发育树具有不同 的拓扑结构,但是基于古细菌、真细菌和真核全基因组数据出发的系统发育分析证明物种间 的总体进化关系还是符合传统的进化树结构的[33]。 1.6 本章小结 通过代谢网络研究线粒体进化是生物学和复杂性科学的交汇点。从生物学的角度看,基 于全网络信息构建的进化关系可以避免针对不同基因构建的系统发育树产生的矛盾结果, 为”内共生学说”提供更有力的证据。而从复杂系统理论的角度看,两个生物作为具有复杂的 自适应能力的个体,如何产生相互合作与依赖的关系并实现效率的最大化(这里是代谢效率 和遗传效率),对这一问题的分析和研究必将会对其他复杂系统的构建和最优化有广泛的启 迪意义。
  • 10. 代谢网络拓扑分析及在线粒体进化中的应用 第 6 页 共 7 页 第二章 基于图论的代谢网络静态分析方法 2.1 KEGG 数据库简介 京都基因和基因组百科全书 (KEGG) 是系统分析基因功能,联系基因组信息和功能信息 的知识库。基因组信息存储在基因数据库里,包括完整和部分测序的基因组序列;更高级的 功能信息存储在通路数据库里,包括图解的细胞生化过程如代谢,膜转运,信号传递,细胞 周期,还包括同系保守的子通路等信息;KEGG 的另一个数据库是 LIGAND,包含关于化学物 质,酶分子,酶反应等信息。KEGG 提供了 Java 图形工具来访问基因组图谱,比较基因组图 谱和操作表达图谱,以及其它序列比较,图形比较和通路计算的工具,可以免费获取。 图 2-1.KEGG 数据库结构 表 2-1. KEGG 中的三大数据库 类别 数据库 用途 DBGET 搜寻类别 通路信息 KEGG PATHWAY Database 在 KEGG pathway 中搜寻 用颜色标注 KEGG PATHWAY
  • 11. 代谢网络拓扑分析及在线粒体进化中的应用 第 7 页 共 7 页 pathway 产生可能的反应路径 基因组信 息 KEGG GENES Database 搜寻类似的基因序列 搜寻类似的基因组序列 KO GENES GENOME 化学信息 KEGG LIGAND Database 搜寻类似的复合物结构 搜寻类似的多糖结构 搜寻类似的反应 COMPOUND LIGAND GLYCAN REACTION ENZYME 本课题主要使用 LIGAND 子目录下的 REACTION, 以及 PATHWAY 子目录下的各物种代谢 反应文件作为数据源,用于进行数据解析和构建网络。 2.2 代谢网络的图表示及统计方法 网络是一个包含大量个体和个体之间相互作用的系统,可以用节点和节点之间作用关系 构成的图G=(V, E)来表示,其中V代表顶点集合,E代表边集合。按照图中的边是否有方向, 可以把图分为有向图和无向图。描述网络拓扑性质的常用几何量包括度分布、集聚系数、路 径长度、网络直径等[37]。 对于无向图,顶点的度是指与此顶点连接的边的数量。有向图中,顶点的度是其出度和 入度之和,其中出度指起始于该顶点的边数,入度为指向该顶点的边数.网络的度分布是指 随机地选择一个顶点具有度为k的概率P(k),它是度量网络属性的一个重要几何量[37]。 在无向图中,顶点的集聚系数描述了其邻接点之间的连接程度,即网络的局部集团化 程度。在社会网络中描述为你的朋友,他们之间认识的可能性。顶点v的集聚系数的数学定 义为[37]: 其中d(v)是顶点v 的度,N(v)代表顶点v的 d(v)个邻接点之间的直接连线的数目。CC(v) 的 值介于0与1之间。如图3-6所示,若v的任两个邻居间都有连线,CC(v)等于1,若v的所有邻 居间都无连线,CC(v)等于0。 图2-2 无向图中顶点的集聚系数 最短路径 lij 定义为所有连通(i, j)的通路中,所经过其它顶点最少的一条(或几条)
  • 12. 代谢网络拓扑分析及在线粒体进化中的应用 第 8 页 共 7 页 路径,其长度称为最短路径长度。平均路径长度是对网络中任意一对顶点的最短路径长度求 平均,描述了网络中分离任意两个顶点所需的平均步数。网络直径是任意一对顶点的最短路 径长度的最大值[37]。 2.2.1 复杂网络的小世界性质 现实世界中的许多网络都具有“小世界”特性,即网络的平均路径长度很小,与网络的 规模成对数增长;网络的平均集聚系数远大于相同规模的随机网络的集聚系数,如电影演员 合作网络、电力网、万维网和细胞代谢网络等[37]。 1999年,Barabási和Albert在对万维网的网页之间的超级链接关系做统计分析时发现, 网络的度分布并没有呈现预想中的随机网络的度分布,而是服从幂率分布,即P(k)~k-γ, 在双对数坐标系下是一条下降的直线[38]。具有幂律度分布的网络也称为无标度网络,这 是由于幂律分布函数具有如下无标度性质: f(ax)=bf(x) 那么必有(假定f(1)f’(1)≠0) f(x)=f(1)x-γ, γ=-f(1)/f’(1) (推倒从略) 这意味着网络中大多数节点的度很小,但存在少数节点的度远远高于网络的平均度,这 些连接度很高的节点称为集散节点(hub node)。经过大量的实证研究,人们发现属于生命领 域、技术领域、社会领域的不同网络如代谢网络、蛋白质相互作用网络、万维网、科学家合 作网络、电影演员合作网络等都呈现了共同的特征,即它们都是无标度网络,网络的度分布 服从幂率分布,幂指数γ介于2到3之间[39]。 2.2.2 代谢网络的图表示 复杂网络理论的迅速发展为在整体水平上研究生物网络的结构组成和功能提供了新的 平台。近几年,网络生物学的研究表明细胞网络同样遵循一定的普适规律。代谢网络是生物 体内发生的多个化学反应的总和。根据研究目的的不同,代谢网络可以表达成两种不同形式 的图:代谢物图和酶图。代谢物图是把代谢网络中的代谢物看成图中的节点,连接代谢物之 间的反应看成是图的边;酶图是把酶看成图中的节点,连接两个连续反应的中间化合物看成 是图的边,图3-9举例给出了两种图的表示方法。这样,代谢网络就描述为一个数学意义上的 图。
  • 13. 代谢网络拓扑分析及在线粒体进化中的应用 第 9 页 共 7 页 图3-9 代谢网络的代谢物图和酶图表示 [9] Jeong等对分别属于古细菌、细菌、真菌的共43种生物的中央代谢网络进行了统计分析, 发现随机地选择一个底物参加k个反应的概率服从幂率分布,即P(k)~k-γ(γ≈2.2)[8]。 但是其中包含了被称为穿梭分子的化合物(如ATP, ADP, NADP等),有与这些分子参加很多 反应,把很多原本无关的化合物联系起来,从而大大缩短了网络的平均路径长度,湮没了物 种之间网络结构的差异性。因此,Ma和Zeng在新的数据库中省略这些分子,分析了80个物种 的代谢网络,发现古细菌、真细菌和真核三类生物具有明显不同的平均路径长度,古细菌和 真核比真细菌具有较长的平均路径长度和网络直径,从而验证了古细菌和真核更接近的进化 关系[10]。同样,他们也证实了代谢网络是无标度网络并具有“小世界”特征。 2.3 本章小结 本章首先介绍了 KEGG 数据库的结构和功能。随后引入图论的基本概念和复杂网络理论 的主要研究进展,介绍了普遍存在于生物学网络,互联网以及各种社会关系网络中的小世 界性质和无标度特征。基于已有的数据库和理论,我们构建了代谢网络的图论表示,并用 Pajek 软件进行可视化和结构分析。
  • 14. 代谢网络拓扑分析及在线粒体进化中的应用 第 10 页 共 7 页 第三章 线粒体与 α-Proteobacteria 等物种的代谢网络重构与 拓扑结构分析 3.1数据来源与解析 线粒体的代谢反应信息主要来源于 UCSD 系统生物学研究组构建的酵母线粒体网络[ ], 另外我们又将 Saccharomyces Genome Database 和 Comprehensive Yeast Genome Database 两 个数据库中定位在线粒体中的酶补充进来,构建了较为完整的酵母线粒体代谢网络。我们 从 KEGG 中获取了 rpr 等 11 个不同的 α-Proteobacteria 的代谢反应信息。另外,为了做对照 研究,还构建了 2 种真核、10 种真细菌以及 5 种古细菌的代谢网络。各物种的全名及其在 分类学上的位置如下: Eukaryotes [35] sce 酿酒酵母 cel 秀丽隐杆线虫 Prokaryotes (525) Bacteria (484) Proteobacteria (255) Gamma/enterobacteria (38) Proteobacteria (255) eco Escherichia coli K-12 MG1655 大肠杆菌 sty Salmonella enterica serovar Typhi CT18 Gamma/others (83) Beta (44) nme Neisseria meningitidis MC58 (serogroup B) Epsilon (11) cje Campylobacter jejuni NCTC11168 Firmicutes (113) Mollicutes (17) mge Mycoplasma genitalium mpn Mycoplasma pneumoniae ... Delta (15) Alpha/rickettsias (17) rpr Rickettsia prowazekii 普氏里克次氏体 ama Anaplasma marginale 边缘边虫 aph Anaplasma phagocytophilum eru Ehrlichia ruminantium Welgevonden (South Africa) erw Ehrlichia ruminantium Welgevonden (France) erg Ehrlichia ruminantium Gardel
  • 15. 代谢网络拓扑分析及在线粒体进化中的应用 第 11 页 共 7 页 ecn Ehrlichia canis 犬艾利希体 ech Ehrlichia chaffeensis 查芬埃里希氏体 Alpha/rhizobacteria (25) mlo Mesorhizobium loti 百脉根根瘤菌 sme Sinorhizobium meliloti 苜蓿中华根瘤菌 atu Agrobacterium tumefaciens C58 (UWash/Dupont) 根癌土壤杆菌 bme Brucella melitensis 布鲁氏菌 Alpha/others (21) ccr Caulobacter crescentus ... Firmicutes (113) Mollicutes (17) mge Mycoplasma genitalium mpn Mycoplasma pneumoniae ... Spirochete (9) bbu Borrelia burgdorferi ... ... Archaea (41) Euryarchaeota (28) mja Methanococcus jannaschii afu Archaeoglobus fulgidus pab Pyrococcus abyssi ... Crenarchaeota (12) ape Aeropyrum pernix pai Pyrobaculum aerophilum Perl 是 Practical Extraction and Report Language(实用摘录和报告语言)的简称,是由 Larry Wall[39]所发展的。在各种计算平台上,它被用作 Web 编程、数据库处理、XML 处理以及 系统管理——它能够完成所有这些工作,同时仍然是处理小的日常工作的完美工具。Perl 处理信息方面的很大一部分能力来源于一种叫做正则表达式的特殊语法。正则表达式赋予 了 Perl 极大的处理和操作自由文本中的模式的能力。其他语言也有支持正则表达式的,但 是没能像 Perl 结合得这么紧密。因而本文选用 perl 来解析 KEGG 数据库里的 flat text 格式 的反应信息。 基本表是指存储原始基本数据的表单,如表 3-1 所示: 表 3-1 基本表 基本表表名 数据源 功能 entry_all KEGGligandreaction 存储已知反应的代号 R1 KEGGligandreaction 存储已知所有反应的反应物
  • 16. 代谢网络拓扑分析及在线粒体进化中的应用 第 12 页 共 7 页 P1 KEGGligandreaction 存储已知所有反应的产物 pathway KEGGligandreaction 存储所有反应所属的代谢通路 protobacteria dataset.xls MA 和 Zeng 的数据 28 个物种含有的反应代号及 28 个物 种的酶列表 KEGG classification KEGGpathway 每个代谢通路对应的 kegg 功能分类 out mit dataset UCSD,CYGD,SGD 线粒体的代谢反应及对应的酶列表 reverse_all_me Ma 和 Zeng 的数据外加根 据原则自己判断的 存储所有已知反应的可逆性信息 3.2 全基因组规模代谢网络的重构 这所有 28 个物种的代谢反应数据都来自于 KEGG 的 ftp,ftp://ftp.genome.jp/pub/kegg/, 比如通过 pathways>organism>rpr, 得到各个通路的图形化表示和文字信息。以 syw00010 糖酵解通路为例,syw00010.rn 和 syw00010.gene 分别给出了该通路中所有反应列表及各反 应中涉及的酶的列表,如表 3-2 和表 3-3 所示。 表 3-2 syw00010.rn 文件信息 R01061 D-Glyceraldehyde-3-phosphate : NAD+ oxidoreductase(phosphorylating) ; (2R)-2-Hydroxy-3-(phosphonooxy)-propanal + Orthophosphate + NAD+ <=> 3-Phospho-D-glyceroyl phosphate + NADH + H+ R01063 D-Glyceraldehyde-3-phosphate:NADP+ oxidoreductase(phosphorylating) ; (2R)-2-Hydroxy-3-(phosphonooxy)-propanal + Orthophosphate + NADP+ <=> 3-Phospho-D-glyceroyl phosphate + NADPH + H+ R00710 Acetaldehyde:NAD+ oxidoreductase ; Acetaldehyde + NAD+ + H2O <=> Acetate + NADH + H+ R00014 2-(alpha-Hydroxyethyl)thiamine diphosphate pyruvate-lyase (carboxylating) ; 2-(alpha-Hydroxyethyl)thiamine diphosphate + CO2 <=> Thiamin diphosphate + Pyruvate ······ ······ ······ ······ ······ ······ ······
  • 17. 代谢网络拓扑分析及在线粒体进化中的应用 第 13 页 共 7 页 表 3-3 syw00010.gene 文件信息 SYNW1956 putative aldehyde dehydrogenase [EC:1.2.1.3] SYNW1013 acs; acetyl-coenzyme A synthetase [EC:6.2.1.1] SYNW1055 pdhB; pyruvate dehydrogenase E1 beta subunit [EC:1.2.4.1] SYNW1620 pdhA; pyruvate dehydrogenase E1 alpha subunit [EC:1.2.4.1] ······ ······ ······ ······ ······ ······ 在文件 syw00010.rn 中,左列表示该反应所对应的反应号,即 reaction number,右列包 含了该反应中酶和反应方程式的信息。在文件 syw00010.gene 中,左列标号为物种 syw 中的 基因标号,该标号与 reaction number 的对应关系可在文件 syw_gene_map.tab 中查到,右列 为该基因对应的酶的名称及其 EC number,这些酶催化该代谢通路中的反应。 由基因组数据重构针对特定生物的代谢网络是对这些大规模代谢网络进行结构和功能 分析的前提。基于某一物种的基因组注释信息,结合相关的酶反应数据库,就可以确定包含 在代谢网络中所有的代谢反应。其主要步骤如下 [29] : 1) 从基因组序列中识别所有开放阅读框(ORF); 2) 通过序列相似性比对预测该物种的所有酶基因; 3) 查 询酶 命 名数 据库 (Enzyme nomenclature database) , 如ENZYME data bank [40] (http://expasy.hcuge.ch/),将酶基因与酶号对应(EC number); 4) 查询酶与反应关系的数据库,如KEGG的LIGAND/ENZYME [39] ,将酶号对应上它所 催化的代谢反应。 上述方法特别适用于重构新测序物种的代谢网络。对于已经测序和注释的物种,在上述 提到的代谢数据库中可以方便地检索到某一生物中有哪些代谢反应,但存在的问题是无法方 便地得到一个包含特定生物代谢网络中所有已知反应的反应列表,因而限制了对代谢网络做 进一步的数学分析。基于此,Ma和Zeng在KEGG代谢反应数据库的基础上进行修正补充后得 到一个新的数据库,其中包含了所有已完成测序的生物的代谢网络的反应列表(目前有近150 种生物),并可利用程序自动更新以包含新的测序生物和新的基因组注释信息。反应方向是代 谢流程中一个关键因素,Ma和Zeng [10] 构建的数据库中给出了KEGG中所有反应的可逆性信 息,其中1表示可逆反应,0表示不可逆反应,根据这些信息可以构建有向网络。由于kegg 数据库的更新,我又自己补充了一部分原本未知反应的可逆性。在细胞内,线粒体作为能量 工厂有大量的反应包含ATP、ADP,因而这两者不能作为穿梭化合物删去。最终决定省略掉 的 小 分 子 化 合 物 包 括 : H2O, O2, H+ , NAD+ , NADP+ , NADH, NADPH, CO2, NH3, Orthophosphate和Pyrophosphate。但是省略的原则不是基于化合物决定的而是要视具体的反 应而定,例如H2O在很多反应中都是典型的小分子化合物,但在下面的反应中: Putrescine + Oxygen + H2O <=> 4-Aminobutanal + NH3 + H2O2 H2O 生成 H2O2,参与主要化合物的转换而不仅仅是能量传递或电子转移的媒介,因此这个 反应中的 H2O 应该保留。 重构得到的各个物种的代谢网络的组成如表3-4所示。 表3-4
  • 18. 代谢网络拓扑分析及在线粒体进化中的应用 第 14 页 共 7 页 将输出的所有28个物种及线粒体酶的关联表作为txt2pajek.exe的输入文件,得到符合 pajek格式的输入文件,然后输入pajek,计算得到所有物种的拓扑特征参数,如表3-5。 表3-5 线粒体与α-Proteobacteria等物种的全网络拓扑特征 物种 平均路径长度 网络直径 平均聚类系数 酶的总数 Eukaryotes sce 3.33015 11 0.51252 507 cel 3.24852 11 0.525571 417 Prokaryotes eco 3.34728 12 0.4774 560 sty 3.39109 13 0.513362 644 nme 3.39437 13 0.515158 410 cje 3.34069 12 0.528206 337 mge 2.52009 7 0.630693 107 mcp 2.7092 8 0.624437 129 mpn 2.60556 7 0.621644 119 bbu 2.06129 6 0.669672 151 sme 3.30595 11 0.51584 653 atu 3.43064 11 0.509425 609 mlo 3.29314 11 0.513752 649 bme 3.4041 12 0.524005 609 ccr 3.37577 13 0.518203 514 ama 3.2323 12 0.532128 235 aph 3.16909 11 0.540027 177 ecn 2.45226 7 0.565044 232 ech 3.06365 11 0.493227 179 erg 3.10616 12 0.522344 204 erw 3.1627 12 0.524855 218 eru 3.14057 12 0.533872 219 rpr 2.87197 9 0.562141 172 Archaea mja 3.28171 12 0.554276 155 afu 3.19526 12 0.541713 315 pab 3.3392 11 0.556933 267 ape 3.15507 11 0.564247 267 pai 3.09911 11 0.462269 290 Mit(mitochondria) 2.96638 9 0.554276 155 由表 3-5 可见,亲缘关系较近的物种在其代谢网络的特征参数上也较接近。特别注意 到 Alpha/rickettsias 属的 rpr 和线粒体有最为相近的拓扑特征,这一结果和之前基因组比对 的结果相吻合,使得这一假说更为可信。同时可以注意到,mge, mcp, mpn, bbu 这四种 Proteobacteria 虽然不属于 Alpha/rickettsias 属,但是其网络结构和 rpr, ecn 与 mit 的相似程度 要远大于同为 Alpha/rickettsias 属的其他物种,这主要是由于 mge,mcp,mpn,bbu 和 rpr,ecn
  • 19. 代谢网络拓扑分析及在线粒体进化中的应用 第 15 页 共 7 页 同为寄生性细菌,在长期的进化选择压力下,都选择向更小的基因组和更高的网络连通性 的方向进化。mit 作为/rickettsias 内共生的产物,和其他寄生菌相比,聚类系数较低,网络 直径较大,这可能是由于线粒体上存在许多水平转移的基因。以上的数据说明网络结构的 相似性的确和功能的相似性互相关联。 3.3 本章小结 本章重构了线粒体和 28 个物种的酶的相互关联网络。由于穿梭代谢物的存在会大大 缩短酶与酶之间的路径长度,无法反映网络真实的拓扑特征,因而首先剔除了 11 个穿梭代 谢物。然后通过化合物的关系建立各物种的酶网络。分析网络的拓扑参数后发现,亲缘关 系较近的物种之间在拓扑特征上一般也较相似,其中 rpr 和线粒体的各个参数最为相近, 这与从基因组水平的推断相一致。同时也可以看到寄生性的细菌由于环境的关系而在代谢 网络结构上有趋同的倾向。 第四章 线粒体与 α-Proteobacteria 等物种的代谢网络模块化 分析及比较 4.1 代谢网络的模块化分解 近几年来,随着用复杂网络理论描述代谢网络结构的陆续完成,人们逐渐转入对代谢网 络的分解和子网络之间的组成关系的研究,即如何把一个错综复杂的网络分解成具有特定功 能的多个子集团。在代谢网络调控方面已建立了一些有效的代谢通路分析方法,如基元模式 分析(elementary flux modes, EFMs)和极端途径分析(extreme pathways, EPs)。然而,将 这些方法应用到大规模的全基因组代谢网络时,会出现组合爆炸问题。因此,在利用这些方 法进行通路分析前,必须将网络分解成功能相对独立的子网络。一般有基于生物学意义和基 于网络的拓扑结构两种分解方法。如生物学家按照反应属于不同的代谢通路:糖代谢、氨基 酸代谢、脂代谢等,将代谢网络分解为子网络。 Schilling与Palsson提出了按照直观的生 物学标准将代谢网络分解为相对独立的反应簇的算法[44]。然而,由于网络结构是功能的反 应,而且已从拓扑结构上证实代谢网络是子模块按层次化的方式组织起来的[45],更多的算 法倾向于完全从网络拓扑结构出发的分解。 基于代谢流的网络模块化方法对于全基因组规模的代谢网络是不可实现的,并且得到的 各模块之间可能有较多的重叠。层次式聚类算法需要预先设定划分的模块数目 k,而代谢网 络的复杂连接决定了很难确定这个 k,所以不符合我们的应用目的。对于大规模的复杂网络 适合用图形化形式直观表示,因此利用图形聚类算法进行网络模块化分解受到越来越广泛的 重视。图形聚类的基本原则在于使各个模块具有一定的结构独立性,模块内部节点之间密切
  • 20. 代谢网络拓扑分析及在线粒体进化中的应用 第 16 页 共 7 页 相关而与其他模块中节点的连接较少。为了定量的描述这个原则,Newman 提出了网络模块 性(modularity)的概念。对于一个进行了模块划分的网络,其模块性 M 定义为[46]: 2 1 2 r s s s l d M L L             其中,r 是模块的个数,L 是网络中所有节点的链接数目的总和,ls 是模块 s 内部节点间链 接数目的和,ds 是模块 s 内部节点的连接度的总和。在该定义下,0≤M<1,M 值越高,表明 网络的模块化程度越明显,M 值一般分布在 0.3-0.7 之间[43]。当节点随机划分时,M=0。 模拟退火算法是模拟固体的退火过程,对 Metropolis 算法进行迭代的组合优化算法。 设组合优化问题的一个解 i 和目标函数 f(i)分别与固体的一个微观状态 i 和能量状态 Ei 等 价,并用控制参数 t 担当固体退火过程中温度 T 的角色,则对于控制参数 t 的每一取值,算 法持续进行“产生新解-判断-接受/舍弃”的迭代过程,控制参数 t 随算法进程递减其值, 使得整个迭代过程与固体在某一恒定温度下趋于热平衡的过程相对应。模拟退火算法从某个 初始解出发,经过大量解的变换后,可以求得给定控制参数值时组合优化问题的相对最优解。 然后减少控制参数 t 的值,重复执行,就可以在控制参数 t 趋于零时最终求得组合优化问题 的整体最优解[47]。 模拟退火算法的基本思想为: 1) 初始化:初始温度T (充分大),初始解状态 S(是算法迭代的起点), 每个T 值的迭 代次数 L; 2) 对 k=1,……,L,反复做第 3)至第 6)步; 3) 产生新解 S′; 4) 计算增量 Δt′=C(S′) - C(S),其中 C(S)为目标函数; 5) 若 Δt′<0,则接受 S′作为新的当前解,否则以概率 exp(-Δt′/T) 接受 S′作为 新的当前解(Metropolis 准则) 6) 如果满足终止条件则输出当前解作为最优解,结束程序。终止条件通常取为连续若 干个新解都没有被接受时则终止迭代过程。 7) T 逐渐减少,且 T>0,然后转第 2)步。 Guimerà 和 Amaral 提出了利用模拟退火算法寻找使得网络模块性 M 最大的模块结构划 分的算法,即模拟退火聚类算法[15,16]。该算法是将模块性 M 的负值作为模拟退火算法中 的目标函数,每一个新状态的接受概率根据 Metropolis 准则定义为: 1 if exp( ) if f i f i f i c c p c c c c T         其中 Cf 是更新后的目标函数,Ci 是更新前的目标函数。 在每个温度 T,通过两类随机移动改变网络模块结构,1) 某一个节点从一个模块随机 移动到另一个模块,做 ni 次,定义 ni=fω2; 2) 随机合并两个模块或者将某一个模块随机 地划分成为两个模块,做 nc 次,定义 nc=fω。其中,ω 为整个网络的节点数目;f 为迭代 因子;温度 T 按照冷却因子 Δ 进行改变,T’=ΔT,一般 Δ∈[0.990,0.999]。当温度连 续改变 25 次模块性 M 都不变时,收敛,得到的收敛状态即为最终的聚类结果[15,16]。 本文选取了迭代因子 f=1,冷却因子 Δ=0.99 的聚类结果作为模拟退火聚类算法的聚类 结果。以线粒体为例,其模块化分解的结果如表 4-1,M= 0.42605。
  • 21. 代谢网络拓扑分析及在线粒体进化中的应用 第 17 页 共 7 页 表 4-1 线粒体代谢网络的模拟退火聚类结果 模块 0 1 2 3 4 5 6 酶 的 总 数 27 38 29 15 3 8 28 4.1.3.18 1.1.1.39 2.6.1.2 1.1.2.4 2.2.1.6 4.1.1.1 1.8.1.4 1.2.4.1 1.1.1.38 4.3.1.19 1.1.2.3 1.1.1.40 1.1.1.37 4.3.1.17 4.1.3.30 4.2.1.2 1.2.1.22 1.1.1.86 1.9.3.1 3.1.2.6 1.11.1.9 1.8.1.7 2.1.1.114 1.6.5.3 1.3.5.1 1.10.2.2 1.3.99.1 6.3.3.2 3.5.4.9 6.3.4.3 2.7.7.2 2.7.1.26 2.7.7.1 3.6.1.13 6.1.1.2 4.2.1.70 6.1.1.1 6.1.1.4 4.6.1.1 6.1.1.9 6.1.1.21 6.1.1.12 6.1.1.10 6.1.1.19 6.1.1.14 3.6.3.14 2.7.4.3 6.3.1.5 6.1.1.17 2.7.2.8 2.7.6.3 2.7.1.23 6.1.1.11 6.1.1.3 6.3.4.14 2.7.1.13 2.7.1.15 6.1.1.20 6.1.1.6 2.7.1.67 6.1.1.7 2.7.1.30 2.7.1.29 6.1.1.5 6.1.1.22 1.3.1.9 3.1.2.14 2.3.1.86 2.3.1.38 2.3.1.41 1.1.1.10 4.1.3.21 1.2.4.2 2.3.3.14 4.2.1.36 1.1.1.15 2.3.1.39 6.2.1.3 2.3.1.7 2.3.1.12 6.2.1.4 2.3.3.1 2.3.1.61 3.1.2.1 2.3.1.1 4.1.3.7 2.3.1.37 6.2.1.5 6.4.1.2 2.3.3.13 4.1.3.12 2.7.1.24 4.1.3.5 6.2.1.1 3.2.1.33 2.4.1.25 2.4.1.11 2.4.1.34 1.17.4.1 2.4.1.83 1.8.1.9 1.2.1.5 1.2.1.3 1.2.1.4 2.5.1.47 1.1.1.1 3.5.1.4 1.2.1.19 1.5.99.6 3.2.2.5 3.5.1.19 2.4.2.1 1.1.1.8 2.7.8.5 1.1.99.5 3.1.4.46 2.7.7.41 2.7.8.8 4.1.1.65 3.1.3.27 2.6.1.1 2.3.1.35 1.4.1.4 1.5.1.12 2.6.1.11 1.4.1.13 1.1.1.42 2.6.1.42 1.1.1.41 4.2.1.3 1.5.1.2 1.5.99.8 1.2.1.38 2.1.3.2 1.5.1.15 2.1.2.11 1.5.1.3 2.1.2.10 1.5.1.5 2.1.2.9 2.1.2.1 1.4.4.2 1.5.1.20 1.1.1.169 2.5.1.15 6.3.2.17 4.1.2.25 4.2.1.9
  • 22. 代谢网络拓扑分析及在线粒体进化中的应用 第 18 页 共 7 页 各物种的模块性指数如表4-2所示,可以看到,真细菌中的mge,mcp,mpn,bbu模块性最低, rickettsias一类次之,而真核生物以及apha-proteobactia中的rhizobacteria的模块性都 较高,古细菌的模块性处于中间。线粒体虽然在酶的数量以及网络直径,平均路径长度等方 面和rpr最为接近,但是在模块性上要明显高于rpr以及其他寄生性的细菌。线粒体代谢网络 具有更显著的模块化程度一方面可能是因为线粒体的基因是由核基因、原始共生菌、叶绿体 经过多次重新组合镶嵌而成的。统一来源的酶之间连接较紧密,而不同来源的酶之间可能连 接较少。另一方面,线粒体有复杂的区室结构,全透的外膜和半透的内膜把线粒体分割成执 行不同代谢反应具有不同分工的区室,统一区室的酶连接较紧密,而跨膜需要能量消耗因而 连接较少。 表 4-2 各物种模拟退火的模块性指数 物种 模块性指数 物种 模块性指数 sce 0.424588 rickettsias cel 0.450933 ama 0.282852 aph 0.24961 ecn 0.269804 eco 0.409419 ech 0.274587 sty 0.427313 erg 0.281673 nme 0.391668 erw 0.288097 cje 0.32513 eru 0.286795 mge 0.14458 rpr 0.313938 mcp 0.169135 mpn 0.159941 Archaea bbu 0.129201 mja 0.238315 rhizobacteria afu 0.338957 pab 0.320697 sme 0.442676 ape 0.397284 atu 0.434055 pai 0.366926 mlo 0.432256 bme 0.455504 ccr 0.409407 mit 0.42605 4.2 物种间整体模块化结构的相似性比较 4.2.1 模块相似性的度量方法 为了比较叶绿体与蓝藻代谢网络的模块化结构,发现相似和不同的功能模块,本文基于 汉明距离的概念定义了如下的相似性指标来分析两个模块之间的相似性[48]。 对两个模块 a 和 b,每个模块中酶的数目分别为 Na 和 Nb。首先,计算两个模块中任意 两个酶的相似性。EC number 是按照酶促反应的性质对酶的分类命名,包含四位数字,例如 葡萄糖磷酸转移酶的分类编号是:EC 2.7.1.1,第1个数字(2)代表酶的分类名称(转移酶类),
  • 23. 代谢网络拓扑分析及在线粒体进化中的应用 第 19 页 共 7 页 第 2 个数字(7)代表亚类(磷酸转移酶类),第 3 个数字(1)代表亚亚类(以羟基作为受体的磷 酸转移酶类),第 4 个数字(1)代表该酶在亚-亚类中的排号(D 葡萄糖作为磷酸基的受体)。 相近的 EC 编号具有相似的功能,特别是只有最后一位不同的两个酶是非常相似的,如果我 们只找出各模块间完全相同的酶,就会忽略这些重要的信息,因此我们根据 EC 的等级定义 更为合理的酶相似性评价指标。我们把每一个酶的 EC number 看作一个向量,由四部分组成, 每一部分根据 EC 的等级分别赋予权重 0.1,0.2,0.3,0.4。对两个 EC,我们用向量 P 来描 述它们的一致性及差异性。如果它们在第 k 级的位置相同,则定义 Pk 为 1,否则 Pk 为 0。 酶 i 和 j 的相似性定义如下: 4 1 ij k k k S w P    例如,对于酶 1.1.1.2 和 1.1.3.1,其相似性 S 为: 3.004.003.012.011.0 s 注意,比较两个 EC 时要从高的级别到低的级别,如果第 k 级不同,即使第 t (t>=k)级 相同,Pt 依然为 0。例如,对于酶 1.1.1.2 和 1.3.1.2,其相似性 S 为: 0.1 1 0.1s    。 得到了 a,b 两个模块中任意两个酶的相似性之后,对模块 a 中的每一个酶取其与 b 中 酶的相似性的最大值,用 Sbest 表示。则模块 a,b 之间的相似性 Simiab 为: 1 1 aN ab i ia Simi Sbest N    得到两个物种各个模块之间的相似性以后,需要进一步分析两个物种间的整体模块化结 构相似性。将每一个物种整体看作一个大类,该物种中的每一个模块看作大类中的元素,则 计算两个物种之间的相似性就等价于计算两个大类之间的相似性。 这里引入豪斯道夫度量(Hausdorff metric)的概念,豪斯道夫度量用来测量某些度量空 间中非空点集之间的距离[49]。 令 X 为一个度量空间, x 为它的度量。对一给定点 x X 及一非空集合 A X ,首先 定义 x 到 A 的距离为: ( , ) : inf ( , )H X a A x A x a    则对于任意两个非空集合 ,A B X ,集合 A,B 之间的豪斯道夫距离定义为: ( , ): max( ( , ), ( , ))H asym asymA B A B B A   其中 ( , ): sup ( , )asym H a A A B a B    基于豪斯道夫度量,我们给出了如下的物种间模块化结构相似性的定义: 令 C1 和 C2 表示两个大类(即两个物种),Sspecies(C1, C2)为物种之间的模块化结构 相似性,a 和 b 分别为 C1 和 C2 中的元素(即物种中的模块),首先定义 C1 中元素 a 到 C2 的距离 S(a,C2):
  • 24. 代谢网络拓扑分析及在线粒体进化中的应用 第 20 页 共 7 页 2 2( , ) max[ ( , )] b C S a C Simi a b   则 C1 和 C2 之间的相似性 S(C1, C2)定义为: 1 1 2 2( , ) min[ ( , )] a C S C C S a C   S(C1,C2)一般是不对称的,根据 S(C1,C2)的定义进一步定义 C2 和 C1 之间的相似性 S’(C2,C1): 2 1 2 1'( , ) min{max[ ( , )]} b C a C S C C Simi b a    根据以上几个定义,两个物种间整体模块化结构相似性 Species(C1,C2) 定义为: 1 2 1 2 2 1( , ) min[ ( , ), '( , )]speciesS C C S C C S C C 4.2.2 各物种代谢网络全局模块化结构的比较 基于上一章对于 28 个物种网络整体拓扑特征的比较,选取和线粒体拓扑特征较为相近 的 rpr,mge,mcp,mpn,bbu 以及同为 rickettsias 的 ama,aph,ecn,ech,erg,erw,eru,以及真细菌中的 eco,真核的 sce,古细菌中的 mja 进行模块化结构分析。 基于上节介绍的相似性评价方法,计算了这些物种两两间模块化结构的相似性,如表 4-3 所示。然后根据距离矩阵,利用层次聚类(hierarchical clustering)方法对各物种 进行聚类,得到结果图 4-1 所示。 表 4-3 各物种间整体模块化结构的相似性 ama aph bbu ech ecn eco erg eru Erw mcp mge mit mja mpn rpr sce ama 1.00 0.52 0.35 0.45 0.39 0.32 0.42 0.65 0.42 0.21 0.20 0.33 0.31 0.20 0.45 0.32 aph 1.00 0.31 0.55 0.38 0.31 0.27 0.49 0.27 0.22 0.20 0.30 0.29 0.20 0.35 0.31 bbu 1.00 0.40 0.41 0.32 0.26 0.36 0.26 0.42 0.35 0.24 0.10 0.44 0.29 0.32 ech 1.00 0.38 0.35 0.46 0.46 0.40 0.21 0.19 0.31 0.32 0.21 0.35 0.40 ecn 1.00 0.43 0.38 0.46 0.38 0.26 0.21 0.32 0.40 0.22 0.36 0.44 eco 1.00 0.31 0.37 0.33 0.28 0.20 0.30 0.40 0.23 0.28 0.55 erg 1.00 0.77 0.74 0.23 0.17 0.31 0.32 0.17 0.48 0.34 eru 1.00 0.71 0.24 0.21 0.32 0.32 0.24 0.41 0.36 erw 1.00 0.23 0.17 0.30 0.33 0.24 0.33 0.33 mcp 1.00 0.48 0.22 0.10 0.48 0.24 0.21 mge 1.00 0.26 0.10 0.64 0.18 0.15 mit 1.00 0.24 0.31 0.27 0.33 mja 1.00 0.10 0.28 0.27 mpn 1.00 0.18 0.20 rpr 1.00 0.33 sce 1.00
  • 25. 代谢网络拓扑分析及在线粒体进化中的应用 第 21 页 共 7 页 图 4-1 16 个物种模块化结构的层次聚类 从图上可以看到,同属于 rickettsias 的 erg,eru,erw,ama,aph,ech,rpr,ecn 在一个分 支,特别是 erg,eru,erw 的模块化结构非常相似,而属于寄生性真细菌的 mge,mcp,mpn,bbu 聚为另一大类,然后是古细菌,最后是线粒体与各物种具有明显差异,其模块化程度最高。 这一结果基本上与物种的系统发育关系一致。由此我们可以看出,线粒体虽然在网络拓扑结 构上和 rpr 比较接近,但是其模块化程度明显高于 rpr,说明线粒体的全局代谢组与专门化 功能间具有更好的协同作用,有利于其更专一地执行能量代谢的功能。 4.3 模块与功能的对应关系 基于拓扑连接对代谢网络进行模块划分后,更重要的一步就是将各个模块对应到具体的 代谢通路,从而揭示模块化结构的生物学意义。KEGG 中将所有代谢反应主要分为九大类过 程 [70,71] ,分别为:糖代谢(carbohydrate metabolism)、能量代谢(energy metabolism)、脂类代谢 (lipid metabolism)、核苷酸代谢(nucleotide metabolism)、氨基酸代谢(amino-acid metabolism)、 多 糖生 物合 成与 代谢 (glycan biosynthesis and metabolism) 、 辅 助 因 子与维 生素 代谢 (metabolism of cofactors and vitamins)、次级代谢物的生物合成(biosynthesis of secondary metabolites)和异源物质的生物降解(biodegradation of xenobiotics)。根据 KEGG 的九大功能分 类,我们将物种中每个模块内的酶与之进行匹配。 下图 4-2 为 rpr 的模块功能对应 由于模拟退火产生的模块数不固定,每个物种最后得到的模块数都不尽相同,很难比较。 因而我选取和线粒体有相同模块数且酶的数量也较为接近的 mge 进行模块功能匹配,比较线 粒体和真细菌之间功能模块的异同。线粒体与 mge 的模块功能划分如图 4-2 所示:
  • 26. 代谢网络拓扑分析及在线粒体进化中的应用 第 22 页 共 7 页 0 20 40 60 80 100 120 0 1 2 3 4 模块 酶
  • 27. 代谢网络拓扑分析及在线粒体进化中的应用 第 23 页 共 7 页 0 20 40 60 80 100 0 1 2 3 4 5 6 糖代谢 能量代谢 脂类代谢 核苷酸代谢 氨基酸代谢 多糖生物合成与代谢 辅助因子与维生素代谢 次级代谢物的生物合成 异源物质的生物降解 0 20 40 60 80 100 0 1 2 3 4 5 6 图 4-2 线粒体(上)与 mge(下)的模块功能划分
  • 29. 代谢网络拓扑分析及在线粒体进化中的应用 第 25 页 共 7 页 第五章 结论 本文利用现有代谢数据库和文献信息重构了线粒体、α-Proteobacteria 及真核生 物、真细菌、古细菌共 29 个物种的全基因组规模代谢网络,比较了他们代谢网 络结构的相同和不同,发现亲缘关系相近的物种具有接近的网络拓扑特征,线粒 体和 α-Proteobacteria 中的 rpr 有相似的平均路径长度,聚类系数,网络直径,这和从序列 比对推测的结果相吻合。利用模拟退火聚类算法对代谢网络进行模块分解,发现各种不同的 α-Protobacteria 具有较为相似的模块化结构,而线粒体呈现出明显差异。经过模块功能的更 加细化的分析比较,表明线粒体缺失了次级代谢产物的合成及异源生物合成所需的大多数 酶,这一点和 rpr 以及其他的寄生性真细菌都不相同。线粒体具有更显著的模块化结构和功 能划分,说明其全局代谢组与专门化功能之间具有更好的协同作用。线粒体的这些特点是由 于在漫长的进化过程中,发生过大量水平基因转移,使得线粒体的基因组和代谢组方面都显 示出异质性。 目前关于线粒体进化的推测还很难有统一的结论,如何排除强烈的噪声干扰追踪线粒体 的进化起源,并揭示内共生过程中的演化规律及适应性,还有待于以下两方面条件的成熟: 1.各物种线粒体基因组图谱及其注释的完成;2.复杂网络的动力学性质的深入研究。
  • 30. 代谢网络拓扑分析及在线粒体进化中的应用 第 26 页 共 7 页 参考文献 [1] Erdos P,Renyi A. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci.,1960,5:17~60 [2] Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks. Nature,1998, 393(6684):440~442 [3] Barabasi A L.Albert R. Emergence of scaling in random networks. Science,1999,286(5439):509~512 [4] Kitano H. Computational systems biology. Nature, 2002, 402: 206-210 [5] 杨胜利,系统生物学研究进展,中国科学院院刊,2004,19(1):31-34 [6] Ideker T. Systems biology-what you need to know. Nature Biotech, 2004, 22: 473-475 [7] 吴家睿, 系统生物学面面观, 科学, 2002, 45(6): 21-24 [8] Jeong H, Tombor B, Albert1 R, etc. The large-scale organization of metabolic networks. Nature, 2000, 407: 651-654 [9] Wagner A and Fell DA. The small world inside large metabolic networks. Proc. R. Soc. Lond. B, 2001, 268: 1803-1810 [10] Ma HW and Zeng A-P. Reconstruction of metabolic networks from genome data and analysis of their global structure for various organisms. Bioinformatics, 2003, 19: 270-277 [11] Hartwell LH, Hopfield JJ, Leibler S, etc. From molecular to modular cell biology. Nature, 1999, 402: C47–C52 [12] Ravasz E, Somera AL, Mongru DA, etc. Hierarchical organization of modularity in metabolic networks. Science, 2002, 297: 1551–1555 [13] Rives AW and Galitski T. Modular organization of cellular networks. Proc. Natl. Acad. Sci. U. S. A. 2003, 100: 1128–1133 [14] Papin JA, Reed JL and Palsson BO. Hierarchical thinking in network biology: the unbiased modularization of biochemical networks. Trends Biochem. Sci. 2004, 29: 641–647 [15] Guimerà R and Amaral LAN. Functional cartography of complex metabolic networks, Nature, 2005a, 433: 895-900 [16] Guimerà R and Amaral LAN. Cartography of complex networks: Modules and universal roles. J. Stat. Mech. Theor. Exp. 2005b, P02001, 1-13 [17] Ma HW and Zeng A-P. Reconstruction of metabolic networks from genome data and analysis of their global structure for various organisms. Bioinformatics, 2003, 19: 270-277 [18] 王希成,生物化学,北京,清华大学出版社,2001,197-211 [19] 丁明孝,王喜忠,王永潮等,细胞生物学,北京,高等教育出版社,1995,159-170; 374-383
  • 31. 代谢网络拓扑分析及在线粒体进化中的应用 第 27 页 共 7 页 [20] 匡廷云,马克平,白克智,生物质能研发展望,中国科学基金,2005(6):326-330 [21] Michael W.Gray, Gertraud B, B.Franz L. Mitochondrial Evolution Science 283(5407);1476 [22] Eisen JA. Horizontal gene transfer among microbial genomes: new insights from complete genome analysis. Curr. Opin. Genet. Dev. 2000, 10: 606-611 [23] Aravind L, Tatusov RL, Wolf YI, Walker DR, Koonin EV. Evidence for massive gene exchange between archaeal and bacterial hyperthermophiles. Trends Genet. 1998, 14: 442-444 [24] Garcia-Vallve S, Romeu A, Palau J. Horizontal gene transfer in bacterial and archaeal complete genomes. Genome Res. 2000, 10: 1719–1725 [25] Hedges SB. The origin and evolution of model organisms. Nat. Rev. Genet. 2002, 3: 838-849 [26] Martin W. Mosaic bacterial chromosomes: a challenge on route to a tree of genomes. Bioessays, 1999, 21: 99–104 [27] Woese CR. Interpreting the universal phylogenetic tree. Proc. Natl. Acad. Sci. U. S. A. 2000, 15: 8392–8396 [28] Woese CR. On the evolution of cells. Proc. Natl. Acad. Sci. U. S. A. 2002, 99: 8742–8747 [29] Dutta C, Pan A. Horizontal gene transfer and bacterial diversity. J. Biosci. 2002, 27: 27-33 [30] Jain R, Rivera MC, Moore JE, Lake JA. Horizontal gene transfer in microbial genome evolution. Theor. Popul. Biol. 2002, 61: 489-495 [31] http://wit.mcs.anl.gov/WIT2/ [32] http://biocyc.org/ [33] Brown JR. Ancient horizontal gene transfer. Nature genetics, 2003, 4: 121-132 [34] http://www.ncgr.org/programs/pathways/ [35] http://www.genome.ad.jp/kegg/ [36] Kanehisa M and Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res, 2000, 28(1): 27-30 [37] Albert R, Barabási A L. Statistical mechanics of complex networks. Reviews of modern physics, 2002, 74: 47-97 [38] Barabási AL, Albert R. Emergence of scaling in random networks. Science, 1999, 286: 509-512 [39] Goto S, Nishioka T, Kanehisa M. LIGAND: chemical database for enzyme reactions. Bioinformatics, 1998, 14: 591-599 [40] Bairoch A. The ENZYME data bank in 1995. Nucleic Acids Res., 1996, 24: 221–222 [41] Ravasz E, Somera AL, Mongru DA, etc. Hierarchical organization of modularity in metabolic networks. Science, 2002, 297: 1551–1555 [42] Newman MEJ and Girvan M. Finding and evaluating community structure in networks. Phys. Rev. E 69, 2004, 026113
  • 32. 代谢网络拓扑分析及在线粒体进化中的应用 第 28 页 共 7 页 [43] Guimerà R, Sales-Pardo M, and Amaral LAN. Modularity from fluctuations in random graphs and complex networks. Phys. Rev. E 70, 2004, 025101(R) [44] Schilling CH, Palsson BO. Assessment of the metabolic capabilities of Haemophilus influenzae Rd through a genome-scale pathway analysis. J Theor Biol, 2000, 203: 249-283 [45] Redner S. An empirical study of the citation distribution. Eur. Phys. J. B, 1998, 4: 131-134 [46] Newman MEJ and Girvan M. Finding and evaluating community structure in networks. Phys. Rev. E 69, 2004, 026113 [47]Kirkpatrick S, Gelatt CD and Vecchi MP. Optimization by simulated annealing. Science, 1983, 220: 671–680 [48]Glazko GV, Mushegian AR. Detection of evolutionarily stable fragments of cellular pathways by hierarchical clustering of phyletic patterns. Genome Biol. 2004, 5: R32 1-13 [49] Nicolas A, Diego SC, Touradj E. MESH: measuring errors between surfaces using the hausdorff distance. In Proceedings of the IEEE International Conference in Multimedia and Expo (ICME), 2002, 705-708 [50] Lynn Margulis, René Fester Symbiosis as a source of evolutionary innovation:speciation and morphogenesis. MIT Press 1991 ISBN 0262132699 Duarte, N.C., Herrgard, M.J., and Palsson, B.O. "Reconstruction and Validation of Saccharomyces cerevisiae iND750, a Fully Compartmentalized Genome-scale Metabolic Model" Genome Research, 2004.
  • 33. 代谢网络拓扑分析及在线粒体进化中的应用 第 29 页 共 7 页 附录 以 mja 为例,构建酶与酶相互关联网络的程序 corelate.pl my $count=0; my @array=(); open(LIST,'keggdocentry_all.txt')||die "$!"; foreach(<LIST>) { chomp; $array{$count}=$_; $count++; } close(LIST); ############################################## $count=0; ####################################these are entries of a certain speciesopen(LIST,'keggdocmjaentry.txt')||die "$!"; foreach(<LIST>) { s/^s+//; chomp; my @array=split(/s+/,$_); $mja_entry{$array[0]}=1; $mja{$count}=$array[0]; $count++; } close(LIST); ###################################### $count=0; open(LIST,'keggdocr1.txt')||die "$!"; foreach(<LIST>) { chomp; my @array=split(/s+/,$_); if(exists $mja_entry{$array{$count}}){ #print $mja_entry{$array{$count}},"n"; $reac{$array{$count}}=$_; ####extract reactions only in this species } $count++;
  • 34. 代谢网络拓扑分析及在线粒体进化中的应用 第 30 页 共 7 页 } close(LIST); ############################################## $count=0; open(LIST,'keggdocmjaenzyme.txt')||die "$!"; foreach $cd(<LIST>) { chomp; #print; $cd=~s/^s+//; $enzyme{$mja{$count}}=$cd; $count++; } close(LIST); ############################################## $count=0; #################################### open(LIST,'keggdocp1.txt')||die "$!"; foreach(<LIST>) { chomp; if(exists $mja_entry{$array{$count}}){ $proc{$array{$count}}=$_; ####same as above } $count++; } close(LIST); ######################################################## ## if it is reversible reaction, combine reactors and products open(LIST,'keggdocreverse_all_me.txt'); foreach(<LIST>) { chomp; my @array=split(/s+/,$_); if($array[1]==0) { $reac{$array[0]}="$reac{$array[0]}t$proc{$array[0]}"; $proc{$array[0]}="$reac{$array[0]}t$proc{$array[0]}"; } $reversehash{$array[0]}=$array[1]; } close(LIST); #############################################
  • 35. 代谢网络拓扑分析及在线粒体进化中的应用 第 31 页 共 7 页 open(OUT,'>keggdocmjacorelation.txt'); my $len=@array=sort keys(%mja_entry); for(my $i=0;$i<$len;$i++) { for(my $j=$i;$j<$len;$j++) { my @tmparray1=split(/s+/,$reac{$array[$i]}); my @tmparray2=split(/s+/,$proc{$array[$i]}); my @tmparray3=split(/s+/,$reac{$array[$j]}); my @tmparray4=split(/s+/,$proc{$array[$j]}); foreach my $arrayvalue1(@tmparray1) { $printtag=0; next if(!$arrayvalue1); foreach my $arrayvalue2(@tmparray4) { next if(!$arrayvalue2); if($arrayvalue1 eq $arrayvalue2) { my @tmparray5=split(/s+/,$enzyme{$array[$i]}); my @tmparray6=split(/s+/,$enzyme{$array[$j]}); $printtag=1; foreach my $arrayvalue3(@tmparray5) { foreach my $arrayvalue4(@tmparray6) { next if($arrayvalue4 eq $arrayvalue3); print OUT "$arrayvalue4t$arrayvalue3n"; } } last; } } last if($printtag==1); } foreach my $arrayvalue1(@tmparray3) { $printtag=0; next if(!$arrayvalue1); foreach my $arrayvalue2(@tmparray2) { next if(!$arrayvalue2); if($arrayvalue1 eq $arrayvalue2) { my @tmparray5=split(/s+/,$enzyme{$array[$j]});
  • 36. 代谢网络拓扑分析及在线粒体进化中的应用 第 32 页 共 7 页 my @tmparray6=split(/s+/,$enzyme{$array[$i]}); $printtag=1; foreach my $arrayvalue3(@tmparray5) { foreach my $arrayvalue4(@tmparray6) {next if($arrayvalue4 eq $arrayvalue3); print OUT "$arrayvalue4t$arrayvalue3n"; } } last;}} last if($printtag==1); } }} close(OUT);
  • 37. 代谢网络拓扑分析及在线粒体进化中的应用 第 33 页 共 7 页 谢辞 在为期八个月的毕业设计中,我衷心感谢给予我帮助和鼓励的所有老师,学长和同学。 感谢魏老师的牵线搭桥,让我有幸了解到王卓老师的课题并从此开始了系统生物学和生物 信息学的学习和研究。感谢吴茂英老师和陈样宜师兄在程序设计方面提供的大量指导和帮 助,使我在短短几个月的时间内能对生物信息学常用软件,对于系统维护, linux 操作系统等 都有所了解,并且已经能够比较熟练的使用 perl 进行编程。当然还要感谢我的指导老师王 卓,既像师姐一样和我分享日常生活的喜怒哀乐,理解我在等待的日子里的苦恼焦虑,同 时又以一个非常严谨认真的科学态度训练我各方面的能力,给予我自由的同时也给与我挑 战。
  • 38. 代谢网络拓扑分析及在线粒体进化中的应用 第 34 页 共 7 页 译文及原文 复杂代谢网络的功能地图 摘要 高通量的技术使得生物数据库的规模爆炸式增长同时也是我们对生命和疾病的认识产 生了革命。然而,解释这些数据仍然是一个科学挑战。这里,我们提出了一种挖掘和显示复 杂网络中信息的新方法。值得一提的是,我们可以发现复杂网络中的功能模块,并把节点按 他们的进和出的模块连接度进行归类。因而这种方法得出了复杂网络的一种地图表示。代谢 网络是最有挑战性的生物学网络之一。我们在此用这一方法分析了三界十二个物种的代谢网 络。我们发现,一般 80%的节点之和对应模块中的其他节点相连。不同角色的节点收到不同 的进化选择压力。显著的一点是我们发现那些参加的反应不多但连接不同模块的代谢物比模 块内度最大的节点更加保守。 如果我们要得到一个复杂的大型网络中有用的拓扑信息,关于个节点的角色的了解是非 常重要的。一个地图的类比在此是非常有益的。比如在一个有一国内城市和乡镇作为节点, 道路为边组成的网络。很自然一个有固定大小的点和固定宽度的线组成的网是没有多大用处 的。而实际的地图上会重点标注首都和主要交通线,使我们能够一眼就看到有用的信息。同 样的,要冲成百上千节点和边组成的网络中得到信息也是很困难的,如果可能的话。除非节 点和边的信息可以方便的总结起来。在生物学网络中更是如此。 这里,我们提出了一种基于节点连接度的复杂网络地图表示方法。我们方法第一步是找 出复杂网络里的功能模块。在地图里,模块可以类比城市或地区,这样就得到一个简化的粗 粒化的网络的描述。之后我们把节点归结到各独立的普遍角色中去。 在社会关系网络中社团内紧密相连而和社团外连接很少这一现象是很常见的。这类模块 结构不仅在社会网络中而且在食物网和生化反应网中也被提及。模块结构对复杂网络功能的 重要性是被普遍公认的。因此,设计算法发现正确的模块划分就有了明确的需求。 我们用模拟退火算法来达到网络模块最大化。模拟退火是我们可以执行一种竭穷搜索并 使得发现最佳子划分的问题最小化。值得注意的是,我们的方法不需要事先确定模块的数目, 这个数目是算法自然产生的结果。我们的算法可以可信的发现网络中的模块,即使在 50%的 边饰连接到自己模块以外的。 图 1 当考察模块网络,猜测网络的节点是根据他们的角色来相互连接时似是而非的。这一事 实在社会网络的分析中早已经被认可。比如,在一个经典的等级组织中,首期执行官不是直 接和工厂员工向关联,而是和董事会的成员。这样一个在几乎任何组织中都成立。也就是, 三号黑体居中, 上下各空一行
  • 39. 代谢网络拓扑分析及在线粒体进化中的应用 第 35 页 共 7 页 首席执行官的角色不管在哪个组织中都存在。 我们提出了一种新的决定节点在复杂网络中角色的方法。我们的方法是建立在这个思想 上的:扮演相同角色的节点应该有相似的拓扑性质。我们的设想是,节电的角色可以在很大 程度上被他的模块内度和参与常数所决定。参与常数定义了节点在自身模块中和在其他模块 中的地位。一旦知道了网络中的模块,这两个参数是很容易计算的。 模块内度 zi 代表了节点 i 对模块内其他节点的连接情况。Zi 越大表明模块内度大,反之 亦然。参与常数 Pi 代表模块 i 的边分布在模块间是怎样的。参与常数 Pi 接近 1 说明它的边 平均分布在各模块,等于 0 则表明它的边都在自己的模块。 我们用启发式的方法划分出七个不同的普遍角色,每一个由 z-P 参数空间的不同区域来 定义。根据模块内度,我们可以把 z>=2.5 的节点作为中心节点,z<2.5 的不是中心。但中 心和非中心节点最终要被参与系数更加明确的决定下来。 图 2 我们发现,非中心节点可以自然的划分为四种角色:(R1)极端边缘节点;即所有的边 都在模块内的节点(P<=0.05)(R2)边缘节点;即大多是边在模块内的节点(0.05<P<=0.62) (R3)非中心连接节点;即有许多模块外连接的节点(0.62<P<=0.80)(R4)非中心非亲戚 节点;既节点的边均匀分布于所有模块的节点(P>0.80)。我们发现,中心节点可以自然的 划分为三类:(R5)局域中心;即绝大多数的连接在模块内的中心节点(P<=0.30);(R6)连 接中心;即有许多连接到大多数其他模块的中心节点(0.30<P<=0.75);及(R7)非亲属中 心;既均匀连接分布于各模块的中心节点。 为了测试把这一方法运用于复杂生物网络的可行性,我们考察了 12 个物种代谢网络的 地图表示。四种细菌 四种真核生物(Escherichia coli, Bacillus subtilis, Lactococcus lactis and Thermasynechococcus elongatus)四种真核生物(Plasmodium falciparum and Homo sapiens) 和四种古细菌(Pyrococcus furiosus, Aeropyrum pernix, Archaeoglobus fulgidus and Sulfolobus solfataricus).在代谢网络中,节点代表代谢物,如果两个节点 i 和 j 分别是一个反应的底物和产物则相连,反之亦然。在我们的分析中,我们使用 Ma 和 Zeng(MZ)从 KEGG 提取得数据加工得到的数据库。如果我们用完整的 KEGG 数据库结论也不会 改变。 图 3 图 4 首先,我们确定在不同代谢网络中的功能模块。单单依靠拓扑特征寻找模块是一项极其 重要的工作。比如,Schuler 等人已经报道说从完整的代谢网络中的道基元流模式是不可能 的,因为这种模式数量是呈组合爆炸式增长。我们的算法平均对每个代谢网络发现 15 个不 同的模块——最多的是大肠杆菌和人,有 19 个,最少的是 A. fulgidus, 有 11 个。如预期 中的,模块中的连接数要远远大于模块间的——一般是大 100-1,000 倍。 为了评估个模块和传统的生化反应途径的关系,我们使用 KEGG 提供的分类图表,其中 有九类主要反应通路:糖类代谢,能量代谢,脂类代谢,核酸代谢,氨基酸代谢,多糖合成 及代谢,辅助因子和维生素的代谢,次级代谢物合成及异源物质的降解。在 KEGG 中的每个 代谢物都至少归于一个反应途径;因而我们可以认定某个特定模块中的某个代谢物所属的反
  • 40. 代谢网络拓扑分析及在线粒体进化中的应用 第 36 页 共 7 页 应途径。我们发现绝大多数模块中的代谢物属于一个反应途径。比如,在大肠杆菌的 19 个 模块中,17 个模块中多于三分之一的代谢物属于一个代谢途径。有趣的是,另一些模块— —大肠杆菌中有两个——不能归于一个传统的反应途径。这些模块一般在代谢中处于中心地 位,它们包涵了大多数在 KEGG 中归属于糖类和氨基酸代谢的代谢物。 接着我们认定各个反应物的角色。在图 2b 我们展示了在大肠杆菌代谢网络中的角色。 其他物种中也显示了类似的不同节点的度分布。尽管他们对应于进化中距离很远的物种。角 色 R1 包含了极端边缘的代谢物,占了网络中所有代谢物的 76%-86%。这样大大简化了网路 粗粒化表示,因为这些节点不需要分别认定。注意这一发现本身代表了走向从复杂网络中提 取标度特异性信息这一目标的重要一步。 模块和角色的信息是我们能够建立代谢网络的地图表示法。比如,大肠杆菌。这个表示 法是我们能发现相关的生物学信息。比如,我们发现代谢主要是围绕包含丙酮酸的模块的, 而这个模块有强烈的和以 CoA 为中心节点的模块相连。这些分子是连接糖类,氨基酸及脂类 代谢到TCA循环以产生ATP的关键。这两个模块通过关键代谢物和更加边缘化的模块相连接, 这些代谢物有:如 d-甘油醛 3-磷酸,d-果糖-6-核糖-5-磷酸(它和某些核苷酸代谢相连), 以及磷酸甘油(它和某些脂类代谢相连)。 我们的分析还发现那些起关节作用的节点之参与了一小部分基础的反应。举例来说, N-carbamoyl-l-aspartate 只参与了三个反应但它很关键,因为他连接了嘧啶代谢,通过此 代谢的中心分子是脲嘧啶和丙氨酸及天冬氨酸代谢相连。这些非中心关联节点的潜在重要性 有另一考虑。有这样一种可能性,即不同角色的节点面对不同的进化选择压力。尤其,我们 预期那些起结构相关功能的节点是更加必须的应而也会更加保守。 为了对不同角色和保守性进行定量分析,我们定义了丢失速率 p lost(R),我们预期结构 相关的角色 p lost(R)较小,反之亦然。我们发现不同的角色有不同的丢失速率。就像预计的 一样,极端边缘节点(R1)有最高的丢失速率,而连接中心(R6)则是在所有物种中都最保 守的中心节点。 极端边缘节点与连接中心的 p lost(R)比较结果是很明显的,当时一点也不令人吃惊。然 而,非中心连接节点与局域中心节点的 p lost(R)比较则产生了令人吃惊的结果。属于局域中 心节点的代谢物有很多模块内连接,有时 5 倍于标准偏差的多于模块内平均节点连接。相反, 非中心连接点代谢物的连接数要不它们同一模块里其他节点少——少于角色 R5 的边的总 数。而非中心连接者可以分布于几个不同的模块。我们发现非中心连接着在系统层次上显著 的要比局域中心节点代谢物更加保守。 对于非中心连接者的高保守性的一个可能解释如下:连接着节点负责模块间代谢流。不 然的话这些模块就会很少相连或根本不想连。因而删除连接着代谢物很可能会对网络整体代 谢流产生很大影响。相比而言,有局域中心节点参与的代谢途径可以在模块内得到支持,使 得删除这些代谢物的影响相对较小,这样也就限制在只有局域中心节点的模块。 应而我们的结果指出有必要把负载的生物网络看成一个整体,而非关注与局域的性质。举例 来说,在蛋白质网络中,有报道说中心节点比非中心节点更重要。不考虑之一发现是否想管, 我们的结果指出网络中的全局角色可能是比度更好的度量节点重要性的指标。
  • 41. 代谢网络拓扑分析及在线粒体进化中的应用 第 37 页 共 7 页 我们的地图表示为提供了一种从复杂网络结构中分析数据并得到关于网络及其各组成 的功能的认识的标度特异性方法。一个尚未解决的问题是如何把现有的模块识别算法运用到 等级网络结构中。 对于代谢网络,这个相对来说已经被研究的比较深入的例子,我们的方法是我们能重新 发现已经确凿的生物学事实,并且发现新的重要结果,比如非中心连接点代谢物的显著的保 守性。可以预期,如果这一方法运用到其他不想代谢网络那样研究很透的复杂网络中也会得 到相似的结果。这其中,蛋白质相互作用网络和基因调控网络可能是最显著的例子。 把网络中的节点分到不同的模块,对于一个给定的划分,这一划分的模块数 M 是: 其中 N 是模块数,L 是网络中的连接数,Is 是模块 s 中的节点之间的连接数。d s 是模块 s 中各节点的度的总合。这样定义模块化的理由如下。 对网络进行模块划分,一个好的划分必须有尽可能多的模块内连接和尽可能少的模块间连 接。然而,如果我们尝试是模块间连接最少(或者,等价的,市模块内连接数最大)最佳的 划分将只有一个模块,且没有模块间连接。公式(1)注意到这一问题,通过假定当节点是 随机放到各模块或者所有节点在一个簇里时 M=0 来处理。 一个模块发掘算法的目标是发现最大模块系数的划分。已提出了几个方法来达到这一目 的。大多数的算法依靠启发式步骤并且使用 M,或类似的,只评价它们的表现。像比较而言, 我们用模拟退火来发现最大模块化的划分。 模拟退火用于模块识别 模拟退火是一中随机最优化技术,它使你能发现低花费的构象,不会被停留在高花费的 局部最小值。这是通过使用一个计算机温度 T。当 T 高时,四通可以发觉高化肥的构象,而 当温度低的时候,系统只会搜索低花费的区域。通过从高温 T 开始缓慢降温,系统逐步下降 到最小值,最终克服小的局部极小的壁垒。 当识别模块式,目标是使模块数最大化。因而花费是 C=-M, M 是公式(1)中已经定义 好的。在每一个温度下,我们执行一顶数量的随机初始化并一概率接受它们: 其中 C f 是初始化后的花费,C I 是初始化前的花费。 特别是,我们提出在各个温度下,有 n i = fS 2 个节点从一个模块移到另一个模块,当 S 是网络中节点的数目时。我们提出 n c = fS 次移动,其中包括合并两个模块或者分裂一个 模块。对于 f, 我们特地选择 f = 1。 在温度 T,当移动经过评估后,系统被降温到 T' = cT, c = 0.995.
  • 42. 代谢网络拓扑分析及在线粒体进化中的应用 第 38 页 共 7 页 模块内度和参与常数 每个模块有几种不同的组织方式,从完全中心化的——有一个或几个节点连接所有其他 节点——到完全去中心化的,即所有节点都与相近的连接度。扮演相似角色的节点应该有相 近的模块内连接度。如果 I 是节点 I 到 s i 内其他节点的连接数, ¯si 是 对 s I 中所有节点 的平均数, si 是 sI 中 的标准方差,那么, 这就是所谓的 z-分。模块内的 z-分值表示节点 i 和其他统一模块的节点的连接程度。不同 的角色也可能是因为一个节点对其他模块的连接度。比如,两个有着相同 z-分的节点可能 扮演不同的角色,如果其中一个和其他模块的几个节点相连,而另一个没有。我们节点 i 的 参与系数 P I 如下: 其中 is 是节点 i 到模块 s 的节点的总连接数,k i 是结点 i 的总度数。因而节点的参与系 数接近 1 表示他的连接均匀分布于各模块,等于 0 表示连接全在自身模块内。 丢失速率 为了量化角色和保守性的关系,我们计算了代谢物从多大程度上又他们扮演的角色来决 定在各物种中的保守性的。特别的,对于一对物种,A 和 B, 我们定义丢失速率为概率 p(R A = 0|R B = R) p lost(R), 如果一个代谢物在一个物种中扮演角色 R( R B = R)则它 不存在与给定的一个物种中(R A = 0)。结构上相关的角色应该有较小的 p lost(R),反之 亦然。
  • 43. 代谢网络拓扑分析及在线粒体进化中的应用 第 39 页 共 7 页 Functional cartography of complex metabolic networks Roger Guimerà 1 and Luís A. Nunes Amaral 1 1. NICO and Department of Chemical and Biological Engineering, Northwestern University, Evanston, Illinois 60208, USA Correspondence to: Luís A. Nunes Amaral 1 Correspondence and requests for materials should be addressed to L.A.N.A. (Email: amaral@northwestern.edu). Top of page Abstract High-throughput techniques are leading to an explosive growth in the size of biological databases and creating the opportunity to revolutionize our understanding of life and disease. Interpretation of these data remains, however, a major scientific challenge. Here, we propose a methodology that enables us to extract and display information contained in complex networks 1, 2, 3 . Specifically, we demonstrate that we can find functional modules 4, 5 in complex networks, and classify nodes into universal roles according to their pattern of intra- and inter-module connections. The method thus yields a 'cartographic representation' of complex networks. Metabolic networks 6, 7, 8 are among the most challenging biological networks and, arguably, the ones with most potential for immediate applicability 9 . We use our method to analyse the metabolic networks of twelve organisms from three different superkingdoms. We find that, typically, 80% of the nodes are only connected to other nodes within their respective modules, and that nodes with different roles are affected by different evolutionary constraints and pressures. Remarkably, we find that metabolites that participate in only a few reactions but that connect different modules are more conserved than hubs whose links are mostly within a single module. If we are to extract the significant information from the topology of a large, complex network, knowledge of the role of each node is of crucial importance. A cartographic analogy is helpful to illustrate this point. Consider the network formed by all cities and towns in a country (the nodes) and all the roads that connect them (the links). It is clear that a map in which each city and town is represented by a circle of fixed size and each road is represented by a line of fixed width is hardly useful. Rather,
  • 44. 代谢网络拓扑分析及在线粒体进化中的应用 第 40 页 共 7 页 real maps emphasize capitals and important communication lines so that we can obtain scale-specific information at a glance. Similarly, it is difficult, if not impossible, to obtain information from a network with hundreds or thousands of nodes and links, unless the information about nodes and links is conveniently summarized. This is particularly true for biological networks. Here, we propose a methodology, which is based on the connectivity of the nodes, that yields a cartographic representation of a complex network. The first step in our method is to identify the functional modules 4, 5 in the network. In the cartographic picture, modules are analogous to countries or regions, and enable a coarse-grained, and thus simplified, description of the network. Then we classify the nodes in the network into a small number of system-independent 'universal roles'. It is common that social networks have communities of highly interconnected nodes that are less connected to nodes in other communities. Such modular structures have been reported not only in social networks 5, 10, 11, 12 , but also in food webs 13 and biochemical networks 4, 14, 15, 16 . It is widely believed that the modular structure of complex networks plays a critical role in their functionality 4, 14, 16 . There is therefore a clear need to develop algorithms to identify modules accurately 5, 11, 17, 18, 19, 20 . We identify modules by maximizing the network's modularity 11, 18, 21 using simulated annealing 22 (see Methods). Simulated annealing enables us to perform an exhaustive search and to minimize the problem of finding sub-optimal partitions. It is noteworthy that, in our method, we do not need to specify a priori the number of modules; rather, this number is an outcome of the algorithm. Our algorithm is able to reliably identify modules in a network whose nodes have as many as 50% of their connections outside their own module (Fig. 1). Figure 1: Performance of module identification methods. To test the performance of the method, we build 'random networks' with known module structure. Each test network comprises 128 nodes divided into
  • 45. 代谢网络拓扑分析及在线粒体进化中的应用 第 41 页 共 7 页 4 modules of 32 nodes. Each node is connected to the other nodes in its module with probability p i, and to nodes in other modules with probability p o < p i. On average, thus, each node is connected to k out = 96 p o nodes in other modules and to k in = 31 p i in the same module. Additionally, p i and p o are selected so that the average degree of the nodes is k = 16. We display networks with: a, k in = 15 and k out = 1; b, k in = 11 and k out = 5; and c, k in = k out = 8. d, The performance of a module identification algorithm is typically defined as the fraction of correctly classified nodes. We compare our algorithm to the Girvan–Newman algorithm 5,18 , which is the reference algorithm for module identification 11,18,19 . Note that our method is 90% accurate even when half of a node's links are to nodes in outside modules. e, Our module-identification algorithm is stochastic, so different runs yield, in principle, different partitions. To test the robustness of the algorithm, we obtain 100 partitions of the network depicted in c and plot, for each pair of nodes in the network, the fraction of times that they are classified in the same module. As shown in the figure, most pairs of nodes are either always classified in the same module (red) or never classified in the same module (dark blue), which indicates that the solution is robust. High resolution image and legend (76K) When considering modular networks, it is plausible to surmise that the nodes in a network are connected according to the role they fulfil. This fact has been long recognized in the analysis of social networks 23 . For example, in a classical hierarchical organization, the chief executive is not directly connected to plant employees but is connected to the members of the board of directors. Such a statement holds for virtually any organization; that is, the role of chief executive is defined irrespective of the particular organization considered. We propose a new method to determine the role of a node in a complex network. Our approach is based on the idea that nodes with the same role should have similar topological properties 24 (see Supplementary Information for a discussion on how our approach relates to previous work). We predict that the role of a node can be determined, to a great extent, by its within-module degree and its participation coefficient, which define how the node is positioned in its own module and with respect to other modules 25, 26 (see Methods). These two properties are easily computed once the modules of a network are known.
  • 46. 代谢网络拓扑分析及在线粒体进化中的应用 第 42 页 共 7 页 The within-module degree z i measures how 'well-connected' node i is to other nodes in the module. High values of z i indicate high within-module degrees and vice versa. The participation coefficient P i measures how 'well-distributed' the links of node i are among different modules. The participation coefficient P i is close to 1 if its links are uniformly distributed among all the modules, and 0 if all its links are within its own module. We define heuristically seven different universal roles, each defined by a different region in the z–P parameter space (Fig. 2). According to the within-module degree, we classify nodes with z 2.5 as module hubs and nodes with z < 2.5 as non-hubs. Both hub and non-hub nodes are then more finely characterized by using the values of the participation coefficient (see Supplementary Information for a detailed justification of this classification scheme, and for a discussion on possible alternatives). Figure 2: Roles and regions in the z–P parameter space.
  • 47. 代谢网络拓扑分析及在线粒体进化中的应用 第 43 页 共 7 页 a, Each node in a network can be characterized by its within-module degree and its participation coefficient (see Methods for definitions). We classify nodes with z 2.5 as module hubs and nodes with z < 2.5 as non-hubs. We find that non-hub nodes can be naturally assigned into four different roles: (R1) ultra-peripheral nodes; (R2) peripheral nodes; (R3) non-hub connector nodes; and (R4) non-hub kinless nodes. We find that hub nodes can be naturally assigned into three different roles: (R5) provincial hubs; (R6) connector hubs; and (R7) kinless hubs (see text and Supplementary Information for details). b, Metabolite role determination for the metabolic network of E. coli, as obtained from the MZ database. Each metabolite is represented as a point in the z–P parameter space, and is coloured according to its role. c, Same as b but for the complete KEGG database. High resolution image and legend (188K) We find that non-hub nodes can be naturally divided into four different roles: (R1) ultra-peripheral nodes; that is, nodes with all their links within their module (P 0.05); (R2) peripheral nodes; that is, nodes with most links within their module (0.05 <P 0.62); (R3) non-hub connector nodes; that is, nodes with many links to other modules (0.62 < P 0.80); and (R4) non-hub kinless nodes; that is, nodes with links homogeneously distributed among all modules (P > 0.80). We find that hub nodes can be naturally divided into three different roles: (R5) provincial hubs; that is, hub nodes with the vast majority of links within their module (P 0.30); (R6) connector hubs; that is, hubs with many links to most of the other modules (0.30 < P 0.75); and (R7) kinless hubs; that is, hubs with links homogeneously distributed among all modules (P > 0.75). To test the applicability of our approach to complex biological networks, we consider the cartographic representation of the metabolic networks 6, 7, 8, 9, 14 of twelve organisms: four bacteria (Escherichia coli, Bacillus subtilis, Lactococcus lactis and Thermasynechococcus elongatus), four eukaryotes (Saccharomyces cerevisiae, Caenorhabditis elegans, Plasmodium falciparum and Homo sapiens), and four archaea (Pyrococcus furiosus, Aeropyrum pernix, Archaeoglobus fulgidus and Sulfolobus solfataricus). In metabolic networks, nodes represent metabolites and two nodes i and j are connected by a link if there is a chemical reaction in which i is a substrate and j a product, or vice versa. In our analysis, we use the database developed by Ma and Zeng 8 (MZ) from the Kyoto Encyclopedia of Genes and Genomes 27 (KEGG). The results we report are not
  • 48. 代谢网络拓扑分析及在线粒体进化中的应用 第 44 页 共 7 页 altered if we consider the complete KEGG database instead (Figs 2c and 4b, and Supplementary Information). Figure 3: Cartographic representation of the metabolic network of E. coli. Each circle represents a module and is coloured according to the KEGG pathway classification of the metabolites it contains. Certain important nodes are depicted as triangles (non-hub connectors), hexagons (connector hubs) and squares (provincial hubs). Interactions between modules and nodes are depicted using lines, with thickness proportional to the number of actual links. Inset: metabolic network of E. coli, which contains 473 metabolites and 574 links. This representation was obtained using the program Pajek. Each node is coloured according to the 'main' colour of its module, as obtained from the cartographic representation. High resolution image and legend (66K) Figure 4: Roles of metabolites and inter-species conservation.