系统生物学数学基础
   (初稿)
     雷锦誌




   清华大学
 周培源应用数学研究中心
    2007 年 9 月
系统生物学数学基础




                                              前言

     什么是系统生物学?
     “Systems biology is the science of dis...
系统生物学数学基础


     – 生命节律
     – 胚胎发育
• 细胞分裂与分化
• 系统生物学前沿介绍

• 随机过程(Master equation, Langevin equation, Fokker-Plank equatio...
目录

第一章            化学反应的数学描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
§ 3.7.1 解的存在唯一性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     ...
第一章                    化学反应的数学描述

                                                                                       {...
系统生物学数学基础




                               § 1.2 常微分方程
  假设在t 时刻, 系统的状态为X(t). 则在时间区间[t, t + dt) 内, 反应Rj 发生的概率为aj (X)dt. ...
系统生物学数学基础


这样, 化学反应的动态过程可以通过函数P (x, t|x0 , t0 ) 随时间的变化描述出来. 为此, 取dt 充分小, 使
得在时间dt 内发生两次或者更多次化学反应的概率可以忽略. 这样, 我们可以根据t 时刻的条...
系统生物学数学基础


其中忽略了vji 的高阶项. 令
                                            M                          M
                    ...
系统生物学数学基础


   当随机性很小时, 即xi − Xi 很小, 我们可以把Ai (x) 和Bik (x) 展开成泰勒级数:
                                                    N
 ...
系统生物学数学基础


  这里P(a, t) 表示当某个事件在任意无穷小事件区间dt 内出现的概率为adt 是, 在长度为t 的时间
区间内出现的次数. 令Q(n; a, t) 表示P(a, t) 等于n (整数) 的概率, 则由关系

  ...
系统生物学数学基础


这里的正则分布Nj (0, 1) 都是独立的.
  下面, 假设τ 同时满足条件一和条件二, 并记τ 为dt. 另外, 我我们用白噪声ξj (t) 记满足独立正则
分布Nj (0, 1) 的随机变量. 这里, 白噪声满足...
系统生物学数学基础


     The probability P is the product of P0 (τ ), the probability that, given the state (X1 , · · · , XN ) at
...
系统生物学数学基础


这里j = 1, · · · , n, X = (X 1 , · · · , X n ), Wtk 表示第k 个Wiener 过程在时刻t 的值. 强1.0 阶Runge-Kutta
格式如下面给出:[27]
     ...
系统生物学数学基础


并且假定诱导物SX 的数量充分大, 其数量的变化可以忽略. 在平衡态时, 有关系

                                   KX [SX X] = XSX

这里KX 是复合物[SX X] ...
系统生物学数学基础


这里KX = joff /jon 为解离常数(for lac repressor, KX ∼ 1µM ∼ 1000 inducer (IPTG) molecules/cell).
由上面关系(1.6.45) 和(1.6.4...
系统生物学数学基础




                                 § 1.7 补充阅读材料
1. van Kampen, N. G. 1992. Stochastic process in physics and c...
第二章                 基因表达


                                 § 2.1 引言
    我们知道, 所有生物的遗传信息, 都是以基因的形式储藏在细胞内的DNA (或RNA) 分子中. 随...
系统生物学数学基础



                 Property                                            Yeast (S. cerevisae)
                   ...
系统生物学数学基础




            图 2.2: Intrinsic and extrinsic noise in gene expression (Elowitz et. al. 2002)



              ...
系统生物学数学基础


                              60
                                                                        ’md-1...
系统生物学数学基础


5. Elowitz, M. B., Levine, A. J., Siggia, E. D., Swain, P. S., Stochastic gene expression in a signle
   cell....
第三章                      基因调控


                                    § 3.1 Toggle Switches

§ 3.1.1 Bistability
      正反馈可以...
系统生物学数学基础


     上述过程可以用常微分方程描述为(这里只考虑单基因拷贝, 因此GR = 1 − GA )

                            dPn
                            ...
系统生物学数学基础


                                                                       y
          gy

         15            ...
系统生物学数学基础


令X, X2 和D 分别表示抑制子单体, 抑制子dimer 和DNA 的promoter site 的浓度, 我们可以把相应的
化学平衡方程表示为
                                    ...
系统生物学数学基础


    对于λ phage 的情况, 我们有σ1 ∼ 1 和σ2 ∼ 5. 因此方程(3.1.19) 中有两个参数α 和γ. 这两个参
数可以决定平衡态时抑制子的浓度. 下面我们来详细分析. 当参数α 和γ 变化时, 系...
系统生物学数学基础


order to introduce this effect, we generalize that aforementioned model such that random fluctuations
become
   ...
系统生物学数学基础




                                图 3.6: Mutual repression circuit.                                    {fig:br...
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Sysbiobook
Upcoming SlideShare
Loading in...5
×

Sysbiobook

1,638

Published on

Published in: Technology, Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,638
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
31
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Sysbiobook

  1. 1. 系统生物学数学基础 (初稿) 雷锦誌 清华大学 周培源应用数学研究中心 2007 年 9 月
  2. 2. 系统生物学数学基础 前言 什么是系统生物学? “Systems biology is the science of discovering, modeling, understanding and ultimately engineer- ing at the molecular level the dynamic relationships between the biological molecules that define living organisms.” Leroy Hood, Ph. D., M.D., President Institute for Systems Biology All biological phenomena, whether it’s digestion of a sugar molecule, beating of the human heart, or neutralizing an invading virus, are the result of complex systems. Thus our approach is to focus research on biological systems as a whole, rather than pursue the traditional approach of focusing on individual genes, proteins, or parts of an organism. 系统生物学的研究内容? 系统生物学研究方法? Scientists from multiple disciplines (biology, chemistry, mathematics, physics, etc.) work closely together to fully understand all aspects of the inherently complex systems intrinsic to living organisms. Such in-depth understanding is ultimately essential to realizing our goal of predictive, preventive, personalized medicine. 系统生物学与数学? • “它(物理学)的范畴可定义为我们全部知识中能够用数学语言表发的那个部分”--爱因斯坦 • 统计,模型,分析,模拟...... 总结定性、半定 建立数学模 E E 收集经验数据 d 性规律 型 s   d   d   d   c 用经验资料验证 求解、发展数学 ' 模型 理论 “Most readers of this publication will know that ‘post-genomics’ and ‘proteomics’ are phrases that mean little that is specific but herald an encyclopaedic era of information about the way biological cells and their genes and proteins behave. But how best to make sense of it all? It is, at last, possible to anticipate mathematics becoming useful in the modelling of the systems.” –Nature 407 2000, 819. 内容简介? • 基因表达 • 基因调控网络 – Toggle switches – 生物振荡 2
  3. 3. 系统生物学数学基础 – 生命节律 – 胚胎发育 • 细胞分裂与分化 • 系统生物学前沿介绍 • 随机过程(Master equation, Langevin equation, Fokker-Plank equation) • 微分方程(建模,定性理论,数值求解) • 随机微分方程(建模,数值求解,稳定性分析) • 反应扩散方程(建模,数值求解) 补充阅读材料: 1. Mackey, M. C., Santillan, M., Mathematics, Biology, and Physicss: Interactions and interepen- dence, Notices AMS, 52(2005)(8). 2. Sontga, E. D., Molecular systems biology and dynamics: an introduction for non-biologists. 3. Alon, U., An introduction to systems biology, Chapman Hall/CRC, London, 2007. 4. Fall, C. P., Marland, E. S., Wagner, J. M., Tyson, J. J., (Eds.) Computational cell biology, Springer-Verlag, New York, 2001. 5. Alberghina, L., Westerhoff, H. V. (Eds.) Systems biology: Definitions and perspectives. Springer, Berlin, 2005. 3
  4. 4. 目录 第一章 化学反应的数学描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 引言 . . . . . . . . . . . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 常微分方程 . . . . . . . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 化学主方程 . . . . . . . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 化学朗之万方程 . . . . . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5 计算模拟 . . . . . . . . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 § 1.5.1 常微分方程的数值模拟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 § 1.5.2 求解化学主方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 § 1.5.3 求解Fokker-Plank 方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 § 1.5.4 求解化学朗之万方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 § 1.6 Michaelis-Menten and Hill Equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 § 1.7 补充阅读材料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 第二章 基因表达 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1 引言 . . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 实验事实 . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 数学模型 . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4 基因表达的随机性 § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5 反馈控制 . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.6 补充阅读材料 . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 第三章 基因调控 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 § 3.1 Toggle Switches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 § 3.1.1 Bistability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 § 3.1.2 A model for repressor expression[21] . . . . . . . . . . . . . . . . . . . . . . . . 20 § 3.1.3 Noise induce switches–extrinsic noise . . . . . . . . . . . . . . . . . . . . . . . . 22 § 3.1.4 Noise induce switches–intrinsic noise . . . . . . . . . . . . . . . . . . . . . . . . 23 § 3.2 生物振荡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 § 3.2.1 Atkinson Oscillator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 § 3.2.2 A synthetic gene-metabolic oscillator . . . . . . . . . . . . . . . . . . . . . . . . 28 § 3.2.3 Mechanisms of noise-resistance in genetic oscillators . . . . . . . . . . . . . . . 29 § 3.2.4 振荡的同步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 § 3.2.5 常微分方程定性分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 § 3.3 生命节律 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 § 3.3.1 Dimerization and proteolysis of PER and TIM . . . . . . . . . . . . . . . . . . 42 § 3.3.2 Circadian rhythm generator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 § 3.4 胚胎发育 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 § 3.5 Morphogen gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 § 3.6 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 § 3.7 二阶常微分方程边值问题的数学基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 i
  5. 5. § 3.7.1 解的存在唯一性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 § 3.7.2 问题的求解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 第四章 神经科学 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.1 离子通道与Nernst 方程 § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2 细胞膜模型 . . . . . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.3 离子通道的激活与失活 . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4 Morris-Lecar 模型 . . . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.5 Hodgkin-Huxley 模型 . § . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 第五章 细胞增生与分化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 § 5.1 一些数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 § 5.2 造血干细胞的数学模型与参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 § 5.2.1 数学模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 § 5.2.2 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 § 5.3 造血干细胞模型的动力学分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 § 5.4 整体模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 第六章 细胞调亡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 第七章 蛋白质折叠与随机动力学. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 名词索引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 插图索引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
  6. 6. 第一章 化学反应的数学描述 {ch3} § 1.1 引言 考虑N ≥ 1 种分子{S1 , · · · , SN } 的化学反应. 假设所有分子充分混合在一个体积(体积为Ω) 固定 的容器中. 并且假设温度不变。共有M ≥ 1 个反应通道{R1 , · · · , RM }. 以X(t) = (X1 (t), · · · , XN (t)) 记该系统在时刻t 的状态, 其中 Xi (t) 表示系统中分子Si 在时刻t 的个数, (i = 1, · · · , N ). 系统状态X(t) 是一个随机过程, 这是因为每个化学反应发生的时间是随机的, 受热力学涨落的映 像. 对每个反应通道, 可以定义相应的Propensity Function aj , 使得 aj (x)dt 表示给定X(t) = x 时, 反应Rj 在时间区间[t, t + dt) 内, 在容器中某处发生一次的概 率(j = 1, . . . , M ). 每个反应都会引起分子个数的改变.定义反应通道Rj 的状态改变向量(state-change vector) vj 如 下: vji 表示分子Si 因为反应Rj 所引起的改变量(j = 1, · · · , M ; i = 1, · · · , N ). 这里vji 0 表示反应Rj 产生分子Si , vji 0 表示反应Rj 消耗分子Si . 函数aj 和向量vji 一起给出了反应通道Rj 的完整描述. 根据这些量, 我们可以建立数学模型, 用 于描述所研究的化学反应. 对于两个分子的反应, Propensity function aj (x) 可以按以下形式定义: aj (x) = cj hj (x). (1.1.1) 其中cj 是反应通道Rj 的specific probability rate constant, 定义为cj dt 表示随机选取的反应Rj 的一对 反应物分子, 在下一个无穷小时间dt 内发生反应的概率. 这个概率等于这一对分子在下dt 时间内发生 碰撞的概率, 乘以这对已经发生碰撞的分子确实发生了反应Rj 的概率. 常数cj 也可以用反应数率常 数(reaction rate constant) kj 来表示. 函数hj (x) 表示在状态X(t) = x 时, 可以发生反应Rj 的所有不 同的反应物的组合数. (相应地, 我们有v1 = (+1, −1, 0, · · · , 0) 和v2 = −v1 .) 如果Rj 是单分子反应, 上面的讨论仍然适用, 但是cj 与相应分子的量子性质, 例如降解率有关. 而hj (X) 等于相应分子的个数. 例: 对以化学反应 R1 : X1 + X2 → 2X1 , 我们有a1 (x) = c1 x1 x2 . 而逆过程 R2 : 2X1 → X1 + X2 对应的propensity function 为a2 (x) = c2 x1 (x1 − 1)/2. 1
  7. 7. 系统生物学数学基础 § 1.2 常微分方程 假设在t 时刻, 系统的状态为X(t). 则在时间区间[t, t + dt) 内, 反应Rj 发生的概率为aj (X)dt. 如 果发生了反应, 分子Si 的个数的改变量为Xi (t) + vji . 因此, 在t + dt 时刻, 分子Si 的个数平均改变量为 M Xi (t + dt) − Xi (t) = aj (X)vji dt (i = 1, · · · , N ). j=1 两边除以dt, 并且令dt → 0, 我们得到相应的常微分方程 M dXi aj (X)vji (i = 1, · · · , N ). = (1.2.2) {eq:1.2:1} dt j=1 在这里, 分子的个数是整数, 因此Xi (t) 是整数值的函数. 因此上面对时间t 的微分数学上并不严 格成立. 然而, 如果分子的个数充分大, 上面公式可以给出很好的近似. 通常, 在描述化学反应时, 适用浓度描述系统的状态, 即Z = (Z1 , · · · , ZN ), 其中Zi = Xi /Ω. 此时 上面方程可以表示为化学速率方程(chemical rate equation) M dZi aj (Z)vji (i = 1, · · · , N ). = ˜ (1.2.3) {eq:cre} dt j=1 其中 aj (ΩZ) aj (Z) = ˜ . Ω 例: 对前面的例子, 我们有常微分方程模型 dZ1 = k1 Z1 Z2 − k2 Z1 (Z1 − 1/Ω) dt (1.2.4) {eq:1.2:3} dZ2 = −k1 Z1 Z2 + k2 Z1 (Z1 − 1/Ω) dt 这里k1 = c1 Ω, k2 = c2 Ω/2 分别为反应R1 和R2 的反应速率常数. 当Ω → +∞ 时, 我们得到了孰知的 方程(chemical rate equation) dZ1 2 = k1 Z1 Z2 − k2 Z1 dt (1.2.5) {eq:1.2:4} dZ2 2 = −k1 Z1 Z2 + k2 Z1 dt 由上面的例子可以看到, 方程(1.2.5) 仅仅是当体积充分大(当然分子数也充分大)时的近似形式. 而对 于大量的生物学问题, 相应的反应都是在细胞内完成的, 体积并不是很大, 而且分子数也不大, 所以上 面方程只能得到近似的描述, 而且还可能得到错误的描述. 因此, 我们需要好的数学模型. § 1.3 化学主方程 以为系统的状态随时间的变化是随机过程, 为了得到更加精确的描述, 我们使用随机描述来建立 数学模型, 既化学主方程(chemical master equation). 定义条件概率函数P (x, t|x0 , t0 ) 如下: P (x, t|x0 , t0 ) = Prob{X(t) = x, given that X(t0 ) = x0 }. (1.3.6) {eq:1.3:1} 2
  8. 8. 系统生物学数学基础 这样, 化学反应的动态过程可以通过函数P (x, t|x0 , t0 ) 随时间的变化描述出来. 为此, 取dt 充分小, 使 得在时间dt 内发生两次或者更多次化学反应的概率可以忽略. 这样, 我们可以根据t 时刻的条件概率 写出t + dt 时刻的概率:   M M P (x, t + dt|x0 , t0 ) = P (x, t|x0 , t0 ) × 1 − [P (x − vj ), t|x0 , t0 )aj (x − vj )dt]. aj (x)dt + j=1 j=1 令dt → 0, 我们就可以得到化学主方程 M ∂ [aj (x − vj )P (x − vj , t|x0 , t0 ) − aj (x)P (x, t|x0 , t0 )] . P (x, t|x0 , t0 ) = (1.3.7) {eq:cme} ∂t j=1 方程(1.3.7) 从本质上反应了我们所研究的系统. 如果可以求解出P , 则可以完整地刻划随机过 程X(t). 然而, 除了很特殊的情况, 方程(1.3.7) 的精确解一般是得不到的, 当分子数或者是反应的数量 很大时, 即使是数值解也不容易得到. 为了进一步研究前面的常微分方程模型的含义, 我们来看X(t) 作为随机过程的平均量的动力学. 为此, 定义条件期望 E(t|x0 , t0 ) = xP (x, t|x0 , t0 ). x 表示当X(t0 ) = x0 时, 在时刻t ≥ t0 的平均状态. 这里求和的范围可以取所有允许的状态. 如果把函 数P 拓展定义到全空间RN ×[t0 , +∞), 其中当X(t) = x 是不允许出现的状态时, 定义P (x, t|x0 , t0 ) = 0, 则上面的求和可以拓展到全空间RN : E(t|x0 , t0 ) = xP (x, t|x0 , t0 ). (1.3.8) {eq:1.3:2} x∈RN 为简单, 我们省略初始条件, 而记E(t) = ( X1 (t) , · · · , XN (t) ). 由(1.3.7), 可以得到 M d Xi = vji aj (x)P (x, t) (1.3.9) {eq:1.3:3} dt j=1 x∈RN 方程(1.3.9) 给出了平均动力学方程. 记 aj (X) = aj (x)P (x, t) x∈RN 则 M d Xi = vji aj (X) (1.3.10) {eq:1.3:4} dt j=1 如果系统的随机性可以忽略, 则 aj (X) = aj ( X ), 我们可以得到化学反应速率方程(1.2.2). 但是, 一 般地, (1.3.10) 并不等价于方程(1.2.2). 如果是单分子反应, 则aj (X) = cj Xjk , 则 aj (X) = aj ( X ). 方程(1.3.10) 等价于(1.2.2). 因此, 我们看到只对单分子反应, 常微分方程(1.2.2) 才反应平均动力学. 因此, 对于多分子反应, 常微分方程模型(1.2.2) 的结果的解释需要特别的小心. 如果分子的数目很大, 即x ≫ vj , 我们可以把方程(1.3.7) 的右边展开成x 的泰勒级数. 由此, 可以 得到(我们在这里省略初始条件)   M N ∂2 ∂ ∂ 1 aj (x)P (x, t) − P (x, t) = aj (x)P (x, t)vji + aj (x)P (x, t) ∂t ∂xi 2 ∂xi ∂xk j=1 i=1 1≤i,k≤N M − aj (x)P (x, t) + · · · j=1 3
  9. 9. 系统生物学数学基础 其中忽略了vji 的高阶项. 令 M M Ai (x) = vji aj (x), Bik = vji vjk aj (x) (1.3.11) {eq:1.3:5} j=1 j=1 则有方程 N ∂2 ∂ ∂ 1 P (x, t) = − Ai (x)P (x, t) + Bik (x)P (x, t). (1.3.12) {eq:fk} ∂t ∂xi 2 ∂xi ∂xk i=1 1≤i,k≤N 这个就是Fokker-Plank 方程. 其中Ai (x) 和Bik (x) 的含义我们将在后面介绍. 从上面的推导可以看到, Fokker-Plank 方程是当分子数很大时, 对化学主方程的近似. 为描述化学反应的随机性, 我们可以分析协方差 σik = (Xi − Xi )(Xk − Xk ) (1 ≤ i, k ≤ N ). (1.3.13) {eq:var} 协方差σik 时时间t 的函数. 通过概率转移函数P , 上面协方差可以表示为 (xi − Xi (t) )(xk − Xk (t) )P (x, t). σik (t) = x∈RN 我们可以推导出σik 满足的方程: dσik d Xi d Xk )(xk − Xk )P (x, t) + )(xi − Xi )P (x, t) = (− (− dt dt dt x∈RN x∈RN ∂ (xi − Xi (t) )(xk − Xk (t) ) + P (x, t) ∂t x∈RN M (xi − Xi )(xk − Xk ) (aj (x − vj )P (x − vj , t) − aj (x)P (x, t)) = j=1 x∈RN M (xi − Xi )(xk − Xk )aj (x − vj )P (x − vj , t) = j=1 x∈RN M − (xi − Xi )(xk − Xk )aj (x)P (x, t) j=1 x∈RN M (xi + vji − Xi )(xk + vjk − Xk )aj (x)P (x, t) = j=1 x∈RN M − (xi − Xi )(xk − Xk )aj (x)P (x, t) j=1 x∈RN [Ai (x)(xk − Xk ) + Ak (x)(xi − Xi )] P (x, t) + = Bik (x)P (x, t). x∈RN x∈RN 这里Ai (x), Bik (x) 如前面所定义. 由此, 我们得到σik 所满足的方程. dσik [Ai (x)(xk − Xk ) + Ak (x)(xi − Xi )] P (x, t) + = Bik (x)P (x, t) (1.3.14) {eq:var:1} dt x∈RN x∈RN 4
  10. 10. 系统生物学数学基础 当随机性很小时, 即xi − Xi 很小, 我们可以把Ai (x) 和Bik (x) 展开成泰勒级数: N ∂Ai ( X ) (xl − Xl ) + · · · Ai (x) = Ai ( X ) + ∂xl l=1 N ∂Ak ( X ) (xl − Xl ) + · · · Ak (x) = Ak ( X ) + ∂xl l=1 N ∂Bik ( X ) (xl − Xl ) Bik (x) = Bik ( X ) + ∂xl l=1 ∂ 2 Bik ( X ) (xp − Xp )(xq − Xq ) + · · · + ∂xp ∂xq 1≤p,q≤N 带入方程(1.3.14), 并且注意到关系 x ∈ RN (xi − Xi )P (x, t) = 0, x ∈ RN P (x, t) = 1 我们可以得到方程 N ∂ 2 Bik ( X ) dσik ∂Ai ( X ) ∂Ak ( X ) = σil + σlk + Bik ( X ) + σpq . (1.3.15) {eq:var:2} dt ∂xl ∂xl ∂xp ∂xq 1≤p,q≤N l=1 定义矩阵 ∂ 2 Bik ( X ) σ = (σik ), A = (∂Ai ( X )/∂xl ), B = (Bik ( X ), C = ∂xp ∂xq 上面方程可以简写为 dσ = (Aσ + AT σ + Cσ) + B. (1.3.16) {eq:df} dt 这个就是所谓的Fluctuation-Dissipation Theorem (通常的形式是忽略了高阶导数项C). § 1.4 化学朗之万方程 现在我们建立数学模型, 用于直接描述随机过程X(t) 本身. 假设在时刻t, 系统的状态为X = xt . 令Kj (xt , τ ) (τ 0)表示反应Rj 在下个时间区间[t, t + τ ] 内发生的次数. 因为每次这样的反应都把分 子Si 的个数增加vji , 系统中分子Si 在时刻t + τ 的个数为 M Kj (xt , τ )vji , (i = 1, · · · , N ). Xi (t + τ ) = xt,i + (1.4.17) {eq:1.4:1} j=1 这里, Kj (xt , τ ) 是随机变量. 要得到对所有τ 的精确描述, 我们需要求解化学主方程. 然而, 我们 可以在下面的条件下给出很好的近似. 条件一: 首先, 取τ 充分小, 使得在时间区间[t, t + τ ] 内, 系统的状态只有微小的改变, 因此, 所有 的propensity function 几乎保持不变: aj (X(t′ )) ≈ aj (xt ), ∀t′ ∈ [t, t + τ ], ∀j ∈ [1, M ]. (1.4.18) {eq:1.4:2} 通常地, 每次反应都只使某种分子地个数增加或减少1 , 所以, 当系统地反应物地数量远大于1 时, 只要 取τ 充分小, 上面的条件一是很容易满足的. 根据条件一, 在时间区间[t, t + τ ] 内发生的所有反应都不改变系统的propensity function. 因此, 所 有反应在时间区间[t, t + τ ] 发生的概率可以认为是相互独立的. 因此, Kj (xt , τ ) 等于当propensity func- tion 等于aj (xt ) 时, 反应通道Rj 在时间τ 内的发生次数. 这个次数满足独立Possion 分布Pj (aj (xt ), τ ). 5
  11. 11. 系统生物学数学基础 这里P(a, t) 表示当某个事件在任意无穷小事件区间dt 内出现的概率为adt 是, 在长度为t 的时间 区间内出现的次数. 令Q(n; a, t) 表示P(a, t) 等于n (整数) 的概率, 则由关系 Q(0; a, t + dt) = Q(0; a, t) × (1 − adt) 可以得到 ∂Q(0; a, t) = −at, Q(0; a, 0) = 1. ∂t 由此容易得到Q(0; a, t) = e−at . 对任意n ≥ 1, 根据概率的乘法定律, 由关系 t Q(n − 1; a, t′ ) × adt′ × Q(0; a, t − t′ ). Q(n; a, t) = t′ =0 通过数学归纳法, 可以得到一般的公式 e−at (at)n , (n = 0, 1, 2, · · · ). Q(n; a, t) = n! 现在, 我们可以计算随机变量P(a, t) 的均值和方差 P(a, t) = var{P(a, t)} = at. 当at ≫ 1 时, 可以证明 e−at (at)n (n − at)2 ≈ (2πat)−1/2 exp − . n! 2at 因此, 当at ≫ 1, 随机变量P(a, t) 可以由具有相同的均值和方差的正态分布来近似: P(a, t) ≈ N (at, at), if at ≫ 1. (1.4.19) {eq:1.A3} 因此由条件一, 方程(1.4.17) 可以近似为 M vji Pj (aj (xt ), τ ), (i = 1, · · · , N ). xi (t + τ ) = xt,i + (1.4.20) {eq:1.4:3} j=1 条件二: 时间区间τ 充分大, 使得在时间区间[t, t + τ ] 内发生的化学反应的次数的期望值大于1, 即 Pj (aj (xt ), τ ) = aj (xt )τ ≫ 1, ∀j ∈ [1, M ]. (1.4.21) {eq:1.4:4} 很显然, 这个条件和条件一是矛盾的, 可能会出现这样的情况: 两个条件无法同时满足. 在这种情况下, 我们的模型不能满足. 但是, 在很多情况下, 这这两个条件是可以同时满足的, 例如, 当发生系统中的反 应每种分子的个数都足够大时. 这时aj (xt ) 是大数, 即使τ 很小, 上面的条件也是可以满足的. 当条件二满足时, 我们可以把Possion 分布Pj (aj (xt ), τ ) 近似为具有相同的均值和方差的正则分 布. 因此, 我们由下面的关系 M vji Nj (aj (xt ), τ ), (i = 1, · · · , N ). xi (t + τ ) = xt,j + (1.4.22) {eq:1.4:5} j=1 这里N (m, σ 2 ) 表示均值为m, 方差为σ 2 的正则分布. 注意到在这里, 我们把整数的Possion 分布变成 为连续实数的正则分布. 这样, 分子数Xi 也相应的变成为是实数的. 另外, M 个正则分布是相互独立 的. 这是因为我们假定所有的Possion 分布Pj 都是相互独立的. 利用正则分布的简单关系 N (m, σ 2 ) = m + σN (0, 1), 我们可以把(1.4.22) 改写为另外的形式: M M vji [aj (xt )τ ]1/2 Nj (0, 1), (j = 1, · · · , N ). xj (t + τ ) = xt,j + vji aj (xt )τ + (1.4.23) {eq:1.4:6} j=1 j=1 6
  12. 12. 系统生物学数学基础 这里的正则分布Nj (0, 1) 都是独立的. 下面, 假设τ 同时满足条件一和条件二, 并记τ 为dt. 另外, 我我们用白噪声ξj (t) 记满足独立正则 分布Nj (0, 1) 的随机变量. 这里, 白噪声满足关系 ξi (t)ξj (t′ ) = δij δ(t − t′ ), ∀i, j ∈ [1, M ], ∀t. ξj (t) = 0, 并记Xj (t) = xt,j , 则方程(1.4.23) 可以表述为 M M 1/2 vji aj (xt )ξj (t)(dt)1/2 , (j = 1, · · · , N ). xi (t + dt) = xi (t) + vji aj (xt )dt + (1.4.24) {eq:1.4:7} j=1 j=1 引进维纳过程(Winer process) Wj , 使得 dWj = Wj (t + dt) − Wj (t) = ξj (t)(dt)1/2 可以改写上面的方程为 M M 1/2 vji aj (xt )dWj , (j = 1, · · · , N ). dxi (t) = vji aj (xt )dt + (1.4.25) {eq:1.4:8} j=1 j=1 这里dxj (t) = xj (t + dt) − xj (t). 这个就是化学朗之万方程(Chemical Langevin Equation). § 1.5 计算模拟 前面我们介绍了描述化学反应的几种数学模型, 分别涉及到常微分方程, 差分方程(化学主方程), 偏微分方程(Fokker-Plank 方程), 随机微分方程. 这些方程的计算模拟分别涉及不同的数学领域, 可以 参考相应的数学专业教材. 这里简单介绍如下. § 1.5.1 常 微 分 方 程 的 数 值 模 拟 差分法, 软件: xppaut. § 1.5.2 求 解 化 学 主 方 程 Gilliespie 算法: 1. 初始化Xi ,并令初始时间t = 0. M 2. 计算aν (ν = 1, · · · , M ),并令a0 = aν . ν=1 µ−1 3. 产生[0, 1] 上的平均分布随机数r1 和r2 , 并令τ = (1/a0 ) ln(1/r1 ),取µ 为满足条件 ν=1 µ r2 a0 ≤ ν=1 aν 的整数,则(τ, µ) 是满足概率密度为 aµ e−a0 τ , if 0 ≤ τ ∞ and µ = 1, · · · , M P (τ, µ) = 0 otherwise 得随机数。 4. 令t = t + τ , 并根据反应反应通道Rµ 更新分子个数,即Xi → Xi + vµi . Here P (τ, µ) is the “reaction probability density function” that defined as P (τ, µ)dτ = probability that, given the state (X1 , · · · , XN ) at time t, the next reaction in V will occur in the in- finitesimal time interval (t + τ, t + τ + dτ ), and will be an Rµ raction. 7
  13. 13. 系统生物学数学基础 The probability P is the product of P0 (τ ), the probability that, given the state (X1 , · · · , XN ) at time t, no reaction will occur in the time interval (t, t + τ ); times aµ dτ , the subsequence probability that an Rµ reaction will occur in the time interval (t + τ, t + τ + dτ ): P (τ, µ)dτ = P0 (τ ) · aµ dτ. To find and expression for P0 (τ ), we first note that [1 − ν aν dτ ′ ] is the probability that no reaction will occur in time dτ ′ from the state (X1 , · · · , XN ). Therefore, P0 (τ ′ + dτ ′ ) = P0 (τ ′ ) · [1 − aν dτ ′ ] ν from which it is readily deduced that M P0 (τ ) = exp[− aν τ ], ν=1 Thus, we obtain the reaction probability density function aµ e−a0 τ , if 0 ≤ τ ∞ and µ = 1, · · · , M P (τ, µ) = (1.5.26) {eq:1.5:1} 0 otherwise § 1.5.3 求 解 Fokker-Plank 方 程 差分法. § 1.5.4 求 解 化 学 朗 之 万 方 程 随机微分方程数值方法: 以Wt 表示随机过程, 如果满足下面条件: 1. 连续; 2. 独立增量过程: 如果t1 t2 t3 t4 , 则 (Wt2 − Wt1 )(Wt4 − Wt3 ) = 0; 3. 对任意t, τ ≥ 0, Wt+τ − Wt 是均值为零的高斯分布, 且满足 (Wt+τ − Wt )2 = τ ; 则Wt 称为是维纳过程. 通过维纳过程, 一维随机微分方程可以表示为 dx = f (x, t)dt + g(x, t)dWt . (1.5.27) {eq:sde} 一个随机过程x(t) 满足方程(1.5.27), 表示过程x(t) 满足几分方程 t t x(t) = x(0) + f (x(s), s)ds + g(x(s), s)dWs . (1.5.28) {eq:isde} 0 0 这里的随机积分表示Itˆ 积分. o Itˆ 公式: 如果随机过程x(t) 满足随机微分方程(1.5.27), 则随机过程V (x, t) 满足下面关系: o 1 ∂ 2V ∂V ∂V ∂V g(x, t)2 dt + dV = + f (x, t) + g(x, t)dWt . (1.5.29) {eq:ito} 2 ∂x2 ∂t ∂x ∂x 公式(1.5.29) 就是Itˆ 公式. o 考虑下面随机微分方程, m j bj (Xt , t)dWtk , dXt = aj (Xt , t)dt + (1.5.30) {eq:app1} k k=1 8
  14. 14. 系统生物学数学基础 这里j = 1, · · · , n, X = (X 1 , · · · , X n ), Wtk 表示第k 个Wiener 过程在时刻t 的值. 强1.0 阶Runge-Kutta 格式如下面给出:[27] m j j bj (Xti )∆Wtk Xti + aj (Xti )∆t + Xti+1 = (1.5.31) k i k=1 m n ∂bj 1 bl (Xti ) (Xti )((∆Wtk )2 − ∆t), k + k l 2 ∂Xt i k=1 l=1 这里∆t = ti+1 − ti , ∆Wtk = Wtk − Wtk . i i+1 i § 1.6 Michaelis-Menten and Hill Equations 这一节介绍两个在生化反应的模拟过程中常用的方程[4] . 首先, 我们考虑抑制子蛋白和DNA之 间的相互作用. 考虑抑制子X 辨认并且结合好其目标DNA 的作用位点(promoter) D 上的过程, 所形 成的复合物记为[XD]. 基因只有当抑制子没有结合到promoter 上时(自由的)才会表达. 这样, 基因或 者是自由的, 或者被抑制子所结合. 这样, 我们有一下方程: D + [XD]1 = DT (1.6.32) {eq:mm1} 这里DT 为常数, 是相应作用位点的总浓度. 抑制子X 和目标D 都在细胞内扩散, 并且偶尔会碰撞, 然后结合成为复合体. 假设X 和D 碰撞在 一起并且结合的速率为kon . 则复合物的生成速度正比于碰撞速率kon , 细胞中反应物的浓度X 和D. 另 一方面, 复合物以速率koff 分解. 这样, 复合物[XD] 的变化速率等于其合成速率和分解速率的差: d[XD] = kon XD − koff [XD]. (1.6.33) {eq:mm2} dt 在平衡态时, 有d[XD]/dt = 0, 可以得到关系 Kd [XD] = XD 其中Kd = kon /koff 为复合体的解离常数. 根据关系(1.6.32), 我们可以得到下面关系: D 1 = . (1.6.34) {eq:mm3} DT 1 + X/Kd 一些数据: kon ∼ 108 − 1011 M −1 sec−1 , koff 1sec. (1.6.34) 给出了在一段时间内(例如, 大于1 sec), 自由的基因位点占总数的百分比与抑制子X 的浓度的 关系. 当X = Kd 时, %50 的位点是自由的. 假设当位点是自由的时, 相应基因的转录率为β. 则mRNA 的产生率(成为promoter activity) 和 抑制子X 的关系为 β promoter activity = . (1.6.35) {eq:mm4} 1 + X/Kd 这里Kd 称为repression coefficient. 现在, 我们考虑另一种情况, X 要和诱导物SX 结合称复合体[SX X] 以后才有活性. 如果每个X 只能结合一个SX , 则有关系 X + [SX X] = XT 其中XT 表示X 的总数. 假定X 和SX 碰撞并结合成复合体的速率常数为jon , 复合物的分解速率常数 为joff . 则复合物的动力学方程(质量作用定理)为 d[SX X] = kon XSX − joff [SX X]. (1.6.36) {eq:m21} dt 9
  15. 15. 系统生物学数学基础 并且假定诱导物SX 的数量充分大, 其数量的变化可以忽略. 在平衡态时, 有关系 KX [SX X] = XSX 这里KX 是复合物[SX X] 的解离常数. 则复合物[SX X] 的数量和诱导物的数量SX 的关系可以 由Michaelis-Menten 方程(也称为米氏方程)表示出来: X T SX [XSX ] = . (1.6.37) {eq:mm11} SX + K X 现在如果X 上有n 个结合位点, 可以同时和n 个SX 结合成复合体[nSX X] 并且被激活. 则有关系 [nSX X] + X0 = XT . (1.6.38) {eq:mm16} 这里X0 表示自由的X, 并且中间态(与X 结合的诱导物的个数少于n 个) 都忽略. 复合物[nSX X] 的形 成是通过X 和n 个SX 分子的碰撞而形成. 设反应速率常数为jon , 则 n collision rate = jon X0 SX . (1.6.39) {eq:mm12} 令离解常数为joff : dissociation rate = joff [nSX X]. (1.6.40) {eq:mm13} 参数joff 通常对应与X 和SX 之间连接的化学键的强度. 复合物[nSX X] 的动力学方程为 d[nSX X] n = jon X0 SX − joff [nSX X] (1.6.41) {eq:mm14} dt 这里假设细胞内S 的数量很大, 其数目的变化可以忽略. 在平衡态的时候, 有关系 n joff [nSX X] = jon X0 SX . (1.6.42) {eq:mm15} 由关系(1.6.38), 我们有 n (joff /jon )[nSX X] = (XT − [nSX X])SX . 由此可以得到结合的X 所占的比例 Sn [nSX X] = nX n (1.6.43) {eq:mm17} XT K X + SX n 其中KX = joff /jon . 这个就是Hill equation, 系数n 通常称为是Hill 系数(Hill coefficient). 当n 1 时, 通常称为是合作的. 没有结合的抑制子X 的浓度是 X0 1 = . (1.6.44) {eq:mm18} 1 + (SX /KX )n XT 现在考虑另外的情况, 假设存在诱导物S. 抑制子可以和诱导物结合为复合体[XSX ]. 诱导物通过 和抑制子结合, 阻止抑制子抑制基因的表达, 从而诱导基因的表达. 此时, 抑制子X 可以有三种状态: 自由的, 与DNA 位点结合, 或者与诱导物结合: XT = X0 + [XD] + [nSX X]. (1.6.45) {eq:mm5} 这样, 我们得到下面动力学方程: d[XD] kon X0 D − koff [XD], = (1.6.46) dt d[nSX X] n jon X0 SX − joff [nSX X]. = (1.6.47) dt 这里, 我们假设复合物[nSX X] 不能与D 结合, 并且细胞内SX 的数量很大, 其数目的变化可以忽略. 在平衡态时, 可以得到关系 n KX [nSX X] = X0 SX , Kd [XD] = X0 D (1.6.48) {eq:mm8} 10
  16. 16. 系统生物学数学基础 这里KX = joff /jon 为解离常数(for lac repressor, KX ∼ 1µM ∼ 1000 inducer (IPTG) molecules/cell). 由上面关系(1.6.45) 和(1.6.48) 可以求解出 X0 1 = . n XT 1 + D/Kd + SX /KX 由自由DNA 所占比例与自由抑制子的浓度的关系(1.6.34), 可以得到promoter activity (记为f = f (SX ))和诱导物SX 之间的关系 β f= . (1.6.49) {eq:mm19} n 1 + (XT /Kd)/(1 + f DT /(βKd ) + SX /KX ) n 当SX /KX ≫ DT /Kd 时, 上面关系可以近似为 β f= . (1.6.50) {eq:mm20} n 1 + (XT /Kd )/(1 + SX /KX ) 上面关系给出了基因的活性与诱导物的浓度之间的关系. 当SX = 0 时, 有f (SX = 0) ≈ β/(1 + XT /Kd ). 这个也称为是是basal promoter activity, 表示当没有诱导物时的promoter 活性. 当 SX = S1/2 ∼ (XT /Kd )1/n KX 时, 基因的活性恢复达到最大值的一半(f = β/2). 现在考虑激活子的情况: 只有当X 结合到基因位点D 上时, 相应的mRNA 才会被转录. 根据前面 的讨论, 基因的promoter activity 和激活子的浓度的关系可以通过Michaelis-Menten 方程表示出来: βX ∗ promoter activity = . (1.6.51) {eq:mm10} Kd + X ∗ 这里X ∗ 表示具有活性(可以和DNA 位点结合) 的激活子的浓度. 如果存在诱导物SX 可以和激活子结合(假设激活子存在n 个作用位点), 激活子只有当与n 个诱 导物结合为复合体[nSX X]后, 才有活性(这里忽略中间状态, 即与X 结合的诱导物的个数少于n 个的 情况). 此时, 有关系 X + nSX ⇆ X ∗ , X ∗ + D ⇆ D∗ 通前面的讨论, 有活性的激活子的浓度为 n X T SX X ∗ = [nSX X] = n. n K X + SX 因此, 基因的活性和诱导物的浓度的关系为 βX ∗ f (SX ) = . (1.6.52) {eq:mm22} Kd + X ∗ 当 SX = S1/2 = (Kd /XT )1/n KX 时, 基因的活性达到其最大值的一半. 一般地, 如果一个基因既有抑制子, 又有激活子, 基因的活性系数为 βi (Xi /Ki )ni i f (X1 , · · · , Xm ) = (1.6.53) {eq:mm22} 1 + i (Xi /Ki )mi 这里Xi 表示抑制子或者是激活子的浓度, Ki 表示相应的抑制或激活系数. 11
  17. 17. 系统生物学数学基础 § 1.7 补充阅读材料 1. van Kampen, N. G. 1992. Stochastic process in physics and chemistry. North-Holland, Amster- dam, 1992. 2. Gillespie, D. T. 1977. Exact stochastic simulation of coupled chemical reactions. J. Phys. Chem. 81:2340-2361. 3. Gillespie, D. T. 2000. The chemical Langevin equation. J. Chem. Phys. 113:297–306. 12
  18. 18. 第二章 基因表达 § 2.1 引言 我们知道, 所有生物的遗传信息, 都是以基因的形式储藏在细胞内的DNA (或RNA) 分子中. 随 着个体的发育, DNA 分子能有序地将其所承载的遗传信息, 通过密码子-反密码子系统, 转变成蛋白质 分子, 执行各种生理生化功能, 完成生命的全过程. 科学家把这个从DNA 到蛋白质的过程称为基因表 达(gene expression), 对这个过程的调控是现阶段分子生物学研究的中心课题. 图 2.1: 中心法则 {fig:dogma} 基因表达调控主要表现在以下几个方面: 1. 转录水平上的调控(transcriptional regulation); 2. mRNA 加工成熟水平上的调控(differential processing of RNA transcript); 3. 翻译水平上的调控(differential translation of mRNA). § 2.2 实验事实 § 2.3 数学模型 常微分方程模型: 13
  19. 19. 系统生物学数学基础 Property Yeast (S. cerevisae) E. coli 6 ∼ 4 × 109 Proteins/cell 4 × 10 Time to tran- ∼ 1min ∼ 1 min scribe a gene Time to trans- ∼ 2min ∼ 2 min late a protein Typical mRNA 2 − 5min 10 min to over 1 h lifetime ∼ 30min (rich Cell generation ∼ 2 h (rich medium medium to several time to several hours hours Timescale of transcription ∼ 1sec factor binding to DNA site 表 2.1: Typical parameter values for the Bacterial E. Coli cell and Saccharonmyces cerevisae (Yest)(Alon , 2007) {tab:1} dX1 λ+ (n − X1 ) − λ− X1 = 1 1 dt dX2 λ2 X1 − δ2 X2 = dt dX3 λ3 X2 − δ3 X3 = dt 化学主方程: dP (X1 , X2 , X3 ) λ+ (n − X1 + 1)P (X1 − 1, X2 , X3 ) − λ+ (n − X1 )P (X1 , X2 , X3 ) = 1 1 dt + λ− (X1 + 1)P (X1 + 1, X2 , X3 ) − λ− X1 P (X1 , X2 , X3 ) 1 1 + λ2 X1 P (X1 , X2 − 1, X3 ) − λ2 X1 P (X1 , X2 , X3 ) + δ2 (X2 + 1)P (X1 , X2 + 1, X3 ) − δ2 X2 P (X1 , X2 , X3 ) + λ3 X2 P (X1 , X2 , X3 − 1) − λ3 X2 P (X1 , X2 , X3 ) + δ3 (X3 + 1)P (X1 , X2 , X3 + 1) − δ3 X3 P (X1 , X2 , X3 ). (0 ≤ X1 ≤ n, X2 , X3 ≥ 0) Chemical Langevin equation 14
  20. 20. 系统生物学数学基础 图 2.2: Intrinsic and extrinsic noise in gene expression (Elowitz et. al. 2002) dX1 = λ+ (n − X1 ) − λ− X1 (2.3.1) 1 1 dt λ+ (n − X1 )ξ1 (t) − λ− X1 ξ2 (t) + 1 1 + fλ+ (n − X1 )ηλ+ (t) − fλ− X1 ηλ− (t), 1 1 1 1 dX2 = λ2 X1 − δ2 X2 + λ2 X1 ξ3 (t) − δ2 X2 ξ4 (t) (2.3.2) dt + fλ2 X1 ηλ2 (t) − fδ2 X2 ηδ2 (t), dX3 = λ3 X2 − δ3 X3 + λ3 X2 ξ5 (t) − δ3 X3 ξ6 (t) (2.3.3) dt + fλ3 X2 ηλ3 (t) − fδ3 X3 ηδ3 (t), 图 2.3: A model of the expression of a single gene. Each step represents several biochemical reactions, which are associated with transition between promoter states, production and decay of mRNAs and proteins. {fig:gene} 15
  21. 21. 系统生物学数学基础 60 ’md-1.dat’ using 1:3 50 40 mRNA 30 20 10 0 0 20 40 60 80 100 120 140 Time 图 2.4: 模拟结果(Gillespie 算法): [mRNA] vs. Time. {fig:ge1} 60 ’md.dat’ using 1:3 50 40 mRNA 30 20 10 0 0 50 100 150 200 Time 图 2.5: 模拟结果(求解Langevin 方程): [mRNA] vs. Time. {eq:ge2} § 2.4 基因表达的随机性 § 2.5 反馈控制 § 2.6 补充阅读材料 1. Orphanides, G., Reinberg, D., (2002) A unified theory of gene expression, Cell 108, 439-451. 2. Smolen, P., Baxter, D. A., Byrne, J. H., (2000) Mathematical modeling of gene networks. Neuron 26, 567-580. 3. Kærn, M., Elston, T. C., Blake, W. J., Collins, J. J., (2005) Stochasticity in gene expression: from theories to phenotypes. Nat. Rev. Genet. 6, 451-464. 4. Paulsson, J., (2005) Models of stochastic gene expression. Phy. Life Rev. 2, 157-175. 16
  22. 22. 系统生物学数学基础 5. Elowitz, M. B., Levine, A. J., Siggia, E. D., Swain, P. S., Stochastic gene expression in a signle cell. Science 297(2002), 1183-1186. 6. Swain, P. S., Elowitz, M. B., Siggia, E. D., Intinsic and extrinsic contributions to stochasticity in gene expression. PNAS 99(2002), 12795-12800. 17
  23. 23. 第三章 基因调控 § 3.1 Toggle Switches § 3.1.1 Bistability 正反馈可以产生双稳态. 在这里, 我们考虑下面的例子. White-opaque switching is an epigenetic phenomenon, where genetically identical cells can exist in two distinctive cell types, white and opaque. Each cell type is stably inherited for many generations, and switching between the two types of cells occurs stochastically and rarely–roughly one switch in 104 cell divisions. The gene Wor1 was identified as a maser regulator of white-opaque switching[39, 28]. In opaque cells, Wor1 forms a positive feedback loop: it binds its own DNA regulatory region and activates its own transcription leading to the accumulation of high levels of Wor1. 上述的正反馈调控过程可以用图3.1 表示. 图 3.1: 基因表达的正反馈调控. {fig:3:bistabili 以GA 表示被激活基因的个数(对单拷贝基因, 也可以理解为被激活的概率), M 表示细胞内相应 基因的mRNA 的个数, P 细胞内基因所表达出来的蛋白质的个数. 在很多情况下, 蛋白质以二聚物或 者高聚物的形式在表示调控基因的表达(与启动子结合). 我们以Pn 表示n-聚物的个数. 这里, 我们忽 略中间产物, 即蛋白质或者以分离的形式存在, 或者以n-聚物的形式存在. 则上述过程包括下列反应. 其中蛋白质的聚合和与启动子的结合是快过程 λ+ k+ 1 nP ⇄ Pn , Pn + GR ⇄ GA . (3.1.1) {eq:3:fast1} λ− k− 1 基因的转录和mRNA 的翻译是慢过程 λ+ λ− δ λ δ GA −→ M, GR −→ M, M −2 ∅, M −3 P −3 ∅. 2 2 − − → → → (3.1.2) {eq:3:slow} 18
  24. 24. 系统生物学数学基础 上述过程可以用常微分方程描述为(这里只考虑单基因拷贝, 因此GR = 1 − GA ) dPn = k + P n − k − Pn (3.1.3) dt dGA + = λ1 Pn (1 − GA ) − λ− GA (3.1.4) 1 dt dM = λ+ GA + λ− (1 − GA ) − δ2 M (3.1.5) 2 2 dt dP = λ3 M − δ3 P − k + P n + kn Pn − (3.1.6) dt 假设快过程很快达到平衡, 即上面方程(3.1.3)-(3.1.4) 右边为零, 则有 Pn Pn = KP n , GA = (3.1.7) {eq:3:5} An + P n 其中K = k − /k + 为n-聚物的解离常数, An = (λ− /λ+ )/K. 代入慢过程的方程, 可以得到 1 1 Pn dM − δ2 M = λ2 1 + a (3.1.8) An + P n dt dP λ3 M − δ3 P = (3.1.9) dt 这里λ2 = λ− , a = (λ+ − λ− )/λ− . 2 2 2 2 令 ˜ x = M/(δ3 A/λ3 ), y = P/A, t = δ3 t 可以把上面方程组无量纲化 dx = λ(1 + ay n /(1 + y n )) − δx (3.1.10) dt dy = x−y (3.1.11) dt 这里还以t 表示无量纲化以后的时间, 并且 λ2 λ3 δ2 λ= 2, δ=δ . Aδ3 3 由上面方程, 系统的平衡态由代数方程 g(y) = δy 其中 yn g(y) = λ 1 + a 1 + yn 所给出. 当n = 1 时, 上述方程有唯一的正解 (−δ + aλ + λ)2 + 4δλ −δ + aλ + λ + y∗ = . 2δ 当n 1 时, 上述方程可以有一个正解, 或者三个, 也可能有两个. 解的个数与参数δ 有关. 存在临界 值δ1 δ2 , 当δ = δ1 或者δ = δ2 时, 系统有两个平衡点. 而当δ δ1 或者δ δ2 时, 系统有只有一个平 衡点. 当δ1 δ δ2 时, 系统有三个平衡点. 令(x∗ , y ∗ )为某平衡点, 该平衡点的稳定性由线性化矩阵 λg ′ (y ∗ ) −δ A= −1 1 19
  25. 25. 系统生物学数学基础 y gy 15 2.0 1.5 10 1.0 5 0.5 y ∆ 0.5 1.0 1.5 2.0 2.5 4.5 5.0 5.5 6.0 6.5 (A) (B) 图 3.2: 分岔图(λ = 4, a = 4, n = 4) {fig:3:bistabili 的特征值所决定. 矩阵A 的特征值为 1 (δ + 1)2 + 4(λg ′ (y ∗ ) − δ) . −(1 + δ) ± λ1,2 = 2 当特征值满足Re(λ1,2 ) 0 时, 平衡点是稳定的. 由此, 容易得到以下结论: 如果λg ′ (y ∗ ) δ, 则平衡点 是不稳定的, 如果λg ′ (y ∗ ) δ, 则平衡点是不稳定的. 当δ1 δ2 时, 中间值的平衡点是不稳定, 另外两 个平衡点(分别对应与高表达水平和低表达水平). 当δ δ1 或者δ δ2 时, 系统只有一个平衡点, 而且 是稳定的. 因此, 当δ1 δ δ2 时, 系统表现出双稳态. 当δ 从小于δ2 变为大于δ2 时, 系统从低表达态 变换到高表达态, 从δ 从大于δ1 变为小于δ1 时, 系统从高表达态变换到低表达态. 这样, 双稳态为系统 的switch 创造了条件. § 3.1.2 A model for repressor expression[21] In the context of the lysis-lysogeny pathway in the λ virus, the autoregulation of λ repressor expression is well characterized. In the section, we present two models describing the regulation of such a network. The full promoter region in λ phage contains the three operator sites known as OR1, OR2 and OR3. We first consider a mutant system whereby the operator site OR1 is absent from the region. The basic dynamical properties are as follows: The gene cI expresses repressor (CI), which in turn dimerizes and binds to the DNA as a transcription factor. In the mutant system, this binding can take place at one of the two binding sites, OR2 or OR3. Binding at OR2 enhances transcription, which takes place downstream of OR3, whereas binding at OR3 represses transcription, effectively turning off production. 图 3.3: Dynamical properteis of λ repressor cI. {fig:sw1} 这一调控系统的化学反应可以分为两类: 快反应和慢反应. 快反应包括分子的结合与分解, 相应 的反应常数的大概在几秒钟. 因此, 相对于慢反应(大概需要几分钟), 可以认为快反应总是处于平衡态. 20
  26. 26. 系统生物学数学基础 令X, X2 和D 分别表示抑制子单体, 抑制子dimer 和DNA 的promoter site 的浓度, 我们可以把相应的 化学平衡方程表示为 K1 2X ⇆ X2 K2 D + X2 ⇆ DX2 (3.1.12) {eq:sw1} K3 ∗ D + X2 ⇆ DX2 K4 DX2 + X2 ⇆ DX2 X2 其中DX2 和DX2 分别表示dimer 结合到位点OR2 和OR3 上的情况, DX2 X2 表示同时结合到两个 ∗ 位点上的情况. 这里Ki 表示平衡常数, 并且记K3 = σ1 K2 , K4 = σ2 K2 . 则σ1 和σ2 分别表示相对 于dimer-OR2 的结合强度. mRNA 的转录和降解一般是慢过程: k t DX2 + P −→ DX2 + P + nX (3.1.13) {eq:sw2} k d X −→ A, 这里P 表示RNA 聚合酶的浓度, n 表示平均每个mRNA 可以表达的蛋白质的个数. 这些反应都是不 可逆的. 令X = [X], Y = [X2 ], D = [D], U = [DX2 ], V = [DX2 ], Z = [DX2 X2 ] 分别为各反应物的浓度, ∗ 则抑制子的浓度的变化方程为 dX = −2k1 X 2 + 2k−1 Y + nkt P0 U − kd X + r. (3.1.14) {eq:sw3} dT 这里, 我们假设RNA 聚合酶的浓度P0 保持为常数. 参数r 表示蛋白质CI 的basal rate of production, 即在没有转录调控因子时基因cI 的表达率. 另外, 变量Y, U 和D 与X 的关系可以通过令快反应(3.1.12) 达到平衡来给出: K1 X 2 Y = K2 DY = K1 K2 DX 2 U = (3.1.15) {eq:sw4} σ1 K2 DY = σ1 K1 K2 DX 2 V = σ2 K2 U Y = σ2 (K1 K2 )2 DX 4 Z = 另外, DNA 的总浓度是常数, 记为dT : DT = D + U + V + Z = D(1 + (1 + σ1 )K1 K2 X 2 + σ2 K1 K2 X 4 ). 22 (3.1.16) {eq:sw5} 由(3.1.15)-(3.1.16) 求解出Y, U , 并且代入(3.1.14), 得到下面方程(这里注意到关系K1 = k1 /k−1 ): nkt K1 K2 P0 DT X 2 dX − kd X + r. = (3.1.17) {eq:sw6} 22 1 + (1 + σ1 )K1 K2 X 2 + σ2 K1 K2 X 4 dT 为简化分析, 我们首先把上述方程无量纲化. 分别以M 和T 表示浓度和时间的量纲, 则所有浓度 的量的量纲都是M , σ1 , σ2 是无量纲参数, 其他参数的量纲如(??) 所给出. [K1 ] = [K2 ] = M −1 , [kt ] = M −1 T −1 , [kd ] = T −1 , [r] = M T −1 . (3.1.18) {eq:sw7} √ √ 因此, 引进信的无量纲变量x = X K1 K2 和t = T (r K1 K2 ), 可以得到下面的无量纲化方程 αx2 − γx + 1. x= ˙ (3.1.19) {eq:sw8} 1 + (1 + σ1 )x2 + σ2 x4 这里的导数表示对无量纲化时间t 的导数. 并且得到新的无量纲化参数 α = nkt P0 DT /r, γ = kd /(r K1 K2 ). 这里α 表示抑制子所能提高的转录率和基础转录率之间的相对比值, γ 表示蛋白质的降解率和基础表 达率之间的比值. 21
  27. 27. 系统生物学数学基础 对于λ phage 的情况, 我们有σ1 ∼ 1 和σ2 ∼ 5. 因此方程(3.1.19) 中有两个参数α 和γ. 这两个参 数可以决定平衡态时抑制子的浓度. 下面我们来详细分析. 当参数α 和γ 变化时, 系统可以有一个平衡 态, 或者是三个平衡态. 令 αx2 f (x) = +1 1 + (1 + σ1 )x2 + σ2 x4 则平衡态的数目取决于方程 f (x) = γx 的解的个数. 对给定的α, 存在两个临界值γ1 γ2 , 使得当γ γ1 或者γ γ2 时, 只有一个平衡态; 当γ1 γ γ2 时, 有三个平衡态; 当γ = γ1 或者γ = γ2 时, 有两个平衡态. fx 20 15 10 5 x 0.2 0.4 0.6 0.8 1.0 图 3.4: Bifurcation plots for the variable x and concentration of λ repressor (α = 50, σ1 = 1, σ2 = 5) {fig:sw2} 如果x = x∗ 是系统的平衡点, 则令y = x − x∗ , 在平衡点附近, 我们有线性化方程 y = (f ′ (x∗ ) − γ)y. ˙ 根据微分方程的稳定性理论, 如果f ′ (x∗ ) − γ 0, 则对应的平衡点是稳定的, 如果f ′ (x∗ ) − γ 0, 则对 应的平衡点是不稳定的. 特别地, 当γ1 γ γ2 时, 系统有三个平衡点(x∗ x∗ x∗ ), 其中x∗ 是不稳 1 2 3 2 定的, 另外两个(high level x3 和low level x∗ ) 都是稳定的. 这就是所谓的双稳态. 当参数γ 从小变到大 ∗ 1 时, 在γ = γ2 处, 系统会突然从low level 态变到high level 态; 当参数γ 从大变到小时, 在γ = γ1 处, 系 统从high level 态变到low level 态. 这就是双稳态诱导的状态转移(switch) 的机制. § 3.1.3 Noise induce switches–extrinsic noise We now focus on parameter values leading to bistability and consider how an additive external noise source affects the production of repressor. Physically, we take the dynamical variable x described above to represent the repressor concentration within a colony of cells and consider the noise to act on many copies of this colony. In the absence of noise, each colony will evolve identically to one of the two fixed points, as discussed above. The presence of a noise source will at times modify this simple behavior, whereby colony-colony fluctuations can induce novel behavior. If an additive noise source alters the “background” repressor production. As an example, consider the effect of a randomly varying external filed on the biochemical reactions. The field could, in principle, impact the individual reaction rates, and because the rate equations are probabilistic in origin, its influence enters statistically. We posit that such an effect will be small and can be treated as a random perturbation to our existing treatment; we envision that events induced will affect the basal production rate, and that this will translate to a rapidly varying background repressor production. In 22
  28. 28. 系统生物学数学基础 order to introduce this effect, we generalize that aforementioned model such that random fluctuations become αx2 − γx + 1 + σξ(t). x= ˙ (3.1.20) {eq:sw9} 1 + (1 + σ1 )x2 + σ2 x4 where ξ(t) is a rapidly fluctuating random term with zero mean ( ξ(t) = 0), σ is a parameter to indicate the strength of the perturbation. In order to encapsulate the rapid random fluctuations, we make the standard requirement that the autocorrelation be “δ-correlated,” i.e., the statistics of ξ(t) are such that ξ(t)ξ(t′ ) = δ(t − t′ ). 引入能量函数φ(x), 方程(3.1.20) 可以改写为 ∂φ(x) x=− ˙ + σξ(t). (3.1.21) {eq:sw10} ∂x 则方程(3.1.21) 的解可以理解为一个粒子在能量面φ(x) 上的运动. 如果没有随机干扰, 粒子最终停留 在平衡点处(能量极小). 但是, 由于随机噪声的干扰, 粒子可以跳出某个平衡点, 到达另外一个平衡点. 这个即使随机干扰诱导相变的机制. 如果随机干扰影响基因的转率效率, 则转录效率α 是随机的. 相应地, 方程(3.1.19) 中的α 应该变 而考虑为α + ξ(t). 这时, 我们得到方程 αx2 x2 − γx + 1 + σξ(t) x= ˙ . (3.1.22) {eq:sw11} 1 + (1 + σ1 )x2 + σ2 x4 1 + (1 + σ1 )x2 + σ2 x4 如果随机干扰影响蛋白质的降解率, 则降解率γ 是随机的. 相应地, 有γ → γ + ξ(t). 因此, 有方程 αx2 − γx + 1 − σξ(t)x. x= ˙ (3.1.23) {eq:sw12} 1 + (1 + σ1 )x2 + σ2 x4 0.9 0.7 ’output1.dat’ ’output2.dat’ 0.8 0.6 0.7 0.5 0.6 0.4 0.5 x x 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 20 40 60 80 100 0 200 400 600 800 1000 t t (A) (B) 0.9 0.8 ’output3.dat’ ’output4.dat’ 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 x x 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 200 400 600 800 1000 0 500 1000 1500 2000 t t (C) (D) 图 3.5: 模拟结果: α = 50, γ = 15, σ1 = 1, σ2 = 5. (A): 确定性系统, γ = 15 (t 20) 和γ = 10 (t 20). (B): 随机系统(3.1.20) (σ = 0.3). (C): 随机系统(3.1.21) (σ = 5). (D): 随机系 统(3.1.23) (σ = 0.5). {fig:sw-sim} § 3.1.4 Noise induce switches–intrinsic noise 上面的例子介绍了外部噪声诱导switches 的例子, 下面介绍内部噪声诱导switches 的例子([26]). 相互抑制的基因调控网络可以用化学反应方程描述为 ˙ gA (1 − [rB ]) − dA [A] − α0 [A](1 − [rA ]) + α1 [rA ], [A] = ˙ gB (1 − [rA ]) − dB [B] − α0 [B](1 − [rB ]) + α1 [rB ], [B] = (3.1.24) {eq:3:brepressor α0 [A](1 − [rA ]) − α1 [rA ], [rA ] ˙ = α0 [B](1 − [rB ]) − α1 [rB ], [rB ] ˙ = 23
  29. 29. 系统生物学数学基础 图 3.6: Mutual repression circuit. {fig:brepressor} 这里gX , X = A, B 为蛋白质X 的最大产生率, dX 是相应的降解率. 为简单期间, 我们忽略mRNA 阶 段, 把转录和翻译过程统一看成是蛋白质的合成过程. 我们以[rX ] 表示与蛋白质X 结合的基因的相对 浓度. 则rA 表示与蛋白质A 结合的基因, 控制蛋白质B 的合成, rB 表示与蛋白质B 结合的基因, 控制 蛋白质A 的合成. 假定每个基因都是单拷贝的, 因此0 ≤ [rX ] ≤ 1. 参数α0 表示蛋白质与promoter 的 结合率, α1 表示离解率. 通常地, 结合-离解过程相对于其他过程是很快的, 因此有α0 , α1 ≫ dX , gX . 因此, 可以把[rX ] 的 相对与时间的导数假定为零, 由此可以得到[rX ] 与[X] 的关系, 得以下方程 ˙ gA /(1 + k[B]) − dA [A], [A] = (3.1.25) {eq:3:bre1} ˙= gB /(1 + k[A]) − dB [B], [B] 这里k = α0 /α1 是蛋白质得表达强度. 由常微分方程描述的上述方程只有一个平衡点. 例如, 当gA = gB = g 和dA = dB = d 时, 平衡解 由 1 + 4kg/d − 1 [A] = [B] = 2k 给出. 为了考虑随机效应, 我们使用Master 方程来描述上面系统. 令P (NA , NB , rA , rB ) 表示细胞在时 刻t 有NX 个自由的蛋白质X 和rX 个结合的抑制子的概率, 这里NX = 0, 1, 2, · · · , rX = 0, 1. 则上面 系统可以用Master 方程描述为 ˙ gA δrB ,0 P (NA − 1, NB , rA , rB ) + gB δrA ,0 P (NA , NB − 1, rA , rB ) P (NA , N, rA , rB ) = + dA (NA + 1)P (NA + 1, NB , rA , rB ) + dB (NB + 1)P (NA , NB + 1, rA , rB ) − (gA δrB ,0 + gB δrA ,0 )P (NA , NB , rA , rB ) − (dA NA + dB NB )P (NA , NB , rA , rB ) α0 [(NA + 1)δrA ,1 P (NA + 1, NB , 0, rB ) + (NB + 1)δrB ,1 P (NA , NB + 1, rA , 0)] α1 [δrA ,0 P (NA − 1, NB , 1, rB ) + δrB ,0 P (NA , NB − 1, rA , 1)] − α0 (NA δrA ,0 + NB δrB ,0 P (NA , NB , rA , rB ) − α1 (δrA ,1 + δrB ,1 )P (NA , NB , rA , rB ). (3.1.26) {eq:3:breme} 上述方程可以通过Gillespie 算法求解. 为了分析随机作用的影响, 我们可以计算分布 P (NA , NB ) = P (NA , NB , rA , rB ) rA ,rB 与参数的关系. 在计算模拟中, 选取堆成参数gA = gB = g = 0.05(s−1 ) 和dA = dB = 0.005(s−1 ). 并 且, 我们比较弱抑制作用(α0 = 0.005, α1 = 1.0, k = 0.005) 和强抑制作用(α0 = 1.0, α1 = 0.02, k = 50) 的情况. 计算结果如图3.7 所示. 计算结果表明, 对于若反馈, 系统只有一个稳定平衡态, 不可能发生转 态转移. 对于强反馈, 系统有三个可能的状态, 分别对应于A 占优, B 占优, 和互相抑制. 因此, 在一定 条件下, 可以发生状态之间的转移(Fig. 3.8). 这个就是内部噪声诱导转代转移的机制. 24

×