SlideShare a Scribd company logo
1 of 45
Download to read offline
修士論文



ヒト、チンパンジー、マウスにおける

トリプレットリピートの網羅的解析




      @teapipin
要旨

 近年、多くの生物種でゲノムの塩基配列が決定されてきている。その中で大
きな割合を占めるのが反復配列である。反復配列は従来は意味のない配列であ
ると考えられてきたが、近年においては数や種類が豊富であることや進化的に
保存されているものもあることから生物的な重要性が考えられている。反復配
列は散在型と縦型に分類される。後者の中でも、ヒトの場合特に注目されるの
がトリプレットリピートである。ダイナミック変異と呼ばれるトリプレットリ
ピートの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたら
すためである。この疾患は、現時点までにおよそ 40 種類確認され、原因となる
伸長部位はすべて遺伝子領域内に存在している。この病気の研究ではトリプレ
ットリピートを検出することが不可欠であるが、リピートの範囲を厳密に定義
することは難しい。なぜならば、リピートにはその領域内にリピートとは異な
る配列である分断配列(interruption)が存在するためである。分断配列の生物
学的な意義はリピート部位のエネルギー的な安定性に関与する可能性やリピー
トの伸張を抑える作用が示唆されているが、よく分かってはいない。
 このような点を踏まえ、本研究では従来行われていなかった分断配列を考慮
したリピートの網羅的解析を行うことで、         (1)分断配列を考慮したリピートの
再定義、 (2)リピートの進化的な形成速度は生物種ごとに異なるのかの検証、
(3)リピートを持つタンパク質の機能には偏りが見られるかの検証、を行う
ことを目的とした。
 分断配列を考慮したリピートの再定義はトリプレットリピート病の原因遺伝
子と統計学的有意性を考慮して行った。統計学的に 0.1 %の有意水準において、
リピートを形成するトリプレット数やアミノ酸数は 5 以上でないと偶然性を排
除できないことから、分断配列を除いたトリプレット部位やアミノ酸部位の最
低数を 5 以上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピ
ートは分断配列を 0 個以上持つとした。またリピートの長さはリピート領域の
トリプレット数またはアミノ酸数と定義した。さらに、リピートを構成するト
リプレットやアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと
定義した。  この定義に基づき、     公共データベースである Emsembl から取得した
翻訳領域のデータセットからリピートを抽出すると、ヒト 16,765 遺伝子のうち
アミノ酸リピートは 20,455 個、   チンパンジー22,475 遺伝子のうちアミノ酸リピ
ートは 15,748 個、マウス 28,594 遺伝子のうちアミノ酸リピートは 19,058 個存
在することが分かった。アミノ酸リピートの上位 3 位の個数は、ヒトでは順に
セリン(S)  、プロリン(P)   、ロイシン(L)であったが、チンパンジーとマウ
スでは順に S、L、P リピートとなった。次に、ヒトで分断配列を考慮したアミ


                       1
ノ酸リピートと分断配列を考慮しないアミノ酸リピートの長さの平均値を比較
した。グルタミンリピートを除いてすべてのリピートで分断配列を考慮した場
合の方が標準偏差は大きかった。
  次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や
長さの平均値を比較した。リピートの組成比に対してヒトとチンパンジー、ヒ
トとマウスでの相関係数は 0.993、0.996 となり、高い相関が見られた。ヒトの
全リピートに含まれている全分断配列を抽出すると、          GAA、GAG、GCG、CTG、
CAA という順に存在することが分かった。次に、翻訳領域における全トリプレ
ットの数とすべての各トリプレットリピートの長さとの相関係数は 0.719 であ
り相関が見られた。また、すべての全トリプレットの数と分断配列の数との間
でも相関(相関係数 0.634)が見られ、トリプレットリピートや分断配列の組
成は翻訳領域で用いられているトリプレットの組成とほぼ一致していることが
分かる。上位 10 位のトリプレットリピートについて、リピートを構成するトリ
プレットと分断配列を比較し塩基の変異数を調べた。その結果、すべてのリピ
ートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが
分かった。この結果からリピートの進化的な形成は点変異によって短いリピー
トが形成され、それによってリピートの伸長が生じるとするモデルを支持でき
る。また、全体的な分布ではマウスで割合がやや異なる場合もあるが、全体的
に各生物種で傾向が類似していた。次にヒトとマウスのオーソログ遺伝子
16,765 配列を取得しリピートを抽出すると、8,251 配列に 17,719 リピートが存
在した。そのうち、ヒトとマウスでともにリピートが存在する遺伝子は 6,058
配列、ヒトのみでリピートが存在する遺伝子は 3,729 個でリピートの個数は
5,174 個、マウスのみでリピートが存在する遺伝子は 3,041 配列でリピートの個
数は 3,993 個であった。  ただし、 これらの遺伝子数は完全に独立ではないため、
合計は元の遺伝子数を超える。       一方、オーソログでない遺伝子は 17,505 個あり、
うち 1,439 遺伝子に 2,302 リピートが存在した。まず、ヒトのみで存在する各
リピートの割合とマウスのみで存在する各リピートの長さの平均値や割合を比
較すると、全体的な分布に差は見られなかった。ヒトとマウスの両方でリピー
トを持つ遺伝子の、グルタミンリピートとアラニンリピート領域の差を算出す
ると、ヒトとマウスではほぼ対称的な分布をしており、リピートの形成速度に
は差は見られないことが示唆された。以上の結果から、これらの生物種ではリ
ピートの進化的な形成速度はほぼ同じであることが示唆された。
  次に、リピート部位がタンパク質の機能と相関が見られるかを検討するため
に、 ヒトでリピートを持つタンパク質の機能の有意性を調べた。          ヒトの全 34,270
遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上位階層の単語に置き
換えられている GO slim の単語を割り振ると、リピートを持つ遺伝子は 7,375
種類、持たない遺伝子は 8,146 種類であった。各 GO 単語について、リピート


                         2
を持つ全遺伝子と持たない全遺伝子ごとの出現頻度を超幾何分布を仮定して有
意性を検討した。リピートを持つ全遺伝子は転写に関わる遺伝子で有意に存在
しているが、代謝や酵素反応に関わる遺伝子では有意に頻度が減少しているこ
とが分かった。また、リピート数が上位 10 位までのリピートを持つ各遺伝子に
ついて同様の方法で有意性を検討すると、多くのリピートで転写に関わる遺伝
子に有意性が見られた。さらに各リピートの機能に対する偏りの強さに対して
クラスター解析を行い、各リピートをグループ分けした。特にロイシン(L)リ
ピートを持つタンパク質は他のリピートを持つタンパク質と比較して機能の分
布が異なっていることが分かった。また、リピートを持つヒトとマウスのオー
ソログ遺伝子での比較においても、機能の分布に差が見られたことから、一部
のリピートはタンパク質の機能に関係している可能性が高いことが示唆された
 以上の結果から、分断配列はリピートの形成過程において点変異で出現する
こと、ヒト、チンパンジー、マウスではリピートの進化的な形成速度はほぼ同
じであること、一部のリピートはタンパク質の機能に関係している可能性が高
いこと、特にロイシン(L)リピートを持つタンパク質は他のリピートを持つタ
ンパク質と比較して機能の分布が異なっていること、の4点が示唆された。




                  3
目次


1.  序論 ............................................................................................................ 6
  1.1 背景....................................................................................................... 6
    1.1.1 ゲノムにおけるリピート ................................................................ 6
    1.1.2 トリプレットリピートがもたらす疾患 ........................................... 7
    1.1.3 リピートの伸長モデル .................................................................... 9
    1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点 ......... 10
    1.1.5 オーソログ遺伝子でのリピート部位の比較 .................................. 13
    1.1.6 リピートとタンパク質の機能 ....................................................... 14
  1.2 本研究の目的 ...................................................................................... 15
2 材料と方法 ................................................................................................ 15
  2.1 データセット ...................................................................................... 16
    2.1.1 配列のデータセットの取得 ........................................................... 16
    2.1.2 オーソログ遺伝子のアノテーション情報の取得 ........................... 16
    2.1.3 GO アノテーション情報の取得 .................................................... 16
  2.2 超幾何分布 .......................................................................................... 16
  2.3 クラスター解析 ................................................................................... 17
3. 結果 .......................................................................................................... 18
  3.1 分断配列とリピートの再定義 .............................................................. 18
  3.2 分断配列を考慮したリピートの抽出 ................................................... 19
    3.2.1 リピートの抽出 ............................................................................ 19
    3.2.2 リピートの割合や長さの比較 ....................................................... 20
    3.2.3 分断配列の種類や分布 .................................................................. 21
    3.2.4 分断配列とリピートを構成するトリプレットの変異部位について 23
  3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較 ....................... 24
    3.3.1 オーソログ遺伝子でのリピートの数 ............................................. 24
    3.3.2 オーソログ性のある遺伝子とオーソログ性のない遺伝子の比較 .. 25
    3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さの違い
     ................................................................................................................ 25
    3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの
    差の分布 .................................................................................................. 26
  3.4 リピートを持つタンパク質の機能の比較 ............................................ 27
    3.4.1 ヒトでリピートを持つタンパク質の機能...................................... 27
    3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能 ................ 30


                                                           4
4.  考察 .......................................................................................................... 33
  4.1 分断配列を考慮したリピートと分断配列 ............................................ 33
5 まとめ ....................................................................................................... 38
6 謝辞 ........................................................................................................... 40
7. 参考文献 ................................................................................................... 41




                                                         5
1. 序論

1.1 背景
1.1.1 ゲノムにおけるリピート
  2003 年に終了宣言が出されたヒトゲノム計画          (Lander et al., 2001; Venter et
al., 2001; IHGSC, 2004)に代表されるように近年、大規模解析によって多くの
生物種でゲノムが決定されて来ている。例えば、線虫(CESC, 1998)やショウ
ジョヨウバエ(Adams et al., 2000)といった無脊椎動物だけでなく、マウス
(Waterston et al., 2002)やチンパンジー(CSAC, 2005)などの脊椎動物や、
シロイロナズナ(Tabata et al., 2000)   、イネ(Sasaki et al., 2002)などの植物
においてもゲノムが決定されてきている。
   この結果、ゲノムではイントロンや遺伝子間領域などの生物学的意義が解明
されていない部位が大部分を占めることが分かってきた。反復配列もそのひと
つであり、例えばヒトの場合、ゲノム全体の 44 %(1,400 Mbp)を占めている
(Lander et al., 2001) 。反復配列は従来はジャンク DNA であると考えられ、
意味のない配列であると捉えられていたが、近年においては数や種類が豊富で
あることや進化的に保存されているものもあることから少なくとも一部は生物
的な重要性を持つのではないかと考えられている。
   反復配列は転移性や位置の分布によって散在型反復配列と縦型反復配列の 2
種類に分類される。散在型反復配列とは反復配列の個々の単位がゲノム上にラ
ンダムに散らばっている配列であり、ゲノムの位置を転移することによって形
成されたと考えられている。散在型反復配列は 4 種類に分類される。短い DNA
配列である短散在型核因子           (SINE) 長い配列である長散在型核因子
                             、                         (LINE)   、
端末に長い反復配列を持つ LTR エレメントの 3 種類は、逆転写酵素によって
DNA に複写されることで転移する。一方、DNA トランスポゾンは DNA 断片
が直接転移する。        転移はゲノムの DNA 配列を変異させることから突然変異の原
因となるため、多様性という面で生物の進化に影響を与えてきたと考えられて
いる。
   一方、縦型反復配列とは反復単位が隣り合って並んでいる配列であり、これ
は染色体のセントロメア近傍に局在するサテライト DNA、反復単位が 5-30 bp
で長さが 500 bp 以上であるのミニサテライト、         反復単位が 1-6 bp で長さが 500
bp 以下であるマイクロサテライトに分類される。例えば、細胞の分裂回数の制
限にかかわるテロメアは TTAGGG という配列が 2,000 回以上繰り返されたミニ
サテライトを持つ。縦型反復配列は元となった配列が増幅してできたと考えら
れており、転移によって形成されたと考えられている散在型反復配列とは形成
過程が異なると考えられている。


                                6
マイクロサテライト(以下リピートと呼ぶ)は多くの生物種のゲノムに存在
するが、生物種や部位によって分布が異なっている。例えば 3 つ組のリピート
であるトリプレットリピートの場合、ヒトでは AAT リピートが最も密度が高い
が(282 bp / Mb)   (Subramanian et al., 2003a)、線虫では AAG リピートが最
も密度が高い(105 bp / Mb)      (Tóth et al., 2000) 。また種内でも分布に差が見
られる。例えばヒトにおいては、A, AT, AC, AAT, AAC, AAG, AGC, AAAC,
AAAT, AAAG, AAGG, AGAT の各リピートは豊富であるが、C, CG, ACT, ACG,
AACC, AACG, AACT, AAGC, AAGT, ACCC, ACCG, ACCT, CCCG, CCGG の
各リピートは豊富ではない。また配列における密度は、偶数の組(2 つ組、4 つ
組、6 つ組)のリピートでは 2,000-3,000 bp / Mb、奇数の組(3 つ組、5 つ組)
のリピートは 500-1,000 bp / Mb であり、         偶数の組のリピートの方が密度が大き
い(Subramanian et al., 2003b)。さらにヒトの場合、翻訳領域における 3 つ組
リ ピ ートはイントロンや遺伝子間領域の場合の 2 倍多く存在している が
(Subramanian et al., 2003b) つ組、4 つ組、5 つ組のリピートは翻訳領域
                           、2
よりもイントロンや遺伝子間領域に多く存在している(Tóth et al., 2000)               。
 一方、翻訳領域でのアミノ酸リピートの分布についても報告されている。例
えば、原核生物よりも真核生物のほうがアミノ酸リピートははるかに豊富であ
る(Faux et al., 2005)  。また、グリシン、セリン、プロリンの各リピートは真
核・原核生物とも存在するが、グルタミン、アスパラギン、グルタミン酸の各リ
ピートは原核生物ではほとんど存在しない。さらに真核生物においては、疎水
性のアミノ酸リピートよりも極性のアミノ酸リピートの方が多く存在する
(Marcotte et al., 1999)。
 リピートの分布が生物種間で異なるのは、リピートによっては生物種や部位
依存的に機能を持つためではないかと考えられている。翻訳領域の上流領域に
おけるリピートは、DNA の二次構造形成によって遺伝子の転写調節に関わって
いる可能性や(Catasti et al., 1999)    、様々な転写因子の相互作用に影響する可
能性が示唆されている(Martienssen et al., 2001)         。

1.1.2 トリプレットリピートがもたらす疾患
  ヒトの場合、リピートの中でも特に注目されるのがトリプレットリピートで
ある。ダイナミック変異(dynamic mutation)と呼ばれるトリプレットリピー
トの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたらすた
めである。Cleary らのレビューによると、この疾患において患者は、健常者よ
りも数倍以上リピートが長く、その家系では世代を経るに連れてリピートが長
くなっていく。そのため、発症年齢が早くなり、重篤化していく(表現促進現
象) (Cleary et al., 2003)。



                             7
CAG ポリグルタミン病                GCN ポリアラニン病
            ハンチントン病                     眼咽頭型筋ジストロフィー
            脊髄小脳失調症1,2型   など            手足性器症候群   など



  5’末端                                                     3’末端
     5’UTR          イントロン      翻訳領域                    3’UTR

脊髄小脳失調症12型 CAG       フリードライヒ症候群       GAA      筋強直性ジストロフィー1型   CTG
                     筋強直性ジストロフィー2型    CCTG
                     脊髄小脳失調症10型       ATTCT



         図 1-1   トリプレットリピート病
         代表的なトリプレットリピート病の原因部位を遺伝子上に模式的に表した。名称と
         リピート配列を示した。上の囲みのポリグルタミン病とポリアラニン病はタンパク
         質に翻訳される。下の囲みのものは非翻訳領域に存在する。




 トリプレットリピート病は 1991 年にハンチントン病の原因リピート部位が
同定されて以来、現時点までにおよそ 40 種類確認され、原因となる伸長部位は
すべて遺伝子領域内に存在している。例えば、翻訳領域に原因を持つハンチン
トン病などは、グルタミンをコードする CAG リピートが伸長しており、ポリグ
ルタミン病と総称されている(Cleary et al., 2003)          。眼咽頭型筋ジストロフィ
ーなどはアラニンをコードする GCN リピート                 (N はどの塩基でもよい) を持つ
ため総称してポリアラニン病と呼ばれる。これらの場合、コードされたタンパ
ク質の構造変異による凝集体の蓄積や機能異常が病気の原因であると考えられ
ている(Cleary et al., 2003)。一方、非翻訳領域として、5’ UTR に原因リピー
トを持つ脆弱 X 染色体症候群 A 型(CGG リピート)や 3’ UTR に原因リピート
を持つ筋強直性ジストロフィー1 型(CTG リピート)                 、イントロンに原因リピー
トを持つフリードライヒ症候群(GAA リピート)などが知られている。これら
の場合は DNA や RNA の構造変異や機能欠損が病気の原因となると考えられて
いる。 一般に翻訳領域で原因となるリピートはリピート数が比較的少ないが                    (40
~100 リピート) 、非翻訳領域で原因となる場合はリピート数が非常に多くなる
(50~5000 リピート)    (Cleary et al., 2003)。他に、脊髄小脳失調症 10 型や筋
強直性ジストロフィー2 型はそれぞれ ATTCT、CCTG というトリプレット以外
のリピートが原因である。
 以上のようにリピート病にも様々なタイプが存在することが明らかになりつ
つある。しかしながら原因遺伝子産物の正常機能を含め、なぜリピートの伸長
が病気につながるのか、またリピートがなぜ異常伸長するのかといった機構に
ついては不明な点が多い。


                                 8
1.1.3 リピートの伸長モデル
  トリプレットリピートの伸長機構に関して、仮説としていくつかのモデルが
提唱されており、リピートの伸長と収縮はともに配列の不安定性によって引き
起こされると考えられている(Wells et al., 2005; Pearson et al., 2005)。通常
の DNA は B 型構造という右巻きの二重らせん構造を形成する。しかし、一部
の特異的なリピート配列が存在する部位では B 型構造が形成できず、温度やイ
オン濃度、pH などに依存して異なる様々な立体構造が形成される場合がある。
この立体構造は non-B 型構造と呼ばれ、  DNA の不安定性をもたらすと考えられ
ている(図 1-2) 。Wells らの報告によると、複製、修復、組換えのそれぞれの
場合に non-B 型構造が形成されることによってリピートの伸長・収縮が起こる。
複製時にリピートの伸長・収縮が起こるとするモデルでは、              ラギング鎖で non-B
型構造が形成されることでリピートの伸長・収縮が起こるとする。新生鎖で
non-B 型構造が形成されるとリピートの伸長が起こり、鋳型鎖で non-B 型構造
が形成されるとリピートの収縮が起こる。また、DNA の修復時にリピートの伸
長・収縮が起こるとするモデルでは、修復される鎖でニック(切れ目)が入っ
た後その近傍で non-B 型構造が形成されると、その状態で修復が完了するため
にリピートの伸長・収縮が起こるとする。さらに、組換えの時にリピートの伸
長・収縮が起こるとするモデルでは、進入した鎖において non-B 型構造が形成
されると伸長したリピートが形成されるとする。




      図 1-2 non-B 型構造(Wells et al., 2005 より抜粋)
      non-B 型構造の名称と構造、特異的な配列を挙げた。それぞれ特異的な配
      列に応じて 5 種類の各 non-B 型構造が形成される。例えば、A-T リッチな
      部位では温度やイオン濃度、 などに依存して DNA Unwinding Element
                       pH
      という特異的な構造が形成される。


                            9
1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点
  現在行われているインシリコ手法を用いたリピート研究について紹介する。
リピートは種類が豊富であることから、ゲノムの進化において重要な影響を持
つと考えられている(Tauts et al., 1986; Kashi et al., 1997)
                                                。そのため、イン
シリコ研究では各生物種のリピートの長さや位置などの統計情報の解析や、特
定のリピート部位の塩基や長さの違いの種間比較が行われている。これらの研
究において、   リピートの数え方は大きく分けて2種類ある                (Baldi et al., 2000)。
まず DNA を非翻訳領域のみまたは翻訳領域と非翻訳領域の区別をせずに数え
る場合は、配列を一方向から順にリピートを抽出していく。しかし、重複が生
じるのでそれを除去するためにリピートのコドンを 1 つないし 2 つずらした場
合(例えば CAG に対する AGC、GCA)を同じクラスとし合計 24 のクラスと
してまとめる場合や、12 のクラス(相補コドンを同じクラスに分類する)また
は 10 のクラス(AAA など 3 塩基が同じものを考えない)に分類する場合もあ
る(表 1-1) 。一方、翻訳領域のみでリピートを抽出する場合は、アミノ酸に翻
訳されることを考慮し、読み取り枠に従ってトリプレットリピートまたはアミ
ノ酸リピートを抽出する。いずれの場合も連続するトリプレットをリピートと
して数えている。
  しかし、リピートの範囲を厳密に定義することは難しい。なぜならば、リピ
ートには分断配列(interruption)が存在する場合があるためである。分断配列
とはリピート内に存在する、リピートとは異なる配列のことである。トリプレ
ットリピート病の場合は 1 トリプレットの分断配列が 1~3 個存在するものが多
い。例えば、手足性器症候群の原因遺伝子である HoxA13 遺伝子は GCG リピ
ート部位に GCC、GCT、GCC という異なる3種類の分断配列が存在している
(図 1-3)。




                               10
表 1-1   リピート研究に用いられているクラス分け
             (トリプレットリピートの場合)
     各クラスには 3 種類のコドンが属しており、全 24 クラス存在する。研究によって
     は相補的なクラスを合わせて(例えば、AAC クラスと GTT クラス) 、全 12 クラス
     として数える場合や、さらに AAA(TTT)クラスと CCC(GGG)クラスを除外し
     て全 10 クラスとして数える場合もある(各々を1つ組のリピートとして算出する
     ため)。

             クラス名 属するすべてのコドン クラス名 属するすべてのコドン
             AAA   AAA                    TTT   TTT
             AAC   AAC   ACA   CAA        GTT   GTT   TGT   TTG
             AAG   AAG   AGA   GAA        CTT   CTT   TCT   TTC
             AAT   AAT   ATA   TAA        ATT   ATT   TAT   TTA
             ACC   ACC   CAC   CCA        GGT   GGT   GTG   TGG
             ACG   ACG   CGA   GAC        CGT   CGT   GTC   TCG
             ACT   ACT   CTA   TAC        AGT   AGT   GTA   TAG
             AGC   AGC   CAG   GCA        CTG   CTG   GCT   TGC
             AGG   AGG   GAG   GGA        CCT   CCT   CTC   TCC
             ATC   ATC   CAT   TCA        ATG   ATG   TGA   GAT
             CCC   CCC                    GGG   GGG
             CCG   CCG   CGC   GCC        CGG   CGG   GCG   GGC




       SCA2              ・・・ (CAG)13CAA(CAG)9 ・・・
       HoxA13            ・・・ (GCG)3GCCGCGGCT(GCG)3GCCGCG ・・・


     図 1-3   リピートと分断配列の表記法
     左側が遺伝子名、右側がリピート部位である。2 つともトリプレットリピ
     ート病の原因遺伝子である。本研究ではリピート部位の表記方法は( )内に
     リピートを構成するトリプレットやアミノ酸を表記し、リピート数を添え
     る。分断配列はリピート部位に囲まれた 1 トリプレットであり、赤字で表
     記する。例えば、SCA2 の場合、リピート長 13 とリピート長 9 の CAG リ
     ピートの間に分断配列 CAA が存在している。HoxA13 の場合、GCG リピ
     ートの間に GCC, GCT, GCC の 3 種類の分断配列が存在する。



   分断配列の生物学的な意義はよく分かっていないが、臨床・実験系と進化系の
2 つの側面から研究がなされている。臨床・実験系の研究者は分断配列はリピー
トに対して機能を持つと考え、リピート部位のエネルギー的な安定性に関与す
る可能性やリピートの伸張を抑える作用があることを仮定している。例えば
Weisman らは CGG リピートを持つ FMR1 の DNA 構造解析の結果、分断配列
AGG がリピートに対して熱耐性を与えることや non-B 型構造の一種である
tetraplex 構造の形成を抑える作用を持つことを示した(Weisman-Shomer et
al., 2000)。また David らは CAG リピートや CGG リピートを持つ DNA のヌ
クレオソームの安定性を調べ、分断配列が存在しないリピートよりも分断配列


                                     11
が存在するリピートの方がランダムな配列にエネルギー的により近く、ヌクレ
オソーム構造に安定性を与えることを示唆した(David et al., 2005)   。さらに
Sobczak らは CAG リピートを持つ SCA2 の RNA の二次構造解析を行い、分断
配列はリピートによって形成されるヘアピンのループの部位に存在し、分断配
列数が増加するにつれ分岐するヘアピン部位も増加することを発見した。これ
は分断配列数の増加に伴い、RNA が折りたたまれることで構造的に安定するこ
とや自由エネルギーが増加することからエネルギー的にも安定することを示し
ている(Sobczak et al., 2005)。以上の研究結果は、リピート部位が分断配列に
よってゲノム上で異常構造をとらないようにすることによってリピートの異常
伸長が抑えられることや、DNA や RNA の構造変異やそれによる機能欠損を起
しにくくしていることを示唆しており、トリプレットリピート病の発症や症状
を抑える作用につがなると考えられている。実際、臨床系の研究において CAG
リピートを持つ脊髄小脳失調症 1 型の患者の遺伝子を調べた結果、分断配列
CAT を持つ患者の方が分断配列を持たない患者よりも発症年齢が遅くなり、症
状も和らげられることが確認されている(Matsuyama et al.,1999) 。
  一方、分子進化の研究者の間では、分断配列の形成を包含したリピートの進
化モデルが提唱されている(Hancock et al., 2001)。これは翻訳領域かつ主にグ
ルタミンリピートについて提唱されているモデルである。このモデルでは、分
断配列はリピートの進化の過程で形成されると考えられている。リピートの形
成は、点変異によって同一のコドンの集約が起こり(purifying selection と呼ば
れる)  、短いリピートが形成されてはじめてリピートの伸長が起こると考えられ
ている(図 1-4)   。リピートは必要な長さに伸長するが、長いリピートは異常伸
長を起こしやすく危険であるため、安定化のために一部で同義の置換が生じる。
これが同義の分断配列の形成である。リピートの進化モデルでは同義の分断配
列はリピートの安定性に寄与すると考え、非同義の分断配列の機能には言及し
ていない。しかし、点変異によって純粋なリピートの形成が起こらないとリピ
ートの異常伸長も起こらないと考えることから、同義・非同義の分断配列ともリ
ピートの安定に関与していると考えられるであろう。以上のように、分断配列
については、臨床・実験系と進化系の研究者の間でそれぞれ独立にモデルが立
てられているが、どちらの場合も安定性に着目していることが分かる。
  このように分断配列の重要性は示唆されているが、従来のインシリコ研究で
は分断配列が考慮されておらず、進化的に見て必要なリピートの部位を抽出で
きていなかったという問題が考えられる。例えばオーソログ遺伝子のリピート
部位の比較において、一方の生物種で分断配列があり、もう一方の種で分断配
列がない場合従来の方法ではリピートの長さや種類などの比較が行えていなか
った(図 1-5)  。そのため、各生物種の網羅的解析に対しても全体的な分布にも
影響を与えていると考えられる。またトリプレットリピート病の研究において


                      12
も、分断配列を考慮しない従来の場合では原因となる候補部位が抽出できてい
なかった可能性が考えられる。なぜならば、トリプレットリピート病の原因リ
ピートには分断配列を持つものが多いためである。よって分断配列を考慮する
ことで、従来の定義よりもトリプレットリピート病の原因部位により近いリピ
ートを抽出でき、新たな原因の候補部位をより正確に抽出できる可能性がある。




    CAT CAC CAT CAG
              ↓ 点変異
    CAT CAC CAG CAG
                                      purifying selection
     ↓ 点変異
    CAG CAC CAG CAG
         ↓ 点変異
    CAG CAG CAG CAG                   純粋なリピート

    CAG CAG CAG CAG CAG CAG CAG CAG   リピートの伸長
             ↓ 点変異
    CAG CAG CAA CAG CAG CAG CAG CAG   純粋でないリピート


     図 1-4 リピートの進化的な形成モデル
     (Hancock et al., 2001 をもとに作成)
     グルタミンリピートを例にする。CAG と CAA のみがグルタミンをコード
     する。このモデルでは同一コドンで形成される純粋なリピートは非同義の
     分断配列が点変異を起こすことで形成されると考えられている。点変異に
     よって同一のコドンへの集約が起こる現象は purifying selection と呼ばれ
     る。リピートの伸長は純粋なリピートが形成されて起こるが、一部で同義
     の分断配列が点変異によって純粋でないリピートが生じ、リピートを安定
     化させると考えられている。
1.1.5 オーソログ遺伝子でのリピート部位の比較
  リピートの研究では各生物種ごとに網羅的にリピートを抽出し、比較する方
法以外に、オーソログ遺伝子におけるリピート部位の長さや塩基の変化を比較
する方法が試みられている。先行研究において、ヒトとマウス・ラットのオー
ソログ遺伝子の比較を行った研究は報告されている。例えば、小笠原らは 16 系
統のマウスの各 50 遺伝子に存在するグルタミンリピートの長さをヒトの場合と
比較した(Ogasawara et al., 2005)。かれらはマウスで CAG のみで構成される
monomorphic なグルタミンリピートの長さはヒトと相関が高いが、CAG と
CAA で構成される polymorphic なグルタミンリピートの場合はマウスの種内で


                               13
多型が多く、ヒトとの相関も低くなることを示した。これはそれぞれのリピー
トの長さや同義の分断配列の入り方が系統によって差があることを示唆してい
る。Alba らは約 400 のヒト-マウス-ラットのオーソログ遺伝子からリピート部
位の CG 含量を調べ、      ヒトの GC 含量の割合はマウスやラットの場合のおよそ 2
倍であることを示した(~0.2 bp / Mb > ~0.1 bp / Mb)。また、オーソログ遺伝
子をヒトとマウスでともにリピートが存在する遺伝子、ヒトのみでリピートが
存在する遺伝子、マウスのみでリピートが存在する遺伝子に分類し、CG 含量の
割合の高さは各生物種にのみリピートが存在する遺伝子に依存することを確認
した(Alba et al., 2004)。このような先行研究はあるが、用いられている遺伝
子数が少なく網羅的な解析は行われていない。


     Crebbp 遺伝子の場合

     ヒト      QQQQQQQQQQQQQQQQQQ
     マウス     QHQQQQQQQQQQQQQQQ

     (このヒスチジン(H)は CAC によってコードされる)



 図 1-5   分断配列を考慮することの利点(リピートの進化的な比較の場合)
 Crebbp 遺伝子の場合を例にする。グルタミン(Q)リピートは、ヒトの場合長さ 18 であ
 るが、マウスでは分断配列であるヒスチジン(H)が存在するため、従来の定義では長さ
 が 15 となる。しかし、H のコドンは CAC であり、グルタミンをコードしている CAG、
 CAA と一文字異なるだけである。そのため、H は塩基の変化によって生じたと考える方
 が妥当である。   よって分断配列を考慮した場合のほうが進化的な比較が行いやすくなると
 考える。この場合マウスでは長さは分断配列を入れて 17 となる。



1.1.6 リピートとタンパク質の機能
  タンパク質のリピート部位が生物学的な機能を持つかは不明である。一方で、
タンパク質自体の機能のアノテーションは進んでいるため、いくつかの研究で
はリピートを持つタンパク質の機能について考察されている。例えば、Faux ら
はリピートを持つタンパク質は、真核生物では転写・翻訳に関わるものが最も
多い(約 50 %)が、原核生物では酵素活性に関わるものが最も多い(約 25 %)
ことを示した(Faux et al., 2005)。また、Alba らはリピートを持つ 1,833 タン
パク質の分子機能を調べ、アラニン、グリシン、グルタミン、プロリンの各リ
ピートは転写因子において有意に存在していることを明らかにした            (Alba et al.,
2004)。



                              14
1.2 本研究の目的と構成
  これまで述べてきたようにリピートの分布は生物種によって偏りがある。し
かし、その原因がどのような生物学的要因に由来するのかは分かっていない。
また、リピート領域が機能部位であるのかについては解明されていない。
  これらの点を踏まえ、本研究では従来行われていなかった分断配列を考慮し
たリピートの網羅解析によって、リピートの進化的な形成速度は生物種によっ
て差が見られるか、またリピートを持つ遺伝子はタンパク質の機能に偏りが見
られるか、の 2 点を解明することを目的とした。分断配列を考慮することの利
点は各生物種内でのリピートの比較や生物種間での進化的な比較を従来よりも
正確に行うことができると考えられることである。本研究では、ヒトのリピー
トの分布の違いを検討するために、ヒトと近縁であるチンパンジーとマウスを
対象として用いた。近縁種間でリピートを比較することで 3 種での相違する部
分を進化的に捉えやすいためである。
  研究の構成としては、まず分断配列を考慮したリピートの再定義を行った。
今まで分断配列を定義した研究は報告されていないため、研究の最初の段階で
定義を行う必要があったためである。
  次にこの定義に従い、分断配列を考慮してヒト、チンパンジー、マウスのリ
ピートを抽出し、長さや割合がどのように分布しているかを調べた。また、こ
れを元に分断配列とリピート部位の塩基の違いを比較し、分断配列がリピート
の進化的な形成過程において出現するというモデル(図 1-3、Hancock et al.,
2001)の検討を行った。
  続いて、ヒトとマウスのオーソログ遺伝子においてリピートの比較を行った。
従来の研究では用いられているオーソログ遺伝子の数が少なく、得られた情報
が十分でないためである。ここでは、オーソログ遺伝子でのリピートをヒトと
マウスでともにリピートを持つ遺伝子、ヒトのみでリピートを持つ遺伝子、マ
ウスのみでリピートを持つ遺伝子の 3 種類に分類し、それらの長さの平均値や
占める割合などの分布を比較し、両生物種でリピートの進化速度に差があるか
を検討した。
  最後に、リピートがタンパク質の機能と関係があるのかを検討するために、
リピートを持つタンパク質の機能の有意性を検討した。ここではヒトでリピー
トを持つタンパク質の機能の分布とヒトとマウスのオーソログのタンパク質の
機能の分布を調べることで、各リピートや生物種間で相違を検討した。




2 材料と方法


                     15
2.1 データセット
2.1.1 配列のデータセットの取得
  Emsembl(http://www.ensembl.org/)から、ヒト、チンパンジー、マウスの
翻訳領域の配列データを取得した。データセットには重複している遺伝子が存
在したため重複を除去し、その結果、ヒト 34,270 遺伝子、チンパンジー22,475
遺伝子、マウス 28,594 遺伝子を取得した。Perl 言語でプログラムを作成し、後
で述べる定義に従い、翻訳領域の配列データからリピートの抽出を行った。

2.1.2 オーソログ遺伝子のアノテーション情報の取得
  Emsembl から、ヒトとマウスのオーソログ性のアノテーション情報を取得し、
先に得ていた各生物種の遺伝子データに MySQL を用いてオーソログ性の情報
を付加した。    その結果、ヒトとマウスで 16,765 のオーソログ遺伝子を取得した。

2.1.3 GO アノテーション情報の取得
  ヒトの遺伝子のうち 15,521 遺伝子に関して、Gene Ontology(Harris et al.,
2004)の上位階層の単語に置き換えられている GO slim の単語を割り振った
(http://www.geneontology.org/GO.slims.shtml)。また、ヒトとマウスのオー
ソログ遺伝子 16,765 のうち、         13,949 遺伝子に関して、    GO slim の単語を割り振
った。各 GO 単語について、各リピート数ごとの出現頻度を、超幾何分布を仮
定して p-value を求め、有意性を検討した。

2.2 超幾何分布
  超幾何分布とは母集団が2つの性質、またはある性質を持つものと持たない
ものに分けることができる場合にその有意性の検討に用いられる確率分布であ
る。例えば,赤球 N0 個,白球 N1個入っている袋から,n 個取出すとき,その n
個の中の赤球の個数 X の分布は,超幾何分布 H(N,N0,n)(ただし N=N0+N1)に
従う(下式) 。




本研究では統計ソフト R の phyper コマンドを用いて超幾何分布への当てはめ
を行い、偏りの強さを p-value として算出し有意性を検討した(図 2-1)。



      ヒトの全てのタンパク質                      ヒトでリピートを
          15,521                        持つタンパク質
                             16           1,394
development

                                  development

            1,882                    1,078



                                 p-value = 1×10-6



 図 2-1   超幾何分布への当てはめの例
 例として、ヒトでリピートを持つタンパク質のうち development という機能の有意性の
 検討を挙げた。ヒトの全てのタンパク質における development 機能の割合をもとにした
 とき、リピートを持つタンパク質における development 機能の割合がどのくらい有意に
 出現しているかを p-value として算出した。この例の場合、p-value が非常に小さく(設
 定した有意水準よりも小さい)     、有意に多く出現していると判断できる。



2.3 クラスター解析
  クラスター解析は階層的クラスタリングを用いた。階層型クラスター解析で
は、各データの項目を N 次元超空間の点と考える。これにより各データ間の距
離を求め、各項目をグループ分けする手法である。距離の算出方法は週種類あ
りるが、本研究では各データ項目のユークリッド距離(差の二乗和)に対する
最長距離法を用いた。解析は統計ソフト R の hclust コマンドを使用してクラス
ター解析を行い、結果を樹状図に表した。




                        17
3. 結果

3.1 分断配列とリピートの再定義
  従来のインシリコ研究では分断配列が考慮されておらず、進化的に必要なリ
ピートの部位を抽出できていなかったという問題が考えられる(図 1-5)                    。また
トリプレットリピート病の研究においても、従来の場合では原因となる候補部
位が抽出できていなかった可能性が考えられる。なぜならば、トリプレットリ
ピート病の原因リピートには分断配列を持つものが多いためである。
  よって本研究では、まず分断配列を考慮したリピートの再定義を行った。こ
の再定義は、トリプレットリピート病の原因部位と統計学的有意性を踏まえて
行った。統計学的に 0.1 %の有意水準において、リピートを形成するトリプレッ
ト数やアミノ酸数は 5 以上でないと偶然性を排除できないことから(Karlin,
1995) まず分断配列を除いたトリプレット部位やアミノ酸部位の最低数を 5 以
     、
上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピートは分断
配列を 0 個以上持つとした。またリピートの長さはリピート領域のトリプレッ
ト数またはアミノ酸数と定義した。さらに、リピートを構成するトリプレット
やアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと定義した。
例えば、   GAG (CAG)12 CAT CAG CAT (CAG)14 CAC という領域の場合、  (CAG)12
CAT CAG CAT (CAG)14 の部位が CAG リピート領域であり、CAT, CAT が分断
配列、リピートの長さは 29 となる(表 3-1)            。また、(CAG) CAA (CAG) CAA
(CAG)2 CAA (CAG)はリピートを構成する CAG が連続して 2 以上存在する部位
があるためリピートであるが、           (CAG)2 CAA (CAG)2 はリピートを構成する CAG
の数が 5 未満であるためリピートではなく、(CAG) CAA (CAG) CAA (CAG)
TGG (CAG) GAT (CAG)ではリピートを形成する CAG が連続して 2 以上存在し
ないためリピートではない(表 3-2)           。一方、リピート中の分断配列数には制限
は設けなかった。これは本研究では分断配列の構成を調べることが目的のひと
つであり、より多くの分断配列を抽出したいためである。また例えば、(CAG)2
AAA (CAG)2 CCC (CAG)2 GGG (CAG)2 TTT などの場合、分断配列数に制限を
設けると分断配列の種類を算出することが困難になるためである。




                             18
表 3-1     リピートと分断配列の定義の例
           例としてトリプレットリピート病の原因遺伝子 SCA1 を挙げた。左側がト
           リプレットリピートの場合、右側が同じ部位のアミノ酸リピートである。

  例)脊髄小脳失調症1型の原因遺伝子SCA1
  トリプレットリピートの場合                              アミノ酸リピートの場合

      GAG(CAG)12CATCAGCAT(CAG)14CAC                   E(Q)12HQH(Q)14H
              ↓                                          ↓
        分断配列はCAT,CATの2つ                             分断配列はH, Hの2つ
       トリプレットリピートは下線部                             トリプレットリピートは下線部
      トリプレットリピートの長さは29                           トリプレットリピートの長さは29



           表 3-2     リピートの判定の例
           配列がリピートであるかの判定とその理由を挙げた。
                      配   列                      判定             理   由
                                                      リピート構成要素の CAG の数が 5
 (CAG) CAA (CAG) CAA (CAG)2 CAA (CAG)            ○    以上でかつ連続して 2 以上存在す
                                                      る部位があるためリピートである
                                                      リピート構成要素の CAG の数が 5
 (CAG)10                                         ○    以上であり、分断配列は存在しな
                                                      いがリピートである
                                                      リピート構成要素の CAG の数が 5
 (CAG)2 CAA (CAG)2                               ×    未満であるためリピートではない
                                                      リピート構成要素の CAG の数が 5
 (CAG) CAA (CAG) CAA (CAG) TGG (CAG) GAT (CAG)   ×           2
                                                      以上であるが、 以上連続する部位
                                                      がないためリピートでない


3.2 分断配列を考慮したリピートの抽出
3.2.1 リピートの抽出
  従来行われていなかった分断配列を考慮してリピートを抽出した場合、どの
ような分布を示すのだろうか。また、従来の分断配列を考慮しないリピートと
比較してどのような差が見られるであろうか。それらを確認するために抽出し
たリピートの分布を調べた。
  分断配列を考慮したリピートの場合、ヒト 16,765 遺伝子のうち、トリプレッ
トリピートは 2,769 遺伝子に 3,885 存在し、アミノ酸リピートは 9,691 遺伝子
に 20,455 存在した。チンパンジー22,475 遺伝子のうち、 トリプレットリピート
は、2,093 遺伝子に 2,716 存在し、アミノ酸リピートは 8,176 遺伝子に 15,748
存在した。マウス 28,594 遺伝子のうち、トリプレットリピートは 2,561 遺伝子
に 3,438 存在し、アミノ酸リピートは 9,885 遺伝子に 19,058 存在した。アミノ
酸リピートの上位 3 位の個数は、ヒトでは順にセリン(S)        、プロリン(P) 、ロ
イシン(L)であったが、チンパンジーとマウスでは順に S、L、P リピートと


                                        19
なった。
  一方、従来の定義である分断配列を考慮しないリピートでは、ヒトでトリプ
レットリピートは 1,090 遺伝子に 1,312 存在し、アミノ酸リピートは 3,747 遺
伝子に 5,397 存在した。チンパンジーではトリプレットリピートは 781 遺伝子
に 911 存在し、アミノ酸リピートは 2,950 遺伝子に 3,944 存在した。マウスで
はトリプレットリピートは 985 遺伝子に 1,178 存在し、アミノ酸リピートは
3,674 遺伝子に 5,074 存在した。アミノ酸リピートの上位 3 位の個数は、ヒトで
は順に E、P、アラニン(A)リピートであり、チンパンジーでは E、S、A リ
ピート、マウスでは E、P、L リピートの順になった。

3.2.2 リピートの割合や長さの比較
ヒトで分断配列を考慮したアミノ酸リピートと分断配列を考慮しないアミノ酸
リピートの長さの平均値を比較した(図 3-2)。グルタミンリピートを除いてす
べてのリピートで分断配列を考慮した場合の方が標準偏差は大きかった。また、
KS 検定の結果、 分断配列を考慮したリピートと考慮しないリピートで全体的な
分布に大きな差は見られなかった。
  次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や
長さの平均値を比較した(図 3-3)。リピートの組成比に対してヒトとチンパン
ジー、ならびにヒトとマウスそれぞれでの相関係数はそれぞれ 0.993、0.996 と
なり、高い相関が見られた。相関係数の同等性の検定を行うと p-value が 0.174
となり、2 つの相関係数に差は見られなかった。よって、ヒト、チンパンジー、
マウスの各アミノ酸リピートの組成に有意差はないことが分かった。
             16

             14


             12

             10
        長さ




              8
                                                            分断配列ありリピート
                                                            分断配列なしリピート
              6

              4


              2

              0
                  A C D E F G H I K L M N P Q R S T V W Y
                                  リピート

     図 3-2        ヒトにおけるアミノ酸リピートの長さの平均値
     横軸が各アミノ酸リピート、縦軸が長さである。

                                      20
18                                                                                   18

                                                                                                                               ヒト
    16                                                                                   16
                                                                                                                               チンパンジー
                                                      ヒト                                                                       マウス
    14                                                チンパンジー                             14
                                                      マウス
    12                                                                                   12

    10                                                                                   10
%
                                                                                    長
                                                                                    さ
     8                                                                                    8

     6                                                                                    6

     4                                                                                    4

     2                                                                                    2

     0                                                                                    0
         S   P   L   E   A G   K   R   Q   D T    V   H   F   I C   N   Y   M   W             A C D E F G H I K L M N P Q R S T V W Y
                                           リピート
                                                                                                              リピート


                          図 3-3            分断配列を考慮したアミノ酸リピートの割合と長さの平均値
                          右:アミノ酸リピートの割合。横軸が各アミノ酸リピート、縦軸が長さ。ヒトでリピ
                          ートの個数の多いものから順に並べた
                          左:ヒト、チンパンジー、マウスにおけるアミノ酸リピートの長さの平均値。横軸が
                          各アミノ酸リピート、縦軸が長さである。




                     3.2.3 分断配列の種類や分布
                       トリプレットリピート病の原因となる遺伝子のリピート領域には分断配列が
                     確認されており、種類や位置が報告されている。しかし、今までリピートに含
                     まれている分断配列自体を網羅的に解析した例は報告されていなかった。そこ
                     で分断配列のどのような組成であるかを知るために、まずリピートに含まれて
                     いる分断配列を抽出し分類した。その結果、ヒトにおける全リピート内におけ
                     る分断配列の組成は、GAA、GAG、GCG、CTG、CAA という順に存在するこ
                     とが分かった(図 3-4)。GAA は特に多く、全体の 8.09 %を占めていた。
                       次に、翻訳領域における全トリプレットの数とすべての各トリプレットリピ
                     ートの長さとの相関係数は 0.719 であり相関が見られた(図 3-5 左)。また、す
                     べての全トリプレットの数と分断配列の数との間でも相関(相関係数 0.634)
                     が見られた(図 3-5 右)。つまり、トリプレットリピートや分断配列の組成は翻
                     訳領域で用いられているトリプレットの組成とほぼ一致していることが分かる。




                                                                                    21
500
         450
         400
         350
     300
   個
     250
   数
     200
         150
         100
          50
             0
                 GAA
                 GAG
                 GCG
                 CTG
                 CAA
                 GGG
                 CCC
                 GAC
                 CCG
                 GCC
                 GAT
                 GCA
                 GGC
                 AAG
                 GCT
                 CCA
                 CAG
                 GTG
                 CTC
                 GGA
                 AAA
                 AGC
                 TCC
                 TCT
                 GGT
                 AGT
                 CCT
                 CGG
                 TTC
                 CAC
                 ACC
                 CAT
                 CTT
                 AAC
                 TTG
                 TGC
                 ATG
                 ACA
                 TCA
                 AGG
                 ATC
                 TTT
                 AGA
                 GTC
                 AAT
                 CGC
                 TGG
                 CTA
                 TCG
                 ACT
                 TAC
                 ACG
                 ATT
                 GTA
                 GTT
                 TAT
                 CGA
                 CGT
                 TGT
                 TTA
                 ATA
                 TAA
                 TAG
                 TGA
                                                    分断配列


                     図 3-4    ヒトにおける分断配列の数
                     ヒトの全トリプレットリピートに存在する全分断配列の数。横軸が分断配
                     列、 縦軸が個数。多いものから順に左から右へと並べた。TAA、TAG、TGA
                     の 3 種は停止コドンであるため、分断配列として存在していない。

  6000                                                         600

                                        GAG
  5000                                                         500
                 r = 0.719                                                  r = 0.634
                                      CAG                                                           GAA
リ 4000                                                         400
ピ                                                         分
ー                                                         断
             y = 0.0049x - 826.63                                        y = 0.0003x + 2.3674
                                                          配
ト 3000                                                      300
                                                          列
の
                                                          の
長
                                                          数
さ 2000                                                      200


  1000                                                         100


     0                                                           0
         0         200000    400000     600000   800000              0          200000     400000     600000   800000
                        トリプレットの数                                                     トリプレットの数


             図 3-5    リピートの長さや分断配列数と、翻訳領域での全トリプレットとの
             相関
             左:リピートの長さとの数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が
             リピートの長さ。r は相関係数。
             右:分断配列の数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が分断配列
             の数。r は相関係数。
             離れ値についてはそのトリプレット名を明記した。




                                                          22
3.2.4 分断配列とリピートを構成するトリプレットの変異部位について
  分断配列の進化的な形成は、点変異による場合または挿入や欠失による場合
の 2 種類が考えられる。また、分断配列の種類や割合の分布は生物種ごとに差
が見られる可能性がある。   リピートの進化モデル (図 1-3、Hancock et al., 2001)
によると、分断配列の形成は点変異で起こると考えられている。しかし、この
モデルは主にグルタミンリピートに対して提唱されているモデルであり、検討
する必要がある。また、リピートが部位や機能に依存的に形成されるならば、
生物種によって分断配列の構成も異なるはずである。これらのことを検討する
ために、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレ
ットと分断配列を比較し、塩基の変異数を調べた。リピートを構成するトリプ
レットと比較して、1 文字異なっている場合を 1 点変異、2 文字異なっている場
合を 2 点変異、3 文字異なっている場合を 3 点変異とし、上位 10 位のトリプレ
ットリピートについてそれぞれの割合を算出した(図 3-6)     。その結果、すべて
のリピートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在する
ことが分かった。また、全体的な分布ではマウスでやや割合が異なる場合もあ
るが、全体的に各生物種で傾向が類似していた。

        90

        80

        70
                                                       ヒト 1点変異
        60                                             チンパンジー 1点変異
                                                       マウス 1点変異
        50                                             ヒト 2点変異
    %                                                  チンパンジー 2点変異
        40                                             マウス 2点変異
                                                       ヒト 3点変異
        30                                             マウス 3点変異
                                                       チンパンジー 3点変異
        20

        10

         0
             GAG CTG CAG GGC GAA AAG AGC GCC GAT GCG
                            リピート

        図 3-6    分断配列の変異数の割合
        上位 10 位のトリプレットリピートに含まれる分断配列のリピート部位と
        は異なる部位の変異数の割合を示した。横軸がリピート名でヒトでリピー
        トの個数が1位から順に左から右へ並ぶ。横軸は割合(%) 。




                                      23
3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較
  以上の解析からヒト、チンパンジー、マウスではリピートの組成や分断配列
の変異数など全体的な傾向が類似していることが分かった。しかし、生物種ご
との網羅解析ではこのような傾向を示す要因が何によるのかは判別できなかっ
た。本節ではヒトとのオーソログ性の情報が詳細に分かっているマウスとのオ
ーソログ遺伝子を用いて、含まれているリピートの比較によって、この検討を
行った。

3.3.1 オーソログ遺伝子でのリピートの数
  オーソログの情報が付加できたものをオーソログ遺伝子、付加できなかった
ものをオーソログでない遺伝子と定義した。オーソログでない遺伝子の中には
オーソログ情報がまだ存在しないだけでオーソログ遺伝子である場合も考えら
れるが、本研究ではその考慮は行わなかった。
  ヒトとマウスのオーソログ遺伝子 16,765 配列のうち、うち 8,251 配列に
17,719 リピートが存在した。そのうち、ヒトとマウスでともにリピートが存在
する遺伝子は 6,058 配列、ヒトのみでリピートが存在する遺伝子は 3,729 個で
リピートの個数は 5,174 個、マウスのみでリピートが存在する遺伝子は 3,041
配列でリピートの個数は 3,993 個であった。ただし、これらの遺伝子数は完全
に独立ではなく、例えばある配列にヒトのみでの A リピートとマウスのみでの
C リピートが含まれている場合がある。  そのため合計は元の遺伝子数を超える。
一方、オーソログでない遺伝子は 17,505 個あり、うち 1,439 遺伝子に 2,302 リ
ピートが存在した。

    表 3-3   リピートを持つヒトとマウスのオーソログ遺伝子の数
    ヒトとマウスのオーソログ遺伝子のうち、ヒトとマウスでともにリピート
    が存在する配列数、ヒトのみでリピートが存在する配列数、マウスのみで
    リピートが存在する配列それぞれをマトリックスで示した。


                                 ヒト
                リピート     あり            なし

                 あり    ヒトとマウス両方        マウスのみ
            マ
            ウ                  6,058        3,041
            ス
                 なし           ヒトのみ
                               3,729




                         24
3.3.2 オーソログ遺伝子とオーソログでない遺伝子の比較
           オーソログ遺伝子とオーソログでない遺伝子を比較することで、ヒトとマウ
         スでリピートの違いがあるかを検証した。各リピートの割合や長さの平均値を
         求めると(図 3-7)、オーソログでない遺伝子でのプロリン(P)とグリシン(G)
         リピートの割合の高さが顕著であった。リピートの長さの平均値には大きな差
         は見られなかった。


 20                                               16
                                                                 オーソログ遺伝子
 18                           オーソログ遺伝子                           オーソログでない遺伝子
                                                  14
                              オーソログでない遺伝子
 16
                                                  12
 14

 12                                               10

                                                 長
% 10
                                                 さ 8

  8
                                                      6
  6
                                                      4
  4

  2                                                   2

  0                                                   0
       S P L E A G K R Q D T V H F I C N Y M W            A C D E F G H I K L M N P Q R S T V W Y
                       リピート                                               リピート



                  図 3-7 ヒトでマウスとオーソログ遺伝子と
                  オーソログでない遺伝子でのリピート比較
                  左:各リピートの割合(%)。横軸が各アミノ酸リピート、縦軸が長さ。ヒ
                  トでリピートの個数が多いものから順に並べた。
                  右:長さの平均値。横軸が各アミノ酸リピート、縦軸が長さである。



         3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さ
           オーソログ遺伝子のうちヒトのみで存在する各リピートの割合とマウスのみ
         で存在する各リピートの割合を比較した(図 3-8 左)。図に示したように全体的
         な分布に差は見られなかった。次に、それぞれのリピートの長さの平均値を比
         較した(図 3-8 右)。標準偏差はヒトのみに存在するリピートにおいてはグルタ
         ミンリピートが最も大きく、マウスのみに存在するリピートの場合はグリシン
         リピートが最も大きかった。ヒトのみとマウスのみの場合を比較すると全体の
         傾向に大きな差は見られなかった。




                                                 25
20                                              16

  18                                 ヒトのみ                                                ヒトのみ
                                                  14
                                     マウスのみ                                               マウスのみ
  16
                                                  12
  14
                                                  10
  12
                                                 長
% 10                                             さ 8

   8
                                                      6
   6
                                                      4
   4

   2                                                  2

   0                                                  0
       A S P L G E R K Q D T V F I H N C Y M W            A C D E F G H I K L M N P Q R S T V W Y
                       リピート                                               リピート



                   図 3-8 オーソログ遺伝子のうち、ヒトのみのリピートとマウ
                   スのみのリピートの比較
                   左:リピートの割合。横軸が各アミノ酸リピート、横軸が長さ。ヒトのみ
                   の場合でリピートの個数が多いものから順に並べた。
                   右:リピートの長さの平均値。横軸がアミノ酸リピート、縦軸が長さであ
                   る。


        3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の
        分布
        ヒトとマウスの両方でリピートを持つ遺伝子の、グルタミンリピートとアラニ
        ンリピート領域の差を算出した(図 3-9)      。例えばヒトで長さ 10、マウスで長さ
        7 のリピート部位では 7-10 = -3 となる。区間を 2 としたヒストグラムに表した。
        この結果、ヒトとマウスではほぼ対称的な分布をしていることが確認できた。
        したがって、リピートの形成速度には差は見られないことが示唆された。




                                                 26
120                                                                                                  45


                                                                     アラニンリピート                         40                                                              グルタミンリピート
 100
                                                                                                      35

  80                                                                                                  30


                                                                                                      25
個
数
  60                  ←+ヒト                                       +マウス→                            個
                                                                                                  数
                                                                                                                           ←+ヒト                                      +マウス→
                                                                                                      20

  40                                                                                                  15


                                                                                                      10
  20
                                                                                                       5


   0                                                                                                   0
       -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30            -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
                                              長さの差                                                                                                長さの差




                                        図 3-9 オーソログ遺伝子のうち、ヒトとマウスの両方でリピ
                                        ートを持つ遺伝子での長さの差の分布
                                        ヒトとマウスの両方でリピートを持つ遺伝子のうちアラニンリピート       (左)
                                        とグルタミンリピート(右)のリピート領域の差。区間を 2 としたヒスト
                                        グラム。負の値ではヒトのほうがリピートが長く、正の値ではマウスのほ
                                        うが長い。   例えばヒトで長さ 10、マウスで長さ 7 のリピート部位では 7-10
                                        = -3 となる。差が 0 の場合は多いので除外した(アラニンで 645 個、グル
                                        タミンで 296 個)。




                       3.4 リピートを持つタンパク質の機能の比較
                       3.4.1 ヒトでリピートを持つタンパク質の機能
                         リピート部位がタンパク質の機能と相関が見られるかを検討するために、ヒ
                       トでリピートを持つタンパク質の機能の有意性を調べた。
                         ヒトの全 34,270 遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上
                       位階層の単語に置き換えられている GO slim の単語を割り振った(表 3-4)         。そ
                       のうちリピートを持つ遺伝子は 7,375 種類、持たない遺伝子は 8,146 種類であ
                       った。
                         まず、各 GO 単語について、リピートを持つ全遺伝子と持たない全遺伝子ご
                       との出現頻度を、GO 単語を割り振った全遺伝子を元に超幾何分布を仮定して
                       p-value を求め、有意水準 p < 0.01 で有意性を検討した(表 3-5 上) その結果、
                                                                   。
                       リピートを持つ全遺伝子は転写に関わる遺伝子で有意に多く存在しているが、
                       代謝や酵素反応に関わる遺伝子では有意に少ないことが分かった。




                                                                                                  27
表 3-4    割り振られた GO Slim 単語の内訳
     ヒトの遺伝子で割り振られた Go slim 単語の内訳。機能は、B: Biological
     process, C: Cellular component, M: Molecular function である。

             機能             GO slim term           遺伝子の数
              B biological_process unknown             705
              B cell communication                   3,640
              B cell growth and/or maintenance       3,763
              B cell cycle                             785
              B cell motility                          341
              B metabolism                           7,428
              B response to stress                     932
              B transport                            2,071
              B death                                  490
              B development                          1,882
              B physiological processes             10,925
              C cell                                10,768
              C cellular_component unknown             768
              C external encapsulating structure         4
              C extracellular                        1,175
              C unlocalized                             75
              M chaperone activity                       1
              M catalytic activity                   4,959
              M enzyme regulator activity              612
              M binding                              9,258
              M nucleic acid binding                 3,073
              M molecular_function unknown             779
              M motor activity                         167
              M signal transducer activity           2,704
              M structural molecule activity           816
              M transcription regulator activity     1,251
              M transporter activity                 1,475
             遺伝子の合計                                 15,521




 次にリピート数が上位 10 位までのリピートを持つ各遺伝子について同様の方
法で有意性を検討した。偶然性の排除のためにボンフェローニによる補正を行
い、有意水準を p < (0.01 / 250)として有意性を検討した(表 3-5 下) その結果、
                                            。
多くのリピートで転写に関わる遺伝子に有意性が見られた。次に各リピート間
でどのくらい機能に相違があるかを検討するために、各リピートの機能に対す
る偏りの強さ(p-value として算出されている)に対して全体を分母として割合
を算出し、その値に対してクラスター解析を行い、機能の偏りによって各リピ
ートをグループ分けした(図 3-10)       。この結果、特にロイシン(L)リピートを
持つタンパク質は他のリピートを持つタンパク質と比較して機能の分布が異な
っていることが分かった。




                                   28
表 3-5   超幾何分布への当てはめ
解析対象を上部に表記した。各項目ごとで比較が可能である。例えば、    「リ
ピート全くなし」のものは「リピートを持つもの全体」とのみ比較できる。
n が個数、数値は p-value。有意に多い場合を赤色で、有意に少ない場合
を青色で表記した。




                 29
図 3-10 ヒトの各リピートの機能の分布における偏りの強さ
     に対するクラスター解析
     ヒトで上位 10 位のリピートに対して、各リピートの機能に対する偏りの
     強さ(p-value として算出されている)へのクラスター解析の結果。類似
     性が樹状的に示され、近いほど機能の分布が類似している。例えば、グル
     タミン酸(E)リピートはリシン(K)リピートと最も機能の分布が近い。
     ロイシン(L)リピートは他のリピートと比較して機能の分布が最も異な
     っていることが分かる。



3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能
  ヒトとマウスのオーソログ遺伝子においても機能の比較を行った。
  すでに GO slim 単語を割り振っていたヒトでリピートを持つ 7,375 遺伝子に
は、マウスとのオーソログ遺伝子 6,910 とオーソログ遺伝子ではない 465 遺伝
子が存在する。オーソログ遺伝子とオーソログでない遺伝子の 2 群に対して、
リピートを持つ全遺伝子の有無を元に超幾何分布を仮定して p-value を求め、             有
意性を検討した(表 3-5 上)      。この結果、リピートを持つオーソログ遺伝子は、
cell communication など多くの機能で有意に多く存在していることが分かった。
一方、   リピートを持つオーソログでない遺伝子では structural molecule activity
のみが有意に多く存在していた。
  また、各 GO slim 単語が割り振られたマウスとのオーソログ遺伝子 6,910 に
は、ヒトとマウスでともにリピートを持つ 5,148 遺伝子、ヒトのみでリピート


                         30
を持つ 3,065 遺伝子が存在する(表 3-7)。ただし、3.3.1 と同様の理由でこれら
の遺伝子数は完全に独立ではないため、合計は元の遺伝子数を超える。


     表 3-7 GO slim 単語が振られたヒトとマウスの
     オーソログ遺伝子の数
     GO slim 単語が振られたヒトとマウスのオーソログ遺伝子の配列数を、ヒ
     トとマウスでともにリピートが存在する配列数、ヒトのみでリピートが存
     在する配列数、マウスのみでリピートが存在する配列それぞれをマトリッ
     クスで示した。
                                ヒト
               リピート     あり            なし

                あり    ヒトとマウス両方        マウスのみ
           マ
           ウ                  5.148        2,438
           ス
                なし           ヒトのみ
                              3.065




ヒトとマウスの両方でリピートを持つ遺伝子とヒトでのみリピートを持つ遺伝
子の 2 種類に対して、リピートを持つオーソログ遺伝子の有無を元に超幾何分
布を仮定して p-value を求め、有意性を検討した。その結果、ヒトとマウスでと
もにリピートを持つ遺伝子においては cell growth や binding など転写に関わる
機能が有意に多く出現しているが、ヒトのみでリピートを持つ遺伝子ではスト
レス応答や触媒活性に関わる機能のみに有意性が見られた。次にヒトとマウス
でともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子のそれぞれ
の上位 10 位のリピートに対して各リピートの単語の出現頻度を元に超幾何分布
を仮定して有意性を検討した(表 3-6)  。これによるとアラニン(A)リピートや
グリシン(G)リピートで、ヒトとマウスでともにリピートを持つ遺伝子に有意
性の見られる機能がある。しかし、全体的に見ると各リピート間でヒトとマウ
スでともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子には機能
に大差がないことが明らかとなった。




                        31
表 3-6   超幾何分布への当てはめ
解析対象を上部に表記した。上下の項目で同じリピート名のもの同士で比
較可能である。n が個数、数値は p-value。有意に多いものを赤色で、有
意に少ないものを青色で表記した。




                  32
4. 考察

4.1 分断配列を考慮したリピートと分断配列
  従来までゲノムワイドにリピートの研究が行われ、各生物種でリピートの統
計情報が報告されていたが、分断配列を考慮した網羅的解析は報告されていな
かった。リピートの数の分布に関しては、分断配列を考慮しないリピートでは
アミノ酸リピートは 5,397 存在する一方、分断配列を考慮したアミノ酸リピー
トは 20,455 とおよそ 3.79 倍多く存在することが分かった。同様にチンパンジ
ーではおよそ 3.99 倍(= 15,748 / 3,944)、マウスではおよそ 3.76 倍(= 19,058
/ 5,074)多く存在していた。このことは分断配列を持つリピートが豊富に存在
していることを示している。リピートの数の順位については、同じ生物種にお
いて、分断配列を考慮した場合と考慮しない場合ではリピート数の順位は異な
っていた。ヒトの場合、分断配列を考慮しない場合の上位 3 位のリピートは順
にグルタミン酸(E)    、プロリン(P)      、アラニン(A)であったが、分断配列を
考慮した場合これらは順に 4 位、2 位、5 位となった。一方で、分断配列を考慮
しない場合にセリン(S;5 位)      、ロイシン(L;4 位)のリピートは分断配列を
考慮した場合にはそれぞれ 1 位、3 位となった。これらのことから、分断配列を
持つ割合はセリンやロイシンのリピートの方がグルタミン酸やアラニンのリピ
ートよりも相対的に大きいことが分かる。一方、トリプレットリピート病の原
因であるアラニンリピートやグルタミン            (Q)リピートはそれぞれ 5 位と 9 位で
あり、それほど上位というわけではなかった。つまり、アラニンやグルタミン
リピートはリピートの個数の分布においては特異ではなかった。
  リピートの長さの平均値の比較においては全体的に大きな差は見られなかっ
た。唯一の特徴は、グルタミンリピートの場合のみで分断配列を考慮しない場
合から考慮した場合で標準偏差の減少が見られた。このことは分断配列を持つ
グルタミンリピートは比較的分布の広がりが抑えられている可能性があること
を示唆している。この理由として考えられるのは、グルタミンリピートでの分
断配列はリピートを安定化させていることである。
  分断配列の組成を解析した結果、全コドンの平均使用頻度と分断配列の組成
には相関が見られた。これは、全トリプレットリピートと全コドンの平均使用
頻度との組成に見られた相関と差がなかった。つまり、トリプレットリピート
の組成は全コドンの使用頻度に依存し、また分断配列の形成は点変異による可
能性が示された。
  次に、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレ
ットと分断配列を比較し、塩基の変異部位を調べた。この結果、すべてのリピ
ートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが


                           33
分かった。これらの 2 つの結果から、分断配列の形成は挿入や欠失によって生
じる可能性よりも点変異で生じる可能性の方が強く示唆された。さらにこの結
果は、主にグルタミンリピートに対して提唱されているリピートの進化的な形
成モデル(図 1-3、Hancock et al., 2001)を支持できるものである。なぜなら
ば、このモデルでは非同義の分断配列を持つリピートは、同一のコドンで構成
される純粋なリピートに変異する直前の形態であり、同義の分断配列を持つ純
粋でないリピートはリピートの最終的な形態と考えられるためである。また、
全体的に各生物種で傾向が類似していたこととリピートの傾向が似ていたこと
も、このモデルを支持できる。
 以上の点から、今回用いた 3 種ではリピートの組成や分断配列の変異部位な
ど全体的な傾向が類似していること、分断配列の形成は点変異によることが示
唆された。リピートの組成が類似した傾向を示すのには 3 つの可能性が考えら
れる。1 つ目は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固
有に形成されるが、ヒト、チンパンジー、マウスの 3 種では遺伝子やタンパク
質が非常によく似ているため、同じ遺伝子内でリピートが保存されているもの
が大部分を占め、全体的にみると相違が現れない可能性である。2 つ目の可能性
は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固有に形成さ
れるが、相同性のある部位よりも各生物種特有の部位でリピートが形成され、
それが大部分を占めるため全体的にみると相同性のある部位の特徴が抽出でき
ない場合である。3 つ目は、リピートは生物種や部位によらずにランダムに起こ
るが、全体的に見るとそのランダム性がほぼ同様の傾向を示すため、種ごとの
傾向の差が抽出できないことである。
 本節で行った生物種ごとの網羅的解析ではその原因が判別できなかった。よ
って、次にオーソログ遺伝子を用いて、リピートの比較を行い、リピートの形
成が生物種ごとに進化速度に差が見られるかの検証を行った。

4.2 ヒトとマウスのオーソログ遺伝子でのリピートの比較
  先行研究において、ヒトとマウス・ラットのオーソログ遺伝子の比較を行っ
た研究は報告されているが(Alba et al., 2004; Ogasawara et al., 2005) 、用い
られている遺伝子数が少なく網羅的な解析は行われていない。そこで本研究で
はヒトとマウスのオーソログ遺伝子を用いてリピートの比較を行い、 に挙げ                 4.1
たリピートが生物種ごとに形成速度に差が見られるかということについて検討
した。
  オーソログ遺伝子において、ヒトのみでリピートが存在する遺伝子数は、マ
ウスのみでリピートが存在する遺伝子数とほぼ同じであったが、リピートの個
数はヒトのほうが多かった。また、ヒトとマウス両方、ヒトのみ、マウスのみ
でリピートが存在する遺伝子の割合や長さを比較したところ、ヒトとマウスで


                            34
は大きな差は見られなかった。これは 3.1 でヒトとマウスそれぞれで網羅的にリ
ピートを抽出した場合とも大差が見られなかったことと一致する。また、ヒト
とマウスでオーソログでない遺伝子での比較でも同様に大きな差は見られなか
った。
 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の分布
ではほぼ対称的に分布していることが確認できた。このことからヒトとマウス
の両方でリピートを持つ遺伝子においてもヒトとマウスではリピートの伸び方
に大きな差は見られないことを示している。
 以上のことから、リピートの形成はヒトとマウスではあまり有意差がなく、
形成の速度はほぼ等しいことが示唆された。

4.3 リピートを持つタンパク質の機能の比較
  リピートを持つ全遺伝子に対する機能の検討によって、転写に関係する機能
など多くでリピート特異的に出現していることが確認できた。このことから少
なくともいくつかのリピートは機能に関係している可能性が示唆された。また
この結果は、転写因子に関するものが有意に多いという先行研究(Alba et al.,
2004; Faux et al., 2005)と一致する。一方で、代謝や酵素反応に関わる遺伝子
ではリピートは避けられる傾向があることが分かった。この理由として考えら
れることは、リピート部位はタンパク質-タンパク質相互作用に直接かかわって
いるため、転写結合部位として機能しているが、代謝や酵素反応ではタンパク
質は分泌物質を形成したり、分泌物質自体であるために結合部位が必要でない
可能性が考えられる。一方、Faux らの研究によると原核生物においてはリピー
トを持つタンパク質の機能は酵素活性にかかわるものが最も多い(Faux et al.,
2005) 。このことから、酵素活性に関わるタンパク質では下等生物では一部のリ
ピートは機能部位として働いているが、高等生物になるにつれて進化的にその
機能を持たなくなったということが考えられる。以上の結果から、少なくとも
一部のタンパク質は相互作用部位として機能している可能性が考えられる。
  リピートを持つ遺伝子において、オーソログ遺伝子は多くの機能で有意に多
く存在しているが、オーソログでない遺伝子では structural molecule activity
が有意に多いのみであり、全体的にはあまり有意差は見られなかった。この結
果から、マウスとオーソログでない遺伝子、つまりリピートを持つヒト固有の
遺伝子においてはそれほど機能に依存的ではないことが示唆された。この理由
として考えられることは、構造に関する遺伝子ではそれが翻訳するタンパク質
においてヒトとマウスで構造的に違いあっても許容されるということである。
つまり、これらのタンパク質ではリピート部位は直接は機能しておらず、全体
的な構造の変異に関与している可能性が考えられる。
  以上のことから、ヒトとマウスにおけるリピートの形成速度には大きな差は


                        35
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論
修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論

More Related Content

More from teapipin

就職して1ヶ月が経って
就職して1ヶ月が経って就職して1ヶ月が経って
就職して1ヶ月が経ってteapipin
 
明日は入社式(就職する前日)
明日は入社式(就職する前日)明日は入社式(就職する前日)
明日は入社式(就職する前日)teapipin
 
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論teapipin
 
定番アルゴリズムを徹底理解!
定番アルゴリズムを徹底理解!定番アルゴリズムを徹底理解!
定番アルゴリズムを徹底理解!teapipin
 
「生命」と「情報」の関わりについて
「生命」と「情報」の関わりについて「生命」と「情報」の関わりについて
「生命」と「情報」の関わりについてteapipin
 
細胞間コミュニケーション(細胞の分子生物学 13章)
細胞間コミュニケーション(細胞の分子生物学 13章)細胞間コミュニケーション(細胞の分子生物学 13章)
細胞間コミュニケーション(細胞の分子生物学 13章)teapipin
 
Comprehensive Analysis of Triplet Repeats in Vertebrate Genomes
Comprehensive Analysis of Triplet Repeats in Vertebrate GenomesComprehensive Analysis of Triplet Repeats in Vertebrate Genomes
Comprehensive Analysis of Triplet Repeats in Vertebrate Genomesteapipin
 
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hackツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hackteapipin
 

More from teapipin (8)

就職して1ヶ月が経って
就職して1ヶ月が経って就職して1ヶ月が経って
就職して1ヶ月が経って
 
明日は入社式(就職する前日)
明日は入社式(就職する前日)明日は入社式(就職する前日)
明日は入社式(就職する前日)
 
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論
卒業論文:小胞体モデル異常タンパク質△proに対するO型糖鎖付加の試験管内再構成 #卒論
 
定番アルゴリズムを徹底理解!
定番アルゴリズムを徹底理解!定番アルゴリズムを徹底理解!
定番アルゴリズムを徹底理解!
 
「生命」と「情報」の関わりについて
「生命」と「情報」の関わりについて「生命」と「情報」の関わりについて
「生命」と「情報」の関わりについて
 
細胞間コミュニケーション(細胞の分子生物学 13章)
細胞間コミュニケーション(細胞の分子生物学 13章)細胞間コミュニケーション(細胞の分子生物学 13章)
細胞間コミュニケーション(細胞の分子生物学 13章)
 
Comprehensive Analysis of Triplet Repeats in Vertebrate Genomes
Comprehensive Analysis of Triplet Repeats in Vertebrate GenomesComprehensive Analysis of Triplet Repeats in Vertebrate Genomes
Comprehensive Analysis of Triplet Repeats in Vertebrate Genomes
 
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hackツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
 

修士論文:ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 #修論

  • 2. 要旨 近年、多くの生物種でゲノムの塩基配列が決定されてきている。その中で大 きな割合を占めるのが反復配列である。反復配列は従来は意味のない配列であ ると考えられてきたが、近年においては数や種類が豊富であることや進化的に 保存されているものもあることから生物的な重要性が考えられている。反復配 列は散在型と縦型に分類される。後者の中でも、ヒトの場合特に注目されるの がトリプレットリピートである。ダイナミック変異と呼ばれるトリプレットリ ピートの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたら すためである。この疾患は、現時点までにおよそ 40 種類確認され、原因となる 伸長部位はすべて遺伝子領域内に存在している。この病気の研究ではトリプレ ットリピートを検出することが不可欠であるが、リピートの範囲を厳密に定義 することは難しい。なぜならば、リピートにはその領域内にリピートとは異な る配列である分断配列(interruption)が存在するためである。分断配列の生物 学的な意義はリピート部位のエネルギー的な安定性に関与する可能性やリピー トの伸張を抑える作用が示唆されているが、よく分かってはいない。 このような点を踏まえ、本研究では従来行われていなかった分断配列を考慮 したリピートの網羅的解析を行うことで、 (1)分断配列を考慮したリピートの 再定義、 (2)リピートの進化的な形成速度は生物種ごとに異なるのかの検証、 (3)リピートを持つタンパク質の機能には偏りが見られるかの検証、を行う ことを目的とした。 分断配列を考慮したリピートの再定義はトリプレットリピート病の原因遺伝 子と統計学的有意性を考慮して行った。統計学的に 0.1 %の有意水準において、 リピートを形成するトリプレット数やアミノ酸数は 5 以上でないと偶然性を排 除できないことから、分断配列を除いたトリプレット部位やアミノ酸部位の最 低数を 5 以上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピ ートは分断配列を 0 個以上持つとした。またリピートの長さはリピート領域の トリプレット数またはアミノ酸数と定義した。さらに、リピートを構成するト リプレットやアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと 定義した。 この定義に基づき、 公共データベースである Emsembl から取得した 翻訳領域のデータセットからリピートを抽出すると、ヒト 16,765 遺伝子のうち アミノ酸リピートは 20,455 個、 チンパンジー22,475 遺伝子のうちアミノ酸リピ ートは 15,748 個、マウス 28,594 遺伝子のうちアミノ酸リピートは 19,058 個存 在することが分かった。アミノ酸リピートの上位 3 位の個数は、ヒトでは順に セリン(S) 、プロリン(P) 、ロイシン(L)であったが、チンパンジーとマウ スでは順に S、L、P リピートとなった。次に、ヒトで分断配列を考慮したアミ 1
  • 3. ノ酸リピートと分断配列を考慮しないアミノ酸リピートの長さの平均値を比較 した。グルタミンリピートを除いてすべてのリピートで分断配列を考慮した場 合の方が標準偏差は大きかった。 次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や 長さの平均値を比較した。リピートの組成比に対してヒトとチンパンジー、ヒ トとマウスでの相関係数は 0.993、0.996 となり、高い相関が見られた。ヒトの 全リピートに含まれている全分断配列を抽出すると、 GAA、GAG、GCG、CTG、 CAA という順に存在することが分かった。次に、翻訳領域における全トリプレ ットの数とすべての各トリプレットリピートの長さとの相関係数は 0.719 であ り相関が見られた。また、すべての全トリプレットの数と分断配列の数との間 でも相関(相関係数 0.634)が見られ、トリプレットリピートや分断配列の組 成は翻訳領域で用いられているトリプレットの組成とほぼ一致していることが 分かる。上位 10 位のトリプレットリピートについて、リピートを構成するトリ プレットと分断配列を比較し塩基の変異数を調べた。その結果、すべてのリピ ートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが 分かった。この結果からリピートの進化的な形成は点変異によって短いリピー トが形成され、それによってリピートの伸長が生じるとするモデルを支持でき る。また、全体的な分布ではマウスで割合がやや異なる場合もあるが、全体的 に各生物種で傾向が類似していた。次にヒトとマウスのオーソログ遺伝子 16,765 配列を取得しリピートを抽出すると、8,251 配列に 17,719 リピートが存 在した。そのうち、ヒトとマウスでともにリピートが存在する遺伝子は 6,058 配列、ヒトのみでリピートが存在する遺伝子は 3,729 個でリピートの個数は 5,174 個、マウスのみでリピートが存在する遺伝子は 3,041 配列でリピートの個 数は 3,993 個であった。 ただし、 これらの遺伝子数は完全に独立ではないため、 合計は元の遺伝子数を超える。 一方、オーソログでない遺伝子は 17,505 個あり、 うち 1,439 遺伝子に 2,302 リピートが存在した。まず、ヒトのみで存在する各 リピートの割合とマウスのみで存在する各リピートの長さの平均値や割合を比 較すると、全体的な分布に差は見られなかった。ヒトとマウスの両方でリピー トを持つ遺伝子の、グルタミンリピートとアラニンリピート領域の差を算出す ると、ヒトとマウスではほぼ対称的な分布をしており、リピートの形成速度に は差は見られないことが示唆された。以上の結果から、これらの生物種ではリ ピートの進化的な形成速度はほぼ同じであることが示唆された。 次に、リピート部位がタンパク質の機能と相関が見られるかを検討するため に、 ヒトでリピートを持つタンパク質の機能の有意性を調べた。 ヒトの全 34,270 遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上位階層の単語に置き 換えられている GO slim の単語を割り振ると、リピートを持つ遺伝子は 7,375 種類、持たない遺伝子は 8,146 種類であった。各 GO 単語について、リピート 2
  • 4. を持つ全遺伝子と持たない全遺伝子ごとの出現頻度を超幾何分布を仮定して有 意性を検討した。リピートを持つ全遺伝子は転写に関わる遺伝子で有意に存在 しているが、代謝や酵素反応に関わる遺伝子では有意に頻度が減少しているこ とが分かった。また、リピート数が上位 10 位までのリピートを持つ各遺伝子に ついて同様の方法で有意性を検討すると、多くのリピートで転写に関わる遺伝 子に有意性が見られた。さらに各リピートの機能に対する偏りの強さに対して クラスター解析を行い、各リピートをグループ分けした。特にロイシン(L)リ ピートを持つタンパク質は他のリピートを持つタンパク質と比較して機能の分 布が異なっていることが分かった。また、リピートを持つヒトとマウスのオー ソログ遺伝子での比較においても、機能の分布に差が見られたことから、一部 のリピートはタンパク質の機能に関係している可能性が高いことが示唆された 以上の結果から、分断配列はリピートの形成過程において点変異で出現する こと、ヒト、チンパンジー、マウスではリピートの進化的な形成速度はほぼ同 じであること、一部のリピートはタンパク質の機能に関係している可能性が高 いこと、特にロイシン(L)リピートを持つタンパク質は他のリピートを持つタ ンパク質と比較して機能の分布が異なっていること、の4点が示唆された。 3
  • 5. 目次 1. 序論 ............................................................................................................ 6 1.1 背景....................................................................................................... 6 1.1.1 ゲノムにおけるリピート ................................................................ 6 1.1.2 トリプレットリピートがもたらす疾患 ........................................... 7 1.1.3 リピートの伸長モデル .................................................................... 9 1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点 ......... 10 1.1.5 オーソログ遺伝子でのリピート部位の比較 .................................. 13 1.1.6 リピートとタンパク質の機能 ....................................................... 14 1.2 本研究の目的 ...................................................................................... 15 2 材料と方法 ................................................................................................ 15 2.1 データセット ...................................................................................... 16 2.1.1 配列のデータセットの取得 ........................................................... 16 2.1.2 オーソログ遺伝子のアノテーション情報の取得 ........................... 16 2.1.3 GO アノテーション情報の取得 .................................................... 16 2.2 超幾何分布 .......................................................................................... 16 2.3 クラスター解析 ................................................................................... 17 3. 結果 .......................................................................................................... 18 3.1 分断配列とリピートの再定義 .............................................................. 18 3.2 分断配列を考慮したリピートの抽出 ................................................... 19 3.2.1 リピートの抽出 ............................................................................ 19 3.2.2 リピートの割合や長さの比較 ....................................................... 20 3.2.3 分断配列の種類や分布 .................................................................. 21 3.2.4 分断配列とリピートを構成するトリプレットの変異部位について 23 3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較 ....................... 24 3.3.1 オーソログ遺伝子でのリピートの数 ............................................. 24 3.3.2 オーソログ性のある遺伝子とオーソログ性のない遺伝子の比較 .. 25 3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さの違い ................................................................................................................ 25 3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの 差の分布 .................................................................................................. 26 3.4 リピートを持つタンパク質の機能の比較 ............................................ 27 3.4.1 ヒトでリピートを持つタンパク質の機能...................................... 27 3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能 ................ 30 4
  • 6. 4. 考察 .......................................................................................................... 33 4.1 分断配列を考慮したリピートと分断配列 ............................................ 33 5 まとめ ....................................................................................................... 38 6 謝辞 ........................................................................................................... 40 7. 参考文献 ................................................................................................... 41 5
  • 7. 1. 序論 1.1 背景 1.1.1 ゲノムにおけるリピート 2003 年に終了宣言が出されたヒトゲノム計画 (Lander et al., 2001; Venter et al., 2001; IHGSC, 2004)に代表されるように近年、大規模解析によって多くの 生物種でゲノムが決定されて来ている。例えば、線虫(CESC, 1998)やショウ ジョヨウバエ(Adams et al., 2000)といった無脊椎動物だけでなく、マウス (Waterston et al., 2002)やチンパンジー(CSAC, 2005)などの脊椎動物や、 シロイロナズナ(Tabata et al., 2000) 、イネ(Sasaki et al., 2002)などの植物 においてもゲノムが決定されてきている。 この結果、ゲノムではイントロンや遺伝子間領域などの生物学的意義が解明 されていない部位が大部分を占めることが分かってきた。反復配列もそのひと つであり、例えばヒトの場合、ゲノム全体の 44 %(1,400 Mbp)を占めている (Lander et al., 2001) 。反復配列は従来はジャンク DNA であると考えられ、 意味のない配列であると捉えられていたが、近年においては数や種類が豊富で あることや進化的に保存されているものもあることから少なくとも一部は生物 的な重要性を持つのではないかと考えられている。 反復配列は転移性や位置の分布によって散在型反復配列と縦型反復配列の 2 種類に分類される。散在型反復配列とは反復配列の個々の単位がゲノム上にラ ンダムに散らばっている配列であり、ゲノムの位置を転移することによって形 成されたと考えられている。散在型反復配列は 4 種類に分類される。短い DNA 配列である短散在型核因子 (SINE) 長い配列である長散在型核因子 、 (LINE) 、 端末に長い反復配列を持つ LTR エレメントの 3 種類は、逆転写酵素によって DNA に複写されることで転移する。一方、DNA トランスポゾンは DNA 断片 が直接転移する。 転移はゲノムの DNA 配列を変異させることから突然変異の原 因となるため、多様性という面で生物の進化に影響を与えてきたと考えられて いる。 一方、縦型反復配列とは反復単位が隣り合って並んでいる配列であり、これ は染色体のセントロメア近傍に局在するサテライト DNA、反復単位が 5-30 bp で長さが 500 bp 以上であるのミニサテライト、 反復単位が 1-6 bp で長さが 500 bp 以下であるマイクロサテライトに分類される。例えば、細胞の分裂回数の制 限にかかわるテロメアは TTAGGG という配列が 2,000 回以上繰り返されたミニ サテライトを持つ。縦型反復配列は元となった配列が増幅してできたと考えら れており、転移によって形成されたと考えられている散在型反復配列とは形成 過程が異なると考えられている。 6
  • 8. マイクロサテライト(以下リピートと呼ぶ)は多くの生物種のゲノムに存在 するが、生物種や部位によって分布が異なっている。例えば 3 つ組のリピート であるトリプレットリピートの場合、ヒトでは AAT リピートが最も密度が高い が(282 bp / Mb) (Subramanian et al., 2003a)、線虫では AAG リピートが最 も密度が高い(105 bp / Mb) (Tóth et al., 2000) 。また種内でも分布に差が見 られる。例えばヒトにおいては、A, AT, AC, AAT, AAC, AAG, AGC, AAAC, AAAT, AAAG, AAGG, AGAT の各リピートは豊富であるが、C, CG, ACT, ACG, AACC, AACG, AACT, AAGC, AAGT, ACCC, ACCG, ACCT, CCCG, CCGG の 各リピートは豊富ではない。また配列における密度は、偶数の組(2 つ組、4 つ 組、6 つ組)のリピートでは 2,000-3,000 bp / Mb、奇数の組(3 つ組、5 つ組) のリピートは 500-1,000 bp / Mb であり、 偶数の組のリピートの方が密度が大き い(Subramanian et al., 2003b)。さらにヒトの場合、翻訳領域における 3 つ組 リ ピ ートはイントロンや遺伝子間領域の場合の 2 倍多く存在している が (Subramanian et al., 2003b) つ組、4 つ組、5 つ組のリピートは翻訳領域 、2 よりもイントロンや遺伝子間領域に多く存在している(Tóth et al., 2000) 。 一方、翻訳領域でのアミノ酸リピートの分布についても報告されている。例 えば、原核生物よりも真核生物のほうがアミノ酸リピートははるかに豊富であ る(Faux et al., 2005) 。また、グリシン、セリン、プロリンの各リピートは真 核・原核生物とも存在するが、グルタミン、アスパラギン、グルタミン酸の各リ ピートは原核生物ではほとんど存在しない。さらに真核生物においては、疎水 性のアミノ酸リピートよりも極性のアミノ酸リピートの方が多く存在する (Marcotte et al., 1999)。 リピートの分布が生物種間で異なるのは、リピートによっては生物種や部位 依存的に機能を持つためではないかと考えられている。翻訳領域の上流領域に おけるリピートは、DNA の二次構造形成によって遺伝子の転写調節に関わって いる可能性や(Catasti et al., 1999) 、様々な転写因子の相互作用に影響する可 能性が示唆されている(Martienssen et al., 2001) 。 1.1.2 トリプレットリピートがもたらす疾患 ヒトの場合、リピートの中でも特に注目されるのがトリプレットリピートで ある。ダイナミック変異(dynamic mutation)と呼ばれるトリプレットリピー トの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたらすた めである。Cleary らのレビューによると、この疾患において患者は、健常者よ りも数倍以上リピートが長く、その家系では世代を経るに連れてリピートが長 くなっていく。そのため、発症年齢が早くなり、重篤化していく(表現促進現 象) (Cleary et al., 2003)。 7
  • 9. CAG ポリグルタミン病 GCN ポリアラニン病 ハンチントン病 眼咽頭型筋ジストロフィー 脊髄小脳失調症1,2型 など 手足性器症候群 など 5’末端 3’末端 5’UTR イントロン 翻訳領域 3’UTR 脊髄小脳失調症12型 CAG フリードライヒ症候群 GAA 筋強直性ジストロフィー1型 CTG 筋強直性ジストロフィー2型 CCTG 脊髄小脳失調症10型 ATTCT 図 1-1 トリプレットリピート病 代表的なトリプレットリピート病の原因部位を遺伝子上に模式的に表した。名称と リピート配列を示した。上の囲みのポリグルタミン病とポリアラニン病はタンパク 質に翻訳される。下の囲みのものは非翻訳領域に存在する。 トリプレットリピート病は 1991 年にハンチントン病の原因リピート部位が 同定されて以来、現時点までにおよそ 40 種類確認され、原因となる伸長部位は すべて遺伝子領域内に存在している。例えば、翻訳領域に原因を持つハンチン トン病などは、グルタミンをコードする CAG リピートが伸長しており、ポリグ ルタミン病と総称されている(Cleary et al., 2003) 。眼咽頭型筋ジストロフィ ーなどはアラニンをコードする GCN リピート (N はどの塩基でもよい) を持つ ため総称してポリアラニン病と呼ばれる。これらの場合、コードされたタンパ ク質の構造変異による凝集体の蓄積や機能異常が病気の原因であると考えられ ている(Cleary et al., 2003)。一方、非翻訳領域として、5’ UTR に原因リピー トを持つ脆弱 X 染色体症候群 A 型(CGG リピート)や 3’ UTR に原因リピート を持つ筋強直性ジストロフィー1 型(CTG リピート) 、イントロンに原因リピー トを持つフリードライヒ症候群(GAA リピート)などが知られている。これら の場合は DNA や RNA の構造変異や機能欠損が病気の原因となると考えられて いる。 一般に翻訳領域で原因となるリピートはリピート数が比較的少ないが (40 ~100 リピート) 、非翻訳領域で原因となる場合はリピート数が非常に多くなる (50~5000 リピート) (Cleary et al., 2003)。他に、脊髄小脳失調症 10 型や筋 強直性ジストロフィー2 型はそれぞれ ATTCT、CCTG というトリプレット以外 のリピートが原因である。 以上のようにリピート病にも様々なタイプが存在することが明らかになりつ つある。しかしながら原因遺伝子産物の正常機能を含め、なぜリピートの伸長 が病気につながるのか、またリピートがなぜ異常伸長するのかといった機構に ついては不明な点が多い。 8
  • 10. 1.1.3 リピートの伸長モデル トリプレットリピートの伸長機構に関して、仮説としていくつかのモデルが 提唱されており、リピートの伸長と収縮はともに配列の不安定性によって引き 起こされると考えられている(Wells et al., 2005; Pearson et al., 2005)。通常 の DNA は B 型構造という右巻きの二重らせん構造を形成する。しかし、一部 の特異的なリピート配列が存在する部位では B 型構造が形成できず、温度やイ オン濃度、pH などに依存して異なる様々な立体構造が形成される場合がある。 この立体構造は non-B 型構造と呼ばれ、 DNA の不安定性をもたらすと考えられ ている(図 1-2) 。Wells らの報告によると、複製、修復、組換えのそれぞれの 場合に non-B 型構造が形成されることによってリピートの伸長・収縮が起こる。 複製時にリピートの伸長・収縮が起こるとするモデルでは、 ラギング鎖で non-B 型構造が形成されることでリピートの伸長・収縮が起こるとする。新生鎖で non-B 型構造が形成されるとリピートの伸長が起こり、鋳型鎖で non-B 型構造 が形成されるとリピートの収縮が起こる。また、DNA の修復時にリピートの伸 長・収縮が起こるとするモデルでは、修復される鎖でニック(切れ目)が入っ た後その近傍で non-B 型構造が形成されると、その状態で修復が完了するため にリピートの伸長・収縮が起こるとする。さらに、組換えの時にリピートの伸 長・収縮が起こるとするモデルでは、進入した鎖において non-B 型構造が形成 されると伸長したリピートが形成されるとする。 図 1-2 non-B 型構造(Wells et al., 2005 より抜粋) non-B 型構造の名称と構造、特異的な配列を挙げた。それぞれ特異的な配 列に応じて 5 種類の各 non-B 型構造が形成される。例えば、A-T リッチな 部位では温度やイオン濃度、 などに依存して DNA Unwinding Element pH という特異的な構造が形成される。 9
  • 11. 1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点 現在行われているインシリコ手法を用いたリピート研究について紹介する。 リピートは種類が豊富であることから、ゲノムの進化において重要な影響を持 つと考えられている(Tauts et al., 1986; Kashi et al., 1997) 。そのため、イン シリコ研究では各生物種のリピートの長さや位置などの統計情報の解析や、特 定のリピート部位の塩基や長さの違いの種間比較が行われている。これらの研 究において、 リピートの数え方は大きく分けて2種類ある (Baldi et al., 2000)。 まず DNA を非翻訳領域のみまたは翻訳領域と非翻訳領域の区別をせずに数え る場合は、配列を一方向から順にリピートを抽出していく。しかし、重複が生 じるのでそれを除去するためにリピートのコドンを 1 つないし 2 つずらした場 合(例えば CAG に対する AGC、GCA)を同じクラスとし合計 24 のクラスと してまとめる場合や、12 のクラス(相補コドンを同じクラスに分類する)また は 10 のクラス(AAA など 3 塩基が同じものを考えない)に分類する場合もあ る(表 1-1) 。一方、翻訳領域のみでリピートを抽出する場合は、アミノ酸に翻 訳されることを考慮し、読み取り枠に従ってトリプレットリピートまたはアミ ノ酸リピートを抽出する。いずれの場合も連続するトリプレットをリピートと して数えている。 しかし、リピートの範囲を厳密に定義することは難しい。なぜならば、リピ ートには分断配列(interruption)が存在する場合があるためである。分断配列 とはリピート内に存在する、リピートとは異なる配列のことである。トリプレ ットリピート病の場合は 1 トリプレットの分断配列が 1~3 個存在するものが多 い。例えば、手足性器症候群の原因遺伝子である HoxA13 遺伝子は GCG リピ ート部位に GCC、GCT、GCC という異なる3種類の分断配列が存在している (図 1-3)。 10
  • 12. 表 1-1 リピート研究に用いられているクラス分け (トリプレットリピートの場合) 各クラスには 3 種類のコドンが属しており、全 24 クラス存在する。研究によって は相補的なクラスを合わせて(例えば、AAC クラスと GTT クラス) 、全 12 クラス として数える場合や、さらに AAA(TTT)クラスと CCC(GGG)クラスを除外し て全 10 クラスとして数える場合もある(各々を1つ組のリピートとして算出する ため)。 クラス名 属するすべてのコドン クラス名 属するすべてのコドン AAA AAA TTT TTT AAC AAC ACA CAA GTT GTT TGT TTG AAG AAG AGA GAA CTT CTT TCT TTC AAT AAT ATA TAA ATT ATT TAT TTA ACC ACC CAC CCA GGT GGT GTG TGG ACG ACG CGA GAC CGT CGT GTC TCG ACT ACT CTA TAC AGT AGT GTA TAG AGC AGC CAG GCA CTG CTG GCT TGC AGG AGG GAG GGA CCT CCT CTC TCC ATC ATC CAT TCA ATG ATG TGA GAT CCC CCC GGG GGG CCG CCG CGC GCC CGG CGG GCG GGC SCA2 ・・・ (CAG)13CAA(CAG)9 ・・・ HoxA13 ・・・ (GCG)3GCCGCGGCT(GCG)3GCCGCG ・・・ 図 1-3 リピートと分断配列の表記法 左側が遺伝子名、右側がリピート部位である。2 つともトリプレットリピ ート病の原因遺伝子である。本研究ではリピート部位の表記方法は( )内に リピートを構成するトリプレットやアミノ酸を表記し、リピート数を添え る。分断配列はリピート部位に囲まれた 1 トリプレットであり、赤字で表 記する。例えば、SCA2 の場合、リピート長 13 とリピート長 9 の CAG リ ピートの間に分断配列 CAA が存在している。HoxA13 の場合、GCG リピ ートの間に GCC, GCT, GCC の 3 種類の分断配列が存在する。 分断配列の生物学的な意義はよく分かっていないが、臨床・実験系と進化系の 2 つの側面から研究がなされている。臨床・実験系の研究者は分断配列はリピー トに対して機能を持つと考え、リピート部位のエネルギー的な安定性に関与す る可能性やリピートの伸張を抑える作用があることを仮定している。例えば Weisman らは CGG リピートを持つ FMR1 の DNA 構造解析の結果、分断配列 AGG がリピートに対して熱耐性を与えることや non-B 型構造の一種である tetraplex 構造の形成を抑える作用を持つことを示した(Weisman-Shomer et al., 2000)。また David らは CAG リピートや CGG リピートを持つ DNA のヌ クレオソームの安定性を調べ、分断配列が存在しないリピートよりも分断配列 11
  • 13. が存在するリピートの方がランダムな配列にエネルギー的により近く、ヌクレ オソーム構造に安定性を与えることを示唆した(David et al., 2005) 。さらに Sobczak らは CAG リピートを持つ SCA2 の RNA の二次構造解析を行い、分断 配列はリピートによって形成されるヘアピンのループの部位に存在し、分断配 列数が増加するにつれ分岐するヘアピン部位も増加することを発見した。これ は分断配列数の増加に伴い、RNA が折りたたまれることで構造的に安定するこ とや自由エネルギーが増加することからエネルギー的にも安定することを示し ている(Sobczak et al., 2005)。以上の研究結果は、リピート部位が分断配列に よってゲノム上で異常構造をとらないようにすることによってリピートの異常 伸長が抑えられることや、DNA や RNA の構造変異やそれによる機能欠損を起 しにくくしていることを示唆しており、トリプレットリピート病の発症や症状 を抑える作用につがなると考えられている。実際、臨床系の研究において CAG リピートを持つ脊髄小脳失調症 1 型の患者の遺伝子を調べた結果、分断配列 CAT を持つ患者の方が分断配列を持たない患者よりも発症年齢が遅くなり、症 状も和らげられることが確認されている(Matsuyama et al.,1999) 。 一方、分子進化の研究者の間では、分断配列の形成を包含したリピートの進 化モデルが提唱されている(Hancock et al., 2001)。これは翻訳領域かつ主にグ ルタミンリピートについて提唱されているモデルである。このモデルでは、分 断配列はリピートの進化の過程で形成されると考えられている。リピートの形 成は、点変異によって同一のコドンの集約が起こり(purifying selection と呼ば れる) 、短いリピートが形成されてはじめてリピートの伸長が起こると考えられ ている(図 1-4) 。リピートは必要な長さに伸長するが、長いリピートは異常伸 長を起こしやすく危険であるため、安定化のために一部で同義の置換が生じる。 これが同義の分断配列の形成である。リピートの進化モデルでは同義の分断配 列はリピートの安定性に寄与すると考え、非同義の分断配列の機能には言及し ていない。しかし、点変異によって純粋なリピートの形成が起こらないとリピ ートの異常伸長も起こらないと考えることから、同義・非同義の分断配列ともリ ピートの安定に関与していると考えられるであろう。以上のように、分断配列 については、臨床・実験系と進化系の研究者の間でそれぞれ独立にモデルが立 てられているが、どちらの場合も安定性に着目していることが分かる。 このように分断配列の重要性は示唆されているが、従来のインシリコ研究で は分断配列が考慮されておらず、進化的に見て必要なリピートの部位を抽出で きていなかったという問題が考えられる。例えばオーソログ遺伝子のリピート 部位の比較において、一方の生物種で分断配列があり、もう一方の種で分断配 列がない場合従来の方法ではリピートの長さや種類などの比較が行えていなか った(図 1-5) 。そのため、各生物種の網羅的解析に対しても全体的な分布にも 影響を与えていると考えられる。またトリプレットリピート病の研究において 12
  • 14. も、分断配列を考慮しない従来の場合では原因となる候補部位が抽出できてい なかった可能性が考えられる。なぜならば、トリプレットリピート病の原因リ ピートには分断配列を持つものが多いためである。よって分断配列を考慮する ことで、従来の定義よりもトリプレットリピート病の原因部位により近いリピ ートを抽出でき、新たな原因の候補部位をより正確に抽出できる可能性がある。 CAT CAC CAT CAG ↓ 点変異 CAT CAC CAG CAG purifying selection ↓ 点変異 CAG CAC CAG CAG ↓ 点変異 CAG CAG CAG CAG 純粋なリピート CAG CAG CAG CAG CAG CAG CAG CAG リピートの伸長 ↓ 点変異 CAG CAG CAA CAG CAG CAG CAG CAG 純粋でないリピート 図 1-4 リピートの進化的な形成モデル (Hancock et al., 2001 をもとに作成) グルタミンリピートを例にする。CAG と CAA のみがグルタミンをコード する。このモデルでは同一コドンで形成される純粋なリピートは非同義の 分断配列が点変異を起こすことで形成されると考えられている。点変異に よって同一のコドンへの集約が起こる現象は purifying selection と呼ばれ る。リピートの伸長は純粋なリピートが形成されて起こるが、一部で同義 の分断配列が点変異によって純粋でないリピートが生じ、リピートを安定 化させると考えられている。 1.1.5 オーソログ遺伝子でのリピート部位の比較 リピートの研究では各生物種ごとに網羅的にリピートを抽出し、比較する方 法以外に、オーソログ遺伝子におけるリピート部位の長さや塩基の変化を比較 する方法が試みられている。先行研究において、ヒトとマウス・ラットのオー ソログ遺伝子の比較を行った研究は報告されている。例えば、小笠原らは 16 系 統のマウスの各 50 遺伝子に存在するグルタミンリピートの長さをヒトの場合と 比較した(Ogasawara et al., 2005)。かれらはマウスで CAG のみで構成される monomorphic なグルタミンリピートの長さはヒトと相関が高いが、CAG と CAA で構成される polymorphic なグルタミンリピートの場合はマウスの種内で 13
  • 15. 多型が多く、ヒトとの相関も低くなることを示した。これはそれぞれのリピー トの長さや同義の分断配列の入り方が系統によって差があることを示唆してい る。Alba らは約 400 のヒト-マウス-ラットのオーソログ遺伝子からリピート部 位の CG 含量を調べ、 ヒトの GC 含量の割合はマウスやラットの場合のおよそ 2 倍であることを示した(~0.2 bp / Mb > ~0.1 bp / Mb)。また、オーソログ遺伝 子をヒトとマウスでともにリピートが存在する遺伝子、ヒトのみでリピートが 存在する遺伝子、マウスのみでリピートが存在する遺伝子に分類し、CG 含量の 割合の高さは各生物種にのみリピートが存在する遺伝子に依存することを確認 した(Alba et al., 2004)。このような先行研究はあるが、用いられている遺伝 子数が少なく網羅的な解析は行われていない。 Crebbp 遺伝子の場合 ヒト QQQQQQQQQQQQQQQQQQ マウス QHQQQQQQQQQQQQQQQ (このヒスチジン(H)は CAC によってコードされる) 図 1-5 分断配列を考慮することの利点(リピートの進化的な比較の場合) Crebbp 遺伝子の場合を例にする。グルタミン(Q)リピートは、ヒトの場合長さ 18 であ るが、マウスでは分断配列であるヒスチジン(H)が存在するため、従来の定義では長さ が 15 となる。しかし、H のコドンは CAC であり、グルタミンをコードしている CAG、 CAA と一文字異なるだけである。そのため、H は塩基の変化によって生じたと考える方 が妥当である。 よって分断配列を考慮した場合のほうが進化的な比較が行いやすくなると 考える。この場合マウスでは長さは分断配列を入れて 17 となる。 1.1.6 リピートとタンパク質の機能 タンパク質のリピート部位が生物学的な機能を持つかは不明である。一方で、 タンパク質自体の機能のアノテーションは進んでいるため、いくつかの研究で はリピートを持つタンパク質の機能について考察されている。例えば、Faux ら はリピートを持つタンパク質は、真核生物では転写・翻訳に関わるものが最も 多い(約 50 %)が、原核生物では酵素活性に関わるものが最も多い(約 25 %) ことを示した(Faux et al., 2005)。また、Alba らはリピートを持つ 1,833 タン パク質の分子機能を調べ、アラニン、グリシン、グルタミン、プロリンの各リ ピートは転写因子において有意に存在していることを明らかにした (Alba et al., 2004)。 14
  • 16. 1.2 本研究の目的と構成 これまで述べてきたようにリピートの分布は生物種によって偏りがある。し かし、その原因がどのような生物学的要因に由来するのかは分かっていない。 また、リピート領域が機能部位であるのかについては解明されていない。 これらの点を踏まえ、本研究では従来行われていなかった分断配列を考慮し たリピートの網羅解析によって、リピートの進化的な形成速度は生物種によっ て差が見られるか、またリピートを持つ遺伝子はタンパク質の機能に偏りが見 られるか、の 2 点を解明することを目的とした。分断配列を考慮することの利 点は各生物種内でのリピートの比較や生物種間での進化的な比較を従来よりも 正確に行うことができると考えられることである。本研究では、ヒトのリピー トの分布の違いを検討するために、ヒトと近縁であるチンパンジーとマウスを 対象として用いた。近縁種間でリピートを比較することで 3 種での相違する部 分を進化的に捉えやすいためである。 研究の構成としては、まず分断配列を考慮したリピートの再定義を行った。 今まで分断配列を定義した研究は報告されていないため、研究の最初の段階で 定義を行う必要があったためである。 次にこの定義に従い、分断配列を考慮してヒト、チンパンジー、マウスのリ ピートを抽出し、長さや割合がどのように分布しているかを調べた。また、こ れを元に分断配列とリピート部位の塩基の違いを比較し、分断配列がリピート の進化的な形成過程において出現するというモデル(図 1-3、Hancock et al., 2001)の検討を行った。 続いて、ヒトとマウスのオーソログ遺伝子においてリピートの比較を行った。 従来の研究では用いられているオーソログ遺伝子の数が少なく、得られた情報 が十分でないためである。ここでは、オーソログ遺伝子でのリピートをヒトと マウスでともにリピートを持つ遺伝子、ヒトのみでリピートを持つ遺伝子、マ ウスのみでリピートを持つ遺伝子の 3 種類に分類し、それらの長さの平均値や 占める割合などの分布を比較し、両生物種でリピートの進化速度に差があるか を検討した。 最後に、リピートがタンパク質の機能と関係があるのかを検討するために、 リピートを持つタンパク質の機能の有意性を検討した。ここではヒトでリピー トを持つタンパク質の機能の分布とヒトとマウスのオーソログのタンパク質の 機能の分布を調べることで、各リピートや生物種間で相違を検討した。 2 材料と方法 15
  • 17. 2.1 データセット 2.1.1 配列のデータセットの取得 Emsembl(http://www.ensembl.org/)から、ヒト、チンパンジー、マウスの 翻訳領域の配列データを取得した。データセットには重複している遺伝子が存 在したため重複を除去し、その結果、ヒト 34,270 遺伝子、チンパンジー22,475 遺伝子、マウス 28,594 遺伝子を取得した。Perl 言語でプログラムを作成し、後 で述べる定義に従い、翻訳領域の配列データからリピートの抽出を行った。 2.1.2 オーソログ遺伝子のアノテーション情報の取得 Emsembl から、ヒトとマウスのオーソログ性のアノテーション情報を取得し、 先に得ていた各生物種の遺伝子データに MySQL を用いてオーソログ性の情報 を付加した。 その結果、ヒトとマウスで 16,765 のオーソログ遺伝子を取得した。 2.1.3 GO アノテーション情報の取得 ヒトの遺伝子のうち 15,521 遺伝子に関して、Gene Ontology(Harris et al., 2004)の上位階層の単語に置き換えられている GO slim の単語を割り振った (http://www.geneontology.org/GO.slims.shtml)。また、ヒトとマウスのオー ソログ遺伝子 16,765 のうち、 13,949 遺伝子に関して、 GO slim の単語を割り振 った。各 GO 単語について、各リピート数ごとの出現頻度を、超幾何分布を仮 定して p-value を求め、有意性を検討した。 2.2 超幾何分布 超幾何分布とは母集団が2つの性質、またはある性質を持つものと持たない ものに分けることができる場合にその有意性の検討に用いられる確率分布であ る。例えば,赤球 N0 個,白球 N1個入っている袋から,n 個取出すとき,その n 個の中の赤球の個数 X の分布は,超幾何分布 H(N,N0,n)(ただし N=N0+N1)に 従う(下式) 。 本研究では統計ソフト R の phyper コマンドを用いて超幾何分布への当てはめ を行い、偏りの強さを p-value として算出し有意性を検討した(図 2-1)。 ヒトの全てのタンパク質 ヒトでリピートを 15,521 持つタンパク質 16 1,394
  • 18. development development 1,882 1,078 p-value = 1×10-6 図 2-1 超幾何分布への当てはめの例 例として、ヒトでリピートを持つタンパク質のうち development という機能の有意性の 検討を挙げた。ヒトの全てのタンパク質における development 機能の割合をもとにした とき、リピートを持つタンパク質における development 機能の割合がどのくらい有意に 出現しているかを p-value として算出した。この例の場合、p-value が非常に小さく(設 定した有意水準よりも小さい) 、有意に多く出現していると判断できる。 2.3 クラスター解析 クラスター解析は階層的クラスタリングを用いた。階層型クラスター解析で は、各データの項目を N 次元超空間の点と考える。これにより各データ間の距 離を求め、各項目をグループ分けする手法である。距離の算出方法は週種類あ りるが、本研究では各データ項目のユークリッド距離(差の二乗和)に対する 最長距離法を用いた。解析は統計ソフト R の hclust コマンドを使用してクラス ター解析を行い、結果を樹状図に表した。 17
  • 19. 3. 結果 3.1 分断配列とリピートの再定義 従来のインシリコ研究では分断配列が考慮されておらず、進化的に必要なリ ピートの部位を抽出できていなかったという問題が考えられる(図 1-5) 。また トリプレットリピート病の研究においても、従来の場合では原因となる候補部 位が抽出できていなかった可能性が考えられる。なぜならば、トリプレットリ ピート病の原因リピートには分断配列を持つものが多いためである。 よって本研究では、まず分断配列を考慮したリピートの再定義を行った。こ の再定義は、トリプレットリピート病の原因部位と統計学的有意性を踏まえて 行った。統計学的に 0.1 %の有意水準において、リピートを形成するトリプレッ ト数やアミノ酸数は 5 以上でないと偶然性を排除できないことから(Karlin, 1995) まず分断配列を除いたトリプレット部位やアミノ酸部位の最低数を 5 以 、 上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピートは分断 配列を 0 個以上持つとした。またリピートの長さはリピート領域のトリプレッ ト数またはアミノ酸数と定義した。さらに、リピートを構成するトリプレット やアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと定義した。 例えば、 GAG (CAG)12 CAT CAG CAT (CAG)14 CAC という領域の場合、 (CAG)12 CAT CAG CAT (CAG)14 の部位が CAG リピート領域であり、CAT, CAT が分断 配列、リピートの長さは 29 となる(表 3-1) 。また、(CAG) CAA (CAG) CAA (CAG)2 CAA (CAG)はリピートを構成する CAG が連続して 2 以上存在する部位 があるためリピートであるが、 (CAG)2 CAA (CAG)2 はリピートを構成する CAG の数が 5 未満であるためリピートではなく、(CAG) CAA (CAG) CAA (CAG) TGG (CAG) GAT (CAG)ではリピートを形成する CAG が連続して 2 以上存在し ないためリピートではない(表 3-2) 。一方、リピート中の分断配列数には制限 は設けなかった。これは本研究では分断配列の構成を調べることが目的のひと つであり、より多くの分断配列を抽出したいためである。また例えば、(CAG)2 AAA (CAG)2 CCC (CAG)2 GGG (CAG)2 TTT などの場合、分断配列数に制限を 設けると分断配列の種類を算出することが困難になるためである。 18
  • 20. 表 3-1 リピートと分断配列の定義の例 例としてトリプレットリピート病の原因遺伝子 SCA1 を挙げた。左側がト リプレットリピートの場合、右側が同じ部位のアミノ酸リピートである。 例)脊髄小脳失調症1型の原因遺伝子SCA1 トリプレットリピートの場合 アミノ酸リピートの場合 GAG(CAG)12CATCAGCAT(CAG)14CAC E(Q)12HQH(Q)14H ↓ ↓ 分断配列はCAT,CATの2つ 分断配列はH, Hの2つ トリプレットリピートは下線部 トリプレットリピートは下線部 トリプレットリピートの長さは29 トリプレットリピートの長さは29 表 3-2 リピートの判定の例 配列がリピートであるかの判定とその理由を挙げた。 配 列 判定 理 由 リピート構成要素の CAG の数が 5 (CAG) CAA (CAG) CAA (CAG)2 CAA (CAG) ○ 以上でかつ連続して 2 以上存在す る部位があるためリピートである リピート構成要素の CAG の数が 5 (CAG)10 ○ 以上であり、分断配列は存在しな いがリピートである リピート構成要素の CAG の数が 5 (CAG)2 CAA (CAG)2 × 未満であるためリピートではない リピート構成要素の CAG の数が 5 (CAG) CAA (CAG) CAA (CAG) TGG (CAG) GAT (CAG) × 2 以上であるが、 以上連続する部位 がないためリピートでない 3.2 分断配列を考慮したリピートの抽出 3.2.1 リピートの抽出 従来行われていなかった分断配列を考慮してリピートを抽出した場合、どの ような分布を示すのだろうか。また、従来の分断配列を考慮しないリピートと 比較してどのような差が見られるであろうか。それらを確認するために抽出し たリピートの分布を調べた。 分断配列を考慮したリピートの場合、ヒト 16,765 遺伝子のうち、トリプレッ トリピートは 2,769 遺伝子に 3,885 存在し、アミノ酸リピートは 9,691 遺伝子 に 20,455 存在した。チンパンジー22,475 遺伝子のうち、 トリプレットリピート は、2,093 遺伝子に 2,716 存在し、アミノ酸リピートは 8,176 遺伝子に 15,748 存在した。マウス 28,594 遺伝子のうち、トリプレットリピートは 2,561 遺伝子 に 3,438 存在し、アミノ酸リピートは 9,885 遺伝子に 19,058 存在した。アミノ 酸リピートの上位 3 位の個数は、ヒトでは順にセリン(S) 、プロリン(P) 、ロ イシン(L)であったが、チンパンジーとマウスでは順に S、L、P リピートと 19
  • 21. なった。 一方、従来の定義である分断配列を考慮しないリピートでは、ヒトでトリプ レットリピートは 1,090 遺伝子に 1,312 存在し、アミノ酸リピートは 3,747 遺 伝子に 5,397 存在した。チンパンジーではトリプレットリピートは 781 遺伝子 に 911 存在し、アミノ酸リピートは 2,950 遺伝子に 3,944 存在した。マウスで はトリプレットリピートは 985 遺伝子に 1,178 存在し、アミノ酸リピートは 3,674 遺伝子に 5,074 存在した。アミノ酸リピートの上位 3 位の個数は、ヒトで は順に E、P、アラニン(A)リピートであり、チンパンジーでは E、S、A リ ピート、マウスでは E、P、L リピートの順になった。 3.2.2 リピートの割合や長さの比較 ヒトで分断配列を考慮したアミノ酸リピートと分断配列を考慮しないアミノ酸 リピートの長さの平均値を比較した(図 3-2)。グルタミンリピートを除いてす べてのリピートで分断配列を考慮した場合の方が標準偏差は大きかった。また、 KS 検定の結果、 分断配列を考慮したリピートと考慮しないリピートで全体的な 分布に大きな差は見られなかった。 次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や 長さの平均値を比較した(図 3-3)。リピートの組成比に対してヒトとチンパン ジー、ならびにヒトとマウスそれぞれでの相関係数はそれぞれ 0.993、0.996 と なり、高い相関が見られた。相関係数の同等性の検定を行うと p-value が 0.174 となり、2 つの相関係数に差は見られなかった。よって、ヒト、チンパンジー、 マウスの各アミノ酸リピートの組成に有意差はないことが分かった。 16 14 12 10 長さ 8 分断配列ありリピート 分断配列なしリピート 6 4 2 0 A C D E F G H I K L M N P Q R S T V W Y リピート 図 3-2 ヒトにおけるアミノ酸リピートの長さの平均値 横軸が各アミノ酸リピート、縦軸が長さである。 20
  • 22. 18 18 ヒト 16 16 チンパンジー ヒト マウス 14 チンパンジー 14 マウス 12 12 10 10 % 長 さ 8 8 6 6 4 4 2 2 0 0 S P L E A G K R Q D T V H F I C N Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-3 分断配列を考慮したアミノ酸リピートの割合と長さの平均値 右:アミノ酸リピートの割合。横軸が各アミノ酸リピート、縦軸が長さ。ヒトでリピ ートの個数の多いものから順に並べた 左:ヒト、チンパンジー、マウスにおけるアミノ酸リピートの長さの平均値。横軸が 各アミノ酸リピート、縦軸が長さである。 3.2.3 分断配列の種類や分布 トリプレットリピート病の原因となる遺伝子のリピート領域には分断配列が 確認されており、種類や位置が報告されている。しかし、今までリピートに含 まれている分断配列自体を網羅的に解析した例は報告されていなかった。そこ で分断配列のどのような組成であるかを知るために、まずリピートに含まれて いる分断配列を抽出し分類した。その結果、ヒトにおける全リピート内におけ る分断配列の組成は、GAA、GAG、GCG、CTG、CAA という順に存在するこ とが分かった(図 3-4)。GAA は特に多く、全体の 8.09 %を占めていた。 次に、翻訳領域における全トリプレットの数とすべての各トリプレットリピ ートの長さとの相関係数は 0.719 であり相関が見られた(図 3-5 左)。また、す べての全トリプレットの数と分断配列の数との間でも相関(相関係数 0.634) が見られた(図 3-5 右)。つまり、トリプレットリピートや分断配列の組成は翻 訳領域で用いられているトリプレットの組成とほぼ一致していることが分かる。 21
  • 23. 500 450 400 350 300 個 250 数 200 150 100 50 0 GAA GAG GCG CTG CAA GGG CCC GAC CCG GCC GAT GCA GGC AAG GCT CCA CAG GTG CTC GGA AAA AGC TCC TCT GGT AGT CCT CGG TTC CAC ACC CAT CTT AAC TTG TGC ATG ACA TCA AGG ATC TTT AGA GTC AAT CGC TGG CTA TCG ACT TAC ACG ATT GTA GTT TAT CGA CGT TGT TTA ATA TAA TAG TGA 分断配列 図 3-4 ヒトにおける分断配列の数 ヒトの全トリプレットリピートに存在する全分断配列の数。横軸が分断配 列、 縦軸が個数。多いものから順に左から右へと並べた。TAA、TAG、TGA の 3 種は停止コドンであるため、分断配列として存在していない。 6000 600 GAG 5000 500 r = 0.719 r = 0.634 CAG GAA リ 4000 400 ピ 分 ー 断 y = 0.0049x - 826.63 y = 0.0003x + 2.3674 配 ト 3000 300 列 の の 長 数 さ 2000 200 1000 100 0 0 0 200000 400000 600000 800000 0 200000 400000 600000 800000 トリプレットの数 トリプレットの数 図 3-5 リピートの長さや分断配列数と、翻訳領域での全トリプレットとの 相関 左:リピートの長さとの数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が リピートの長さ。r は相関係数。 右:分断配列の数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が分断配列 の数。r は相関係数。 離れ値についてはそのトリプレット名を明記した。 22
  • 24. 3.2.4 分断配列とリピートを構成するトリプレットの変異部位について 分断配列の進化的な形成は、点変異による場合または挿入や欠失による場合 の 2 種類が考えられる。また、分断配列の種類や割合の分布は生物種ごとに差 が見られる可能性がある。 リピートの進化モデル (図 1-3、Hancock et al., 2001) によると、分断配列の形成は点変異で起こると考えられている。しかし、この モデルは主にグルタミンリピートに対して提唱されているモデルであり、検討 する必要がある。また、リピートが部位や機能に依存的に形成されるならば、 生物種によって分断配列の構成も異なるはずである。これらのことを検討する ために、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレ ットと分断配列を比較し、塩基の変異数を調べた。リピートを構成するトリプ レットと比較して、1 文字異なっている場合を 1 点変異、2 文字異なっている場 合を 2 点変異、3 文字異なっている場合を 3 点変異とし、上位 10 位のトリプレ ットリピートについてそれぞれの割合を算出した(図 3-6) 。その結果、すべて のリピートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在する ことが分かった。また、全体的な分布ではマウスでやや割合が異なる場合もあ るが、全体的に各生物種で傾向が類似していた。 90 80 70 ヒト 1点変異 60 チンパンジー 1点変異 マウス 1点変異 50 ヒト 2点変異 % チンパンジー 2点変異 40 マウス 2点変異 ヒト 3点変異 30 マウス 3点変異 チンパンジー 3点変異 20 10 0 GAG CTG CAG GGC GAA AAG AGC GCC GAT GCG リピート 図 3-6 分断配列の変異数の割合 上位 10 位のトリプレットリピートに含まれる分断配列のリピート部位と は異なる部位の変異数の割合を示した。横軸がリピート名でヒトでリピー トの個数が1位から順に左から右へ並ぶ。横軸は割合(%) 。 23
  • 25. 3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較 以上の解析からヒト、チンパンジー、マウスではリピートの組成や分断配列 の変異数など全体的な傾向が類似していることが分かった。しかし、生物種ご との網羅解析ではこのような傾向を示す要因が何によるのかは判別できなかっ た。本節ではヒトとのオーソログ性の情報が詳細に分かっているマウスとのオ ーソログ遺伝子を用いて、含まれているリピートの比較によって、この検討を 行った。 3.3.1 オーソログ遺伝子でのリピートの数 オーソログの情報が付加できたものをオーソログ遺伝子、付加できなかった ものをオーソログでない遺伝子と定義した。オーソログでない遺伝子の中には オーソログ情報がまだ存在しないだけでオーソログ遺伝子である場合も考えら れるが、本研究ではその考慮は行わなかった。 ヒトとマウスのオーソログ遺伝子 16,765 配列のうち、うち 8,251 配列に 17,719 リピートが存在した。そのうち、ヒトとマウスでともにリピートが存在 する遺伝子は 6,058 配列、ヒトのみでリピートが存在する遺伝子は 3,729 個で リピートの個数は 5,174 個、マウスのみでリピートが存在する遺伝子は 3,041 配列でリピートの個数は 3,993 個であった。ただし、これらの遺伝子数は完全 に独立ではなく、例えばある配列にヒトのみでの A リピートとマウスのみでの C リピートが含まれている場合がある。 そのため合計は元の遺伝子数を超える。 一方、オーソログでない遺伝子は 17,505 個あり、うち 1,439 遺伝子に 2,302 リ ピートが存在した。 表 3-3 リピートを持つヒトとマウスのオーソログ遺伝子の数 ヒトとマウスのオーソログ遺伝子のうち、ヒトとマウスでともにリピート が存在する配列数、ヒトのみでリピートが存在する配列数、マウスのみで リピートが存在する配列それぞれをマトリックスで示した。 ヒト リピート あり なし あり ヒトとマウス両方 マウスのみ マ ウ 6,058 3,041 ス なし ヒトのみ 3,729 24
  • 26. 3.3.2 オーソログ遺伝子とオーソログでない遺伝子の比較 オーソログ遺伝子とオーソログでない遺伝子を比較することで、ヒトとマウ スでリピートの違いがあるかを検証した。各リピートの割合や長さの平均値を 求めると(図 3-7)、オーソログでない遺伝子でのプロリン(P)とグリシン(G) リピートの割合の高さが顕著であった。リピートの長さの平均値には大きな差 は見られなかった。 20 16 オーソログ遺伝子 18 オーソログ遺伝子 オーソログでない遺伝子 14 オーソログでない遺伝子 16 12 14 12 10 長 % 10 さ 8 8 6 6 4 4 2 2 0 0 S P L E A G K R Q D T V H F I C N Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-7 ヒトでマウスとオーソログ遺伝子と オーソログでない遺伝子でのリピート比較 左:各リピートの割合(%)。横軸が各アミノ酸リピート、縦軸が長さ。ヒ トでリピートの個数が多いものから順に並べた。 右:長さの平均値。横軸が各アミノ酸リピート、縦軸が長さである。 3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さ オーソログ遺伝子のうちヒトのみで存在する各リピートの割合とマウスのみ で存在する各リピートの割合を比較した(図 3-8 左)。図に示したように全体的 な分布に差は見られなかった。次に、それぞれのリピートの長さの平均値を比 較した(図 3-8 右)。標準偏差はヒトのみに存在するリピートにおいてはグルタ ミンリピートが最も大きく、マウスのみに存在するリピートの場合はグリシン リピートが最も大きかった。ヒトのみとマウスのみの場合を比較すると全体の 傾向に大きな差は見られなかった。 25
  • 27. 20 16 18 ヒトのみ ヒトのみ 14 マウスのみ マウスのみ 16 12 14 10 12 長 % 10 さ 8 8 6 6 4 4 2 2 0 0 A S P L G E R K Q D T V F I H N C Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-8 オーソログ遺伝子のうち、ヒトのみのリピートとマウ スのみのリピートの比較 左:リピートの割合。横軸が各アミノ酸リピート、横軸が長さ。ヒトのみ の場合でリピートの個数が多いものから順に並べた。 右:リピートの長さの平均値。横軸がアミノ酸リピート、縦軸が長さであ る。 3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の 分布 ヒトとマウスの両方でリピートを持つ遺伝子の、グルタミンリピートとアラニ ンリピート領域の差を算出した(図 3-9) 。例えばヒトで長さ 10、マウスで長さ 7 のリピート部位では 7-10 = -3 となる。区間を 2 としたヒストグラムに表した。 この結果、ヒトとマウスではほぼ対称的な分布をしていることが確認できた。 したがって、リピートの形成速度には差は見られないことが示唆された。 26
  • 28. 120 45 アラニンリピート 40 グルタミンリピート 100 35 80 30 25 個 数 60 ←+ヒト +マウス→ 個 数 ←+ヒト +マウス→ 20 40 15 10 20 5 0 0 -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 長さの差 長さの差 図 3-9 オーソログ遺伝子のうち、ヒトとマウスの両方でリピ ートを持つ遺伝子での長さの差の分布 ヒトとマウスの両方でリピートを持つ遺伝子のうちアラニンリピート (左) とグルタミンリピート(右)のリピート領域の差。区間を 2 としたヒスト グラム。負の値ではヒトのほうがリピートが長く、正の値ではマウスのほ うが長い。 例えばヒトで長さ 10、マウスで長さ 7 のリピート部位では 7-10 = -3 となる。差が 0 の場合は多いので除外した(アラニンで 645 個、グル タミンで 296 個)。 3.4 リピートを持つタンパク質の機能の比較 3.4.1 ヒトでリピートを持つタンパク質の機能 リピート部位がタンパク質の機能と相関が見られるかを検討するために、ヒ トでリピートを持つタンパク質の機能の有意性を調べた。 ヒトの全 34,270 遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上 位階層の単語に置き換えられている GO slim の単語を割り振った(表 3-4) 。そ のうちリピートを持つ遺伝子は 7,375 種類、持たない遺伝子は 8,146 種類であ った。 まず、各 GO 単語について、リピートを持つ全遺伝子と持たない全遺伝子ご との出現頻度を、GO 単語を割り振った全遺伝子を元に超幾何分布を仮定して p-value を求め、有意水準 p < 0.01 で有意性を検討した(表 3-5 上) その結果、 。 リピートを持つ全遺伝子は転写に関わる遺伝子で有意に多く存在しているが、 代謝や酵素反応に関わる遺伝子では有意に少ないことが分かった。 27
  • 29. 表 3-4 割り振られた GO Slim 単語の内訳 ヒトの遺伝子で割り振られた Go slim 単語の内訳。機能は、B: Biological process, C: Cellular component, M: Molecular function である。 機能 GO slim term 遺伝子の数 B biological_process unknown 705 B cell communication 3,640 B cell growth and/or maintenance 3,763 B cell cycle 785 B cell motility 341 B metabolism 7,428 B response to stress 932 B transport 2,071 B death 490 B development 1,882 B physiological processes 10,925 C cell 10,768 C cellular_component unknown 768 C external encapsulating structure 4 C extracellular 1,175 C unlocalized 75 M chaperone activity 1 M catalytic activity 4,959 M enzyme regulator activity 612 M binding 9,258 M nucleic acid binding 3,073 M molecular_function unknown 779 M motor activity 167 M signal transducer activity 2,704 M structural molecule activity 816 M transcription regulator activity 1,251 M transporter activity 1,475 遺伝子の合計 15,521 次にリピート数が上位 10 位までのリピートを持つ各遺伝子について同様の方 法で有意性を検討した。偶然性の排除のためにボンフェローニによる補正を行 い、有意水準を p < (0.01 / 250)として有意性を検討した(表 3-5 下) その結果、 。 多くのリピートで転写に関わる遺伝子に有意性が見られた。次に各リピート間 でどのくらい機能に相違があるかを検討するために、各リピートの機能に対す る偏りの強さ(p-value として算出されている)に対して全体を分母として割合 を算出し、その値に対してクラスター解析を行い、機能の偏りによって各リピ ートをグループ分けした(図 3-10) 。この結果、特にロイシン(L)リピートを 持つタンパク質は他のリピートを持つタンパク質と比較して機能の分布が異な っていることが分かった。 28
  • 30. 表 3-5 超幾何分布への当てはめ 解析対象を上部に表記した。各項目ごとで比較が可能である。例えば、 「リ ピート全くなし」のものは「リピートを持つもの全体」とのみ比較できる。 n が個数、数値は p-value。有意に多い場合を赤色で、有意に少ない場合 を青色で表記した。 29
  • 31. 図 3-10 ヒトの各リピートの機能の分布における偏りの強さ に対するクラスター解析 ヒトで上位 10 位のリピートに対して、各リピートの機能に対する偏りの 強さ(p-value として算出されている)へのクラスター解析の結果。類似 性が樹状的に示され、近いほど機能の分布が類似している。例えば、グル タミン酸(E)リピートはリシン(K)リピートと最も機能の分布が近い。 ロイシン(L)リピートは他のリピートと比較して機能の分布が最も異な っていることが分かる。 3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能 ヒトとマウスのオーソログ遺伝子においても機能の比較を行った。 すでに GO slim 単語を割り振っていたヒトでリピートを持つ 7,375 遺伝子に は、マウスとのオーソログ遺伝子 6,910 とオーソログ遺伝子ではない 465 遺伝 子が存在する。オーソログ遺伝子とオーソログでない遺伝子の 2 群に対して、 リピートを持つ全遺伝子の有無を元に超幾何分布を仮定して p-value を求め、 有 意性を検討した(表 3-5 上) 。この結果、リピートを持つオーソログ遺伝子は、 cell communication など多くの機能で有意に多く存在していることが分かった。 一方、 リピートを持つオーソログでない遺伝子では structural molecule activity のみが有意に多く存在していた。 また、各 GO slim 単語が割り振られたマウスとのオーソログ遺伝子 6,910 に は、ヒトとマウスでともにリピートを持つ 5,148 遺伝子、ヒトのみでリピート 30
  • 32. を持つ 3,065 遺伝子が存在する(表 3-7)。ただし、3.3.1 と同様の理由でこれら の遺伝子数は完全に独立ではないため、合計は元の遺伝子数を超える。 表 3-7 GO slim 単語が振られたヒトとマウスの オーソログ遺伝子の数 GO slim 単語が振られたヒトとマウスのオーソログ遺伝子の配列数を、ヒ トとマウスでともにリピートが存在する配列数、ヒトのみでリピートが存 在する配列数、マウスのみでリピートが存在する配列それぞれをマトリッ クスで示した。 ヒト リピート あり なし あり ヒトとマウス両方 マウスのみ マ ウ 5.148 2,438 ス なし ヒトのみ 3.065 ヒトとマウスの両方でリピートを持つ遺伝子とヒトでのみリピートを持つ遺伝 子の 2 種類に対して、リピートを持つオーソログ遺伝子の有無を元に超幾何分 布を仮定して p-value を求め、有意性を検討した。その結果、ヒトとマウスでと もにリピートを持つ遺伝子においては cell growth や binding など転写に関わる 機能が有意に多く出現しているが、ヒトのみでリピートを持つ遺伝子ではスト レス応答や触媒活性に関わる機能のみに有意性が見られた。次にヒトとマウス でともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子のそれぞれ の上位 10 位のリピートに対して各リピートの単語の出現頻度を元に超幾何分布 を仮定して有意性を検討した(表 3-6) 。これによるとアラニン(A)リピートや グリシン(G)リピートで、ヒトとマウスでともにリピートを持つ遺伝子に有意 性の見られる機能がある。しかし、全体的に見ると各リピート間でヒトとマウ スでともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子には機能 に大差がないことが明らかとなった。 31
  • 33. 表 3-6 超幾何分布への当てはめ 解析対象を上部に表記した。上下の項目で同じリピート名のもの同士で比 較可能である。n が個数、数値は p-value。有意に多いものを赤色で、有 意に少ないものを青色で表記した。 32
  • 34. 4. 考察 4.1 分断配列を考慮したリピートと分断配列 従来までゲノムワイドにリピートの研究が行われ、各生物種でリピートの統 計情報が報告されていたが、分断配列を考慮した網羅的解析は報告されていな かった。リピートの数の分布に関しては、分断配列を考慮しないリピートでは アミノ酸リピートは 5,397 存在する一方、分断配列を考慮したアミノ酸リピー トは 20,455 とおよそ 3.79 倍多く存在することが分かった。同様にチンパンジ ーではおよそ 3.99 倍(= 15,748 / 3,944)、マウスではおよそ 3.76 倍(= 19,058 / 5,074)多く存在していた。このことは分断配列を持つリピートが豊富に存在 していることを示している。リピートの数の順位については、同じ生物種にお いて、分断配列を考慮した場合と考慮しない場合ではリピート数の順位は異な っていた。ヒトの場合、分断配列を考慮しない場合の上位 3 位のリピートは順 にグルタミン酸(E) 、プロリン(P) 、アラニン(A)であったが、分断配列を 考慮した場合これらは順に 4 位、2 位、5 位となった。一方で、分断配列を考慮 しない場合にセリン(S;5 位) 、ロイシン(L;4 位)のリピートは分断配列を 考慮した場合にはそれぞれ 1 位、3 位となった。これらのことから、分断配列を 持つ割合はセリンやロイシンのリピートの方がグルタミン酸やアラニンのリピ ートよりも相対的に大きいことが分かる。一方、トリプレットリピート病の原 因であるアラニンリピートやグルタミン (Q)リピートはそれぞれ 5 位と 9 位で あり、それほど上位というわけではなかった。つまり、アラニンやグルタミン リピートはリピートの個数の分布においては特異ではなかった。 リピートの長さの平均値の比較においては全体的に大きな差は見られなかっ た。唯一の特徴は、グルタミンリピートの場合のみで分断配列を考慮しない場 合から考慮した場合で標準偏差の減少が見られた。このことは分断配列を持つ グルタミンリピートは比較的分布の広がりが抑えられている可能性があること を示唆している。この理由として考えられるのは、グルタミンリピートでの分 断配列はリピートを安定化させていることである。 分断配列の組成を解析した結果、全コドンの平均使用頻度と分断配列の組成 には相関が見られた。これは、全トリプレットリピートと全コドンの平均使用 頻度との組成に見られた相関と差がなかった。つまり、トリプレットリピート の組成は全コドンの使用頻度に依存し、また分断配列の形成は点変異による可 能性が示された。 次に、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレ ットと分断配列を比較し、塩基の変異部位を調べた。この結果、すべてのリピ ートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが 33
  • 35. 分かった。これらの 2 つの結果から、分断配列の形成は挿入や欠失によって生 じる可能性よりも点変異で生じる可能性の方が強く示唆された。さらにこの結 果は、主にグルタミンリピートに対して提唱されているリピートの進化的な形 成モデル(図 1-3、Hancock et al., 2001)を支持できるものである。なぜなら ば、このモデルでは非同義の分断配列を持つリピートは、同一のコドンで構成 される純粋なリピートに変異する直前の形態であり、同義の分断配列を持つ純 粋でないリピートはリピートの最終的な形態と考えられるためである。また、 全体的に各生物種で傾向が類似していたこととリピートの傾向が似ていたこと も、このモデルを支持できる。 以上の点から、今回用いた 3 種ではリピートの組成や分断配列の変異部位な ど全体的な傾向が類似していること、分断配列の形成は点変異によることが示 唆された。リピートの組成が類似した傾向を示すのには 3 つの可能性が考えら れる。1 つ目は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固 有に形成されるが、ヒト、チンパンジー、マウスの 3 種では遺伝子やタンパク 質が非常によく似ているため、同じ遺伝子内でリピートが保存されているもの が大部分を占め、全体的にみると相違が現れない可能性である。2 つ目の可能性 は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固有に形成さ れるが、相同性のある部位よりも各生物種特有の部位でリピートが形成され、 それが大部分を占めるため全体的にみると相同性のある部位の特徴が抽出でき ない場合である。3 つ目は、リピートは生物種や部位によらずにランダムに起こ るが、全体的に見るとそのランダム性がほぼ同様の傾向を示すため、種ごとの 傾向の差が抽出できないことである。 本節で行った生物種ごとの網羅的解析ではその原因が判別できなかった。よ って、次にオーソログ遺伝子を用いて、リピートの比較を行い、リピートの形 成が生物種ごとに進化速度に差が見られるかの検証を行った。 4.2 ヒトとマウスのオーソログ遺伝子でのリピートの比較 先行研究において、ヒトとマウス・ラットのオーソログ遺伝子の比較を行っ た研究は報告されているが(Alba et al., 2004; Ogasawara et al., 2005) 、用い られている遺伝子数が少なく網羅的な解析は行われていない。そこで本研究で はヒトとマウスのオーソログ遺伝子を用いてリピートの比較を行い、 に挙げ 4.1 たリピートが生物種ごとに形成速度に差が見られるかということについて検討 した。 オーソログ遺伝子において、ヒトのみでリピートが存在する遺伝子数は、マ ウスのみでリピートが存在する遺伝子数とほぼ同じであったが、リピートの個 数はヒトのほうが多かった。また、ヒトとマウス両方、ヒトのみ、マウスのみ でリピートが存在する遺伝子の割合や長さを比較したところ、ヒトとマウスで 34
  • 36. は大きな差は見られなかった。これは 3.1 でヒトとマウスそれぞれで網羅的にリ ピートを抽出した場合とも大差が見られなかったことと一致する。また、ヒト とマウスでオーソログでない遺伝子での比較でも同様に大きな差は見られなか った。 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の分布 ではほぼ対称的に分布していることが確認できた。このことからヒトとマウス の両方でリピートを持つ遺伝子においてもヒトとマウスではリピートの伸び方 に大きな差は見られないことを示している。 以上のことから、リピートの形成はヒトとマウスではあまり有意差がなく、 形成の速度はほぼ等しいことが示唆された。 4.3 リピートを持つタンパク質の機能の比較 リピートを持つ全遺伝子に対する機能の検討によって、転写に関係する機能 など多くでリピート特異的に出現していることが確認できた。このことから少 なくともいくつかのリピートは機能に関係している可能性が示唆された。また この結果は、転写因子に関するものが有意に多いという先行研究(Alba et al., 2004; Faux et al., 2005)と一致する。一方で、代謝や酵素反応に関わる遺伝子 ではリピートは避けられる傾向があることが分かった。この理由として考えら れることは、リピート部位はタンパク質-タンパク質相互作用に直接かかわって いるため、転写結合部位として機能しているが、代謝や酵素反応ではタンパク 質は分泌物質を形成したり、分泌物質自体であるために結合部位が必要でない 可能性が考えられる。一方、Faux らの研究によると原核生物においてはリピー トを持つタンパク質の機能は酵素活性にかかわるものが最も多い(Faux et al., 2005) 。このことから、酵素活性に関わるタンパク質では下等生物では一部のリ ピートは機能部位として働いているが、高等生物になるにつれて進化的にその 機能を持たなくなったということが考えられる。以上の結果から、少なくとも 一部のタンパク質は相互作用部位として機能している可能性が考えられる。 リピートを持つ遺伝子において、オーソログ遺伝子は多くの機能で有意に多 く存在しているが、オーソログでない遺伝子では structural molecule activity が有意に多いのみであり、全体的にはあまり有意差は見られなかった。この結 果から、マウスとオーソログでない遺伝子、つまりリピートを持つヒト固有の 遺伝子においてはそれほど機能に依存的ではないことが示唆された。この理由 として考えられることは、構造に関する遺伝子ではそれが翻訳するタンパク質 においてヒトとマウスで構造的に違いあっても許容されるということである。 つまり、これらのタンパク質ではリピート部位は直接は機能しておらず、全体 的な構造の変異に関与している可能性が考えられる。 以上のことから、ヒトとマウスにおけるリピートの形成速度には大きな差は 35