Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
修士論文ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析      @teapipin
要旨 近年、多くの生物種でゲノムの塩基配列が決定されてきている。その中で大きな割合を占めるのが反復配列である。反復配列は従来は意味のない配列であると考えられてきたが、近年においては数や種類が豊富であることや進化的に保存されているものもあることか...
ノ酸リピートと分断配列を考慮しないアミノ酸リピートの長さの平均値を比較した。グルタミンリピートを除いてすべてのリピートで分断配列を考慮した場合の方が標準偏差は大きかった。  次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や長...
を持つ全遺伝子と持たない全遺伝子ごとの出現頻度を超幾何分布を仮定して有意性を検討した。リピートを持つ全遺伝子は転写に関わる遺伝子で有意に存在しているが、代謝や酵素反応に関わる遺伝子では有意に頻度が減少していることが分かった。また、リピート数が上...
目次1.  序論 ............................................................................................................ 6  1...
4.  考察 .......................................................................................................... 33  4.1 ...
1. 序論1.1 背景1.1.1 ゲノムにおけるリピート  2003 年に終了宣言が出されたヒトゲノム計画          (Lander et al., 2001; Venter etal., 2001; IHGSC, 2004)に代表され...
マイクロサテライト(以下リピートと呼ぶ)は多くの生物種のゲノムに存在するが、生物種や部位によって分布が異なっている。例えば 3 つ組のリピートであるトリプレットリピートの場合、ヒトでは AAT リピートが最も密度が高いが(282 bp / Mb...
CAG ポリグルタミン病                GCN ポリアラニン病            ハンチントン病                     眼咽頭型筋ジストロフィー            脊髄小脳失調症1,2型   など   ...
1.1.3 リピートの伸長モデル  トリプレットリピートの伸長機構に関して、仮説としていくつかのモデルが提唱されており、リピートの伸長と収縮はともに配列の不安定性によって引き起こされると考えられている(Wells et al., 2005; P...
1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点  現在行われているインシリコ手法を用いたリピート研究について紹介する。リピートは種類が豊富であることから、ゲノムの進化において重要な影響を持つと考えられている(Tauts et ...
表 1-1   リピート研究に用いられているクラス分け             (トリプレットリピートの場合)     各クラスには 3 種類のコドンが属しており、全 24 クラス存在する。研究によって     は相補的なクラスを合わせて(例え...
が存在するリピートの方がランダムな配列にエネルギー的により近く、ヌクレオソーム構造に安定性を与えることを示唆した(David et al., 2005)   。さらにSobczak らは CAG リピートを持つ SCA2 の RNA の二次構造...
も、分断配列を考慮しない従来の場合では原因となる候補部位が抽出できていなかった可能性が考えられる。なぜならば、トリプレットリピート病の原因リピートには分断配列を持つものが多いためである。よって分断配列を考慮することで、従来の定義よりもトリプレッ...
多型が多く、ヒトとの相関も低くなることを示した。これはそれぞれのリピートの長さや同義の分断配列の入り方が系統によって差があることを示唆している。Alba らは約 400 のヒト-マウス-ラットのオーソログ遺伝子からリピート部位の CG 含量を調...
1.2 本研究の目的と構成  これまで述べてきたようにリピートの分布は生物種によって偏りがある。しかし、その原因がどのような生物学的要因に由来するのかは分かっていない。また、リピート領域が機能部位であるのかについては解明されていない。  これら...
2.1 データセット2.1.1 配列のデータセットの取得  Emsembl(http://www.ensembl.org/)から、ヒト、チンパンジー、マウスの翻訳領域の配列データを取得した。データセットには重複している遺伝子が存在したため重複を...
development                                  development            1,882                    1,078                        ...
3. 結果3.1 分断配列とリピートの再定義  従来のインシリコ研究では分断配列が考慮されておらず、進化的に必要なリピートの部位を抽出できていなかったという問題が考えられる(図 1-5)                    。またトリプレット...
表 3-1     リピートと分断配列の定義の例           例としてトリプレットリピート病の原因遺伝子 SCA1 を挙げた。左側がト           リプレットリピートの場合、右側が同じ部位のアミノ酸リピートである。  例)脊髄小...
なった。  一方、従来の定義である分断配列を考慮しないリピートでは、ヒトでトリプレットリピートは 1,090 遺伝子に 1,312 存在し、アミノ酸リピートは 3,747 遺伝子に 5,397 存在した。チンパンジーではトリプレットリピートは ...
18                                                                                   18                                   ...
500         450         400         350     300   個     250   数     200         150         100          50             0 ...
3.2.4 分断配列とリピートを構成するトリプレットの変異部位について  分断配列の進化的な形成は、点変異による場合または挿入や欠失による場合の 2 種類が考えられる。また、分断配列の種類や割合の分布は生物種ごとに差が見られる可能性がある。  ...
3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較  以上の解析からヒト、チンパンジー、マウスではリピートの組成や分断配列の変異数など全体的な傾向が類似していることが分かった。しかし、生物種ごとの網羅解析ではこのような傾向を示す要因が何に...
3.3.2 オーソログ遺伝子とオーソログでない遺伝子の比較           オーソログ遺伝子とオーソログでない遺伝子を比較することで、ヒトとマウ         スでリピートの違いがあるかを検証した。各リピートの割合や長さの平均値を    ...
20                                              16  18                                 ヒトのみ                               ...
120                                                                                                  45                   ...
表 3-4    割り振られた GO Slim 単語の内訳     ヒトの遺伝子で割り振られた Go slim 単語の内訳。機能は、B: Biological     process, C: Cellular component, M: Mol...
表 3-5   超幾何分布への当てはめ解析対象を上部に表記した。各項目ごとで比較が可能である。例えば、    「リピート全くなし」のものは「リピートを持つもの全体」とのみ比較できる。n が個数、数値は p-value。有意に多い場合を赤色で、有...
図 3-10 ヒトの各リピートの機能の分布における偏りの強さ     に対するクラスター解析     ヒトで上位 10 位のリピートに対して、各リピートの機能に対する偏りの     強さ(p-value として算出されている)へのクラスター解析...
を持つ 3,065 遺伝子が存在する(表 3-7)。ただし、3.3.1 と同様の理由でこれらの遺伝子数は完全に独立ではないため、合計は元の遺伝子数を超える。     表 3-7 GO slim 単語が振られたヒトとマウスの     オーソログ遺...
表 3-6   超幾何分布への当てはめ解析対象を上部に表記した。上下の項目で同じリピート名のもの同士で比較可能である。n が個数、数値は p-value。有意に多いものを赤色で、有意に少ないものを青色で表記した。                ...
4. 考察4.1 分断配列を考慮したリピートと分断配列  従来までゲノムワイドにリピートの研究が行われ、各生物種でリピートの統計情報が報告されていたが、分断配列を考慮した網羅的解析は報告されていなかった。リピートの数の分布に関しては、分断配列を...
分かった。これらの 2 つの結果から、分断配列の形成は挿入や欠失によって生じる可能性よりも点変異で生じる可能性の方が強く示唆された。さらにこの結果は、主にグルタミンリピートに対して提唱されているリピートの進化的な形成モデル(図 1-3、Hanc...
は大きな差は見られなかった。これは 3.1 でヒトとマウスそれぞれで網羅的にリピートを抽出した場合とも大差が見られなかったことと一致する。また、ヒトとマウスでオーソログでない遺伝子での比較でも同様に大きな差は見られなかった。 ヒトとマウスの両方...
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)
Upcoming SlideShare
Loading in …5
×

ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)

2,101 views

Published on

自分の大学院時代の修士論文です。
ファイルの整理をしていて見つけたので懐かしくなってアップしました。
コンピュータによる遺伝子解析の研究です。
結果と考察が中心で数理的な理論は省いています。

発表スライドはこちら
http://www.slideshare.net/teapipin/ss-15384007

発表時の台本はこちら
http://www.slideshare.net/teapipin/ss-16721377

Published in: Education
  • Be the first to comment

ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析(修士論文)

  1. 1. 修士論文ヒト、チンパンジー、マウスにおけるトリプレットリピートの網羅的解析 @teapipin
  2. 2. 要旨 近年、多くの生物種でゲノムの塩基配列が決定されてきている。その中で大きな割合を占めるのが反復配列である。反復配列は従来は意味のない配列であると考えられてきたが、近年においては数や種類が豊富であることや進化的に保存されているものもあることから生物的な重要性が考えられている。反復配列は散在型と縦型に分類される。後者の中でも、ヒトの場合特に注目されるのがトリプレットリピートである。ダイナミック変異と呼ばれるトリプレットリピートの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたらすためである。この疾患は、現時点までにおよそ 40 種類確認され、原因となる伸長部位はすべて遺伝子領域内に存在している。この病気の研究ではトリプレットリピートを検出することが不可欠であるが、リピートの範囲を厳密に定義することは難しい。なぜならば、リピートにはその領域内にリピートとは異なる配列である分断配列(interruption)が存在するためである。分断配列の生物学的な意義はリピート部位のエネルギー的な安定性に関与する可能性やリピートの伸張を抑える作用が示唆されているが、よく分かってはいない。 このような点を踏まえ、本研究では従来行われていなかった分断配列を考慮したリピートの網羅的解析を行うことで、 (1)分断配列を考慮したリピートの再定義、 (2)リピートの進化的な形成速度は生物種ごとに異なるのかの検証、(3)リピートを持つタンパク質の機能には偏りが見られるかの検証、を行うことを目的とした。 分断配列を考慮したリピートの再定義はトリプレットリピート病の原因遺伝子と統計学的有意性を考慮して行った。統計学的に 0.1 %の有意水準において、リピートを形成するトリプレット数やアミノ酸数は 5 以上でないと偶然性を排除できないことから、分断配列を除いたトリプレット部位やアミノ酸部位の最低数を 5 以上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピートは分断配列を 0 個以上持つとした。またリピートの長さはリピート領域のトリプレット数またはアミノ酸数と定義した。さらに、リピートを構成するトリプレットやアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと定義した。 この定義に基づき、 公共データベースである Emsembl から取得した翻訳領域のデータセットからリピートを抽出すると、ヒト 16,765 遺伝子のうちアミノ酸リピートは 20,455 個、 チンパンジー22,475 遺伝子のうちアミノ酸リピートは 15,748 個、マウス 28,594 遺伝子のうちアミノ酸リピートは 19,058 個存在することが分かった。アミノ酸リピートの上位 3 位の個数は、ヒトでは順にセリン(S) 、プロリン(P) 、ロイシン(L)であったが、チンパンジーとマウスでは順に S、L、P リピートとなった。次に、ヒトで分断配列を考慮したアミ 1
  3. 3. ノ酸リピートと分断配列を考慮しないアミノ酸リピートの長さの平均値を比較した。グルタミンリピートを除いてすべてのリピートで分断配列を考慮した場合の方が標準偏差は大きかった。 次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や長さの平均値を比較した。リピートの組成比に対してヒトとチンパンジー、ヒトとマウスでの相関係数は 0.993、0.996 となり、高い相関が見られた。ヒトの全リピートに含まれている全分断配列を抽出すると、 GAA、GAG、GCG、CTG、CAA という順に存在することが分かった。次に、翻訳領域における全トリプレットの数とすべての各トリプレットリピートの長さとの相関係数は 0.719 であり相関が見られた。また、すべての全トリプレットの数と分断配列の数との間でも相関(相関係数 0.634)が見られ、トリプレットリピートや分断配列の組成は翻訳領域で用いられているトリプレットの組成とほぼ一致していることが分かる。上位 10 位のトリプレットリピートについて、リピートを構成するトリプレットと分断配列を比較し塩基の変異数を調べた。その結果、すべてのリピートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが分かった。この結果からリピートの進化的な形成は点変異によって短いリピートが形成され、それによってリピートの伸長が生じるとするモデルを支持できる。また、全体的な分布ではマウスで割合がやや異なる場合もあるが、全体的に各生物種で傾向が類似していた。次にヒトとマウスのオーソログ遺伝子16,765 配列を取得しリピートを抽出すると、8,251 配列に 17,719 リピートが存在した。そのうち、ヒトとマウスでともにリピートが存在する遺伝子は 6,058配列、ヒトのみでリピートが存在する遺伝子は 3,729 個でリピートの個数は5,174 個、マウスのみでリピートが存在する遺伝子は 3,041 配列でリピートの個数は 3,993 個であった。 ただし、 これらの遺伝子数は完全に独立ではないため、合計は元の遺伝子数を超える。 一方、オーソログでない遺伝子は 17,505 個あり、うち 1,439 遺伝子に 2,302 リピートが存在した。まず、ヒトのみで存在する各リピートの割合とマウスのみで存在する各リピートの長さの平均値や割合を比較すると、全体的な分布に差は見られなかった。ヒトとマウスの両方でリピートを持つ遺伝子の、グルタミンリピートとアラニンリピート領域の差を算出すると、ヒトとマウスではほぼ対称的な分布をしており、リピートの形成速度には差は見られないことが示唆された。以上の結果から、これらの生物種ではリピートの進化的な形成速度はほぼ同じであることが示唆された。 次に、リピート部位がタンパク質の機能と相関が見られるかを検討するために、 ヒトでリピートを持つタンパク質の機能の有意性を調べた。 ヒトの全 34,270遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上位階層の単語に置き換えられている GO slim の単語を割り振ると、リピートを持つ遺伝子は 7,375種類、持たない遺伝子は 8,146 種類であった。各 GO 単語について、リピート 2
  4. 4. を持つ全遺伝子と持たない全遺伝子ごとの出現頻度を超幾何分布を仮定して有意性を検討した。リピートを持つ全遺伝子は転写に関わる遺伝子で有意に存在しているが、代謝や酵素反応に関わる遺伝子では有意に頻度が減少していることが分かった。また、リピート数が上位 10 位までのリピートを持つ各遺伝子について同様の方法で有意性を検討すると、多くのリピートで転写に関わる遺伝子に有意性が見られた。さらに各リピートの機能に対する偏りの強さに対してクラスター解析を行い、各リピートをグループ分けした。特にロイシン(L)リピートを持つタンパク質は他のリピートを持つタンパク質と比較して機能の分布が異なっていることが分かった。また、リピートを持つヒトとマウスのオーソログ遺伝子での比較においても、機能の分布に差が見られたことから、一部のリピートはタンパク質の機能に関係している可能性が高いことが示唆された 以上の結果から、分断配列はリピートの形成過程において点変異で出現すること、ヒト、チンパンジー、マウスではリピートの進化的な形成速度はほぼ同じであること、一部のリピートはタンパク質の機能に関係している可能性が高いこと、特にロイシン(L)リピートを持つタンパク質は他のリピートを持つタンパク質と比較して機能の分布が異なっていること、の4点が示唆された。 3
  5. 5. 目次1. 序論 ............................................................................................................ 6 1.1 背景....................................................................................................... 6 1.1.1 ゲノムにおけるリピート ................................................................ 6 1.1.2 トリプレットリピートがもたらす疾患 ........................................... 7 1.1.3 リピートの伸長モデル .................................................................... 9 1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点 ......... 10 1.1.5 オーソログ遺伝子でのリピート部位の比較 .................................. 13 1.1.6 リピートとタンパク質の機能 ....................................................... 14 1.2 本研究の目的 ...................................................................................... 152 材料と方法 ................................................................................................ 15 2.1 データセット ...................................................................................... 16 2.1.1 配列のデータセットの取得 ........................................................... 16 2.1.2 オーソログ遺伝子のアノテーション情報の取得 ........................... 16 2.1.3 GO アノテーション情報の取得 .................................................... 16 2.2 超幾何分布 .......................................................................................... 16 2.3 クラスター解析 ................................................................................... 173. 結果 .......................................................................................................... 18 3.1 分断配列とリピートの再定義 .............................................................. 18 3.2 分断配列を考慮したリピートの抽出 ................................................... 19 3.2.1 リピートの抽出 ............................................................................ 19 3.2.2 リピートの割合や長さの比較 ....................................................... 20 3.2.3 分断配列の種類や分布 .................................................................. 21 3.2.4 分断配列とリピートを構成するトリプレットの変異部位について 23 3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較 ....................... 24 3.3.1 オーソログ遺伝子でのリピートの数 ............................................. 24 3.3.2 オーソログ性のある遺伝子とオーソログ性のない遺伝子の比較 .. 25 3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さの違い ................................................................................................................ 25 3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの 差の分布 .................................................................................................. 26 3.4 リピートを持つタンパク質の機能の比較 ............................................ 27 3.4.1 ヒトでリピートを持つタンパク質の機能...................................... 27 3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能 ................ 30 4
  6. 6. 4. 考察 .......................................................................................................... 33 4.1 分断配列を考慮したリピートと分断配列 ............................................ 335 まとめ ....................................................................................................... 386 謝辞 ........................................................................................................... 407. 参考文献 ................................................................................................... 41 5
  7. 7. 1. 序論1.1 背景1.1.1 ゲノムにおけるリピート 2003 年に終了宣言が出されたヒトゲノム計画 (Lander et al., 2001; Venter etal., 2001; IHGSC, 2004)に代表されるように近年、大規模解析によって多くの生物種でゲノムが決定されて来ている。例えば、線虫(CESC, 1998)やショウジョヨウバエ(Adams et al., 2000)といった無脊椎動物だけでなく、マウス(Waterston et al., 2002)やチンパンジー(CSAC, 2005)などの脊椎動物や、シロイロナズナ(Tabata et al., 2000) 、イネ(Sasaki et al., 2002)などの植物においてもゲノムが決定されてきている。 この結果、ゲノムではイントロンや遺伝子間領域などの生物学的意義が解明されていない部位が大部分を占めることが分かってきた。反復配列もそのひとつであり、例えばヒトの場合、ゲノム全体の 44 %(1,400 Mbp)を占めている(Lander et al., 2001) 。反復配列は従来はジャンク DNA であると考えられ、意味のない配列であると捉えられていたが、近年においては数や種類が豊富であることや進化的に保存されているものもあることから少なくとも一部は生物的な重要性を持つのではないかと考えられている。 反復配列は転移性や位置の分布によって散在型反復配列と縦型反復配列の 2種類に分類される。散在型反復配列とは反復配列の個々の単位がゲノム上にランダムに散らばっている配列であり、ゲノムの位置を転移することによって形成されたと考えられている。散在型反復配列は 4 種類に分類される。短い DNA配列である短散在型核因子 (SINE) 長い配列である長散在型核因子 、 (LINE) 、端末に長い反復配列を持つ LTR エレメントの 3 種類は、逆転写酵素によってDNA に複写されることで転移する。一方、DNA トランスポゾンは DNA 断片が直接転移する。 転移はゲノムの DNA 配列を変異させることから突然変異の原因となるため、多様性という面で生物の進化に影響を与えてきたと考えられている。 一方、縦型反復配列とは反復単位が隣り合って並んでいる配列であり、これは染色体のセントロメア近傍に局在するサテライト DNA、反復単位が 5-30 bpで長さが 500 bp 以上であるのミニサテライト、 反復単位が 1-6 bp で長さが 500bp 以下であるマイクロサテライトに分類される。例えば、細胞の分裂回数の制限にかかわるテロメアは TTAGGG という配列が 2,000 回以上繰り返されたミニサテライトを持つ。縦型反復配列は元となった配列が増幅してできたと考えられており、転移によって形成されたと考えられている散在型反復配列とは形成過程が異なると考えられている。 6
  8. 8. マイクロサテライト(以下リピートと呼ぶ)は多くの生物種のゲノムに存在するが、生物種や部位によって分布が異なっている。例えば 3 つ組のリピートであるトリプレットリピートの場合、ヒトでは AAT リピートが最も密度が高いが(282 bp / Mb) (Subramanian et al., 2003a)、線虫では AAG リピートが最も密度が高い(105 bp / Mb) (Tóth et al., 2000) 。また種内でも分布に差が見られる。例えばヒトにおいては、A, AT, AC, AAT, AAC, AAG, AGC, AAAC,AAAT, AAAG, AAGG, AGAT の各リピートは豊富であるが、C, CG, ACT, ACG,AACC, AACG, AACT, AAGC, AAGT, ACCC, ACCG, ACCT, CCCG, CCGG の各リピートは豊富ではない。また配列における密度は、偶数の組(2 つ組、4 つ組、6 つ組)のリピートでは 2,000-3,000 bp / Mb、奇数の組(3 つ組、5 つ組)のリピートは 500-1,000 bp / Mb であり、 偶数の組のリピートの方が密度が大きい(Subramanian et al., 2003b)。さらにヒトの場合、翻訳領域における 3 つ組リ ピ ートはイントロンや遺伝子間領域の場合の 2 倍多く存在している が(Subramanian et al., 2003b) つ組、4 つ組、5 つ組のリピートは翻訳領域 、2よりもイントロンや遺伝子間領域に多く存在している(Tóth et al., 2000) 。 一方、翻訳領域でのアミノ酸リピートの分布についても報告されている。例えば、原核生物よりも真核生物のほうがアミノ酸リピートははるかに豊富である(Faux et al., 2005) 。また、グリシン、セリン、プロリンの各リピートは真核・原核生物とも存在するが、グルタミン、アスパラギン、グルタミン酸の各リピートは原核生物ではほとんど存在しない。さらに真核生物においては、疎水性のアミノ酸リピートよりも極性のアミノ酸リピートの方が多く存在する(Marcotte et al., 1999)。 リピートの分布が生物種間で異なるのは、リピートによっては生物種や部位依存的に機能を持つためではないかと考えられている。翻訳領域の上流領域におけるリピートは、DNA の二次構造形成によって遺伝子の転写調節に関わっている可能性や(Catasti et al., 1999) 、様々な転写因子の相互作用に影響する可能性が示唆されている(Martienssen et al., 2001) 。1.1.2 トリプレットリピートがもたらす疾患 ヒトの場合、リピートの中でも特に注目されるのがトリプレットリピートである。ダイナミック変異(dynamic mutation)と呼ばれるトリプレットリピートの異常な伸長は、遺伝性の疾患であるトリプレットリピート病をもたらすためである。Cleary らのレビューによると、この疾患において患者は、健常者よりも数倍以上リピートが長く、その家系では世代を経るに連れてリピートが長くなっていく。そのため、発症年齢が早くなり、重篤化していく(表現促進現象) (Cleary et al., 2003)。 7
  9. 9. CAG ポリグルタミン病 GCN ポリアラニン病 ハンチントン病 眼咽頭型筋ジストロフィー 脊髄小脳失調症1,2型 など 手足性器症候群 など 5’末端 3’末端 5’UTR イントロン 翻訳領域 3’UTR脊髄小脳失調症12型 CAG フリードライヒ症候群 GAA 筋強直性ジストロフィー1型 CTG 筋強直性ジストロフィー2型 CCTG 脊髄小脳失調症10型 ATTCT 図 1-1 トリプレットリピート病 代表的なトリプレットリピート病の原因部位を遺伝子上に模式的に表した。名称と リピート配列を示した。上の囲みのポリグルタミン病とポリアラニン病はタンパク 質に翻訳される。下の囲みのものは非翻訳領域に存在する。 トリプレットリピート病は 1991 年にハンチントン病の原因リピート部位が同定されて以来、現時点までにおよそ 40 種類確認され、原因となる伸長部位はすべて遺伝子領域内に存在している。例えば、翻訳領域に原因を持つハンチントン病などは、グルタミンをコードする CAG リピートが伸長しており、ポリグルタミン病と総称されている(Cleary et al., 2003) 。眼咽頭型筋ジストロフィーなどはアラニンをコードする GCN リピート (N はどの塩基でもよい) を持つため総称してポリアラニン病と呼ばれる。これらの場合、コードされたタンパク質の構造変異による凝集体の蓄積や機能異常が病気の原因であると考えられている(Cleary et al., 2003)。一方、非翻訳領域として、5’ UTR に原因リピートを持つ脆弱 X 染色体症候群 A 型(CGG リピート)や 3’ UTR に原因リピートを持つ筋強直性ジストロフィー1 型(CTG リピート) 、イントロンに原因リピートを持つフリードライヒ症候群(GAA リピート)などが知られている。これらの場合は DNA や RNA の構造変異や機能欠損が病気の原因となると考えられている。 一般に翻訳領域で原因となるリピートはリピート数が比較的少ないが (40~100 リピート) 、非翻訳領域で原因となる場合はリピート数が非常に多くなる(50~5000 リピート) (Cleary et al., 2003)。他に、脊髄小脳失調症 10 型や筋強直性ジストロフィー2 型はそれぞれ ATTCT、CCTG というトリプレット以外のリピートが原因である。 以上のようにリピート病にも様々なタイプが存在することが明らかになりつつある。しかしながら原因遺伝子産物の正常機能を含め、なぜリピートの伸長が病気につながるのか、またリピートがなぜ異常伸長するのかといった機構については不明な点が多い。 8
  10. 10. 1.1.3 リピートの伸長モデル トリプレットリピートの伸長機構に関して、仮説としていくつかのモデルが提唱されており、リピートの伸長と収縮はともに配列の不安定性によって引き起こされると考えられている(Wells et al., 2005; Pearson et al., 2005)。通常の DNA は B 型構造という右巻きの二重らせん構造を形成する。しかし、一部の特異的なリピート配列が存在する部位では B 型構造が形成できず、温度やイオン濃度、pH などに依存して異なる様々な立体構造が形成される場合がある。この立体構造は non-B 型構造と呼ばれ、 DNA の不安定性をもたらすと考えられている(図 1-2) 。Wells らの報告によると、複製、修復、組換えのそれぞれの場合に non-B 型構造が形成されることによってリピートの伸長・収縮が起こる。複製時にリピートの伸長・収縮が起こるとするモデルでは、 ラギング鎖で non-B型構造が形成されることでリピートの伸長・収縮が起こるとする。新生鎖でnon-B 型構造が形成されるとリピートの伸長が起こり、鋳型鎖で non-B 型構造が形成されるとリピートの収縮が起こる。また、DNA の修復時にリピートの伸長・収縮が起こるとするモデルでは、修復される鎖でニック(切れ目)が入った後その近傍で non-B 型構造が形成されると、その状態で修復が完了するためにリピートの伸長・収縮が起こるとする。さらに、組換えの時にリピートの伸長・収縮が起こるとするモデルでは、進入した鎖において non-B 型構造が形成されると伸長したリピートが形成されるとする。 図 1-2 non-B 型構造(Wells et al., 2005 より抜粋) non-B 型構造の名称と構造、特異的な配列を挙げた。それぞれ特異的な配 列に応じて 5 種類の各 non-B 型構造が形成される。例えば、A-T リッチな 部位では温度やイオン濃度、 などに依存して DNA Unwinding Element pH という特異的な構造が形成される。 9
  11. 11. 1.1.4 現在のインシリコ研究でのリピートの数え方とその問題点 現在行われているインシリコ手法を用いたリピート研究について紹介する。リピートは種類が豊富であることから、ゲノムの進化において重要な影響を持つと考えられている(Tauts et al., 1986; Kashi et al., 1997) 。そのため、インシリコ研究では各生物種のリピートの長さや位置などの統計情報の解析や、特定のリピート部位の塩基や長さの違いの種間比較が行われている。これらの研究において、 リピートの数え方は大きく分けて2種類ある (Baldi et al., 2000)。まず DNA を非翻訳領域のみまたは翻訳領域と非翻訳領域の区別をせずに数える場合は、配列を一方向から順にリピートを抽出していく。しかし、重複が生じるのでそれを除去するためにリピートのコドンを 1 つないし 2 つずらした場合(例えば CAG に対する AGC、GCA)を同じクラスとし合計 24 のクラスとしてまとめる場合や、12 のクラス(相補コドンを同じクラスに分類する)または 10 のクラス(AAA など 3 塩基が同じものを考えない)に分類する場合もある(表 1-1) 。一方、翻訳領域のみでリピートを抽出する場合は、アミノ酸に翻訳されることを考慮し、読み取り枠に従ってトリプレットリピートまたはアミノ酸リピートを抽出する。いずれの場合も連続するトリプレットをリピートとして数えている。 しかし、リピートの範囲を厳密に定義することは難しい。なぜならば、リピートには分断配列(interruption)が存在する場合があるためである。分断配列とはリピート内に存在する、リピートとは異なる配列のことである。トリプレットリピート病の場合は 1 トリプレットの分断配列が 1~3 個存在するものが多い。例えば、手足性器症候群の原因遺伝子である HoxA13 遺伝子は GCG リピート部位に GCC、GCT、GCC という異なる3種類の分断配列が存在している(図 1-3)。 10
  12. 12. 表 1-1 リピート研究に用いられているクラス分け (トリプレットリピートの場合) 各クラスには 3 種類のコドンが属しており、全 24 クラス存在する。研究によって は相補的なクラスを合わせて(例えば、AAC クラスと GTT クラス) 、全 12 クラス として数える場合や、さらに AAA(TTT)クラスと CCC(GGG)クラスを除外し て全 10 クラスとして数える場合もある(各々を1つ組のリピートとして算出する ため)。 クラス名 属するすべてのコドン クラス名 属するすべてのコドン AAA AAA TTT TTT AAC AAC ACA CAA GTT GTT TGT TTG AAG AAG AGA GAA CTT CTT TCT TTC AAT AAT ATA TAA ATT ATT TAT TTA ACC ACC CAC CCA GGT GGT GTG TGG ACG ACG CGA GAC CGT CGT GTC TCG ACT ACT CTA TAC AGT AGT GTA TAG AGC AGC CAG GCA CTG CTG GCT TGC AGG AGG GAG GGA CCT CCT CTC TCC ATC ATC CAT TCA ATG ATG TGA GAT CCC CCC GGG GGG CCG CCG CGC GCC CGG CGG GCG GGC SCA2 ・・・ (CAG)13CAA(CAG)9 ・・・ HoxA13 ・・・ (GCG)3GCCGCGGCT(GCG)3GCCGCG ・・・ 図 1-3 リピートと分断配列の表記法 左側が遺伝子名、右側がリピート部位である。2 つともトリプレットリピ ート病の原因遺伝子である。本研究ではリピート部位の表記方法は( )内に リピートを構成するトリプレットやアミノ酸を表記し、リピート数を添え る。分断配列はリピート部位に囲まれた 1 トリプレットであり、赤字で表 記する。例えば、SCA2 の場合、リピート長 13 とリピート長 9 の CAG リ ピートの間に分断配列 CAA が存在している。HoxA13 の場合、GCG リピ ートの間に GCC, GCT, GCC の 3 種類の分断配列が存在する。 分断配列の生物学的な意義はよく分かっていないが、臨床・実験系と進化系の2 つの側面から研究がなされている。臨床・実験系の研究者は分断配列はリピートに対して機能を持つと考え、リピート部位のエネルギー的な安定性に関与する可能性やリピートの伸張を抑える作用があることを仮定している。例えばWeisman らは CGG リピートを持つ FMR1 の DNA 構造解析の結果、分断配列AGG がリピートに対して熱耐性を与えることや non-B 型構造の一種であるtetraplex 構造の形成を抑える作用を持つことを示した(Weisman-Shomer etal., 2000)。また David らは CAG リピートや CGG リピートを持つ DNA のヌクレオソームの安定性を調べ、分断配列が存在しないリピートよりも分断配列 11
  13. 13. が存在するリピートの方がランダムな配列にエネルギー的により近く、ヌクレオソーム構造に安定性を与えることを示唆した(David et al., 2005) 。さらにSobczak らは CAG リピートを持つ SCA2 の RNA の二次構造解析を行い、分断配列はリピートによって形成されるヘアピンのループの部位に存在し、分断配列数が増加するにつれ分岐するヘアピン部位も増加することを発見した。これは分断配列数の増加に伴い、RNA が折りたたまれることで構造的に安定することや自由エネルギーが増加することからエネルギー的にも安定することを示している(Sobczak et al., 2005)。以上の研究結果は、リピート部位が分断配列によってゲノム上で異常構造をとらないようにすることによってリピートの異常伸長が抑えられることや、DNA や RNA の構造変異やそれによる機能欠損を起しにくくしていることを示唆しており、トリプレットリピート病の発症や症状を抑える作用につがなると考えられている。実際、臨床系の研究において CAGリピートを持つ脊髄小脳失調症 1 型の患者の遺伝子を調べた結果、分断配列CAT を持つ患者の方が分断配列を持たない患者よりも発症年齢が遅くなり、症状も和らげられることが確認されている(Matsuyama et al.,1999) 。 一方、分子進化の研究者の間では、分断配列の形成を包含したリピートの進化モデルが提唱されている(Hancock et al., 2001)。これは翻訳領域かつ主にグルタミンリピートについて提唱されているモデルである。このモデルでは、分断配列はリピートの進化の過程で形成されると考えられている。リピートの形成は、点変異によって同一のコドンの集約が起こり(purifying selection と呼ばれる) 、短いリピートが形成されてはじめてリピートの伸長が起こると考えられている(図 1-4) 。リピートは必要な長さに伸長するが、長いリピートは異常伸長を起こしやすく危険であるため、安定化のために一部で同義の置換が生じる。これが同義の分断配列の形成である。リピートの進化モデルでは同義の分断配列はリピートの安定性に寄与すると考え、非同義の分断配列の機能には言及していない。しかし、点変異によって純粋なリピートの形成が起こらないとリピートの異常伸長も起こらないと考えることから、同義・非同義の分断配列ともリピートの安定に関与していると考えられるであろう。以上のように、分断配列については、臨床・実験系と進化系の研究者の間でそれぞれ独立にモデルが立てられているが、どちらの場合も安定性に着目していることが分かる。 このように分断配列の重要性は示唆されているが、従来のインシリコ研究では分断配列が考慮されておらず、進化的に見て必要なリピートの部位を抽出できていなかったという問題が考えられる。例えばオーソログ遺伝子のリピート部位の比較において、一方の生物種で分断配列があり、もう一方の種で分断配列がない場合従来の方法ではリピートの長さや種類などの比較が行えていなかった(図 1-5) 。そのため、各生物種の網羅的解析に対しても全体的な分布にも影響を与えていると考えられる。またトリプレットリピート病の研究において 12
  14. 14. も、分断配列を考慮しない従来の場合では原因となる候補部位が抽出できていなかった可能性が考えられる。なぜならば、トリプレットリピート病の原因リピートには分断配列を持つものが多いためである。よって分断配列を考慮することで、従来の定義よりもトリプレットリピート病の原因部位により近いリピートを抽出でき、新たな原因の候補部位をより正確に抽出できる可能性がある。 CAT CAC CAT CAG ↓ 点変異 CAT CAC CAG CAG purifying selection ↓ 点変異 CAG CAC CAG CAG ↓ 点変異 CAG CAG CAG CAG 純粋なリピート CAG CAG CAG CAG CAG CAG CAG CAG リピートの伸長 ↓ 点変異 CAG CAG CAA CAG CAG CAG CAG CAG 純粋でないリピート 図 1-4 リピートの進化的な形成モデル (Hancock et al., 2001 をもとに作成) グルタミンリピートを例にする。CAG と CAA のみがグルタミンをコード する。このモデルでは同一コドンで形成される純粋なリピートは非同義の 分断配列が点変異を起こすことで形成されると考えられている。点変異に よって同一のコドンへの集約が起こる現象は purifying selection と呼ばれ る。リピートの伸長は純粋なリピートが形成されて起こるが、一部で同義 の分断配列が点変異によって純粋でないリピートが生じ、リピートを安定 化させると考えられている。1.1.5 オーソログ遺伝子でのリピート部位の比較 リピートの研究では各生物種ごとに網羅的にリピートを抽出し、比較する方法以外に、オーソログ遺伝子におけるリピート部位の長さや塩基の変化を比較する方法が試みられている。先行研究において、ヒトとマウス・ラットのオーソログ遺伝子の比較を行った研究は報告されている。例えば、小笠原らは 16 系統のマウスの各 50 遺伝子に存在するグルタミンリピートの長さをヒトの場合と比較した(Ogasawara et al., 2005)。かれらはマウスで CAG のみで構成されるmonomorphic なグルタミンリピートの長さはヒトと相関が高いが、CAG とCAA で構成される polymorphic なグルタミンリピートの場合はマウスの種内で 13
  15. 15. 多型が多く、ヒトとの相関も低くなることを示した。これはそれぞれのリピートの長さや同義の分断配列の入り方が系統によって差があることを示唆している。Alba らは約 400 のヒト-マウス-ラットのオーソログ遺伝子からリピート部位の CG 含量を調べ、 ヒトの GC 含量の割合はマウスやラットの場合のおよそ 2倍であることを示した(~0.2 bp / Mb > ~0.1 bp / Mb)。また、オーソログ遺伝子をヒトとマウスでともにリピートが存在する遺伝子、ヒトのみでリピートが存在する遺伝子、マウスのみでリピートが存在する遺伝子に分類し、CG 含量の割合の高さは各生物種にのみリピートが存在する遺伝子に依存することを確認した(Alba et al., 2004)。このような先行研究はあるが、用いられている遺伝子数が少なく網羅的な解析は行われていない。 Crebbp 遺伝子の場合 ヒト QQQQQQQQQQQQQQQQQQ マウス QHQQQQQQQQQQQQQQQ (このヒスチジン(H)は CAC によってコードされる) 図 1-5 分断配列を考慮することの利点(リピートの進化的な比較の場合) Crebbp 遺伝子の場合を例にする。グルタミン(Q)リピートは、ヒトの場合長さ 18 であ るが、マウスでは分断配列であるヒスチジン(H)が存在するため、従来の定義では長さ が 15 となる。しかし、H のコドンは CAC であり、グルタミンをコードしている CAG、 CAA と一文字異なるだけである。そのため、H は塩基の変化によって生じたと考える方 が妥当である。 よって分断配列を考慮した場合のほうが進化的な比較が行いやすくなると 考える。この場合マウスでは長さは分断配列を入れて 17 となる。1.1.6 リピートとタンパク質の機能 タンパク質のリピート部位が生物学的な機能を持つかは不明である。一方で、タンパク質自体の機能のアノテーションは進んでいるため、いくつかの研究ではリピートを持つタンパク質の機能について考察されている。例えば、Faux らはリピートを持つタンパク質は、真核生物では転写・翻訳に関わるものが最も多い(約 50 %)が、原核生物では酵素活性に関わるものが最も多い(約 25 %)ことを示した(Faux et al., 2005)。また、Alba らはリピートを持つ 1,833 タンパク質の分子機能を調べ、アラニン、グリシン、グルタミン、プロリンの各リピートは転写因子において有意に存在していることを明らかにした (Alba et al.,2004)。 14
  16. 16. 1.2 本研究の目的と構成 これまで述べてきたようにリピートの分布は生物種によって偏りがある。しかし、その原因がどのような生物学的要因に由来するのかは分かっていない。また、リピート領域が機能部位であるのかについては解明されていない。 これらの点を踏まえ、本研究では従来行われていなかった分断配列を考慮したリピートの網羅解析によって、リピートの進化的な形成速度は生物種によって差が見られるか、またリピートを持つ遺伝子はタンパク質の機能に偏りが見られるか、の 2 点を解明することを目的とした。分断配列を考慮することの利点は各生物種内でのリピートの比較や生物種間での進化的な比較を従来よりも正確に行うことができると考えられることである。本研究では、ヒトのリピートの分布の違いを検討するために、ヒトと近縁であるチンパンジーとマウスを対象として用いた。近縁種間でリピートを比較することで 3 種での相違する部分を進化的に捉えやすいためである。 研究の構成としては、まず分断配列を考慮したリピートの再定義を行った。今まで分断配列を定義した研究は報告されていないため、研究の最初の段階で定義を行う必要があったためである。 次にこの定義に従い、分断配列を考慮してヒト、チンパンジー、マウスのリピートを抽出し、長さや割合がどのように分布しているかを調べた。また、これを元に分断配列とリピート部位の塩基の違いを比較し、分断配列がリピートの進化的な形成過程において出現するというモデル(図 1-3、Hancock et al.,2001)の検討を行った。 続いて、ヒトとマウスのオーソログ遺伝子においてリピートの比較を行った。従来の研究では用いられているオーソログ遺伝子の数が少なく、得られた情報が十分でないためである。ここでは、オーソログ遺伝子でのリピートをヒトとマウスでともにリピートを持つ遺伝子、ヒトのみでリピートを持つ遺伝子、マウスのみでリピートを持つ遺伝子の 3 種類に分類し、それらの長さの平均値や占める割合などの分布を比較し、両生物種でリピートの進化速度に差があるかを検討した。 最後に、リピートがタンパク質の機能と関係があるのかを検討するために、リピートを持つタンパク質の機能の有意性を検討した。ここではヒトでリピートを持つタンパク質の機能の分布とヒトとマウスのオーソログのタンパク質の機能の分布を調べることで、各リピートや生物種間で相違を検討した。2 材料と方法 15
  17. 17. 2.1 データセット2.1.1 配列のデータセットの取得 Emsembl(http://www.ensembl.org/)から、ヒト、チンパンジー、マウスの翻訳領域の配列データを取得した。データセットには重複している遺伝子が存在したため重複を除去し、その結果、ヒト 34,270 遺伝子、チンパンジー22,475遺伝子、マウス 28,594 遺伝子を取得した。Perl 言語でプログラムを作成し、後で述べる定義に従い、翻訳領域の配列データからリピートの抽出を行った。2.1.2 オーソログ遺伝子のアノテーション情報の取得 Emsembl から、ヒトとマウスのオーソログ性のアノテーション情報を取得し、先に得ていた各生物種の遺伝子データに MySQL を用いてオーソログ性の情報を付加した。 その結果、ヒトとマウスで 16,765 のオーソログ遺伝子を取得した。2.1.3 GO アノテーション情報の取得 ヒトの遺伝子のうち 15,521 遺伝子に関して、Gene Ontology(Harris et al.,2004)の上位階層の単語に置き換えられている GO slim の単語を割り振った(http://www.geneontology.org/GO.slims.shtml)。また、ヒトとマウスのオーソログ遺伝子 16,765 のうち、 13,949 遺伝子に関して、 GO slim の単語を割り振った。各 GO 単語について、各リピート数ごとの出現頻度を、超幾何分布を仮定して p-value を求め、有意性を検討した。2.2 超幾何分布 超幾何分布とは母集団が2つの性質、またはある性質を持つものと持たないものに分けることができる場合にその有意性の検討に用いられる確率分布である。例えば,赤球 N0 個,白球 N1個入っている袋から,n 個取出すとき,その n個の中の赤球の個数 X の分布は,超幾何分布 H(N,N0,n)(ただし N=N0+N1)に従う(下式) 。本研究では統計ソフト R の phyper コマンドを用いて超幾何分布への当てはめを行い、偏りの強さを p-value として算出し有意性を検討した(図 2-1)。 ヒトの全てのタンパク質 ヒトでリピートを 15,521 持つタンパク質 16 1,394
  18. 18. development development 1,882 1,078 p-value = 1×10-6 図 2-1 超幾何分布への当てはめの例 例として、ヒトでリピートを持つタンパク質のうち development という機能の有意性の 検討を挙げた。ヒトの全てのタンパク質における development 機能の割合をもとにした とき、リピートを持つタンパク質における development 機能の割合がどのくらい有意に 出現しているかを p-value として算出した。この例の場合、p-value が非常に小さく(設 定した有意水準よりも小さい) 、有意に多く出現していると判断できる。2.3 クラスター解析 クラスター解析は階層的クラスタリングを用いた。階層型クラスター解析では、各データの項目を N 次元超空間の点と考える。これにより各データ間の距離を求め、各項目をグループ分けする手法である。距離の算出方法は週種類ありるが、本研究では各データ項目のユークリッド距離(差の二乗和)に対する最長距離法を用いた。解析は統計ソフト R の hclust コマンドを使用してクラスター解析を行い、結果を樹状図に表した。 17
  19. 19. 3. 結果3.1 分断配列とリピートの再定義 従来のインシリコ研究では分断配列が考慮されておらず、進化的に必要なリピートの部位を抽出できていなかったという問題が考えられる(図 1-5) 。またトリプレットリピート病の研究においても、従来の場合では原因となる候補部位が抽出できていなかった可能性が考えられる。なぜならば、トリプレットリピート病の原因リピートには分断配列を持つものが多いためである。 よって本研究では、まず分断配列を考慮したリピートの再定義を行った。この再定義は、トリプレットリピート病の原因部位と統計学的有意性を踏まえて行った。統計学的に 0.1 %の有意水準において、リピートを形成するトリプレット数やアミノ酸数は 5 以上でないと偶然性を排除できないことから(Karlin,1995) まず分断配列を除いたトリプレット部位やアミノ酸部位の最低数を 5 以 、上とした。分断配列は 1 トリプレットないし 1 アミノ酸とし、リピートは分断配列を 0 個以上持つとした。またリピートの長さはリピート領域のトリプレット数またはアミノ酸数と定義した。さらに、リピートを構成するトリプレットやアミノ酸のうち少なくとも 1 ヶ所は 2 以上連続するものを含むと定義した。例えば、 GAG (CAG)12 CAT CAG CAT (CAG)14 CAC という領域の場合、 (CAG)12CAT CAG CAT (CAG)14 の部位が CAG リピート領域であり、CAT, CAT が分断配列、リピートの長さは 29 となる(表 3-1) 。また、(CAG) CAA (CAG) CAA(CAG)2 CAA (CAG)はリピートを構成する CAG が連続して 2 以上存在する部位があるためリピートであるが、 (CAG)2 CAA (CAG)2 はリピートを構成する CAGの数が 5 未満であるためリピートではなく、(CAG) CAA (CAG) CAA (CAG)TGG (CAG) GAT (CAG)ではリピートを形成する CAG が連続して 2 以上存在しないためリピートではない(表 3-2) 。一方、リピート中の分断配列数には制限は設けなかった。これは本研究では分断配列の構成を調べることが目的のひとつであり、より多くの分断配列を抽出したいためである。また例えば、(CAG)2AAA (CAG)2 CCC (CAG)2 GGG (CAG)2 TTT などの場合、分断配列数に制限を設けると分断配列の種類を算出することが困難になるためである。 18
  20. 20. 表 3-1 リピートと分断配列の定義の例 例としてトリプレットリピート病の原因遺伝子 SCA1 を挙げた。左側がト リプレットリピートの場合、右側が同じ部位のアミノ酸リピートである。 例)脊髄小脳失調症1型の原因遺伝子SCA1 トリプレットリピートの場合 アミノ酸リピートの場合 GAG(CAG)12CATCAGCAT(CAG)14CAC E(Q)12HQH(Q)14H ↓ ↓ 分断配列はCAT,CATの2つ 分断配列はH, Hの2つ トリプレットリピートは下線部 トリプレットリピートは下線部 トリプレットリピートの長さは29 トリプレットリピートの長さは29 表 3-2 リピートの判定の例 配列がリピートであるかの判定とその理由を挙げた。 配 列 判定 理 由 リピート構成要素の CAG の数が 5 (CAG) CAA (CAG) CAA (CAG)2 CAA (CAG) ○ 以上でかつ連続して 2 以上存在す る部位があるためリピートである リピート構成要素の CAG の数が 5 (CAG)10 ○ 以上であり、分断配列は存在しな いがリピートである リピート構成要素の CAG の数が 5 (CAG)2 CAA (CAG)2 × 未満であるためリピートではない リピート構成要素の CAG の数が 5 (CAG) CAA (CAG) CAA (CAG) TGG (CAG) GAT (CAG) × 2 以上であるが、 以上連続する部位 がないためリピートでない3.2 分断配列を考慮したリピートの抽出3.2.1 リピートの抽出 従来行われていなかった分断配列を考慮してリピートを抽出した場合、どのような分布を示すのだろうか。また、従来の分断配列を考慮しないリピートと比較してどのような差が見られるであろうか。それらを確認するために抽出したリピートの分布を調べた。 分断配列を考慮したリピートの場合、ヒト 16,765 遺伝子のうち、トリプレットリピートは 2,769 遺伝子に 3,885 存在し、アミノ酸リピートは 9,691 遺伝子に 20,455 存在した。チンパンジー22,475 遺伝子のうち、 トリプレットリピートは、2,093 遺伝子に 2,716 存在し、アミノ酸リピートは 8,176 遺伝子に 15,748存在した。マウス 28,594 遺伝子のうち、トリプレットリピートは 2,561 遺伝子に 3,438 存在し、アミノ酸リピートは 9,885 遺伝子に 19,058 存在した。アミノ酸リピートの上位 3 位の個数は、ヒトでは順にセリン(S) 、プロリン(P) 、ロイシン(L)であったが、チンパンジーとマウスでは順に S、L、P リピートと 19
  21. 21. なった。 一方、従来の定義である分断配列を考慮しないリピートでは、ヒトでトリプレットリピートは 1,090 遺伝子に 1,312 存在し、アミノ酸リピートは 3,747 遺伝子に 5,397 存在した。チンパンジーではトリプレットリピートは 781 遺伝子に 911 存在し、アミノ酸リピートは 2,950 遺伝子に 3,944 存在した。マウスではトリプレットリピートは 985 遺伝子に 1,178 存在し、アミノ酸リピートは3,674 遺伝子に 5,074 存在した。アミノ酸リピートの上位 3 位の個数は、ヒトでは順に E、P、アラニン(A)リピートであり、チンパンジーでは E、S、A リピート、マウスでは E、P、L リピートの順になった。3.2.2 リピートの割合や長さの比較ヒトで分断配列を考慮したアミノ酸リピートと分断配列を考慮しないアミノ酸リピートの長さの平均値を比較した(図 3-2)。グルタミンリピートを除いてすべてのリピートで分断配列を考慮した場合の方が標準偏差は大きかった。また、KS 検定の結果、 分断配列を考慮したリピートと考慮しないリピートで全体的な分布に大きな差は見られなかった。 次に、ヒトとチンパンジー、マウスでの各アミノ酸リピートの組成の割合や長さの平均値を比較した(図 3-3)。リピートの組成比に対してヒトとチンパンジー、ならびにヒトとマウスそれぞれでの相関係数はそれぞれ 0.993、0.996 となり、高い相関が見られた。相関係数の同等性の検定を行うと p-value が 0.174となり、2 つの相関係数に差は見られなかった。よって、ヒト、チンパンジー、マウスの各アミノ酸リピートの組成に有意差はないことが分かった。 16 14 12 10 長さ 8 分断配列ありリピート 分断配列なしリピート 6 4 2 0 A C D E F G H I K L M N P Q R S T V W Y リピート 図 3-2 ヒトにおけるアミノ酸リピートの長さの平均値 横軸が各アミノ酸リピート、縦軸が長さである。 20
  22. 22. 18 18 ヒト 16 16 チンパンジー ヒト マウス 14 チンパンジー 14 マウス 12 12 10 10% 長 さ 8 8 6 6 4 4 2 2 0 0 S P L E A G K R Q D T V H F I C N Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-3 分断配列を考慮したアミノ酸リピートの割合と長さの平均値 右:アミノ酸リピートの割合。横軸が各アミノ酸リピート、縦軸が長さ。ヒトでリピ ートの個数の多いものから順に並べた 左:ヒト、チンパンジー、マウスにおけるアミノ酸リピートの長さの平均値。横軸が 各アミノ酸リピート、縦軸が長さである。 3.2.3 分断配列の種類や分布 トリプレットリピート病の原因となる遺伝子のリピート領域には分断配列が 確認されており、種類や位置が報告されている。しかし、今までリピートに含 まれている分断配列自体を網羅的に解析した例は報告されていなかった。そこ で分断配列のどのような組成であるかを知るために、まずリピートに含まれて いる分断配列を抽出し分類した。その結果、ヒトにおける全リピート内におけ る分断配列の組成は、GAA、GAG、GCG、CTG、CAA という順に存在するこ とが分かった(図 3-4)。GAA は特に多く、全体の 8.09 %を占めていた。 次に、翻訳領域における全トリプレットの数とすべての各トリプレットリピ ートの長さとの相関係数は 0.719 であり相関が見られた(図 3-5 左)。また、す べての全トリプレットの数と分断配列の数との間でも相関(相関係数 0.634) が見られた(図 3-5 右)。つまり、トリプレットリピートや分断配列の組成は翻 訳領域で用いられているトリプレットの組成とほぼ一致していることが分かる。 21
  23. 23. 500 450 400 350 300 個 250 数 200 150 100 50 0 GAA GAG GCG CTG CAA GGG CCC GAC CCG GCC GAT GCA GGC AAG GCT CCA CAG GTG CTC GGA AAA AGC TCC TCT GGT AGT CCT CGG TTC CAC ACC CAT CTT AAC TTG TGC ATG ACA TCA AGG ATC TTT AGA GTC AAT CGC TGG CTA TCG ACT TAC ACG ATT GTA GTT TAT CGA CGT TGT TTA ATA TAA TAG TGA 分断配列 図 3-4 ヒトにおける分断配列の数 ヒトの全トリプレットリピートに存在する全分断配列の数。横軸が分断配 列、 縦軸が個数。多いものから順に左から右へと並べた。TAA、TAG、TGA の 3 種は停止コドンであるため、分断配列として存在していない。 6000 600 GAG 5000 500 r = 0.719 r = 0.634 CAG GAAリ 4000 400ピ 分ー 断 y = 0.0049x - 826.63 y = 0.0003x + 2.3674 配ト 3000 300 列の の長 数さ 2000 200 1000 100 0 0 0 200000 400000 600000 800000 0 200000 400000 600000 800000 トリプレットの数 トリプレットの数 図 3-5 リピートの長さや分断配列数と、翻訳領域での全トリプレットとの 相関 左:リピートの長さとの数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が リピートの長さ。r は相関係数。 右:分断配列の数との相関。横軸が翻訳領域における全トリプレットの数、縦軸が分断配列 の数。r は相関係数。 離れ値についてはそのトリプレット名を明記した。 22
  24. 24. 3.2.4 分断配列とリピートを構成するトリプレットの変異部位について 分断配列の進化的な形成は、点変異による場合または挿入や欠失による場合の 2 種類が考えられる。また、分断配列の種類や割合の分布は生物種ごとに差が見られる可能性がある。 リピートの進化モデル (図 1-3、Hancock et al., 2001)によると、分断配列の形成は点変異で起こると考えられている。しかし、このモデルは主にグルタミンリピートに対して提唱されているモデルであり、検討する必要がある。また、リピートが部位や機能に依存的に形成されるならば、生物種によって分断配列の構成も異なるはずである。これらのことを検討するために、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレットと分断配列を比較し、塩基の変異数を調べた。リピートを構成するトリプレットと比較して、1 文字異なっている場合を 1 点変異、2 文字異なっている場合を 2 点変異、3 文字異なっている場合を 3 点変異とし、上位 10 位のトリプレットリピートについてそれぞれの割合を算出した(図 3-6) 。その結果、すべてのリピートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが分かった。また、全体的な分布ではマウスでやや割合が異なる場合もあるが、全体的に各生物種で傾向が類似していた。 90 80 70 ヒト 1点変異 60 チンパンジー 1点変異 マウス 1点変異 50 ヒト 2点変異 % チンパンジー 2点変異 40 マウス 2点変異 ヒト 3点変異 30 マウス 3点変異 チンパンジー 3点変異 20 10 0 GAG CTG CAG GGC GAA AAG AGC GCC GAT GCG リピート 図 3-6 分断配列の変異数の割合 上位 10 位のトリプレットリピートに含まれる分断配列のリピート部位と は異なる部位の変異数の割合を示した。横軸がリピート名でヒトでリピー トの個数が1位から順に左から右へ並ぶ。横軸は割合(%) 。 23
  25. 25. 3.3 ヒトとマウスのオーソログ遺伝子でのリピートの比較 以上の解析からヒト、チンパンジー、マウスではリピートの組成や分断配列の変異数など全体的な傾向が類似していることが分かった。しかし、生物種ごとの網羅解析ではこのような傾向を示す要因が何によるのかは判別できなかった。本節ではヒトとのオーソログ性の情報が詳細に分かっているマウスとのオーソログ遺伝子を用いて、含まれているリピートの比較によって、この検討を行った。3.3.1 オーソログ遺伝子でのリピートの数 オーソログの情報が付加できたものをオーソログ遺伝子、付加できなかったものをオーソログでない遺伝子と定義した。オーソログでない遺伝子の中にはオーソログ情報がまだ存在しないだけでオーソログ遺伝子である場合も考えられるが、本研究ではその考慮は行わなかった。 ヒトとマウスのオーソログ遺伝子 16,765 配列のうち、うち 8,251 配列に17,719 リピートが存在した。そのうち、ヒトとマウスでともにリピートが存在する遺伝子は 6,058 配列、ヒトのみでリピートが存在する遺伝子は 3,729 個でリピートの個数は 5,174 個、マウスのみでリピートが存在する遺伝子は 3,041配列でリピートの個数は 3,993 個であった。ただし、これらの遺伝子数は完全に独立ではなく、例えばある配列にヒトのみでの A リピートとマウスのみでのC リピートが含まれている場合がある。 そのため合計は元の遺伝子数を超える。一方、オーソログでない遺伝子は 17,505 個あり、うち 1,439 遺伝子に 2,302 リピートが存在した。 表 3-3 リピートを持つヒトとマウスのオーソログ遺伝子の数 ヒトとマウスのオーソログ遺伝子のうち、ヒトとマウスでともにリピート が存在する配列数、ヒトのみでリピートが存在する配列数、マウスのみで リピートが存在する配列それぞれをマトリックスで示した。 ヒト リピート あり なし あり ヒトとマウス両方 マウスのみ マ ウ 6,058 3,041 ス なし ヒトのみ 3,729 24
  26. 26. 3.3.2 オーソログ遺伝子とオーソログでない遺伝子の比較 オーソログ遺伝子とオーソログでない遺伝子を比較することで、ヒトとマウ スでリピートの違いがあるかを検証した。各リピートの割合や長さの平均値を 求めると(図 3-7)、オーソログでない遺伝子でのプロリン(P)とグリシン(G) リピートの割合の高さが顕著であった。リピートの長さの平均値には大きな差 は見られなかった。 20 16 オーソログ遺伝子 18 オーソログ遺伝子 オーソログでない遺伝子 14 オーソログでない遺伝子 16 12 14 12 10 長% 10 さ 8 8 6 6 4 4 2 2 0 0 S P L E A G K R Q D T V H F I C N Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-7 ヒトでマウスとオーソログ遺伝子と オーソログでない遺伝子でのリピート比較 左:各リピートの割合(%)。横軸が各アミノ酸リピート、縦軸が長さ。ヒ トでリピートの個数が多いものから順に並べた。 右:長さの平均値。横軸が各アミノ酸リピート、縦軸が長さである。 3.3.3 ヒトのみ、マウスのみでリピートを持つ遺伝子の割合や長さ オーソログ遺伝子のうちヒトのみで存在する各リピートの割合とマウスのみ で存在する各リピートの割合を比較した(図 3-8 左)。図に示したように全体的 な分布に差は見られなかった。次に、それぞれのリピートの長さの平均値を比 較した(図 3-8 右)。標準偏差はヒトのみに存在するリピートにおいてはグルタ ミンリピートが最も大きく、マウスのみに存在するリピートの場合はグリシン リピートが最も大きかった。ヒトのみとマウスのみの場合を比較すると全体の 傾向に大きな差は見られなかった。 25
  27. 27. 20 16 18 ヒトのみ ヒトのみ 14 マウスのみ マウスのみ 16 12 14 10 12 長% 10 さ 8 8 6 6 4 4 2 2 0 0 A S P L G E R K Q D T V F I H N C Y M W A C D E F G H I K L M N P Q R S T V W Y リピート リピート 図 3-8 オーソログ遺伝子のうち、ヒトのみのリピートとマウ スのみのリピートの比較 左:リピートの割合。横軸が各アミノ酸リピート、横軸が長さ。ヒトのみ の場合でリピートの個数が多いものから順に並べた。 右:リピートの長さの平均値。横軸がアミノ酸リピート、縦軸が長さであ る。 3.3.4 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の 分布 ヒトとマウスの両方でリピートを持つ遺伝子の、グルタミンリピートとアラニ ンリピート領域の差を算出した(図 3-9) 。例えばヒトで長さ 10、マウスで長さ 7 のリピート部位では 7-10 = -3 となる。区間を 2 としたヒストグラムに表した。 この結果、ヒトとマウスではほぼ対称的な分布をしていることが確認できた。 したがって、リピートの形成速度には差は見られないことが示唆された。 26
  28. 28. 120 45 アラニンリピート 40 グルタミンリピート 100 35 80 30 25個数 60 ←+ヒト +マウス→ 個 数 ←+ヒト +マウス→ 20 40 15 10 20 5 0 0 -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 -30-28-26-24-22-20-18-16-14-12-10 -8 -6 -4 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 長さの差 長さの差 図 3-9 オーソログ遺伝子のうち、ヒトとマウスの両方でリピ ートを持つ遺伝子での長さの差の分布 ヒトとマウスの両方でリピートを持つ遺伝子のうちアラニンリピート (左) とグルタミンリピート(右)のリピート領域の差。区間を 2 としたヒスト グラム。負の値ではヒトのほうがリピートが長く、正の値ではマウスのほ うが長い。 例えばヒトで長さ 10、マウスで長さ 7 のリピート部位では 7-10 = -3 となる。差が 0 の場合は多いので除外した(アラニンで 645 個、グル タミンで 296 個)。 3.4 リピートを持つタンパク質の機能の比較 3.4.1 ヒトでリピートを持つタンパク質の機能 リピート部位がタンパク質の機能と相関が見られるかを検討するために、ヒ トでリピートを持つタンパク質の機能の有意性を調べた。 ヒトの全 34,270 遺伝子のうち 15,521 遺伝子に関して、Gene Ontology の上 位階層の単語に置き換えられている GO slim の単語を割り振った(表 3-4) 。そ のうちリピートを持つ遺伝子は 7,375 種類、持たない遺伝子は 8,146 種類であ った。 まず、各 GO 単語について、リピートを持つ全遺伝子と持たない全遺伝子ご との出現頻度を、GO 単語を割り振った全遺伝子を元に超幾何分布を仮定して p-value を求め、有意水準 p < 0.01 で有意性を検討した(表 3-5 上) その結果、 。 リピートを持つ全遺伝子は転写に関わる遺伝子で有意に多く存在しているが、 代謝や酵素反応に関わる遺伝子では有意に少ないことが分かった。 27
  29. 29. 表 3-4 割り振られた GO Slim 単語の内訳 ヒトの遺伝子で割り振られた Go slim 単語の内訳。機能は、B: Biological process, C: Cellular component, M: Molecular function である。 機能 GO slim term 遺伝子の数 B biological_process unknown 705 B cell communication 3,640 B cell growth and/or maintenance 3,763 B cell cycle 785 B cell motility 341 B metabolism 7,428 B response to stress 932 B transport 2,071 B death 490 B development 1,882 B physiological processes 10,925 C cell 10,768 C cellular_component unknown 768 C external encapsulating structure 4 C extracellular 1,175 C unlocalized 75 M chaperone activity 1 M catalytic activity 4,959 M enzyme regulator activity 612 M binding 9,258 M nucleic acid binding 3,073 M molecular_function unknown 779 M motor activity 167 M signal transducer activity 2,704 M structural molecule activity 816 M transcription regulator activity 1,251 M transporter activity 1,475 遺伝子の合計 15,521 次にリピート数が上位 10 位までのリピートを持つ各遺伝子について同様の方法で有意性を検討した。偶然性の排除のためにボンフェローニによる補正を行い、有意水準を p < (0.01 / 250)として有意性を検討した(表 3-5 下) その結果、 。多くのリピートで転写に関わる遺伝子に有意性が見られた。次に各リピート間でどのくらい機能に相違があるかを検討するために、各リピートの機能に対する偏りの強さ(p-value として算出されている)に対して全体を分母として割合を算出し、その値に対してクラスター解析を行い、機能の偏りによって各リピートをグループ分けした(図 3-10) 。この結果、特にロイシン(L)リピートを持つタンパク質は他のリピートを持つタンパク質と比較して機能の分布が異なっていることが分かった。 28
  30. 30. 表 3-5 超幾何分布への当てはめ解析対象を上部に表記した。各項目ごとで比較が可能である。例えば、 「リピート全くなし」のものは「リピートを持つもの全体」とのみ比較できる。n が個数、数値は p-value。有意に多い場合を赤色で、有意に少ない場合を青色で表記した。 29
  31. 31. 図 3-10 ヒトの各リピートの機能の分布における偏りの強さ に対するクラスター解析 ヒトで上位 10 位のリピートに対して、各リピートの機能に対する偏りの 強さ(p-value として算出されている)へのクラスター解析の結果。類似 性が樹状的に示され、近いほど機能の分布が類似している。例えば、グル タミン酸(E)リピートはリシン(K)リピートと最も機能の分布が近い。 ロイシン(L)リピートは他のリピートと比較して機能の分布が最も異な っていることが分かる。3.4.2 ヒトとマウスのオーソログ遺伝子のタンパク質の機能 ヒトとマウスのオーソログ遺伝子においても機能の比較を行った。 すでに GO slim 単語を割り振っていたヒトでリピートを持つ 7,375 遺伝子には、マウスとのオーソログ遺伝子 6,910 とオーソログ遺伝子ではない 465 遺伝子が存在する。オーソログ遺伝子とオーソログでない遺伝子の 2 群に対して、リピートを持つ全遺伝子の有無を元に超幾何分布を仮定して p-value を求め、 有意性を検討した(表 3-5 上) 。この結果、リピートを持つオーソログ遺伝子は、cell communication など多くの機能で有意に多く存在していることが分かった。一方、 リピートを持つオーソログでない遺伝子では structural molecule activityのみが有意に多く存在していた。 また、各 GO slim 単語が割り振られたマウスとのオーソログ遺伝子 6,910 には、ヒトとマウスでともにリピートを持つ 5,148 遺伝子、ヒトのみでリピート 30
  32. 32. を持つ 3,065 遺伝子が存在する(表 3-7)。ただし、3.3.1 と同様の理由でこれらの遺伝子数は完全に独立ではないため、合計は元の遺伝子数を超える。 表 3-7 GO slim 単語が振られたヒトとマウスの オーソログ遺伝子の数 GO slim 単語が振られたヒトとマウスのオーソログ遺伝子の配列数を、ヒ トとマウスでともにリピートが存在する配列数、ヒトのみでリピートが存 在する配列数、マウスのみでリピートが存在する配列それぞれをマトリッ クスで示した。 ヒト リピート あり なし あり ヒトとマウス両方 マウスのみ マ ウ 5.148 2,438 ス なし ヒトのみ 3.065ヒトとマウスの両方でリピートを持つ遺伝子とヒトでのみリピートを持つ遺伝子の 2 種類に対して、リピートを持つオーソログ遺伝子の有無を元に超幾何分布を仮定して p-value を求め、有意性を検討した。その結果、ヒトとマウスでともにリピートを持つ遺伝子においては cell growth や binding など転写に関わる機能が有意に多く出現しているが、ヒトのみでリピートを持つ遺伝子ではストレス応答や触媒活性に関わる機能のみに有意性が見られた。次にヒトとマウスでともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子のそれぞれの上位 10 位のリピートに対して各リピートの単語の出現頻度を元に超幾何分布を仮定して有意性を検討した(表 3-6) 。これによるとアラニン(A)リピートやグリシン(G)リピートで、ヒトとマウスでともにリピートを持つ遺伝子に有意性の見られる機能がある。しかし、全体的に見ると各リピート間でヒトとマウスでともにリピートを持つ遺伝子とヒトのみでリピートを持つ遺伝子には機能に大差がないことが明らかとなった。 31
  33. 33. 表 3-6 超幾何分布への当てはめ解析対象を上部に表記した。上下の項目で同じリピート名のもの同士で比較可能である。n が個数、数値は p-value。有意に多いものを赤色で、有意に少ないものを青色で表記した。 32
  34. 34. 4. 考察4.1 分断配列を考慮したリピートと分断配列 従来までゲノムワイドにリピートの研究が行われ、各生物種でリピートの統計情報が報告されていたが、分断配列を考慮した網羅的解析は報告されていなかった。リピートの数の分布に関しては、分断配列を考慮しないリピートではアミノ酸リピートは 5,397 存在する一方、分断配列を考慮したアミノ酸リピートは 20,455 とおよそ 3.79 倍多く存在することが分かった。同様にチンパンジーではおよそ 3.99 倍(= 15,748 / 3,944)、マウスではおよそ 3.76 倍(= 19,058/ 5,074)多く存在していた。このことは分断配列を持つリピートが豊富に存在していることを示している。リピートの数の順位については、同じ生物種において、分断配列を考慮した場合と考慮しない場合ではリピート数の順位は異なっていた。ヒトの場合、分断配列を考慮しない場合の上位 3 位のリピートは順にグルタミン酸(E) 、プロリン(P) 、アラニン(A)であったが、分断配列を考慮した場合これらは順に 4 位、2 位、5 位となった。一方で、分断配列を考慮しない場合にセリン(S;5 位) 、ロイシン(L;4 位)のリピートは分断配列を考慮した場合にはそれぞれ 1 位、3 位となった。これらのことから、分断配列を持つ割合はセリンやロイシンのリピートの方がグルタミン酸やアラニンのリピートよりも相対的に大きいことが分かる。一方、トリプレットリピート病の原因であるアラニンリピートやグルタミン (Q)リピートはそれぞれ 5 位と 9 位であり、それほど上位というわけではなかった。つまり、アラニンやグルタミンリピートはリピートの個数の分布においては特異ではなかった。 リピートの長さの平均値の比較においては全体的に大きな差は見られなかった。唯一の特徴は、グルタミンリピートの場合のみで分断配列を考慮しない場合から考慮した場合で標準偏差の減少が見られた。このことは分断配列を持つグルタミンリピートは比較的分布の広がりが抑えられている可能性があることを示唆している。この理由として考えられるのは、グルタミンリピートでの分断配列はリピートを安定化させていることである。 分断配列の組成を解析した結果、全コドンの平均使用頻度と分断配列の組成には相関が見られた。これは、全トリプレットリピートと全コドンの平均使用頻度との組成に見られた相関と差がなかった。つまり、トリプレットリピートの組成は全コドンの使用頻度に依存し、また分断配列の形成は点変異による可能性が示された。 次に、ヒト、チンパンジー、マウスにおいて、リピートを構成するトリプレットと分断配列を比較し、塩基の変異部位を調べた。この結果、すべてのリピートにおいて一点変異の分断配列が 38 %以上を占め、最も多く存在することが 33
  35. 35. 分かった。これらの 2 つの結果から、分断配列の形成は挿入や欠失によって生じる可能性よりも点変異で生じる可能性の方が強く示唆された。さらにこの結果は、主にグルタミンリピートに対して提唱されているリピートの進化的な形成モデル(図 1-3、Hancock et al., 2001)を支持できるものである。なぜならば、このモデルでは非同義の分断配列を持つリピートは、同一のコドンで構成される純粋なリピートに変異する直前の形態であり、同義の分断配列を持つ純粋でないリピートはリピートの最終的な形態と考えられるためである。また、全体的に各生物種で傾向が類似していたこととリピートの傾向が似ていたことも、このモデルを支持できる。 以上の点から、今回用いた 3 種ではリピートの組成や分断配列の変異部位など全体的な傾向が類似していること、分断配列の形成は点変異によることが示唆された。リピートの組成が類似した傾向を示すのには 3 つの可能性が考えられる。1 つ目は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固有に形成されるが、ヒト、チンパンジー、マウスの 3 種では遺伝子やタンパク質が非常によく似ているため、同じ遺伝子内でリピートが保存されているものが大部分を占め、全体的にみると相違が現れない可能性である。2 つ目の可能性は、リピートは生物種固有にあるいは遺伝子領域や染色体領域に固有に形成されるが、相同性のある部位よりも各生物種特有の部位でリピートが形成され、それが大部分を占めるため全体的にみると相同性のある部位の特徴が抽出できない場合である。3 つ目は、リピートは生物種や部位によらずにランダムに起こるが、全体的に見るとそのランダム性がほぼ同様の傾向を示すため、種ごとの傾向の差が抽出できないことである。 本節で行った生物種ごとの網羅的解析ではその原因が判別できなかった。よって、次にオーソログ遺伝子を用いて、リピートの比較を行い、リピートの形成が生物種ごとに進化速度に差が見られるかの検証を行った。4.2 ヒトとマウスのオーソログ遺伝子でのリピートの比較 先行研究において、ヒトとマウス・ラットのオーソログ遺伝子の比較を行った研究は報告されているが(Alba et al., 2004; Ogasawara et al., 2005) 、用いられている遺伝子数が少なく網羅的な解析は行われていない。そこで本研究ではヒトとマウスのオーソログ遺伝子を用いてリピートの比較を行い、 に挙げ 4.1たリピートが生物種ごとに形成速度に差が見られるかということについて検討した。 オーソログ遺伝子において、ヒトのみでリピートが存在する遺伝子数は、マウスのみでリピートが存在する遺伝子数とほぼ同じであったが、リピートの個数はヒトのほうが多かった。また、ヒトとマウス両方、ヒトのみ、マウスのみでリピートが存在する遺伝子の割合や長さを比較したところ、ヒトとマウスで 34
  36. 36. は大きな差は見られなかった。これは 3.1 でヒトとマウスそれぞれで網羅的にリピートを抽出した場合とも大差が見られなかったことと一致する。また、ヒトとマウスでオーソログでない遺伝子での比較でも同様に大きな差は見られなかった。 ヒトとマウスの両方でリピートを持つオーソログ遺伝子での長さの差の分布ではほぼ対称的に分布していることが確認できた。このことからヒトとマウスの両方でリピートを持つ遺伝子においてもヒトとマウスではリピートの伸び方に大きな差は見られないことを示している。 以上のことから、リピートの形成はヒトとマウスではあまり有意差がなく、形成の速度はほぼ等しいことが示唆された。4.3 リピートを持つタンパク質の機能の比較 リピートを持つ全遺伝子に対する機能の検討によって、転写に関係する機能など多くでリピート特異的に出現していることが確認できた。このことから少なくともいくつかのリピートは機能に関係している可能性が示唆された。またこの結果は、転写因子に関するものが有意に多いという先行研究(Alba et al.,2004; Faux et al., 2005)と一致する。一方で、代謝や酵素反応に関わる遺伝子ではリピートは避けられる傾向があることが分かった。この理由として考えられることは、リピート部位はタンパク質-タンパク質相互作用に直接かかわっているため、転写結合部位として機能しているが、代謝や酵素反応ではタンパク質は分泌物質を形成したり、分泌物質自体であるために結合部位が必要でない可能性が考えられる。一方、Faux らの研究によると原核生物においてはリピートを持つタンパク質の機能は酵素活性にかかわるものが最も多い(Faux et al.,2005) 。このことから、酵素活性に関わるタンパク質では下等生物では一部のリピートは機能部位として働いているが、高等生物になるにつれて進化的にその機能を持たなくなったということが考えられる。以上の結果から、少なくとも一部のタンパク質は相互作用部位として機能している可能性が考えられる。 リピートを持つ遺伝子において、オーソログ遺伝子は多くの機能で有意に多く存在しているが、オーソログでない遺伝子では structural molecule activityが有意に多いのみであり、全体的にはあまり有意差は見られなかった。この結果から、マウスとオーソログでない遺伝子、つまりリピートを持つヒト固有の遺伝子においてはそれほど機能に依存的ではないことが示唆された。この理由として考えられることは、構造に関する遺伝子ではそれが翻訳するタンパク質においてヒトとマウスで構造的に違いあっても許容されるということである。つまり、これらのタンパク質ではリピート部位は直接は機能しておらず、全体的な構造の変異に関与している可能性が考えられる。 以上のことから、ヒトとマウスにおけるリピートの形成速度には大きな差は 35

×