090511-intro, setup

相同性検索の自動化
と統計処理の基礎

2009/05/11
金子聡子
kaneko.satoko(at)ocha.ac.jp
瀬々潤

1

相同性検索の自動化と統計処理の基礎
の趣旨
ヒトゲノム計画をきっかけに、塩基配列決定技術はここ数年の間に予想をは
るかに超えるペースで高速化されました。10年前は、塩基配列を決定する作業
は遺伝子を単位として行われるものでしたが、最近では全ゲノムが単位となりつ
つあります。ゲノム情報だけに注目しても、日々膨大な量のデータが作り出され
ている現状においては、大量な情報を正確に扱える「コンピュータ」を使わない手
はありません。

本講習会では、ゲノム関連のデータベースから、目的とするデータを取得し、
必要な部分だけを取り出し加工して、解析するまでの流れをいろいろな方法で体
験します。最終的には、この一連の手順を自動化することを目標とします。
また、大量のデータを扱う上で必要となる統計処理についても触れます。

自動化への第一歩として、おそらく多くの人がこれまで慣れ親しんでいる「マウス
でクリック」する操作を最小限にとどめ、提供されているプログラムなどを利用し
てコマンドによる操作に慣れ、徐々にシフトしていきましょう。

2

今日の内容
・イントロダクション

・生命情報学について

・PCのセットアップ

3

イントロダクション
・ゲノムにまつわる歴史

・塩基配列決定の歴史

・生命情報学にまつわる歴史

・全ゲノム配列解読前の研究

・全ゲノム配列を利用した研究

・用語解説(1): 相同性検索

4

ゲノムにまつわる歴史
1953年 DNA二重らせん構造の決定

1966年遺伝暗号(コドン)の解読

1972年遺伝子組換え技術

1975-7年高速塩基配列決定技術

1985年 PCR法

1986年蛍光シークエンス決定技術

1993年キャピラリー電気泳動技術

1995年 DNAチップ・マイクロアレイ技術

1997年 E.coli (大腸菌)ゲノム解読完了(4.6Mb)

2000年ヒトゲノムドラフトシークエンス発表

2003年ヒトゲノム解読完了 (3.3Gb) 5

塩基配列決定の歴史
1972年遺伝子組換え技術

1975-7年高速塩基配列決定技術 (Sanger法、Maxam-Gilbert法など)

1985年 PCR法 (6kb = 6000bp/day)

1986年蛍光シークエンス決定技術商用DNAシークエンサー登場

1993年キャピラリー電気泳動技術

2000年ヒトゲノムドラフトシークエンス発表 (600kb = 600,000bp/day)

2007年 Microarray like sequence (600Mb = 600,000,000bp/day)

2010年次世代シークエンサー (100Gb = 100,000,000,000bp/hour)

理論上、ヒトゲノム(3.3Gb)全体が4分で読めてしまうことになります。

6

生命情報学にまつわる歴史
1971年医学文献データベース MEDLINE開始

1980年世界初のDNAデータベース
EMBL(European Molecular Biology Laboratory)開始

1982年 DNAデータベースGenBank開始

1985年相同性検索ソフトFASTA誕生

1986年アミノ酸配列データベース Swiss-Prot開始

1988年 NCBI(National Center for Biotechnology Information)設立
Human Genome Initiative設立初めてBioinformaticsという言葉が使われる
マルチプルアラインメントソフトCLUSTAL誕生

1990年ヒトゲノム計画開始相同性検索ソフトBLAST誕生

1991年 World Wide Web誕生

2000年 Ensembl開始, 2001年 UCSC開始
7

全ゲノム配列解読前の研究
1991年 Linda B. Buck and Richard Axel (The Nobel Prize in Physiology or Medicine for 2004)
により、ラットの嗅覚受容体遺伝子がクローニングされた。
Gタンパク質共役型であることは予想されていたので、その配列の特性を用いてprimerを
設計し、PCRをして(a)、得られた産物の塩基配列を決定(b)。
また、嗅覚を司る器官で発現されていることを確認(c)。 (18 loci)

(c)
(a) (b)

Figure 2 Figure 4 Figure 3
PCR result Amino acid alignment Northern Blot Analysis

(from Buck & Axel Cell 1991 65:175-87.)

1992年から1998年にかけては、このラットの嗅覚受容体遺伝子の情報をもとに、マウス、
ヒト、ナマズ、メダカなどの生物で嗅覚受容体遺伝子が相次いでクローニングされた。
8

全ゲノム配列を利用した研究
無脊椎動物の嗅覚受容体遺伝子は、脊椎動物と種分化してからの時間が長いために
配列の相同性が低く、これまでの手法ではクローニングすることができなかった。

しかし、1999年 Richard AxelのグループとJohn Carlsonのグループから同時に
ショウジョウバエの嗅覚受容体遺伝子のクローニングが報告された。
彼らは、ショウジョウバエのゲノム情報を利用して、
遺伝子予測や相同性検索を駆使し、
嗅覚受容体遺伝子のクローニングに成功した。

2007年 Drosophila 12 Genomes Consortiumにより、
Drosophila melanogaster(ショウジョウバエ)および近縁種11種の
全ゲノム配列が決定された。

右の図は、その12種のゲノムを用いて
嗅覚受容体遺伝子の進化的動態に
ついて調べた論文より抜粋。 (812 loci)

9
(from Nozawa & Nei PNAS 2007 24:7122-7.)

用語解説(1)：相同性検索
ゲノムはATGCの4つの塩基からなる文字列ですが、地球上に生命が誕生して以来
35億年に渡って生物を通して親から子へと受け継がれてきたもので、
1946年(DNAの二重らせん構造が分かる以前)に遺伝学者、木原均は
「地球の歴史は地層に、生物の歴史は染色体に刻まれている」と述べています。

配列間で「相同性がある」ということは、共通の祖先から由来していることを意味します。
相同性の程度は、共通の祖先から分岐してから現在に至るまでの時間の
中で、それぞれの配列が経験した出来事を反映したものです。

相同性検索は、対象となる配列と相同性のある配列がデータベース中に存在するか
どうかを検索する方法で、分子進化・系統分類の解析やタンパク質の機能解析などを
目的とした配列解析の基本的な手法のひとつになっています。

2つの配列の類似度を計算するには、2つの配列を要素ごとに対応づけて並べる
操作（アラインメント）を行います。

例 CAGGGCATCCGCGCCACCTGTGG CAGGGC-ATCCGCGCCACCTGTGG
CATGGCCACGCCAGCTGAGG CATGGCCA----CGCCAGCTGAGG
** *** * * * ** *** * ***** *** **
8/20=40%一致 16/19=84%一致 10

生命情報学について
・ゲノムDNAからタンパク質までの流れ

・用語解説(2): 遺伝子に関連する言葉

・ゲノムから表現型までの流れ -オ-ミクス(omics)-

・生命情報学関連のデータベースの一例

11

ゲノムDNAからタンパク質までの流れ
1958年にFrancis Crickが「セントラルドグマ」という概念を提唱している。
遺伝情報(DNA)は、複製され維持され親から子へと伝えられる。
また生物の生命活動の維持においては、DNAがRNAに転写され、
そのRNAが翻訳されてタンパク質となり、機能を果たすという考え方である。

replication transcription translation
(複製) (転写) (翻訳)
DNA RNA タンパク質
reverse transcription
(逆転写)
splicing
(スプライシング)

最近では、タンパク質に翻訳されなくても機能を果たすRNA (non-coding RNA)
が多数報告されている。
12

用語解説(2): 遺伝子に関連する言葉
exon1 exon2 exon3 exon4 exon5 exon6
5' 3'
intron1 intron2 intron5
intron3
intron4
exon: 赤い四角の全て(白く抜けている部分も含む)
intron: exon(赤い四角)とexonの間の配列転写はされるが翻訳されない。
5' UTR: 5'側のmRNAに転写されるが、アミノ酸には翻訳されない領域(左側の白抜き)
3' UTR: 3'側のmRNAに転写されるが、アミノ酸には翻訳されない領域(右側の白抜き)
coding sequence (CDS): 開始コドンから終止コドンまでの領域 (アミノ酸をコードする)
(赤く塗りつぶされた四角の部分)

転写から発現までの流れ
1) ゲノム上のexon1からexon6までの間の配列がmRNAに転写(transcription)される。
2) exonの部分だけ切り取られつなげられる(この行程をsplicingと呼ぶ)。
3) アミノ酸へ翻訳(translation)される。

alternative splicing: 一部のexonがsplicingにより除去され、
異なるexonの組み合わせの転写産物ができる
例えば、exon1+2+3+4+5+6、exon1+2+5+6、exon1+2+3+6など。 13

ゲノムから表現型までの流れ -オ-ミクス(omics)-

オーミクス、またはオミックス(omics)と
遺伝子
ゲノム
(genome) (DNA) は、生体中の分子全体を網羅的に調
べる研究分野のことを指す。
転写

それぞれの段階は
転写産物
トランスクリプトーム
(transcpritome) (mRNA) gene + omeで遺伝子の総体、
transcript + omeで転写産物の総体
翻訳
のように、作られた造語。
翻訳産物それぞれのomicsごとにデータベースが
プロテオーム
(proteome) (タンパク質) 存在している。
酵素反応など
生命情報学は、これらの情報から生命
代謝産物
現象を理解することを目指す学問です。
メタボローム
(脂質、糖、有機酸、
(metabolome)
ホルモンなど)
生命現象

表現型
フェノーム
(phenome) (疾患、環境応答性など) 14

生命情報学関連のデータベースの一例

データベースの内容データベース名称（運用国）
DNA塩基配列 GenBank(米)、EMBL(欧)、DDBJ(日)、UCSC(米)
一塩基多型(SNPs) dbSNP(米)、JSNP(日)
遺伝子および遺伝病 OMIM(米)、Mutation database(欧)
アミノ酸配列 SWISS-PROT(欧)、PIR(米)
アミノ酸配列ドメイン Pfam(欧)
アミノ酸配列モチーフ PROSITE(欧)、BLOCKS(米)
タンパク質立体構造 PDB(米)、SCOP(欧)、CATH(欧)
パスウェイ KEGG(日)
文献 MEDLINE(米)
総合的な配列情報 NCBI(米)、Ensembl(欧)

15

PCのセットアップ
・Mac OSのバージョンの確認とソフトウェアのアップデート
・アンチウィルスのアップデート
（ここまでは済んでいる状態ですので、参考までに）

・MacBook Proのセットアップ –開発環境のセットアップ-
ターミナルをDockに入れる
gcc (Xcode)のインストール
X11のインストール

・アプリケーションのインストール
CotEditor
MacPorts
Unarchiver
16

Mac OSのバージョンの確認とソフトウェアのアップデート

アップルマークのところから、
「このMacについて」をクリックすると
OSのバージョンや仕様を確認
することができます。
ネットワークにつながった状態で
ソフトウェア・アップデートをクリックします。 17

ソフトウェアのアップデート (1)
アップデートするソフトのリストが
表示されます。
インストールをクリックすると
パスワードを要求されます。
各自のパスワードを入力して
インストールを行って下さい。

＊ソフトウェアをインストール、アンインストールするとき、設定を変更するときなど
管理者権限の確認としてパスワードの入力が求められます。
行おうとしている操作の内容を把握した上で、パスワードを入力するように
心がけて下さい。 18

ソフトウェアのアップデート (2)
いくつかのソフトについては、
左のような使用許諾契約が
表示されると思います。
同意するをクリックすると、
先に進んでいきます。
ダウンロード中には下のような
画面が表示されます。

ダウンロードが終了すると、
左の画面が表示されるので、
再起動して下さい。
この再起動には時間がかかります。
(アップデートするソフトの質と量によりますが
10~20分程度かかると思います。) 19

Mac OSのバージョンの確認 (再び)
アップデート終了後に、
もう一度、アップルマークから
「このMacについて」を表示し、
OSのバージョンが変わっていること
を確認してみて下さい。

20

Finderについて
ファイルから新規Finder ウインドウもしくは、デスクトップのMacintosh HDを
クリックすると、Finderが開きます。

Finderの表示は
:アイコン表示
:リストの表示
:階層も含めた表示
になります。
21

アンチウィルスのアップデート (1)

ネットワークにつながっている状態で、
Machintosh HD/アプリケーション/Symantec SolutionsのLive Updateをクリックして、
ウィルス定義ファイルの更新を行います。

22

このMacにインストールされているアンチウィルスソフトは
Symantec AntiVirus 10.1.1 for Macintosh なので、以下のページから
ウィルス定義ファイルをダウンロードしてきます。ファイル名をクリックすると
ダウンロードが始まります。
http://www.symantec.com/avcenter/download/pages/JP-NMC.html

23

Macにおけるソフトウェアの表示について
Mac OS Xでは、ソフトウェアのショートカットが「dock」と呼ばれるところにアイコンで表示
されています。
最初の設定では画面下にdockが常時表示されるようになっています。

dock

Finder Safari ゴミ箱
(インターネット
インターネットを使う場合には
ブラウザ) Safariをクリックします。 24


通常は定期的にソフトウェアを更新する場合には、
一番下のSymantec Schedulerで各自設定して下さい。

下のようなエラーが出たら
インターネットから直接定義ファイルを
ダウンロードする方法を試して下さい。

25

いくつか確認の画面が出てきますが、「続ける」としてインストールを行って下さい。

26

最新の状態にアップデートされた場合以下の画面が表示されます。

この緑色のチェック
が3項目とも入って
いることを確認して
下さい。

27

アンチウィルスのスキャン (1)
Machintosh HD/アプリケーション/Symantec SolutionsのSymantec Antivirusをクリックします。
スキャンする対象を「Macintosh HD」とすると、スキャンに数時間かかります。
スキャン中、ネットワークにつながっている必要はありません。

28

アンチウィルスのスキャン (2)
状態：スキャン不完全
コメント：ファイルを開くパーミッ
ションがありません
と表示されているもののリストが
出てきますが、
ログファイルなどの設定に関す
る
ファイルなので、
そのまま終了します。

Symantec AntiVirusを終了する場合には、
画面左上のSymantec AntiVirusから終了を選びます。

29

MacBook Proのセットアップ –開発環境のセットアップ-
アプリケーションへのショートカットが集まっている場所をDockと呼びます。
Dockを表示する場所は、アップルメニューから選ぶことができます。

Finder ゴミ箱
30

ターミナルをDockに入れる
Macintosh HD/アプリケーション/ユーティリティにあるターミナルのアイコンを
Dockへドラッグ＆ドロップする。(クリックした状態で下へ引っ張るとうすい
表示になるので
その状態のまま
Dockまで引っ張る)

ターミナル
31

gcc (Xcode)のインストール (1)
MacBook Proの入っていた箱に一緒に入っている黒い箱の中の
「MacBook Pro Mac OS X Install Disc 1」のディスクを入れる。

Xcodeとはソフトウェアを開発するためのアップルの統合開発環境 (IDE) で
gcc (GNU Compiler Collection)を含んでいる。
gccとは、 C、C++、Javaなどのプログラム言語を使用するために必要なコンパイラ及びライ
ブラリが含まれている。

32

ディスクを入れて、しばらくするとウィルススキャンが始まりますが、キャンセルして下さい。

ディスクが読み込まれると、
自動的に左下のウィンドウが開きます。
Optional Installs → Xcode Tools → Xcode Tools.mpkg
Xcode Tools.mpkgをクリックするとインストールが始まります。

33

ガイドに従ってインストールをして下さい。

34

引き続き、ガイドに従ってインストールをして下さい。
最後にインストールが正常に終了したという
画面が出てきます。

35

X11のインストール (1)
「MacBook Pro Mac OS X Install Disc 1」のディスクを入れる。
(Xcodeのインストールから引き続いて行う場合は
左下の画面が表示されていると思います。)
Optional Installs → Optional Installs.mpkgをクリックします。

X11環境とはMacOSX版のX Window Systemのこと。
X Window System（XWS）とは、UNIXのGUI（グラフィック・ユーザー・インターフェー
ス：画面へのグラフィック描画）環境、いわゆる「X環境」を提供する基本ソフトの
こと。 36

ガイドに従ってインストールをして下さい。

37

アプリケーションの左の三角をクリックして展開して下さい。
X11にチェックを入れてインストールを続けます。

38

ガイドに従ってインストールを続けます。
インストールが終わったらディスクを取り出します。

ディスクの絵をドラッグして
ゴミ箱へ入れることで、
取り出すことができます。

39

エディタ (CotEditor)のインストール (1)
プログラムなどを書くためのエディタ(CotEditor)をインストールします。
http://www.aynimac.com/p_blog/files/article.php?id=41
の一番下にあるFile Download をクリックする。
Sourceforge のサイトに行くので、5つのミラーサイトのうち、
どれか1つをクリック。（自動で始まるかもしれません）
(2009年5月1日現在 CotEditor -1.0.1)

40

エディタ (CotEditor)のインストール (2)
CotEditor-1.0.1.dmg がダウンロードされる（設定によっては、自動的にフォルダが開く）
緑のCotEditorのマークをドラッグして「アプリケーション」に入れる。

また、Dockにも入れておくと便利。
それらの作業が終わったら、上向きの△をクリックして、アンマウントする。

41

MacPortsのインストール (1)
UNIX向けのオープンソースソフトウェアのインストールと削除、そしてソフトウェア同士やラ
イブラリとの依存関係を管理するシステムのひとつであるMacPortsをインストールします。
http://www.macports.org/install.phpから“dmg” disk images for Leopard (Universal)を
クリックすると自動的にインストーラーが立ち上がります。
(2009年4月15日現在 MacPorts-1.7.1)

42

ガイドに従ってインストールします。

43

インストールしたportを最新の状態にアップデートします。

まず、PATHを確認します。
ターミナルに以下のコマンドを入力し、
$echo $PATH
[enter returnキーを押す]
この$マークは、各自のターミナルに表示されているもののことで、コマンドではありません。
出てきた表示の中に以下のものが含まれていることを確認して下さい。
/opt/local/bin

コロン(:)は区切り文字です。

含まれていない場合には、一時的にPATHを通します。
$ export PATH=$PATH:/opt/local/bin
この方法はシェルを終了すると無効になります。

もう一度、以下のコマンドを入力し
(キーボードのpage , page を押していくと前に入力したコマンドが表示されます)
$echo $PATH
PATHが通っていることを確認して下さい。
44

portのアップデートをするためのコマンドです。
$ sudo /opt/local/bin/port -d selfupdate && sudo /opt/local/bin/port -d sync
スペルミスをしないよう注意しましょう。
$ sudo /opt/local/bin/port -d selfupdate && sudo /opt/local/bin/port -d sync
オレンジ色のバーの部分にはスペースが入っています。

ターミナル上でパスワードを聞かれます。
OSインストール時に設定した各自のパスワードを入力して下さい。
*管理者権限が必要な場合のみ、パスワードを入力して管理者権限を与えます。

45

The Unarchiverのインストール (1)
zipやlzhなどで圧縮されたファイルを解凍するソフト
http://wakaba.c3.cx/s/apps/unarchiver.html
ダウンロードをクリックします。

ダウンロードしたソフトはユーザーのtg04のダウンロードフォルダの中に入るので、
ドラッグしてアプリケーションに移動します。 46

The Unarchiverのインストール (2)
Unarchiverをクリックすると

と聞かれます。ウィルスはインターネット経由でパソコンに入り込み、アプリケーションの
ように見えるものもあるため、ユーザーがダウンロードしたものであるかを確認し、
注意を喚起するためのものです。
次に、下の画面が開きます。解凍したい拡張しにチェックを入れておきます。
(zip, lha, sit, tarなど)

47

まとめ
・生命情報学についてのイントロダクションとこれからの作業に必要
なソフトなどをインストールし、PCのセットアップを行いました。

- セットアップでは、早速実践でターミナルにコマンドを入れて操作を行いました。
- ターミナルなどのシステムについての説明は次回行います。

・次回は、UNIXの基礎と代表的なデータベース(NCBIとEnsembl)の
viewerの使い方です。

48

090511-intro, setup

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

More from ocha_kaneko

More from ocha_kaneko (16)

090511-intro, setup