バイオインフォマティクスによる遺伝子発現解析

バイオインフォマティクスによる
遺伝子発現解析
東京工業大学大学院情報理工学研究科計算工学専攻
瀬々潤
sesejun@cs.titech.ac.jp
第２回数理生物サマーレクチャーコース
@ RIKEN CDB

目次
• イントロダクション
• 遺伝子発現の取得と意味
• データ解析の流れ
• 前処理
• 正規化
• 特徴選択，群間差のある遺伝子群の抽出
• データ解析（データマイニング，機械学習）
• クラス分類手法
• クラスタリング
• 結果の解釈
• 解析結果と生物学的・医学的な知識との関連付け
• 新型シーケンサのデータ解析に関して
2

目次
• 前処理
• 正規化
• 結果の解釈
3

DNA(ゲノム)
mRNA
遺伝子
タンパク質
細胞
Illustrations are © 2011 DBCLS Licensed
under a Creative Commons 表示 2.1 日本 License
4

遺伝子発現
• 細胞が異なれば，遺伝子の転写量が異なる
• 遺伝子の転写量を調べることは，細胞の個性を知るための，そ
れなりに良い指標になるだろう．
• 実験が比較的容易
• 網羅的解析も可能：マイクロアレイ, RNA-seq
• 今後は大規模にたんぱく質や代謝物質が取れるようになると思う
のが，現時点では，規模・定量性の面で不十分なので，mRNAを
用いている． 5
ゲノム
mRNA
遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2

何が比較できるか
6
ゲノム
mRNA
遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2
Aさんの心臓 Bさんの心臓
Aさんの血液 Aさんの大脳
同一個体，組織が異なる
朝の血液夜の血液
同一個体，同一組織，採取時期が異なる
組織は同一だが，個人が異なる

7
wound healing genes
cholesterol biosynthesis genes
Cluster analysis and display of genome-wide expression patterns
Eisen et al. PNAS 95:14863, 1998
An integrated encyclopedia of DNA
elements in the human genome.
The ENCODE Project Consortium
Nature 489:57, 2012
cell cycle
Removed
Removed

発現量大規模取得法の歴史
• 大きく分けて2通り
• タグ（シーケンス）を利用
• 遺伝子の特定箇所をシーケンス．これをタグと呼ぶ．
• その配列がどの遺伝子由来であるかを調べる
• BodyMap, SAGE, MPSS, CAGE, RNA-seq
• ハイブリダイゼーションを利用
• Microarray
• 採取できるのでは大量の遺伝子の発現「スナップショット」
制限酵素等で切断
切断した端を読む（タグ）
Gene X
タグが由来する
ゲノム上（遺伝子上）の
位置を特定する．
各遺伝子に由来するタグが
何個あったかを数える
＝発現量 8

マイクロアレイ
• 遺伝子発現を大規模に観測（ほぼ全遺伝子 or 全exon）
• Agilent社の場合，各遺伝子60塩基のプローブ
• 相補鎖の配列を持つ遺伝子が観測できる
M
icroarray
ATGCCAG ATGCCAG
CATGTACGGTCGATCAG
Probes in a spot
A probe
Cells
mRNAs

Golub et al. Science,
286 (5439), 531-537, 1999.
10
Removed

目次
• 前処理
• 正規化
• 結果の解釈
11

遺伝子発現解析の流れ
異なる組織，異なる刺激，異なる時間
細胞間の働きの違いの同定 (刺激等に対する)応答の理解
観測対象
12

発現の観測（定量化）異なる組織，異なる刺激，異なる時間
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
13

発現差のある遺伝子群の抽出
(Diﬀerential Expressed Genes)
データマイニング，機械学習
手法を用いた解析
(Clustering, Classiﬁcation)
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
14

Gene Ontology,
Pathway
Phenotype，
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
15

Gene Ontology,
Pathway
Phenotype，
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
16

Gene Ontology,
Pathway
Phenotype，
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
観測（データ）
前処理
解析
パタン抽出
知識
17

目次
• 前処理
• 正規化
• 結果の解釈
18

• 各Sampleが1点．遺伝子が次元．
• 細胞の分類
• 疾患の分類
19
Genes
Sam
ple
1
Sam
ple
2
Sam
ple
3
• 各遺伝子が1点．サンプルが次元．
• 遺伝子の分類，機能予測
Sample
Gene 1
Gene 2
Gene 3
...
解析手法としては，どちらも多次元上の点
（ベクトル）が多数ある状態なので，
変化なし．
行列

前処理
• 正規化←「単位」を合わせる
• 特徴選択←信頼に足らないデータを除く
• サンプル，遺伝子共に
20
Genes
Samples
Genes
Samples

正規化(Nomalization)
• 異なるサンプル間（replicateも含む）は独立した実験
• 抽出溶液の濃さ，等に依存した「ズレ」が生じているかも
• 互いに比較がしたいので，なるべく妥当な比較ができるように変換
を行う
• 良く行われるのは，平均や四分位点を合わせるように平行移動．
• ただし，外れ値の影響を除くため，上位＆下位 x%は除いて計算
される事も多い (trimmed mean)．
• スケート等の採点でみられる方法と同様．
発現量
個数 21

目次
• 前処理
• 正規化
• 結果の解釈
22

特徴選択
• 必ずしもデータ全てに意味があるわけではない．
• 無関係なデータは省いてから，解析を行いたい．
• 健常者50名とガン患者50名から，遺伝子発現を観測
• 患者の分類に関係無さそうな遺伝子を除外して解析
• 各遺伝子に関して，その発現量と{健常，患者}に相関が
あるかを調べる（t-検定，Mann-Whitney U，級間分
散，情報量等）
• 無関係の無いものを除外し，解析をスタート
• 「特徴選択」と呼ばれる
• 特徴選択をすると，データの「ノイズ」が減るので，解
析性能が向上するケースがある
• 逆に，本当は必要だった情報を削ぎ落してしまうことも
あるので，注意． 23

(似て非なるもの) 特徴抽出
• 代表的なものとして，PCA(主成分分析)やICA(独立成分分析)
• 特徴を選択するのではなく，新しい特徴を創りだす
• 前処理として行われることもあるが，可視化が目的の場合も多い
• 高次元のデータを，低次元に落として，様子を観察できる
• 改めて，「次元の解釈」をする必要あり．
x1
x2
y1
y2
24

その他の前処理
• 必要に応じて行う（実験計画に依存）
• （基準となる細胞があれば）基準に比べて何倍発現量が上
がった or 下がったか，に変換する．
• その後，必要に応じて Z変換
• 各遺伝子毎の発現量が，平均0, 分散1になるように変
換を行う．
• 取得したいずれのサンプルでも発現量の低いものを除く
• 本当に発現していないのかもしれないし，遺伝子領域やプ
ローブが誤っているのかもしれない
• 目的とは異なる変動を示すと予想されている遺伝子群を除く
• 例えば日変動を見たい時に，日内変動が大きい事が知られ
ている遺伝子は除外するなど．
25

目次
• 前処理
• 正規化
• 結果の解釈
26

蓄積から解析へ
• データベースにデータが蓄積されている
• 蓄積されたデータは，有効活用したい！
• データを有効活用して，解析を行う
データマイニング＋αの例
• Amazonの推奨システム
• GoogleやYahooの検索ランキングや広告配信
• ここでは
• 疾患予測や遺伝子機能予測に向けた技術を考える 27

データ解析は
シミュレーションとは異なる
• シミュレーション
• 観測できないデータの物理法則・モデルによる補完
• 例：気象予報
• 予測
• 物理法則の詳細はわからないけど，精度良く当てる
• 例：ガン発症予測，余命の予測，商品の購入予測，顔認識
• 分析
• データ内に潜む傾向を調べる．
• 例：同時に購入した商品を調べる
• シミュレーションは物理法則を必要とする
• 予測，分析は多様かつ信頼の出来るデータを必要とする
• ここでは，「予測」と「分析」を行います
28

医学系の例
患者さんから採取した発現量とその後の追跡結果から
新たに来た患者の疾病を予測したい．
5.1. クラス分類問題 123
サンプル番号遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ? 29

量の採取 5
サンプルの時間 10 分 20 分 30 分 40 分
遺伝子 1 0.74 0.76 1.34 1.75
遺伝子 2 2.01 2.62 0.87 0.69
遺伝子 3 0.87 0.60 1.83 1.90
遺伝子 4 1.73 1.83 0.96 0.93
遺伝子発現量データの例．各行が一つの遺伝子，各列が採取
した時間を表している．値は 0 分のサンプルに対して，何倍
の発現を有しているかを示す．
遺伝子の使われ方を調べる
遺伝子2,4 が類似．
遺伝子1,3も類似
株価や為替の変動なども同様
30

データマイニング・機械学習
• 教師あり学習 (Supervised Learning, クラス分類,
Classiﬁcation)
• 予測をする
• 遺伝子発現から患者の病態，術後経過を予測
• 遺伝子発現から遺伝子の機能を予測
• 教師なし学習 (Unsupervised Learning)
• 分析（分類）をする
• クラスタリング (Clustering)
• 「似ている」グループを発見する
• 刺激に対して同様に応答する遺伝子群の発見
• 相関ルール (Association Rule)
• 84塩基目と98塩基目のSNPが同時に起こりやすい
31

利用方法
• 最近は，様々な環境で実装されている
• R
• Numpy/Scipy (Python)
• Weka (Java)
• Matlab
• いずれも，ほぼGUIでは操作できないが，データを入力し，手
法を選択した後，パラメータを調整すれば，計算してくれる
• 手法がどのようなもので，パラメータは何であるかを知るこ
とが重要．
• 発現解析に特化したソフトウエアではGUIで使える場合もある
• GeneSpring
• Spotﬁre
• とはいえ，手法やパラメータは自分で選択する必要あり
32

教師あり(教師つき)学習
• データが訓練データとテストデータに分けられる．
• 各訓練データにはクラス（＝答え）が存在している．
• テストデータのクラスを当てたい
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性（特徴量）
33

教師あり(教師つき)学習
• 患者の疾患を予測
• データ＝患者，属性＝遺伝子，クラス＝疾患の有無
• 遺伝子の機能を予測
• データ＝遺伝子，属性＝サンプル，クラス＝機能
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性（特徴量）
34

k-最近点分類 (Nearest Neighbor)
• 最も近いk点のクラスを調べ，多数決を取る．
• 下図では，Qの点のクラスが丸か四角かを予想したい
• 3-最近点分類であれば，E,F,Jが最も近い3点で，丸が
2点含まれるので，Qは丸と予測する．
遺伝子1の
発現量
遺伝子2の発現量
3-ＮＮ
遺伝子1の
発現量
遺伝子2の発現量
(A) 訓練データ (B) サンプルのクラス予測
A
B
C
Ｄ E
F
G
I
L
J
K
H
Q
A
B
C
Ｄ E
F
G
I
L
J
K
H
Q
35

決定木
• 雑誌の裏にある「占い」の様な感じのもの
• データを与えると，決定木アルゴリズムは，訓練データでの正答率が高
くなるように決定木を作成する．
• テストデータを決定木に当てはめ，予測を決定する
• 決定木を複数組み合わせるランダムフォレストも利用される
• 利点：Gene signature (状況を表す遺伝子群)が見つかる．シンプル．
• パラメータ：木の作成時に利用する関数．木の高さの調整項目．
遺伝子1の発現は
5以上？
遺伝子3の発現は
7以上？
Yes No
発病する発病しない
Yes No
発病しない
例えば：
新たな患者の属性値
・遺伝子1: 8.2
・遺伝子2: 10.4
・遺伝子3: 9.5
・遺伝子4: 3.1
木を辿ってみると・・・
36

SVM (Support Vector Machine)
• 機械学習分野を席巻した手法
• 理論的な面白さと同時に，簡単に利用できるプログラムが出回
り，精度が高いことが実証されていった．
⃝と△の境界線を決めたい．色々な引き方が可能
・Fisherの線形判別（古典的な方法）
・重心が遠く，かつ，クラス内の分散が小さくなるような境界
・SVM
・「溝」が大きくなるような境界
37

カーネル化
• SVMの「線形分離可能」は非常に強い仮定
• 工夫１：ソフトマージン．誤分類している点があったら，その分
ペナルティを加える．Cで表される．
• 工夫２：カーネル化
• SVMの計算では「点の位置」より「点と点の距離」の方が本質
的．距離情報に変換することで，線形分離可能な空間を作る．
• 線形カーネル，ガウスカーネル，シグモイドカーネル等
• K-最近点分類も，基本的に距離しか使わない
• 距離は文字列間や化合物間も定義可能なので，より汎用的
38

その他の主なクラス分類手法
• ベイズの定理を用いたもの
• ナイーブベイズ等
• 複数のクラス分類手法を組み合わせるもの
• ブースティング
• ニューラルネットワーク
• ディープネット
39

クラス分類と回帰問題
• 2つのクラスがある時に，それらを分類する手法を紹介した．
• 紹介しなかった方法としてベイズの定理を用いた方法や，複数
の手法を組み合わせる方法（ブースティング）など．きりがな
い・・・
• 同様の方法は「３つ以上のクラスがある場合（他クラス分類）」
や「数値の予測の場合（回帰問題）」にも適用できる．
• 回帰問題は，（一般化）線形回帰などと繋がっていて，非線形
の回帰を可能にする．
• 冒頭に挙げた発現量予測は，回帰の一種．
40

クロスバリデーション・精度の検証
• クラス分類手法には，精度評価が必須．
• どの方法がよいのか？
• 同一の方法でも，どのパラメータが良いのか？
• どれくらい正解している見込みのある予測なのか？
• 予測できたとしても，正答率が高くないかもしれない．
• 答えの分かる「テストデータ」を用意して，予測結果の精度を
測れば良い
• 一般に「答えの分かるテストデータ」を用意することは出来な
いので，与えられた訓練データを擬似的な「訓練データ」と
「テストデータ」に分割して精度評価する．
• クロスバリデーション
41

n-fold cross validation
• サンプル全体を重ならないようにN分割する
• N回モデル作成を実行して，精度を測る
• 下記の例では，9個中何個正解するかを調べる
• 特にn=Nの時，leave-one-out cross validationと呼ぶ
1
2
3
4
5
6
7
8
9 1
2
3
4 5
6 78
9
A
B
C
訓練データテストデータ
24 5 A
6 78 B
139 C
13
6 78
9
B
C
24 5 A
24 5 A
139 C
6 78 B
3-fold cross validation の例
42

クラスタリング
• グループ＝クラスタを見つける
• 似ているものを同一グループに
• 異なるものを異なるグループに
• 点（サンプル）＝個体の場合
• 疾患の種類を分類（3種類の疾患がある，等）
• 近縁種のグループ分け
• 点（サンプル）＝遺伝子の場合
• 遺伝子を機能毎に分類
43

クラスタリング
• グループ＝クラスタを見つける
• 主として2通り
• 非階層型クラスタリング
• クラスタを作る個数を指定して，クラスタを作成する
• 階層型クラスタリング
• 系統樹の様な階層構造と共に，クラスタを生成する
• いずれの方法でも，ポイントは点（クラスタ）の間の距離
の測り方．
44

点の間の距離の定義
• 各点はサンプルあるいは遺伝子
• それぞれ，次元は，遺伝子もしくはサンプル
• 一般的な距離の定義
• 直線距離，マンハッタン距離
• 点と点の間の類似度（類似度が高→距離が近い）
• コサイン角度，相関係数
• 情報量（Kullback-Leibler or Jensen-Shannon divergence等）
x
y
(A) 直線距離
（ユークリッド（ノルム）距離）
(B) マンハッタン距離
x1
x2
dx1
dx2
dx2
1 + dx2
2 |dx1| + |dx2|
x
y
x1
x2
dx1
dx2
x1
(C) コサイン距離
x2
θ
45

k-means クラスタリング
• 非階層型クラスタリング．
• k はクラスタの個数．予め決める必要あり．
• 初期値鋭敏性有り（初期値に依存して結果が変わる）
m(1)
m(2)
x
m(1)
m(2)
仮のクラスタの中心を適当に2点決める
（ここでは与えられた点から2点選んだ）
各点を，最も近い中心のクラスタに
所属すると考えて，割当を決める．
46

k-means クラスタリング (2)
• 最も近い点「だけ」に属するのではなく，距離に従った「属し度合い」を定義す
れば，1点が複数のクラスタに属するような「ゆるい」方法が作れる
• Soft k-means
現在のクラスタ割当を基に，
各クラスタの中心を求める．
クラスタの割当を解消する
・・・
収束する（or 一定回数終了）
まで繰り返す．
47

階層型クラスタリング
• 階層的にクラスタを生成するクラスタ生成手法
• クラスタ間の距離の測り方で，単連結法（最短距離法），
完全連結法（最長距離法），Ward法等がある．
• 系統樹作成法との関連を考えるのも良い
• 基本的な手順は全て同じ．
48
E
(A) B,C及びD,Fの併合 (B) 点A,Eのクラスターへの併合 (C) 単連結法で生成したデンドログラム
A
B
C
D
E
F
G
A
B
C
D
F
G
A B C DE F G
4
3
6
5
2
1
1
2
3
4

距離法
クラスタ X クラスタＹ
クラスタ間
の距離
クラスタ X クラスタＹ
クラスタ間
の距離
(A) 単連結法での距離
最も近い点の距離
(B) 完全連結法での距離
最も遠い点の距離
(C) 平均結合法
全点対間の距離の平均
(D) ウォード法(Ward s method)
クラスタ中心までの距離の和
49

階層型クラスタリング
Hierarchical clustering
k-means クラスタリング
D'haeseleer P. 2005. How does gene expression clustering work? Nature Biotechnology 23: 1499–1501. 50
Removed
Removed

NMF：非負行列因子分解
(Non-negative Matrix Factorization)
• 非負の行列から，頻出するパタンをまとめていく．
• 発現のクラスタリングの代わりに用いられることがある
• Kがクラスタ数．行と列の両方のクラスタが求まるのが嬉しい
J
I
J
I=
K
K
1 1 2 3 1
0 1 0 1 1
2 0 4 4 0
3 0 6 6 0
1 0 2 2 0
0 1 0 1 10 1
1 1
2 0
3 0
=
Lee DD, Seung HS. 1999. Learning the parts of objects by non-negative matrix factorization. Nature 401: 788–791.
電子情報通信学会誌 Vol.95 No.9 pp.829-833 2012年9月より例を転載
51

共発現ネットワーク
• 発現パタンの近い遺伝子に線を引いたネットワークを作る
• そのネットワークを可視化，（ネットワークの上で）ク
ラスタリング，クリークの発見，次数の解析などを行
なって，解析する
Nayak RR, et al. 2009. Coexpression network based on natural variation in
human gene expression reveals gene interactions and functions.
Genome Research 19: 1953–1962. 52
Removed

Gene Ontology,
PathwayPhenotype 転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象
53

目次
• 前処理
• 正規化
• 結果の解釈
54

クラスタ生成後の解析
• 状況
• 遺伝子のグループは求まった
• 疾患と相関高い遺伝子群は求まった
• 問題
• その遺伝子群が，どのように働いているのかを知りたい
• 遺伝子群と既存知識との対応付けを取りたい
• 解法
• その遺伝子群と，知られた機能との対応を順に取っていく
• 10遺伝子中 5遺伝子が膜タンパクに関連していること
は，よくあるだろうか？
• 10遺伝子中 9遺伝子がTCAサイクルに関わることは，
よくあるだろうか？
• そんなことはめったに起こらない対応を求める
• ＝その機能は，遺伝子群に関連深い 55

超幾何分布
• 全部で N個の玉が入った箱を考える．
• 内，N0個が赤，N-N0個が青だとする．
• n回引いた時に，x回以上赤を引く確率は？（非復元抽出）
• Nが十分大きいと，非復元と復元に差異がなくなるので，
二項分布(母比率p=N0/N)と一致．
• 全 N遺伝子中， N0 遺伝子が調べたい機能Fを有している．
• （着目する）クラスタに n遺伝子が入っている．
• x遺伝子以上が機能Fを有している確率は？
N0
x
N N0
n x
N
n
.
N0X
x0=x
N0
x0
N N0
n x0
N
n
.丁度x回の場合 x回以上なので
56

「機能」の種類
• 遺伝子の機能，そのたんぱく質の局在
• クラスタ内の遺伝子に共通する機能や局在があるか？もし存在
すれば，特定の機能が誘導されている事が分かる．あるいは，
特定の機能が，どのような発現パタンを取るかが分かる．
• パスウエイ
• クラスタ内の遺伝子が共通したパスウエイに関わっているか？
特定のパスウエイが使われている事が分かる．
• 転写因子結合モチーフ配列
• クラスタ内の遺伝子の上流に共通するモチーフ配列があるか？
もし存在すれば，上流の転写因子が予測できる
• たんぱく質ドメイン
• クラスタ内の遺伝子が共通して持つドメインがあるか？特定
の機能が誘導されている事が分かる．
57

Gene Ontology
• Term は全ての種で共通
• 各Termに種毎に遺伝子が関連付けられている
• なるべく下の階層に配置されていることに注意
http://www.yeastgenome.org/help/gotutorial.html
ADAMTS13
NCSTN
PPP4R2
RABGGTB
ICMT
BAP1
ARPC4
TTLL1
...
計60遺伝子
58

多重検定補正
• たくさん検定を行うと，偽陽性が高い確率で生まれる
• 例えば，p-value < 0.05 の検定を100個の機能に対して行えば 99.4%
の確率で，関連する機能が見つかってしまう
• 「うそ」の発見が起こる
• Natureの投稿規定にも，「（必要なときには）多重検定補正を行うこ
と」と触れられている
• よく使われる補正方法が２通り
• FWER: 1つでも偽陽性が生まれる確率を α以下にする
• 通常用いられる補正方法
• Bonferroni 補正，Holmの改良等
• Bonferroni: 元のp-value * 検定数を補正後のp-valueとする
• FDR: 検出された中で，擬陽性が α以下になるように補正する
• 生命科学のデータでは，FWERはキツすぎることがあるので，導
入された方法
• Benjamini-Hochberg, Storey-Tibshirani 等． 59

Gene Set Enrichment Analysis
High Low
High Low
理想
現実
統計的に有意
有意にならない，
結構変化あるのに・・・
High Low 高いところだけで判断したい．
ランダムに遺伝子ー機能の関係を入れ替えて，ESが，元のデータ以上になる確率を計算する
→これをp-valueとする．
Enrichment
Score (ES)
着目する機能に含まれている遺伝子に
はプラスポイントを与え，それ以外の
遺伝子にはマイナスポイントを与える
グラフを作る．この山の高さ（谷の深
さ）をEnrichment Score とする．
60
Subramanian et al. PNAS. 2005.

まとめ
61
Gene Ontology,
Pathway
Phenotype，
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象

目次
• 前処理
• 正規化
• 結果の解釈
62

RNA-seq
• 遺伝子の量をリードの数を数えることで定量化
DNA
mRNA
次世代シーケンサ
から得られるリード
（100塩基程度の塩基配列）
リードのマッピング
（リードをゲノムの
領域に対応付ける）
発現量
63

RNA-seqのワークフロー
• 基礎的な要素技術は作成された
• 実用面で，もう少し改良されても良い状況．
リード
・DESeq, EdgeR, Cuﬀdiﬀ
環境は2つ？それとも，3つ以上？
Splicingを見たいか？
発現差異のある遺伝子群の同定
・replicate が必須．
・正規化は必要なし
正規化
・RPKM, FPKM
クラス分類，クラスタリング
•基本的に，マイクロアレイと同じ
方法が利用可能
•RNA-seqの「タグ」を活かした
方法について，論文は出ている
が，広まって行くかは不明．
全遺伝子の発現量
64

RPKM
(Reads Per Kilobase per Million mapped reads)
• 遺伝子1と遺伝子2の発現量を求めたい
14本のリード 14本のリード
遺伝子1 遺伝子2
発現量は同一？ => No
単位長さあたりの発現量 RPKM が利用される [Montazavi et al., 2008 ]
RPKM=Reads Per Kilobase of exon model per
Million mapped reads
遺伝子(Exon)上の全リード
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長(KB)
正規化
65

FPKM
(Fragments Per Kilobase per Million mapped
reads)
• 基本的にRPKMと同じ
• 配列をPaired-endで取得することが増えてきた
• 2本の配列が1本の配列に由来している
• 各readではなく，paired-end 1つで1個とカウントする．
• 利点：
• Paired-endの距離には目安がある（実験プロトコルに寄る
が，大体180-200bpを中心とする分布)ので，この距離から
誤ってmapされたものを発見し，取り除く事ができる．
• Alternative splicing の発現を求める方法も出ている
正規化
66

DESeq, EdgeR, Cuffdiff
• マイクロアレイの時同様，「発現が２倍以上の遺伝子」「半分
以下の遺伝子」等を求めたい．
• マイクロアレイと異なって，「タグ」が数えられる．
• 発現が100の遺伝子が200になるのは，必然性があるよう
に思えるが，発現が1の遺伝子が2になるのは，偶然の可能
性が高いかもしれない．
• 遺伝子の発現は，ランダムサンプリングとして統計的に定式
化できるだろう．
• ランダムにタグを取ってきたら，目的の遺伝子からのタ
グが取れる個数の分布を考える．
• Poisson分布に従うはず．
• Poisson分布は，平均＝分散
発現差異の同定
67

過分散 (Overdispersion)
• Poisson分布なら，得られた点は紫の線が中心になるまず
• 実際には，特に発現量の大きい遺伝子で，分散が大きい
• Poisson分布に分散を加えたモデル＝負の二項分布
(Negative Binomial Distribution) を利用
• p: 母比率，k: 観測回数，r: パラメータ
• r回失敗を許した時の，Poisson分布
NB(r, p) =
✓
k + r 1
k
◆
· (1 p)r
pk
pr
1 p
pr
(1 p)2平均分散
In Supporting text of
Anders S, Huber W. 2010. Differential expression analysis for
sequence count data. Genome Biology 11: R106. 68
Removed

その他
• マイクロアレイに比べての利点
• 費用は，恐らく同じくらいか，少し安いくらい
• 定量性は高いと考えられている
• Splicing variant を見ることが可能
• 非モデル生物でも利用可能
• 欠点
• 過去の蓄積が無いので，比較検討が難しい
• 解析に時間がかかる
• 今まで見えなかったものが見える．
• Splicing の問題，変異の問題，遺伝子領域以外の発現
• モデル生物で，単に発現が知りたい，かつ，周辺に設備が
整っているなら，現時点ではマイクロアレイの方がよいかも
• スプライシングが見たい，非モデル生物を扱いたい場合は，
RNA-seq
69

まとめ
70
Gene Ontology,
Pathway
Phenotype，
疾患
転写制御領域
Gene 1
Gene 2
Gene 3
Gene 4
Gene 5
観測対象

バイオインフォマティクスによる遺伝子発現解析

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to バイオインフォマティクスによる遺伝子発現解析

Similar to バイオインフォマティクスによる遺伝子発現解析 (20)

More from sesejun

More from sesejun (20)

バイオインフォマティクスによる遺伝子発現解析