T-sne

t-SNEを用いた遺伝子データの可視化
立命館大学理工学部数理科学科二回生
谷口泰地

遺伝
遺伝子配列
形質
身長．体重，etc決定づける！！
SNP（一塩基多形）・・・遺伝情報を決定づける遺伝子配列は、塩基配列でできて
いる。塩基配列の中で塩基が他と違っているもののことをSNPという。身長や体重
はもちろん、特定の病気にかかりやすい、薬の副作用が他人より強い、などを決定
づける要因。ヒトゲノムでは約30億の塩基の中に約1000万か所あるといわれている。
https://www.whatisdna.net/wp-
content/uploads/2016/11/SNP.png

遺伝
数百，数千の1000万個次元のSNPのサンプルをみて，「どの個体がどの個体に遺伝
的に近い（遠い）」かというのを網羅的にみて，可視化したい．
遺伝的な近さと形質的な近さや，遺伝的な近さと生息地の関係などを見て，品質改
良などに役立つ知見を得たい
問題

個人１
個人2
個人3
遠い！！
近い！
普通。
遺伝的距離の関係を保ちながら，高次元のデータを二次元のデータ
に変換することで可視化を可能にしたい
N次元
二次元だと距離関係が
直感的につかめる
個人１個人2
遠いやつは遠くに！！
近いやつは近くに！
普通は適度に。
個人3
Nが大きいと可視化は難しい

SNE: 高次元のデータの可視化
それぞれの点Xiからソレ以外の点への距離の経験的分布を保ちつつ，二次元へと埋め込
める関数ｇを探す。
X0
X1
X2
X3
Y1 Y2
p01
p02
p03
q01
q02
q03
𝑞𝑖𝑗 =
exp(−(||𝑔(𝑋𝑖) − 𝑔(𝑋𝑗)||)2
)
Σ 𝑘≠𝑙exp(−(||𝑔(𝑋𝑖) − 𝑔(𝑋𝑙)||)2)𝑝𝑖𝑗 =
exp(− (||𝑥𝑖 − 𝑥𝑗||)2
2𝜎2
)
Σ 𝑘≠𝑙exp(− ||𝑥 𝑘 − 𝑥𝑙||2 2𝜎2)
PとQ(g) のKL距離（分布間の距離）が小さければ小さいほどｇは優秀
Y3
𝑌0
離散化されたガウス分布で経験的に表現した，
Xiから他の点Xjへの分布
埋め込み関数 g
g に依って決定する「埋込後」の距離の分布 Q(g)

SNE: 高次元のデータの可視化
それぞれの点Xiからソレ以外の点への距離の経験的分布を保ちつつ，二次元へと埋め込
める関数ｇを探す。
𝑞𝑖𝑗(𝑔) =
exp(−(||𝑔𝑖 − 𝑔𝑗||)2
)
Σ 𝑘≠𝑙exp(−(||𝑔𝑖 − 𝑔𝑙||)2)𝑝𝑖𝑗 =
exp(− (||𝑥𝑖 − 𝑥𝑗||)2
2𝜎2
)
Σ 𝑘≠𝑙exp(− ||𝑥 𝑘 − 𝑥𝑙||2 2𝜎2)
ｇについて微分（変分）を取ってPとQ(g) のKL距離（カルバック・ライブラーダイバー
ジェンス，分布間の距離） Ψ 𝑔 を最小化する（ロビンス・モンロー）
Pythonでも実装中・・・
𝑝𝑖と𝑞𝑖は大体ガウス分布に従う！と仮定する
Ψ 𝑔 =
𝑖=1
𝑀
𝐾𝐿[𝑝𝑖| 𝑞𝑗 𝑔 =
𝑖=1
𝑀
𝑗=1
𝑀
𝑝𝑖𝑗 𝑙𝑜𝑔
𝑝𝑖𝑗
𝑞𝑖𝑗
g(Xi)=gi
目的関数(PiとQi (g) のKL距離の和)

ガウス分布の代わりに距離分布 𝑞𝑖にスチューデント
のt分布を使う手法。
𝑞𝑖𝑗(𝑔) =
(1 + (||𝑔𝑖 − 𝑔𝑗||)2
)−1
Σ 𝑘≠𝑙(1 + (||𝑔𝑖 − 𝑔𝑙||)2)−1
データの個数が少ないとき今あるデータの
統計量は真の統計量よりぶれが大きくなる
ことが多い。つまり分散が大きい。
t-SNE:
スチューデントのt-分布
平均は同じで分散が違うガウス分布を無限個足し合わせたもの。
正規分布より裾が長い
正規分布より、少ないデータの外れ値に影響を受けにくくなる。

t-SNEを麦のゲノムデータに適用してみた
1279 個のSNP座位
599個体
５９９個の
１２７９次元ベクトル
599個体
３つの量的形質
データ・セット
量的形質とは：収穫量，色，寿命などなど量で図れる形質
V2V1 V3
５９９個の
3次元ベクトル
R package ”BGLR” 付属の麦のデータ：
形質Vkは環境kにおける収穫量

Rでt-SNEを麦のゲノムデータに適用してみた
1279 次元のベクトルを
２次元に埋め込んでみた結果
色は量的形質を示す
𝑅 =
exp(𝑉1𝑘/𝜏)
max(exp
𝑉1𝑘
𝜏
)
考察：
似た色同士の点が近くに集まっていない。
これはゲノムデータ上のユークリッド距
離では個体の量的形質同士の距離関係を
うまく表現できないことを示している。
𝐺 =
exp(𝑉2𝑘/𝜏)
max(exp
𝑉2𝑘
𝜏
)
𝐵 =
exp(𝑉3𝑘/𝜏)
max(exp
𝑉3𝑘
𝜏
)

t-SNEを麦のゲノムデータに適用してみた２
10000 次元のベクトル，
2263個体分を
２次元に埋め込んでみた結果
ことなる複数の集団から取られた稲の遺伝子データへの適用（ネブラスカ大学農学部提供）
色は集団（生息地・原生地など）
で分けた分類を示す．
オレンジと黄色は違う集団
考察：先ほどとは違い、色毎に分かれて
いるのがわかる。しかし、赤色の点だけ
は全体的に分布している。これは赤色の
集団が遺伝的に偏っていないということ
である。よって、赤色の集団に属してい
る個体達は品種改良に向いていることが
わかる。

今後のプラン
• 形質も考慮できるマハラノビス距離なども考え試す
• 遺伝子の距離関係が集団（生息地・原生地など）の特徴に
どう関連しているか調べる
• 集団構造の特徴とその分散の大きさの関連について調べる
• 実際の麦データ２は２０万次元のSNPデータなので，それ
についての実験を実行する

T-sne

Recommended

Recommended

More Related Content

More from takutori

More from takutori (8)

T-sne

Editor's Notes