SlideShare a Scribd company logo
1 of 11
t-SNEを用いた遺伝子データの可視化
立命館大学理工学部数理科学科二回生
谷口泰地
遺伝
遺伝子配列
形質
身長.体重,etc決定づける!!
SNP(一塩基多形)・・・遺伝情報を決定づける遺伝子配列は、塩基配列でできて
いる。塩基配列の中で塩基が他と違っているもののことをSNPという。身長や体重
はもちろん、特定の病気にかかりやすい、薬の副作用が他人より強い、などを決定
づける要因。ヒトゲノムでは約30億の塩基の中に約1000万か所あるといわれている。
https://www.whatisdna.net/wp-
content/uploads/2016/11/SNP.png
遺伝
数百,数千の1000万個次元のSNPのサンプルをみて,「どの個体がどの個体に遺伝
的に近い(遠い)」かというのを網羅的にみて,可視化したい.
遺伝的な近さと形質的な近さや,遺伝的な近さと生息地の関係などを見て,品質改
良などに役立つ知見を得たい
問題
個人1
個人2
個人3
遠い!!
近い!
普通。
遺伝的距離の関係を保ちながら,高次元のデータを二次元のデータ
に変換することで可視化を可能にしたい
N次元
二次元だと距離関係が
直感的につかめる
個人1 個人2
遠いやつは遠くに!!
近いやつは近くに!
普通は適度に。
個人3
Nが大きいと可視化は難しい
SNE: 高次元のデータの可視化
それぞれの点Xiからソレ以外の点への距離の経験的分布を保ちつつ,二次元へと埋め込
める関数gを探す。
X0
X1
X2
X3
Y1 Y2
p01
p02
p03
q01
q02
q03
𝑞𝑖𝑗 =
exp(−(||𝑔(𝑋𝑖) − 𝑔(𝑋𝑗)||)2
)
Σ 𝑘≠𝑙exp(−(||𝑔(𝑋𝑖) − 𝑔(𝑋𝑙)||)2)𝑝𝑖𝑗 =
exp(− (||𝑥𝑖 − 𝑥𝑗||)2
2𝜎2
)
Σ 𝑘≠𝑙exp(− ||𝑥 𝑘 − 𝑥𝑙||2 2𝜎2)
PとQ(g) のKL距離(分布間の距離)が小さければ小さいほどgは優秀
Y3
𝑌0
離散化されたガウス分布で経験的に表現した,
Xiから他の点Xjへの分布
埋め込み関数 g
g に依って決定する「埋込後」の距離の分布 Q(g)
SNE: 高次元のデータの可視化
それぞれの点Xiからソレ以外の点への距離の経験的分布を保ちつつ,二次元へと埋め込
める関数gを探す。
𝑞𝑖𝑗(𝑔) =
exp(−(||𝑔𝑖 − 𝑔𝑗||)2
)
Σ 𝑘≠𝑙exp(−(||𝑔𝑖 − 𝑔𝑙||)2)𝑝𝑖𝑗 =
exp(− (||𝑥𝑖 − 𝑥𝑗||)2
2𝜎2
)
Σ 𝑘≠𝑙exp(− ||𝑥 𝑘 − 𝑥𝑙||2 2𝜎2)
gについて微分(変分)を取ってPとQ(g) のKL距離(カルバック・ライブラーダイバー
ジェンス,分布間の距離) Ψ 𝑔 を 最小化する(ロビンス・モンロー)
Pythonでも実装中・・・
𝑝𝑖と𝑞𝑖は大体ガウス分布に従う!と仮定する
Ψ 𝑔 =
𝑖=1
𝑀
𝐾𝐿[𝑝𝑖| 𝑞𝑗 𝑔 =
𝑖=1
𝑀
𝑗=1
𝑀
𝑝𝑖𝑗 𝑙𝑜𝑔
𝑝𝑖𝑗
𝑞𝑖𝑗
g(Xi)=gi
目的関数(PiとQi (g) のKL距離の和)
ガウス分布の代わりに距離分布 𝑞𝑖にスチューデント
のt分布を使う手法。
𝑞𝑖𝑗(𝑔) =
(1 + (||𝑔𝑖 − 𝑔𝑗||)2
)−1
Σ 𝑘≠𝑙(1 + (||𝑔𝑖 − 𝑔𝑙||)2)−1
データの個数が少ないとき今あるデータの
統計量は真の統計量よりぶれが大きくなる
ことが多い。つまり分散が大きい。
t-SNE:
スチューデントのt-分布
平均は同じで分散が違うガウス分布を無限個足し合わせたもの。
正規分布より裾が長い
正規分布より、少ないデータの外れ値に影響を受けにくくなる。
t-SNEを麦のゲノムデータに適用してみた
1279 個のSNP座位
599個体
599個の
1279次元ベクトル
599個体
3つの量的形質
データ・セット
量的形質とは: 収穫量,色,寿命 などなど 量で図れる形質
V2V1 V3
599個の
3次元ベクトル
R package ”BGLR” 付属の麦のデータ:
形質Vkは環境kにおける収穫量
Rでt-SNEを麦のゲノムデータに適用してみた
1279 次元のベクトルを
2次元に埋め込んでみた結果
色は量的形質を示す
𝑅 =
exp(𝑉1𝑘/𝜏)
max(exp
𝑉1𝑘
𝜏
)
考察:
似た色同士の点が近くに集まっていない。
これはゲノムデータ上のユークリッド距
離では個体の量的形質同士の距離関係を
うまく表現できないことを示している。
𝐺 =
exp(𝑉2𝑘/𝜏)
max(exp
𝑉2𝑘
𝜏
)
𝐵 =
exp(𝑉3𝑘/𝜏)
max(exp
𝑉3𝑘
𝜏
)
t-SNEを麦のゲノムデータに適用してみた2
10000 次元のベクトル,
2263個体分を
2次元に埋め込んでみた結果
ことなる複数の集団から取られた稲の遺伝子データへの適用(ネブラスカ大学農学部提供)
色は集団(生息地・原生地など)
で分けた分類を示す.
オレンジと黄色は違う集団
考察:先ほどとは違い、色毎に分かれて
いるのがわかる。しかし、赤色の点だけ
は全体的に分布している。これは赤色の
集団が遺伝的に偏っていないということ
である。よって、赤色の集団に属してい
る個体達は品種改良に向いていることが
わかる。
今後のプラン
• 形質も考慮できるマハラノビス距離なども考え試す
• 遺伝子の距離関係が集団(生息地・原生地など)の特徴に
どう関連しているか調べる
• 集団構造の特徴とその分散の大きさの関連について調べる
• 実際の麦データ2は20万次元のSNPデータなので,それ
についての実験を実行する

More Related Content

More from takutori

Slack data Analysis
Slack data AnalysisSlack data Analysis
Slack data Analysistakutori
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 

More from takutori (8)

Slack data Analysis
Slack data AnalysisSlack data Analysis
Slack data Analysis
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
Dijkstra
DijkstraDijkstra
Dijkstra
 
Heap
HeapHeap
Heap
 
T-sne
T-sneT-sne
T-sne
 
Kernel
KernelKernel
Kernel
 
Bayes
BayesBayes
Bayes
 

T-sne

Editor's Notes

  1. 青の分布は裾のほうの極端な値もあり得ると考えている。
  2. tau で色の濃さの極端度をコントロール 0で最極端、結論:二つの個体の間に存在する量的形質の差がゲノム空間上の距離に反映されるように距離を設定しなければいけない。