T-sne
- 7. ガウス分布の代わりに距離分布 𝑞𝑖にスチューデント
のt分布を使う手法。
𝑞𝑖𝑗(𝑔) =
(1 + (||𝑔𝑖 − 𝑔𝑗||)2
)−1
Σ 𝑘≠𝑙(1 + (||𝑔𝑖 − 𝑔𝑙||)2)−1
データの個数が少ないとき今あるデータの
統計量は真の統計量よりぶれが大きくなる
ことが多い。つまり分散が大きい。
t-SNE:
スチューデントのt-分布
平均は同じで分散が違うガウス分布を無限個足し合わせたもの。
正規分布より裾が長い
正規分布より、少ないデータの外れ値に影響を受けにくくなる。
Editor's Notes
- 青の分布は裾のほうの極端な値もあり得ると考えている。
- tau で色の濃さの極端度をコントロール 0で最極端、結論:二つの個体の間に存在する量的形質の差がゲノム空間上の距離に反映されるように距離を設定しなければいけない。