21世紀の手法対決 (MIC vs HSIC)

8,669 views

Published on

第33回R勉強会@東京
MICとHSICの性能比較です

Published in: Technology
0 Comments
42 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
8,669
On SlideShare
0
From Embeds
0
Number of Embeds
447
Actions
Shares
0
Downloads
121
Comments
0
Likes
42
Embeds 0
No embeds

No notes for slide

21世紀の手法対決 (MIC vs HSIC)

  1. 1. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 . ...... 21 世紀の手法対決 @motivic 第 33 回 R 勉強会@東京 2013 年 8 月 31 日 @motivic 21 世紀の手法対決
  2. 2. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 目次 ...1 はじめに 自己紹介 ...2 21 世紀の手法対決 20 世紀の独立性を見つける方法の限界 21 世紀の相関:MIC 21 世紀の検定:HSIC test いざ勝負! ...3 参考 参考文献 参考 HP @motivic 21 世紀の手法対決
  3. 3. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 自己紹介 twitter ID:@motivic 職業:研究室に住む妖精 研究分野    代数統計 (代数幾何) 情報幾何 トポロジカルデータ解析    を用いた    医療統計 疫学 因果推論    統計ゆるふわ勢 @motivic 21 世紀の手法対決
  4. 4. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 はじめに 注意 本日の話では交絡(擬似相関)は避けられていると仮定 ただし、本日の議論を交絡がある場合に拡張することも可能 @motivic 21 世紀の手法対決
  5. 5. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 変数の独立性 . 変数同士が U 字型の関連を持つ場合の独立性検定 .. ...... U 字型の相関係数はかなり小さい 普通の独立性検定をすると、独立と判定される @motivic 21 世紀の手法対決
  6. 6. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 線形から非線形へ . 従来法 .. ...... Pearson の相関係数は線形的な関係を見るもの 順位相関係数は単調的な関係を見るもの 非線形な関係を見るためには離散化する必要があった しかし離散化に恣意性が入る   . 線形から非線形へ .. ...... 非線形の関係をうまく捉える方法が出てきた!   @motivic 21 世紀の手法対決
  7. 7. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient) 21世紀の相関係数:MIC @motivic 21 世紀の手法対決
  8. 8. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . 21 世紀の相関:MIC(Reshef et al, 2011) .. ...... 2011 年に Science 誌に 21 世紀の相関係数なんて呼ばれるも のが出てきた これを使えば非線形な関連も捉えられる アイデアとしては、従来の離散化には恣意性があったので、 ありうる全ての離散化をして計算すればいいじゃん、という レベルを上げて物理で殴ればいい的な考え @motivic 21 世紀の手法対決
  9. 9. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  10. 10. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  11. 11. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  12. 12. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  13. 13. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  14. 14. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  15. 15. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient) . R で MIC を計算するパッケージ .. ...... minerva というパッケージで MIC が計算できる。 cars データ (車の速さと停止距離のデータ) で MIC を計算してみ ると、 >library(minerva) >mine(cars)$MIC[1,2] [1] 0.666265 @motivic 21 世紀の手法対決
  16. 16. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test 21世紀の検定:HSIC test @motivic 21 世紀の手法対決
  17. 17. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test みんな大好き! 再生核ヒルベルト空間! @motivic 21 世紀の手法対決
  18. 18. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . 再生核ヒルベルト空間を用いた独立性検定 .. ...... 再生核ヒルベルト空間を用いたノンパラメトリックな独立性 検定 (HSIC test, Hilbert-Schmidt Independence Criterion test) なんてものもある (Gretton et al, 2005, 2010) これを使っても非線形な関連を見つけられる アイデアとしては、データを再生核ヒルベルト空間に移し て、その中で関係性を見るというハイソなやり方 @motivic 21 世紀の手法対決
  19. 19. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx ガウスカーネル kG(x, y) = exp ( − 1 2σ2 ||x − y||2 ) ラプラスカーネル kL (x, y) = exp  −β n∑ i=1 |xi − yi|     など @motivic 21 世紀の手法対決
  20. 20. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx y y i j k( , ) k( , ) yi jy Hy @motivic 21 世紀の手法対決
  21. 21. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx y y i j k( , ) k( , ) yi jy Hy Σyx @motivic 21 世紀の手法対決
  22. 22. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . 定理 .. ...... < ΣYX f, g >HY = E[f(X)g(Y)] − E[f(X)]E[g(Y)] を満たす ΣYX が一意的に存在する。 HYX := ∥ΣYX ∥2 HS   としたとき(∥ · ∥HS は Hilbert-Schmidt ノルム)、カーネルが特性 的であれば、 X ⊥⊥ Y ⇔ HYX = 0   @motivic 21 世紀の手法対決
  23. 23. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . R での計算 .. ...... 実装は Rcpp でしています Rcpp については第 29 回 R 勉強会@東京の大仏様の資料がお ススメ! http://www.slideshare.net/teramonagi/tokyor-rcpp-16709700 具体的なコードの公開は HSIC を応用した論文を書くまでお 待ちを @motivic 21 世紀の手法対決
  24. 24. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC 2つの手法の勝負! @motivic 21 世紀の手法対決
  25. 25. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   U 字型の関連を持つものにノイズを加えたもの この関連をどれだけ捉えられるかの検出力で比較する @motivic 21 世紀の手法対決
  26. 26. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  27. 27. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   線形の関連を持つものにノイズを加えたもの @motivic 21 世紀の手法対決
  28. 28. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  29. 29. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   指数型の関連を持つものにノイズを加えたもの @motivic 21 世紀の手法対決
  30. 30. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  31. 31. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC . まとめ .. ...... MIC は U 字型の関係ではそこそこ良いが、線形的や単調な関 係に対してはノイズが入ると検出力がかなり落ちる HSIC は非線形の関係も捉えつつ、線形的や単調的な場合も 従来法並みの検出力がある   . 判定 .. ...... HSICの勝ち! @motivic 21 世紀の手法対決
  32. 32. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 GMIC vs MIC vs HSIC . GMIC について .. ...... 今週 GMIC という MIC の検出力の低さを改善させた論文のプ レプリントで出てました 論文を読んでみたところ検出力は HSIC >>> GMIC > MIC となりそうなので、やっぱり HSIC がスゴイ   @motivic 21 世紀の手法対決
  33. 33. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 参考文献 Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R., McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M., Sabeti, P.C.(2011). Detecting Novel Associations in Large Data Sets, Science 334 (6062), 1518-1524 Gretton, A., Bousquet, O., Smola, A., and Schoelkopf, B.(2005). Measuring Statistical Dependence with Hilbert-Schmidt Norms, MPI for Biological Cybernetics (140) Gretton, A. and Gyorfi, L.(2010) Consistent Nonparametric Tests of Independence, Journal of Machine Learning Research, 11 , pp.1391–1423 @motivic 21 世紀の手法対決
  34. 34. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 参考 HP MIC について Take a Risk:林岳彦の研究メモ − 2013-04-26 ”相関”の話&そのついでに”21 世紀の相関 (MIC)”の話 http://d.hatena.ne.jp/takehiko-i-hayashi/20130426/1366948560 HSIC について 統数研の福水先生の HP にある色々な資料 http://www.ism.ac.jp/˜ fukumizu/ @motivic 21 世紀の手法対決

×