Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

変数同士の関連_MIC

3,838 views

Published on

第5回Hijiyama.Rの発表です

Published in: Data & Analytics

変数同士の関連_MIC

  1. 1. 変数同士の関連を 見ようよ ~21世紀の相関 (MIC) の話とか~ 難波 修史
  2. 2. 自己紹介 •難波 修史(なんば しゅうし) •広島大学大学院教育学研究科D1 •感情表情の表出・認知の研究してます。 •R歴:ちょこちょこ •twitter:@NSushi
  3. 3. Motivation • データを分析する人達 (ひいては R users 何が見たいん? =データ同士の関連を見たい • 得られたデータAとBの項目に何らかの関連がみ られる=相関がある。(⇔項目同士が独立
  4. 4. ピアソンの相関係数 • 2つの変数(X and Y)間にある線形な関係の強 弱を図る指標(-1~1)。 • 式
  5. 5. 線形?(http://www.sqc-works.com/qc7-04.htmlより拝借 こんな感じに 2変数が直線の 関係を持つこと (例:xが高いほどyが低くなる
  6. 6. Rでの実装 • x <- runif(10) • y <- 3*x + 2 # plot(x, y) ↓ こんな感じ • cor(x,y) # 結果は当然1
  7. 7. こんなのもあるはず • t <- seq(-2*pi, 2*pi, 0.2) • y1 <- sin(2*t) • plot(t, y1) # これ→ 非線形データでは ピアソンの相関係 数では関連無し
  8. 8. 世の中はすべて線形?(wikiより拝借 下段のように明らかにデータ同士に関連があっても 線形関係を検討するPearsonじゃわかんないです><
  9. 9. どうすんの?
  10. 10. そこでMICですよ。
  11. 11. 21世紀の相関なるものがある? • Maximal Information Coefficient (Reshef et al., 2011) = 非線 形関係も含めた変数間の関連を見る指標 • 線形関係であればMIC ~= Pearsonの相関2 • Science誌にて報告 され、「21世紀の 相関」として推薦 される (右図
  12. 12. MICの哲学 (logics of blueより拝借 もしも2つの変数間 に相関があるなら データを要約するよ うにデータを分割す るグリッドを引ける。 ちなみに詳細をわか りやすく説明されて る資料はこちら ↓ http://lectures.molgen.mpg .de/algsysbio12/MINEPres entation.pdf
  13. 13. MIC,つおい:ノイズなしの関連データに対する結果 あびゃー すごーい なんにでも あてはまる
  14. 14. どんなデータにも概ね対応! 色=2変数間の 関連性 x軸=ノイズ 上=MIC 下=スピアマン の順位相関係数 理想的 挙動!!
  15. 15. MICの実装 • library(minerva) • mine(x, y) これだけ!! Cor = -.19
  16. 16. ほかの指標 • MAS:単調性 • MEV:関数っぽさ • MCN:複雑さ • MIC-R2:非線形度合い ※詳しい内容は計算の仕方(グリッドの線の引き方やら相 互情報量やら)とも関わってくるのでminervaのHelpや上に あげているわかりやすい資料などを参照ください こいつらとあわせてMICを解釈して データの関連に思いを馳せよう!!
  17. 17. データ生成の例 • n <- 100 #逆U字 • x <- runif(n, min = -1, max = 1) • y <- sqrt(1 - x^2) + rnorm(n, 0, 0.05) • plot(x, y) • x1 <- runif(n, min = 0, max = 4) #なんかジグザグ • y1 <- x1 - floor(x1) + rnorm(n, 0, 0.05) • plot(x1, y1) cor.test() と mine() の結果を見比 べて興奮したりしよう!!
  18. 18. 補足 • MICはビッグデータを前提にしているの で、nが少ない時はalphaを1.0に設定して あげてネ! • ※α = グリッドの分け方に関するパラメータ、 詳しくは論文とか、Help、読め
  19. 19. やったぜ!これでかつる!
  20. 20. 21世紀の相関に関する 別のアプローチ • HSIC (Hilbert-Schmidt Independence Criteria):独 立性の検定 • 独立性? • 変数同士が関連を持つことを見たい =変数同士が独立してるか否かを調べたい =データを再生核ヒルベルト空間に 飛ばし、そこでの関係性を見る ことで非線形であっても関係性を 見出せばええやん!!!
  21. 21. こんな資料が! (http://www.slideshare.net/motivic/tokyo-r-lt-25759212 結果! どうやらMICはノイズ に弱いらしい!
  22. 22. ほんならHSIC • データをなんかかっこいい次元にとばすらしい ぜ! • 友達に自慢しよう! • ちゃんと自慢したい人は以下の論文を読もう! ※ぼくは諦めたぞ!! Measuring Statistical Dependence with Hilbert- Schmidt Norms (Gretton et al., Algorithmic Learning Theory, 2005)
  23. 23. HSICの実装 • library(dHSIC) #hsicCCA, EDAでもいけるらしい • X <- list(x, y) #さっきの逆U字型のやつ使ってます • dhsic.test(X,method="gamma",kernel="gaussian",B =100) =関連してるぞ!! ※この辺、自信ないので、間違っ てたらご指摘お願いします。
  24. 24. なるほど。 •つまりHSICをつかえばええのん?
  25. 25. は?負けてへんし • MIC論文の著者がMICの限界を乗り越える ためのMICに関する指標をいくつか提案 (Reshef et al. 2015; 実際の比較 Reshef et al. 2015) • 関連を見るのにはMIC*(MICの母数値), MICe (equicharacteristic matrixを用いたMIC*の推定値: このわけ わからん行列の詳細はReshef et al. 2015のp12) •TIC=独立性の検定にかかわる統計量
  26. 26. TICの実装 • git_hub版のminervaをインストールするん じゃ(簡単! • library(devtools) • install_github(“cran/minerva”) • ※もちろんネット環境でね!
  27. 27. TICの実装 • ※逆U字型のやつ使ってます。 高いほど2変数 が関連してる!
  28. 28. あれ? • Reshef et al. (2015)の論文に はMICeがたまんねえって書 いてあったけど、どう算出 すんのよ?
  29. 29. 世界の変態を待ちましょう (あなたが作ってもいいのよ
  30. 30. へー!2変数の関係を見る指 標っていろいろあるんだね! でも…
  31. 31. やっぱ可視化が一番! • 指標もいいけどまずはグラフやプロットで2変 数同士の関係を可視化しよう! 視覚的に2変数を眺めたら 関係性なんて一発やん!!
  32. 32. 結論:可視化、大事 • やはりggplot2じゃっ たか… 。 • 過去のHijiyama.Rで 発表されてる紀の定 先生の資料、つよい。
  33. 33. 発表のまとめ • 現状は最新版のminervaのmine関数で変数同士 の関連に思いをはせましょう。 • より素敵な指標に関しては世界の変態を待つ か、待ちきれない変態は自分で作りましょう。 • 関係見るには可視化が一番だけどたくさん データがあればとっかかりにMICを使える。
  34. 34. 番外編 • http://www.exploredata.net/ • MINE: Maximal Information-based Nonparametric Exploration MIC論文の著者によるサイト、 データセットなりJavaを介したRの関数なりが あって興奮する。 • https://www.ncbi.nlm.nih.gov/pubmed/26283601 • CANOVA:非線形データの独立性を検討する やつ。C++により作成されてる (Wang et al. 2015)。ちゃんと読んでない。
  35. 35. 参考資料 • これまでのスライドに含まれてたURL • http://logics-of- blue.com/%E9%9D%9E%E7%B7%9A%E5%BD% A2%E3%82%82ok%E3%81%AA%E7%9B%B8% E9%96%A2%E4%BF%82%E6%95%B0%EF%BC %9Amic/ • http://takehiko-i- hayashi.hatenablog.com/entry/20130426/13669485 60
  36. 36. 参考論文 • Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., and Sabeti, P. (2011) Detecting Novel Associations in Large Data Sets,Science, highwire 334, 1518–1524. • Reshef, D. N., Reshef, Y. A., Sabeti, P. C., & Mitzenmacher, M. M. (2015). An empirical study of leading measures of dependence. arXiv preprint arXiv:1505.02214. • Reshef, Y. A., Reshef, D. N., Finucane, H. K., Sabeti, P. C., and Mitzenmacher, M. M. (2015) Measuring dependence powerfully and equitably.

×