Successfully reported this slideshow.
Upcoming SlideShare
×

# 幾何を使った統計のはなし

26,754 views

Published on

zansa Sep/27th/2012

• Full Name
Comment goes here.

Are you sure you want to Yes No
• Hi there! I just wanted to share a list of sites that helped me a lot during my studies: .................................................................................................................................... www.EssayWrite.best - Write an essay .................................................................................................................................... www.LitReview.xyz - Summary of books .................................................................................................................................... www.Coursework.best - Online coursework .................................................................................................................................... www.Dissertations.me - proquest dissertations .................................................................................................................................... www.ReMovie.club - Movies reviews .................................................................................................................................... www.WebSlides.vip - Best powerpoint presentations .................................................................................................................................... www.WritePaper.info - Write a research paper .................................................................................................................................... www.EddyHelp.com - Homework help online .................................................................................................................................... www.MyResumeHelp.net - Professional resume writing service .................................................................................................................................. www.HelpWriting.net - Help with writing any papers ......................................................................................................................................... Save so as not to lose

Are you sure you want to  Yes  No
• A professional essay writing services can alleviate your stress in writing a successful paper and take the pressure off you to hand it in on time. Check out, please HelpWriting.net

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No
• Sex in your area is here: ♥♥♥ http://bit.ly/39sFWPG ♥♥♥

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No

### 幾何を使った統計のはなし

1. 1. 幾何を使った統計のはなし ー統計を可視化するー 2012/9/27 #zansa @motivic_
2. 2. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 1
3. 3. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 2
4. 4. 自己紹介（略歴） 大学・院 アメリカの大学で純粋数学（学部：低次元トポロジー、院：代数幾何）を勉強 社会人時代 国の機関で… 再び院へ 興味―生物統計 ―情報幾何 ―代数統計 3
5. 5. 自己紹介（略歴） 大学・院 アメリカの大学で純粋数学（学部：低次元トポロジー、院：代数幾何）を勉強 社会人時代 国の機関で… 再び院へ 興味―生物統計 ―情報幾何 ―代数統計 人生ランダムウォーク気味？ 4
6. 6. モチベーション 統計って計算ばっかり 統計手法を視覚的に見たい！ 統計を幾何の世界に持ち込めば、幾何学的な 手法が使える！ 5
7. 7. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 6
8. 8. 情報幾何って何？母数を局所座標系として確率密度関数の集まりを多様体とみて、フィッシャー情報行列をリーマン計量としたリーマン幾何 ・ ・ ・ ・ 7
9. 9. ？？ ____ ━┓ ___ ━┓ ／ ― ＼ ┏┛／ ―＼ ┏┛ ／ (●) ＼ ヽ ・ ／ノ (●) ＼ ・ / （⌒ (●) / ｜ (●) ⌒） ＼ / ￣ヽ__） ／ ｜ （__ノ￣ | ／ ___ ／ ＼ / | ＼ ＼ _ノ | | / ＼ 8
10. 10. 本日の方針微分幾何や代数幾何を（直接）使いませんグラフと図を中心に説明します 9
11. 11. 情報幾何の始まり C.R. Rao 「フィッシャー情報行列をリーマン計量 として考えるのが重要じゃね？」（１９４５） これの意味の解説から始めます 10
12. 12. 正規分布N(μ, σ²)の母数空間 11
13. 13. 分布の離れ度合 Kullback-Leibler divergence p1 q1 p2 q2 12
14. 14. ユークリッドじゃない！ 13
15. 15. KL-DivergenceとFisher情報量との関係 対数尤度を として、フィッシャー情報量を と定義する。 今、 と のKullback-Leibler divergenceにマクロ ーリン展開を使うと、 Iが長さを測るものさしとして使えそう！（参考） 「良い計量」は（定数倍を除き）Iのみであることが証明されています（Cencov） 14
16. 16. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 15
17. 17. 漸近的に等しい３つの検定H0:θ＝θ0を帰無仮説とした検定 尤度比検定 l(θmle)－ l(θ0) の差を見る （統計量は2(l(θ )－ l(θ ))） mle 0 Wald検定 θmle－ θ0の差を見る （統計量は(θ － θ )^2/V(θ )） mle 0 mle スコア検定（ラオ検定、ラグランジュ乗数検定） θ0の傾きを見る （統計量はl’(θ )^2/V(θ )） 0 0 漸近的には全てχ2分布 16
18. 18. 漸近的に等しい３つの検定のよく見るグラフ 17
19. 19. 検定理論への応用このグラフでは各検定の性質は分からない。1次有効な各種検定（尤度比検定、スコア検定、ワルド検定等々）の比較をするには、従来は各モデルに対し個別の解析又はシミュレーション等で調べるしかなかった。情報幾何を使うことにより、シミュレーションをしなくても（！）、各種検定の検出力に関する一般的な性質が分かるようになった。 18
20. 20. k-検定 この３つの検定は情報幾何を使うと、１つのクラ スの検定（k-検定）で表現でき、 k=0 の時はWald検定 k=0.5の時は尤度比検定 k=1 の時はスコア検定 と対応付けが出来る。 ※ちなみにkは情報幾何的には検定の受容域の境界面とモデルとの角度の 係数を意味してます。 19
21. 21. 定理の前に記号の準備H0:θ＝θ0の検定を考える ,where N is # of samples and I is Fisher Information を検出力関数 を における最強力検定の検出力関数検出力損出: 最強力検定に対して、同じ検出力を得るにはどれだけ余分に標 本を取らないといけないかを表す。u(α)を標準正規分布の両側α%点 20
22. 22. k-検定の検出力損失の定理 定理 ここで , , はそれぞれ、 はEfron曲率 21
23. 23. 検出力損出グラフ（α=0.05％） 22
24. 24. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 23
25. 25. 最尤法を見る前に 情報幾何を使った最尤法の幾何学的解釈の前 に、最小二乗法の古典的な幾何学的解釈を復 習しましょう！ 24
26. 26. 最小二乗法の幾何 線形回帰モデル としたとき、最小二乗推定量 は =argmin これを解くと、 よって、予測値ベクトル は またハット行列HはH^2=H、HX=Xを満たすことから、ｙから への対応は、 ｙからXの列ベクトルが生成するベクトル空間への射影と考えることができる 25
27. 27. 最小二乗法の幾何 26
28. 28. 最尤法の幾何 ここでは空間として指数型分布族を考えます確率質量関数又は確率密度関数 が次のように書けるとき、指数型分布族と呼びます：例）正規分布 27
29. 29. 最尤法の幾何 28
30. 30. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 29
31. 31. EMアルゴリズム 尤度が最大となるパラメータを解析的に見つける代わりに、極限 が尤度を最大にするような数列を作るアルゴリズム 最尤推定量が解析的に求めるのが難しい時や、不完全データ の解析に使える eg) 混合正規分布、欠測を含むデータの解析 ここで、 Yを観測されたデータに対応する確率変数 Zを欠測データに対応する確率変数 X＝（Y,Z）を完全データに対応する確率変数 とする。 30
32. 32. EMアルゴリズム 計算手順(1) 適当に初期値 を取る(2) 以下のE-ステップとM-ステップを繰り返すE（Expectation）-ステップ： 下記のQを計算するM(Maximization)-ステップ： Qを最大化するθを見つけてθを更新する 31
33. 33. emアルゴリズムのための言葉の準備 不完全データの場合、空間内の1点ではなく点の集まり である多様体となる。これをデータ多様体と呼ぶ。また 、データ多様体のパラメータをηとし、確率密度関数をq と書く。 e-射影とm-射影は双対的な射影で、それぞれデータ多 様体、モデル多様体への（最短距離での）直交射影と なってます。m-射影は最尤法で出てきたものと同じで、 最尤推定をしていることになります。 32
34. 34. emアルゴリズム(1)初期値 をモデル内に適当に取る(2)以下のe-ステップとm-ステップを繰り返す e(exponential)-ステップ 以下のKullback-Leibler divergenceが最小になるηを見つける （ からデータ多様体にe-射影をする） m(mixture)-ステップ 以下のKullback-Leibler divergenceが最小になるθを見つける （ からモデル多様体にm-射影をする） 33
35. 35. emアルゴリズムの幾何 34
36. 36. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 35
37. 37. 情報幾何の応用 マルチスケール・ブートストラップ法・通常のブートストラップに対し、精度が格段に上 （通常のが1次の精度に対して、3次の精度）・計算量のオーダーは変わらない・曲率とかの幾何的な量を計算・バイオインフォマティックスの分子系統樹推定で標準 的に使われている 36
38. 38. （参考）ブートストラップ法 統計学におけるモンテカルロ法 リサンプリング法の1つ 分布が複雑であったり分からない場合に力を発 揮 サンプルを基に経験分布関数を作り、そこから 乱数を発生させ計算する 37
39. 39. 他にも ブートストラップ＆マルチスケール・ブートストラ ップも情報幾何を使って「見る」ことができる Jeffreys priorが情報幾何の世界で見ると一様と なる（アメリカの大学だとこのあたりの事実は学 部の低学年向けの統計入門のクラスで教えて いたりします） 38
40. 40. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 39
41. 41. 代数統計って何？代数幾何を使った統計Q:代数幾何って？A:多項式の零点の集まりの研究本日は２×２分割表への代数幾何的アプローチと特異学習理論への応用の話をします 40
42. 42. 本日の発表内容自己紹介情報幾何のはなし 情報幾何って何？ 検定への応用 最尤法を「見る」 EMアルゴリズムを「見る」 応用：マルチスケール・ブートストラップ代数統計のはなし 代数統計って何？ ２×２分割表における代数幾何 一般学習モデルへの応用 41
43. 43. 分割表について分割表のセル内の数が少ない場合だと、漸近理論が使えないため、正確検定の方が良いが、フィッシャーの正確検定は、セル数が多い場合には（分割表の列挙がNP問題のため）無理 分割表が大きい＆疎な場合にも 使える統計手法を作りたい！ 42
44. 44. ２×２分割表の代数幾何 Y１ Y2 Total Y１ Y2 Total X1 n11 n12 n1+ X1 p11 p12 p1+ X2 n21 n22 n2+ X2 p21 p22 p2+Total n+1 n+2 n++ Total p+1 p+2 1 ,を満たすので の集まりは、重心座標を考えると ４面体の内部となる 43
45. 45. ２×２分割表の代数幾何 44
46. 46. Simpson’s paradox 治らな 治った かった 新薬は効いてない？ プラセボ 500 500 新薬のオッズ比 OR＝０．１ 新薬 100 1,000 45
47. 47. Simpson’s paradox 治らな 新薬は効いてない？ 治った かった プラセボ 500 500 新薬のオッズ比 新薬 100 1,000 OR＝０．１ 男女で分けると・・・ 治らな 治らな 男性 治った 女性 治った かった かった プラセボ 5 100 プラセボ 495 400 新薬 80 990 新薬 20 10 OR≒1.6 OR≒1.6 効いてる！ 46