数理と機械と統計学(3-4 回生向け) 
2014 年11 月10 日12:00-13:00 
今日の話の内容 
たった1 時間で専門書を読むのは無理なので, 数理の連想ゲーム的に話を進めます. 
よくある(フィッティングの) 例 
数理の立場 
確率モデルP := fp(x; ) j  2 g 
MLE ^ := arg max 
2 
L() 
具体的な例: P = fN(; 2) j (; 2) =:  2  := R  R0g 
観測値x1; :::; xn とすると尤度関数は 
L() = 
Πn 
i=1 
ϕ(xi; ; 2); ( = (; 2)) 
であるから, MLE は 
arg max 
2 
L() = 
0 
@1 
n 
Σn 
i=1 
xi; 
1 
n 
Σn 
i=1 
x2i 
 
{ 
1 
n 
Σn 
i=1 
xi 
}2 
1 
A 
となっている. この場合, 厳密解が求まって嬉しい1. 
(普通の) 数理統計学. 稲垣本に載ってる. 
機械の立場 
arg max 
2 
L() は求まるか? 
モデルによっては(解析的に) 計算するのが難しい. 仕方ないから勾配法. 
L( + d)  L() 
d 
= j∇L()j cos  + o(1) 
! j∇L()j cos  (d ! 0) 
1嬉しいは大事 
1
より 
L( + d)  L() + j∇L()j cos   d 
(ただし は∇L() とd のなす角.) ∇L() = d のときL( + d)  L(). よって から∇L() 
方向に動けば関数を最大化出来るはず…. 
(0) = 0 
(i+1) = (i) + ∇L()
=(i) 
(うまくいけば)(i) ! ^. 「最適化」の分野. 
面倒な計算が不要: 機械を使えば万事解決? 
パラメータは無限の彼方へ…: (i) ! 1. 
じゃぁどうする 
チューニングパラメータ  0 の設定:

How to study stat

  • 1.
    数理と機械と統計学(3-4 回生向け) 2014年11 月10 日12:00-13:00 今日の話の内容 たった1 時間で専門書を読むのは無理なので, 数理の連想ゲーム的に話を進めます. よくある(フィッティングの) 例 数理の立場 確率モデルP := fp(x; ) j 2 g MLE ^ := arg max 2 L() 具体的な例: P = fN(; 2) j (; 2) =: 2 := R R0g 観測値x1; :::; xn とすると尤度関数は L() = Πn i=1 ϕ(xi; ; 2); ( = (; 2)) であるから, MLE は arg max 2 L() = 0 @1 n Σn i=1 xi; 1 n Σn i=1 x2i { 1 n Σn i=1 xi }2 1 A となっている. この場合, 厳密解が求まって嬉しい1. (普通の) 数理統計学. 稲垣本に載ってる. 機械の立場 arg max 2 L() は求まるか? モデルによっては(解析的に) 計算するのが難しい. 仕方ないから勾配法. L( + d) L() d = j∇L()j cos + o(1) ! j∇L()j cos (d ! 0) 1嬉しいは大事 1
  • 2.
    より L( +d) L() + j∇L()j cos d (ただし は∇L() とd のなす角.) ∇L() = d のときL( + d) L(). よって から∇L() 方向に動けば関数を最大化出来るはず…. (0) = 0 (i+1) = (i) + ∇L()
  • 6.
    =(i) (うまくいけば)(i) !^. 「最適化」の分野. 面倒な計算が不要: 機械を使えば万事解決? パラメータは無限の彼方へ…: (i) ! 1. じゃぁどうする チューニングパラメータ 0 の設定:
  • 10.
    (i+1) = (i)+ ∇L() =(i) = 100: パラメータは無限の彼方へ. = 0:001: 計算が遅い. それって凸ですか? L() にConvexity があるか? L(t1 + (1 t)2) tL(1) + (1 t)L(2) あれば嬉しいConvexity. 無いと困る. 世の中は厳しい: Convex じゃない(Concave じゃない) 関数も山ほどある. (Keywords: 局所的 最適解, 大域的最適解) どうすれば... 人海戦術: 初期値を大量に用意する. 1; :::; 100; :::; 1000 それぞれの初期値から一斉にニュートン法. 少しはマシ. かなり強引. NP-hard な問題. (Keywords: 計算量) 2
  • 11.
    無理なら無理で割り切ろう どうせ微妙な解しか求まらないなら 微妙だけど早いアルゴリズム考えようという姿勢.(MM-Algorithm など) じゃぁ数学要らなくないか 上記の流れを把握してないとドツボにはまる. 数学が活躍する現場 そもそも論 なぜ最尤法を使う? なぜ正規分布を使う? なぜそのアルゴリズムはうまくいく? なぜ最尤法か? 最尤法とは: Σn i=1 log p(xi j ) の最大化. 1 n Σn i=1 log p(xi j ) = ∫ log p(x j )d^Q (x) ! ∫ log p(x j )dQ(x) =: D(q; p) 裏にx の従う分布Q(x) があって, Q(x) とP(x) のKL-divergence (分布の近さの度合いを測る指 標) を最小化しようとする. KL-div で求まる推定量は漸近有効. 統計を「距離」でとらえる: 情報 幾何学. (甘利俊一「情報幾何の新展開」2) なぜ正規分布か? モデル選択. Cross-Validation(CV) 1 n Σn t=1 L(^(t)) を最小化するモデルを選ぶ. jCV AICj ! 0 (Stone 1977). (北川源四郎「情報量規準」など.) 機械はあくまで「補助」 数学で考えて, 機械で実装する. 2最近発売されたばかり. 自分も今読んでいるところ. 3
  • 12.
    「難しくてよく分からない」 リアルによくある. というか、ほとんどは「よく分からない」.最適化が分からないなら、ニュー トン法とか. 統計なら、ブートストラップ. x1; :::; xn i:i:d: N[; 2] のとき, x N[; 2=n]. これはカンタン. ではx := modefx1; :::; xng はどんな分布に従う? 元々の観測データ O := fx1; :::; xng からリサンプリング: O1 := fx3; x1; x6; x6; :::; x2g O2 := fx8; x5; x8; x3; :::; x5g ... Om := fx2; x9; x3; x2; :::; x1g リサンプリングしたデータセットO1; :::;Om それぞれでmode を求める: t := modeOt; t = 1; 2; :::;m f 1 ; :::; m g のヒストグラムを描くと, modeX の従う分布関数の近似になっている. ブートストラップやってみた Xi i:i:d: N[0; 1]. のときmedX の分布を描いてみる: Rで次のコードを実行 dd - rnorm(100,mean=0,sd=1); tt - NULL for(ii in 1:1000) tt - append(tt,median(sample(dd,replace=T))) hist(tt,breaks=20, main=dist. of med) % 点の漸近的な挙動は, デルタ法を使えば(数理的に) 計算できる. () 556:Mathematical Statistics I: Asymptitoc distribution of sample quantiles) この結果によると, medXn AN[0; =2n] (より正確に書けば, p n medXn d! X N[0; =2]) 解析的な結果を書き足したのが図2. 4
  • 13.
    dist. of med −0.4 −0.2 0.0 0.1 0.2 0.3 0 5 10 15 20 図1: メディアンの分布 dist. of med −0.4 −0.2 0.0 0.1 0.2 0.3 0 5 10 15 20 0.0 1.0 2.0 3.0 図2: メディアンの分布(解析的な結果) 5
  • 14.
    ブートストラップは実装がすごく簡単 プログラムがわずか3 行で書けた.簡単. では数理的にはどういう意味があるか? データ fx1; :::; xng Q(x) が与えられたとき, 経験分布関数: ^Q (x) := 1 n Σn i=1 I(x xi) はQ(x) をよく表している: ^Q (x) d! Q(X). X Q(x) のmedian を~X ^Q (x) のmedian によっ て近似したのがブートストラップ. ブートストラップは観測データしか使わない 観測データO := fx1; :::; xng Q のみを使って, 分布Q に対する統計量f(Q) を近似: f(Q) f(^Q ). 単純で実装が簡単な上に、ほとんどすべての統計量に対して使える. 凄い. 最後に:本の紹介 1. 稲垣か赤平(「数理統計学」) は入門的. 鉄板. 2. 長尾「数理統計学」は少し応用的. Lehman のTSH3 をかなり簡単にまとめなおした感じ. 3. 吉田「数理統計学」は解析寄り. そういうの好きな人は読むと良いかも. 4. 「計算機統計学の方法」ボチボチ分かりやすい. ブートストラップやMCMC を(まともに) 日本語で解説している文献は貴重な気がする. 5. Bradley Efron「An Introduction to the Bootstrap」は(ゼミで) 読んだがなかなかハード. 専門にしたい人は読むと良いか? 6. Bishop「Pattern Recognition and Machine Learning」読みにくいと評判. でも詳しい. 石 井先生あたりの本を読むのが良いか? 7. 甘利俊一「情報幾何の新展開」すごく簡潔にまとまっているが, 情報幾何関係いでは最も読 みやすい. 最近買って読んでいる途中. 8. 東京大学工学教程「最適化と変分法」最近買ったので読んでないが, 最適化関係で重要なポ イントがきれいにまとまっている. 3Testing Statistical Hypotheses: 有名だが高価だし重いし難しいし読むのは難しい.  西内啓が和訳を出している. 6