Successfully reported this slideshow.
Upcoming SlideShare
×

# MLaPP 9章 「一般化線形モデルと指数型分布族」

3,721 views

Published on

1. イントロダクション
2. 指数型分布族
3. 一般化線形モデル
4. プロビット回帰
5. マルチタスク学習
6. 一般化線形混合モデル
7. ランキング学習

Published in: Data & Analytics
• Full Name
Comment goes here.

Are you sure you want to Yes No
• ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } .........................................................................................................................

Are you sure you want to  Yes  No
• ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } .........................................................................................................................

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No

Are you sure you want to  Yes  No

### MLaPP 9章 「一般化線形モデルと指数型分布族」

1. 1. MLaPP Ch.9 ⼀般化線形モデルと指数型分布族 Generalized linear models and the exponential family 1 / 56
2. 2. Generalized linear models and the exponential family アウトライン 1. イントロダクション 2. 指数型分布族 3. ⼀般化線形モデル 4. プロビット回帰 5. マルチタスク学習 6. ⼀般化線形混合モデル 7. ランキング学習 2 / 56
3. 3. Generalized linear models and the exponential family Introduction Subsection 1 Introduction 3 / 56
4. 4. Generalized linear models and the exponential family Introduction この章で扱う内容 ▶ 指数型分布族 (exponential family) と呼ばれる確率 分布の族の導⼊とその性質 ▶ ⼀般化線形モデル (generalized linear model) と 呼ばれる線形回帰やロジスティック回帰を⼀般化し たモデルの紹介と応⽤ ▶ ランキング学習 (learning for rank) 4 / 56
5. 5. Generalized linear models and the exponential family The exponential family Subsection 2 The exponential family 5 / 56
6. 6. Generalized linear models and the exponential family The exponential family 指数型分布族 ▶ ある条件を満たす確率分布の族 ▶ ガウス分布、ベルヌーイ分布、ガンマ分布... ▶ 指数分布も含まれますが特に関係ありません ▶ 様々な良い性質を持っている ▶ ⼗分統計量や共役事前分布が存在 ▶ 分布に関する制約があるとき制約を満たす分布の中 で最適 ▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる 6 / 56
7. 7. Generalized linear models and the exponential family The exponential family 1. 定義 2. 例 3. 対数分配関数 4. 指数型分布族に対する最尤推定 5. 指数型分布族に対するベイズ法 6. 最⼤エントロピー原理による指数分布族の導出 7 / 56
8. 8. Generalized linear models and the exponential family The exponential family Deﬁnition 確率密度関数または確率質量関数 p (x|θ) ( x = (x1, . . . , xm) ∈ Xm , θ ∈ Θ ⊆ Rd ) が以下の形で 書けるような確率分布の族を指数型分布族と⾔う p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] . ここで Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) . 8 / 56
9. 9. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ θ: ⾃然パラメータ (natural parameter) または 正準パラメータ (canonical parameter) ▶ ϕ (x) ∈ Rd: ⼗分統計量 (suﬃcient statistics) ▶ Z (x): 分配関数 (partition function) →規格化定数に対応 ▶ A (θ): 対数分配関数 (log partition function) または キュムラント⽣成関数 (cumulant function) または⾃由エネルギー (free energy) 9 / 56
10. 10. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ h (x): スケールパラメータ ▶ 通常はh (x) = 1 (になるように ϕ を選ぶ) ▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族 (natural exponential family) と呼ぶ (xの測度をいじれば...) 9 / 56
11. 11. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族の形式 p (x|θ) = h (x) exp [ θT ϕ (x) − A (θ) ] をある関数 η (θ) によって p (x|θ) = h (x) exp [ η (θ)T ϕ (x) − A (θ) ] と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族 (curved exponential family) と呼ぶ ▶ このとき⼗分統計量の次元はパラメータより多い ▶ η (θ) = θ の形を指数分布族の確率モデルの標準形 (canonical form) と呼ぶ ▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ 流儀もある？ 10 / 56
12. 12. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = exp [x log µ + (1 − x) log (1 − µ)] = exp [ ϕ (x)T θ ] ▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)] ▶ 上の定式化は over-complete 11 / 56
13. 13. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] ▶ ϕ (x) = x, θ = log ( µ 1−µ ) ▶ θ = log ( µ 1−µ ) は対数オッズ (log-odds ratio) ▶ µ = sigm (θ) = 1/ ( 1 + e−θ ) 11 / 56
14. 14. Generalized linear models and the exponential family The exponential family マルチヌーイ分布 (カテゴリカル分布) Cat (x|µ) = K∏ k=1 µxk k = exp [ K∑ k=1 xk log µk ] = exp [K−1∑ k=1 xk log µk µK + log µK ] ▶ xk = I (x = k) ▶ θ = [ log µ1 µK , . . . , log µK−1 µK ] , ϕ (x) = [x1, . . . , xK−1] 12 / 56
15. 15. Generalized linear models and the exponential family The exponential family (1変量) ガウス分布 N ( x|µ, σ2 ) = 1 (2πσ2)1/2 exp [ − 1 2σ2 (x − µ)2 ] = 1 (2πσ2)1/2 exp [ − 1 2σ2 x2 + µ σ2 x − 1 σ2 µ2 ] ▶ θ = (θ1, θ2) = ( µ σ2 , − 1 2σ2 ) , ϕ (x) = (x, x2 ) ▶ A (θ) = − θ2 1 4θ2 − 1 2 log (−2θ2) − 1 2 log (2π) 13 / 56
16. 16. Generalized linear models and the exponential family The exponential family 指数型分布族でない分布 ▶ ⼀様分布 Unif (a, b) p (x|a, b) = { 1 b−a a < x < b 0 otherwise ▶ 分布のサポートがパラメータに依存 ▶ スチューデントのt分布 14 / 56
17. 17. Generalized linear models and the exponential family The exponential family 対数分配関数について ▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ 級数展開した時の各項の係数をキュムラントと呼ぶ ▶ キュムラント⺟関数やキュムラントは指数型以外の 分布にもあります (別の定義を使う) ▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる ▶ dA dθ = E [ϕ (x)] , d2A dθ2 = var [ϕ (x)] , ... ▶ 2A (θ) = cov [ϕ (x)] ▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数 15 / 56
18. 18. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] A (θ) = ln(1 + eθ ) dA dθ = eθ 1 + eθ = 1 1 + e−θ = sigm (θ) = µ = E [x] = E [ϕ (x)] d2 A dθ2 = ( 略 ) = (1 − µ) µ = Var [x] = Var [ϕ (x)] 16 / 56
19. 19. Generalized linear models and the exponential family The exponential family 指数型分布族に対する最尤推定 ▶ 指数型分布族のモデルにおいてサンプル D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量 argmax θ p (D|θ) は次式を満たす θ になる ( dA dθ = ) E [ϕ (x)] = 1 N N∑ i=1 ϕ (xi) これを moment matching と呼ぶ 17 / 56
20. 20. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族のモデルの尤度は次のようにかける (η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい) p (D|θ) = [ N∏ i=1 h (xi) ] g (θ)N exp ( η (θ)T [ N∑ i=1 ϕ (xi) ]) ▶ ⼗分統計量 ϕ (D) = [ N∑ i=1 ϕ1 (xi) , . . . , N∑ i=1 ϕK (xi) ] ▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ 分布は指数型分布族だけである (Pitman-Koopman-Darmois theorem) ▶ 正則条件を満たさないときは成り⽴たない (例: ⼀様分布) 18 / 56
21. 21. Generalized linear models and the exponential family The exponential family 指数型分布族に対するベイズ法 ▶ 共役事前分布は有限個の⼗分統計量が存在するとき にのみ存在 ▶ 指数型分布族のモデルの尤度 p (D|θ) ∝ g (θ)N exp ( η (θ)T sN ) ただしsN = ∑N i=1 s (xi) ▶ θ の共役事前分布は p (θ|ν0, τ0) ∝ g (θ)ν0 exp ( η (θ)T τ0 ) ▶ θ の事後分布は (上の2式の積だから) p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN) ∝ g (θ)ν0+N0 exp ( η (θ)T (τ0 + sN) ) 19 / 56
22. 22. Generalized linear models and the exponential family The exponential family 事後予測分布 ▶ D = (x1, . . . , xN) が観測された下での D′ = (˜x1, . . . , ˜xN′ ) の事後予測分布は p (D′ |D) = ˆ p (D′ |θ) p (θ|D) dθ = [ N′ ∏ i=1 h (˜xi) ] Z ( ˜τ0 + ˜s (D) + ˜s (D′ )) Z ( ˜τ0 + ˜s (D)) ▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′)) ▶ Z: p (θ|˜τ) の正規化定数 (Z (˜τ) = ´ g (θ)ν exp ( η (θ)T τ ) dθ ) 20 / 56
23. 23. Generalized linear models and the exponential family The exponential family 最⼤エントロピー原理による導出 ▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して 以下の制約を満たすとする ∑ x fk (x) p (x) = Fk ▶ 上の制約の下で分布のモーメントと経験分布のモー メントが⼀致する分布の中で最もエントロピーが⼤ きい (⼀様分布に近い) 分布は定数 λk を使って p (x) = 1 Z exp ( − ∑ k λkfk (x) ) と指数型分布族の形でかける ▶ p (x) はギブス分布として知られている ▶ (平衡状態において系のエネルギーが従う分布) 21 / 56
24. 24. Generalized linear models and the exponential family Generalized linear models (GLMs) Subsection 3 Generalized linear models (GLMs) 22 / 56
25. 25. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼀般化線形モデル ⼀般化線形モデル (generalized linear model; GLM) 出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の 線形結合 (またはその⾮線形な変換) で表されるモデル ▶ 線形回帰やロジスティック回帰を⼀般化したモデル ▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な モデルが作れる 23 / 56
26. 26. Generalized linear models and the exponential family Generalized linear models (GLMs) 出⼒の分布 ▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル p ( yi|θ, σ2 ) = exp [ yiθ − A (θ) σ2 + c ( yi, σ2 ) ] ▶ σ2: dispersion parameter ▶ θ: ⾃然パラメータ ▶ A: 分配関数 ▶ c: 正規化係数 ▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ と⾃然パラメータ θ が θ = ψ (µ) と書き表せる ▶ ⼀般に µ = ψ−1 (θ) = A′ (θ) 24 / 56
27. 27. Generalized linear models and the exponential family Generalized linear models (GLMs) リンク関数 (link function) ▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により 出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す µi = g−1 (ηi) = g−1 ( wT xi ) この g−1 を mean function と呼び g をリンク関数 (link function) と呼ぶ ▶ 要するに出⼒の平均と⼊⼒との関係を表す関数 ▶ 可逆かつ適当な定義域をもつ任意の関数が使える ▶ 特に g = ψ のとき正準リンク関数 (canonical link function) と呼ぶ 25 / 56
28. 28. Generalized linear models and the exponential family Generalized linear models (GLMs) 正準リンク関数を使ったGLM ▶ さっきのモデルに⼊⼒を追加 p ( yi|xi, w, σ2 ) = exp [ yiwT x − A ( wT x ) σ2 + c ( yi, σ2 ) ] 出⼒の分布と対応する正準リンク関数の例 y の分布 y の範囲 リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y] N ( µ, σ2 ) (−∞, ∞) identity θ = µ µ = θ Bin (N, µ) 0, . . . , N logit θ = log ( µ 1−µ ) µ = sigm (θ) Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ 26 / 56
29. 29. Generalized linear models and the exponential family Generalized linear models (GLMs) 線形回帰 出⼒が正規分布でリンク関数が恒等変換 log p ( yi|xi, w, σ2 ) = yiµi − µ2 i 2 σ2 − 1 2 ( y2 i σ2 + log ( 2πσ2 ) ) ▶ yi ∈ R ▶ θi = µi = wT xi ▶ A (θ) = θ2 /2, E [yi] = µi, Var [yi] = σ2 27 / 56
30. 30. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼆項回帰 (binomial regression) 出⼒が⼆項分布でリンク関数がロジット関数 log p (yi|xi, w) = yi log ( πi 1 − πi ) + Ni log (1 − πi) + log ( Ni yi ) ▶ yi ∈ {0, 1, . . . , Ni} ▶ πi = sigm ( wT xi ) , θi = log (πi/ (1 − πi)) = wT xi, σ2 = 1 ▶ A (θ) = Ni log ( 1 + eθ ) , E [yi] = Niπi, Var [yi] = Niπi (1 − πi) 28 / 56
31. 31. Generalized linear models and the exponential family Generalized linear models (GLMs) ポアソン回帰 (poisson regression) 出⼒がポアソン分布でリンク関数が対数関数 log p (yi|xi, w) = yi log (µi) + µi + log (yi!) ▶ yi ∈ {0, 1, 2, . . .} ▶ µi = exp ( wT x ) , θi = log (µi) = wT xi, σ2 = 1 ▶ A (θ) = eθ , E [yi] = Var [yi] = µi 29 / 56
32. 32. Generalized linear models and the exponential family Generalized linear models (GLMs) 最尤推定とMAP推定 ▶ ロジスティック回帰 (8章) と同様に w を最適化 ▶ 対数尤度 ℓ (w) = log p (D|w) = 1 σ2 N∑ i=1 ℓi ℓi ≜ θiyi − A (θi) ▶ 勾配 dℓi dwj = (yi − µi) dθi dµi dµi dηi xij ▶ 特に正準なリンク関数を使うとき wℓ (w) = 1 σ2 [ N∑ i=1 (yi − µi) xi ] ▶ 2次の勾配法でより効率的に計算できる ▶ MAP推定もロジスティック回帰と同様に 30 / 56
33. 33. Generalized linear models and the exponential family Generalized linear models (GLMs) ベイズ推定 ▶ w の事後分布を求める ▶ MCMC (24章) ▶ メトロポリス法, ギブスサンプリング,... ▶ ガウス近似や変分法 31 / 56
34. 34. Generalized linear models and the exponential family Probit regression Subsection 4 Probit regression 32 / 56
35. 35. Generalized linear models and the exponential family Probit regression プロビット回帰 ▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数 としてプロビット関数 (正規分布の累積分布関数の 逆関数) を使う⽅法 −6 −4 −2 0 2 4 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 sigmoid probit 33 / 56
36. 36. Generalized linear models and the exponential family Probit regression プロビット回帰の利点 ▶ 最適化が簡単になる (?) ▶ 潜在変数によるモデルの解釈ができる (random utility model; RUM) ▶ 出⼒が順序つきの離散値であるモデルへの拡張 (ordinal regression) ▶ 出⼒が多クラスのモデルへの拡張 (multinomial probit) 34 / 56
37. 37. Generalized linear models and the exponential family Multi-task learning Subsection 5 Multi-task learning 35 / 56
38. 38. Generalized linear models and the exponential family Multi-task learning マルチタスク学習 (multi-task learning) ▶ 関係のある複数の分類や回帰モデルを学習したい時 それらのタスクが似ていると仮定することによって 同時に学習を⾏い性能を向上させる⼿法 36 / 56
39. 39. Generalized linear models and the exponential family Multi-task learning 階層ベイズによるマルチタスク学習 ▶ 階層ベイズ (→5章) で複数のグループを同時に扱う ▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を j 番⽬ (j = 1, . . . , J) の学校の i 番⽬ ( i = 1, . . . , Nj ) の ⽣徒の試験の成績とする ▶ xij を yij に対応する特徴としたときに各グループに 対してそれぞれモデル p (yij|xij) を学習するのが⽬的 ▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅ 多くのグループには少量のデータしかない 37 / 56
40. 40. Generalized linear models and the exponential family Multi-task learning ▶ 出⼒の条件付き分布の平均をリンク関数 g で表して 各グループを特徴付けるパラメータ βj が共通の分布 に従うと仮定 E [yij|xij] = g−1 ( xT ijβj ) βj ∼ N ( β∗, σ2 j ) β∗ ∼ N ( µ, σ2 ∗ ) ▶ 共通のパラメータ β∗ を通して各 βj が相関するため サンプルが少数のグループでもうまく学習できる (5.5節参照) 38 / 56
41. 41. Generalized linear models and the exponential family Multi-task learning マルチタスク学習の応⽤例 ▶ Personalized spam ﬁlter ▶ メールがスパムかどうかをユーザー毎に予測 E [yi|xi, u = j] = ( βT ∗ + wj )T xi ▶ β∗: 全ユーザーのメールから推定されるパラメータ ▶ wj: ユーザーj のメールから推定されるパラメータ ▶ Domain adaptation (ドメイン適応) ▶ 異なる分布で表されるデータ上での分類器の集合を 学習する問題 39 / 56
42. 42. Generalized linear models and the exponential family Multi-task learning ▶ ⾃然⾔語処理におけるドメイン適応の例 ▶ 固有表現認識 (named entity recognition) ▶ 構⽂解析 という2つのタスクに階層ベイズモデルを適⽤ Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009. 40 / 56
43. 43. Generalized linear models and the exponential family Multi-task learning 事前分布の種類 ▶ マルチタスク学習では事前分布としてガウス分布を 仮定することが多い ▶ 他の事前分布がよいこともある ▶ sparsity-promoting prior ▶ Conjoint analysis (マーケティングにおいて商品の どの要素が最も客に好まれるかの分析) で使われる ▶ 混合ガウス分布 ▶ 全てのタスクが同様に似ていると仮定できないとき 41 / 56
44. 44. Generalized linear models and the exponential family Generalized linear mixed models Subsection 6 Generalized linear mixed models 42 / 56
45. 45. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 xj xij yij Nj βj J µβ σ2 β αµα σ2 α σ2 y 43 / 56
46. 46. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 ▶ 頻度主義統計では βj を変量効果 (random eﬀects) α を固定効果 (ﬁxed eﬀects) と呼んで概念上区別し これらを含んだモデルを混合モデル (mixed model) と呼ぶ ▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル (generalized linear mixed eﬀects model; GLMM, GLME) と呼ぶ 43 / 56
47. 47. Generalized linear models and the exponential family Generalized linear mixed models 例: 医療データ ▶ ⾻に含まれるミネラルの密度について 1. ⼈種間での違いがあるかどうか解明 2. 年齢による説明 を⾏いたい ▶ 使うデータ ▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度 ▶ xij: j 番の⼈の i 回⽬に測った年齢 ▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic) 44 / 56
48. 48. Generalized linear models and the exponential family Generalized linear mixed models ▶ 線形回帰とノンパラメトリック回帰を組み合わせた セミパラメトリックモデル (semi-parametric model) を使う ▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため ▶ さらに個⼈差を変量効果とみなし混合モデルで表す ▶ ϕ1 ( xij ) = 1,ϕ2 ( xj ) = 0 ▶ ϕ3 ( xij ) = b ( xij ) = [ bk ( xij )] (ノンパラ担当) ▶ bk: k 次スプライン基底関数 ▶ ϕ4 ( xj ) = [ I ( xj = White ) , . . . , I ( xj = Hispanic )] ▶ 出⼒を正規分布、リンク関数を線形関数とすれば 最終的なモデルは yij =βj + αT b (xij) + ϵij + α′ wI (xj = W) + · · · + α′ hI (xj = H) (教科書から微修正) ▶ ϵij ∼ N ( 0, σ2 y ) 45 / 56
49. 49. Generalized linear models and the exponential family Generalized linear mixed models 22 M. P. WAND age in years spinalbonemineraldensity(g/cm2 ) 0.6 0.8 1.0 1.2 1.4 10 15 20 25 Asian Black Hispanic 10 15 20 25 0.6 0.8 1.0 1.2 1.4 White Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example. The dashed lines correspond to pointwise 95% credible sets. for the spinal bone mineral density example. The main difference is that y is now a binary rather than a Gaussian node. Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of Statistics 51.1 (2009): 9-41. 46 / 56
50. 50. Generalized linear models and the exponential family Learning to rank Subsection 7 Learning to rank 47 / 56
51. 51. Generalized linear models and the exponential family Learning to rank ランキング学習 (Learning to rank; LETOR) ▶ 項⽬をランク付けする関数を学習する問題 ▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介 ▶ 代表的な応⽤は情報検索 ▶ クエリqとそれに関連するかもしれないドキュメント d1 , . . . , dm を考える ▶ 例: q という⽂字列を含む全てのドキュメント ▶ q との適合性の⾼い順に d1 , . . . , dm をソートして 上位 k 項をユーザーに⽰したい 48 / 56
52. 52. Generalized linear models and the exponential family Learning to rank 適合性 (relevance) の評価 ▶ Bag of words にもとづく確率的⾔語モデルにより 適合性を評価する例 sim (q, d) ≜ p (q|d) = n∏ i=1 p (qi|d) ▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n) ▶ p (qi|d): d に出現する単語の頻度から推定される マルチヌーイ分布 ▶ 頻度だけでなく PageRank のような他のシグナルも 組み合わせて適合性を評価したい PageRank webのリンク構造から導出されるwebページ の信頼性の指標 49 / 56
53. 53. Generalized linear models and the exponential family Learning to rank The pointwise approach ▶ クエリとドキュメントの組み合わせによって決まる 特徴量 x (q, d) に対して ▶ 適合する/しないの2値分類 または ▶ 数段階の適合性に順序回帰 を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート ▶ 特徴量には例えば query-document similarity score や page rank score が含まれる ▶ 教師データのラベルはクエリのログでドキュメント が⼀定回数以上クリックされたかどうかで与える ▶ ドキュメントのリスト上での位置を考慮しないため リストの最下位と最上位での誤差を全く同じように 罰してしまう (??) 50 / 56
54. 54. Generalized linear models and the exponential family Learning to rank The pairwise approach ▶ 適合性を各ドキュメントに対する絶対評価ではなく ドキュメント間の相対評価で決める ▶ ラベル yjk を、ドキュメント dj が dk より適合して いれば 1 、そうでなければ 0 とする ▶ シグモイド関数を使えば p ( yjk = 1|xj, xk ) = sigm (f (xj) − f (xk)) ▶ f (x): スコア関数 ▶ f (x) = wT x とすればこのモデルは RankNet として 知られるニューラルネットワークの⼀種になる 51 / 56
55. 55. Generalized linear models and the exponential family Learning to rank The listwise approach ▶ 全ドキュメントのリストを直接モデル化 ▶ 順序を Plackett-Luce distribution でモデリング Plackett-Luce distribution 下式で表されるリストの並び替え π : j → π (j) の分布 p (π|s) = m∏ j=1 sj ∑m u=j su ▶ sj = s (π−1 (j)): π によって j 番⽬にランクされた ドキュメントのスコア ▶ ドキュメントの上位への出現しやすさを表している 52 / 56
56. 56. Generalized linear models and the exponential family Learning to rank Plackett-Luce distribution の例 ▶ ランキング π = (A, B, C) の確率 p (π) は p (π|s) = sA sA + sB + sC × sB sB + sC × sC sC ▶ sA sA+sB+sC : A が1番⽬にランクされる確率 ▶ sB sB+sC : A が1番⽬にランクされたときに、 B が2番⽬にランクされる確率 ▶ sC sC : A, B が1,2番⽬にランクされたときに、 C が3番⽬にランクされる確率 53 / 56
57. 57. Generalized linear models and the exponential family Learning to rank ▶ クエリ q に対する各ドキュメントのスコアを s (d) = f (x (q, d)) とすればクエリが与えられたとき のランクの分布が決められる ▶ f (x) = wT x がよく使われ ListNet と呼ばれる 54 / 56
58. 58. Generalized linear models and the exponential family Learning to rank ランキングに対する損失関数 Mean reciprocal rank (MRR) クエリ q に1番適合する ドキュメントの順位 r (q) の逆数 1/r (q) Mean average precision (MAP) precision at k (P@k) の適合するドキュメント (の順位の) 全体に ついての平均 (1に近いほど良い) P@k (π) ≜ πの上位k件中の適合するドキュメントの数 k Normalized discounted cumulative gain (NDGG)   適合性が数段階に表されているときに使う Rank correlation 基準となるランキングとの相関を使う (普通の意味での相関とは違い種類も様々) 55 / 56
59. 59. Generalized linear models and the exponential family Learning to rank ▶ 損失関数はベイズか頻度かで使い⽅が変わる ▶ ベイズ的アプローチではパラメータの事後分布から のサンプリングや平均によって期待損失を計算 ▶ 頻度的アプローチでは損失を直接最⼩化 ▶ 関数が微分可能ではないため最⼩化には勾配を使わ ない最適化か計算しやすい代理の損失関数を使う ▶ 例えば precision@k (P@k) の近似として wieghted approximate-rank pairwise (WARP) がある 56 / 56