Jokyokai

4,186 views

Published on

Published in: Technology, Education
  • Be the first to comment

Jokyokai

  1. 1. Theory of Information Integration in Statistical Learning ( 統計的学習における情報統合の理論 ) 情報理工学系研究科 数理情報学専攻 数理第五研究室 助教 鈴木 大慈 2011 年 4 月 25 日
  2. 2. 博士論文のテーマ(?) <ul><li>人間は様々な事物を「統合」し,多くの問題を 解決している. </li></ul><ul><li>情報統合 </li></ul><ul><ul><li>情報:機能・データ(知識) </li></ul></ul><ul><ul><li>統合:組み合わせる・まとめる・整合性を取る </li></ul></ul><ul><ul><li>機能(関数)の統合 </li></ul></ul><ul><ul><li>知識(データ)の統合 </li></ul></ul><ul><ul><li>異なる環境の情報統合 </li></ul></ul>
  3. 3. 発表の概要 <ul><li>ベイズ予測分布 </li></ul><ul><ul><li>事前分布の選択と α ダイバージェンス </li></ul></ul><ul><li>相互情報量推定 </li></ul><ul><ul><li>二乗損失型相互情報量 </li></ul></ul><ul><li>Multiple Kernel Learning </li></ul><ul><ul><li>L1 と L2 の狭間で </li></ul></ul>
  4. 4. ベイズ予測分布 - 事前分布の選択と α ダイバージェンス -
  5. 5. ベイズ予測分布 分布を事後分布で積分 真の分布    を推定したい. ベイズ予測分布 モデル : 事前分布 : 事後分布
  6. 6. ベイズ予測分布 ベイズ予測分布はモデルをはみ出る( Komaki, ’96 ). モデル 真 最尤推定量 事前分布による変動 ベイズ予測分布 真の分布がモデルに含まれている場合
  7. 7. 事前分布の選択 KL- リスク をなるべく小さくしたい ->   事前分布の選択 Jeffreys 事前分布のリスク 事前分布 π のリスク (Komaki, 2006) : Jeffreys 事前分布 : Fisher 計量 : KL- ダイバージェンス ラプラシアン:これが負であれば良い ラプラシアン 我々の結果: これを拡張 定理
  8. 8. α- ベイズ <ul><li>α ダイバージェンス </li></ul>: KL ダイバージェンスの一般化 (α=-1 で KL) <ul><li>α- ベイズ予測分布 </li></ul>-> α ダイバージェンスに関するベイズリスクを最小化している : α=-1 の時は普通のベイズ予測分布
  9. 9. リスク β- 予測分布 の真の分布からの α- ダイバージェンス β- 予測分布: α- ダイバージェンス: を小さくする事前分布を選ぶ. できる限り一般化
  10. 10. 結果 :   を事前分布としたときの β- ベイズ予測分布 漸近的なリスクの差 [Suzuki&Komaki,2010] 二階微分作用素 ← 補正項 (α=β で 0) A 優調和関数であれば良い <ul><li>α=β の時,ラプラシアンによる特徴付けが現われる </li></ul><ul><li>A に付随した拡散過程 が存在 </li></ul>
  11. 11. 大域幾何学との関係 定理 (Aomoto, 1966)    断面局率が至る所 負 なら非負優調和関数が存在 (d≧2) 断面曲率 正 負 ブラウン運動が非再帰的 ⇔ 正値優調和関数が存在 ブラウン運動との関係
  12. 12. ラプラシアンと統計的推測 <ul><li>正規分布平均値推定 (Brown, 1971) </li></ul><ul><li>正規分布密度推定 (George, Liang and Xu, 2006) </li></ul>( ある有界性条件のもと )    ベイズ推定量が admissible ⇔  事前分布で特徴付けられるブラウン運動が再帰的    (スタイン推定)    事前分布が優調和関数 ⇒  ベイズ予測分布が minimax
  13. 13. 真がモデルからはずれている場合 モデル ベイズ予測分布 最尤推定量 モデルのどちら側に真があるかで推定の良し悪しが変わる
  14. 14. Fisher 計量 <ul><li>Fisher 計量( Fisher 情報行列) </li></ul><ul><ul><li>真がモデルからはずれることにより扱いが    非自明になる. </li></ul></ul>他の情報量 (真がモデルに含まれる)なら
  15. 15. 結果 最尤推定 ベイズ予測分布 β- ベイズ予測分布 真の分布から推定した分布への KL- ダイバージェンス ->   β の値(分布の統合の仕方)によって   モデルのどちら側に飛び出るかが変わる. 真 ( 最近点 )
  16. 16. 結論 <ul><li>ラプラシアンによる特徴付けは普遍性があった. </li></ul><ul><li>α≠β の場合は二階楕円型微分作用素が現われた. </li></ul><ul><li>   -> 大域幾何学との関係. </li></ul><ul><li>真がモデルに含まれていない場合,            1/N のオーダーに β の影響が現われた. </li></ul><ul><li>->  モデルと真との位置関係およびモデルの </li></ul><ul><li>                     幾何的性質を反映.  </li></ul><ul><li>   -> (今後の課題)最適な β の決定方法. </li></ul>
  17. 17. 発表の概要 <ul><li>ベイズ予測分布 </li></ul><ul><ul><li>事前分布の選択と α ダイバージェンス </li></ul></ul><ul><li>相互情報量推定 </li></ul><ul><ul><li>二乗損失型相互情報量 </li></ul></ul><ul><li>Multiple Kernel Learning </li></ul><ul><ul><li>L1 と L2 の狭間で </li></ul></ul>
  18. 18. 相互情報量に関する研究 - 二乗損失型相互情報量 -
  19. 19. Mutual Information Common strategy : Find W which makes as independent as possible. Mutual Information is a good independence measure. are mutually independent. ⇔ : joint distribution of : marginal distribution of
  20. 20. Our Proposal Squared-loss Mutual Information (SMI) are mutually independent. ⇔ <ul><li>We propose a non-parametric estimator of I s </li></ul><ul><li>thanks to squared loss, analytic solution is available </li></ul><ul><li>Gradient of I s w.r.t. W is also analytically available </li></ul><ul><li>gradient descent method for ICA and Dim. Reduction. </li></ul>
  21. 21. Estimation Method Estimate the density ratio : (Legendre-Fenchel convex duality [Nguyen et al. 08] ) Define , then we can write where sup is taken over all measurable functions . the optimal function is the density ratio
  22. 22. <ul><li>The problem is reduced to solving </li></ul>Empirical Approximation The objective function is empirically approximated as V-statistics (Decoupling) Assume we have n samples:
  23. 23. Linear model for g Linear model is basis function, e.g., Gaussian kernel penalty term
  24. 24. Estimator of SMI
  25. 25. Gaussian Kernel We use a Gaussian kernel for basis functions: where are center points randomly chosen from sample points: . Linear combinations of Gaussian kernels span a broad function class. Distribution Free
  26. 26. Model Selection <ul><li>The estimator of SMI is formulated as an optimization problem . </li></ul><ul><ul><li>Cross Validation is applicable. </li></ul></ul>Model selection is available Now we have two parameters : regularization parameter : Gaussian width
  27. 27. Asymptotic Analysis Regularization parameter : Theorem : Complexity of the model ( large:complex, small:simple ) Theorem Nonarametric Parametric : matrices like Fisher Information matrix (bracketing entropy condition)
  28. 28. Applications <ul><li>ICA (Independent Component Analysis) </li></ul><ul><li>[Suzuki&Sugiyama, 2011] </li></ul><ul><li>SDR (Sufficient Dimension Reduction) </li></ul><ul><li>[Suzuki&Sugiyama, 2010] </li></ul><ul><li>Independence Test </li></ul><ul><li>[Sugiyama&Suzuki, 2011] </li></ul><ul><li>Causal Inference </li></ul><ul><li>[Yamada&Sugiyama, 2010] </li></ul>
  29. 29. ICA mixed signal (observation) <ul><li>original signal ( d dimension) </li></ul><ul><ul><li>independent of each other </li></ul></ul>estimated signal (demixed signal) :mixing matrix ( d × d matrix) Goal : estimating demixing matrix ( d × d matrix) Ideally
  30. 30. Supervised Dimension Reduction Input Output :“ good ” low dimensional representation ->   Sufficient Dimension Reduction (SDR) A natural choice of W :
  31. 31. Artificial Data Set <ul><li>We compared our method with </li></ul><ul><li>KDR (Kernel Dimension Reduction) </li></ul><ul><li>HSIC (Hilbert-Schmidt Independence Criterion) </li></ul><ul><li>SIR (Sliced Inverse Regression) </li></ul><ul><li>SAVE (Sliced Average Variance Estimation) </li></ul>Performance measure: We used median distance for Gaussian width of KDR and HSIC .
  32. 32. Data Sets d=1 d=1 d=1 d=1 d=1 d=2
  33. 33. Result one-sided t-test with sig. level 1 %. Mean and standard deviation over 50 times trials Our method nicely performs.
  34. 34. UCI Data Set one-sided t-test with sig. level 1 %. Choose 200 samples and train SVM on the low dimensional representation. Classification error over 20 trials.
  35. 35. 発表の概要 <ul><li>ベイズ予測分布 </li></ul><ul><ul><li>事前分布の選択と α ダイバージェンス </li></ul></ul><ul><li>相互情報量推定 </li></ul><ul><ul><li>二乗損失型相互情報量 </li></ul></ul><ul><li>Multiple Kernel Learning </li></ul><ul><ul><li>L1 と L2 の狭間で </li></ul></ul>
  36. 36. Multiple Kernel Learning
  37. 37. <ul><li>Multiple Kernel Learning (MKL) </li></ul><ul><li>↓ </li></ul><ul><li>Elasticnet MKL </li></ul><ul><li>Lp-norm MKL </li></ul>汎化誤差を理論的に解析 スパース性と汎化誤差の関係 どのような正則化が好ましい?
  38. 38. Sparse Learning : n samples : Convex loss ( hinge, square, logistic ) L 1 -regularization-> sparse Lasso Group Lasso I : subset of indices [Yuan&Lin:JRSS2006] [Tibshirani :JRSS1996]
  39. 39. 教師有りカーネル法 回帰 , 判別 : SVM, SVR, …. カーネル関数 ( :再生核ヒルベルト空間)
  40. 40. Reproducing Kernel Hilbert Space (RKHS) : Hilbert space of real valued functions : map to the Hilbert space such that Reproducing kernel Representer theorem
  41. 41. Moore-Aronszajn Theorem : positive (semi-)definite, symmetric : RKHS with reproducing kernel k one to one
  42. 42. <ul><li>ガウシアン,多項式 , カイ二乗 , …. </li></ul><ul><ul><li>パラメータ:ガウス幅 , 多項式の次数,… </li></ul></ul><ul><li>特徴量 </li></ul><ul><ul><li>Computer Vision :色 , 勾配 , sift (sift, hsvsift, huesift, scaling of sift), Geometric Blur, </li></ul></ul><ul><ul><li> 画像領域の切り出し , ... </li></ul></ul>カーネル関数の例 MKL : カーネルを選択して統合
  43. 43. MKL: Multiple Kernel Learning : M 個のカーネル関数 : カーネル関数 k m に付随した RKHS [ Lanckriet et al. 2004 ] L1 正則化: スパース <ul><li>Gourp Lasso の無限次元への拡張 </li></ul>[Bach, Lanchriet, Jordan:ICML 2004 ]
  44. 44. カーネル重みとの関係 [Micchelli & Pontil: JMLR2005] 目的関数をカーネル関数の凸結合の中で最小化 : given k は k m らの凸結合 Young の不等式
  45. 45. カーネル重み : L 2 L 1 (MKL) L 2 (Uniform) :単なる一様重みでの重ね合わせ スパース デンス 結構良い性能
  46. 46. L 1 L 2 スパース デンス
  47. 47. L 1 と L 2 の橋渡し Elasticnet MKL Lp-norm MKL (1≦p≦2) [Marius et al.: NIPS2009] [Shawe-Taylor: NIPS workshop 2008, Tomioka & Suzuki: NIPS workshop 2009] cf. elastic-net: [Zou & Hastie: JRSS, 2005]
  48. 48. Best Medium density dense [Tomioka & Suzuki: NIPS 2009 Workshop ] Elasticnet MKL: caltech 101 dataset L1 L2 中間的なスパースさが良い
  49. 49. [Cortes, Mohri, and Rostamizadeh: UAI 2009] MKL (sparse) 一様重み (dense) 中間 (p=4/3) Lp-norm MKL # of features
  50. 50. ここまでのまとめ <ul><li>L 1 (MKL) と L 2 ( 一様重み ) の 中間的なスパースさ </li></ul><ul><li> ->  elasticnet/Lp-norm MKL </li></ul><ul><li> -> 実験的に 性能○ </li></ul><ul><li>実は, </li></ul><ul><li>計算量も少なくてすむ (後述) </li></ul>
  51. 51. <ul><li>なぜ,性能が良いのか? </li></ul><ul><li>どのような条件のとき,中間的スパースさが良いのか? </li></ul><ul><li>  </li></ul><ul><li> 以後,主に Elasticnet MKL を扱う. </li></ul>
  52. 52. <ul><li>導入 </li></ul><ul><li>効率的計算法 </li></ul><ul><li>漸近的汎化誤差の解析 </li></ul><ul><ul><li>Elasticnet MKL の収束レート </li></ul></ul><ul><ul><ul><li>真がスパースな状況 </li></ul></ul></ul><ul><ul><ul><li>真がスパースでない状況 </li></ul></ul></ul><ul><ul><li>Lp-norm MKL の収束レート </li></ul></ul>概要
  53. 53. 効率的計算法
  54. 54. 双対問題 表現定理: なめらか! 降下法( Newton 法など)が使える Fenchel 双対
  55. 55. 数値実験 UCI:Ringnorm UCI:Splice SimpleMKL(L1) SpicyMKL(L1) Elasticnet MKL
  56. 56. <ul><li>導入 </li></ul><ul><li>効率的計算法 </li></ul><ul><li>漸近的汎化誤差の解析 </li></ul><ul><ul><li>Elasticnet MKL の収束レート </li></ul></ul><ul><ul><ul><li>真がスパースな状況 </li></ul></ul></ul><ul><ul><ul><li>真がスパースでない状況 </li></ul></ul></ul><ul><ul><li>Lp-norm MKL の収束レート </li></ul></ul>概要
  57. 57. 漸近的汎化誤差の解析 これからは 二乗ロス(回帰) を想定:
  58. 58. <ul><li>Lasso & Dantzig Selector </li></ul><ul><ul><li>Candes & Tao: AS2007 (Dantzig selector) </li></ul></ul><ul><ul><li>Bunea, Tsybakov & Wegkamp: AS2007 (Lasso) </li></ul></ul><ul><ul><li>Meinshausen & Yu: AS2009 (Lasso) </li></ul></ul><ul><ul><li>Bickel, Ritov & Tsybakov: AS2009 (Dantzig&Lasso) </li></ul></ul><ul><ul><li>Raskutti, Wainwright & Yu: arXiv:0910.2042, 2009. </li></ul></ul>mini-max レート スパース学習の収束レート
  59. 59. <ul><li>L 1 -MKL </li></ul><ul><ul><li>Koltchinskii & Yuan: COLT2008 </li></ul></ul><ul><li>Minimax- レート </li></ul><ul><ul><li>Raskutti, Wainwright & Yu: NIPS2009 </li></ul></ul><ul><li>Elasticnet 型正則化 </li></ul><ul><ul><li>Meier, van de Geer & B ü hlmann: AS2009 </li></ul></ul><ul><li>Sobolev 空間 </li></ul>タイトではない MKL に関する既存の結果

×