20190723 mlp lt_bayes_pub

83 views

Published on

こちらの会で喋った資料です。

「ベイズ推論による機械学習 入門」の紹介です。

Published in: Science
1. 1. ベイズ推論 による機械 学習 ⼊⾨ @yoichi_t
2. 2. • 時⽥ 陽⼀（@yoichi_t） • 所属：株式会社Glia Computing （https://www.glia-computing.com/） • 2018年8⽉に設⽴（Co-Founder） • 機械学習/データ分析のPoC、導⼊⽀援、コンサル • 過去所属 • AI系ベンチャーにて、機械学習/データ分析のPoCなどを担当 • Web系広告会社にて、広告配信の最適化、ユーザ分析などを担当 • ⼤⼿警備会社研究所にて、⼈物⾏動の研究 • NAIST, 修⼠(⼯学) ⾃⼰紹介 2
3. 3. • 時⽥ 陽⼀（@yoichi_t） • チョコボールの秘密を解明するために、⽇々データを収集＆解析 ⾃⼰紹介 チョコボール 統計 3
4. 4. • 「機械学習」注⽬されてますね • 多次元，多量のデータが扱える環境が整ってきた • データを活⽤したいというニーズが⾼まっている 本書の位置付け 4良いイラストが⾒つからなかった
5. 5. • しかし、機械学習を駆使して現実の課題解決に取り組める技術者は それほど多くない • 技術領域が多種多様な「アルゴリズム群」として認識されている • 「新しいアルゴリズム」をそれぞれ個別に習得しなければいけない 本書の位置付け 5 ○○モデル ○○ がSOTAを達成！ ハイパーパラメータ特徴抽出 活性化関数 乱数シード
6. 6. • 技術者がアルゴリズムを「デザイン」できるように • 確率モデリングと推論アルゴリズムを使った⼀貫したアプローチにより解 決法を導く • ベイズ主義機械学習に基づいたデータ解析アルゴリズムを解説 本書の位置付け 6 注）過剰演出です ⼀貫したアプローチ
7. 7. 『機械学習スタートアップシリーズ』 • 「機械学習をもっと⾝近に、機械学習をもっとわかりやすく!」を合⾔葉に、 より丁寧な記述で、基本的なテーマを解説していきます。 (講談社HPより, https://www.kspub.co.jp/book/series/S042.html) • すでにいくつかの機械学習技術を使っているが、もっと問題に合わ せて⾃由にアルゴリズムを構築・改良したい技術者および研究者 (本書 まえがきより) • 「スタートアップシリーズ」か？？ • 「機械学習」の初学者にはおすすめできない • 確率モデルとして機械学習を理解すると⾒通しが良くなるので、そこに興 味がある⽅にオススメです 対象読者 7
8. 8. • 前提 • パラメータを全て明⽰的に「確率変数」として考える • モデリング • 確率変数間の関係性を定義：グラフィカルモデルで表現 ベイズ推論的機械学習 8 𝑥" 𝑦" N 𝑊 データxからyを 予測するための パラメータ 回帰/分類の例 𝝎 :重み。 𝝎 ∈ 𝑅( 𝜖 :ノイズ
9. 9. • 回帰/分類問題の学習と推論の例 ベイズ推論的機械学習 9 𝑥" 𝑦" N 𝑊 データxからyを 予測するための パラメータ • 同時分布(モデル構築)
10. 10. • 回帰/分類問題の学習と推論の例 ベイズ推論的機械学習 10 𝑥" 𝑦" N 𝑊 データxからyを 予測するための パラメータ • 同時分布(モデル構築) • 事後分布 同時分布と条件付き分布の関係から
11. 11. • 回帰/分類問題の学習と推論の例 ベイズ推論的機械学習 11 𝑥" 𝑦" N 𝑊 データxからyを 予測するための パラメータ • 同時分布(モデル構築) • 事後分布 • 予測分布 パラメータの積分消去
12. 12. • 回帰/分類問題の学習と推論の例 ベイズ推論的機械学習 12 𝑥" 𝑦" N 𝑊 • 同時分布(モデル構築) • 事後分布 • 予測分布 分布の計算 • 頑張って計算する（共役事前分布） • 近似計算 • サンプリング（ギブスサンプリング(MCMC)） • 変分推論
13. 13. • ⼀貫したアプローチで解釈ができる • 回帰/分類/クラスタリング/次元削減 • 他にも、HMM、トピックモデル、ニューラルネットワーク • 不確実性を明⽰的に表現できる • 不確実性の定量化 • 曖昧な場合には決定を下さないという決定をすることができる • 各事象の損失(利益)を定義し、期待損失(収益)による論理的な意思決定 なぜパラメータを確率変数とするのか 13
14. 14. • e.g. ⾬の確率推論結果を活⽤して傘を持っていくか否かの意思決定 不確実性に基づく意思決定の例 14 確率推論：p(y=晴)=0.8, p(y=⾬)=0.2 （⼆値の離散確率分布） 損失関数 A) L(y=晴,x=傘なし)=0 L(y=⾬,x=傘なし)=100 L(y=晴,x=傘あり)=10 L(y=⾬,x=傘あり)=15 B) L(y=晴,x=傘なし)=0 L(y=⾬,x=傘なし)=50 L(y=晴,x=傘あり)=20 L(y=⾬,x=傘あり)=25 期待損失 （期待値𝐸 𝑌 = ∫ 𝑦𝑓 𝑦 𝑑𝑦） 𝐸 𝐿(𝑥 = 𝑎) = ∫ 𝐿 𝑦, 𝑥 = 𝑎 𝑝 𝑦 𝑑𝑦 A) 𝐸 𝐿(𝑥 = 傘なし) = 20 𝐸 𝐿(𝑥 = 傘あり) = 11 B) 𝐸 𝐿(𝑥 = 傘なし) = 10 𝐸 𝐿(𝑥 = 傘あり) = 21
15. 15. • 利点 ① 様々な問題が⼀貫性をもって解ける • モデルの構築と推論の２ステップでアプローチする(1.6.1節) ② 対象の不確実性を定量的に取り扱うことができる • 原因の確率を推論するものであり、どれほど確信しているのかを定量的に出⼒ (1.6.4 節) ③ 利⽤可能な知識を⾃然に取り⼊れることができる • 事前分布として推定したい未知のパラメータに対する知識を導⼊(知識がない場合には 知識がないことを表現) • データ構造に対する仮説を確率分布の組み合わせで表現(仮説が間違っているかを含め て推論できる) ④ 過剰適合しにくい • 最尤推定は特にデータが少なかったり次元が⼤きいと過剰適合(over fitting)しやすいが、 ベイズ学習の場合には厳密には過剰適合という概念がない（頻度主義とベイズ主義の 思想の違い） • データセットによっては過剰適合のように振る舞うこともある • 事前分布による正則化(PRML, 1章) ベイズ学習の利点と⽋点 15
16. 16. • ⽋点 ① 数理的な知識を要する • データや現象を調べ、背後にある特徴や傾向を確率分布の組み合わせで表現する必要 がある ② 計算コストがかかる • シンプルなモデル以外の(実⽤的な)モデルは解析的に計算ができない • 近似推論に頼る必要があり、計算結果の妥当性の検証が必要 ベイズ学習の利点と⽋点 16
17. 17. • ベイズ推論的機械学習は確率モデルとして問題を定義する • 多くの問題を⼀貫したアプローチで解くことができる • データ分析に係る問題を俯瞰して理解することができる • 本書は、ベイズ推論的機械学習をモデリングから近似計算まで解説 • 機械学習の問題をある程度こなしてきた⼈には、⼀貫したアプローチの嬉 しさがわかるかも • 5章は読み物として理解 • 詳細は各トピックの元論⽂を参照しないときつい まとめ 17