ベイズ推論
による機械
学習 ⼊⾨
@yoichi_t
• 時⽥ 陽⼀(@yoichi_t)
• 所属:株式会社Glia Computing
(https://www.glia-computing.com/)
• 2018年8⽉に設⽴(Co-Founder)
• 機械学習/データ分析のPoC、導⼊⽀援、コンサル
• 過去所属
• AI系ベンチャーにて、機械学習/データ分析のPoCなどを担当
• Web系広告会社にて、広告配信の最適化、ユーザ分析などを担当
• ⼤⼿警備会社研究所にて、⼈物⾏動の研究
• NAIST, 修⼠(⼯学)
⾃⼰紹介
2
• 時⽥ 陽⼀(@yoichi_t)
• チョコボールの秘密を解明するために、⽇々データを収集&解析
⾃⼰紹介
チョコボール 統計
3
• 「機械学習」注⽬されてますね
• 多次元,多量のデータが扱える環境が整ってきた
• データを活⽤したいというニーズが⾼まっている
本書の位置付け
4良いイラストが⾒つからなかった
• しかし、機械学習を駆使して現実の課題解決に取り組める技術者は
それほど多くない
• 技術領域が多種多様な「アルゴリズム群」として認識されている
• 「新しいアルゴリズム」をそれぞれ個別に習得しなければいけない
本書の位置付け
5
○○モデル
○○ がSOTAを達成!
ハイパーパラメータ特徴抽出
活性化関数 乱数シード
• 技術者がアルゴリズムを「デザイン」できるように
• 確率モデリングと推論アルゴリズムを使った⼀貫したアプローチにより解
決法を導く
• ベイズ主義機械学習に基づいたデータ解析アルゴリズムを解説
本書の位置付け
6
注)過剰演出です
⼀貫したアプローチ
『機械学習スタートアップシリーズ』
• 「機械学習をもっと⾝近に、機械学習をもっとわかりやすく!」を合⾔葉に、
より丁寧な記述で、基本的なテーマを解説していきます。
(講談社HPより, https://www.kspub.co.jp/book/series/S042.html)
• すでにいくつかの機械学習技術を使っているが、もっと問題に合わ
せて⾃由にアルゴリズムを構築・改良したい技術者および研究者
(本書 まえがきより)
• 「スタートアップシリーズ」か??
• 「機械学習」の初学者にはおすすめできない
• 確率モデルとして機械学習を理解すると⾒通しが良くなるので、そこに興
味がある⽅にオススメです
対象読者
7
• 前提
• パラメータを全て明⽰的に「確率変数」として考える
• モデリング
• 確率変数間の関係性を定義:グラフィカルモデルで表現
ベイズ推論的機械学習
8
𝑥" 𝑦"
N
𝑊
データxからyを
予測するための
パラメータ
回帰/分類の例
𝝎 :重み。 𝝎 ∈ 𝑅(
𝜖 :ノイズ
• 回帰/分類問題の学習と推論の例
ベイズ推論的機械学習
9
𝑥" 𝑦"
N
𝑊
データxからyを
予測するための
パラメータ
• 同時分布(モデル構築)
• 回帰/分類問題の学習と推論の例
ベイズ推論的機械学習
10
𝑥" 𝑦"
N
𝑊
データxからyを
予測するための
パラメータ
• 同時分布(モデル構築)
• 事後分布
同時分布と条件付き分布の関係から
• 回帰/分類問題の学習と推論の例
ベイズ推論的機械学習
11
𝑥" 𝑦"
N
𝑊
データxからyを
予測するための
パラメータ
• 同時分布(モデル構築)
• 事後分布
• 予測分布
パラメータの積分消去
• 回帰/分類問題の学習と推論の例
ベイズ推論的機械学習
12
𝑥" 𝑦"
N
𝑊
• 同時分布(モデル構築)
• 事後分布
• 予測分布
分布の計算
• 頑張って計算する(共役事前分布)
• 近似計算
• サンプリング(ギブスサンプリング(MCMC))
• 変分推論
• ⼀貫したアプローチで解釈ができる
• 回帰/分類/クラスタリング/次元削減
• 他にも、HMM、トピックモデル、ニューラルネットワーク
• 不確実性を明⽰的に表現できる
• 不確実性の定量化
• 曖昧な場合には決定を下さないという決定をすることができる
• 各事象の損失(利益)を定義し、期待損失(収益)による論理的な意思決定
なぜパラメータを確率変数とするのか
13
• e.g. ⾬の確率推論結果を活⽤して傘を持っていくか否かの意思決定
不確実性に基づく意思決定の例
14
確率推論:p(y=晴)=0.8, p(y=⾬)=0.2 (⼆値の離散確率分布)
損失関数
A) L(y=晴,x=傘なし)=0
L(y=⾬,x=傘なし)=100
L(y=晴,x=傘あり)=10
L(y=⾬,x=傘あり)=15
B) L(y=晴,x=傘なし)=0
L(y=⾬,x=傘なし)=50
L(y=晴,x=傘あり)=20
L(y=⾬,x=傘あり)=25
期待損失 (期待値𝐸 𝑌 = ∫ 𝑦𝑓 𝑦 𝑑𝑦)
𝐸 𝐿(𝑥 = 𝑎) = ∫ 𝐿 𝑦, 𝑥 = 𝑎 𝑝 𝑦 𝑑𝑦
A) 𝐸 𝐿(𝑥 = 傘なし) = 20
𝐸 𝐿(𝑥 = 傘あり) = 11
B) 𝐸 𝐿(𝑥 = 傘なし) = 10
𝐸 𝐿(𝑥 = 傘あり) = 21
• 利点
① 様々な問題が⼀貫性をもって解ける
• モデルの構築と推論の2ステップでアプローチする(1.6.1節)
② 対象の不確実性を定量的に取り扱うことができる
• 原因の確率を推論するものであり、どれほど確信しているのかを定量的に出⼒ (1.6.4
節)
③ 利⽤可能な知識を⾃然に取り⼊れることができる
• 事前分布として推定したい未知のパラメータに対する知識を導⼊(知識がない場合には
知識がないことを表現)
• データ構造に対する仮説を確率分布の組み合わせで表現(仮説が間違っているかを含め
て推論できる)
④ 過剰適合しにくい
• 最尤推定は特にデータが少なかったり次元が⼤きいと過剰適合(over fitting)しやすいが、
ベイズ学習の場合には厳密には過剰適合という概念がない(頻度主義とベイズ主義の
思想の違い)
• データセットによっては過剰適合のように振る舞うこともある
• 事前分布による正則化(PRML, 1章)
ベイズ学習の利点と⽋点
15
• ⽋点
① 数理的な知識を要する
• データや現象を調べ、背後にある特徴や傾向を確率分布の組み合わせで表現する必要
がある
② 計算コストがかかる
• シンプルなモデル以外の(実⽤的な)モデルは解析的に計算ができない
• 近似推論に頼る必要があり、計算結果の妥当性の検証が必要
ベイズ学習の利点と⽋点
16
• ベイズ推論的機械学習は確率モデルとして問題を定義する
• 多くの問題を⼀貫したアプローチで解くことができる
• データ分析に係る問題を俯瞰して理解することができる
• 本書は、ベイズ推論的機械学習をモデリングから近似計算まで解説
• 機械学習の問題をある程度こなしてきた⼈には、⼀貫したアプローチの嬉
しさがわかるかも
• 5章は読み物として理解
• 詳細は各トピックの元論⽂を参照しないときつい
まとめ
17

20190723 mlp lt_bayes_pub