Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1章
読書会#2, #3 資料
twitter: @wrist
facebook: hiromasa.ohashi

14年1月19日日曜日
スライド作成について
•
•
•

図: 著者HPから落としてくる
表: CamScannerというiPhoneアプリで撮影
数式: tex2imgで画像を作成

•
•
14年1月19日日曜日

osxだとCUI版がある

https://g...
自己紹介
•
•
•
•

大橋宏正(@wrist)
某メーカで働く音響信号処理屋(入社2年目)
学生時代は音声言語処理を専攻
C++, Rubyが好き

•
•
•
14年1月19日日曜日

最近は専らCとPython
coffeescrip...
近況
• 手首バンド買いました

14年1月19日日曜日
第1章 目次(1)
1.

序論
1.1. 例:多項式フィッティング
1.2. 確率論
1.2.1.確率密度
1.2.2.期待値と分散
1.2.3.ベイズ確率
1.2.4.ガウス分布
1.2.5.曲線フィッテイング再訪
1.2.6.ベイズ曲線フ...
第1章 目次(2)
1.

序論
1.3. モデル選択
1.4. 次元の呪い
1.5. 決定理論
1.5.1.誤識別率の最小化
1.5.2.期待損失の最小化
1.5.3.棄却オプション
1.5.4.推論と決定
1.5.5.回帰のための損失関数
...
第一章 目次(3)
1. 序論
1.6.情報理論
1.6.6.相対エントロピーと相互情報量

14年1月19日日曜日
前回

14年1月19日日曜日
機械学習

•
•

28x28ピクセルの画像= 784次元の実数値ベクトルx

機械学習によってy(x)を獲得

•
•
14年1月19日日曜日

訓練(training)、学習(learning)

新しい入力に対しても数字が判別可能
機械学習の分類
•

教師あり学習(supervised learning)

•

•

教師なし学習(unsupervised learning)

•

14年1月19日日曜日

クラス分類(classification)、回帰(regre...
多項式曲線フィッティング

• N個の観測点から緑の曲線を見つけたい
• 多項式で近似
• 二乗誤差を最小化するように学習
14年1月19日日曜日
様々なMに対する曲線

過学習
(over-fitting)
14年1月19日日曜日
RMSを用いた誤差評価
(Mによる誤差の違い)

•
•
14年1月19日日曜日

Mの値が増えるほど誤差が減ると見せかけM=9で発散
Wの値が発散していることが原因
過学習を避けるには

•
•
•
14年1月19日日曜日

学習データを増やす
ベイズ的アプローチ
正則化項の追加
λの値による変化

• lnλ=-18だと良いが
lnλ=0だと再び
悪くなる
14年1月19日日曜日
果物の例と確率
F={a,o}

B={r,b}

•
•
•
14年1月19日日曜日

※残り11個

確率=(ある事象の生起回数)/(全試行回数) の極限

箱と果物が確率変数
P(B=r)=4/10, P(B=b)=6/10
今回

14年1月19日日曜日
設定の一般化
•
•

2つの確率変数X,Y
Xは任意のxi(i=1,...,M)、
Yは任意のyj(j=1,...L)

•
•

全N回の試行、X=xi,Y=yjとなる試行回数をnij
Yと無関係にX=xiとなる回数をci、
Xと無関係にY...
各種確率
同時確率
(結合確率; joint probability)
周辺確率
(marginal probability)

加法定理の適用

条件付き確率
(conditional probability)
乗法定理

14年1月19日日...
確率の基本法則とベイズの定理

• 確率の加法定理と確率の乗法定理
• ベイズの定理(Bayes’ theorem)
• p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y)
14年1月19日日曜日
周辺および条件付き確率の概念の図示

14年1月19日日曜日
果物の箱の例
•
•

p(B=r)=4/10, p(B=b)=6/10

•

ある箱から果物を取り出す確率

•
•
•
•
14年1月19日日曜日

p(B=r)+p(B=b)=1

p(F=a|B=r)=1/4, p(F=o|B=r)=...
ベイズの定理の利用
• 果物がオレンジだと分かった後に
赤い箱からオレンジを選ぶ確率

• p(B=r|F=o)={p(F=o|B=r)p(B=r)}/{p(F=o)}
=(3/4*4/10)/(9/20)=2/3

14年1月19日日曜日
事前確率・事後確率
•

p(B)

•

選んだ果物の種類を教えられる前にどの箱を選んだかを
示す確率

•
•

p(B|F)

•
•
14年1月19日日曜日

事前確率(prior probability)

果物の種類を知った後にどの...
果物の例におけるprior, posterior

•
•

赤い箱を選ぶ事前確率は4/10
オレンジだと分かった後の赤い箱の
事後確率は2/3

•
•

赤である確率の方が大きい

赤い箱の方が青い箱よりもオレンジの比率が
大きい(8個中6...
独立(independent)
•

XとYが独立

•
•

p(X,Y)=p(X)p(Y)
独立ならば
P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y)

•
•

P(Y|X)はXと関係なく決まる

もし各箱に同...
P.17に誤植?

• p(F|B)=P(F)においてp(F)のpが大文字に

14年1月19日日曜日
1.2.1 確率密度
•

連続変数に対する確率

•

確率密度(probability density)

•
•
•
14年1月19日日曜日

実数値を取る変数xが区間(x,x+δx)に入る確
率がδx→0の時p(x)δxで与えられる時の...
非線形変換に対する確率密度

• 変数変換x=g(y)を考える
• ヤコビ行列により変換
• 関数f(x)はf (y)=f(g(y))
• 確率密度はヤコビアンによって変換
~

14年1月19日日曜日
確率密度の変換(1変数の変換)

•
•
•

異なる密度を添字で区別 px(x), py(y)
px(x)δx =~ py(y)δy より py(y) =~ px(x)|dx/dy|
x=g(y)の時の確率密度変換

•
•
14年1月19日...
置換積分による理解

14年1月19日日曜日
2変数以上の変換
• ヤコビ行列(Wikipediaより引用)

•
•

この行列式がヤコビアン
2変数以上の変数変換の場合は
ヤコビアンを密度に掛ける

14年1月19日日曜日
累積分布関数(cumulative distribution function)

14年1月19日日曜日
複数の連続変数の場合
•
•

x=(x1,...,xD)Tに対し同時分布p(x)=p(x1,...,xD)を定義

•

同時分布は離散変数と

多変数確率密度の条件

連続変数に対しても定義可能

•

離散変数の時はp(x)は確率質量関数...
連続変数の確率の加法・乗法定理

• 厳密に証明するには
測度論(measure theory)が必要

14年1月19日日曜日
1.2.2 期待値と分散
• 期待値(expectation)
離散分布の場合
連続分布の場合
サンプル近似
多変数関数の期待値に
対する添字表示
条件付き期待値
(conditional expectation)
14年1月19日日曜日
分散(variance)・共分散(covariance)
分散

共分散
ベクトルに対する
共分散
ベクトルx自身の
共分散
14年1月19日日曜日
1.2.3 ベイズ確率
•

ここまで

•
•
•
•

古典的確率(classical probability)
頻度主義的(frequentist)な確率解釈

ここから

•
14年1月19日日曜日

確率=ランダムな繰り返し試行の頻度...
Bayesian的な見方
•

多項式曲線フィッティングの例

•

不確実性を取り扱える

•
•

14年1月19日日曜日

モデルパラメータwに対する不確実性
モデルそのものの選択に関する不確実性
曲線フィッティングへのベイズの定理の導入

•
•

事前確率分布p(w)
尤度関数(likelihood function) p(D|w)

•
•

観測データD={t1,...,tN}
wの確率分布ではなくwに対する積分は
1にはならない...
ベイズと頻度主義の考え方の違い

•

頻度主義

•

モデルパラメータwはデータから得られた推定量

•
•

ベイズ的見方

•

モデルパラメータwは確率分布

•
14年1月19日日曜日

不確実性を持つのはデータ

不確実性を持つの...
頻度主義における推定
•

最尤推定(maximum likelihood)により
p(D|w)を最大にする値を推定

•

誤差関数(error function)

•
•

14年1月19日日曜日

-log{P(D|w)}
単調減少であ...
頻度主義における誤差範囲のアプローチ

•

ブートストラップ(bootstrap)

•
•

N個のデータ集合X={x1,...xN}
XからランダムにN点を復元抽出して
XBを作成

•
•

この試行をL回繰り返す
パラメータ推定の統計...
ベイズ的視点の利点
•

事前知識を自然に取り入れられる

•

例:公平なコインを3回投げて毎回表が出る

•
•

14年1月19日日曜日

最尤推定:表が出る確率1
ベイズ的アプローチ:極端な結論を防げる
ベイズに対する批判
•

事前分布の選び方が恣意的なことがある

•
•

数学的便宜
選び方によって結果が主観的に

•
•

悪い選び方だと結果も悪くなる

依存を避けるために無情報事前分布
(noninformative prior)を用...
PRML(本書)では
•
•

ベイズ法が主体だが頻度主義的考えも紹介するよ
ベイズ法の近年の発展

•

マルコフ連鎖モンテカルロ法(MCMC法)

•
•

変分ベイズ法やEP(期待値伝搬法)

•
14年1月19日日曜日

全パラメータで...
1.2.4 ガウス分布
•

正規分布(normal distribution)、ガウス分布(Gaussian distribution)

•

平均(mean)μ, 分散(variance)σ2, 標準偏差(standard deviati...
scipyでplot
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
14年1月19日日曜日

#!/usr/bin/env python
# vim:fileenc...
平均および導出

• 演習1.8の一部
14年1月19日日曜日
2次のモーメント、分散、モード

•

モード(最頻値)

•
•
14年1月19日日曜日

分布の最大値を与えるx
ガウス分布においてはモードは平均に一致
多次元正規分布
• D次元ベクトルの連続変数x、
D次元平均ベクトルμ、DxD共分散行列Σ

• 共分散行列に応じて分布形状が変わる
• 対角か全角か
14年1月19日日曜日
numpy.randomで
多次元正規分布からサンプリング
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

#!/usr/bin/env python
# vim:fileencoding=ut...
全角の場合
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

#!/usr/bin/env python
# vim:fileencoding=utf-8
import numpy as np
i...
複数の観測値に対する確率

•
• 独立同分布(i.i.d; independent identically
データ集合x=(x1,...,xN)T

distributed)

• データ点が同じ分布から独立に生成
14年1月19日日曜日
平均と分散の最尤解

•

尤度関数をμまたはσで微分して0とおいて解く(演習1-11)

•

解はサンプル平均(sample mean)、
サンプル分散(sample variance)

14年1月19日日曜日
バイアス(bias)と不偏推定量

不偏推定量

•

最尤推定では分散が過小評価

•
•
14年1月19日日曜日

Nが増えれば問題ないが過学習の原因の根本
不偏推定量(unbiased estimator)が真の分散
1.2.5 曲線フィッティング再訪
•

訓練データ群
x=(x1,...,xN)T

•

目標データ群
t=(t1,...tN)T

•

wが与えられた状態の
曲線を平均、分散を
精度パラメータβとして、
目標値方向に広がる
正規分布

...
尤度の最大化=二乗誤差の最小化

•

尤度関数ln(t|x,w,β)を解いて求められる
wは最小二乗誤差の最小化に等価

•
•
14年1月19日日曜日

βは(左辺の微分)=0の解には影響しない

β-1に関する微分を解いてβの最尤解も計算
誤差関数の微分

演習1-1の答え
14年1月19日日曜日
予測分布
• 曲線の不確実さを表す(1.60)式の
パラメータを最尤パラメータに
置き換えたもの

• 新規データに対して点で結果を出す
のではなく確率分布として算出
14年1月19日日曜日
事前分布の導入とMAP推定

•

事前分布として平均0、分散α-1Iのガウス分布を導入

•

αのような分布を制御するパラメータを
超パラメータ(hyper parameter)という

•
14年1月19日日曜日

MAP推定の結果は正則...
1.2.6 ベイズ曲線フィッティング

• 先に示した予測分布は与えられたwによ
るもの

• ベイズ的な取り扱いでは全てのwを考
慮する必要有

14年1月19日日曜日
予測分布、平均、分散
予測分布
平均
分散

赤:平均, 領域: 1標準偏差内

•
•
14年1月19日日曜日

事後分布は解析的に解けガウス分布に
平均、分散はxに依存

•

分散の第二項はベイズ的な取り扱いによるもの
1.3 モデル選択
• モデルの複雑さ
• パラメータ数M, 正則化項λ
• 最尤アプローチには過学習の問題
• 訓練データに対する性能で
モデル性能は測れない

14年1月19日日曜日
データが沢山あるとき
•
•

色々なモデルを一部のデータで学習
確認用のデータで各々のモデルを評価

•
•

確認用集合(検証用集合: validation set)

確認用集合に過学習してしまうこともある
のでテスト用集合(test s...
交差確認(交差検証: cross-validation)
•

ジレンマ

•
•

•

訓練データ多→良いモデル
確認データ少→予測性能の誤差大

データを分割して訓練と確認に交互に適用

•

(S-1)/Sを訓練に用いて1/Sで確認

...
交差確認のデメリット
• 計算量の増加
• 同じ訓練を複数回実施
• 複数パラメータ存在時はより増加
• 訓練データのみに依存し過学習による
バイアスを持たない尺度が必要

14年1月19日日曜日
尺度

• AIC(akaike information criterion)
•       を最大にするモデルを選択
• BIC(Bayesian information criterion) (4.4.1)
• 完全なベイズアプローチ(3...
1.4 次元の呪い

•

×をどの色に分類すべきか?

•
•
14年1月19日日曜日

青はなさそうであるが赤か緑

単純な方法としてはマス目に区切って含む点の数で判断
マス目に区切ることの問題点

•
14年1月19日日曜日

マス目の数がDの増加に対し指数的に増える
複数変数入力に対する多項式

• D次元入力に対する3次多項式
• 独立な係数の数がD に比例
• M次多項式だとD
• べき乗に増加
3

M

14年1月19日日曜日
球の体積による理解
D次元空間における球の体積
半径1-εから1の間の体積比

Dが増えると体積は表皮に集中

極座標変換したガウス分布の
半径rに対する確率密度(演習1.20)

14年1月19日日曜日
次元の呪い(curse of dimensionality)

•
•

大きい次元の空間に伴う困難のこと
高次元空間に対する有効な手法

•
•
•

実データは実質的には低次の領域
かつ重要な変化が生じる方向は限定
実データは局所的に滑らか...
1.5 決定理論(decision theory)

•
•

不確かさを含む状況における最適な意思決定
入力ベクトルx, 目標変数t

•
•

実際の応用(決定理論で扱う)

•
•
14年1月19日日曜日

xの新しい値に対しtを予測する...
医療診断問題の例
• X線画像から癌の判定
• 入力ベクトルxが画像、出力変数が癌で
あるC1 (t=0) かそうでないC2 (t=1)

• 同時分布p(x,C)(p(x,t))の推定により決定
14年1月19日日曜日
決定(decision)に対する確率の役割

•
•
•

p(C1) 人間が癌である事前確率
p(C1|x) 画像データを得た時に癌である事後確率
誤ったクラスに判別する可能性を最小にするため
には事後確率が最大となるクラスを選べば良い

1...
1.5.1 誤識別率の最小化
←決定境界

決定領域R1

•

決定領域R2

誤りを最小化するためには積分値を最小と
するようにクラスを割り振る

14年1月19日日曜日
一般のKクラスの場合

•

p(x, Ck)=p(Ck|x)p(x)に

•
•

p(x)はクラスに依らない共通因子
入力xに対するクラスはp(Ck|x)を最大化
するものを選べば良い

14年1月19日日曜日
Upcoming SlideShare
Loading in …5
×

PRML読書会#2,#3資料

3,564 views

Published on

Published in: Technology
  • Dating direct: ♥♥♥ http://bit.ly/2F90ZZC ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❶❶❶ http://bit.ly/2F90ZZC ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THI5 BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

PRML読書会#2,#3資料

  1. 1. 1章 読書会#2, #3 資料 twitter: @wrist facebook: hiromasa.ohashi 14年1月19日日曜日
  2. 2. スライド作成について • • • 図: 著者HPから落としてくる 表: CamScannerというiPhoneアプリで撮影 数式: tex2imgで画像を作成 • • 14年1月19日日曜日 osxだとCUI版がある https://github.com/wrist/prml_reading_scripts
  3. 3. 自己紹介 • • • • 大橋宏正(@wrist) 某メーカで働く音響信号処理屋(入社2年目) 学生時代は音声言語処理を専攻 C++, Rubyが好き • • • 14年1月19日日曜日 最近は専らCとPython coffeescriptの勉強も最近してます まどマギ3回見た→年明けに4回目見た
  4. 4. 近況 • 手首バンド買いました 14年1月19日日曜日
  5. 5. 第1章 目次(1) 1. 序論 1.1. 例:多項式フィッティング 1.2. 確率論 1.2.1.確率密度 1.2.2.期待値と分散 1.2.3.ベイズ確率 1.2.4.ガウス分布 1.2.5.曲線フィッテイング再訪 1.2.6.ベイズ曲線フィッティング 14年1月19日日曜日
  6. 6. 第1章 目次(2) 1. 序論 1.3. モデル選択 1.4. 次元の呪い 1.5. 決定理論 1.5.1.誤識別率の最小化 1.5.2.期待損失の最小化 1.5.3.棄却オプション 1.5.4.推論と決定 1.5.5.回帰のための損失関数 14年1月19日日曜日
  7. 7. 第一章 目次(3) 1. 序論 1.6.情報理論 1.6.6.相対エントロピーと相互情報量 14年1月19日日曜日
  8. 8. 前回 14年1月19日日曜日
  9. 9. 機械学習 • • 28x28ピクセルの画像= 784次元の実数値ベクトルx 機械学習によってy(x)を獲得 • • 14年1月19日日曜日 訓練(training)、学習(learning) 新しい入力に対しても数字が判別可能
  10. 10. 機械学習の分類 • 教師あり学習(supervised learning) • • 教師なし学習(unsupervised learning) • 14年1月19日日曜日 クラス分類(classification)、回帰(regression) クラスタリング(clustering)、 密度推定(densitiy estimation)、視覚化(visualization)
  11. 11. 多項式曲線フィッティング • N個の観測点から緑の曲線を見つけたい • 多項式で近似 • 二乗誤差を最小化するように学習 14年1月19日日曜日
  12. 12. 様々なMに対する曲線 過学習 (over-fitting) 14年1月19日日曜日
  13. 13. RMSを用いた誤差評価 (Mによる誤差の違い) • • 14年1月19日日曜日 Mの値が増えるほど誤差が減ると見せかけM=9で発散 Wの値が発散していることが原因
  14. 14. 過学習を避けるには • • • 14年1月19日日曜日 学習データを増やす ベイズ的アプローチ 正則化項の追加
  15. 15. λの値による変化 • lnλ=-18だと良いが lnλ=0だと再び 悪くなる 14年1月19日日曜日
  16. 16. 果物の例と確率 F={a,o} B={r,b} • • • 14年1月19日日曜日 ※残り11個 確率=(ある事象の生起回数)/(全試行回数) の極限 箱と果物が確率変数 P(B=r)=4/10, P(B=b)=6/10
  17. 17. 今回 14年1月19日日曜日
  18. 18. 設定の一般化 • • 2つの確率変数X,Y Xは任意のxi(i=1,...,M)、 Yは任意のyj(j=1,...L) • • 全N回の試行、X=xi,Y=yjとなる試行回数をnij Yと無関係にX=xiとなる回数をci、 Xと無関係にY=yjとなる回数をrj 14年1月19日日曜日
  19. 19. 各種確率 同時確率 (結合確率; joint probability) 周辺確率 (marginal probability) 加法定理の適用 条件付き確率 (conditional probability) 乗法定理 14年1月19日日曜日
  20. 20. 確率の基本法則とベイズの定理 • 確率の加法定理と確率の乗法定理 • ベイズの定理(Bayes’ theorem) • p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y) 14年1月19日日曜日
  21. 21. 周辺および条件付き確率の概念の図示 14年1月19日日曜日
  22. 22. 果物の箱の例 • • p(B=r)=4/10, p(B=b)=6/10 • ある箱から果物を取り出す確率 • • • • 14年1月19日日曜日 p(B=r)+p(B=b)=1 p(F=a|B=r)=1/4, p(F=o|B=r)=3/4 p(F=a|B=b)=3/4, p(F=o|B=b)=1/4 それぞれの箱から果物を引く確率の和も1 p(F=a)= p(F=a, B=r)    + p(F=a, B=b) = p(F=a|B=r)p(B=r) + p(F=a|B=b)p(B=b) = 1/4*4/10+3/4*6/10=11/20
  23. 23. ベイズの定理の利用 • 果物がオレンジだと分かった後に 赤い箱からオレンジを選ぶ確率 • p(B=r|F=o)={p(F=o|B=r)p(B=r)}/{p(F=o)} =(3/4*4/10)/(9/20)=2/3 14年1月19日日曜日
  24. 24. 事前確率・事後確率 • p(B) • 選んだ果物の種類を教えられる前にどの箱を選んだかを 示す確率 • • p(B|F) • • 14年1月19日日曜日 事前確率(prior probability) 果物の種類を知った後にどの箱を選んだかを示す確率 事後確率(posterior probability)
  25. 25. 果物の例におけるprior, posterior • • 赤い箱を選ぶ事前確率は4/10 オレンジだと分かった後の赤い箱の 事後確率は2/3 • • 赤である確率の方が大きい 赤い箱の方が青い箱よりもオレンジの比率が 大きい(8個中6個存在) • 14年1月19日日曜日 オレンジ=赤から引いたという強い証拠
  26. 26. 独立(independent) • XとYが独立 • • p(X,Y)=p(X)p(Y) 独立ならば P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y) • • P(Y|X)はXと関係なく決まる もし各箱に同じ割合でりんごとオレンジが入っ ていればp(F|B)=p(F)となり箱に対し独立 14年1月19日日曜日
  27. 27. P.17に誤植? • p(F|B)=P(F)においてp(F)のpが大文字に 14年1月19日日曜日
  28. 28. 1.2.1 確率密度 • 連続変数に対する確率 • 確率密度(probability density) • • • 14年1月19日日曜日 実数値を取る変数xが区間(x,x+δx)に入る確 率がδx→0の時p(x)δxで与えられる時のp(x) xが区間(a,b)にある確率 確率密度の条件
  29. 29. 非線形変換に対する確率密度 • 変数変換x=g(y)を考える • ヤコビ行列により変換 • 関数f(x)はf (y)=f(g(y)) • 確率密度はヤコビアンによって変換 ~ 14年1月19日日曜日
  30. 30. 確率密度の変換(1変数の変換) • • • 異なる密度を添字で区別 px(x), py(y) px(x)δx =~ py(y)δy より py(y) =~ px(x)|dx/dy| x=g(y)の時の確率密度変換 • • 14年1月19日日曜日 要は置換積分 確率密度の最大値は変数の選び方に依存
  31. 31. 置換積分による理解 14年1月19日日曜日
  32. 32. 2変数以上の変換 • ヤコビ行列(Wikipediaより引用) • • この行列式がヤコビアン 2変数以上の変数変換の場合は ヤコビアンを密度に掛ける 14年1月19日日曜日
  33. 33. 累積分布関数(cumulative distribution function) 14年1月19日日曜日
  34. 34. 複数の連続変数の場合 • • x=(x1,...,xD)Tに対し同時分布p(x)=p(x1,...,xD)を定義 • 同時分布は離散変数と 多変数確率密度の条件 連続変数に対しても定義可能 • 離散変数の時はp(x)は確率質量関数(probability mass function)とも言う 14年1月19日日曜日
  35. 35. 連続変数の確率の加法・乗法定理 • 厳密に証明するには 測度論(measure theory)が必要 14年1月19日日曜日
  36. 36. 1.2.2 期待値と分散 • 期待値(expectation) 離散分布の場合 連続分布の場合 サンプル近似 多変数関数の期待値に 対する添字表示 条件付き期待値 (conditional expectation) 14年1月19日日曜日
  37. 37. 分散(variance)・共分散(covariance) 分散 共分散 ベクトルに対する 共分散 ベクトルx自身の 共分散 14年1月19日日曜日
  38. 38. 1.2.3 ベイズ確率 • ここまで • • • • 古典的確率(classical probability) 頻度主義的(frequentist)な確率解釈 ここから • 14年1月19日日曜日 確率=ランダムな繰り返し試行の頻度 ベイズ的(Bayesian)な見方
  39. 39. Bayesian的な見方 • 多項式曲線フィッティングの例 • 不確実性を取り扱える • • 14年1月19日日曜日 モデルパラメータwに対する不確実性 モデルそのものの選択に関する不確実性
  40. 40. 曲線フィッティングへのベイズの定理の導入 • • 事前確率分布p(w) 尤度関数(likelihood function) p(D|w) • • 観測データD={t1,...,tN} wの確率分布ではなくwに対する積分は 1にはならない • 14年1月19日日曜日 ベイズの定理(事後確率 尤度関数×事前分布)
  41. 41. ベイズと頻度主義の考え方の違い • 頻度主義 • モデルパラメータwはデータから得られた推定量 • • ベイズ的見方 • モデルパラメータwは確率分布 • 14年1月19日日曜日 不確実性を持つのはデータ 不確実性を持つのはw
  42. 42. 頻度主義における推定 • 最尤推定(maximum likelihood)により p(D|w)を最大にする値を推定 • 誤差関数(error function) • • 14年1月19日日曜日 -log{P(D|w)} 単調減少であるため誤差関数の最小化は p(D|w)の最大化に等しい
  43. 43. 頻度主義における誤差範囲のアプローチ • ブートストラップ(bootstrap) • • N個のデータ集合X={x1,...xN} XからランダムにN点を復元抽出して XBを作成 • • この試行をL回繰り返す パラメータ推定の統計的な精度を異なるブートストラップ データ集合に対する予測の変動によって評価 14年1月19日日曜日
  44. 44. ベイズ的視点の利点 • 事前知識を自然に取り入れられる • 例:公平なコインを3回投げて毎回表が出る • • 14年1月19日日曜日 最尤推定:表が出る確率1 ベイズ的アプローチ:極端な結論を防げる
  45. 45. ベイズに対する批判 • 事前分布の選び方が恣意的なことがある • • 数学的便宜 選び方によって結果が主観的に • • 悪い選び方だと結果も悪くなる 依存を避けるために無情報事前分布 (noninformative prior)を用いることも 14年1月19日日曜日
  46. 46. PRML(本書)では • • ベイズ法が主体だが頻度主義的考えも紹介するよ ベイズ法の近年の発展 • マルコフ連鎖モンテカルロ法(MCMC法) • • 変分ベイズ法やEP(期待値伝搬法) • 14年1月19日日曜日 全パラメータでの積分が不要 決定論的近似法
  47. 47. 1.2.4 ガウス分布 • 正規分布(normal distribution)、ガウス分布(Gaussian distribution) • 平均(mean)μ, 分散(variance)σ2, 標準偏差(standard deviation)σ, 精度パラメータ(precision parameter)β=1/σ2 14年1月19日日曜日
  48. 48. scipyでplot 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 14年1月19日日曜日 #!/usr/bin/env python # vim:fileencoding=utf-8 import numpy as np import scipy as sp import matplotlib.pyplot as plt from scipy.stats import norm mu = 0 sigma = 1 rv = norm(loc = mu, scale = sigma) xmax = np.minimum(rv.dist.b, 3) x = np.linspace(-xmax, xmax, 1000) y = rv.pdf(x) fig = plt.figure(1) ax = fig.add_subplot(1,1,1) ax.plot(x, y) plt.show()
  49. 49. 平均および導出 • 演習1.8の一部 14年1月19日日曜日
  50. 50. 2次のモーメント、分散、モード • モード(最頻値) • • 14年1月19日日曜日 分布の最大値を与えるx ガウス分布においてはモードは平均に一致
  51. 51. 多次元正規分布 • D次元ベクトルの連続変数x、 D次元平均ベクトルμ、DxD共分散行列Σ • 共分散行列に応じて分布形状が変わる • 対角か全角か 14年1月19日日曜日
  52. 52. numpy.randomで 多次元正規分布からサンプリング 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 #!/usr/bin/env python # vim:fileencoding=utf-8 import numpy as np import scipy as sp import matplotlib.pyplot as plt from numpy import random mean = [0, 0] cov = [[1, 0], [0, 100]] # 対角 x, y = random.multivariate_normal(mean, cov, 10000).T fig = plt.figure(1) ax = fig.add_subplot(1,1,1) ax.plot(x, y, 'x') plt.show() 14年1月19日日曜日
  53. 53. 全角の場合 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 #!/usr/bin/env python # vim:fileencoding=utf-8 import numpy as np import scipy as sp import matplotlib.pyplot as plt from numpy import random mean = [0, 0] cov = [[1, 2], [30, 100]] # 全角 x, y = random.multivariate_normal(mean, cov, 10000).T fig = plt.figure(1) ax = fig.add_subplot(1,1,1) ax.plot(x, y, 'x') plt.show() 14年1月19日日曜日 楕円が表現可能であるが パラメータ数が増加 →混合ガウス分布(2章)
  54. 54. 複数の観測値に対する確率 • • 独立同分布(i.i.d; independent identically データ集合x=(x1,...,xN)T distributed) • データ点が同じ分布から独立に生成 14年1月19日日曜日
  55. 55. 平均と分散の最尤解 • 尤度関数をμまたはσで微分して0とおいて解く(演習1-11) • 解はサンプル平均(sample mean)、 サンプル分散(sample variance) 14年1月19日日曜日
  56. 56. バイアス(bias)と不偏推定量 不偏推定量 • 最尤推定では分散が過小評価 • • 14年1月19日日曜日 Nが増えれば問題ないが過学習の原因の根本 不偏推定量(unbiased estimator)が真の分散
  57. 57. 1.2.5 曲線フィッティング再訪 • 訓練データ群 x=(x1,...,xN)T • 目標データ群 t=(t1,...tN)T • wが与えられた状態の 曲線を平均、分散を 精度パラメータβとして、 目標値方向に広がる 正規分布 14年1月19日日曜日
  58. 58. 尤度の最大化=二乗誤差の最小化 • 尤度関数ln(t|x,w,β)を解いて求められる wは最小二乗誤差の最小化に等価 • • 14年1月19日日曜日 βは(左辺の微分)=0の解には影響しない β-1に関する微分を解いてβの最尤解も計算
  59. 59. 誤差関数の微分 演習1-1の答え 14年1月19日日曜日
  60. 60. 予測分布 • 曲線の不確実さを表す(1.60)式の パラメータを最尤パラメータに 置き換えたもの • 新規データに対して点で結果を出す のではなく確率分布として算出 14年1月19日日曜日
  61. 61. 事前分布の導入とMAP推定 • 事前分布として平均0、分散α-1Iのガウス分布を導入 • αのような分布を制御するパラメータを 超パラメータ(hyper parameter)という • 14年1月19日日曜日 MAP推定の結果は正則化と一致
  62. 62. 1.2.6 ベイズ曲線フィッティング • 先に示した予測分布は与えられたwによ るもの • ベイズ的な取り扱いでは全てのwを考 慮する必要有 14年1月19日日曜日
  63. 63. 予測分布、平均、分散 予測分布 平均 分散 赤:平均, 領域: 1標準偏差内 • • 14年1月19日日曜日 事後分布は解析的に解けガウス分布に 平均、分散はxに依存 • 分散の第二項はベイズ的な取り扱いによるもの
  64. 64. 1.3 モデル選択 • モデルの複雑さ • パラメータ数M, 正則化項λ • 最尤アプローチには過学習の問題 • 訓練データに対する性能で モデル性能は測れない 14年1月19日日曜日
  65. 65. データが沢山あるとき • • 色々なモデルを一部のデータで学習 確認用のデータで各々のモデルを評価 • • 確認用集合(検証用集合: validation set) 確認用集合に過学習してしまうこともある のでテスト用集合(test set)も用意すべき 14年1月19日日曜日
  66. 66. 交差確認(交差検証: cross-validation) • ジレンマ • • • 訓練データ多→良いモデル 確認データ少→予測性能の誤差大 データを分割して訓練と確認に交互に適用 • (S-1)/Sを訓練に用いて1/Sで確認 • LOO(1つ抜き法: leave-one-out)法 • 14年1月19日日曜日 S=NとしN-1個を訓練に用い残り1つで確認
  67. 67. 交差確認のデメリット • 計算量の増加 • 同じ訓練を複数回実施 • 複数パラメータ存在時はより増加 • 訓練データのみに依存し過学習による バイアスを持たない尺度が必要 14年1月19日日曜日
  68. 68. 尺度 • AIC(akaike information criterion) •       を最大にするモデルを選択 • BIC(Bayesian information criterion) (4.4.1) • 完全なベイズアプローチ(3.4) • ノンパラメトリックアプローチ 14年1月19日日曜日
  69. 69. 1.4 次元の呪い • ×をどの色に分類すべきか? • • 14年1月19日日曜日 青はなさそうであるが赤か緑 単純な方法としてはマス目に区切って含む点の数で判断
  70. 70. マス目に区切ることの問題点 • 14年1月19日日曜日 マス目の数がDの増加に対し指数的に増える
  71. 71. 複数変数入力に対する多項式 • D次元入力に対する3次多項式 • 独立な係数の数がD に比例 • M次多項式だとD • べき乗に増加 3 M 14年1月19日日曜日
  72. 72. 球の体積による理解 D次元空間における球の体積 半径1-εから1の間の体積比 Dが増えると体積は表皮に集中 極座標変換したガウス分布の 半径rに対する確率密度(演習1.20) 14年1月19日日曜日
  73. 73. 次元の呪い(curse of dimensionality) • • 大きい次元の空間に伴う困難のこと 高次元空間に対する有効な手法 • • • 実データは実質的には低次の領域 かつ重要な変化が生じる方向は限定 実データは局所的に滑らかな性質 • 14年1月19日日曜日 入力空間上の変化に対する目標変数の変化小
  74. 74. 1.5 決定理論(decision theory) • • 不確かさを含む状況における最適な意思決定 入力ベクトルx, 目標変数t • • 実際の応用(決定理論で扱う) • • 14年1月19日日曜日 xの新しい値に対しtを予測することが目的 tの特定の値を予測 tの取る値に応じて特定の行動
  75. 75. 医療診断問題の例 • X線画像から癌の判定 • 入力ベクトルxが画像、出力変数が癌で あるC1 (t=0) かそうでないC2 (t=1) • 同時分布p(x,C)(p(x,t))の推定により決定 14年1月19日日曜日
  76. 76. 決定(decision)に対する確率の役割 • • • p(C1) 人間が癌である事前確率 p(C1|x) 画像データを得た時に癌である事後確率 誤ったクラスに判別する可能性を最小にするため には事後確率が最大となるクラスを選べば良い 14年1月19日日曜日
  77. 77. 1.5.1 誤識別率の最小化 ←決定境界 決定領域R1 • 決定領域R2 誤りを最小化するためには積分値を最小と するようにクラスを割り振る 14年1月19日日曜日
  78. 78. 一般のKクラスの場合 • p(x, Ck)=p(Ck|x)p(x)に • • p(x)はクラスに依らない共通因子 入力xに対するクラスはp(Ck|x)を最大化 するものを選べば良い 14年1月19日日曜日

×