モンテカルロ法と情報量

Machine Learning
A P r o b a b i l i s t i c P e r s p e c t i v e

アジェンダ
Ch.2 確率
• 2.1 イントロダクション
• 2.2 確率論の簡単な概要
• 2.3 一般的な離散分布
• 2.4 一般的な連続分布
• 2.5 同時確率分布
• 2.6 Transformations of random variables
• 2.7 モンテカルロ法
• 2.8 情報量
2

今日やること
✔ モンテカルロ法を理解する
✔ モンテカルロ法を用いた木探索を知る
✔ エントロピーを理解する
✔ KL情報量を理解する
✔ 相互情報量を理解する
3

モンテカルロ法
Machine Learning a Probabilistic Perspective 2.7
4

モンテカルロ法 (Monte Carlo Approximation)
母集団からサンプルをいくつか取ってきて、そのサンプル群から
母集団の性質を見抜く手段のこと
5

モンテカルロ法によって𝑓 𝑋 の期待値は次のように求められる
𝔼 𝑓 𝑋 = 𝑓 𝑥 𝑝 𝑥 𝑑𝑥 ⋍
1
𝑆
𝑠=1
𝑆
𝑓(𝑥 𝑠)
• 𝔼 𝑓 𝑋 : 𝑓 𝑋 の期待値
• 𝑝 𝑥 : 𝑓 𝑋 の分布
• 𝑆: サンプルの数
• 𝑥 𝑠: 適当な値
6

他にもモンテカルロ法を用いて色々推定することができる
• 𝑥~𝑋の期待値:
1
𝑆 𝑠=1
𝑆
𝑥 𝑠
• その𝑥の分散:
1
𝑆 𝑠=1
𝑆
𝑥 𝑠 − 𝑥 2
• 𝑥の中央値: 𝑚𝑒𝑑𝑖𝑎𝑛 𝑥1, … , 𝑥 𝑆 = 𝑚𝑒𝑑𝑖𝑎𝑛(𝑋)
7

(例) 一様分布と𝑦 = 𝑥2
𝑥~𝑈𝑛𝑖𝑓 −1, 1 , 𝑦 = 𝑥2としたとき、𝑝(𝑦)の分布を求める
一様分布なので、 −1, 1 の範囲でランダムに𝑥をきめ、その𝑥に
対する𝑦の値がどのように分布するかを調べる
8
左の図が実際の分布の形で、
右がモンテカルロ法によって求めた
分布である

(例) モンテカルロ積分
円の円周率𝜋を求める
方針: 半径1の円とそれを囲う一辺が2の正方形の領域にランダムに点
を打ち、それが円の領域に含まれているかどうかを判定する
9
正方形の面積𝑆 𝑎 = 4, 円の面積𝑆 𝑏 = 𝜋
この領域の点で円に入る確率𝑃 = 𝜋/4
正方形の領域にうった点の総数: 𝑁𝑎
円の領域に打たれた点の総数: 𝑁𝑏
𝜋 = 4
𝑁𝑏
𝑁𝑎

モンテカルロ法の精度
サンプルのサイズを大きくすれば(勿論)精度は上がる
(例) モンテカルロ法による円周率の推定の場合
• サンプル数100 : 3.0495, 3.1683, 3.4059
• サンプル数1000000 : 3.1449, 3.1424, 3.1416
10
Rubyでモンテカルロ法を用いた円周率の推定

実際の平均: 𝜇 = 𝔼[𝑓 𝑋 ]
MC法の推定平均: 𝜇
中心極限定理より
𝜇 − 𝜇 → 𝒩 0,
𝜎2
𝑆
分散𝜎2は求められないが、
MC法によって推定値 𝜎2
は求めれ
る
11
サンプル数: 10 サンプル数: 100
モンテカルロ法と正規分布

𝜎2 =
1
𝑆
𝑠=1
𝑆
𝑓 𝑥 𝑠 − 𝜇 2
従って、
𝑃 𝜇 − 1.96
𝜎
𝑆
≤ 𝜇 ≤ 𝜇 + 1.96
𝜎
𝑆
≈ 0.95
𝜎
𝑆
は標準誤差という値で、95%の確率で標準誤差±𝜖以内で
正確(有意水準)であるためにはサンプル数𝑆は1.96
𝜎
𝑆
≤ 𝜖を満たす
12

モンテカルロ木探索
囲碁や将棋などのゲームにおいて、最善の方法を求める
囲碁や将棋は少し難しいので、「ラストワン」というゲームを
元に紹介する
13

ラストワン
すごくマイナーなゲーム
右図のような目があり、プレイヤー
は交互に横・斜めを数珠つなぎに
消すことができる
最後の1個を取ったほうが負け
14

一人目のプレイヤーが次のように消した
とする
次のプレイヤーは様々な消し方があるが、
その全てのパターンを引いた後、仮想的
に交互にランダムに線を引くという作業
を行い、勝ったか負けたかを見る
これを何回か繰り返し、勝率の高い初手
をこの回の手とする
15

このゲームは探索空間が狭いので全ての初手からの動向を
ランダムに何回も勝負させて勝つ回数を見る
16
…
勝つ確率
20%
勝ち
勝ち
負け
勝ち
勝ち
勝つ確率
80%

✔ ゲームのソースコード
• https://github.com/miyatin/lastone
✔ 中学校のときに友達と作ったこのゲームのwiki
• http://www15.atwiki.jp/rukusen/pages/28.html
✔ ブラウザで遊べるところ
• http://lastone.miyatin.pw/
17

情報理論
Machine Learning a Probabilistic Perspective 2.8
18

エントロピー (entropy)
離散確率変数𝑋について以下の定義をエントロピーという
ℍ 𝑋 ≜ −
𝑖=0
𝑛
𝑝 𝑥𝑖 log2 𝑝 𝑥𝑖
19

エントロピーの意味
エントロピーとはあるメッセージの送信者が確率変数の値を
受信者に送りたい時、その操作で送られる情報の平均量のことである
20
→よくわからないので、具体的に考えます

渋谷とかにいそうな人のエントロピー
おそらく、「やばい、だるい、うざい」で語彙は占められ、
「やばい」が会話の８０％位を占めるので次のように定義する
• 𝑋 = やばい, だるい, うざい
• 𝑝 𝑋 = やばい = 0.8, 𝑝 𝑋 = だるい = 0.1, 𝑝 𝑋 = うざい = 0.1
この人のエントロピーℍ 𝑋 は
ℍ 𝑋 = 0.9219
21

いろんなアニメに詳しい人のエントロピー
200タイトルぐらいのアニメに詳しく、どのアニメも均等に好き
であると仮定する
𝑝 𝑋 = ガルパン = 0.005, 𝑝 𝑋 = 𝑆𝐻𝑂𝑊𝐵𝑌𝑅𝑂𝐶𝐾 = 0.005, …
この人のエントロピーℍ 𝑋 は
ℍ 𝑋 = 7.6439
渋谷系の約8倍のエントロピー
22

エントロピーの値の意味
エントロピーは起こりうる事象に
不確実性が伴えば伴うほど高い値を取る
23

対数関数を再確認する
起こりにくい(=確率が低い)事象の
情報量ほど値が大きい
− log2 𝑝 𝑥 はそれを表現する
ある事象𝐸に対して
𝐼 𝐸 = − log2 𝑝 𝑥 = 𝐸
を(選択)情報量と定義する
24

エントロピーの式を再確認する
エントロピーの式は別の見方をすると
確率分布𝑝の選択情報量の期待値(平均値)
と言える
25
ℍ 𝑋 ≜ −
𝑖=0
𝑛
𝑝 𝑥𝑖 log2 𝑝 𝑥𝑖 = 𝐸 𝑝 −log2 𝑝 𝑥𝑖

エントロピーの値を見る
次のモデルのエントロピーを計算してみる
• 𝑥 ∈ 1,2,3,4,5
• 𝑝 𝑥 = 0.25, 0.25, 0.2, 0.15, 0.15
ℍ 𝑋 = 0.25 × log 0.25 + ⋯ + 0.15 × log 0.15
= 2.2855
26

• 𝑥 ∈ 1, 2, 3, 4, 5
• 𝑝 𝑥 = 0.2, 0.2, 0.2, 0.2, 0.2
ℍ 𝑋 = 0.25 × log 0.25 × 5
= 2.3219
最大エントロピー
27
次はこれらのモデルを使って計算してみる
• 𝑥 ∈ 1, 2, 3, 4, 5
• 𝑝 𝑥 = 1, 0, 0, 0, 0
ℍ 𝑋 = 0 + 0 × 4
= 0
最小エントロピー

ベルヌーイ分布におけるエントロピー
𝑥 = 1を取る確率がちょうど
1/2のときにエントロピーが
最大化されることが分かる
28
縦軸がエントロピーで、横軸が𝑝 𝑥 = 1
の値である

エントロピーの性質
𝑥 = 1を取る確率がちょうど1/2のときにエントロピーが最大化
29
一般にすべての事象が等確率になる時
エントロピーが最大になる

ℍ 𝑋 = 0 の意味するもの
「エントロピーが0」は「不確実性が全く無い」と解釈できる
• 𝑥 ∈ 1, 2, 3, 4, 5
• 𝑝 𝑥 = 1, 0, 0, 0, 0
• ℍ 𝑋 = 0 (エントロピーが０)
このモデルを何回実行しても得られるのは 𝑥 = 1 のみである
むしろ、確実に 𝑥 = 1である
30

画像というデータのエントロピー
単色の画像とは情報としては１つの色の情報しか持っていないた
めエントロピーは0であるが、左のような画像は様々な情報を保
有している
31
• 四騎士アルトリウス
• ウーラシール
• 鎧を着ている
• 深淵をまとっている
…

ファイル形式PNGとはBMPのような
形式とは異なり、圧縮されている
PNGは損失のない圧縮方式であるため、
複雑な画像ではそれほど圧縮できない
つまり、
32
477KB
19KB
情報の多さは圧縮の出来なさに繋がる

エントロピーの持つ意味のまとめ
1. 情報の量 (Amount of Information)
2. 不確実性 (Uncertainty)
3. 圧縮の出来なさ (Incompressibility)
33

KL情報量 (Kullback-Leibler divergence)
✔ ２つの確率分布𝑝と𝑞がどれくらい似てないかを測る術
つまり、２つが全く同じ分布をしていれば０をとる
✔ 作成したモデルの良さを測るための客観的指標
良いか悪いかをスカラー量で表現できるなら、それは計算機を用いて
求めたりすることにも向いている
34

KL情報量は次の式で表現される
𝐷KL 𝑝||𝑞 =
𝑘=0
𝑁
𝑝(𝑘) log
𝑝 𝑘
𝑞 𝑘
また、次の式を満たす
𝐷KL 𝑝||𝑞 ≥ 0
35

KL情報量とエントロピーの関係
KL情報量の定義式を式変形する
𝐷KL 𝑝||𝑞 =
𝑘=0
𝑁
𝑝(𝑘) log
𝑝 𝑘
𝑞 𝑘
=
𝑘=0
𝑁
𝑝(𝑘) log 𝑝 𝑘 −
𝑘=0
𝑁
𝑝 𝑘 log 𝑞 𝑘
= −ℍ 𝑝 + ℍ 𝑝, 𝑞
36
𝑝(𝑥)のエントロピー
𝑝 𝑥 と𝑞(𝑥)の交差エントロピー

交差エントロピー
ℍ 𝑝, 𝑞 ≜ −
𝑖=0
𝑛
𝑝 𝑥𝑖 log2 𝑞 𝑥𝑖
真の分布𝑝に従っているデータに対して、それぞれの情報量を
モデル𝑞の分布を用いて計算したものの期待値
真の分布𝑝に従っているデータに対して、符号化方式が
モデル𝑞にもとづいている際に必要な平均情報量
37

符号化方式 (Coding scheme)
符号化とはあるデータを１つのラベルに落としこむ事
符号化方式とは、その符号化の手段の事
38
猫
畳み込み
ニューラル
ネットワーク
符号化
※もちろん、CNN以外にも符号化の方法はある
入力

✔ モデル𝑞→ 畳み込みニューラルネットワーク
✔ 真の分布𝑝→ 画像に対するラベルを特定できる超存在
CNNで符号化を行う場合、この超存在はℍ 𝑝, 𝑞 という
エントロピー(平均情報量)を持つ必要がある
39

選択情報量の計算方法は採用する確率分布に依存する
𝐷KL 𝑝||𝑞 = エントロピーの理想値 − 自身のエントロピー
KL情報量の値の意味は真の分布𝑝に従うデータに対してモデル𝑞
を用いる際に余分に必要になる情報量の期待値
40
𝐷KL 𝑝||𝑞 = ℍ 𝑝, 𝑞 − ℍ 𝑝, 𝑝
𝑞(𝑥)が要求するエントロピーの理想値
𝑝(𝑥)自身のエントロピー

余分に必要になる情報量の平均
抽象的すぎて、なぜこれでモデルの良さを測れるのか分からない
真の分布𝑝に従う𝑥はできるだけモデル𝑞にも従うように𝑞をモデリングする
この時𝐷KL 𝑝||𝑞 示す値は、真の分布𝑝とモデル𝑞の間の
単なるギャップであるだけではない！
真の分布𝑝がモデル𝑞にピッタリ従う為に
足りていない情報量である！
41
これを理解するのに8時間くらいかかった

𝐷KL 𝑝||𝑞 > 0 のとき、真の分布𝑝は𝐷KL 𝑝||𝑞 だけ情報量が足り
ないが、真の分布なので修正したりすることは無論できない
したがって、
真の分布𝑝にとって余分に必要な情報量𝐷KL 𝑝||𝑞 が
できるだけ小さくなるように𝑞を設計することが
結果的に良いモデル𝑞を設計するための手段となる
42

モデルの良さを見るための交差エントロピー
• 𝑝 𝑘 = 𝑘 = 1, 𝑝 𝑘 ≠ 𝑘 = 0
• 𝑞 𝑘 = 𝑘 = 0.3
𝑝 𝑘 log 𝑞 𝑘 = −1.2040
ℍ 𝑝, 𝑞 = 1.2040
43
• 𝑝 𝑘 = 𝑘 = 1, 𝑝 𝑘 ≠ 𝑘 = 0
• 𝑞 𝑘 = 𝑘 = 0.9999
ℍ 𝑝, 𝑞 = 0.0001

相互情報量 (Mutual information)
確率変数𝑋, 𝑌がお互いにどれくらい関係しているかを測る
以下のように定義される
𝕀 𝑋; 𝑌 ≜ 𝕂𝕃(𝑝 𝑋, 𝑌 ||𝑝 𝑋 𝑝 𝑌 ) =
𝑥 𝑦
𝑝 𝑥, 𝑦 log
𝑝 𝑥, 𝑦
𝑝 𝑥 𝑝 𝑦
44

相互情報量の具体例
• 試験の合否: 𝑋 = 試験に合格する, 試験に落第する
• 試験日の状況: 𝑌 = すごく緊張している, そこそこ緊張, リラックス
𝕀 𝑋; 𝑌 の値は、私の場合緊張すると焦ってしまうので
この2つの相互情報量は高そう
45

相互情報量の性質
✔ 𝕀 𝑋; 𝑌 ≥ 0
✔ 2つの確率変数が依存していない場合 𝕀 𝑋; 𝑌 = 0
✔ エントロピーとして以下のように表現できる
• 𝕀 𝑋; 𝑌 = ℍ 𝑋 − ℍ 𝑋|𝑌 = ℍ 𝑌 − ℍ 𝑌|𝑋
• ℍ 𝑋|𝑌 は条件付きエントロピー
46

条件付きエントロピー
ある事象𝐵が生じているという条件下における情報量
条件付き情報量: −log 𝑝 𝐴|𝐵
そして、確率変数𝑋に対して𝑋 = 𝑥の条件付き情報量の𝑥に関する
平均値（期待値）を条件付きエントロピーという
ℍ 𝑋|𝐵 ≜ −
𝑖=0
𝑛
𝑝 𝑋 = 𝑥𝑖|𝐵 log2 𝑝 𝑋 = 𝑥𝑖|𝐵
47

相互情報量についての例題
東京都の年間を通しての天候は晴れが80パーセント，それ以外が20パーセ
ントである．また，東京地方気象台の天気予報的中率は，晴れ，雨などに
関わらず90パーセントである．
• 気象台の予報が実際の天候について伝える平均相互情報量はどれだけか．
48

東京都の年間を通しての天候は晴れが80パーセント，それ以外が20パーセントである．
また，東京地方気象台の天気予報的中率は，晴れ，雨などに関わらず90パーセントである．
• 実際の天候の確率変数: 𝑥 = 晴れ, それ以外
• 予報の正当性の確率変数: 𝑓 = 的中, 外れ
• 𝑝 𝑥 = 晴れ = 0.8, 𝑝 𝑥 = それ以外 = 0.2
• 𝑝 𝑓 = 的中 = 0.9, 𝑝 𝑓 = 外れ = 0.1
• 予報の天候の確率変数: 𝑦 = 晴れ, それ以外
• 𝑝 𝑦 = 晴れ = 0.9 × 0.8 + 0.1 × 0.2 = 0.74
𝑝 𝑦 ≠ 晴れ = 0.9 × 0.2 + 0.1 × 0.8 = 0.26
49
予報が晴れで実際の天候が晴れである
条件付き確率は
𝑝 𝑥 = 晴れ|𝑦 = 晴れ
=
𝑝 𝑥 = 晴れ, 𝑦 = 晴れ
𝑝 𝑦 = 晴れ
=
𝑝 𝑥 = 晴れ 𝑝 𝑓 = 的中
𝑝 𝑦 = 晴れ
=
0.8 × 0.9
0.74
≃ 0.973

同様に、予報が晴れで実際がそれ以外である
条件付き確率は
𝑝 𝑥 = それ以外|𝑦 = 晴れ
=
𝑝 𝑥 = それ以外, 𝑦 = 晴れ
𝑝 𝑦 = 晴れ
=
𝑝 𝑥 = それ以外 𝑝 𝑓 = 外れ
𝑝 𝑦 = 晴れ
50
=
0.2 × 0.1
0.74
≃ 0.027
同様に求めて
𝑝 𝑥 = それ以外|𝑦 = それ以外 ≃ 0.692
𝑝 𝑥 = 晴れ|𝑦 = それ以外 ≃ 0.308

相互情報量𝕀 𝑥; 𝑦 は以上を用いて
𝕀 𝑥; 𝑦 =
𝑥 𝑦
𝑝 𝑥, 𝑦 log
𝑝 𝑥, 𝑦
𝑝 𝑥 𝑝 𝑦
=
𝑥 𝑦
𝑝 𝑥, 𝑦 log
𝑝 𝑥|𝑦
𝑝 𝑥
=
𝑥 𝑦
𝑝 𝑥, 𝑦 log 𝑝 𝑥|𝑦 − log 𝑝 𝑥
51
= 0.8 × 0.9 × 0.282 + 0.8 × 0.1 × −1.378
+0.2 × 0.1 × −2.889 + 0.2 × 0.9 × 1.791
≈ 0.357
以上より、相互情報量は0.357

まとめ
✔ モンテカルロ法
分布の平均も円周率もゲームの最善手も推定できる
✔ 情報量
• エントロピー
不確定性をどれほど有するか
• Kullback-Leibler情報量
2つのモデル間の相違を図る手段の1つ
• 相互情報量
2つの確率変数間の依存度を測れる
52

個人的な意見
KL情報量は、Web文献で「2つにどれくらいの差があるか確認で
きまーす」みたいな感じのばっかり
ドコまで裏付けしていけるかは、果てしないが、自分はもう少し
奥まで足を運びたい
統計学の勉強もそろそろやっておきたい
53

モンテカルロ法と情報量

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to モンテカルロ法と情報量

Similar to モンテカルロ法と情報量 (20)

モンテカルロ法と情報量