Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1章
読書会#4 資料 + 補足
twitter: @wrist	

facebook: hiromasa.ohashi
自己紹介
•
•
•
•

大橋宏正(@wrist)	

某メーカで働く音響信号処理屋(入社2年目)	

学生時代は音声言語処理を専攻	

最近Haskellの読書会に参加し始めました	


•

http://iseebi.github.io...
唐突にJuliusの紹介
• 音声認識エンジンJulius v4.3.1	

• DNN(Deep Neural Network)に対応	

• dictation kitにはDNN音響モデルが付属
第1章 目次(1)
1.

序論	

1.1. 例:多項式フィッティング	

1.2. 確率論	

1.2.1.確率密度	

1.2.2.期待値と分散	

1.2.3.ベイズ確率	

1.2.4.ガウス分布	

1.2.5.曲線フィッテイング再...
第1章 目次(2)
1.

序論	

1.3. モデル選択	

1.4. 次元の呪い	

1.5. 決定理論	

1.5.1.誤識別率の最小化	

1.5.2.期待損失の最小化	

1.5.3.棄却オプション	

1.5.4.推論と決定	

1...
第一章 目次(3)
1. 序論	

1.6.情報理論	

1.6.1.相対エントロピーと相互情報量
前回
•

モデル選択の話	


•
•

AICとかBICとか	


次元の呪い	


•
•
•

高次次元に伴う困難のこと	

D次元の球体では体積は表皮に集中	

ガフの扉が開く…!(開きません)
1.5 決定理論(decision theory)

•
•

不確かさを含む状況における最適な意思決定	

入力ベクトルx, 目標変数t	


•
•

xの新しい値に対しtを予測することが目的	


実際の応用(決定理論で扱う)	


•
...
医療診断問題の例
• X線画像から癌の判定	

• 入力ベクトルxが画像、出力変数が癌で
あるC1 (t=0) かそうでないC2 (t=1)	


• 同時分布p(x,C)(=p(x,t))の推定により決
定
決定(decision)に対する確率の役割

•
•
•

p(C1) 人間が癌である事前確率	

p(C1|x) 画像データを得た時に癌である事後確率	

誤ったクラスに判別する可能性を最小にするため
には事後確率が最大となるクラスを選べば良...
1.5.1 誤識別率の最小化
←決定境界

決定領域R1

•

決定領域R2

誤りを最小化するためには積分値を最小と
するようにクラスを割り振る
一般のKクラスの場合

•

p(x, Ck)=p(Ck|x)p(x)	


•
•

p(x)はクラスに依らない共通因子	

入力xに対するクラスはp(Ck|x)を最大化
するものを選べば良い
1.5.2 期待損失の最小化
• 健康な人を癌と判断	

• 不安を る	

• 要再検査	

• 癌患者を健康であると判断	

• いずれ死ぬ	

• こちらの誤りを減らすべき
損失関数(Loss Function)
• 損失関数、コスト関数(Cost Function)	

• 最小化することで目標を達成	

• 代わりに効用関数(ユーティリティ関数)を

考えることも	


• この場合は最大化	

• 本書では損...
損失行列(loss matrix)
• xの新たな値に対する真のクラスがC で
k

あるときにCjに当てはめた時の損失を
Lkjとした時、それを成分とする行列	


• 癌の損失関数	

• 癌を正常と間違えるのはまずい
損失の最小化
• 損失関数は未知である真のクラスに依存	

• xに対して真のクラスの不確実性はp(x,C )で表現	

• 損失関数を最小化するのではなく損失の平均を最小化
k
平均損失の変形

• 決定領域R を適切に選ぶことが目標	

• jに関するsumは全決定領域に対する値を足すという意味
j

なので、kに関する総和のみを考えれば良い	


• 乗法定理p(x,C )=p(C |x)p(x)でp(x)は共通因...
1.5.3 棄却オプション
• xとC の事後確率(=同時確率)が小さく拮抗して
k

いる時はクラスを決定するのが難しい	


• 難しい場合は決定を避けるのが適当な場合も	

• 医療画像の例	

• はっきりしたX線画像は自動分類	

•...
しきい値の導入
• 棄却オプション(reject option)	

• しきい値θ(threshold)を導入	

• θ以下の入力xは棄却	

• 1にすると全て棄却	

• クラスがK個の場合1/Kにすると

棄却されない	


• これ...
1.5.4 推論と決定
• これまでのクラス分類問題は2段階	

• 事後確率を求める推論段階(inference stage)	

• クラスを割り当てる決定段階(decision stage)	

• 推論、決定を入力xから同時に行う

識...
アプローチ(a)

• クラスの条件付き確率p(x|C )とp(C )を

k

k

別々に求めることでp(Ck|x)を求める	


• 同時確率p(x,C )を求めてから規格化することと等価	

• 入出力を同時にモデル化→生成モデル(ge...
アプローチ(b)
• 直接事後確率p(C |x)をモデル化	

• 識別モデル(判別モデル, discriminative
k

model)という
アプローチ(c)
• 識別関数という入力xから直接クラスラ
ベルに写像するf(x)を求める	


• 識別関数(discriminative function)	

• 確率は出てこない
アプローチ(a)の特徴
• xは高次元なのでp(x,C )を求めるのに多くの訓練集合が必要	

• 事前確率p(C )はクラスに属するサンプルの比率で推定	

• 同時確率を周辺化してp(x)を求めることで

k

k

モデルの下で低い確率を...
アプローチ(b)の特徴
• 必要なものが事後確率ならばアプローチ(b)	

• 実際にクラス条件付き分布は事後確率に

あまり影響を及ぼさない	


• 機械学習の分野では生成か識別かが議論される

事前分布

事後分布
アプローチ(c)の特徴
• f(x)を求めるだけの更に単純なアプローチ	

• 緑の縦線を求めることに相当	

• 事後確率に接近不可能	

• 近づきたいでも近付けない
事後確率の良いところ(P.44)

• リスク最小化	

• 棄却オプション(θの導入)	

• クラス事前確率の補正	

• モデルの結合
リスク最小化
• 損失行列が時間変化するような場合、
事後確率が分かっていれば上式を変更
するだけで済む	


• 識別関数だと訓練し直す必要有
クラス事前確率の補正
• X線画像には癌画像は少ないので学習に使うと困難に当たる	

• 正常分類器における自明な解は避けにくい	

• 癌を汎化できない	

• 事後確率は事前確率に比例するため事前確率で補正可能	

• (訓練集合の事後確率...
モデルの結合
• X線画像x に加えて血液データx も使いたい	

• 条件付き独立とみなして別々にモデルを立てる	

• ナイーブベイズの例	

• このモデルは同時分布が必ずしも分離できる訳ではない
I

xIとxBは条件付独立
xIとxB...
1.5.5 回帰のための損失関数

• 曲線フィッティングのような

回帰問題においても損失関数を導入	


• 回帰問題の場合によく使われる損失
関数は最小二乗誤差
損失の最小化
• 平均損失を最小化することが目標	

• 平均損失をy(x)に対する汎関数として変分法を適用し、

y(x)について解く	


• 条件付き期待値である回帰関数(regression function)を得る
図1-28
変分法をどのように適用したのか?

• 二重積分の中身(tに関する積分)を(D.8)におけるGとみなす	

• この場合Gはy’(x)の関数でないため(D.8)の左辺2項は0	

• 結局dG/dy =d(tに関する積分)/dy= 0の解が

...
異なる導出法
損失関数に代入してtで積分を取るとクロス項は消える

• E[L]の第一項にのみy(x)が入っており

これが条件付き期待値に一致する時に最小	


• 第二項はノイズでありこれ以上減らせない最小値
回帰問題におけるアプローチ
• (a)同時分布p(x,t)を求め、条件付き密度p(t|x)を求
め、最後に(1.89)の条件付き平均を求める	


• (b)まず条件付き密度を推定する問題を解いてから
(1.89)を求める	


• (c)回帰...
様々な損失関数
• 二乗誤差は最適とは限らない	

• 一般化したミンコフスキー損失

(Minkowski Loss)
1.6 情報理論
• 情報量h(x)	

• 情報を得た時の驚きの度合いの尺度	

• p(x)に依存(pが小さいと驚き大)	

• 異なる事象を同時に観測した時の情報は

和の形 h(x,y) = h(x) + h(y)	


• この時独立...
平均情報量エントロピー

• p(x)=0の時はlim

(p→0)p×log2(p)

= 0なので0
エントロピーの例
• 入力変数xに対し8個の状態を取る	

• 等確率の時のエントロピー	

• H[x] = - 8 × (1/8) log (1/8) = 3 [bit]	

• 状態{a,b,c,d,e,f,g,h}に対する確率が
2

...
通信における符号長
• 変数がどの状態にあるかを伝えることを考える	

• 起こりやすい事象には短い符号長を割り当てると良い	

• {a,b,c,d,e,f,g,h}に対し
{0,10,110,1110,111100,111101,11111...
自然対数による定義
• これ以降は他との整合性のために

エントロピーの定義に自然対数を利用	


• 単位はnat	

• ln2だけ底が2の時と値が違う
統計力学的な見方
• N個の同じ物質が沢山の箱に分けられている状況	

• i番目の箱にn 個の物体が存在	

• 物体を箱に入れる場合の数(多重度; multiplicity)	

i

!
!

N個の物体を並べる場合の数
i番目の箱におい...
近似
• スターリングの近似式を使ってエントロピーを変形し、N→∞
の極限を取ると情報理論におけるエントロピーとみなせる	


• 箱の中の特定の物体の状態はミクロ状態、

ni/Nの比はマクロ状態、多重度Wはマクロ状態の重み
エントロピーの性質
• 箱を離散確率変数Xの状態x と解釈	

i

• p(X=x )=p とするとエントロピーは	

i

i

• 鋭いピークを持つ分布ではHは小さく広い分布の場合は大きい	

• 0≦p ≦1よりHは非負	

i

• ...
最大のエントロピーを持つ確率分布

• Hの最大化によって求まる	

• 確率の総和が1になる制約付き

→ラグランジュの未定乗数法	

!

• p(x )が1/M(等確率)になる時に最大	

• この時H=lnM	

• イェンセンの不等式...
停留点が実際に最大であることの確認

• エントロピーの2階微分
連続変数の分布への拡張
• xを等間隔の区間Δに分ける	

• p(x)が連続であると仮定すれば平均値の
定理より	


• i番目の区間に入る任意の値xに値x を割
i

り当てることによって量子化すると

xiを観測する確率はp(xi)Δ
続き

• Σp(x )Δ=1が成り立つので離散分布のエ
i

ントロピーは上式	


• 第二項を無視してΔ→0の極限を取ると
右辺が導かれる(微分エントロピー)
微分エントロピーと制約
制約付き最大化

• 結果はガウス分布となる
ガウス分布の微分エントロピー
条件付きエントロピー

• 同時分布のエントロピーは

条件付きエントロピーと

条件の分布のエントロピーの和となる
KLダイバージェンス

• KL情報量などとも言われる
上に凸である条件
イェンセンの不等式
KL情報量の最小値
KL情報量のサンプル平均による近似
相互情報量
PRML読書会#4資料+補足
PRML読書会#4資料+補足
PRML読書会#4資料+補足
PRML読書会#4資料+補足
PRML読書会#4資料+補足
Upcoming SlideShare
Loading in …5
×

PRML読書会#4資料+補足

4,085 views

Published on

Published in: Technology
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/2Q98JRS ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❤❤❤ http://bit.ly/2Q98JRS ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

PRML読書会#4資料+補足

  1. 1. 1章 読書会#4 資料 + 補足 twitter: @wrist facebook: hiromasa.ohashi
  2. 2. 自己紹介 • • • • 大橋宏正(@wrist) 某メーカで働く音響信号処理屋(入社2年目) 学生時代は音声言語処理を専攻 最近Haskellの読書会に参加し始めました • http://iseebi.github.io/sugoih/
  3. 3. 唐突にJuliusの紹介 • 音声認識エンジンJulius v4.3.1 • DNN(Deep Neural Network)に対応 • dictation kitにはDNN音響モデルが付属
  4. 4. 第1章 目次(1) 1. 序論 1.1. 例:多項式フィッティング 1.2. 確率論 1.2.1.確率密度 1.2.2.期待値と分散 1.2.3.ベイズ確率 1.2.4.ガウス分布 1.2.5.曲線フィッテイング再訪 1.2.6.ベイズ曲線フィッティング
  5. 5. 第1章 目次(2) 1. 序論 1.3. モデル選択 1.4. 次元の呪い 1.5. 決定理論 1.5.1.誤識別率の最小化 1.5.2.期待損失の最小化 1.5.3.棄却オプション 1.5.4.推論と決定 1.5.5.回帰のための損失関数
  6. 6. 第一章 目次(3) 1. 序論 1.6.情報理論 1.6.1.相対エントロピーと相互情報量
  7. 7. 前回 • モデル選択の話 • • AICとかBICとか 次元の呪い • • • 高次次元に伴う困難のこと D次元の球体では体積は表皮に集中 ガフの扉が開く…!(開きません)
  8. 8. 1.5 決定理論(decision theory) • • 不確かさを含む状況における最適な意思決定 入力ベクトルx, 目標変数t • • xの新しい値に対しtを予測することが目的 実際の応用(決定理論で扱う) • • tの特定の値を予測 tの取る値に応じて特定の行動
  9. 9. 医療診断問題の例 • X線画像から癌の判定 • 入力ベクトルxが画像、出力変数が癌で あるC1 (t=0) かそうでないC2 (t=1) • 同時分布p(x,C)(=p(x,t))の推定により決 定
  10. 10. 決定(decision)に対する確率の役割 • • • p(C1) 人間が癌である事前確率 p(C1|x) 画像データを得た時に癌である事後確率 誤ったクラスに判別する可能性を最小にするため には事後確率が最大となるクラスを選べば良い
  11. 11. 1.5.1 誤識別率の最小化 ←決定境界 決定領域R1 • 決定領域R2 誤りを最小化するためには積分値を最小と するようにクラスを割り振る
  12. 12. 一般のKクラスの場合 • p(x, Ck)=p(Ck|x)p(x) • • p(x)はクラスに依らない共通因子 入力xに対するクラスはp(Ck|x)を最大化 するものを選べば良い
  13. 13. 1.5.2 期待損失の最小化 • 健康な人を癌と判断 • 不安を る • 要再検査 • 癌患者を健康であると判断 • いずれ死ぬ • こちらの誤りを減らすべき
  14. 14. 損失関数(Loss Function) • 損失関数、コスト関数(Cost Function) • 最小化することで目標を達成 • 代わりに効用関数(ユーティリティ関数)を
 考えることも • この場合は最大化 • 本書では損失関数を用いる
  15. 15. 損失行列(loss matrix) • xの新たな値に対する真のクラスがC で k あるときにCjに当てはめた時の損失を Lkjとした時、それを成分とする行列 • 癌の損失関数 • 癌を正常と間違えるのはまずい
  16. 16. 損失の最小化 • 損失関数は未知である真のクラスに依存 • xに対して真のクラスの不確実性はp(x,C )で表現 • 損失関数を最小化するのではなく損失の平均を最小化 k
  17. 17. 平均損失の変形 • 決定領域R を適切に選ぶことが目標 • jに関するsumは全決定領域に対する値を足すという意味 j なので、kに関する総和のみを考えれば良い • 乗法定理p(x,C )=p(C |x)p(x)でp(x)は共通因子なので無視 • 事後クラス確率が分かれば良い k k
  18. 18. 1.5.3 棄却オプション • xとC の事後確率(=同時確率)が小さく拮抗して k いる時はクラスを決定するのが難しい • 難しい場合は決定を避けるのが適当な場合も • 医療画像の例 • はっきりしたX線画像は自動分類 • そうでないものは医者に任せる
  19. 19. しきい値の導入 • 棄却オプション(reject option) • しきい値θ(threshold)を導入 • θ以下の入力xは棄却 • 1にすると全て棄却 • クラスがK個の場合1/Kにすると
 棄却されない • これを考慮した損失行列を与えれば棄却の基準を一般化可能
  20. 20. 1.5.4 推論と決定 • これまでのクラス分類問題は2段階 • 事後確率を求める推論段階(inference stage) • クラスを割り当てる決定段階(decision stage) • 推論、決定を入力xから同時に行う
 識別関数(discriminant function) • 決定問題を解く異なる3つのアプローチ
  21. 21. アプローチ(a) • クラスの条件付き確率p(x|C )とp(C )を
 k k 別々に求めることでp(Ck|x)を求める • 同時確率p(x,C )を求めてから規格化することと等価 • 入出力を同時にモデル化→生成モデル(generative model) • サンプリングにより人口データ点を生成可能 k
  22. 22. アプローチ(b) • 直接事後確率p(C |x)をモデル化 • 識別モデル(判別モデル, discriminative k model)という
  23. 23. アプローチ(c) • 識別関数という入力xから直接クラスラ ベルに写像するf(x)を求める • 識別関数(discriminative function) • 確率は出てこない
  24. 24. アプローチ(a)の特徴 • xは高次元なのでp(x,C )を求めるのに多くの訓練集合が必要 • 事前確率p(C )はクラスに属するサンプルの比率で推定 • 同時確率を周辺化してp(x)を求めることで
 k k モデルの下で低い確率を取るデータ点を発見 • 外れ値検出(outliner detection)、新規性検出(novelty detection) • クラスを決定したいだけなら計算資源の無駄
  25. 25. アプローチ(b)の特徴 • 必要なものが事後確率ならばアプローチ(b) • 実際にクラス条件付き分布は事後確率に
 あまり影響を及ぼさない • 機械学習の分野では生成か識別かが議論される 事前分布 事後分布
  26. 26. アプローチ(c)の特徴 • f(x)を求めるだけの更に単純なアプローチ • 緑の縦線を求めることに相当 • 事後確率に接近不可能 • 近づきたいでも近付けない
  27. 27. 事後確率の良いところ(P.44) • リスク最小化 • 棄却オプション(θの導入) • クラス事前確率の補正 • モデルの結合
  28. 28. リスク最小化 • 損失行列が時間変化するような場合、 事後確率が分かっていれば上式を変更 するだけで済む • 識別関数だと訓練し直す必要有
  29. 29. クラス事前確率の補正 • X線画像には癌画像は少ないので学習に使うと困難に当たる • 正常分類器における自明な解は避けにくい • 癌を汎化できない • 事後確率は事前確率に比例するため事前確率で補正可能 • (訓練集合の事後確率) × 
 {(適用集合のクラス比率)/(訓練集合のクラス比率)} • 識別関数ではこれは無理
  30. 30. モデルの結合 • X線画像x に加えて血液データx も使いたい • 条件付き独立とみなして別々にモデルを立てる • ナイーブベイズの例 • このモデルは同時分布が必ずしも分離できる訳ではない I xIとxBは条件付独立 xIとxBが得られた時の
 事後確率(要規格化) B
  31. 31. 1.5.5 回帰のための損失関数 • 曲線フィッティングのような
 回帰問題においても損失関数を導入 • 回帰問題の場合によく使われる損失 関数は最小二乗誤差
  32. 32. 損失の最小化 • 平均損失を最小化することが目標 • 平均損失をy(x)に対する汎関数として変分法を適用し、
 y(x)について解く • 条件付き期待値である回帰関数(regression function)を得る
  33. 33. 図1-28
  34. 34. 変分法をどのように適用したのか? • 二重積分の中身(tに関する積分)を(D.8)におけるGとみなす • この場合Gはy’(x)の関数でないため(D.8)の左辺2項は0 • 結局dG/dy =d(tに関する積分)/dy= 0の解が
 汎関数E[L]に対する停留点を表す • 間違っているかもしれない
  35. 35. 異なる導出法 損失関数に代入してtで積分を取るとクロス項は消える • E[L]の第一項にのみy(x)が入っており
 これが条件付き期待値に一致する時に最小 • 第二項はノイズでありこれ以上減らせない最小値
  36. 36. 回帰問題におけるアプローチ • (a)同時分布p(x,t)を求め、条件付き密度p(t|x)を求 め、最後に(1.89)の条件付き平均を求める • (b)まず条件付き密度を推定する問題を解いてから (1.89)を求める • (c)回帰関数y(x)を直接データから計算
  37. 37. 様々な損失関数 • 二乗誤差は最適とは限らない • 一般化したミンコフスキー損失
 (Minkowski Loss)
  38. 38. 1.6 情報理論 • 情報量h(x) • 情報を得た時の驚きの度合いの尺度 • p(x)に依存(pが小さいと驚き大) • 異なる事象を同時に観測した時の情報は
 和の形 h(x,y) = h(x) + h(y) • この時独立なのでp(x,y)=p(x)p(y) • 対数しかない!!!111(底は2, 単位はbit)
  39. 39. 平均情報量エントロピー • p(x)=0の時はlim (p→0)p×log2(p) = 0なので0
  40. 40. エントロピーの例 • 入力変数xに対し8個の状態を取る • 等確率の時のエントロピー • H[x] = - 8 × (1/8) log (1/8) = 3 [bit] • 状態{a,b,c,d,e,f,g,h}に対する確率が 2 {1/2,1/4,1/8,1/16,1/64,1/64,1/64,1/64}の時 • H[x] = -(1/2)log (1/2) - (1/4)log (1/4) - (1/8)log (1/8) 
 2 2 -(1/16)log2(1/16) - 4×(1/64)log2(1/64)
 =1/2 + 1/2 + 6/16 + 4/16 + 6/16 = 2 [bit] 2
  41. 41. 通信における符号長 • 変数がどの状態にあるかを伝えることを考える • 起こりやすい事象には短い符号長を割り当てると良い • {a,b,c,d,e,f,g,h}に対し {0,10,110,1110,111100,111101,111110,111111}を
 割り当てると平均符号長は
 (1/2)×1 + (1/4)×2 + (1/8)×3 + (1/16)×4 + 4×(1/64)×6 = 2 [bit] となりエントロピーと一致 • これ以上細かい符号を使うと連続して送れない
 (ノイズ無し符号化定理; noiseless coding theorem)
  42. 42. 自然対数による定義 • これ以降は他との整合性のために
 エントロピーの定義に自然対数を利用 • 単位はnat • ln2だけ底が2の時と値が違う
  43. 43. 統計力学的な見方 • N個の同じ物質が沢山の箱に分けられている状況 • i番目の箱にn 個の物体が存在 • 物体を箱に入れる場合の数(多重度; multiplicity) i ! ! N個の物体を並べる場合の数 i番目の箱においてni個の物体を並べる
 場合の数の箱iに対する総乗 • エントロピーは多重度の対数として定義
  44. 44. 近似 • スターリングの近似式を使ってエントロピーを変形し、N→∞ の極限を取ると情報理論におけるエントロピーとみなせる • 箱の中の特定の物体の状態はミクロ状態、
 ni/Nの比はマクロ状態、多重度Wはマクロ状態の重み
  45. 45. エントロピーの性質 • 箱を離散確率変数Xの状態x と解釈 i • p(X=x )=p とするとエントロピーは i i • 鋭いピークを持つ分布ではHは小さく広い分布の場合は大きい • 0≦p ≦1よりHは非負 i • どこかのiでpi=1となりi≠jでp =0となる分布で最小値を取る j
  46. 46. 最大のエントロピーを持つ確率分布 • Hの最大化によって求まる • 確率の総和が1になる制約付き
 →ラグランジュの未定乗数法 ! • p(x )が1/M(等確率)になる時に最大 • この時H=lnM • イェンセンの不等式からも導ける i
  47. 47. 停留点が実際に最大であることの確認 • エントロピーの2階微分
  48. 48. 連続変数の分布への拡張 • xを等間隔の区間Δに分ける • p(x)が連続であると仮定すれば平均値の 定理より • i番目の区間に入る任意の値xに値x を割 i り当てることによって量子化すると
 xiを観測する確率はp(xi)Δ
  49. 49. 続き • Σp(x )Δ=1が成り立つので離散分布のエ i ントロピーは上式 • 第二項を無視してΔ→0の極限を取ると 右辺が導かれる(微分エントロピー)
  50. 50. 微分エントロピーと制約
  51. 51. 制約付き最大化 • 結果はガウス分布となる
  52. 52. ガウス分布の微分エントロピー
  53. 53. 条件付きエントロピー • 同時分布のエントロピーは
 条件付きエントロピーと
 条件の分布のエントロピーの和となる
  54. 54. KLダイバージェンス • KL情報量などとも言われる
  55. 55. 上に凸である条件
  56. 56. イェンセンの不等式
  57. 57. KL情報量の最小値
  58. 58. KL情報量のサンプル平均による近似
  59. 59. 相互情報量

×