PRML読書会第1回
       1.6

     2010-05-01
 SUHARA YOSHIHIKO
   id:sleepy_yoshi
目次
• 1.6 情報
  – 1.6.1 相対エントロピーと情報




                        1
1.6




      2
情報 の定義
• p(x) の情報       h(x)
  – (1) h(x) は p(x) の単調減少関数
     •   しい出 事の方が「 きの 合い」が大きい
  – (2) h(x,y) = h(x) + h(y)
     • 情報の加法性


上記を満たす関数 ⇒ 対数のみ (演習1.28)

           h( x) = − log 2 p( x)      (1.92)


           ここでいう情報 はあくまで
    情報      (information theory) における約束事
                                               3
に対数を




       4
ンの   を んで た




              5
[Shannon 1948]より




                   6
___
      /       \
     /ノ \     u. \ !?
   / (●) (●)      \
   |  (__人__)     u. |
   \ u.` ⌒´       /
   ノ             \
/´                  ヽ

        ____
      /        \!??
     / u     ノ \
   /      u (●) \
   |          (__人__)|
   \    u     .` ⌒/
   ノ              \
/´                  ヽ


                         7
naoya_tさんに答えを
   教えてもらった



                8
演習1.28
• h(p2) = h(p p) = h(p) + h(p) = 2h(p)

• h(pk+1) = h(pk p) = h(pk) + h(p)
= k h(p) + h(p) = (k + 1) h(p)

• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)
= n/m h(pm/m) = n/m h(p)

ここでp=qx
           h( p ) h( q x )   xh(q) h(q)
                 =     x
                           =      =
           ln( p) ln(q ) x ln(q) ln(q)

  h( p) : h(q) = ln( p) : ln(q)      ∴ h( p) ∝ ln( p)   9
よって
             対数で表現される!
              ____
            / \ /\ キリッ
.         / (ー) (ー)\
       /     ⌒(__人__)⌒ \
       |        |r┬-|    |
         \       `ー’´   /
       ノ                 \
    /´                     ヽ
  |       l                  \
  ヽ       -一””””~~``’ー?、    -一”””’ー-、.
    ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒))




                                         10
ポイント:
   における



          11
エントロピー




         12
エントロピーの定義
• エントロピー: 情報の平均
 – 情報 (1.92)の期待値

      H[ x] = −∑ p ( x) log 2 p( x)       (1.93)
                x


    ただし,lim p →0    p ln p = 0 より

     p ( x) = 0 のとき p ( x) ln p( x) = 0



                                                   13
エントロピーの
•      1)
     – 8個の状態を等           で取る        変数xの場合
                              1     1
                  H[ x] = −8 × log 2 = 3bit
                              8     8
•      2)
     – 8個の状態 {a,b,c,d,e,f,g,h}
     –   は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)
             1     1 1     1 1     1 1      1 4      4
    H[ x] = − log 2 − log 2 − log 2 − log 2 − log 2    = 2bit
             2     2 4     4 8     8 16    16 64    64

             非一様な分布のエントロピーは,
            一様な分布のエントロピーより小さい                             14
符号化におけるエントロピーの解釈
• 変数がどの状態にあるかを受信者に伝えたい
     – (非一様の分布の場合) よく起きる事象に短い符号を,
         ま 起きない事象に い符号を使うことで,符号
       の平均を短くできる

•     2)の場合
    – {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110,
      111100, 11101, 111110, 11111) を割り当てる

           1    1     1      1        1
    平均符号長 = ×1 + × 2 + × 3 + × 4 + 4 × × 6 = 2bit
           2    4     8     16        64
              変数のエントロピーと同じ
     ⇒   イ なし符号化   (noiseless coding theorem)   15
ポイント:
エントロピー 最短符号



              16
エントロピーの別の解釈 (1/2)
• 同じ物体を箱に分けて入れる問題
 –   N個の物体をたくさんの箱に分けて入れる
 –   i番目の箱にはni個の物体が存在
 –   N個の物体を箱に入れる方法: N!通り
 –   i番目の箱に物体を入れた順番: ni!通り ←区別しない


⇒ N個の物体の箱への入れ方の総数 (            ) は,
                   !
             W=            (1.94)
                ∏i ni !
                                    17
エントロピーの別の解釈 (2/2)
• エントロピーを多                     の対数を適当に定数                                   し
  たものと定義
            1            1           1
       H=       ln W =       ln !−        ∑ ln n !
                                           i
                                                   i                (1.95)


スターリングの近似式 ln                !≅      ln        −       と   ∑n
                                                            i   i   =     より

                  ni   ni 
       H = lim ∑   ln  = −∑ pi ln pi                            (1.97)
               i       
            →∞
                               i


箱は 偶      変数Xの状態xiと解釈でき,p(X=xi) = piとすると

            H [ p] = −∑ p( xi ) ln p( xi )                              (1.98)18
                         i
分布とエントロピーの関係
• 鋭いピークを持つ分布 ⇒ エントロピー小
• 多くの値に広がる分布 ⇒ エントロピー大




                         19
エントロピーの最大化




             20
エントロピーの最大化 (1/2)
• ラグランジュ乗数法を使って最大値を求める
 –        の総和は1という制約を入れる

     ~                                             
     H = −∑ p ( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1                   (1.99)
          i                           i            
          ∂                                                 
                  − ∑ p( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1  = 0
       ∂p ( xk )  i
                                               i            
                                                                

                                         − (ln p ( xk ) + 1) + λ = 0

       p(xi) が全て等しいとき (p(xi) = 1/M) 最大化
                 最大値はln M                                                  21
エントロピーの最大化 (2/2)
• エントロピーの2階微分を計算
                           ~
                        ∂H                     1
                                      = − I ij      (1.100)
                  ∂p ( xi )∂p ( x j )          pi

参考 (1階微分): − (ln p ( xi ) + 1) + λ


• 負定値のため,凹関数であることがわかり,停
   点が最大値であることが示された


                                                              22
補足: ラグランジュ乗数法
• 制約付き非線形最適化の常套手段 (詳しくは付録E)

• g(x) = 0 の制約において f(x) を最適化
⇒ 以下で定義されるラグランジュ関数の停 点を求める

     L ( x, λ ) ≡ f ( x ) + λ g ( x )
 すなわち
        ∇f ( x ) + λ ∇g ( x ) = 0

                                        23
演習1.29
• エントロピー最大化をJensenの 等式から   く
• 解)
 – あ・と・で




                           24
エントロピーの連続値への拡張




             25
連続値への拡張
• 基本的にΣが∫に変わるだけ




                  26
連続値への拡張
   (終)



          27
もとい




      28
連続値への拡張 (1/2)
• xを等間隔の区間Δに分ける
• p(x)が連続であると仮定すれば 値の  よ
  り,各区間に対して以下を満たすxiが存在する
         ( i +1) ∆
     ∫
     i∆
                     p( x)dx = p ( xi )∆   (1.101)


     p(x)

                p(xi)




                     iΔ (i+1)Δ                       29
                                      x
連続値への拡張 (2/2)
• Σp(xi)Δ=1 が り               つので
   H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆)
            i

       = −∑ p ( xi )∆ ln p ( xi ) − ∑ p ( xi )∆ ln ∆
            i                       i

       = −∑ p ( xi )∆ ln p ( xi ) − ln ∆               (1.102)
            i


• 第2項のlnΔを無視してΔ→0の極限を考える
  – 第1項はp(x)ln p(x) に収束
                              
   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
   ∆ →0
         i                                 微分エントロピー
                                                             30
連続値への拡張 (2/2)
• Σp(xi)Δ=1 が り               つので
   H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆)       連続変数を厳密に規
            i                               定するために無限
       = −∑ p ( xi )∆ ln p ( xi ) − ∑   p (ビット数が必要であ
                                           xi )∆ ln ∆
                                               ることを反映
            i                       i

       = −∑ p ( xi )∆ ln p ( xi ) − ln ∆                (1.102)
            i


• 第2項のlnΔを無視してΔ→0の極限を考える
  – 第1項はp(x)ln p(x) に収束
                              
   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
   ∆ →0
         i                                 微分エントロピー
                                                              31
微分エントロピーの最大化 (1/2)
          H[x] = − ∫ p (x) ln p (x)dx                               (1.104)

 連続変数の場合のエントロピー最大化を考える.
 以下の3つの制約のもとで最大化
                                     ∞
           規格化                 ∫         p ( x ) dx = 1              (1.105)
                                 −∞
                                 ∞
      分布の平均                   ∫          xp( x)dx = µ                (1.106)
                                 −∞
                                 ∞
   分布の広がり                    ∫       ( x − µ ) 2 p ( x ) dx = σ 2    (1.107)
                              −∞

ラグランジュ関数=
      ∞
                               ∞ p ( x)dx − 1
   − ∫ p ( x) ln p ( x)dx +λ1  ∫             
      −∞                        −∞           
                ∞ xp( x)dx − µ  + λ  ∞ ( x − µ ) 2 p ( x)dx − σ 2 
          + λ2  ∫               3  ∫−∞                                     32
                 −∞                                               
微分して0とおきます




             33
微分エントロピーの最大化 (2/2)
• 以下の結果が得られる (演習1.34)
⇒ 微分エントロピーを最大化する分布はガウス分布
                      1             ( x − µ )2 
       p( x) =                  exp−              (1.109)
                 (2πσ 2 )1/ 2          2σ 
                                           2



非負制約を設けなかったけれど,結果オーライ
ガウス分布の微分エントロピーは以下になる (演習1.35)

             H [ x] =
                          1
                          2
                           {1 + ln(2πσ 2 ) }        (1.110)

σ2が増えて分布が幅広くなるにつれて大きくなる
   > 2πσ 2 のとき,H[x] < 0 となる
 1
 e                                                        34
条件付きエントロピー
• 同時分布 p(x,y) を考える
• xの値が既知とすれば,対応するyの値を特定す
  るために必要な情報は- ln p(y|x)
• したがって,yを特定するために必要な情報の平
  均は,

   H[y | x] = − ∫∫ p(y, x) ln p(y | x)dydx   (1.111)




 これをxに対するyの条件付きエントロピーと呼ぶ
                                                 35
演習1.37
• H[x,y] = H[y|x] + H[x] を証明せよ
⇒ ホワイトボード




                                 36
1.6.1
相対エントロピーと相



              37
相対エントロピー
• 未知の分布 p(x) を近似的に q(x) でモデル化
   – q(x) を用いて
   – xの値を特定するために必要な 加情報 の平均は

                                     (
KL( p || q) = − ∫ p(x) ln q (x)dx − − ∫ p(x) ln p(x)dx   )
                          q ( x) 
           = − ∫ p(x) ln         dx             (1.113)
                          p ( x) 

この値は,カルバック-ライブラーダイバージェンス (KLd)
     または 相対エントロピーと呼ばれる

               注意: KL( p || q) ≠ KL(q || p)                  38
やや唐突ですが
凸関数の話をします



            39
凸関数
f (λa + (1 − λ )b) ≤ λf (a) + (1 − λ ) f (b)   (1.114)




                                                    40
演習1.36
• 関数が真に凸であることと,2階微分が正である
  ことと等価であることを示せ

• 直感的な解
 – 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加




                               41
イ ンセンの 等式
• (1.114)を任意の点集合へ拡張した(1.115)は,
  イェン ンの      と呼ばれる (演習1.38)
           M         M
         f  ∑ λi xi  ≤ ∑ λi f ( xi )                (1.115)
            i =1     i =1
                          ここで λi ≥ 0        ∑λ
                                             i   i   =1

λi を   変数x上の          分布と なすと
               f (E[ x]) ≤ E[ f ( x)]                 (1.116)

連続変数に対しては,
         f   (∫ xp(x)dx) ≤ ∫ f (x) p(x)dx             (1.117)
                                                                42
KLdの解釈
 • イ ンセンの 等式をKLdへ適用
   – ln(x) が凸関数であることを 用

                              q ( x) 
  KL( p || q) = − ∫ p (x) ln         dx ≥ − ln ∫ q(x)dx = 0
                              p ( x)                   (1.118)




   等号は全てのxについてq(x) = p(x) のとき り つので
KLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる

                                                            43
KLdの最小化 ⇒ ?!
• 未知の       分布のモデル化の問題
 – データが未知の分布 p(x) からサンプルされる
 – 可変なパラメータθを持つ分布 q(x|θ) を用いて近似
 – θを決める方法
 ⇒ p(x) と p(x|θ) のKLdをθについて最小化
   • p(x) はわからないので,xnの有限和で近似 ((1.35)式)


                   1
  KL( p || q ) ≈       ∑ {− ln q(x
                       n =1
                                     n   | θ ) + ln p (x n )}


          KLdの最小化 ⇒              の最大化
                                                                44
再掲: 演習1.29
• エントロピー最大化をJensenの 等式から                             く
• 解)
                M
                                1
       H [ x] = ∑ p ( xi ) ln
                i             p ( xi )

 ln(x)は凹関数なので,Jensenの               等式より


                    M             1 
         H [ x] ≤ ln ∑ p ( xi )
                                          = ln M
                     i          p ( xi ) 
                                          

                                                     45
相




    46
相僆情報
• 同時分布 p(x, y) を考える
• たつの     変数が     の場合 p(x,y)=p(x)p(y)
• 変数同士の「近さ」を測るために,同時分布と周
  辺分布の積のKLdを考える

     I[x, y ] ≡ KL( p (x, y ) || p (x) p (y ))

                                p ( x) p ( y ) 
             = − ∫∫ p(x, y ) ln
                                p(x, y ) dxdy 
                                               
       これを変数x,yの間の相                         と呼ぶ
                                                    47
相僆情報 とエントロピーの関係
•     の加法・乗法定 を用いて以下のとおりに
    表すことができる (演習1.41)

     I[x, y ] = H[x] − H[x | y ] = H[y ] − H[y | x]

• ベイズの観点からp(x) をxの事前分布,p(x|y)
  を新たなデータyを観測した後の事後分布と考え
  られる
⇒ 相僆情報 は,新たなyを観測した結果として,
  xに関する  実性が減少した 合いを表す

                                                      48
演習1.41
• I[x,y] = H[x] – H[x|y] を証明
                        p ( x) p ( y ) 
      − ∫∫ p (x, y ) ln
                        p (x, y ) dxdy
                                       
                    p ( x) p ( y ) 
 = − ∫∫ p(x, y ) ln
                    p (x | y ) p (y ) dxdy
                                       
                                      

 = − ∫∫ p(x, y ) ln p(x)dxdy + ∫∫ p (x, y ) ln p (x | y )dxdy

 = − ∫ p (x) ln p(x)dx + ∫∫ p(x, y ) ln p(x | y )dxdy

 = H[x] − H[x | y ]                                             49
xxエントロピー/xx
でおなかいっぱいのアナタに



                50
補足: 各種エントロピーの関係
• ベン で     るとわかり すい


           H[X]
                             H[Y]

  H[X|Y]          I[X,Y]            H[Y|X]


                    H[X,Y]

                                             51
まとめ




      52
まとめ
情報      の基 を   しました
• 情報
 – 情報    における定義
• エントロピー
 – 条件付きエントロピー
 – 相対エントロピー
• カルバック・ライブラーダイバージェンス
• 相僆情報


           おまけあり・・・
                        53
おまけ




      54
相僆情報 の応用
• pointwise mutual information (PMI)
  – a.k.a. self mutual information (SMI)
  – 関連語抽出などに用いられる

                                p( x) p ( y ) 
      PMI(x = x, y = y ) = − ln
                                p ( x, y )   
                                              
• expected mutual information
  – PMIは,  語に っ張られる問題があるので,期
    待値を取ってあげる
                                         p( x) p( y ) 
    EMI(x = x, y = y ) = − p ( x, y ) ln
                                         p ( x, y )  
                                                         55
実験




     56
実験: 相僆情報 による関連語の抽
         出
• データセット
 – 20newsgroups
    • 公開データセット
    • http://people.csail.mit.edu/jrennie/20Newsgroups/
 – ニュースグループの20カテゴリに投稿された記事1000文書ずつ
• 実験
 – PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる

           alt.atheism                sci.crypt
           comp.graphics              sci.electronics
           comp.os.ms-windows.misc    sci.med
           comp.sys.ibm.pc.hardware   sci.space
           comp.sys.mac.hardware      soc.religion.christian
           comp.windows.x             talk.politics.guns
           misc.forsale               talk.politics.mideast
           rec.autos                  talk.politics.misc
           rec.motorcycles            talk.religion.misc
           rec.sport.baseball
                                                               57
           rec.sport.hockey
結果




     58
実験結果
• 別紙参照




                59
おしまい


       60

PRML 1.6 情報理論

  • 1.
    PRML読書会第1回 1.6 2010-05-01 SUHARA YOSHIHIKO id:sleepy_yoshi
  • 2.
    目次 • 1.6 情報 – 1.6.1 相対エントロピーと情報 1
  • 3.
  • 4.
    情報 の定義 • p(x)の情報 h(x) – (1) h(x) は p(x) の単調減少関数 • しい出 事の方が「 きの 合い」が大きい – (2) h(x,y) = h(x) + h(y) • 情報の加法性 上記を満たす関数 ⇒ 対数のみ (演習1.28) h( x) = − log 2 p( x) (1.92) ここでいう情報 はあくまで 情報 (information theory) における約束事 3
  • 5.
  • 6.
    ンの を んで た 5
  • 7.
  • 8.
    ___ / \ /ノ \ u. \ !? / (●) (●) \ | (__人__) u. | \ u.` ⌒´ / ノ \ /´ ヽ ____ / \!?? / u ノ \ / u (●) \ | (__人__)| \ u .` ⌒/ ノ \ /´ ヽ 7
  • 9.
    naoya_tさんに答えを 教えてもらった 8
  • 10.
    演習1.28 • h(p2) =h(p p) = h(p) + h(p) = 2h(p) • h(pk+1) = h(pk p) = h(pk) + h(p) = k h(p) + h(p) = (k + 1) h(p) • h(pn/m) = n h(p1/m) = m・n/m h(p1/m) = n/m h(pm/m) = n/m h(p) ここでp=qx h( p ) h( q x ) xh(q) h(q) = x = = ln( p) ln(q ) x ln(q) ln(q) h( p) : h(q) = ln( p) : ln(q) ∴ h( p) ∝ ln( p) 9
  • 11.
    よって 対数で表現される! ____ / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー’´ / ノ \ /´ ヽ | l \ ヽ -一””””~~``’ー?、 -一”””’ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 10
  • 12.
    ポイント: における 11
  • 13.
  • 14.
    エントロピーの定義 • エントロピー: 情報の平均 – 情報 (1.92)の期待値 H[ x] = −∑ p ( x) log 2 p( x) (1.93) x ただし,lim p →0 p ln p = 0 より p ( x) = 0 のとき p ( x) ln p( x) = 0 13
  • 15.
    エントロピーの • 1) – 8個の状態を等 で取る 変数xの場合 1 1 H[ x] = −8 × log 2 = 3bit 8 8 • 2) – 8個の状態 {a,b,c,d,e,f,g,h} – は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64) 1 1 1 1 1 1 1 1 4 4 H[ x] = − log 2 − log 2 − log 2 − log 2 − log 2 = 2bit 2 2 4 4 8 8 16 16 64 64 非一様な分布のエントロピーは, 一様な分布のエントロピーより小さい 14
  • 16.
    符号化におけるエントロピーの解釈 • 変数がどの状態にあるかを受信者に伝えたい – (非一様の分布の場合) よく起きる事象に短い符号を, ま 起きない事象に い符号を使うことで,符号 の平均を短くできる • 2)の場合 – {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110, 111100, 11101, 111110, 11111) を割り当てる 1 1 1 1 1 平均符号長 = ×1 + × 2 + × 3 + × 4 + 4 × × 6 = 2bit 2 4 8 16 64 変数のエントロピーと同じ ⇒ イ なし符号化 (noiseless coding theorem) 15
  • 17.
  • 18.
    エントロピーの別の解釈 (1/2) • 同じ物体を箱に分けて入れる問題 – N個の物体をたくさんの箱に分けて入れる – i番目の箱にはni個の物体が存在 – N個の物体を箱に入れる方法: N!通り – i番目の箱に物体を入れた順番: ni!通り ←区別しない ⇒ N個の物体の箱への入れ方の総数 ( ) は, ! W= (1.94) ∏i ni ! 17
  • 19.
    エントロピーの別の解釈 (2/2) • エントロピーを多 の対数を適当に定数 し たものと定義 1 1 1 H= ln W = ln !− ∑ ln n ! i i (1.95) スターリングの近似式 ln !≅ ln − と ∑n i i = より  ni   ni  H = lim ∑   ln  = −∑ pi ln pi (1.97) i     →∞ i 箱は 偶 変数Xの状態xiと解釈でき,p(X=xi) = piとすると H [ p] = −∑ p( xi ) ln p( xi ) (1.98)18 i
  • 20.
    分布とエントロピーの関係 • 鋭いピークを持つ分布 ⇒エントロピー小 • 多くの値に広がる分布 ⇒ エントロピー大 19
  • 21.
  • 22.
    エントロピーの最大化 (1/2) • ラグランジュ乗数法を使って最大値を求める – の総和は1という制約を入れる ~   H = −∑ p ( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1 (1.99) i  i  ∂     − ∑ p( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1  = 0 ∂p ( xk )  i   i   − (ln p ( xk ) + 1) + λ = 0 p(xi) が全て等しいとき (p(xi) = 1/M) 最大化 最大値はln M 21
  • 23.
    エントロピーの最大化 (2/2) • エントロピーの2階微分を計算 ~ ∂H 1 = − I ij (1.100) ∂p ( xi )∂p ( x j ) pi 参考 (1階微分): − (ln p ( xi ) + 1) + λ • 負定値のため,凹関数であることがわかり,停 点が最大値であることが示された 22
  • 24.
    補足: ラグランジュ乗数法 • 制約付き非線形最適化の常套手段(詳しくは付録E) • g(x) = 0 の制約において f(x) を最適化 ⇒ 以下で定義されるラグランジュ関数の停 点を求める L ( x, λ ) ≡ f ( x ) + λ g ( x ) すなわち ∇f ( x ) + λ ∇g ( x ) = 0 23
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
    連続値への拡張 (1/2) • xを等間隔の区間Δに分ける •p(x)が連続であると仮定すれば 値の よ り,各区間に対して以下を満たすxiが存在する ( i +1) ∆ ∫ i∆ p( x)dx = p ( xi )∆ (1.101) p(x) p(xi) iΔ (i+1)Δ 29 x
  • 31.
    連続値への拡張 (2/2) • Σp(xi)Δ=1が り つので H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆) i = −∑ p ( xi )∆ ln p ( xi ) − ∑ p ( xi )∆ ln ∆ i i = −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102) i • 第2項のlnΔを無視してΔ→0の極限を考える – 第1項はp(x)ln p(x) に収束   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103) ∆ →0  i  微分エントロピー 30
  • 32.
    連続値への拡張 (2/2) • Σp(xi)Δ=1が り つので H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆) 連続変数を厳密に規 i 定するために無限 = −∑ p ( xi )∆ ln p ( xi ) − ∑ p (ビット数が必要であ xi )∆ ln ∆ ることを反映 i i = −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102) i • 第2項のlnΔを無視してΔ→0の極限を考える – 第1項はp(x)ln p(x) に収束   lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103) ∆ →0  i  微分エントロピー 31
  • 33.
    微分エントロピーの最大化 (1/2) H[x] = − ∫ p (x) ln p (x)dx (1.104) 連続変数の場合のエントロピー最大化を考える. 以下の3つの制約のもとで最大化 ∞ 規格化 ∫ p ( x ) dx = 1 (1.105) −∞ ∞ 分布の平均 ∫ xp( x)dx = µ (1.106) −∞ ∞ 分布の広がり ∫ ( x − µ ) 2 p ( x ) dx = σ 2 (1.107) −∞ ラグランジュ関数= ∞  ∞ p ( x)dx − 1 − ∫ p ( x) ln p ( x)dx +λ1  ∫  −∞  −∞   ∞ xp( x)dx − µ  + λ  ∞ ( x − µ ) 2 p ( x)dx − σ 2  + λ2  ∫  3  ∫−∞  32  −∞   
  • 34.
  • 35.
    微分エントロピーの最大化 (2/2) • 以下の結果が得られる(演習1.34) ⇒ 微分エントロピーを最大化する分布はガウス分布 1  ( x − µ )2  p( x) = exp−  (1.109) (2πσ 2 )1/ 2  2σ  2 非負制約を設けなかったけれど,結果オーライ ガウス分布の微分エントロピーは以下になる (演習1.35) H [ x] = 1 2 {1 + ln(2πσ 2 ) } (1.110) σ2が増えて分布が幅広くなるにつれて大きくなる > 2πσ 2 のとき,H[x] < 0 となる 1 e 34
  • 36.
    条件付きエントロピー • 同時分布 p(x,y)を考える • xの値が既知とすれば,対応するyの値を特定す るために必要な情報は- ln p(y|x) • したがって,yを特定するために必要な情報の平 均は, H[y | x] = − ∫∫ p(y, x) ln p(y | x)dydx (1.111) これをxに対するyの条件付きエントロピーと呼ぶ 35
  • 37.
    演習1.37 • H[x,y] =H[y|x] + H[x] を証明せよ ⇒ ホワイトボード 36
  • 38.
  • 39.
    相対エントロピー • 未知の分布 p(x)を近似的に q(x) でモデル化 – q(x) を用いて – xの値を特定するために必要な 加情報 の平均は ( KL( p || q) = − ∫ p(x) ln q (x)dx − − ∫ p(x) ln p(x)dx )  q ( x)  = − ∫ p(x) ln  dx (1.113)  p ( x)  この値は,カルバック-ライブラーダイバージェンス (KLd) または 相対エントロピーと呼ばれる 注意: KL( p || q) ≠ KL(q || p) 38
  • 40.
  • 41.
    凸関数 f (λa +(1 − λ )b) ≤ λf (a) + (1 − λ ) f (b) (1.114) 40
  • 42.
    演習1.36 • 関数が真に凸であることと,2階微分が正である ことと等価であることを示せ • 直感的な解 – 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加 41
  • 43.
    イ ンセンの 等式 •(1.114)を任意の点集合へ拡張した(1.115)は, イェン ンの と呼ばれる (演習1.38) M  M f  ∑ λi xi  ≤ ∑ λi f ( xi ) (1.115)  i =1  i =1 ここで λi ≥ 0 ∑λ i i =1 λi を 変数x上の 分布と なすと f (E[ x]) ≤ E[ f ( x)] (1.116) 連続変数に対しては, f (∫ xp(x)dx) ≤ ∫ f (x) p(x)dx (1.117) 42
  • 44.
    KLdの解釈 • インセンの 等式をKLdへ適用 – ln(x) が凸関数であることを 用  q ( x)  KL( p || q) = − ∫ p (x) ln  dx ≥ − ln ∫ q(x)dx = 0  p ( x)  (1.118) 等号は全てのxについてq(x) = p(x) のとき り つので KLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる 43
  • 45.
    KLdの最小化 ⇒ ?! •未知の 分布のモデル化の問題 – データが未知の分布 p(x) からサンプルされる – 可変なパラメータθを持つ分布 q(x|θ) を用いて近似 – θを決める方法 ⇒ p(x) と p(x|θ) のKLdをθについて最小化 • p(x) はわからないので,xnの有限和で近似 ((1.35)式) 1 KL( p || q ) ≈ ∑ {− ln q(x n =1 n | θ ) + ln p (x n )} KLdの最小化 ⇒ の最大化 44
  • 46.
    再掲: 演習1.29 • エントロピー最大化をJensenの等式から く • 解) M 1 H [ x] = ∑ p ( xi ) ln i p ( xi ) ln(x)は凹関数なので,Jensenの 等式より M 1  H [ x] ≤ ln ∑ p ( xi )   = ln M  i p ( xi )   45
  • 47.
    46
  • 48.
    相僆情報 • 同時分布 p(x,y) を考える • たつの 変数が の場合 p(x,y)=p(x)p(y) • 変数同士の「近さ」を測るために,同時分布と周 辺分布の積のKLdを考える I[x, y ] ≡ KL( p (x, y ) || p (x) p (y ))  p ( x) p ( y )  = − ∫∫ p(x, y ) ln  p(x, y ) dxdy    これを変数x,yの間の相 と呼ぶ 47
  • 49.
    相僆情報 とエントロピーの関係 • の加法・乗法定 を用いて以下のとおりに 表すことができる (演習1.41) I[x, y ] = H[x] − H[x | y ] = H[y ] − H[y | x] • ベイズの観点からp(x) をxの事前分布,p(x|y) を新たなデータyを観測した後の事後分布と考え られる ⇒ 相僆情報 は,新たなyを観測した結果として, xに関する 実性が減少した 合いを表す 48
  • 50.
    演習1.41 • I[x,y] =H[x] – H[x|y] を証明  p ( x) p ( y )  − ∫∫ p (x, y ) ln  p (x, y ) dxdy    p ( x) p ( y )  = − ∫∫ p(x, y ) ln  p (x | y ) p (y ) dxdy    = − ∫∫ p(x, y ) ln p(x)dxdy + ∫∫ p (x, y ) ln p (x | y )dxdy = − ∫ p (x) ln p(x)dx + ∫∫ p(x, y ) ln p(x | y )dxdy = H[x] − H[x | y ] 49
  • 51.
  • 52.
    補足: 各種エントロピーの関係 • ベンで るとわかり すい H[X] H[Y] H[X|Y] I[X,Y] H[Y|X] H[X,Y] 51
  • 53.
  • 54.
    まとめ 情報 の基 を しました • 情報 – 情報 における定義 • エントロピー – 条件付きエントロピー – 相対エントロピー • カルバック・ライブラーダイバージェンス • 相僆情報 おまけあり・・・ 53
  • 55.
  • 56.
    相僆情報 の応用 • pointwisemutual information (PMI) – a.k.a. self mutual information (SMI) – 関連語抽出などに用いられる  p( x) p ( y )  PMI(x = x, y = y ) = − ln  p ( x, y )     • expected mutual information – PMIは, 語に っ張られる問題があるので,期 待値を取ってあげる  p( x) p( y )  EMI(x = x, y = y ) = − p ( x, y ) ln  p ( x, y )     55
  • 57.
  • 58.
    実験: 相僆情報 による関連語の抽 出 • データセット – 20newsgroups • 公開データセット • http://people.csail.mit.edu/jrennie/20Newsgroups/ – ニュースグループの20カテゴリに投稿された記事1000文書ずつ • 実験 – PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる alt.atheism sci.crypt comp.graphics sci.electronics comp.os.ms-windows.misc sci.med comp.sys.ibm.pc.hardware sci.space comp.sys.mac.hardware soc.religion.christian comp.windows.x talk.politics.guns misc.forsale talk.politics.mideast rec.autos talk.politics.misc rec.motorcycles talk.religion.misc rec.sport.baseball 57 rec.sport.hockey
  • 59.
  • 60.
  • 61.