放送ニュースの基本語彙の抽出
- 10. KL情報量
G(w,t, g)
t,g
å ·log(
G(w,t, g)
F(t, g)
)
G(w,t, g) =
c(w,t, g)+1
c(w,t, g)
t,g
å
, F(t, g) =
c(w,t, g)
w
å
c(w,t, g)
w,t,g
å
c(w,t, g) :
10
ジャンルgと時期tのニュース中の単語wの
単純頻度
KL情報量は全単語のジャンルgと時期tごとの
相対頻度F(t,g)とある単語wのジャンルgと時期t
ごとの相対頻度G(w,t,g)との差を表したもの
・・・(1)