Mining	  Text	  Data	  	  Charu	  C.	  Aggarwal	  and	  ChengXiang	  Zhai	                      	  Chapt...
A	  set-­‐valued	  featureとは	•  W.	  Cohen.	  Learning	  with	  set-­‐valued	  features.	     AAAI	  Conference,	  1996.	 ...
補足:ジニ係数	  Class	  1	        Class	  2	   Class	  3	                                                    Class	  4	  w      ...
補足:クラス分布を考慮するジニ係数	       Class	  1	   Class	  2	   Class	  3	                                                       Class	...
補足:クラス分布を考慮するジニ係数	         (つづき)	•  分布によって正規化されたジニ係数G(w)	  •  分布を考慮する前と比べて,語wにおけるジニ係数は   小さくなった	  •  クラス1は語wが出現する文書を多く含むが,...
補足:情報利得(エントロピー)	                    文書のクラス分布のばら                    つきが小さいほど、値が                    大きい	                    ...
補足:相互情報量	Class	  1	    Class	  2	   Class	  3	                                              Class	  4	w                   ...
補足:カイ二乗値	             クラスiである	 i以外の全てのクラス	 合計	     語wを含む	  (1)3/2.05	   (2)2/2.95	  5	語wを含まない	 (3)6/6.95	      (4)11/10.1	...
補足:カイ二乗値(つづき)	•  それぞれの観測値と期待値を上式に代入し,   (1)〜(4)の総和をとると,式(6.6)が導出される	  •  期待値と観測値との間に差が生じると,ある   クラスに偏って出現するとみなされ,良い素   性とな...
Linear	  Discriminant	  Analysis	        〜フィッシャーの線形判別〜	•  D次元の素性空間を1次元に縮減する!	  •  D次元の文書ベクトルを1次元のスカラー値   に射影	  •  1次元空間で最も...
Linear	  Discriminant	  Analysis	  〜フィッシャーの線形判別〜(つづき)	•  最もデータが分離するとは→目的関数を用意	                   射影後のクラスD1	   射影後のクラスD2	  ...
ナイーブベイズ分類器	•  クラスが未知の文書を最も確率値P(CT=i|   T=Q)の高いクラスに割り当てる分類器	  	                                                            ...
補足:多変数ベルヌーイモデルによる	       分類のイメージ	•  語wが文書で出現するか否か(0/1)をモデル化	   –  表裏があるコインを思い浮かべるとわかりやすい	     用語(索引語)w∈V	 t1	 t2	 t3	 t4	 ...
補足:多変数ベルヌーイモデルの	          定式化	•  P(T=Q|CT=i)はどのよう定式化できるか	    –  クラスiが与えられた時に,サンプルTがQ(前ペー     ジの表)となる確率	  •  同時確率P(t1,t2,…,...
補足:多変数ベルヌーイモデルの	           定式化(つづき)		  •  t2はt1に依存して,t3はt1とt2に依存している	  •  独立性を仮定してP(T=Q|CT=i)計算を簡便に     する	  	      tjが1(出...
多項分布による分類のイメージ	•  語wがある文書で出現する回数をモデル化	   用語(索引語)w∈V	 t1	 t2	 t3	 t4	 t5	 t6	 t7	 t8	 t9	 t10	 文書中の出現回数	 4	 0	 1	 2	 5	 0	 ...
多項分布の定式化	                                         独立試行により単純に用                                         語の出現確率を掛け合       サンプ...
補足:混合モデル	•  用語の確率分布がk個の確率分布の重み付け線形   和で表現できる確率分布	   –  クラスiの用語tjが出現する確率はクラスiの情報だけ    でなく他クラスの確率分布も使いましょう	    •  ベイズは単一のクラス...
補足:混合モデル(つづき)	•  どうやって混合するか?	           各混合要素でのtjの確率	推定すべきパラメータ	•  パラメータ推定に関して	   –  本サーベイ論文には紹介されていなかったので    省略	   –  EMア...
ロジスティック回帰	•  質的変数を線形に回帰するための手法	  •  テストデータXがクラスyiに属する確率P(C=yi|   X)が出力される	  •  シグモイド関数で表現する	  	  •  2値分類であれば	   –  	  	  	...
補足:回帰に基づく分類器	                        (ロジット変換)		  •  上式を	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  	  について解くと...
Rocchioの手法	•  各クラスの代表となる文書を構築する	   –  メタ文書とサーベイ中では呼ばれている	                          テストデータ	   P	  Class	  	     類似度の計算	    ...
Rocchioの手法(つづき)	•  Rocchioの手法によるメタ文書のベクトルd中   の用語tkの重みfkrocchio	              重みパラメータ	     Pクラス中でランダムに選               Nクラス...
Upcoming SlideShare
Loading in …5
×

Appendix document of Chapter 6 for Mining Text Data

529 views

Published on

Mining Text Data:研究室の輪講で使ったテキストマイニングの英語論文がサーベイされている書籍.
その中の第6章「A SURVEY OF TEXT CLASSIFICATION ALGORITHMS」の補足資料だす.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
529
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Appendix document of Chapter 6 for Mining Text Data

  1. 1.   Mining  Text  Data    Charu  C.  Aggarwal  and  ChengXiang  Zhai    Chapter  6   補足資料   藤井研究室   D1 中山 祐輝   2012/11/09(金)   1
  2. 2. A  set-­‐valued  featureとは •  W.  Cohen.  Learning  with  set-­‐valued  features.   AAAI  Conference,  1996.     –  A  set-­‐valued  is  simply  a  feature  whose  value  is  a  set  of   strings.  •   (サイズ,種類,色)を動物に対する特徴空間と すると   集合値特徴 –  上の写真=(小さい,犬,{白,黒} )   2
  3. 3. 補足:ジニ係数 Class  1 Class  2 Class  3 Class  4 w w w w w•   式(6.1)より   3
  4. 4. 補足:クラス分布を考慮するジニ係数 Class  1 Class  2 Class  3 Class  4 w w w w w     クラスiに属する文書数 総文書数     分布による重み 語wを含む文書が  出現する割合 同様に 4
  5. 5. 補足:クラス分布を考慮するジニ係数   (つづき) •  分布によって正規化されたジニ係数G(w)  •  分布を考慮する前と比べて,語wにおけるジニ係数は 小さくなった  •  クラス1は語wが出現する文書を多く含むが,属する文 書数も多い   –  文書数が多いからwを含む文書数は多くなるはず  •  クラス4は語wが出現する文書をあまり含まないが,文 書数は少ない   –  文書数が少ないから,wを含む文書数が少ないのは当然  •  クラス分布を考慮(正規化)することによって,wは正 規化前と比べて特徴のない語であると判断された   5
  6. 6. 補足:情報利得(エントロピー) 文書のクラス分布のばら つきが小さいほど、値が 大きい 語wを含む文書がクラ ス全体で偏って出現 するほど,値が大きい 語wを含む文書がクラ•  まとめると…   ス全体で偏って出現 –  語wがあるクラスに偏って出現                  すると,良い素性だということ   するほど,値が大きい –  元々の文書のクラス分布やwの個数も考慮している 6
  7. 7. 補足:相互情報量 Class  1 Class  2 Class  3 Class  4 w w w w w 例えば,Class1から見る と語wは正の相関がある 7
  8. 8. 補足:カイ二乗値 クラスiである i以外の全てのクラス 合計 語wを含む (1)3/2.05 (2)2/2.95 5 語wを含まない (3)6/6.95 (4)11/10.1 17   合計 9 13 22   観測値/期待値 •  一般的に,観測値と期待値は以下のように表される 観測値 期待値 (1) (2) (3) (4) 8
  9. 9. 補足:カイ二乗値(つづき) •  それぞれの観測値と期待値を上式に代入し, (1)〜(4)の総和をとると,式(6.6)が導出される  •  期待値と観測値との間に差が生じると,ある クラスに偏って出現するとみなされ,良い素 性となる 9
  10. 10. Linear  Discriminant  Analysis   〜フィッシャーの線形判別〜 •  D次元の素性空間を1次元に縮減する!  •  D次元の文書ベクトルを1次元のスカラー値 に射影  •  1次元空間で最もデータが分離するようなパ ラメータαを選択 D1 D1 D2 α 射影 D2 10
  11. 11. Linear  Discriminant  Analysis  〜フィッシャーの線形判別〜(つづき) •  最もデータが分離するとは→目的関数を用意   射影後のクラスD1   射影後のクラスD2   の平均値 の平均値 D1 目的関数を最大するパラメータを求める   →微分して解析的に式(6.10)を導出できる D2 11
  12. 12. ナイーブベイズ分類器 •  クラスが未知の文書を最も確率値P(CT=i| T=Q)の高いクラスに割り当てる分類器     これを求めたい! ある文書のbag-­‐of-­‐words 用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1 –  Qは文書中に含まれる用語の集合   •  上の例だとQ={t1,t4,t5,t8,t10} 12
  13. 13. 補足:多変数ベルヌーイモデルによる   分類のイメージ •  語wが文書で出現するか否か(0/1)をモデル化   –  表裏があるコインを思い浮かべるとわかりやすい   用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1 –  それぞれのクラスがt1〜t10の値を1か0かに決定する コインを持っている   –  コインの表裏の出る確率は違う   –  表裏の出る確率は前の結果に依存しない   –  それぞれのクラスでのt1〜t10のコインを振って,一番 上の表のように出たクラスに割り当てる   13
  14. 14. 補足:多変数ベルヌーイモデルの   定式化 •  P(T=Q|CT=i)はどのよう定式化できるか   –  クラスiが与えられた時に,サンプルTがQ(前ペー ジの表)となる確率  •  同時確率P(t1,t2,…,tn|CT=i)を考える  •  P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す   14
  15. 15. 補足:多変数ベルヌーイモデルの   定式化(つづき)  •  t2はt1に依存して,t3はt1とt2に依存している  •  独立性を仮定してP(T=Q|CT=i)計算を簡便に する   tjが1(出現)の確率   0(出現しない)の確率 {t1,t4,t5,tn-­‐1}∈Q 15
  16. 16. 多項分布による分類のイメージ •  語wがある文書で出現する回数をモデル化   用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3 •  それぞれのクラスで|V|(=10)面体の歪んだサイコロ をL(=18)回振る   •  サイコロは各クラスで歪みが違う   •  サイコロの目は前の結果に依存しない  •  出現回数の分布が上の表に近そうなクラスに 割り当てる   16
  17. 17. 多項分布の定式化 独立試行により単純に用 語の出現確率を掛け合 サンプル順番を考慮する わせる 重複する用語を排除 用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3 17
  18. 18. 補足:混合モデル •  用語の確率分布がk個の確率分布の重み付け線形 和で表現できる確率分布   –  クラスiの用語tjが出現する確率はクラスiの情報だけ でなく他クラスの確率分布も使いましょう   •  ベイズは単一のクラス分布から推定していた   –  クラスの分布だけでなく任意の分布を混ぜてもOK   Class  1 Class  2 Mixture  distribu_on   Mix!! Class  3 Class  4 18
  19. 19. 補足:混合モデル(つづき) •  どうやって混合するか?   各混合要素でのtjの確率 推定すべきパラメータ •  パラメータ推定に関して   –  本サーベイ論文には紹介されていなかったので 省略   –  EMアルゴリズムが使われる…らしい  •  混合モデルは訓練データの量が制限された 場合に役に立つ。 19
  20. 20. ロジスティック回帰 •  質的変数を線形に回帰するための手法  •  テストデータXがクラスyiに属する確率P(C=yi| X)が出力される  •  シグモイド関数で表現する    •  2値分類であれば   –                                                   :クラス1に属する   –                                                   :クラス2に属する 20
  21. 21. 補足:回帰に基づく分類器   (ロジット変換)  •  上式を                                        について解くと 21
  22. 22. Rocchioの手法 •  各クラスの代表となる文書を構築する   –  メタ文書とサーベイ中では呼ばれている   テストデータ P  Class   類似度の計算 N  Class Pの代表 Nの代表 •  メタ文書(代表)ベクトル中の用語の重みをどの ように定めるか   22
  23. 23. Rocchioの手法(つづき) •  Rocchioの手法によるメタ文書のベクトルd中 の用語tkの重みfkrocchio 重みパラメータ Pクラス中でランダムに選 Nクラス中でランダムに選 択された文書におけるtkの 択された文書におけるtkの 正規化頻度 正規化頻度 P  Class   N  Class   0.30 0.40 0.05 0.01 用語tkの  正規化頻度(割合) 0.28 0.00 23

×