SlideShare a Scribd company logo
1 of 23
Download to read offline
 
                 Mining	
  Text	
  Data	
  	
  
Charu	
  C.	
  Aggarwal	
  and	
  ChengXiang	
  Zhai	
  
                    	
  Chapter	
  6	
  
                      補足資料	
  
                          	
                   藤井研究室	
  
                  D1 中山 祐輝	
  
                  2012/11/09(金)

                          	
                         1
A	
  set-­‐valued	
  featureとは	
•  W.	
  Cohen.	
  Learning	
  with	
  set-­‐valued	
  features.	
  
   AAAI	
  Conference,	
  1996.	
  	
  
    –  A	
  set-­‐valued	
  is	
  simply	
  a	
  feature	
  whose	
  value	
  is	
  a	
  set	
  of	
  
       strings.	
  




•  	
  (サイズ,種類,色)を動物に対する特徴空間と
   すると	
  
                                                                        集合値特徴	
    –  上の写真=(小さい,犬,{白,黒} )	
  
                                                                                                   2
補足:ジニ係数	
  Class	
  1	
        Class	
  2	
   Class	
  3	
                                                    Class	
  4	
  w                                       w
           w
      w

                                                        w



•  	
  式(6.1)より	
  




                                                                   3
補足:クラス分布を考慮するジニ係数	
       Class	
  1	
   Class	
  2	
   Class	
  3	
                                                       Class	
  4	
       w                                  w
                w
           w

                                                           w

	
  
	
                                            クラスiに属する文書数	
                                              総文書数	
	
  
	
                    分布による重み	
語wを含む文書が	
  
出現する割合	
                 同様に	
                                        4
補足:クラス分布を考慮するジニ係数	
  
       (つづき)	
•  分布によって正規化されたジニ係数G(w)	
  

•  分布を考慮する前と比べて,語wにおけるジニ係数は
   小さくなった	
  

•  クラス1は語wが出現する文書を多く含むが,属する文
   書数も多い	
  
 –  文書数が多いからwを含む文書数は多くなるはず	
  
•  クラス4は語wが出現する文書をあまり含まないが,文
   書数は少ない	
  
 –  文書数が少ないから,wを含む文書数が少ないのは当然	
  
•  クラス分布を考慮(正規化)することによって,wは正
   規化前と比べて特徴のない語であると判断された	
  
                                 5
補足:情報利得(エントロピー)	
                    文書のクラス分布のばら
                    つきが小さいほど、値が
                    大きい	
                       語wを含む文書がクラ
                       ス全体で偏って出現
                       するほど,値が大きい	



                        語wを含む文書がクラ
•  まとめると…	
  
                        ス全体で偏って出現
  –  語wがあるクラスに偏って出現                 
     すると,良い素性だということ	
   するほど,値が大きい	
  –  元々の文書のクラス分布やwの個数も考慮している	
                                  6
補足:相互情報量	
Class	
  1	
    Class	
  2	
   Class	
  3	
                                              Class	
  4	
w                                   w
         w
    w

                                                  w




                                 例えば,Class1から見る
                                 と語wは正の相関がある	

                                                             7
補足:カイ二乗値	
             クラスiである	
 i以外の全てのクラス	
 合計	
     語wを含む	
  (1)3/2.05	
   (2)2/2.95	
  5	
語wを含まない	
 (3)6/6.95	
      (4)11/10.1	
 17	
	
  
      合計	
        9	
           13	
    22	
	
                     観測値/期待値	
•  一般的に,観測値と期待値は以下のように表される	
            観測値	
              期待値	
 (1)	
 (2)	
 (3)	
 (4)	
                                           8
補足:カイ二乗値(つづき)	


•  それぞれの観測値と期待値を上式に代入し,
   (1)〜(4)の総和をとると,式(6.6)が導出される	
  
•  期待値と観測値との間に差が生じると,ある
   クラスに偏って出現するとみなされ,良い素
   性となる	


                                 9
Linear	
  Discriminant	
  Analysis	
  
      〜フィッシャーの線形判別〜	
•  D次元の素性空間を1次元に縮減する!	
  
•  D次元の文書ベクトルを1次元のスカラー値
   に射影	
  
•  1次元空間で最もデータが分離するようなパ
   ラメータαを選択	

      D1	
                   D1	
                                       D2	
α	
                 射影	
             D2	

                                               10
Linear	
  Discriminant	
  Analysis	
  
〜フィッシャーの線形判別〜(つづき)	
•  最もデータが分離するとは→目的関数を用意	
  




                 射影後のクラスD1	
   射影後のクラスD2	
  
                 の平均値	
        の平均値	
D1	
            目的関数を最大するパラメータを求める	
  
                →微分して解析的に式(6.10)を導出できる	
         D2	
                       11
ナイーブベイズ分類器	
•  クラスが未知の文書を最も確率値P(CT=i|
   T=Q)の高いクラスに割り当てる分類器	
  

	
                                                            これを求めたい!
       ある文書のbag-­‐of-­‐words	
       用語(索引語)w∈V	
 t1	
 t2	
 t3	
 t4	
 t5	
 t6	
 t7	
 t8	
 t9	
 t10	
       文書中に含まれるか	
 1	
 0	
 0	
 1	
 1	
 0	
 0	
 1	
 0	
 1	

       –  Qは文書中に含まれる用語の集合	
  
           •  上の例だとQ={t1,t4,t5,t8,t10}	
                                                                         12
補足:多変数ベルヌーイモデルによる	
  
     分類のイメージ	
•  語wが文書で出現するか否か(0/1)をモデル化	
  
 –  表裏があるコインを思い浮かべるとわかりやすい	
  
   用語(索引語)w∈V	
 t1	
 t2	
 t3	
 t4	
 t5	
 t6	
 t7	
 t8	
 t9	
 t10	
   文書中に含まれるか	
 1	
 0	
 0	
 1	
 1	
 0	
 0	
 1	
 0	
 1	
 –  それぞれのクラスがt1〜t10の値を1か0かに決定する
    コインを持っている	
  
 –  コインの表裏の出る確率は違う	
  
 –  表裏の出る確率は前の結果に依存しない	
  
 –  それぞれのクラスでのt1〜t10のコインを振って,一番
    上の表のように出たクラスに割り当てる	
  
                                                                     13
補足:多変数ベルヌーイモデルの	
  
        定式化	
•  P(T=Q|CT=i)はどのよう定式化できるか	
  
  –  クラスiが与えられた時に,サンプルTがQ(前ペー
     ジの表)となる確率	
  
•  同時確率P(t1,t2,…,tn|CT=i)を考える	
  
•  P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す	
  




                                  14
補足:多変数ベルヌーイモデルの	
  
         定式化(つづき)	
	
  
•  t2はt1に依存して,t3はt1とt2に依存している	
  
•  独立性を仮定してP(T=Q|CT=i)計算を簡便に
     する	
  



	

      tjが1(出現)の確率	
           0(出現しない)の確率	
      {t1,t4,t5,tn-­‐1}∈Q	
                   15
多項分布による分類のイメージ	
•  語wがある文書で出現する回数をモデル化	
  
 用語(索引語)w∈V	
 t1	
 t2	
 t3	
 t4	
 t5	
 t6	
 t7	
 t8	
 t9	
 t10	
 文書中の出現回数	
 4	
 0	
 1	
 2	
 5	
 0	
 2	
 1	
 0	
 3	


•  それぞれのクラスで|V|(=10)面体の歪んだサイコロ
   をL(=18)回振る	
  
 •  サイコロは各クラスで歪みが違う	
  
 •  サイコロの目は前の結果に依存しない	
  
•  出現回数の分布が上の表に近そうなクラスに
   割り当てる	
  
                                                                   16
多項分布の定式化	
                                         独立試行により単純に用
                                         語の出現確率を掛け合
       サンプル順番を考慮する	
                     わせる	



            重複する用語を排除	




用語(索引語)w∈V	
 t1	
 t2	
 t3	
 t4	
 t5	
 t6	
 t7	
 t8	
 t9	
 t10	
文書中の出現回数	
 4	
 0	
 1	
 2	
 5	
 0	
 2	
 1	
 0	
 3	
                                                                  17
補足:混合モデル	
•  用語の確率分布がk個の確率分布の重み付け線形
   和で表現できる確率分布	
  
 –  クラスiの用語tjが出現する確率はクラスiの情報だけ
    でなく他クラスの確率分布も使いましょう	
  
  •  ベイズは単一のクラス分布から推定していた	
  
 –  クラスの分布だけでなく任意の分布を混ぜてもOK	
  
    Class	
  1	
 Class	
  2	
             Mixture	
  distribu_on	
  	


                                Mix!!	
    Class	
  3	
 Class	
  4	

                                                                         18
補足:混合モデル(つづき)	
•  どうやって混合するか?	
  


         各混合要素でのtjの確率	
推定すべきパラメータ	
•  パラメータ推定に関して	
  
 –  本サーベイ論文には紹介されていなかったので
    省略	
  
 –  EMアルゴリズムが使われる…らしい	
  
•  混合モデルは訓練データの量が制限された
   場合に役に立つ。	
                               19
ロジスティック回帰	
•  質的変数を線形に回帰するための手法	
  
•  テストデータXがクラスyiに属する確率P(C=yi|
   X)が出力される	
  
•  シグモイド関数で表現する	
  

	
  
•  2値分類であれば	
  
 –  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  :クラス1に属する	
  
 –  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  :クラス2に属する	
                                                                                                                        20
補足:回帰に基づく分類器	
  
                      (ロジット変換)	

	
  
•  上式を	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  について解くと	




                                                                                                  21
Rocchioの手法	
•  各クラスの代表となる文書を構築する	
  
 –  メタ文書とサーベイ中では呼ばれている	
  
                        テストデータ	

   P	
  Class	
  	
     類似度の計算	
      N	
  Class	




                      Pの代表	
 Nの代表	
•  メタ文書(代表)ベクトル中の用語の重みをどの
   ように定めるか	
  
                                                     22
Rocchioの手法(つづき)	
•  Rocchioの手法によるメタ文書のベクトルd中
   の用語tkの重みfkrocchio	
              重みパラメータ	


     Pクラス中でランダムに選               Nクラス中でランダムに選
     択された文書におけるtkの              択された文書におけるtkの
     正規化頻度	
                    正規化頻度	
             P	
  Class	
  	
        N	
  Class	
  	

              0.30	
   0.40	
     0.05	
        0.01	
用語tkの	
  
正規化頻度(割合)	
        0.28	
               0.00	
           23

More Related Content

Similar to Appendix document of Chapter 6 for Mining Text Data

Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...sakaizawa
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 

Similar to Appendix document of Chapter 6 for Mining Text Data (9)

Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
 
Prml 4
Prml 4Prml 4
Prml 4
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 

Appendix document of Chapter 6 for Mining Text Data

  • 1.   Mining  Text  Data     Charu  C.  Aggarwal  and  ChengXiang  Zhai    Chapter  6   補足資料   藤井研究室   D1 中山 祐輝   2012/11/09(金)   1
  • 2. A  set-­‐valued  featureとは •  W.  Cohen.  Learning  with  set-­‐valued  features.   AAAI  Conference,  1996.     –  A  set-­‐valued  is  simply  a  feature  whose  value  is  a  set  of   strings.   •   (サイズ,種類,色)を動物に対する特徴空間と すると   集合値特徴 –  上の写真=(小さい,犬,{白,黒} )   2
  • 3. 補足:ジニ係数 Class  1 Class  2 Class  3 Class  4 w w w w w •   式(6.1)より   3
  • 4. 補足:クラス分布を考慮するジニ係数 Class  1 Class  2 Class  3 Class  4 w w w w w     クラスiに属する文書数 総文書数     分布による重み 語wを含む文書が   出現する割合 同様に 4
  • 5. 補足:クラス分布を考慮するジニ係数   (つづき) •  分布によって正規化されたジニ係数G(w)   •  分布を考慮する前と比べて,語wにおけるジニ係数は 小さくなった   •  クラス1は語wが出現する文書を多く含むが,属する文 書数も多い   –  文書数が多いからwを含む文書数は多くなるはず   •  クラス4は語wが出現する文書をあまり含まないが,文 書数は少ない   –  文書数が少ないから,wを含む文書数が少ないのは当然   •  クラス分布を考慮(正規化)することによって,wは正 規化前と比べて特徴のない語であると判断された   5
  • 6. 補足:情報利得(エントロピー) 文書のクラス分布のばら つきが小さいほど、値が 大きい 語wを含む文書がクラ ス全体で偏って出現 するほど,値が大きい 語wを含む文書がクラ •  まとめると…   ス全体で偏って出現 –  語wがあるクラスに偏って出現                  すると,良い素性だということ   するほど,値が大きい –  元々の文書のクラス分布やwの個数も考慮している 6
  • 7. 補足:相互情報量 Class  1 Class  2 Class  3 Class  4 w w w w w 例えば,Class1から見る と語wは正の相関がある 7
  • 8. 補足:カイ二乗値 クラスiである i以外の全てのクラス 合計 語wを含む (1)3/2.05 (2)2/2.95 5 語wを含まない (3)6/6.95 (4)11/10.1 17   合計 9 13 22   観測値/期待値 •  一般的に,観測値と期待値は以下のように表される 観測値 期待値 (1) (2) (3) (4) 8
  • 9. 補足:カイ二乗値(つづき) •  それぞれの観測値と期待値を上式に代入し, (1)〜(4)の総和をとると,式(6.6)が導出される   •  期待値と観測値との間に差が生じると,ある クラスに偏って出現するとみなされ,良い素 性となる 9
  • 10. Linear  Discriminant  Analysis   〜フィッシャーの線形判別〜 •  D次元の素性空間を1次元に縮減する!   •  D次元の文書ベクトルを1次元のスカラー値 に射影   •  1次元空間で最もデータが分離するようなパ ラメータαを選択 D1 D1 D2 α 射影 D2 10
  • 11. Linear  Discriminant  Analysis   〜フィッシャーの線形判別〜(つづき) •  最もデータが分離するとは→目的関数を用意   射影後のクラスD1   射影後のクラスD2   の平均値 の平均値 D1 目的関数を最大するパラメータを求める   →微分して解析的に式(6.10)を導出できる D2 11
  • 12. ナイーブベイズ分類器 •  クラスが未知の文書を最も確率値P(CT=i| T=Q)の高いクラスに割り当てる分類器     これを求めたい! ある文書のbag-­‐of-­‐words 用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1 –  Qは文書中に含まれる用語の集合   •  上の例だとQ={t1,t4,t5,t8,t10} 12
  • 13. 補足:多変数ベルヌーイモデルによる   分類のイメージ •  語wが文書で出現するか否か(0/1)をモデル化   –  表裏があるコインを思い浮かべるとわかりやすい   用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1 –  それぞれのクラスがt1〜t10の値を1か0かに決定する コインを持っている   –  コインの表裏の出る確率は違う   –  表裏の出る確率は前の結果に依存しない   –  それぞれのクラスでのt1〜t10のコインを振って,一番 上の表のように出たクラスに割り当てる   13
  • 14. 補足:多変数ベルヌーイモデルの   定式化 •  P(T=Q|CT=i)はどのよう定式化できるか   –  クラスiが与えられた時に,サンプルTがQ(前ペー ジの表)となる確率   •  同時確率P(t1,t2,…,tn|CT=i)を考える   •  P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す   14
  • 15. 補足:多変数ベルヌーイモデルの   定式化(つづき)   •  t2はt1に依存して,t3はt1とt2に依存している   •  独立性を仮定してP(T=Q|CT=i)計算を簡便に する   tjが1(出現)の確率   0(出現しない)の確率 {t1,t4,t5,tn-­‐1}∈Q 15
  • 16. 多項分布による分類のイメージ •  語wがある文書で出現する回数をモデル化   用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3 •  それぞれのクラスで|V|(=10)面体の歪んだサイコロ をL(=18)回振る   •  サイコロは各クラスで歪みが違う   •  サイコロの目は前の結果に依存しない   •  出現回数の分布が上の表に近そうなクラスに 割り当てる   16
  • 17. 多項分布の定式化 独立試行により単純に用 語の出現確率を掛け合 サンプル順番を考慮する わせる 重複する用語を排除 用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3 17
  • 18. 補足:混合モデル •  用語の確率分布がk個の確率分布の重み付け線形 和で表現できる確率分布   –  クラスiの用語tjが出現する確率はクラスiの情報だけ でなく他クラスの確率分布も使いましょう   •  ベイズは単一のクラス分布から推定していた   –  クラスの分布だけでなく任意の分布を混ぜてもOK   Class  1 Class  2 Mixture  distribu_on   Mix!! Class  3 Class  4 18
  • 19. 補足:混合モデル(つづき) •  どうやって混合するか?   各混合要素でのtjの確率 推定すべきパラメータ •  パラメータ推定に関して   –  本サーベイ論文には紹介されていなかったので 省略   –  EMアルゴリズムが使われる…らしい   •  混合モデルは訓練データの量が制限された 場合に役に立つ。 19
  • 20. ロジスティック回帰 •  質的変数を線形に回帰するための手法   •  テストデータXがクラスyiに属する確率P(C=yi| X)が出力される   •  シグモイド関数で表現する     •  2値分類であれば   –                                                   :クラス1に属する   –                                                   :クラス2に属する 20
  • 21. 補足:回帰に基づく分類器   (ロジット変換)   •  上式を                                        について解くと 21
  • 22. Rocchioの手法 •  各クラスの代表となる文書を構築する   –  メタ文書とサーベイ中では呼ばれている   テストデータ P  Class   類似度の計算 N  Class Pの代表 Nの代表 •  メタ文書(代表)ベクトル中の用語の重みをどの ように定めるか   22
  • 23. Rocchioの手法(つづき) •  Rocchioの手法によるメタ文書のベクトルd中 の用語tkの重みfkrocchio 重みパラメータ Pクラス中でランダムに選 Nクラス中でランダムに選 択された文書におけるtkの 択された文書におけるtkの 正規化頻度 正規化頻度 P  Class   N  Class   0.30 0.40 0.05 0.01 用語tkの   正規化頻度(割合) 0.28 0.00 23