4. Webサイトの分類法:学習時
特徴的な名詞の抽出による学習
<カテゴリー i 中の名詞 w のスコア R(i,w)>
分類したいカテゴリー
df (i, w)
Webサイト F (i, w)
Si
df(i,w) : カテゴリー i に属し,かつ名詞wが出
現するWebサイト数
正例 負例 Si: カテゴリー i に属するWebサイト集合
→ カテゴリー中(正例)の多くのサイトに出現
円 ・・・0.8 料金・・・0.8
する名詞のスコアが高い
温泉・・・0.7
・・ 円・・・0.4
・・ F (i, w )
R (i, w )
F (i, w ) F (i , w )
F (i, w) F (i , w)
温泉・・・0.8
F (i , w) :i以外の全てのカテゴリーを1つのカテゴ
お客・・・0.4 リーとした場合
宿泊・・・0.1
・・
→ その他のカテゴリー(負例)には出現しない
名詞のスコアが高い
R (i, w)
5. Webサイトの分類法:分類時
未知のサイトから全名詞を抽出し、分類
未知のサイト中の全名詞 カテゴリー「旅館」の名詞のスコアR(i,w)
温泉・・・0.7
温泉
温泉 お客・・・0.4 カテゴリー「旅館」
お客
お客 月・・・0.1 の閾値 ・・・α
月
月
日
日 旅館に属するサイト
類似度similarity
を計算 閾値α以上
学習集合を用いてその
<サイト s とカテゴリー i の類似度 similarity(s,i)> 中で分類精度が高くな
R (i, w) るように設定
w Ws
similarity ( s, i )
Ws
Ws : サイト s 中の名詞集合
6. 実験の概要
<提案手法の概要>
正例と負例の選び
Webサイト 方による分類への
影響?
正例 負例
→ 学習集合の選択
円 ・・・0.8 料金・・・0.8
温泉・・・0.7 円・・・0.4 による分類精度の平
・・ ・・ 均・分散の変化の検
未知のサイト中の全名詞
証実験
F (i , w ) 温泉・・・0.8 F (i , w )
温泉
温泉 お客・・・0.4
お客
お客 宿泊・・・0.1
月 ・・
月
日
日
R (i , w )
類似度similarity
を計算 カテゴリーに属するサイト
あらゆるサイトに対して 閾値α以上
も分類は有効?
→ WWW上からリンクをたどって収集し 関連研究と比較した → 関連研究との分類
たサイトについて分類精度の検証実験 分類精度の有効性? 精度の比較実験
7. 実験:関連手法との分類精度の比較
<設定>
関連手法:Bayesian Classifier
[未知のサイトdi がカテゴリーcjに属する確率]
P(c j ) 全体におけるカテゴリーcj 中のサイト数の割合
:
V
c* (di ) argmax p(c j ) (Bit p(wt c j ) (1 Bit )(1 p(wt c j ))) Bit : サイトdiにwtが 出現:1 出現しない:0
cj t 1
tw(cj,wt) : カテゴリー cjのwtが出現するサイト数
t(cj) : カテゴリー cjのサイト数
1 tw ( c j , w t )
p (w c )
t j
2 t(c j ) →単語の出現情報により
カテゴリーに属する確率を計算
観光に関する以下の10カテゴリーを定義
Yahoo! Japanから各カテゴリーの定義を満たすサイトを選択し使用
• 「ゴルフ」:ゴルフ場・練習場の公式サイト(524サイト) • 「カフェ」:カフェ・喫茶店の公式サイト(358サイト)
• 「施設」:スポーツ施設の公式サイト(91サイト) • 「テーマパーク」:テーマパークの公式サイト(190サイト)
• 「公園」:公園の公式サイト(181サイト) • 「美術館」:美術館の公式サイト(409サイト)
• 「ペンション」:ペンションの公式サイト (1020サイト) • 「祭り」:祭りの公式サイト(485サイト)
• 「和食」:和食店の公式サイト(503サイト) • 「旅館」:旅館の公式サイト(1020サイト)
各カテゴリーごとに
ランダムに選択した90%のサイト:訓練集合 → 特徴的な名詞の抽出に使用
残り10%のサイト:テスト集合 → 分類のテストに使用
8. 結果:各カテゴリーの分類精度
Bayesian Classifierと提案手法それぞれにおけるF1値
1
0.9
0.8
0.7
0.6 Bayesian Classifier
0.5
0.4 提案手法
0.3
0.2
0.1
0 ゴ ペ 和 美 祭 カ 旅 テ 施 公 ペンションと旅館以外は
ル ン 食 術 り フ 館 ー 設 園 提案手法のほうが高い
フ シ 館 ェ マ
パ 分類精度を示した
ョ
ン ー
ク
N tp
Ntp N tp N
正例と判断 負例と判断
再現率 適合率
fn
2 再現率 適合率
N tp N F1 正例 Ntp Nfp
Ntp N fn N tp N N
fp
N tn
再現率 適合率
fn fp 負例 Nfn Ntn