Ppt honda

平成18年度修士論文

カテゴリーに特徴的な単語を利用した
Webサイトの分類に関する研究
Automated Classification Method of
Websites by using Characteristic
Keywords
複合情報学専攻
複雑系工学講座
調和系工学研究室
本田崇智

背景
• 観光客が、Webサイトから情報を得る機会の増加
• WWW上には大量の情報が存在し、効率よく観光情報を得
ることが困難

カテゴリーに属するサイトの検索
カテゴリー（＝人によって定義されたルール）
(ex) 「飲食店」：飲食店の公式サイト
「ゴルフ」：ゴルフ場の公式サイトとゴルフ練習場の公式サイト
＜必要とされる技術＞

WWW カテゴリー
Crawler

Webサイトの収集 Webサイトのカテゴリーへの分類

目的
• カテゴリーに属するWebサイト群
– 他のカテゴリーには出現しにくいカテゴリーに特徴的な名詞が
共通して複数存在
（ex）カテゴリー「ゴルフ」： “ゴルフ”、”コース”、”コンペ”

＜Webサイトのテキスト情報を用いた分類の関連研究＞

• Tf-idf法 [安形,99][堀田,03][上村,04]
– 特定のサイトのみ多く出現する語を特徴的な語とみなして分類
• Bayesian Classifier [Andrew,98]
– 単語の出現頻度によってカテゴリーに属する確率を計算し分類

＜目的＞

カテゴリーに特徴的な名詞を利用したWebサイトの分類

Webサイトの分類法：学習時
特徴的な名詞の抽出による学習
＜カテゴリー i 中の名詞 w のスコア R(i,w)＞
分類したいカテゴリー
df (i, w)
Webサイト F (i, w)
Si

df(i,w) : カテゴリー i に属し，かつ名詞wが出
現するWebサイト数
正例負例 Si: カテゴリー i に属するWebサイト集合

→ カテゴリー中(正例)の多くのサイトに出現
円・・・0.8 料金・・・0.8
する名詞のスコアが高い
温泉・・・0.7
・・円・・・0.4
・・ F (i, w )
R (i, w )
F (i, w ) F (i , w )
F (i, w) F (i , w)
温泉・・・0.8
F (i , w) :i以外の全てのカテゴリーを1つのカテゴ
お客・・・0.4 リーとした場合
宿泊・・・0.1
・・
→ その他のカテゴリー(負例)には出現しない
名詞のスコアが高い
R (i, w)

Webサイトの分類法：分類時
未知のサイトから全名詞を抽出し、分類

未知のサイト中の全名詞カテゴリー「旅館」の名詞のスコアR(i,w)

温泉・・・0.7
温泉
温泉お客・・・0.4 カテゴリー「旅館」
お客
お客月・・・0.1 の閾値・・・α
月
月
日
日旅館に属するサイト
類似度similarity
を計算閾値α以上
学習集合を用いてその
＜サイト s とカテゴリー i の類似度 similarity(s,i)＞中で分類精度が高くな
R (i, w) るように設定
w Ws
similarity ( s, i )
Ws

Ws : サイト s 中の名詞集合

実験の概要
＜提案手法の概要＞
正例と負例の選び
Webサイト方による分類への
影響？
正例負例
→ 学習集合の選択
円・・・0.8 料金・・・0.8
温泉・・・0.7 円・・・0.4 による分類精度の平
・・・・均・分散の変化の検
未知のサイト中の全名詞
証実験
F (i , w ) 温泉・・・0.8 F (i , w )
温泉
温泉お客・・・0.4
お客
お客宿泊・・・0.1
月・・
月
日
日
R (i , w )
類似度similarity
を計算カテゴリーに属するサイト
あらゆるサイトに対して閾値α以上
も分類は有効？

→ WWW上からリンクをたどって収集し関連研究と比較した → 関連研究との分類
たサイトについて分類精度の検証実験分類精度の有効性？精度の比較実験

実験：関連手法との分類精度の比較
＜設定＞

関連手法：Bayesian Classifier
[未知のサイトdi がカテゴリーcjに属する確率]
P(c j ) 全体におけるカテゴリーcj 中のサイト数の割合
:
V
c* (di ) argmax p(c j ) (Bit p(wt c j ) (1 Bit )(1 p(wt c j ))) Bit : サイトdiにwtが出現：1 出現しない：0
cj t 1
tw(cj,wt) : カテゴリー cjのwtが出現するサイト数
t(cj) : カテゴリー cjのサイト数
1 tw ( c j , w t )
p (w c )
t j
2 t(c j ) →単語の出現情報により
カテゴリーに属する確率を計算
観光に関する以下の10カテゴリーを定義
Yahoo! Japanから各カテゴリーの定義を満たすサイトを選択し使用
• 「ゴルフ」：ゴルフ場・練習場の公式サイト（524サイト） • 「カフェ」：カフェ・喫茶店の公式サイト（358サイト）
• 「施設」：スポーツ施設の公式サイト（91サイト） • 「テーマパーク」：テーマパークの公式サイト（190サイト）
• 「公園」：公園の公式サイト（181サイト） • 「美術館」：美術館の公式サイト（409サイト）
• 「ペンション」：ペンションの公式サイト（1020サイト） • 「祭り」：祭りの公式サイト（485サイト）
• 「和食」：和食店の公式サイト（503サイト） • 「旅館」：旅館の公式サイト（1020サイト）

各カテゴリーごとに
ランダムに選択した90%のサイト：訓練集合 → 特徴的な名詞の抽出に使用
残り10%のサイト：テスト集合 → 分類のテストに使用

結果：各カテゴリーの分類精度
Bayesian Classifierと提案手法それぞれにおけるF1値

1
0.9
0.8
0.7
0.6 Bayesian Classifier
0.5
0.4 提案手法
0.3
0.2
0.1
0 ゴペ和美祭カ旅テ施公ペンションと旅館以外は
ルン食術りフ館ー設園提案手法のほうが高い
フシ館ェマ
パ分類精度を示した
ョ
ンー
ク

N tp
Ntp N tp N
正例と判断負例と判断
再現率適合率
fn
2 再現率適合率
N tp N F1 正例 Ntp Nfp
Ntp N fn N tp N N
fp

N tn
再現率適合率
fn fp 負例 Nfn Ntn

結果：「ペンション」「旅館」の考察
「ペンション」に属すると判断された「旅館」に属すると判断された
サイトの実際のカテゴリー（215サイト）サイトの実際のカテゴリー（169サイト）

4 10
14
12
ペンション旅館
旅館ペンション
その他その他

80 70

間違って分類されたサイト22サイト
間違って分類されたサイト18サイト中14サイトが
中12サイトがカテゴリー「ペンション」
カテゴリー「旅館」のサイトで占められている
のサイトで占められている

「ペンション」「旅館」 472語
各カテゴリーごとに名詞のスコアRの降順に5000語
選択したとき2カテゴリー間で一致した名詞数その他2カテゴリー 205語
の平均

似たカテゴリーを選択したときにはどちらも似た名詞が抽出されたため
間違って分類されたと考えられる

結果：抽出された名詞
カテゴリー高名詞のスコアR 低
ゴルフロングヒッターティーショットペリア

ペンション岩岳八方屋根ＭＴＢ

和食うな重すっぽん甘鯛

美術館本展絹本文展

祭り宵宮御旅所宮入

カフェキリマンジャロジャマイカダージリン

テーマパークメリーゴーランドのりものホルスタイン

旅館殿方小宴適応症

公園シラカシアラカシエゴノキ

施設日本体育協会浦和レッズダンベル

実験：学習集合の選択による分類精度の影響
• 10fold Cross-validation：各カテゴリーのサイト数を10分割し，それぞれ
訓練集合全10通りの選び方によるF1値の平均と分散を計算
F1の平均 F1の分散

ゴルフ 0.92 0.00023
ペンション 0.81 0.00029
和食 0.83 0.00059
美術館 0.86 0.00030
祭り 0.88 0.00053
カフェ 0.64 0.00052
旅館 0.72 0.00049
テーマパーク 0.45 0.01399
施設 0.63 0.00465
公園 0.63 0.00076

どのカテゴリーでも分散は小さく、訓練集合の選び方による
影響は少ないということがいえる

実験：www上のサイトに対する分類精度の検証
＜設定＞

提案手法を適用し、カテゴリー「ゴルフ」に属するサイトを収集

訓練集合
以下のカテゴリーを定義し、Yahoo! Japanから定義を満たすサイトを選択し使用

• 「ゴルフ」：ゴルフ場・練習場の公式サイト（472サイト）
• 「施設」：スポーツ施設の公式サイト（82サイト）
• 「公園」：公園の公式サイト（163サイト）
• 「ペンション」：ペンションの公式サイト（918サイト）
• 「和食」：和食店の公式サイト（453サイト）
• 「カフェ」：カフェ・喫茶店の公式サイト（323サイト）
• 「テーマパーク」：テーマパークの公式サイト（171サイト）
• 「美術館」：美術館の公式サイト（369サイト）
• 「祭り」：祭りの公式サイト（437サイト）
• 「旅館」：旅館の公式サイト（918サイト）

テスト集合
訓練集合のカテゴリー「ゴルフ」のサイトからリンクをたどって収集した計384サイト

結果
「ゴルフ」に属すると判断された「ゴルフ」に属さないと判断された
サイトの実際のカテゴリー（215サイト）サイトの実際のカテゴリー（169サイト）

20 5
25
28 ゴルフ場･練習場ゴルフ場・練習場
宿泊施設 19 宿泊施設
天気
64 天気
15 会社・団体会社･団体
8 128 ゴルフ団体・ショップショップ
その他その他
16
54 2

ゴルフリゾートのサイトのように
ゴルフ団体・ショップやゴルフ場の天気予報など、
ホテルなどその他の情報が多く
ゴルフの情報が含まれるサイトが多い
間違って分類されたと考えられる

再現率：0.96 適合率：0.60 F1:0.74

再現率が0.96と、カテゴリーに属するサイトはほとんど収集で
きたが、ゴルフに似たサイトも多く収集された

まとめ
Webサイトのカテゴリーへの自動分類法を提案した
カテゴリーに特徴的な名詞を利用した分類

Yahoo! Japanとその他WWW上のサイトに対して適
用し、有効性を示した
Bayesian Classifierとの比較実験
WWW上からカテゴリー「ゴルフ」に属するサイトを収集
Cross-validation法を用いて学習集合の選び方による分類
精度の影響がないことを示した

Ppt honda

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (12)

More from harmonylab

More from harmonylab (20)

Ppt honda