More Related Content
More from harmonylab (20)
takagi m
- 2. 背景
•札幌市中央区 の 飲食店
•ニセコ の 宿泊施設
•岩見沢市 の 病院
地域 カテゴ
リー
の公式サイトを複数収集し比較
公式サイト=企業等が自ら作成したウェブサイト
利点 : 複数の1次情報を比較可能
既存のサーチエンジン・ポータルサイトでは困難
ロボット型検索エンジン → 適切なキーワードが存在しない
ディレクトリ型検索エンジン・ポータルサイト → 登録数が少ない
- 6. WWW
宿泊施設集合
公式サイト集合
候補集合 C
Step 1:候補集合 C の収集
R
検索エンジンの検索結果集合 R
•検索エンジン: Google
•検索キーワード:
例:ホテル
•検索エンジン(Excite)の登録サイト (5566サイト中)
→ 3392 サイト (60.9%)
•Googleによる検索結果数 8,430,000 件
キーワードの選択は非常に困難
望ましい条件
• 多くの公式サイトに含まれる
• 公式サイト以外には含まれない
- 7. WWW
宿泊施設集合
公式サイト集合
候補集合 C
Step 1:候補集合 C の収集
R
検索エンジンの検索結果集合 R
•検索エンジン: Google
•検索キーワード: P and Q
P = {“011”,”0123”,“0136”,”0137” ・・・}
(電話番号の市外局番の集合)
Q = {“ホテル ”, “ペンション”,
“ユースホステル”, “ロッジ”, “ロッ
ヂ”, “民宿”, “旅館”, “宿泊”, “予
約”, “料金”, “料理”, “温泉" }
Excite の登録サイト (5566サイト)
•P を含むサイト : 89.8 % (テキストに限定)
•Q を含むサイト : 99.8 %
電話番号
・公式サイトが含む可能性が高い
・公式サイト以外が含む可能性が低い
※約10%のサイトは電話番号が画像
- 8. WWW
宿泊施設集合
公式サイト集合 O
候補集合 C
Step 1:候補集合 C の収集
R
R+(p1)R-(p1)
p1
p2
p3
R+(p3)R-(p2)
R- R+
ハイパーリンク
ウェブページ
ハイパーリンクを用いた R の拡張 [Kleinberg 98]
候補集合 C = R ∪ R+ ∪ R-
•R だけでは不足
•C の要素間に多数のリンクの存在が必要
検索エンジン(Google)の利用
ウェブクローリング
R の要素のHTML文章
からアンカータグを抽出
※HTML文章は多
数のエラーを含む
- 11. WWW
宿泊施設集合
公式サイト集合
候補集合 C
Ci
Step 2-1 電話番号 i が宿泊施設のものであるか判断
公式サイト <TITLE>X ホテルのホームページへようこそ</TITLE>
ポータルサイト・リンク集 等
<A href=“・・・”>X ホテルのホームページ</A>
仮説 1 : 公式サイトのタ
イトルタグは W を含む
タグ分析文字列集合 W (要素数85
個)
Exciteの登録サイト (5566サイト)
→ タイトルタグに W を含むサイト : 81.1%
ホテル・ほてる・HOTEL・hotel・Hotel・HOTEL・hotel・Hotel・・・
ペンション・ぺんしょん・PENSION・pension・Pension・・・・・・・・・・・
宿・やど・ヤド・YADO・yado・Yado・YADO・yado・Yado・・・・・・・
旅館・リョカン・りょかん・RYOKAN・ryokan・Ryokan・RYOKAN・
コテージ・こてーじ・COTAGE・cottage・Cottage・COTAGE・・・・・
山荘・サンソウ・さんそう・SANSOU・sansou・Sansou・Sansou・・
ホステル・ほすてる・HOSTEL・hostel・Hostel・HOSTEL・・・・・・・
ロッジ・ろっじ・ロッヂ・ろっぢ・RODGE・rodge・Rodge・RODGE・・
仮説 2 : 公式サイトへ
のリンクを表すアン
カータグは W を含む
※タイトルタグを持た
ない公式サイトもある
- 12. WWW
宿泊施設集合
公式サイト集合
候補集合 C
Ci
Step 2-2 公式サイトである可能性に従ったランキング
URL文字数 (電話番号を含むページ)
度数分布 横軸:文字数 縦軸:ページ数
候補集合 C
平均 59.32 文字
Exciteの登録サイト
平均 46.87 文字
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99
0
500
1000
1500
2000
2500
3000
3500
4000
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99
3 2 1ランク
公式サイト
(トップペー
ジ)
ポータルサイト・リンク集等
(トップページ以外のペー
ジ)
仮説 3 : 公式サイトへの多くのリンクが存在
仮説 4 : 公式サイトの電話番号を含むページ = URLの文字数の少ない
仮説 5 : 公式サイトに含まれる電話番号は5つ以下である
公式サイトとして抽出
- 13. WWW
宿泊施設集合
公式サイト集合
候補集合 C
評価
Ci
電話番号 i を含むページの集合 Ci を抽出
Step 2-1 電話番号 i が宿泊施設のものである
か判断 → 正確であるか?
Step 2-2 Ci の要素を公式サイトである可能性
に従ってランキング
→公式サイトが1位にランクされたか?
3 2 1ランク
評価の対象地域 ・札幌市 中央区 (人口が多い地域)
・音威子府村・美深町・中川町 (人口が少ない地域)
・倶知安町 (宿泊施設の多い観光地)
- 14. 評価(Step 2-1)電話番号が宿泊施設のものであるか判断
計 正 誤
宿泊施設 80 76 4 95.0%
宿泊施設でない 34 33 1 97.1%
判断困難 12
計 正 誤
宿泊施設 23 22 1 95.7%
宿泊施設でない 71 71 0 100.0
%
判断困難 4
計 正 誤
宿泊施設 11 11 0 100.0
%
宿泊施設でない 46 46 0 100.0
%
倶知安町 : 市外局番 0136 , 市内局番 21,22,23 → 126 個
札幌市中央区 : 市外局番 011 , 市内局番 511,512,513,518 → 98 個
音威子府村・中川町・美深町 : 市外局番 01656 → 63 個
判断は高精度である