More Related Content
Similar to Lab-ゼミ資料-3-20150421
Similar to Lab-ゼミ資料-3-20150421 (7)
Lab-ゼミ資料-3-20150421
- 3. [先行研究]蝶ネクタイ構造
1. SCC(Ctrongly Connected Component)
• それぞれが有効パスで連結し、元のページに帰ってくることができる
2. IN(比較的新しいサイトが含まれる)
• SCCへと遷移できるが、SCCからは遷移できない
• SCCへ向かわずに、袋小路へ遷移していくリンクを含む(TENDRILS)
3. OUT(企業サイトが含まれる)
• SCCへは遷移できないが、SCCからは遷移できる
4. それ以外
• 非連結成分 -‐ どのページにも遷移しない
• TENDRILS – IN、OUTページに接続する
• TUBES -‐ SCCへ遷移せず、直接INからOUTに接続する
3/28
- 6. [先行研究]従来の検索アルゴリズム
1. HITSアルゴリズム
• ノードの重み付けにauthorithyとhubnessを導入
• Authority(重要性) -‐ 他のページから多くリンクされている
-‐> 多くのhubnessからリンクを獲得している
• Hubness(拠点性) -‐ 内部リンクの重要度が高い
-‐> 多くのAUTHORITYへの内部リンクを持っている
2. PageRank
1. 重要なページは重要なページからのリンクを多く獲得する
𝑃𝑅 𝑝$ =
1 − 𝑑
𝑁
+ 𝑑 ,
𝑃𝑅(𝑝.)
𝐿(𝑝.)
1
23∈5(67)
𝑁 = 対象とするすべてのページ
𝑃𝑅 𝑝. = 各ページ𝑝$にリンクしているjの𝑃𝑎𝑔𝑒𝑅𝑎𝑛𝑘
𝐿(𝑝.) = ページ𝑝.に含まれる他のページへのリンクの総数
d = 減衰因子(恣意的にPageRankを上げようとするページに対し小さな値を設定して対応する) 6/28
- 8. [提案モデル]弱い紐帯の発見プロセス
• 弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or あるいは探索を終了する
初期ネットワーク … ネットワークからある基準をもとに抽出された部分集合
開始ノード … 初期ネットワークにおけるAUTYORITYから選ばれたノード
初期ノード … 初期ネットワークに含まれるノード集合
弱い紐帯の候補群 … 開始ノードのエッジに接続したノードのうち、初期ノードではないもの
クラスタ … あるノードに接続するノードから得られるノード集合
8/28
- 9. 1.初期ネットワークからAUTHORITYを発見
• ある基準をもとに初期ノードを抽出する
• 各ノードが保有するリンクの数を調べる
• ある閾値以上のリンクを有するノードをAUTHORITYと同定する
• 閾値によっては、複数のAUTHORITYが発見されたり、
あるいはAUTHORITYが発見できない可能性もある
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or 探索を終了する
9/28
[提案モデル]弱い紐帯の発見プロセス
- 14. 6.初期ネットワークを設定し、2に戻る or 探索を終了する
• 取得した新たなクラスタを初期ネットワークとして設定する
• 2の手続きに戻って探索を繰り返す or 探索を終了する
14/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or 探索を終了する
- 16. • 設定した条件
• 検索エンジン:yahoo Japan
• 検索語句:都市に関連する語句
• Hakodate, sapporo, sendai, tokyo, yokohama, nagoya, osaka, kobe, fukuoka 計9ワード
• 対象形式:日本語
• 取得URI数:最大1,000件
• 取得Incoming link数:最大100件
• 探索方法:幅優先探索
※一度出現したURIは探索から除外する
16/28
[実験1]スモールワールドネットワークの検証
- 17. • 実験結果
• 母集号の大きさにばらつきはあるが、どのケースもべき分布
• 検索順位1位のページが全体の50%のものが3件
• 20%以上のものが全9件中6件ある
• 上位ページが単独でネットワーク全体からリンクを獲得
• 1000件中980件以上のページがわずか1%のリンクしか保有していない
• ハブの出現
• 優先的選択によってリンクが集中している
-‐> スケールフリー性
17/28
[実験1]スモールワールドネットワークの検証
- 19. • 設定した条件
• 検索エンジン:yahoo Japan
• 対象形式:日本語
• 取得AUTHORITY数:上位2件
• 取得弱い紐帯の候補数:最大300件
• 弱い紐帯とする閾値:入次数が50以上
• AUTHORITY抽出の閾値:入次数が1,000以上
分野 語句
都市 sapporo, sendai, tokyo, yokohama, nagoya, kyoto, osaka, kobe, hiroshima, hukuoka
自動車メーカ daihatsu, honda, mazda, mitsubishi, nissann, subaru, suzuki, toyota
家電メーカ fujitsu, hitatchi, NEC, sanyo, sharp, sony, toshiba
プログラミング言語 Basic, C, fortran, java, lisp, pascal, perl, PHP, javascript, prolog, python, ruby 19/28
[実験2]弱い紐帯の有用性の検証/実証
- 20. • 実験結果
• AUTHORITYの抽出に問題点
• 候補11,237中、AUTHORITYは274件発見、弱い紐帯は244件発見
• 手作業で確認すると、AUTHORITYのページは、ほとんどが有用でなかった
1. 掲載数の少ないリンク集ページ
2. アクセス解析やランキングシステムのアクセスページ
3. 同一ドメインやサブドメイン内の相互リンクからなる内部リンクが多いページ
• 以下のサイトをAUTHORITYから除外
• 弱い紐帯とAUTHORITYのドメインが同じもの、
• AUTHORITYがパスワードを求める管理画面であるもの
• リンク集ページ
AUTHORITY:274 -‐> 43
弱い紐帯:244 -‐> 42 に改善された
20/28
[実験2]弱い紐帯の有用性の検証/実証
- 21. • 具体例1 ー honda
• 開始AUTHORITY – HONDAのオフィシャルサイト
• 弱い紐帯にあたるページ – ASIMOに関するニュース記事
• 弱い紐帯から発見したAUTHORITY – 個人が運営する技術ブログ
• 具体例2 ー daihatsu
• AUTHORITYは主に昆虫の切手を扱う収集サイト
• このAUTHORITYから生成されたクラスタも、切手 or 昆虫のページがほとんど
有用なページでははあるものの、ユーザにとって有用なページとは言えない
21/28
[実験2]弱い紐帯の有用性の検証/実証
- 24. • クラスタのラベリング
• tf-‐idfを用いた文書解析 ー 時間がかかるためにwwwの解析に向かない
• KeyGraph ー 共起グラフを用いたキーワード抽出(大澤)
• 冠詞などを除去、すべての単語を用いる
• 処理速度は単語数Wに対して、実行速度は0(𝑊 @ log 𝑊)
• 集合知を活用したサービス(フォークソノミー)
• ワード間の相関度数を頻度に基づいて計算し、概念ネットワークを構築
24/28
[課題/今後]本研究の今後の方針
- 26. • リンク構造の分類による信頼性の向上
• ノードとエッジの関係性を解析することで、新しいリンクを追加
• より信頼度の高いネットワークを構築できる
• リンク構造のパタンを分類して同一サイト内のグループ化を行う(小島)
• 関連ページの抽出アルゴリズムを用いる「companion」(Dean)
• ウェブコミュニティチャート(豊田)
• 三角形の集合をコミュニティのコアとして抽出
• ノード間の関係性を、弱い紐帯の概念のような理由付けによる分類を行うこ
とで、信頼性のある分類手法を確立できるのではないか
26/28
[課題/今後]本研究の今後の方針