SlideShare a Scribd company logo
今日の内容
• [論文]弱い紐帯の概念を用いた情報検索システムに関する研究
• 今後の予定
1/28
弱い紐帯の概念を用いた
情報検索システムに関する研究
• 概要
• WWWが複雑ネットワークの特性を持つことに着目し、従来の検索システム
では到達が困難であった有益な情報の抽出技術に関する手法を提案する
• 本研究が達成すべき課題
1. wwwに弱い紐帯にあたるページが存在することを示す
• それらのページが有用な情報をもたらす仲介役を担っていることを示す
2. wwwから自動的に弱い紐帯にあたるページを発見し、同定する
• 従来手法で用いられる文書解析を用いず、リンクによるネットワーク解析から同定する
2/28
[先行研究]蝶ネクタイ構造
1. SCC(Ctrongly Connected  Component)
• それぞれが有効パスで連結し、元のページに帰ってくることができる
2. IN(比較的新しいサイトが含まれる)
• SCCへと遷移できるが、SCCからは遷移できない
• SCCへ向かわずに、袋小路へ遷移していくリンクを含む(TENDRILS)
3. OUT(企業サイトが含まれる)
• SCCへは遷移できないが、SCCからは遷移できる
4. それ以外
• 非連結成分 -­‐ どのページにも遷移しない
• TENDRILS  – IN、OUTページに接続する
• TUBES  -­‐ SCCへ遷移せず、直接INからOUTに接続する
3/28
4/28
[先行研究]蝶ネクタイ構造
[先行研究]弱い紐帯
• 弱い紐帯
• 直接の関連はないが、ノードを介してつながっている
-­‐>  異なる親密なコミュニティ同士の橋渡しを担うことができる
関連がある
可能性が高い
5/28
[先行研究]従来の検索アルゴリズム
1. HITSアルゴリズム
• ノードの重み付けにauthorithyとhubnessを導入
• Authority(重要性)  -­‐ 他のページから多くリンクされている
-­‐>  多くのhubnessからリンクを獲得している
• Hubness(拠点性)  -­‐ 内部リンクの重要度が高い
-­‐>  多くのAUTHORITYへの内部リンクを持っている
2. PageRank
1. 重要なページは重要なページからのリンクを多く獲得する
𝑃𝑅 𝑝$ =  
1   −   𝑑
𝑁
+ 𝑑 ,
𝑃𝑅(𝑝.)
𝐿(𝑝.)
1
23∈5(67)
𝑁 =  対象とするすべてのページ
𝑃𝑅 𝑝. = 各ページ𝑝$にリンクしているjの𝑃𝑎𝑔𝑒𝑅𝑎𝑛𝑘
𝐿(𝑝.) =  ページ𝑝.に含まれる他のページへのリンクの総数
d  =  減衰因子(恣意的にPageRankを上げようとするページに対し小さな値を設定して対応する) 6/28
[先行研究]弱い紐帯の発見方法
• WWW上からの弱い紐帯の発見する手法
• 複数のキーワードを組み合わせた検索結果によるページ集合の共通部分を
解析することによって実現
• クラスタ間を結びつける特徴的なページの候補
1. 検索順位が低く、incoming  link(そのページへのリンク)が存在しないページ
-­‐>  有用ではない可能性が高い
2. 検索順位が高く、多くのincoming  linkを有するAUTHORITYのページ
-­‐>  強い紐帯の候補である可能性が高い
3. 検索順位が低く、被リンクも少ないがAUTHORITYからリンクされているページ
-­‐>  弱い紐帯である可能性が高い
7/28
[提案モデル]弱い紐帯の発見プロセス
• 弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  あるいは探索を終了する
初期ネットワーク …  ネットワークからある基準をもとに抽出された部分集合
開始ノード …  初期ネットワークにおけるAUTYORITYから選ばれたノード
初期ノード …  初期ネットワークに含まれるノード集合
弱い紐帯の候補群 …  開始ノードのエッジに接続したノードのうち、初期ノードではないもの
クラスタ …  あるノードに接続するノードから得られるノード集合
8/28
1.初期ネットワークからAUTHORITYを発見
• ある基準をもとに初期ノードを抽出する
• 各ノードが保有するリンクの数を調べる
• ある閾値以上のリンクを有するノードをAUTHORITYと同定する
• 閾値によっては、複数のAUTHORITYが発見されたり、
あるいはAUTHORITYが発見できない可能性もある
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
9/28
[提案モデル]弱い紐帯の発見プロセス
2.初期ネットワーク外に存在する弱い紐帯の候補群の発見
• AUTHORITYの保有するノードを抽出する
• 上記の中で、初期ネットワークに所属しないノードを抽出する
10/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
3.候補群の接続エッジ数の検索による絞り込み
• 弱い紐帯の候補群のノードのエッジ数から以下の規則により絞り込む
• 候補ノード自身がAUTHORITYである
-­‐>  1で適応したAUTHORITY同定の閾値を適用
• 保有エッジ数が1である(接続先が、接続元のノードのみ)
11/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
4.候補群の接続先ノードの検索による弱い紐帯の同定
• 弱い紐帯の候補群のノードの接続先ノードの保有リンク数を取得する
• 接続先ノードがAUTHORITYならば候補ノードを弱い紐帯と同定する
12/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
5.クラスタの取得、ネットワークの構成
• 弱い紐帯経由で発見したAUTHORITYをもとに、クラスタを取得する
• 初期ノード、弱い紐帯、クラスタに所属するノードでネットワークの部分集合を構成
13/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
6.初期ネットワークを設定し、2に戻る or  探索を終了する
• 取得した新たなクラスタを初期ネットワークとして設定する
• 2の手続きに戻って探索を繰り返す or  探索を終了する
14/28
[提案モデル]弱い紐帯の発見プロセス
1. 初期ネットワークからAUTHORITYを発見
2. 初期ネットワーク外に存在する弱い紐帯の候補群の発見
3. 候補群の接続エッジ数の検索による絞り込み
4. 候補群の接続先ノードの検索による弱い紐帯の同定
5. クラスタの取得、ネットワークの構成
6. 初期ネットワークを設定し、2に戻る or  探索を終了する
[実験1]スモールワールドネットワークの検証
• スモールワールドネットワークの検証
• wwwが複雑ネットワークの特性を有しているかどうかを確認する
• 解析手順
• 検索語句に対する検索結果の取得
• それぞれの取得URIへのincoming  linkを取得する(第一階層)
• 第一階層にいおて取得したURIへのincoming linkを取得する(第二階層)
• 設定階層にたどり着くまで上記を繰り返す(第N階層)
15/28
• 設定した条件
• 検索エンジン:yahoo  Japan
• 検索語句:都市に関連する語句
• Hakodate,  sapporo,  sendai,  tokyo,  yokohama,  nagoya,  osaka,  kobe,  fukuoka 計9ワード
• 対象形式:日本語
• 取得URI数:最大1,000件
• 取得Incoming  link数:最大100件
• 探索方法:幅優先探索
※一度出現したURIは探索から除外する
16/28
[実験1]スモールワールドネットワークの検証
• 実験結果
• 母集号の大きさにばらつきはあるが、どのケースもべき分布
• 検索順位1位のページが全体の50%のものが3件
• 20%以上のものが全9件中6件ある
• 上位ページが単独でネットワーク全体からリンクを獲得
• 1000件中980件以上のページがわずか1%のリンクしか保有していない
• ハブの出現
• 優先的選択によってリンクが集中している
-­‐>  スケールフリー性
17/28
[実験1]スモールワールドネットワークの検証
[実験2]弱い紐帯の有用性の検証/実証
• 弱い紐帯の有用性の検証
• wwwに弱い紐帯が存在することを示す
• 弱い紐帯経由で得たコンテンツが有用であることを示す
• 実験手法
1. AUTHORITYを発見する
2. AUTHORITYへの日リンクページを収集し、入次数を調査する
3. 入次数が0、閾値以上のページを除外する
4. 弱い紐帯の候補に対し非リンクページを収集し入次数を調査する
5. 4の非リンクページに対し、入次数が閾値以上であればAUTHORITYと同定
し、リンクもとのページを弱い紐帯であると同定する
18/28
• 設定した条件
• 検索エンジン:yahoo  Japan
• 対象形式:日本語
• 取得AUTHORITY数:上位2件
• 取得弱い紐帯の候補数:最大300件
• 弱い紐帯とする閾値:入次数が50以上
• AUTHORITY抽出の閾値:入次数が1,000以上
分野 語句
都市 sapporo, sendai,  tokyo,  yokohama,  nagoya,  kyoto,  osaka,  kobe,  hiroshima,  hukuoka
自動車メーカ daihatsu,  honda, mazda,  mitsubishi,  nissann,  subaru,  suzuki,  toyota
家電メーカ fujitsu,  hitatchi,  NEC,  sanyo,  sharp,  sony,  toshiba
プログラミング言語 Basic,  C,  fortran,  java,  lisp,  pascal,  perl,  PHP,  javascript, prolog,  python,  ruby 19/28
[実験2]弱い紐帯の有用性の検証/実証
• 実験結果
• AUTHORITYの抽出に問題点
• 候補11,237中、AUTHORITYは274件発見、弱い紐帯は244件発見
• 手作業で確認すると、AUTHORITYのページは、ほとんどが有用でなかった
1. 掲載数の少ないリンク集ページ
2. アクセス解析やランキングシステムのアクセスページ
3. 同一ドメインやサブドメイン内の相互リンクからなる内部リンクが多いページ
• 以下のサイトをAUTHORITYから除外
• 弱い紐帯とAUTHORITYのドメインが同じもの、
• AUTHORITYがパスワードを求める管理画面であるもの
• リンク集ページ
AUTHORITY:274  -­‐>  43
弱い紐帯:244  -­‐>  42 に改善された
20/28
[実験2]弱い紐帯の有用性の検証/実証
• 具体例1 ー honda
• 開始AUTHORITY  – HONDAのオフィシャルサイト
• 弱い紐帯にあたるページ – ASIMOに関するニュース記事
• 弱い紐帯から発見したAUTHORITY  – 個人が運営する技術ブログ
• 具体例2 ー daihatsu
• AUTHORITYは主に昆虫の切手を扱う収集サイト
• このAUTHORITYから生成されたクラスタも、切手 or  昆虫のページがほとんど
有用なページでははあるものの、ユーザにとって有用なページとは言えない
21/28
[実験2]弱い紐帯の有用性の検証/実証
• 弱い紐帯の同定手法に対する妥当性
• そもそもが狭い分野の場合、母集団が少ないためにAUTHORITY、弱い紐帯
も限られている
• AUTHORITY同定のStepを追加したことで、さらにAUTHORITYとなるページは限られる
• 弱い紐帯を発見できないケースもある
-­‐>  開始AUTHORITYを変更することで、弱い紐帯を発見できる可能性がある
• 一般的にwwwにおいて隠れた情報を探し出すのは難しい
• 弱い紐帯を用いた検索手法でも従来の検索システムと同じ結論
22/28
[実験2]弱い紐帯の有用性の検証/実証
[課題/今後]本研究の課題
• 課題
• キーワードの関連や類似ページの検索に役立つ
• 目的を持たないウェブサーフィン、発送支援、関連情報の自動収集など
• 直接的な「解」を求める場合の検索には向かない
• 検索時間が長い
• 一つの検索語句につき、20分程度かかる
23/28
• クラスタのラベリング
• tf-­‐idfを用いた文書解析 ー 時間がかかるためにwwwの解析に向かない
• KeyGraph ー 共起グラフを用いたキーワード抽出(大澤)
• 冠詞などを除去、すべての単語を用いる
• 処理速度は単語数Wに対して、実行速度は0(𝑊 @ log 𝑊)
• 集合知を活用したサービス(フォークソノミー)
• ワード間の相関度数を頻度に基づいて計算し、概念ネットワークを構築
24/28
[課題/今後]本研究の今後の方針
• 関係性の属性情報の付与
• ノード間の情報の関連性を知ることが大きな検索の手助けになる
• 複雑ネットワークの特性を抽出する ー 本研究では、エッジの関係性の付加
• ノード間の関係性の度合いについて解析する
• 事前に弱い紐帯ではない関係を除去することができる
-­‐>  関連性の高いクラスタのみを抽出することができる(本研究の改善案)
25/28
[課題/今後]本研究の今後の方針
• リンク構造の分類による信頼性の向上
• ノードとエッジの関係性を解析することで、新しいリンクを追加
• より信頼度の高いネットワークを構築できる
• リンク構造のパタンを分類して同一サイト内のグループ化を行う(小島)
• 関連ページの抽出アルゴリズムを用いる「companion」(Dean)
• ウェブコミュニティチャート(豊田)
• 三角形の集合をコミュニティのコアとして抽出
• ノード間の関係性を、弱い紐帯の概念のような理由付けによる分類を行うこ
とで、信頼性のある分類手法を確立できるのではないか
26/28
[課題/今後]本研究の今後の方針
論文を読んで…
• wwwネットワークに複雑ネットワークの性質を適応することで新しい
検索システムの手法を模索できる
• ネットワークのリンク構造を解析することによっても検索手法の改善
は行うことができる
• しかし、リンクやクラスタの関係性を考慮する場合は、自然言語処理
の技術が必要となる
• ネットワーク構造を基にした手法も、自然言語処理を用いた手法も、
双方ともに検索システムとしては処理速度がボトルネックとなる
27/28

More Related Content

Similar to Lab-ゼミ資料-3-20150421

マイニング探検会#04
マイニング探検会#04マイニング探検会#04
マイニング探検会#04Yoji Kiyota
 
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)Ikki Ohmukai
 
LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413
Yuki Ogasawara
 
Anemoneによるクローラー入門
Anemoneによるクローラー入門Anemoneによるクローラー入門
Anemoneによるクローラー入門
Tasuku Nakano
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストMasao Takaku
 
Organizing of Information Resources = 情報資源組織論.12
Organizing of Information Resources = 情報資源組織論.12Organizing of Information Resources = 情報資源組織論.12
Organizing of Information Resources = 情報資源組織論.12
Hakudou Fukuda
 
Lab-ゼミ資料-4-20150430
Lab-ゼミ資料-4-20150430Lab-ゼミ資料-4-20150430
Lab-ゼミ資料-4-20150430
Yuki Ogasawara
 

Similar to Lab-ゼミ資料-3-20150421 (7)

マイニング探検会#04
マイニング探検会#04マイニング探検会#04
マイニング探検会#04
 
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
 
LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413LAB-ゼミ資料-1-20150413
LAB-ゼミ資料-1-20150413
 
Anemoneによるクローラー入門
Anemoneによるクローラー入門Anemoneによるクローラー入門
Anemoneによるクローラー入門
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
 
Organizing of Information Resources = 情報資源組織論.12
Organizing of Information Resources = 情報資源組織論.12Organizing of Information Resources = 情報資源組織論.12
Organizing of Information Resources = 情報資源組織論.12
 
Lab-ゼミ資料-4-20150430
Lab-ゼミ資料-4-20150430Lab-ゼミ資料-4-20150430
Lab-ゼミ資料-4-20150430
 

Lab-ゼミ資料-3-20150421