リンク予測の話 2012/03/07  @y_benjo
今日話すのは• リンク予測のチュートリアル• 識別モデルベース• ランダムウォークベース• Supervised Random Walks:Predicting  and Recommending Links in Social  Networks
リンク予測• グラフにおいて,2ノード間にリンクが    あるかどうかを予測する    • 時刻tのグラフから時刻t のグラフを予測   B     する              ???          X         YA
何が嬉しいか• SNSにおける友人関係の予測• PPI(Protein-Protein Interaction) • タンパク質間の反応予測
定番のアプローチ• 識別モデルベース• グラフ構造から特徴量を構築し,分類 器に突っ込む• 2ノードu, vに関する特徴量を構築し,u,  v間にエッジがあるかどうかを予測する• 代表的な特徴量を紹介
ローカルな特徴量•   をxの隣接ノードとすると• Common neighbors• Jaccard• Adamic/Adar• Preferential attachment
Adamic/Adar  X        Y           Z2      Z1
グローバルな特徴量• Katz                    closed• rooted PageRank • xから開始したランダムウォークがyに留   まる確率• Hitting time • xからyへ到達するのにかかる平均時間...
行列分解系• 隣接行列をSVDで低次元行列に• ノイズが減って良い
その他の特徴量• t→t での予測であることを考える •   グラフに時間情報があるとした場合• Recency [Potgieter+, 07] • 最後につながってからの経過時間• activeness [Huang, 10] • tにおい...
コンペティション• IJCNN Social Network Challenge• ノード情報なしのグラフーデータが与えら れてリンクがあるかどうかを予測するコン ペティション • 1133547ノード,7237983エッジ • ソースはFli...
de-anonymize• 優勝チームが取ったアプローチは全く異 なる • そもそも匿名化の専門家がチームにいる• Flickr100万idをクロールし,コンペ用 のデータと突き合わせて匿名化されたid を特定(de-anonymize) • ...
ランダムウォークベース• PropFlow [Lichtenwalter+, 10]• Lステップで打ち切るランダムウォーク    でスコアを振る    • ベンチマーク•   https://github.com/TrainingCamp20...
Supervised RW• ここまではグラフ構造からのみ予測す る論文• ノード/エッジの特徴量も使って予測す る• ノード: 性別,年齢,趣味• エッジ: どういう関係か,同じ写真に何度  登場したか
そもそもの問題点• グラフがスパースな事• fbで友達になるのは外的要因がある• 同じパーティに参加した,とか• アプローチとして• 識別ベース: 特徴量作るのがめんどくさ  い,そもそもimbalance• RWベース: 楽,隣接ノードを辿る...
SRW• ノード対(u, v)について,ランダム ウォーク後の定常確率pを予測する問題 を解く• 具体的には遷移確率をa_{u,v} = f_w (ψ_{u,v})として,このwの重みを予測 する• これ以上はホワイトボードで
References•   [Kleinberg, 03] The link prediction problem for social networks,    David Liben-Nowell and Jon Kleinberg, CI...
Upcoming SlideShare
Loading in …5
×

Link prediction

4,384 views

Published on

Published in: Technology

Link prediction

  1. 1. リンク予測の話 2012/03/07 @y_benjo
  2. 2. 今日話すのは• リンク予測のチュートリアル• 識別モデルベース• ランダムウォークベース• Supervised Random Walks:Predicting and Recommending Links in Social Networks
  3. 3. リンク予測• グラフにおいて,2ノード間にリンクが あるかどうかを予測する • 時刻tのグラフから時刻t のグラフを予測 B する ??? X YA
  4. 4. 何が嬉しいか• SNSにおける友人関係の予測• PPI(Protein-Protein Interaction) • タンパク質間の反応予測
  5. 5. 定番のアプローチ• 識別モデルベース• グラフ構造から特徴量を構築し,分類 器に突っ込む• 2ノードu, vに関する特徴量を構築し,u, v間にエッジがあるかどうかを予測する• 代表的な特徴量を紹介
  6. 6. ローカルな特徴量•   をxの隣接ノードとすると• Common neighbors• Jaccard• Adamic/Adar• Preferential attachment
  7. 7. Adamic/Adar X Y Z2 Z1
  8. 8. グローバルな特徴量• Katz closed• rooted PageRank • xから開始したランダムウォークがyに留 まる確率• Hitting time • xからyへ到達するのにかかる平均時間 • [Mei, 2008]のとは違うっぽい• SimRank
  9. 9. 行列分解系• 隣接行列をSVDで低次元行列に• ノイズが減って良い
  10. 10. その他の特徴量• t→t での予測であることを考える • グラフに時間情報があるとした場合• Recency [Potgieter+, 07] • 最後につながってからの経過時間• activeness [Huang, 10] • tにおいてつながったノード数• Interplay [Qiu, 11] • ノード間のjoint probabilityを求めるとか
  11. 11. コンペティション• IJCNN Social Network Challenge• ノード情報なしのグラフーデータが与えら れてリンクがあるかどうかを予測するコン ペティション • 1133547ノード,7237983エッジ • ソースはFlickrであることがアナウンスさ れる• 大多数のチームはグラフから特徴量を工夫 しながら生成し識別モデルで解く
  12. 12. de-anonymize• 優勝チームが取ったアプローチは全く異 なる • そもそも匿名化の専門家がチームにいる• Flickr100万idをクロールし,コンペ用 のデータと突き合わせて匿名化されたid を特定(de-anonymize) • 80%ほど特定できたとか
  13. 13. ランダムウォークベース• PropFlow [Lichtenwalter+, 10]• Lステップで打ち切るランダムウォーク でスコアを振る • ベンチマーク• https://github.com/TrainingCamp2012/ seiyu_prediction/blob/master/scripts/ link_prediction.rb
  14. 14. Supervised RW• ここまではグラフ構造からのみ予測す る論文• ノード/エッジの特徴量も使って予測す る• ノード: 性別,年齢,趣味• エッジ: どういう関係か,同じ写真に何度 登場したか
  15. 15. そもそもの問題点• グラフがスパースな事• fbで友達になるのは外的要因がある• 同じパーティに参加した,とか• アプローチとして• 識別ベース: 特徴量作るのがめんどくさ い,そもそもimbalance• RWベース: 楽,隣接ノードを辿るのでス パースに対応できる.が,どうやって特徴 量を利用する?
  16. 16. SRW• ノード対(u, v)について,ランダム ウォーク後の定常確率pを予測する問題 を解く• 具体的には遷移確率をa_{u,v} = f_w (ψ_{u,v})として,このwの重みを予測 する• これ以上はホワイトボードで
  17. 17. References• [Kleinberg, 03] The link prediction problem for social networks, David Liben-Nowell and Jon Kleinberg, CIKM 2003• [Potgieter+, 07] Temporality in Link Prediction: Understanding Social Complexity, A. Potgieter, Kurt April, R.J.E. Cooke, I.O. Osunmakinde, Sprouts: Working Papers on Info. Sys 2007• [Huang, 10] The Time-Series Link Prediction Problem with Applications in Communication Surveillance, Zan Huang, Dennis K J Lin, INFORMS2010• [Qiu+, 11] Evolution of Node Behavior in Link Prediction, Baojun Qiu, Qi He, and John Ye, AAAI2011• [Lichtenwalter+, 10] New Perspectives and Methods in Link Prediction, Ryan N. Lichtenwalter, Jake T. Lussier, and Nitesh V. Chawla, KDD 2010• [Backstorm, 11] Supervised Random Walks: Predicting and Recommending Links in Social Networks, Lars Backstrom and Jure Leskovec, WSDM2011• de-anonymizeの話 → http://d.hatena.ne.jp/repose/ 20110125/1295929405

×