0
Google検索システムにおける     PageRank手法(2)    M2 Jun HASHIMOTO                       1
参考文献について• Google PageRankの数理  – 共立出版,¥4725• 今日は第6~10章の内容  の説明です                       2
Agenda• 前回の質問回答・復習• PageRankの計算について – 固有値・計算速度 – 計算の高速化   • ぶら下がりノードの考慮・適応的ベキ乗法・凝集• PageRankの更新について – リンク更新におけるPageRankの更新...
内容得点と人気得点の比率• おそらく企業秘密(探しても分からず…) – http://www.imaginary-design.net/blog/archives/266  “ランク付け自体は内容得点(コンテンツスコア)と人気得点(ポピュラリ ...
[復習]総和方程式の行列表現• ハイパーリンク行列H(n*n)                                       1  – ノードi->jのリンクがあれば =                  ,それ以外0      ...
[復習]基本モデルに対する調整• ぶら下がり問題に対する解決策(確率的調整)                  1 –  =  +         ∗                     – a:ぶら下がりノードベクトル    • ぶら下が...
[復習]GoogleのPageRank調整手法•  +1  =    ,これだけ• Gに適用したベキ乗法で計算できる  – 最大の2つの固有値を1 , 2 とすると,漸近的な            2     収束の速さは,        -0...
1 = 1である理由• Gの固有値に1が存在…成分が全て1のベクト  ルpを適用するとGp=pとなる• 任意の行列Aに対し,絶対値が最大である固  有値をrとすると,以下が成り立つ – || ≦ max                    •...
2 ≒ である理由• Gの固有値:  = (1, 2 , 3 , …  )• Sの固有値:  = (1, 2 , 3 , …  )  – k=2,3,…nに対し =  が成立• Webの世界におけるリンク構造から,  ≒ 1  – これにより ...
正行列に対するペロンの定理• 正行列A,Aの固有値で絶対値が最大のもの  をrとすると,以下が成り立つ 1. rは正 2. rは単根 3.  = ,   0かつ    | |   = 1 となるベクトル    が唯一存在            ...
Google行列Gに対するペロンの定理• 確率行列においてr=1(次回説明) –  = に左から , 右から を乗算:  = • Google行列を用いたPageRankの更新式        +1             –         ...
ベキ乗法が優れている理由• 1回のGの乗算-ほぼ()              + 1 =                 1        =     + 1 −              =     + (    + 1 − )      ...
PageRank計算の高速化(1)• ぶら下がりノードの考慮    + 1 =     + (    + 1 − )              ND     D            11   12     ND   -このように行列を入れ替え...
PageRank計算の高速化(2)• 適応型ベキ乗法 – Kamvar et al.[2003]:一部分の”頑固な”ページの   収束に時間がかかり,それ以外はより速く収束す   ることを発見 –       −    −1    の際に要素i...
PageRank計算の高速化(3)-1  • 凝集    – WebPageのリンク構造を階層的に考える    – 例:       [Site A]www.hoge.com [Site B]www.huga.com              ...
PageRank計算の高速化(3)-2• 7つのノードを2つのノード(各サイト)へと凝集• ノード間での遷移確率を以下のように仮定         www.hoge.com                www.huga.com        ...
PageRank計算の高速化(3)-3• www.hoge.comのPageRankベクトル   [Site A]www.hoge.com                                    1 2   3 7   1    ...
PageRank計算の高速化(3)-4• www.huga.comのPageRankベクトル  [Site B]www.huga.com                                4   5   6   4         ...
PageRank計算の高速化(3)-5       www.hoge.com              www.huga.com           (0.3676 0.6324)        1           2           ...
PageRankの更新-1• PageRankはGoogleにより毎月更新(Google  Danceと呼ばれる) – Cho et al.[2000]:全ページの40%は一週間以内に   変更される• 更新における変更点 – i)ハイパーリン...
PageRankの更新-2• リンク更新を扱う近似更新「近似凝集」 – 更新前のPageRankベクトルを以下のように定義        = (1 , 2 , …  ) – 更新後のマルコフ連鎖状態空間Sを =  ∪ に分割      • 更新...
PageRankの更新-3• 近似凝集を用いた近似更新        11        12                      =                                 =        21    1 − ...
Thank you for Listening!!!                             23
Upcoming SlideShare
Loading in...5
×

Google PageRank 0706

2,207

Published on

google page rank #2

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,207
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
13
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Google PageRank 0706"

  1. 1. Google検索システムにおける PageRank手法(2) M2 Jun HASHIMOTO 1
  2. 2. 参考文献について• Google PageRankの数理 – 共立出版,¥4725• 今日は第6~10章の内容 の説明です 2
  3. 3. Agenda• 前回の質問回答・復習• PageRankの計算について – 固有値・計算速度 – 計算の高速化 • ぶら下がりノードの考慮・適応的ベキ乗法・凝集• PageRankの更新について – リンク更新におけるPageRankの更新※今日はスライドが黒いです(数式多め) 3
  4. 4. 内容得点と人気得点の比率• おそらく企業秘密(探しても分からず…) – http://www.imaginary-design.net/blog/archives/266 “ランク付け自体は内容得点(コンテンツスコア)と人気得点(ポピュラリ ティスコア)の合計である合計得点(オーバーオールスコア)によって順 位付けが導き出されるのですが、内容(内部)と人気(リンク)のそれぞ れに対する配点は、その時々によって変化していきます。 今のgoogleの流れは確実に内容重視になってきているというだけで、良 質なコンテンツを創っていくことも立派なSEOなわけです。” 4
  5. 5. [復習]総和方程式の行列表現• ハイパーリンク行列H(n*n) 1 – ノードi->jのリンクがあれば = ,それ以外0 | | • :ページ からの出リンクの個数• PageRankベクトルπ(1*n) +1 • (2)式の行列表現: = – Hは疎な行列 – 平均的なwebページは出リンクが10個 • O(10n)の計算量 5
  6. 6. [復習]基本モデルに対する調整• ぶら下がり問題に対する解決策(確率的調整) 1 – = + ∗ – a:ぶら下がりノードベクトル • ぶら下がりノードなら = 1,そうでなければ0 – この調整により,Sは確率的(stochastic)となる• 収束性の保証のための調整(原始的調整) 1 – = + 1 − ∗ ∗ – G:Google行列 テレポーテーション行列E – α:パラメータ(ハイパーリンクに従う時間の比率) 6
  7. 7. [復習]GoogleのPageRank調整手法• +1 = ,これだけ• Gに適用したベキ乗法で計算できる – 最大の2つの固有値を1 , 2 とすると,漸近的な 2 収束の速さは, -0の速さ 1 – Google行列では1 = 1, 2 ≦ であるため, が おおよその収束の目安となる 7
  8. 8. 1 = 1である理由• Gの固有値に1が存在…成分が全て1のベクト ルpを適用するとGp=pとなる• 任意の行列Aに対し,絶対値が最大である固 有値をrとすると,以下が成り立つ – || ≦ max • Gにおいて,任意の行に対し, =1 • || ≦ 1,r=1が存在するため,最大固有値は1 8
  9. 9. 2 ≒ である理由• Gの固有値: = (1, 2 , 3 , … )• Sの固有値: = (1, 2 , 3 , … ) – k=2,3,…nに対し = が成立• Webの世界におけるリンク構造から, ≒ 1 – これにより ≒ が示される 9
  10. 10. 正行列に対するペロンの定理• 正行列A,Aの固有値で絶対値が最大のもの をrとすると,以下が成り立つ 1. rは正 2. rは単根 3. = , 0かつ | | = 1 となるベクトル が唯一存在 10
  11. 11. Google行列Gに対するペロンの定理• 確率行列においてr=1(次回説明) – = に左から , 右から を乗算: = • Google行列を用いたPageRankの更新式 +1 – = • :定常ベクトル=PageRankベクトル 11
  12. 12. ベキ乗法が優れている理由• 1回のGの乗算-ほぼ() + 1 = 1 = + 1 − = + ( + 1 − ) O(n)の計算量 Hは非常に疎(Sparse):1行あたり10個ほどの成分 -O(10n)の計算量• 固有値計算のアルゴリズム:どんなに頑張って も(2 ) 12
  13. 13. PageRank計算の高速化(1)• ぶら下がりノードの考慮 + 1 = + ( + 1 − ) ND D 11 12 ND -このように行列を入れ替えてやる = ( ) D ND(Not dangling):非ぶら下がりノード D(dangling):ぶら下がりノード の計算量を削減可能 13
  14. 14. PageRank計算の高速化(2)• 適応型ベキ乗法 – Kamvar et al.[2003]:一部分の”頑固な”ページの 収束に時間がかかり,それ以外はより速く収束す ることを発見 – − −1 の際に要素iの計算を止める – 問題点:収束に関する証明がない • 途中で計算を止めた要素が本当の収束値か不明 – とはいえベキ乗法によるPageRank計算の高速化 に,現実的な貢献をしている 14
  15. 15. PageRank計算の高速化(3)-1 • 凝集 – WebPageのリンク構造を階層的に考える – 例: [Site A]www.hoge.com [Site B]www.huga.com 1 2 4 5 7 3 6ページ1~7までのPageRankの計算 www.hoge.com www.huga.com hoge.comとhuga.com 各サイト内の + 間のPageRankの計算 PageRankの計算 15
  16. 16. PageRank計算の高速化(3)-2• 7つのノードを2つのノード(各サイト)へと凝集• ノード間での遷移確率を以下のように仮定 www.hoge.com www.huga.com 0.04 1 0.96 1 2 α = 0.9, = (0.5 0.5)の時, 1 0.96 0.04 ( ) 定常ベクトルは(0.3676 0.6324) 2 0 1 HostRankベクトルと呼ぶ 16
  17. 17. PageRank計算の高速化(3)-3• www.hoge.comのPageRankベクトル [Site A]www.hoge.com 1 2 3 7 1 2 0 1 0 0 1 0 0 1 0 2 1 = 1/3 1/3 0 1/3 3 0 0 0 0 7 7 3 α = 0.9, = (0.25 0.25 0.25 0.25)の時, PageRankベクトルは(0.1671 0.3175 0.3483 0.1671) 17
  18. 18. PageRank計算の高速化(3)-4• www.huga.comのPageRankベクトル [Site B]www.huga.com 4 5 6 4 5 0 1 0 4 1 = 0 0 1 5 1 0 0 6 6 α = 0.9, = (1/3 1/3 1/3)の時, PageRankベクトルは(1/3 1/3 1/3) 18
  19. 19. PageRank計算の高速化(3)-5 www.hoge.com www.huga.com (0.3676 0.6324) 1 2 4 5 7 3 6 (0.1671 0.3175 0.3483 0.1671) (1/3 1/3 1/3)• 3つの定常ベクトルから近似のPageRankベクトル を算出 = (0.3676 0.1671 0.3175 0.3483 0.1671 0.6324(1/3 1/3 1/3 )) = (0.0614 0.1167 0.1280 0.0614 0.2108 0.2108 0.2108) 凝集が機能し,計算量を減らすことができる = (0.0538 0.1022 0.1132 0.0538 0.2271 0.2256 0.2242) 19
  20. 20. PageRankの更新-1• PageRankはGoogleにより毎月更新(Google Danceと呼ばれる) – Cho et al.[2000]:全ページの40%は一週間以内に 変更される• 更新における変更点 – i)ハイパーリンクの追加・削除(Hの要素のみ変更) – ii)ページの追加・削除(Gの大きさそのものが変更) 20
  21. 21. PageRankの更新-2• リンク更新を扱う近似更新「近似凝集」 – 更新前のPageRankベクトルを以下のように定義 = (1 , 2 , … ) – 更新後のマルコフ連鎖状態空間Sを = ∪ に分割 • 更新後のGoogle行列,PageRankベクトルを以下のように 表す :更新後に定常確率が一定の影響を受けるノード 12 :更新後も定常確率が著しい影響を受けないノード = 11 21 22 = (1 , 2 , … |+1 , +2 , … ) の中で,に属するノードの PageRankを行ベクトル とする 21
  22. 22. PageRankの更新-3• 近似凝集を用いた近似更新 11 12 = = 21 1 − 21 – :(l+1)*(l+1)行列 – に対する定常ベクトル = 1 , 2 , … +1 • 正確なPageRankベクトルに対する近似ベクトル は以下のように表せる = 1 , 2 , … | 22
  23. 23. Thank you for Listening!!! 23
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×