Pagerank Algorithm 20042521

1,112 views

Published on

정보검색시스템 페이지랭크알고리즘 발표 김진태

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,112
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Pagerank Algorithm 20042521

  1. 1. 페이지랭킹 by google<br />20042521 김진태<br />국민대학교<br />
  2. 2. PageRank gadget<br />http://www.sitepagerank.net/<br />
  3. 3. Motivation<br />웹 페이지의 상대적 중요성을 어떻게 추산할 것인가?<br />World Wide Web<br />Hypertext<br />기존 score알고리즘의 문제<br />임의의 조작 가능<br />
  4. 4. Link Structure of the Web<br />Forwardlink(out edges)<br />페이지를 다운받으면 포워드링크를 알 수 있음.<br />Backlink(in edges)<br />특정 페이지의 모든 백링크를 찾는 것은 불가능<br /><ul><li>Many Backlinks -> more important
  5. 5. Important page’s forwarlink -> more important
  6. 6. 어떤 페이지가 높은 랭크의 백링크를 많이 가질수록 그 페이지의 랭크도 올라간다.</li></li></ul><li>pagerank (단순화시킨 버전)<br />u = 웹페이지<br />Fu = u페이지가 가리키는 페이지의 집합<br />Bu = u페이지를 가리키는 페이지의 집합<br />Nu = |Fu| ; Fu의 개수<br />c = 노말라이제이션에 사용되는 팩터(c &lt; 1; 댕글링 링크)<br />
  7. 7. pagerank – rank sink<br />두 페이지가 서로 가리키고 있으며 다른 페이지로는 연결되어 있지 않은 경우<br />무한 루프에 빠져 랭크를 계속 계산하며 외부로 전혀 분산하지 못한다.<br />rank sink로부터 초래되는 문제를 해결하기 위해 rank source를 도입<br />source와 sink (그래프 이론 용어)<br />sink : 밖으로 나가는 링크가 없는 것<br />source : 안으로 들어오는 링크가 없고 밖으로 나가는 것만 잇는 것<br />
  8. 8. pagerank (랭크 소스 도입)<br />E(u) : 랭크의 소스에 해당하는 웹 페이지의 벡터 중 하나<br />Random Surfer Model<br />‘랜덤 서퍼’의 행동을 모델링한 것이 페이지랭크<br />실제 웹서퍼가rank sink를 만나 루프 내를 맴돌 가능성 -&gt; ZERO<br />실제 웹서퍼라면 다른 페이지로 점프할 것이다. -&gt; 부가적인 팩터E<br />
  9. 9. Dangling links problem<br />Dangling Links<br />외부로 나가는 링크가 없는 페이지를 가리키는 링크<br />Problem<br />dangling link의 가중치가 어디로 분산되고 있는지가 불분명<br />danglink link가 너무 많다.<br />다운로드한 문서가 100인 경우 100개의 문서에서 가리키는 링크의 문서를 모두 다운받기 어렵다.<br />Solution<br />dangling link 제거<br />모든 페이지 랭크가 계산될 때까지 무시<br />다른 링크의 노멀라이제이션이 영향을 받을 수는 있지만 크게 변화하지는 않는다.<br />페이지 랭크의 계산이 끝난 후 dangling link 첨가<br />
  10. 10. Implementation<br />부모ID를 이용해서 링크 구조를 정렬<br />댕글링 링크 제거<br />몇 번의 반복 작업만으로도 대부분의 댕글링 링크 제거 가능<br />랭크값 초기화<br />초기화 값을 잘 설정하면 수렴과정의 속도를 높일 수 있다.<br />가중치 수렴<br />현재 진행 중인 단계의 가중치는 메모리에 저장되고 전단계의 가중치는 디스크를 통해 리니어하게엑세스한다.<br />가중치 수렴 후, 댕글링 링크 추가 후 랭킹 재연산<br />
  11. 11. Convergence Properties<br />
  12. 12. 페이지랭크 적용 결과 비교<br />조건 : 1600만 페이지를 수집하여 제목만을 사용하는 검색<br />
  13. 13. Common Case<br />페이지랭크를 이용한 검색은 커먼케이스를 잘 처리하게 된다.<br />꽃을 검색하였을 때 단순히 꽃의 정보가 담긴 사이트가 아닌 꽃 판매 사이트를 출력하는 경우<br />
  14. 14. Personalized PageRank<br />E, 페이지랭크 연산의 중요 요소<br />랭크싱크처럼아웃엣지가 없는 싸이클을 보충하기 위한 랭크 소스 웹페이지의 벡터<br />
  15. 15. 페이지랭크의 적용<br />웹 트래픽의 추산<br />백 링크 예측자로써의 페이지랭크<br />사용자 네비게이션:페이지랭크 프락시<br />
  16. 16. 결론<br />페이지랭크<br />페이지의 컨텐트에 상관없이 오직 웹의 그래프 구조 상의 위치에만 의존하는 모든 웹 페이지의 글로벌 랭킹<br />‘중요한’페이지로부터의 백링크는 평균적인 페이지들로부터의 백 링크보다 더 중요하다.<br />재귀적인 정의를 통해 확실히 구현되어 있다.<br />페이지랭크 실험을 통해 웹 그래프의 구조가 정보검색 작업에서 매우 유용하다는 것을 증명하였다.<br />

×