8. Google Arama
Motoru
●
Larry Page ve
Sergey Brin
tarafından
geliştirilmiştir.
●
Günlük 2 milyar
arama
●
En çok kullanılan
arama motoru
●
50 milyon değişken
9. PageRank
Algoritması
●
Çıkış noktası, Rus
matematikçi Andrei
Markov tarafından
geliştirilen Markov
Zincirlerine dayanır.
●
Sayılabilir
durumlar ve bu
durumların
birbirleriyle olan
12. Rastgele Web Surf
Prensibi
●
Algoritma rastgele
web surf prensibini
kullanır.
●
2 temel varsayıma
dayanır:
– Kullanıcının bir
sonraki ziyaret
edeceği web
sayfası kendi
üzerindeki
13. ●
Ağ içindeki n adet web sayfası
için algoritma n x n'lik bir
hiper matris oluşturur.
●
Graf içindeki node'lar web
sayfalarını, kenarlar ise web
sayfalarından birbirine
olan bağlantıları (linkleri)
temsil eder.
●
Çift yönlü kenarlar, web
sayfalarından herbirinden
diğerine birer bağlantı
olduğunu gösterir.
14. ●
hij değeri i, j Є {1, 2, 3, ...,
n} olmak üzere, j web
sayfasından i web
sayfasına tek geçişle
(veya tek tıklamayla)
geçiş yapabilme ihtimalini
gösterir.
●
j web sayfası üzerinde k
adet bağlantı olduğunu
varsayarsak
– j web sayfasından i
web sayfasına
15. ●
Örnek 1 için kurulan ağ
içindeki web sayfaları A=1,
B=2, C=3, D=4, E=5 ve F=6
olarak numaralandırılırsa
bir sonraki muhtemel web
sayfası ziyaret
ihtimallerini gösteren H
hipermatrisi aşağıdaki gibi
elde edilir:
16. Dangling Node
●
Kendi içerisinde başka
bir web sayfasına
bağlantı içermeyen web
sayfaları graf
içerisinde dangling node
olarak adlandırılır.
●
Rastgele web surf'ü
sonlandıran
node'lardır.
●
H hipermatrisinde kendi
17. ●
pij notasyonu i adımla j
web sayfasına ulaşma
ihtimalini göstermek için
kullanılmaktadır.
●
ise i. Ihtimal dağ ıtım vektörü olarak
adlandırılır.
●
Başlangıç ihtimal vektörü
ise bulunulan web sayfası
için 1, diğer web sayfaları
için 0 değerini taşıyan
matrise denktir.
18. ●
Bu noktadan sonra
aşağıdaki soruların akla
gelmesi muhtemeldir:
– k adım (veya k
tıklama)
sonrasında
oluşacak ihtimal
dağıtım vektörü
bulunabilir mi?
– Kullanıcının uzun
19. ●
Kullanıcının A web
sayfasından rastgele
surf'üne başladığı
varsayılırsa başlangıç
ihtimal vektörü
olur.
●
A web sayfası üzerinde B,
C, D ve F web sayfalarına
bağlantı barındırdığında bu
sayfalara erişim ihtimali ¼
olarak bulunur. E web
20. ●
Bu durumda aşağıdaki eşitlik
elde edilebilir:
Benzer şekilde pk =? Hpk-1
yazılabilir mi?
21. İ kinci Hareket
Durumu
●
Bunun için aynı örnek
üzerinden 2. hareket (veya
tıklama) sonucunda
oluşacak duruma bakalım:
●
İkinci hareket sonrasında
kullanıcının herbir web
sayfasına erişim ihtimali
kullanıcının ilk adımda
nasıl bir yol izleyeceğine
bağlıdır.
●
Kullanıcının ikinci hareket
sonrasında;
22. ●
C web sayfasına bağlantı
sadece A ve E web
sayfalarından mümkündür.
İlk hareket sonrasında A
ve E web sayfalarında
bulunma ihtimali
olmadığından bu ihtimal de
yoktur.
●
Kullanıcının D web
sayfasına ulaşması için A →
C → D yolu ile 1/8 ihtimal
veya A → B → D yolu ile
23. ●
Kullanıcının F web
sayfasında olabilmesi A →
B → F yolu ile mümkündür
ve bu ihtimal
olarak
bulunur.
●
Örnek 1'deki graf dangling
node içermediğinden ikinci
adım sonrasında kullanıcı
mutlaka bir web
sayfasında bulunmalıdır.
Bu durumda
24. ●
Sonuç olarak ikinci
hareket sonrası ihtimal
dağıtım vektörü şu şekilde
olmaktadır:
●
Yukarıdaki eşitliğe dikkat
edilirse H hiper matrisinin
ilk satırı ile bir önceki
ihtimal dağıtım vektörünün
25. ●
Örnek 1 için ilk 20 ihtimal
vektörü aşağıdaki gibi
olmaktadır:
Elde edilen bu ∏
vektörüne sabit
dağ ıtım vektörü denir ve
uzun soluklu bir
surf sonucunda
kullanıcının ağ
26. Karş ılaş ılan Sorunlar
● Dangling Problemi
– Ağ içerisinde başka
hiçbir web
sayfasına bağlantı
bulundurmayan
node bulunması
durumunda
gerçekleşir.
● Tuzak Döngü Problemi (Trapping Loop
Problem)
– Ağ içerisinde
27. Dangling
Problemi
Örnek 2
Dikkat edilirse B ve F web sayfaları
arasındaki tek bağ lantı birbirleriyle
28. ●
Bu durumda H hipermatrisi
aşağıdaki gibi elde edilir:
●
Dikkat edilirse, F web
sayfasını temsil eden son
sutün, F web sayfası diğer
29. ●
Kullanıcı Örnek 1'deki A web
sayfasından rastgele
surf'üne başlarsa ilk 40
ihtimal dağıtım vektörü
aşağıdaki gibi olacaktır:
●
30. Tuzak Döngü
Problemi
(Trapping Loop
●
Ağ içerisinde
Problem)
iki web sayfası
arasında oluşacak sonsuz
döngü durumudur.
Örnek 3
31. ●
Kullanıcı B web sayfasına
ulaştıktan sonra takip
edebieceği tek yol B ve F
web sayfaları arasındaki
döngüdür:
B → F → B → F → B → …
●
Bu durumda uzun zamanlı
olarak ihtimal dağıtım
vektörü
olarak
bulunacaktır.
●
Bu durumda yine ağ
32. Olası Çözümler
●
Eğer ağımızda bahsedilen 2
problem (dangling node ve
tuzak döngü)
bulunmuyorsa, ağ kararlı
bir şekilde işleyecek ve
sabit dağıtım vektörü doğru
bir şekilde elde
edilecektir.
●
Gerçek dünyada çok sayıda
dangling node'u temsil
edecek web sayfaları
bulunmaktadır:
33. ●
Kullanıcının dangling
node'dan kurtulma
ihtimalini diğer web
sayfalarını ziyaret etme
ihtimaline (n adet web
sayfası için 1/n) eşit
olarak kabul edilirse d
dangling vektörü
dangling'e sebep olan
node 1, diğer node'lar 0
olarak gösterilerek ifade
edilir. Bu durumda Örnek 3
için dangling vektörü
34. ●
Kısacası S hipermatrisi, H
hipermatrisinde bulunan
her 0 sutün vektörünün
sutün
vektörü ile
değiştirilmesiyle elde
edilir. Örnek 3'deki ağ
üzerinde 6 adet web
sayfası (veya node)
bulunduğundan dolayı, n = 6
olacaktır. Bu durumda S
hipermatrisi aşağıdaki gibi
35. ●
Bir diğer olası çözüm yolu
ise ağ üzerinde aramaya
başlamadan önce dangling
node'u temsil eden web
sayfalarının ve onları
yönlendiren bağlantılarının
tamamının ağdan
çıkartılmasıdır.
●
Elde edilen S hipermatrisi
her ne kadar gözden
geçirilmiş olsa da, yeniden
dangling problemine sebep
36. ●
∂, 0 ile 1 arasında “damping
faktörü” adı verilen ve web
sayfaları üzerindeki
linkleri takip ile bağımsız
URL adres girilmesi
arasındaki oranı temsil bir
reel sayı olmak üzere Google
matris aşağıdaki şekilde
tanımlanmıştır:
37. Referanslar
[1] Lawrence Page, Sergey
Brin, Rajeev Motwani, Terry
Winograd, The PageRank
citation ranking: Bringing
order to the Web, Stanford
Technical report, 1999.
[2] Taher Haveliwala,
Sepandar Kamvar, The
second eigenvalue of the
Google matrix, Stanford
Technical report, June,
2003.