Google Arama Motorunda Matrislerin Önemi

GOOGLE ARAMA
MOTORUNDA
MATRİ SLERİ N ÖNEMİ

A. Talha
KABAKUŞ
talha.kabakus
@ibu.edu.tr

Ajanda
●
Arama Motorları
●
Beklentiler
●
Arama Motoru Çeşitleri
●
Arama Motorları Nasıl
Çalışır?
●
Google Arama Motoru
●
PageRank Algoritması
●
Karşılaşılan Sorunlar
●
Olası Çözümler

Beklentiler
●
Doğru sonuç
●
H ız
●
Detaylı Arama
– Zaman kısıtlaması
– Dil kısıtlaması
●
Arama tavsiyeleri
– Bunu mu demek
istemiştiniz?

Arama Motoru
Çeş itleri
●
Crawler tabanlı
arama motorları
– Crawler / Spider
– Index
– Arama Motoru
Yazılımları
●
İnsan destekli
arama motorları

Arama Motorları
Nasıl Çalış ır?

Google Arama
Motoru
●
Larry Page ve
Sergey Brin
tarafından
geliştirilmiştir.
●
Günlük 2 milyar
arama
●
En çok kullanılan
arama motoru
●
50 milyon değişken

PageRank
Algoritması
●
Çıkış noktası, Rus
matematikçi Andrei
Markov tarafından
geliştirilen Markov
Zincirlerine dayanır.
●
Sayılabilir
durumlar ve bu
durumların
birbirleriyle olan

Örnek 1
Yönlü Graf

Node

Kenar

Rastgele Web Surf
Prensibi
●
Algoritma rastgele
web surf prensibini
kullanır.
●
2 temel varsayıma
dayanır:
– Kullanıcının bir
sonraki ziyaret
edeceği web
sayfası kendi
üzerindeki

●
Ağ içindeki n adet web sayfası
için algoritma n x n'lik bir
hiper matris oluşturur.
●
Graf içindeki node'lar web
sayfalarını, kenarlar ise web
sayfalarından birbirine
olan bağlantıları (linkleri)
temsil eder.
●
Çift yönlü kenarlar, web
sayfalarından herbirinden
diğerine birer bağlantı
olduğunu gösterir.

●
hij değeri i, j Є {1, 2, 3, ...,
n} olmak üzere, j web
sayfasından i web
sayfasına tek geçişle
(veya tek tıklamayla)
geçiş yapabilme ihtimalini
gösterir.
●
j web sayfası üzerinde k
adet bağlantı olduğunu
varsayarsak
– j web sayfasından i
web sayfasına

●
Örnek 1 için kurulan ağ
içindeki web sayfaları A=1,
B=2, C=3, D=4, E=5 ve F=6
olarak numaralandırılırsa
bir sonraki muhtemel web
sayfası ziyaret
ihtimallerini gösteren H
hipermatrisi aşağıdaki gibi
elde edilir:

Dangling Node
●
Kendi içerisinde başka
bir web sayfasına
bağlantı içermeyen web
sayfaları graf
içerisinde dangling node
olarak adlandırılır.
●
Rastgele web surf'ü
sonlandıran
node'lardır.
●
H hipermatrisinde kendi

●
pij notasyonu i adımla j
web sayfasına ulaşma
ihtimalini göstermek için
kullanılmaktadır.
●

ise i. Ihtimal dağ ıtım vektörü olarak
adlandırılır.
●
Başlangıç ihtimal vektörü
ise bulunulan web sayfası
için 1, diğer web sayfaları
için 0 değerini taşıyan
matrise denktir.

●
Bu noktadan sonra
aşağıdaki soruların akla
gelmesi muhtemeldir:
– k adım (veya k
tıklama)
sonrasında
oluşacak ihtimal
dağıtım vektörü
bulunabilir mi?
– Kullanıcının uzun

●
Kullanıcının A web
sayfasından rastgele
surf'üne başladığı
varsayılırsa başlangıç
ihtimal vektörü

olur.
●
A web sayfası üzerinde B,
C, D ve F web sayfalarına
bağlantı barındırdığında bu
sayfalara erişim ihtimali ¼
olarak bulunur. E web

●
Bu durumda aşağıdaki eşitlik
elde edilebilir:

Benzer şekilde pk =? Hpk-1
yazılabilir mi?

İ kinci Hareket
Durumu
●
Bunun için aynı örnek
üzerinden 2. hareket (veya
tıklama) sonucunda
oluşacak duruma bakalım:
●
İkinci hareket sonrasında
kullanıcının herbir web
sayfasına erişim ihtimali
kullanıcının ilk adımda
nasıl bir yol izleyeceğine
bağlıdır.
●
Kullanıcının ikinci hareket
sonrasında;

●
C web sayfasına bağlantı
sadece A ve E web
sayfalarından mümkündür.
İlk hareket sonrasında A
ve E web sayfalarında
bulunma ihtimali
olmadığından bu ihtimal de
yoktur.
●
Kullanıcının D web
sayfasına ulaşması için A →
C → D yolu ile 1/8 ihtimal
veya A → B → D yolu ile

●
Kullanıcının F web
sayfasında olabilmesi A →
B → F yolu ile mümkündür
ve bu ihtimal
olarak
bulunur.
●
Örnek 1'deki graf dangling
node içermediğinden ikinci
adım sonrasında kullanıcı
mutlaka bir web
sayfasında bulunmalıdır.
Bu durumda

●
Sonuç olarak ikinci
hareket sonrası ihtimal
dağıtım vektörü şu şekilde
olmaktadır:

●
Yukarıdaki eşitliğe dikkat
edilirse H hiper matrisinin
ilk satırı ile bir önceki
ihtimal dağıtım vektörünün

●
Örnek 1 için ilk 20 ihtimal
vektörü aşağıdaki gibi
olmaktadır:

Elde edilen bu ∏
vektörüne sabit
dağ ıtım vektörü denir ve
uzun soluklu bir
surf sonucunda
kullanıcının ağ

Karş ılaş ılan Sorunlar
● Dangling Problemi
– Ağ içerisinde başka
hiçbir web
sayfasına bağlantı
bulundurmayan
node bulunması
durumunda
gerçekleşir.
● Tuzak Döngü Problemi (Trapping Loop
Problem)
– Ağ içerisinde

Dangling
Problemi
Örnek 2

Dikkat edilirse B ve F web sayfaları
arasındaki tek bağ lantı birbirleriyle

●
Bu durumda H hipermatrisi
aşağıdaki gibi elde edilir:

●
Dikkat edilirse, F web
sayfasını temsil eden son
sutün, F web sayfası diğer

●
Kullanıcı Örnek 1'deki A web
sayfasından rastgele
surf'üne başlarsa ilk 40
ihtimal dağıtım vektörü
aşağıdaki gibi olacaktır:

●

Tuzak Döngü
Problemi
(Trapping Loop
●
Ağ içerisinde
Problem)
iki web sayfası
arasında oluşacak sonsuz
döngü durumudur.
Örnek 3

●
Kullanıcı B web sayfasına
ulaştıktan sonra takip
edebieceği tek yol B ve F
web sayfaları arasındaki
döngüdür:

B → F → B → F → B → …
●
Bu durumda uzun zamanlı
olarak ihtimal dağıtım
vektörü
olarak
bulunacaktır.
●
Bu durumda yine ağ

Olası Çözümler
●
Eğer ağımızda bahsedilen 2
problem (dangling node ve
tuzak döngü)
bulunmuyorsa, ağ kararlı
bir şekilde işleyecek ve
sabit dağıtım vektörü doğru
bir şekilde elde
edilecektir.
●
Gerçek dünyada çok sayıda
dangling node'u temsil
edecek web sayfaları
bulunmaktadır:

●
Kullanıcının dangling
node'dan kurtulma
ihtimalini diğer web
sayfalarını ziyaret etme
ihtimaline (n adet web
sayfası için 1/n) eşit
olarak kabul edilirse d
dangling vektörü
dangling'e sebep olan
node 1, diğer node'lar 0
olarak gösterilerek ifade
edilir. Bu durumda Örnek 3
için dangling vektörü

●
Kısacası S hipermatrisi, H
hipermatrisinde bulunan
her 0 sutün vektörünün
sutün
vektörü ile

değiştirilmesiyle elde
edilir. Örnek 3'deki ağ
üzerinde 6 adet web
sayfası (veya node)
bulunduğundan dolayı, n = 6
olacaktır. Bu durumda S
hipermatrisi aşağıdaki gibi

●
Bir diğer olası çözüm yolu
ise ağ üzerinde aramaya
başlamadan önce dangling
node'u temsil eden web
sayfalarının ve onları
yönlendiren bağlantılarının
tamamının ağdan
çıkartılmasıdır.
●
Elde edilen S hipermatrisi
her ne kadar gözden
geçirilmiş olsa da, yeniden
dangling problemine sebep

●
∂, 0 ile 1 arasında “damping
faktörü” adı verilen ve web
sayfaları üzerindeki
linkleri takip ile bağımsız
URL adres girilmesi
arasındaki oranı temsil bir
reel sayı olmak üzere Google
matris aşağıdaki şekilde
tanımlanmıştır:

Referanslar
[1] Lawrence Page, Sergey
Brin, Rajeev Motwani, Terry
Winograd, The PageRank
citation ranking: Bringing
order to the Web, Stanford
Technical report, 1999.

[2] Taher Haveliwala,
Sepandar Kamvar, The
second eigenvalue of the
Google matrix, Stanford
Technical report, June,
2003.

Google Arama Motorunda Matrislerin Önemi

Recommended

Recommended

More Related Content

Featured

Featured (20)

Google Arama Motorunda Matrislerin Önemi