SlideShare a Scribd company logo
1 of 7
Download to read offline
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
Què és I com funciona el Pagerank de Google
PageRank és una marca registrada i patentada per Google el 9 de gener de 1999 que empara
una família d'algorismes utilitzats per assignar de forma numèrica la rellevància dels
documents (o pàgines web) indexats per un motor de cerca. Les seves propietats són molt
discutides per experts en optimització de motors de cerca.
El sistema PageRank és utilitzat pel popular motor de cerca Google per ajudar-li a determinar
la importància o rellevància d'una pàgina. Va ser desenvolupat pels fundadors de Google, Larry
Page i Sergey Brin, a la Universitat de Stanford.
PageRank confia en la naturalesa democràtica de la web utilitzant la seva vasta estructura
d'enllaços com un indicador del valor d'una pàgina en concret. Google interpreta un enllaç
d'una pàgina A a una pàgina B com un vot, de la pàgina A, per a la pàgina B.
"importants", és a dir amb un PageRank elevat, valen més, i ajuden a fer a altres pàgines
"importants". Per tant, el PageRank d'una pàgina reflecteix la importància de la mateixa a
Internet.
Com funciona el Pagerank?
El valor del PageRank que observem és un valor comprès entre 0 i 10. Però en realitat, el
PageRank és un valor numèric molt més alt, calculat en funció dels enllaços que reben les
nostres pàgines.
El valor real sol ser de l'ordre de milers d'unitats. No obstant això, Google pren el seu valor
logarítmic per fer-ho visible als usuaris. La base d'aquest logaritme és desconeguda.
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
Per exemple, per a una base 7, tindríem els següents valors:
Valor PR PR Real
0 0 - 3
1 3 - 19
2 19 - 130
3 130 - 907
4 907 - 6351
5 6351 - 44458
6 44458 - 311209
7 311209 - 2178466
8 2178466 - 15249262
9 15249262 - 106765607
10 > 106765607
Si una pàgina té un PageRank real -per exemple- de 500000, quin valor li transmetria a una
altra a la qual enllaça?.
La resposta a aquesta pregunta es contesta en el ja famós text de Sergey Brin i Larry Page
(fundadors de Google), anomenat ' The Anatomy of a Large-Scale Hypertextual Web Search
Engine '.
En ell, plantejaven la següent fórmula per calcular el PageRank d'una pàgina web anomenada
'A':
PR(A) = (1-d) + d * [ PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ]
On:
- 'd' és el factor d'atenuació. Un valor podria ser 0,85.
- 'Ti' és cada pàgina que enllaça a 'A'. 'i' pren els valors 1, 2, ... fins a 'N'. 'N' és el nombre de
pàgines que enllacen a 'A'.
- 'PR(Ti)' és el PageRank de cadascuna de les pàgines que enllacen a 'A'.
- 'C(Ti)' és el número d'enllaços que surten des de cada pàgina 'Ti'.
Per tant, la nostra pàgina de 500000 de PageRank transmetrà a una altra en cas de tenir un
únic enllaç, un valor de 0,85500000 = 425000. Generalment les pàgines posseeixen més d'un
enllaç dins d'elles, així que aquest valor caldria dividir-ho entre el nombre d'enllaços.
Com es pot comprovar, el valor del PageRank de cada pàgina no és constant en el temps, ja
que depèn dels enllaços que anem rebent i, al seu torn, del PR de les pàgines que ens enllacen.
Per això, una vegada al mes aproximadament, Google recalcula el valor d'aquest PageRank que
s’anomena el ' Google Dance'.
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
Algorisme del Pagerank
(Mètode per a la jerarquització de nodes en una base de dades enllaçada)
La patent més famosa de Google és una dels principals avantatges competitius que va
permetre a aquesta companyia aixafar als seus competidors en el camp de les cerques a
internet i fer-se el gegant que són avui*. El Page Rank, com tots el coneixem, és una idea genial
per trobar el valor o "importància" que té una pàgina web determinada. Aquesta
"importància" s'empra després per mostrar els resultats de major qualitat quan realitzem una
cerca en Google. La qualitat dels resultats de Google emprant aquest mètode (combinat, per
descomptat, amb altres algorismes) és el que ens va fer a tots abandonar els nostres antics
cercadors (Altavista, Metacrawler) i passar-nos al cercador de Larry i Sergei. En aquest post
anem a explicar l'algorisme fins al final intentant emprar la quantitat mínima de matemàtiques
possibles.
Si alguna vegada t'has interessat pel tema, hauràs llegit que:
1. La "importància" d'una pàgina web només depèn de les pàgines web que l'enllacen.
Si tens una pàgina web i aquesta és enllaçada des de pàgines importants (d'alt Page Rank,
posem www.uoc.edu) tu rebràs una part d'aquesta importància. Totes les pàgines que enllacis
des de la teva pàgina web rebran, al seu torn, una part de la importància de la teva pàgina. Per
ser més exactes:
2. Una pàgina web reparteix per igual la seva importància entre totes les pàgines a les quals
enllaça.
És a dir: Si t'enllaça una pàgina important que enllaça 3 o 4 pàgines a part de la teva és molt
millor que si t'enllaça una pàgina igual d'important que enllaci 30 o 40 (toca més Page Rank a
repartir).
També hauràs sentit parlar dels Spiders (aranyes). Això no són més que veloços programes
automàtics que van recorrent internet com si fossin un usuari humà, prement tots els enllaços
possibles, extenent-se així per la "xarxa" (d'aquí el nom) i creant un mapa de la mateixa. Així
que tenim:
3. Els Spiders proporcionen a Google un mapa de la xarxa on es pot veure quina pàgina apunta
a quina pàgina.
Això no significa que sapiguem ja el Page Rank. De fet, tot això és molt bonic però… com
calculem el Page Rank?. Per quina pàgina comencem?. Suposant que comencéssim per una, si
no tenim el Page Rank de les quals enllacen a aquesta, com podem calcular alguna cosa?. I el
que és pitjor: A internet hi ha vint-i-cinc mil milions de pàgines apuntant-se unes a les altres
(nombre que puja ràpidament), com crear un algorisme que sigui capaç de bregar amb
semblant brutalitat d'enllaços?. En el pitjor cas totes les pàgines s'apunten entre si i el numero
total d'enllaços és de vint-i-cinc mil milions, al quadrat!.
Aquí és on realment arriba l'artilleria matemàtica. Prometem que si saps el que és una matriu,
com se sumen i com es multipliquen (i tens una mica de fe) ja pots entendre l'algorisme de
Larry i Sergei fins al final.
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
La Matriu de repartiment de Page Rank H
D’acord, no sabem com és el page Rank de cap pàgina abans de començar, però si hi ha una
cosa que sabem: Quant del seu desconegut Page Rank reparteix una pàgina entre les pàgines
que enllaça. Pel que s'ha dit anteriorment, si una pàgina enllaça 5 pàgines transmetrà un 1/5
del seu Page Rank a cadascuna. A causa del nombre de pàgines que enllaça cada pàgina ho
sabem. És més, podem construir una taula H de vint-i-cinc mil milions de files per vint-i-cinc mil
milions columnes (no, no cap en un Din-A4), que contingui tots els enllaços possibles. Per a
dues pàgines qualsevol (una com enllaçadora i l'altra com enllaçada) tenim un requadre de la
taula que ens indica quina proporció del Page Rank transfereix la enllaçadora a l'enllaçada. Per
orientar-nos una mica: La diagonal d'aquesta taula representaria el que la pàgina es transmet a
si mateixa (si s'enllacés). Qualsevol requadre per sota de la diagonal i el seu simètric per sobre
de la diagonal indiquen respectivament el que es transmeten dues pàgines quan una actua
com enllaçadora i l'altra com enllaçada i viceversa. Si una pàgina no enllaça a una altra, es posa
un 0 en el requadre (lògicament no li pot transmetre gens de Page Rank).
Matriu (Vector) Invariant I
El que ve a continuació no és idea de Larry Page o Sergei Brin, fa un segle que es coneix, però si
que requereix la poca fe que et demanem reservar. Aquesta taula (llegeixi’s Matriu), que hem
creat amb l'ajuda de la informació proporcionada pels Spiders, representa en realitat la
dificultat (o facilitat) per al "flux" de Page Rank d'una pàgina a una altra. Podem veure el flux
com a aigua que passa amb menor o major dificultat d'una pàgina a una altra d'acord al valor
corresponent al requadre de la taula H. Aquest aigua/transferència de Page Rank fluiria d'una
pàgina a una altra a través dels seus enllaços sense parar i eventualment podria arribar a un
equilibri (si no hi arribés no hi hauria Page Rank algun). Doncs bé les matemàtiques,
concretament el teorema de Ruelle-Perron–Frobenius (engonals) ens garanteix el següent:
4. Sota determinades condicions, que veurem, s'acabarà aconseguint aquest equilibri. No és
que Frobenius (engonals) sabés el que és una pàgina web al 1900, si no que el problema és
matemàticament idèntic a un conegut problema de dinàmica de sistemes (engonals). Després,
hi ha gent que diu que Larry i Sergei són llicenciats en filosofia.
5. L'equilibri queda representat pel vector invariant I. Això és: Una taula d'una sola columna
(una matriu, més concretament vector) de vint-i-cinc mil milions de valors, que compleix que
en multiplicar-la per la matriu de repartiment H ens dóna una altra vegada ella mateixa (I). El
que expressaríem:
Aquest vector invariant I de vint-i-cinc mil milions de valors, quina casualitat, un per a cada
pàgina web, és el Page Rank. Faltarà refinar-ho, escalant-lo d'1 a 10, i “discretitzant-lo” perquè
no doni valors intermedis. Intueixo que el valor “discretitzat” (1 a 10 sense decimals), que es
mostra en la Google toolbar, és solament de cara al públic i internament empressin els
decimals que surtin també.
Sí, molt bé però i referent a les 25.000.000.000 pàgines?
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
Cert. La gent que hagi sofert àlgebra de primer haurà reconegut a I com un vector propi de
valor propi 1 de la matriu H. I segurament recordarà amb horror que per calcular-ho cal
resoldre un polinomi que en aquest cas tindria grau 25.000.000.000. Vaja no ho calculariem
així ni de broma. Afortunadament, sobretot per a les persones a les quals l'anterior els ha
sonat a xinès, existeix un mètode per calcular I iterativament (en passos successius) i molt molt
senzill. Tan senzill que consisteix que ens inventem una taula de 25.000.000.000 valors del
Page Rank a l’atzar (un vector I0 creat aleatòriament), ho multipliquem per H i el resultat serà
una altra taula de 25.000.000.000 valors I1 però més propers al valor correcte del vector
invariant I. Repeteixi's això un munt de vegades fins que el resultat de multiplicar per H ja no
produeixi cap canvi i ja està. Ja tenim el vector invariant. Aquest algorisme, que es diu el
mètode de les potències (engonals), s'expressaria matemàticament així:
On k no és més que l'índex que indica quantes vegades hem multiplicat per la matriu H. El
primer vector, que crearíem a l’atzar seria k = 0, el segon, procedent de multiplicar per H seria
k =1, etc. Per expressar de forma general que cada terme s'obté mitjançant una transformació
de l'anterior s'empren els índexs k+1 i k. Cal tenir en compte que els mètodes iteratius tenen
l'avantatge que no necessitem acumular massa valors, la qual cosa redueix la quantitat de
memòria que necessitem per computar el Page Rank i accelera tot el procés de càlcul.
Segueixen sent una bestiesa de nombres però almenys és factible.
Gran problema
Sembla fàcil, oi?. Òbviament falla alguna cosa i aquesta cosa és el punt (4). Resulta que no es
compleixen les condicions de convergència del teorema Ruelle-Perron–Frobenius. És a dir que
aplicant el mètode a dalt explicat no hi ha garantia que arribem al vector invariant. No entraré
en els detalls, no fa falta. Utilitzant l'analogia del "flux" de Page Rank es pot entendre
perfectament que és el que falla i com es pot solucionar.
Pàgina Embornal:
Què ocorre quan el flux de Page Rank arriba a una pàgina com la 2 que no té enllaços a cap
lloc?. Doncs simplement que no surt d'aquí. Aquesta pàgina es torna un embornal de Page
Rank i l'algorisme donarà resultats incorrectes. Com ho resolem?. Si fem la pàgina 2 enllaç
totes les pàgines de la web per igual (imagina milions de petites fletxes sortint de 2 cap a totes
lás pàgines), això donarà sortida al flux de Page Rank però la influència en els resultats és
mínima, ja que cada pàgina rep solament 1/25.000.000.000 del Page Rank de 2.
Matemàticament, això equival a sumar-li a H una matriu Al fet que tingui tot 0s menys en les
columnes de les pàgines embornal que tindran tota la columna plena d'1/25.000.000.000.
D'aquesta forma en comptes de la matriu H empraríem la matriu S=H+A en el mètode de les
potències.
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
Xarxa-Embornal:
Un cas similar és el de les sub-xarxes de pàgines dins de la xarxa, com la 5-7-6-8, que no tenen
enllaços de tornada. Aquestes xarxes es converteixen en xarxes-embornal. El problema és que
aquestes pàgines sí enllacen altres pàgines i no podem simplement carregar-nos aquesta
informació i enllaçar totes les pàgines de la xarxa des d'elles. Per donar sortida al flux de Page
Rank, anem a recórrer a una solució al més pur estil "enginyer".
Gran solució
Necessitem garantir la sortida del flux de Page Rank de qualsevol pàgina o sub-xarxa, és a dir,
que tota pàgina apunti a una altra pàgina. No ens val amb crear un enllaç a qualsevol pàgina a
l’atzar perquè (a part d'estar falsejant el Page Rank), si resulta en una xarxa tancada com 5-7-6-
8 no hem solucionat gens. Ara, imaginem un cas ideal on totes les pàgines apuntessin a totes
les pàgines. Aquí el Page Rank sempre tindria algun enllaç per on escapar, fins i tot de les sub-
xarxes, i l'algorisme funcionaria. Però clar, es perdria tota la jerarquia que donen els enllaços,
la matriu de repartiment tindria tots els seus elements iguals a 1/25.000.000.000 i totes les
pàgines tindrien el mateix Page Rank.
Doncs res, sumar la matriu de repartiment real, calculada amb la informació dels Spiders amb
la ideal en la qual totes les pàgines s'apunten entre si i ho dividim per dos. La matriu resultant
tindrà sempre enllaços sortints de cada pàgina i tenim el flux de Page Rank garantit. Que en
barrejar a parts iguals la matriu real i la ideal ens surten els resultats massa aleatoris? (per
influència de la ideal). Bé, doncs en comptes de meitat i meitat les barregem amb 85% de la
matriu real i un 15% de la ideal i llestos. I ja que parlem del tema, aquí teniu la famosa matriu
de Google:
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/
© Roger Casadejús Pérez | Exatienda
On recordem que S=H+A és la matriu real amb el problema dels embornals individuals resolt,
1/n×1, amb n = 25.000.000.000 és la matriu ideal i α = 0.85 ens dóna la citada barreja al 85%.
Algun lector espavilat pot dir: Però… al ficar-hi un 15% de aleatorietat, no falseja d'alguna
manera el Page Rank?
Per acabar si emprem G en comptes d'H en el mètode de les potències i juguem una mica amb
els termes obtenim la formula que apareixia al principi del post. Emprant la fórmula a la dreta
de l'igual obtindrem cada nou vector Ik+1 en cada iteració.
Anotacions finals
- El valor òptim del paràmetre α es determina experimentalment i regula també la velocitat de
convergència del mètode de les potències, a major percentatge de matriu real, menor
velocitat de convergència. Google diu que amb n'hi ha prou amb k=50-100 iteracions per
calcular el Page Rank, cosa que triga diversos dies. Imagino que treballant amb diversos
ordinadors en paral·lel. Això es coneix com Google Dance i en TSS no ens fa gens de gràcia.
- Matemàticament, la condició de convergència de l'algorisme emprat per Google és que tots
els elements de la matriu de repartiment de Page Rank siguin estrictament majors que 0, cosa
que compleix la ruda solució que acabem de veure. Això no és una condició de convergència
del mètode de les potències si no una condició per a l'existència del vector invariant segons el
teorema de Ruelle-Perron–Frobenius.

More Related Content

Viewers also liked

Viewers also liked (9)

Història i característiques del llenguatge C
Història i característiques del llenguatge CHistòria i característiques del llenguatge C
Història i característiques del llenguatge C
 
Presentació de Hiren's boot 15.2
Presentació de Hiren's boot 15.2Presentació de Hiren's boot 15.2
Presentació de Hiren's boot 15.2
 
Presentació de Calibre
Presentació de CalibrePresentació de Calibre
Presentació de Calibre
 
Sitemap.xml i robots.txt
Sitemap.xml i robots.txtSitemap.xml i robots.txt
Sitemap.xml i robots.txt
 
Estrategies del màrqueting online
Estrategies del màrqueting onlineEstrategies del màrqueting online
Estrategies del màrqueting online
 
Història dels monitors
Història dels monitorsHistòria dels monitors
Història dels monitors
 
GIS vodovoda i kanalizacije u JKP "Naissus", Niš
GIS vodovoda i kanalizacije u JKP "Naissus", NišGIS vodovoda i kanalizacije u JKP "Naissus", Niš
GIS vodovoda i kanalizacije u JKP "Naissus", Niš
 
Presentació de Facebook
Presentació de FacebookPresentació de Facebook
Presentació de Facebook
 
Presentació de les novetats i llicències Vmware esxi 5
Presentació de les novetats i llicències Vmware esxi 5Presentació de les novetats i llicències Vmware esxi 5
Presentació de les novetats i llicències Vmware esxi 5
 

Similar to Què és i com funciona el pagerank?

Curs marketing i_web_2_0_dia_1
Curs marketing i_web_2_0_dia_1Curs marketing i_web_2_0_dia_1
Curs marketing i_web_2_0_dia_1EsteveBruce
 
El Sortware Lliure, R I Barcelona
El Sortware Lliure, R I BarcelonaEl Sortware Lliure, R I Barcelona
El Sortware Lliure, R I Barcelonamireia fabregas
 
10 accions de Marketing Digital per Associacions Culturals
10 accions de Marketing Digital per Associacions Culturals10 accions de Marketing Digital per Associacions Culturals
10 accions de Marketing Digital per Associacions CulturalsMontserrat Peñarroya
 
9 Tècniques Màrqueting Digital
9 Tècniques Màrqueting Digital9 Tècniques Màrqueting Digital
9 Tècniques Màrqueting DigitalA Portada
 
Posicionament Seo a Google
Posicionament Seo a GooglePosicionament Seo a Google
Posicionament Seo a Googleaula20_2012
 
Publicitat a Internet
Publicitat a InternetPublicitat a Internet
Publicitat a Internetaula20_2012
 
Fira de la Música al Carrer Vila-seca els 10 errors més comuns
Fira de la Música al Carrer Vila-seca   els 10 errors més comunsFira de la Música al Carrer Vila-seca   els 10 errors més comuns
Fira de la Música al Carrer Vila-seca els 10 errors més comunsMontserrat Peñarroya
 
Píndola sobre posicionament de la plana web
Píndola sobre posicionament de la plana webPíndola sobre posicionament de la plana web
Píndola sobre posicionament de la plana webAlterEgo Web
 
Lenguatges i Estàndarts web Pac02
Lenguatges i Estàndarts web Pac02Lenguatges i Estàndarts web Pac02
Lenguatges i Estàndarts web Pac02Marcos Baldovi
 
14 Passes i un Pla de posiconament
14 Passes i un Pla de posiconament14 Passes i un Pla de posiconament
14 Passes i un Pla de posiconamentBernadette Farriol
 
Arts escèniques "Els 10 errors més comuns en la comunicació online"
Arts escèniques "Els 10 errors més comuns en la comunicació online"Arts escèniques "Els 10 errors més comuns en la comunicació online"
Arts escèniques "Els 10 errors més comuns en la comunicació online"Montserrat Peñarroya
 
Figueres pindola posicionament web 2017
Figueres pindola posicionament web 2017Figueres pindola posicionament web 2017
Figueres pindola posicionament web 2017AlterEgo Web
 
Com fer més visible el meu web a Internet
Com fer més visible el meu web a InternetCom fer més visible el meu web a Internet
Com fer més visible el meu web a Internetsantfeliuonline
 
Networking emprenedors girona empren playbrand
Networking emprenedors girona empren playbrandNetworking emprenedors girona empren playbrand
Networking emprenedors girona empren playbranddavidmarticampmajor
 
Playbrand: SEO, SEM, analítica, monitorització i email mkt
Playbrand: SEO, SEM, analítica, monitorització i email mktPlaybrand: SEO, SEM, analítica, monitorització i email mkt
Playbrand: SEO, SEM, analítica, monitorització i email mktdavidmarticampmajor
 

Similar to Què és i com funciona el pagerank? (20)

Curs marketing i_web_2_0_dia_1
Curs marketing i_web_2_0_dia_1Curs marketing i_web_2_0_dia_1
Curs marketing i_web_2_0_dia_1
 
Dues tecniques SEO de programació web
Dues tecniques SEO de programació webDues tecniques SEO de programació web
Dues tecniques SEO de programació web
 
Taller Seo Eweek 2012
Taller Seo Eweek 2012Taller Seo Eweek 2012
Taller Seo Eweek 2012
 
Dr tic seo
Dr tic seoDr tic seo
Dr tic seo
 
Posicionament web en els buscadors
Posicionament web en els buscadorsPosicionament web en els buscadors
Posicionament web en els buscadors
 
El Sortware Lliure, R I Barcelona
El Sortware Lliure, R I BarcelonaEl Sortware Lliure, R I Barcelona
El Sortware Lliure, R I Barcelona
 
10 accions de Marketing Digital per Associacions Culturals
10 accions de Marketing Digital per Associacions Culturals10 accions de Marketing Digital per Associacions Culturals
10 accions de Marketing Digital per Associacions Culturals
 
9 Tècniques Màrqueting Digital
9 Tècniques Màrqueting Digital9 Tècniques Màrqueting Digital
9 Tècniques Màrqueting Digital
 
Posicionament Seo a Google
Posicionament Seo a GooglePosicionament Seo a Google
Posicionament Seo a Google
 
Publicitat a Internet
Publicitat a InternetPublicitat a Internet
Publicitat a Internet
 
Fira de la Música al Carrer Vila-seca els 10 errors més comuns
Fira de la Música al Carrer Vila-seca   els 10 errors més comunsFira de la Música al Carrer Vila-seca   els 10 errors més comuns
Fira de la Música al Carrer Vila-seca els 10 errors més comuns
 
Píndola sobre posicionament de la plana web
Píndola sobre posicionament de la plana webPíndola sobre posicionament de la plana web
Píndola sobre posicionament de la plana web
 
Lenguatges i Estàndarts web Pac02
Lenguatges i Estàndarts web Pac02Lenguatges i Estàndarts web Pac02
Lenguatges i Estàndarts web Pac02
 
14 Passes i un Pla de posiconament
14 Passes i un Pla de posiconament14 Passes i un Pla de posiconament
14 Passes i un Pla de posiconament
 
Arts escèniques "Els 10 errors més comuns en la comunicació online"
Arts escèniques "Els 10 errors més comuns en la comunicació online"Arts escèniques "Els 10 errors més comuns en la comunicació online"
Arts escèniques "Els 10 errors més comuns en la comunicació online"
 
Figueres pindola posicionament web 2017
Figueres pindola posicionament web 2017Figueres pindola posicionament web 2017
Figueres pindola posicionament web 2017
 
Posicionament
PosicionamentPosicionament
Posicionament
 
Com fer més visible el meu web a Internet
Com fer més visible el meu web a InternetCom fer més visible el meu web a Internet
Com fer més visible el meu web a Internet
 
Networking emprenedors girona empren playbrand
Networking emprenedors girona empren playbrandNetworking emprenedors girona empren playbrand
Networking emprenedors girona empren playbrand
 
Playbrand: SEO, SEM, analítica, monitorització i email mkt
Playbrand: SEO, SEM, analítica, monitorització i email mktPlaybrand: SEO, SEM, analítica, monitorització i email mkt
Playbrand: SEO, SEM, analítica, monitorització i email mkt
 

More from Roger Casadejús Pérez

More from Roger Casadejús Pérez (20)

Presentació de Wordpress fins a la 3.5.1
Presentació de Wordpress fins a la 3.5.1Presentació de Wordpress fins a la 3.5.1
Presentació de Wordpress fins a la 3.5.1
 
Presentació de Twitter
Presentació de TwitterPresentació de Twitter
Presentació de Twitter
 
Presentació del protocol TCP/IP
Presentació del protocol TCP/IPPresentació del protocol TCP/IP
Presentació del protocol TCP/IP
 
Presentació de la història de Google
Presentació de la història de GooglePresentació de la història de Google
Presentació de la història de Google
 
Presentació de Virtual box
Presentació de Virtual boxPresentació de Virtual box
Presentació de Virtual box
 
Presentació històrica del VHS
Presentació històrica del VHSPresentació històrica del VHS
Presentació històrica del VHS
 
Presentació de Playstation 3
Presentació de Playstation 3Presentació de Playstation 3
Presentació de Playstation 3
 
Què és W3C?
Què és W3C?Què és W3C?
Què és W3C?
 
Seo: Com triomfar en els buscadors?
Seo: Com triomfar en els buscadors?Seo: Com triomfar en els buscadors?
Seo: Com triomfar en els buscadors?
 
Url amigables
Url amigablesUrl amigables
Url amigables
 
Zona DMZ
Zona DMZZona DMZ
Zona DMZ
 
Presentació de spoofing
Presentació de spoofingPresentació de spoofing
Presentació de spoofing
 
IP brick
IP brickIP brick
IP brick
 
Presentació de Smoothwall
Presentació de SmoothwallPresentació de Smoothwall
Presentació de Smoothwall
 
Presentació històrica de Visual.NET
Presentació històrica de Visual.NETPresentació històrica de Visual.NET
Presentació històrica de Visual.NET
 
Presentació de MySQL
Presentació de MySQLPresentació de MySQL
Presentació de MySQL
 
Presentació de Javascript
Presentació de JavascriptPresentació de Javascript
Presentació de Javascript
 
Presentació Ajax
Presentació AjaxPresentació Ajax
Presentació Ajax
 
Presentació de HTML 5
Presentació de HTML 5Presentació de HTML 5
Presentació de HTML 5
 
Presentació del Mini dv
Presentació del Mini dvPresentació del Mini dv
Presentació del Mini dv
 

Què és i com funciona el pagerank?

  • 1. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda Què és I com funciona el Pagerank de Google PageRank és una marca registrada i patentada per Google el 9 de gener de 1999 que empara una família d'algorismes utilitzats per assignar de forma numèrica la rellevància dels documents (o pàgines web) indexats per un motor de cerca. Les seves propietats són molt discutides per experts en optimització de motors de cerca. El sistema PageRank és utilitzat pel popular motor de cerca Google per ajudar-li a determinar la importància o rellevància d'una pàgina. Va ser desenvolupat pels fundadors de Google, Larry Page i Sergey Brin, a la Universitat de Stanford. PageRank confia en la naturalesa democràtica de la web utilitzant la seva vasta estructura d'enllaços com un indicador del valor d'una pàgina en concret. Google interpreta un enllaç d'una pàgina A a una pàgina B com un vot, de la pàgina A, per a la pàgina B. "importants", és a dir amb un PageRank elevat, valen més, i ajuden a fer a altres pàgines "importants". Per tant, el PageRank d'una pàgina reflecteix la importància de la mateixa a Internet. Com funciona el Pagerank? El valor del PageRank que observem és un valor comprès entre 0 i 10. Però en realitat, el PageRank és un valor numèric molt més alt, calculat en funció dels enllaços que reben les nostres pàgines. El valor real sol ser de l'ordre de milers d'unitats. No obstant això, Google pren el seu valor logarítmic per fer-ho visible als usuaris. La base d'aquest logaritme és desconeguda.
  • 2. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda Per exemple, per a una base 7, tindríem els següents valors: Valor PR PR Real 0 0 - 3 1 3 - 19 2 19 - 130 3 130 - 907 4 907 - 6351 5 6351 - 44458 6 44458 - 311209 7 311209 - 2178466 8 2178466 - 15249262 9 15249262 - 106765607 10 > 106765607 Si una pàgina té un PageRank real -per exemple- de 500000, quin valor li transmetria a una altra a la qual enllaça?. La resposta a aquesta pregunta es contesta en el ja famós text de Sergey Brin i Larry Page (fundadors de Google), anomenat ' The Anatomy of a Large-Scale Hypertextual Web Search Engine '. En ell, plantejaven la següent fórmula per calcular el PageRank d'una pàgina web anomenada 'A': PR(A) = (1-d) + d * [ PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ] On: - 'd' és el factor d'atenuació. Un valor podria ser 0,85. - 'Ti' és cada pàgina que enllaça a 'A'. 'i' pren els valors 1, 2, ... fins a 'N'. 'N' és el nombre de pàgines que enllacen a 'A'. - 'PR(Ti)' és el PageRank de cadascuna de les pàgines que enllacen a 'A'. - 'C(Ti)' és el número d'enllaços que surten des de cada pàgina 'Ti'. Per tant, la nostra pàgina de 500000 de PageRank transmetrà a una altra en cas de tenir un únic enllaç, un valor de 0,85500000 = 425000. Generalment les pàgines posseeixen més d'un enllaç dins d'elles, així que aquest valor caldria dividir-ho entre el nombre d'enllaços. Com es pot comprovar, el valor del PageRank de cada pàgina no és constant en el temps, ja que depèn dels enllaços que anem rebent i, al seu torn, del PR de les pàgines que ens enllacen. Per això, una vegada al mes aproximadament, Google recalcula el valor d'aquest PageRank que s’anomena el ' Google Dance'.
  • 3. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda Algorisme del Pagerank (Mètode per a la jerarquització de nodes en una base de dades enllaçada) La patent més famosa de Google és una dels principals avantatges competitius que va permetre a aquesta companyia aixafar als seus competidors en el camp de les cerques a internet i fer-se el gegant que són avui*. El Page Rank, com tots el coneixem, és una idea genial per trobar el valor o "importància" que té una pàgina web determinada. Aquesta "importància" s'empra després per mostrar els resultats de major qualitat quan realitzem una cerca en Google. La qualitat dels resultats de Google emprant aquest mètode (combinat, per descomptat, amb altres algorismes) és el que ens va fer a tots abandonar els nostres antics cercadors (Altavista, Metacrawler) i passar-nos al cercador de Larry i Sergei. En aquest post anem a explicar l'algorisme fins al final intentant emprar la quantitat mínima de matemàtiques possibles. Si alguna vegada t'has interessat pel tema, hauràs llegit que: 1. La "importància" d'una pàgina web només depèn de les pàgines web que l'enllacen. Si tens una pàgina web i aquesta és enllaçada des de pàgines importants (d'alt Page Rank, posem www.uoc.edu) tu rebràs una part d'aquesta importància. Totes les pàgines que enllacis des de la teva pàgina web rebran, al seu torn, una part de la importància de la teva pàgina. Per ser més exactes: 2. Una pàgina web reparteix per igual la seva importància entre totes les pàgines a les quals enllaça. És a dir: Si t'enllaça una pàgina important que enllaça 3 o 4 pàgines a part de la teva és molt millor que si t'enllaça una pàgina igual d'important que enllaci 30 o 40 (toca més Page Rank a repartir). També hauràs sentit parlar dels Spiders (aranyes). Això no són més que veloços programes automàtics que van recorrent internet com si fossin un usuari humà, prement tots els enllaços possibles, extenent-se així per la "xarxa" (d'aquí el nom) i creant un mapa de la mateixa. Així que tenim: 3. Els Spiders proporcionen a Google un mapa de la xarxa on es pot veure quina pàgina apunta a quina pàgina. Això no significa que sapiguem ja el Page Rank. De fet, tot això és molt bonic però… com calculem el Page Rank?. Per quina pàgina comencem?. Suposant que comencéssim per una, si no tenim el Page Rank de les quals enllacen a aquesta, com podem calcular alguna cosa?. I el que és pitjor: A internet hi ha vint-i-cinc mil milions de pàgines apuntant-se unes a les altres (nombre que puja ràpidament), com crear un algorisme que sigui capaç de bregar amb semblant brutalitat d'enllaços?. En el pitjor cas totes les pàgines s'apunten entre si i el numero total d'enllaços és de vint-i-cinc mil milions, al quadrat!. Aquí és on realment arriba l'artilleria matemàtica. Prometem que si saps el que és una matriu, com se sumen i com es multipliquen (i tens una mica de fe) ja pots entendre l'algorisme de Larry i Sergei fins al final.
  • 4. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda La Matriu de repartiment de Page Rank H D’acord, no sabem com és el page Rank de cap pàgina abans de començar, però si hi ha una cosa que sabem: Quant del seu desconegut Page Rank reparteix una pàgina entre les pàgines que enllaça. Pel que s'ha dit anteriorment, si una pàgina enllaça 5 pàgines transmetrà un 1/5 del seu Page Rank a cadascuna. A causa del nombre de pàgines que enllaça cada pàgina ho sabem. És més, podem construir una taula H de vint-i-cinc mil milions de files per vint-i-cinc mil milions columnes (no, no cap en un Din-A4), que contingui tots els enllaços possibles. Per a dues pàgines qualsevol (una com enllaçadora i l'altra com enllaçada) tenim un requadre de la taula que ens indica quina proporció del Page Rank transfereix la enllaçadora a l'enllaçada. Per orientar-nos una mica: La diagonal d'aquesta taula representaria el que la pàgina es transmet a si mateixa (si s'enllacés). Qualsevol requadre per sota de la diagonal i el seu simètric per sobre de la diagonal indiquen respectivament el que es transmeten dues pàgines quan una actua com enllaçadora i l'altra com enllaçada i viceversa. Si una pàgina no enllaça a una altra, es posa un 0 en el requadre (lògicament no li pot transmetre gens de Page Rank). Matriu (Vector) Invariant I El que ve a continuació no és idea de Larry Page o Sergei Brin, fa un segle que es coneix, però si que requereix la poca fe que et demanem reservar. Aquesta taula (llegeixi’s Matriu), que hem creat amb l'ajuda de la informació proporcionada pels Spiders, representa en realitat la dificultat (o facilitat) per al "flux" de Page Rank d'una pàgina a una altra. Podem veure el flux com a aigua que passa amb menor o major dificultat d'una pàgina a una altra d'acord al valor corresponent al requadre de la taula H. Aquest aigua/transferència de Page Rank fluiria d'una pàgina a una altra a través dels seus enllaços sense parar i eventualment podria arribar a un equilibri (si no hi arribés no hi hauria Page Rank algun). Doncs bé les matemàtiques, concretament el teorema de Ruelle-Perron–Frobenius (engonals) ens garanteix el següent: 4. Sota determinades condicions, que veurem, s'acabarà aconseguint aquest equilibri. No és que Frobenius (engonals) sabés el que és una pàgina web al 1900, si no que el problema és matemàticament idèntic a un conegut problema de dinàmica de sistemes (engonals). Després, hi ha gent que diu que Larry i Sergei són llicenciats en filosofia. 5. L'equilibri queda representat pel vector invariant I. Això és: Una taula d'una sola columna (una matriu, més concretament vector) de vint-i-cinc mil milions de valors, que compleix que en multiplicar-la per la matriu de repartiment H ens dóna una altra vegada ella mateixa (I). El que expressaríem: Aquest vector invariant I de vint-i-cinc mil milions de valors, quina casualitat, un per a cada pàgina web, és el Page Rank. Faltarà refinar-ho, escalant-lo d'1 a 10, i “discretitzant-lo” perquè no doni valors intermedis. Intueixo que el valor “discretitzat” (1 a 10 sense decimals), que es mostra en la Google toolbar, és solament de cara al públic i internament empressin els decimals que surtin també. Sí, molt bé però i referent a les 25.000.000.000 pàgines?
  • 5. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda Cert. La gent que hagi sofert àlgebra de primer haurà reconegut a I com un vector propi de valor propi 1 de la matriu H. I segurament recordarà amb horror que per calcular-ho cal resoldre un polinomi que en aquest cas tindria grau 25.000.000.000. Vaja no ho calculariem així ni de broma. Afortunadament, sobretot per a les persones a les quals l'anterior els ha sonat a xinès, existeix un mètode per calcular I iterativament (en passos successius) i molt molt senzill. Tan senzill que consisteix que ens inventem una taula de 25.000.000.000 valors del Page Rank a l’atzar (un vector I0 creat aleatòriament), ho multipliquem per H i el resultat serà una altra taula de 25.000.000.000 valors I1 però més propers al valor correcte del vector invariant I. Repeteixi's això un munt de vegades fins que el resultat de multiplicar per H ja no produeixi cap canvi i ja està. Ja tenim el vector invariant. Aquest algorisme, que es diu el mètode de les potències (engonals), s'expressaria matemàticament així: On k no és més que l'índex que indica quantes vegades hem multiplicat per la matriu H. El primer vector, que crearíem a l’atzar seria k = 0, el segon, procedent de multiplicar per H seria k =1, etc. Per expressar de forma general que cada terme s'obté mitjançant una transformació de l'anterior s'empren els índexs k+1 i k. Cal tenir en compte que els mètodes iteratius tenen l'avantatge que no necessitem acumular massa valors, la qual cosa redueix la quantitat de memòria que necessitem per computar el Page Rank i accelera tot el procés de càlcul. Segueixen sent una bestiesa de nombres però almenys és factible. Gran problema Sembla fàcil, oi?. Òbviament falla alguna cosa i aquesta cosa és el punt (4). Resulta que no es compleixen les condicions de convergència del teorema Ruelle-Perron–Frobenius. És a dir que aplicant el mètode a dalt explicat no hi ha garantia que arribem al vector invariant. No entraré en els detalls, no fa falta. Utilitzant l'analogia del "flux" de Page Rank es pot entendre perfectament que és el que falla i com es pot solucionar. Pàgina Embornal: Què ocorre quan el flux de Page Rank arriba a una pàgina com la 2 que no té enllaços a cap lloc?. Doncs simplement que no surt d'aquí. Aquesta pàgina es torna un embornal de Page Rank i l'algorisme donarà resultats incorrectes. Com ho resolem?. Si fem la pàgina 2 enllaç totes les pàgines de la web per igual (imagina milions de petites fletxes sortint de 2 cap a totes lás pàgines), això donarà sortida al flux de Page Rank però la influència en els resultats és mínima, ja que cada pàgina rep solament 1/25.000.000.000 del Page Rank de 2. Matemàticament, això equival a sumar-li a H una matriu Al fet que tingui tot 0s menys en les columnes de les pàgines embornal que tindran tota la columna plena d'1/25.000.000.000. D'aquesta forma en comptes de la matriu H empraríem la matriu S=H+A en el mètode de les potències.
  • 6. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda Xarxa-Embornal: Un cas similar és el de les sub-xarxes de pàgines dins de la xarxa, com la 5-7-6-8, que no tenen enllaços de tornada. Aquestes xarxes es converteixen en xarxes-embornal. El problema és que aquestes pàgines sí enllacen altres pàgines i no podem simplement carregar-nos aquesta informació i enllaçar totes les pàgines de la xarxa des d'elles. Per donar sortida al flux de Page Rank, anem a recórrer a una solució al més pur estil "enginyer". Gran solució Necessitem garantir la sortida del flux de Page Rank de qualsevol pàgina o sub-xarxa, és a dir, que tota pàgina apunti a una altra pàgina. No ens val amb crear un enllaç a qualsevol pàgina a l’atzar perquè (a part d'estar falsejant el Page Rank), si resulta en una xarxa tancada com 5-7-6- 8 no hem solucionat gens. Ara, imaginem un cas ideal on totes les pàgines apuntessin a totes les pàgines. Aquí el Page Rank sempre tindria algun enllaç per on escapar, fins i tot de les sub- xarxes, i l'algorisme funcionaria. Però clar, es perdria tota la jerarquia que donen els enllaços, la matriu de repartiment tindria tots els seus elements iguals a 1/25.000.000.000 i totes les pàgines tindrien el mateix Page Rank. Doncs res, sumar la matriu de repartiment real, calculada amb la informació dels Spiders amb la ideal en la qual totes les pàgines s'apunten entre si i ho dividim per dos. La matriu resultant tindrà sempre enllaços sortints de cada pàgina i tenim el flux de Page Rank garantit. Que en barrejar a parts iguals la matriu real i la ideal ens surten els resultats massa aleatoris? (per influència de la ideal). Bé, doncs en comptes de meitat i meitat les barregem amb 85% de la matriu real i un 15% de la ideal i llestos. I ja que parlem del tema, aquí teniu la famosa matriu de Google:
  • 7. Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware/ © Roger Casadejús Pérez | Exatienda On recordem que S=H+A és la matriu real amb el problema dels embornals individuals resolt, 1/n×1, amb n = 25.000.000.000 és la matriu ideal i α = 0.85 ens dóna la citada barreja al 85%. Algun lector espavilat pot dir: Però… al ficar-hi un 15% de aleatorietat, no falseja d'alguna manera el Page Rank? Per acabar si emprem G en comptes d'H en el mètode de les potències i juguem una mica amb els termes obtenim la formula que apareixia al principi del post. Emprant la fórmula a la dreta de l'igual obtindrem cada nou vector Ik+1 en cada iteració. Anotacions finals - El valor òptim del paràmetre α es determina experimentalment i regula també la velocitat de convergència del mètode de les potències, a major percentatge de matriu real, menor velocitat de convergència. Google diu que amb n'hi ha prou amb k=50-100 iteracions per calcular el Page Rank, cosa que triga diversos dies. Imagino que treballant amb diversos ordinadors en paral·lel. Això es coneix com Google Dance i en TSS no ens fa gens de gràcia. - Matemàticament, la condició de convergència de l'algorisme emprat per Google és que tots els elements de la matriu de repartiment de Page Rank siguin estrictament majors que 0, cosa que compleix la ruda solució que acabem de veure. Això no és una condició de convergència del mètode de les potències si no una condició per a l'existència del vector invariant segons el teorema de Ruelle-Perron–Frobenius.