Sadržaj predavanja <ul><li>Osnovni pojmovi </li></ul><ul><li>Uloga tražilica na webu </li></ul><ul><li>O čemu neću govorit...
World Wide Web <ul><li>Jedna od najkorištenijih usluga Interneta koja omogućava dohvaćanje hipertekstualnih dokumenata </l...
www (2) <ul><li>Za dohvaćanje i prikaz sadržaja koriste se računalni programi koji se nazivaju web-preglednici (browser). ...
Što je tražilica? <ul><li>Web lokacija koja služi za pronalaženje informacija pohranjenih na drugim Web lokacijama. Inform...
Što je tražilica ? (2) <ul><li>Za razliku od Web imenika koje održavaju urednici (ljudi), internetske tražilice djeluju po...
<ul><li>Preglednici </li></ul><ul><li>Tražilice </li></ul>
Tri puta kojima posjetitelji dolaze na web stranice
 
Najpopularnije tražilice (veljača 2011.)
 
 
O čemu neću danas govoriti
<ul><li>mrežna usluga koja odgovara na upite izravno ili računanjem odgovora na temelju strukturiranih podataka </li></ul>...
Način rada tražilice <ul><li>Prikupljanje sadržaja (crawling) </li></ul><ul><li>Indeksiranje </li></ul><ul><li>Pretraživan...
Prikupljanje sadržaja (crawling) i indeksiranje <ul><li>crawler, spider - automatizirani web preglednik koji slijedi svaku...
Obrada upita <ul><li>ključne riječi, logički operatori </li></ul><ul><li>pregled indeksa </li></ul><ul><li>cilj: vratiti o...
Rangiranje stranica <ul><li>&quot;najbolji&quot; rezultati na prvim mjestima </li></ul><ul><li>način rangiranja se razliku...
The Anatomy of a Large-Scale  Hypertextual Web Search Engine Sergey Brin and Lawrence Page {sergey, page}@cs.stanford.edu ...
<ul><li>http://infolab.stanford.edu/~backrub/google.html </li></ul>
PageRank <ul><li>algoritam za analizu povezanosti i nazvan je po Larryju Pageu. Na temelju ovog algoritma tražilica Google...
PageRank / 2 <ul><li>Svrha ovog algoritma je procjenijivanje relativne važnost pojedinog dokumenta u skupu. Algoritam se m...
PageRank / 3 <ul><li>Ime &quot;PageRank&quot; je zaštitni znak tvrtke Google, a postupak PageRank je patentiran (US Patent...
Vrijednost funkcije PageRank za jednostavnu mrežu
Tajna formula
Slučajna šetnja po Webu <ul><li>Šetač (surfer) na slučajan način odabire poveznicu na stranici i nastavlja šetnju. Kad mu ...
Osnovni pojmovi <ul><li>Neka je  u  vrh u usmjerenom grafu  G </li></ul><ul><li>F u  skup vrhova u grafu  G  u koje ulazi ...
 
Konačno - PageRank!
Primjer 1
 
 
 
4,000  0,150  1,577  0,783  1,490  20 4,000  0,150  1,577  0,783  1,490  19 4,000  0,150  1,576  0,783  1,490  18 4,000  0...
 
PageRank - Algoritam Inicijalizacija: Korak: Uvjet zaustavljanja: Ukupan broj svih stranica Vjerojatnost da posjetitelj kl...
PageRank nekih stranica <ul><li>The value of PageRank that we know is those that we can read from Google’s Toolbar. That v...
<ul><li>www.pmf.hr  </li></ul><ul><li>www.ibm.com  </li></ul><ul><li>www.facebook.com  </li></ul><ul><li>www.petagimnazija...
<ul><li>www.facebook.com 10 </li></ul><ul><li>www.microsoft.com 9 </li></ul><ul><li>www.ibm.com 8 </li></ul><ul><li>www.pm...
Academic Search Engine Research <ul><li>Aside from tremendous growth, the Web has also become increasingly commercial over...
Akademska tražilica Istraživanja  <ul><li>Osim ogroman rast, Web je također postaje sve komercijalne tijekom vremena. Godi...
Upitnici ?
Nekoliko web lokacija <ul><li>http://hr.wikipedia.org/wiki/Tra%C5%BEilica </li></ul><ul><li>http://www.hitwise.com/us/data...
„ CoolMath“ – Popularnomatematička predavanja Kako traže tražilic e   dr.sc. Goran Igaly Prirodoslovno-matematički fakulte...
Upcoming SlideShare
Loading in...5
×

Kako traže tražilice - predavanje za CoolMath

864

Published on

Objašnjen je način rada internetskih tražilica, s posebnim naglaskom na Google PageRank.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
864
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Kako traže tražilice - predavanje za CoolMath

  1. 2. Sadržaj predavanja <ul><li>Osnovni pojmovi </li></ul><ul><li>Uloga tražilica na webu </li></ul><ul><li>O čemu neću govoriti </li></ul><ul><li>Način rada tražilice </li></ul><ul><li>Rangiranje web stranica </li></ul><ul><li>Članak iz 1998. </li></ul><ul><li>PageRank </li></ul><ul><li>Računanje PageRanka </li></ul><ul><li>Primjeri </li></ul><ul><li>Umjesto zaključka </li></ul>
  2. 3. World Wide Web <ul><li>Jedna od najkorištenijih usluga Interneta koja omogućava dohvaćanje hipertekstualnih dokumenata </li></ul><ul><li>Dokumenti mogu sadržavati tekst, slike i multimedijalne sadržaje a međusobno su povezani hiperlinkovima </li></ul>
  3. 4. www (2) <ul><li>Za dohvaćanje i prikaz sadržaja koriste se računalni programi koji se nazivaju web-preglednici (browser). </li></ul><ul><li>Web se često pogrešno koristi kao sinonim za Internet, a zapravo predstavlja jednu uslugu kojom se ostvaruje razmjena podataka preko te svjetske računalne mreže. </li></ul>
  4. 5. Što je tražilica? <ul><li>Web lokacija koja služi za pronalaženje informacija pohranjenih na drugim Web lokacijama. Informacije mogu biti Web stranice, slike i ostale vrste datoteka. </li></ul>
  5. 6. Što je tražilica ? (2) <ul><li>Za razliku od Web imenika koje održavaju urednici (ljudi), internetske tražilice djeluju po određenom algoritmu ili su kombinacija algoritma i ljudskog upisa </li></ul>
  6. 7. <ul><li>Preglednici </li></ul><ul><li>Tražilice </li></ul>
  7. 8. Tri puta kojima posjetitelji dolaze na web stranice
  8. 10. Najpopularnije tražilice (veljača 2011.)
  9. 13. O čemu neću danas govoriti
  10. 14. <ul><li>mrežna usluga koja odgovara na upite izravno ili računanjem odgovora na temelju strukturiranih podataka </li></ul><ul><li>tražilice na upit odgovaraju pružanjem popisa dokumenata ili web stranica na kojima bi mogao biti odgovor na upit </li></ul><ul><li>pokretač Stephen Wolfram, u javnost puštena 15. svibnja 2009. </li></ul><ul><li>prema Popular Science, WA je bila najveća računalna inovacija u 2009.godini. </li></ul>
  11. 15. Način rada tražilice <ul><li>Prikupljanje sadržaja (crawling) </li></ul><ul><li>Indeksiranje </li></ul><ul><li>Pretraživanje </li></ul>
  12. 16. Prikupljanje sadržaja (crawling) i indeksiranje <ul><li>crawler, spider - automatizirani web preglednik koji slijedi svaku poveznicu na stranici </li></ul><ul><li>analiza i utvrđivanje kako treba indeksirati pojedine riječi </li></ul><ul><li>indeksiranje </li></ul>
  13. 17. Obrada upita <ul><li>ključne riječi, logički operatori </li></ul><ul><li>pregled indeksa </li></ul><ul><li>cilj: vratiti one stranice koje na neki način najbolje odgovaraju onome što je korisnik tražio </li></ul>
  14. 18. Rangiranje stranica <ul><li>&quot;najbolji&quot; rezultati na prvim mjestima </li></ul><ul><li>način rangiranja se razlikuje od tražilice do tražilice </li></ul><ul><li>postupci rangiranja se mijenjaju tijekom vremena </li></ul><ul><li>Google koristi PageRank </li></ul>
  15. 19. The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page {sergey, page}@cs.stanford.edu Computer Science Department, Stanford University, Stanford, CA 94305 <ul><li>In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu / </li></ul>
  16. 20. <ul><li>http://infolab.stanford.edu/~backrub/google.html </li></ul>
  17. 21. PageRank <ul><li>algoritam za analizu povezanosti i nazvan je po Larryju Pageu. Na temelju ovog algoritma tražilica Google dodjeljuje numeričke vrijednosti (težine) svakom elementu skupa dokumenata međusobno povezanih poveznicama (hiperlinkovima). </li></ul>
  18. 22. PageRank / 2 <ul><li>Svrha ovog algoritma je procjenijivanje relativne važnost pojedinog dokumenta u skupu. Algoritam se može primijeniti na bilo koji usmjereni graf. Numerička težina dodijeljena bilo kojem elementu E tog grafa se naziva PageRank od E i označava PR( E ). </li></ul>
  19. 23. PageRank / 3 <ul><li>Ime &quot;PageRank&quot; je zaštitni znak tvrtke Google, a postupak PageRank je patentiran (US Patent 6285999). Međutim, patent je dodijeljen Sveučilištu Stanford, a ne Googleu. Google je od Sveučilišta Stanford otkupio ekskluzivna prava na korištenje patenta. Zauzvrat je Sveučilište Stanford dobilo 1,8 milijuna dionica Googlea, a dionice su prodane 2005. za 336 milijuna dolara. </li></ul>
  20. 24. Vrijednost funkcije PageRank za jednostavnu mrežu
  21. 25. Tajna formula
  22. 26. Slučajna šetnja po Webu <ul><li>Šetač (surfer) na slučajan način odabire poveznicu na stranici i nastavlja šetnju. Kad mu dojadi, na slučajan način odabire posve novu polaznu stranicu. Vjerojatnost da će slučajni šetač odabrati posve novu početnu stranicu, jednaka je faktoru prigušenja d </li></ul>
  23. 27. Osnovni pojmovi <ul><li>Neka je u vrh u usmjerenom grafu G </li></ul><ul><li>F u skup vrhova u grafu G u koje ulazi neki luk iz G s početkom u vrhu u </li></ul><ul><li>B u skup vrhova u grafu G iz kojih izlazi neki luk s krajem u vrhu u. </li></ul>
  24. 29. Konačno - PageRank!
  25. 30. Primjer 1
  26. 34. 4,000 0,150 1,577 0,783 1,490 20 4,000 0,150 1,577 0,783 1,490 19 4,000 0,150 1,576 0,783 1,490 18 4,000 0,150 1,577 0,783 1,490 17 4,000 0,150 1,576 0,784 1,490 16 4,000 0,150 1,576 0,783 1,491 15 4,000 0,150 1,577 0,784 1,489 14 4,000 0,150 1,575 0,784 1,491 13 4,000 0,150 1,578 0,781 1,491 12 4,000 0,150 1,578 0,788 1,485 11 4,000 0,150 1,570 0,780 1,500 10 4,000 0,150 1,588 0,780 1,482 9 4,000 0,150 1,567 0,801 1,482 8 4,000 0,150 1,567 0,750 1,533 7 4,000 0,150 1,627 0,810 1,413 6 4,000 0,150 1,485 0,810 1,554 5 4,000 0,150 1,652 0,644 1,554 4 4,000 0,150 1,652 1,036 1,163 3 4,000 0,150 1,191 0,575 2,084 2 4,000 0,150 2,275 0,575 1,000 1 4,000 1,000 1,000 1,000 1,000 0 Suma D C B A Iteracija
  27. 36. PageRank - Algoritam Inicijalizacija: Korak: Uvjet zaustavljanja: Ukupan broj svih stranica Vjerojatnost da posjetitelj klikne na neki link na stranici broj linkova na stranici Skup svih stranica koje na sebi imaju link prema Vjerojatnost da posjetitelj slučajno dođe na stranicu
  28. 37. PageRank nekih stranica <ul><li>The value of PageRank that we know is those that we can read from Google’s Toolbar. That value is a logarithmic representation of the real value. I will assume that the base of logarithm is 7 (the real value isn’t known). </li></ul>
  29. 38. <ul><li>www.pmf.hr </li></ul><ul><li>www.ibm.com </li></ul><ul><li>www.facebook.com </li></ul><ul><li>www.petagimnazija.hr </li></ul><ul><li>www.pliva.hr </li></ul><ul><li>www.microsoft.com </li></ul><ul><li>www.24sata.hr </li></ul>
  30. 39. <ul><li>www.facebook.com 10 </li></ul><ul><li>www.microsoft.com 9 </li></ul><ul><li>www.ibm.com 8 </li></ul><ul><li>www.pmf.hr 7 </li></ul><ul><li>www.24sata.hr 6 </li></ul><ul><li>www.pliva.hr 5 </li></ul><ul><li>www.petagimnazija.hr 4 </li></ul>
  31. 40. Academic Search Engine Research <ul><li>Aside from tremendous growth, the Web has also become increasingly commercial over time. In 1993, 1.5% of web servers were on .com domains. This number grew to over 60% in 1997. At the same time, search engines have migrated from the academic domain to the commercial. </li></ul><ul><li>Up until now most search engine development has gone on at companies with little publication of technical details. </li></ul><ul><li>This causes search engine technology to remain largely a black art and to be advertising oriented (see Appendix A). </li></ul><ul><li>With Google, we have a strong goal to push more development and understanding into the academic realm. </li></ul>
  32. 41. Akademska tražilica Istraživanja <ul><li>Osim ogroman rast, Web je također postaje sve komercijalne tijekom vremena. Godine 1993, 1,5% web poslužitelja su na. com domene. Ovaj broj je narasla na preko 60% u 1997. U isto vrijeme, tražilice su migrirali iz akademske domene komercijalni. Do sada je većina tražilica razvoj je otišao na na tvrtke s malo objavljivanja tehničkih detalja. To uzrokuje tražilice tehnologije da ostanu u velikoj mjeri crna magija i da se oglašavanje orijentirani (vidi Dodatak). Sa Google, imamo jake cilj gurnuti više razvoj i razumijevanje u akademsku domenu. </li></ul>
  33. 42. Upitnici ?
  34. 43. Nekoliko web lokacija <ul><li>http://hr.wikipedia.org/wiki/Tra%C5%BEilica </li></ul><ul><li>http://www.hitwise.com/us/datacenter/main/dashboard-10133.html </li></ul><ul><li>http://en.wikipedia.org/wiki/PageRank </li></ul><ul><li>http://ilpubs.stanford.edu:8090/361/1/1998-8.pdf </li></ul><ul><li>http://www.wolframalpha.com </li></ul><ul><li>http://www.iwebtool.com/pagerank_checker </li></ul>
  35. 44. „ CoolMath“ – Popularnomatematička predavanja Kako traže tražilic e dr.sc. Goran Igaly Prirodoslovno-matematički fakultet Matematički odsjek 2. ožujka 2011.
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×