Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tarcsi Ádám: Keresőportálok működési elve

1,934 views

Published on

  • Be the first to comment

  • Be the first to like this

Tarcsi Ádám: Keresőportálok működési elve

  1. 1. KERESŐPORTÁLOK MŰKÖDÉSI ELVEI, INDEXELŐ SZOLGÁLTATÁSOK, RAN GSOROLÁSI SZEMPONTOK Tarcsi Ádám
  2. 2. 2 Keresőportálok csoportosítása
  3. 3. Keresők csoportosítása 3        Klasszikus, általános célú, kulcsszavas keresők Katalógus, linkgyűjtemény jellegű, tematikus keresők Web 2.0 keresők Tematikus, speciális adatbázisokra épített keresők, tudásbázisok Meta vagy szemantikus keresők Vizualizációs keresők Real-time, valósidejű kereső
  4. 4. Klasszikus, általános célú keresők 4   A keresők a weblapokat indexelés után veszik fel az adatbázisba. A legnagyobb keresők (a Google, a Yahoo és a Bing) alapvetően ebbe a kategóriába tartoznak.
  5. 5. Katalógus, linkgyűjtemény, tematikus keresők 5   Felhasználók, vagy szerkesztők által kezelt tartalmak érhetőek el. Például:  Open Directory Project (DMOZ)  Yahoo Directory  Startlap  Lapozz.hu  Linkcenter.hu  del.icio.us
  6. 6. Web 2.0-s keresők 6    A tartalmat a felhasználók töltik fel, osztják meg. Youtube.com Flickr.com
  7. 7. Tematikus, speciális adatbázisokra épített keresők, tudásbázisok 7        Adott témára, vagy speciális adatbázisokra épített keresők. Például: books.google.com Europeana az európai elektronikus könyvtár www.europeana.eu Wolfram Alpha (wolframalpha.com) - részben Gyógyszerkereső: agyogyszer.hu Termékkereső: arukereso.hu [Origo] sztaki szótár: szotar.sztaki.hu
  8. 8. Meta vagy szemantikus keresők 8   A weben lévő tartalmakat, adatbázisokat a számítógép számára is értelmezetten le tudjuk írni, ún. metaadatok vagy szemantikák, azaz jelentések, összefüggések megadásával Néhány szemantikus kereső: Evi: http://evi.com  SenseBot: http://www.sensebot.net/  Swoogle: http://swoogle.umbc.edu/  Dbpedia: a wikipedia tartalmára építettek egy szemantikus adatbázist.  Wolfram Alpha: http://wolframalpha.com 
  9. 9. Szemantikus keresők - evi 9  http://www.evri.com/news/for?query=Budapest+sights
  10. 10. DBpedia 10
  11. 11. Hol voltak ma földrengések? 11
  12. 12. WolframAlpha 12 http://www.wolframalpha.com/input/?i=all+earthquakes+today
  13. 13. Vizualizációs keresők 13    Találataik között összefüggéseket állapítanak meg, majd azokat ábrázolják, jellemzően gondolati térképeken hatékonyabb, a gráfok mentén böngészve gyorsabb keresést kínálvaIlyen keresők például: Quitura: http://www.quintura.com/ Liveplasma: http://www.liveplasma.com/
  14. 14. Valósidejű (real time) keresők 14     Valós idejű keresők, közösségi oldalakon, blogokon, hírfolyamokon használt. Az adatok szinte valós idejű indexelése, hogy az. Az internet csak egy kis részét pásztázzák. Pl.: socialmention.com
  15. 15. Hibrid 15   A legnagyobb keresők valójában ebbe a kategóriába tartoznak. A Google keresője például nagyrészt a keresőrobotok által talált oldalak tartalmára, valamint azokon talált képekre történő keresésekben segít, ugyanakkor bizonyos szemantikus adatokat is fel tud dolgozni.
  16. 16. 16 Keresők működése
  17. 17. Keresők működése 17  Kereséshez fel kell túrni a homokozót: Web (ro)bot, spider, clawler   Linkeken keresztül járják be a webet Indexelés   Indexelés,  Rangsorolás: A kulcsszavak előfordulását súlyozza az elismertségi szinttel (PageRank-kel   Adattisztítás Frissítés (újra bejárás) A pontos értelmezés: metaadatok szükségesek    Matematikai módszerekkel az emberi nyelv nem írható le  a helyes értelmezéshez szükség van az emberre is. Valahol itt született meg a szemantikus web víziója Az Interneten nem csak emberek "böngésznek", kommunikálnak  számítógépek számára is érthető tartalom kell.
  18. 18. PageRank 18    Hiperlinkkel összekötött dokumentumhoz egy számot rendel a betöltött szerep alapján. Hivatkozás = szavazás az oldalra Az a fontos oldal, amire mutatnak. - i: adott oldal - d: csillapítási tényező - M(i): azon oldalak halmaza, amelyek linkelnek i-re - L(j): j. Oldalról kimenő linkek száma
  19. 19. PageRank, kulcsszó lekérdezők 19     Többféle SEO Toolbar létezik FireFox-hoz http://seopen.com/seopen-tools/pagerank.php http://www.iwebtool.com/pagerank_checker Bejövő linkek ellenőrzése    link: http://www.inf.elte.hu Linkhálózat PageRank elemzése: http://www.smartpagerank.com/pagerankbacklinks.php Kulcsszó ajánló, kulcssűrűség vizsgáló: http://www.webconfs.com/  http://www.seotools.hu/ 
  20. 20. 20 Google
  21. 21. Googol  Google 21    1 googol = 10100 = 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 1938, Milton Sirotta Googolplex = 10googol – a legnagyobb saját névvel rendelkező szám – Edward Kasner
  22. 22. Története 22  BackRub  Larry Page (1971), Sergey Brin (1972), Stanford University, 1995  1996: BackRub keresőmotor. Alapja: visszamutató linkek elemzése  1997 – Google: Az egyetemi campuson üzemel  1998: Első adatközpont – 1 terrabyte  Google: 59 000 keresés másodpercenként
  23. 23. A Google titka 23       A legtöbb belinkelt oldal (?) Legtöbb találat  több, mint 70-80%-os piaci rész Egyszerű, átlátható, barátságos Kevés reklám, a szponzorált oldalak nem kapnak jobb pozíciót Egyéb, kiegészítő szolgáltatások:  Képkeresés  Számológép, definíció, US telefonkönyv, utcatérkép, helyesírás ellenőrző  Hasonló lapok, adott site-on keresés, ki hivatkozik rám, stb. Fizetős szolgáltatások: hirdetési rendszer, Earth, SketchUp
  24. 24. 24 Keresők piaca
  25. 25. Keresők piaca: trend 25
  26. 26. Keresők piaca: trend 26 2012 Jan, US Google Bing Yahoo ASK AOL comScore January 2012 U.S. Search Engine Rankings
  27. 27. Globális keresőpiac 27 http://marketshare.hitslink.com/search-engine-market-share.aspx?qprid=4
  28. 28. Globális keresőpiac 28
  29. 29. Mobil keresés 29
  30. 30. gemiusTraffic kutatás Keresőmotorok - Magyarország 30 Forrás: http://www.rankings.hu/hu/rankings/search-engines.html
  31. 31. Keresőmotorok: Magyarország 31
  32. 32. De nem mindenhol a Google az első: Kína 32 2011 Q2 – forrás: http://www.iresearch.cn/
  33. 33. Kína 33
  34. 34. Japán 34
  35. 35. Oroszország: Yandex 35
  36. 36. Volt Szovjet tagállamok 36
  37. 37. Világ 37
  38. 38. 38 Keresőoptimalizálás
  39. 39. Keresőoptimalizálás 39    Technikailag az első látogató a kereső  a "barátainak" majd ő meséli el, mit látott. Rangsorolás alapján ajánlanak tartalmat, oldalakat a keresett kifejezésre Linkgyűjtemények szerepe lap.hu, lapozz.hu, linkfarm, stb.  Dmoz.org    SEO – Keresőoptimalizálás SEM – Keresőmarketing
  40. 40. Rangsorolás alapja 40 Tartalom  Oldal fontossága   Látogatottság,  Megbízhatóság, A linkhálózatban betöltött szerepe,  Szponzoráció,  Frissesség,  Tartalom eredetisége,  Egyéb szempontok,
  41. 41. Top 30 probléma 41   A kutatások szerint a keresési lista első 30 helyezettjét nézi át a felhasználók többsége Egy cégnek létfontosságú lehet a Top 30-ba bekerülés (és bentmaradás)
  42. 42. Keresők – bejárási utak Yahoo! Slurp Googlebot MSNbot 42 Forrás: http://www.drunkmenworkhere.org
  43. 43. Linkszaporítás 43  Tematikus keresők, katalógusok  Startlap: Lap.hu  Linkek.hu  Lapozz.hu  Szakmai címlisták  Szakmai címtárak  DMOZ.org  Szakmai kiadványok, szervezetek weblapjai
  44. 44. Google Webmestereszközök 44
  45. 45. Google Webmestereszközök 2. 45          Milyen keresőkifejezésekről jutottak el a weboldalunkra? Milyen kulcsszavakra látja a Google optimalizálva az oldalunkat? Robots.txt lekérdezése, beállítása Webhelytérkép feltöltése Webhelylinkek megadása Webhelyre mutató linkek Javaslatok Tájékoztatja a webes rendszergazdát arról, ha a Google úgy észlelte, feltörték weboldalunkat. Google bot Mobile elemzések
  46. 46. Trükkök, irányelvek 46           Bőséges, egyedi tartalom, keresőre (kulcsszavakra, kifejezésekre) optimalizálva  de ne vigyük túlzásba Domain név Cím (Title) címke Főcímek (h1,h2,h3...) Szöveget ne képként Képaláírások használata (Alt címke) Linkek szövegében kifelé és befelé mutatókban egyaránt! Fájlok, könyvtárak nevei Honlap életkora, frissessége is számít Linkhálózat értéke és frissessége
  47. 47. Trükkök, irányelvek – 2. 47         Menüvel saját oldalainkra linkelhetünk Sitemap (oldaltérkép) Bloggok, fórumok bejegyzéseiben történő reklám JavaScript, Flash, Framek, képként ábrázolt szövegek használata nem szerencsés Első 20, 200 szó a legfontosabb Kulcsszótávolság Kulcsszósűrűség Hivatkozások lekérése: Google: link:elte.hu  Yahoo: linkdomain:elte.hu 
  48. 48. Formai, tartalmi irányelvek 48      Szöveges linkek, minden oldal legyen elérhető link által Hasznos, információkban gazdag oldal Törött linkek ellenőrzése Dinamikus weboldalak esetén minél kevesebb paraméter legyen a linkekben Frame-es oldalakban egyes keresők is elakadnak, de a könyvjelzők, oldal címének megjegyzése is nehézkes
  49. 49. Technikai irányelvek 49  Szöveges böngészővel (pl.: Lynx) ellenőrizni az oldalt (a keresőrobot is kb. annyit lát az oldalból)  http://lynx.isc.org/      http://csant.info/lynx.htm A keresőrobot bejárhassa az oldalt session id, vagy egyéb argumentum nélkül is. Webszerver: "If-Modified-Since" HTTP header (változotte a tartalom) URL-ekben kerülendő az &id= argumentum Robots.txt fájl létrehozása (http://www.robotstxt.org/wc/faq.html)  Gyökérben. Ebben adjuk meg, hogy a keresőrobot mit indexelhet és mit nem. META tageket is használhatunk.  Példa: User-agent: * Disallow: /cgi-bin/ Disallow: /images/
  50. 50. Kulcsszó kiválasztása 50      Marketing cél alapján lehet pl.: termék, termékhez kapcsolódó kifejezés Az oldal tartalmának illeszkedni kell a kiválasztott kulcsszóhoz Keresési trendek is segíthetnek a kiválasztásban  http://www.google.com/trends  http://google.com/insights/search/ A látogatottsági adatok alapján formálni kell! Az elkészült oldalon ellenőrizzük le, hogy a tartalom illeszkedik-e a kulcsszóhoz!  https://www.google.com/webmasters/tools/  http://www.webconfs.com/keyword-density-
  51. 51. Végül... 51  Publikálni az oldalt, hogy ráleljen a kereső (is)!  fórumok  bloggok  lap.hu  Oldal bejelentése:  http://www.google.com/addurl.html  submit.search.yahoo.com/free/request  Folyamatosan figyelni és karbantartani!  Az oldal frissessége, aktualitása és múltja egyaránt számít!
  52. 52. Ha kész az oldal 52  Oldaltérkép bejelentése http://www.google.com/webmasters/sitemaps/l ogin?hl=en Oldaltérkép előállítása: http://www.auditmypc.com/site-maps.asp
  53. 53. Ha kész az oldal 53   Partneroldalakat értesíteni, hogy on-line elérhető az oldal Tematikus katalógusokba be kell jelenteni
  54. 54. Wordpress, Drupal, Joomla SEO eszközök 54   A gyakorlat azt mutatja, hogy a gyakori blog motorokhoz írt SEO pluginek nagyon jól teljesítenek. Működésük:  On-page SEO: a postok elemzése igazítása a kulcsszóhoz a fenti technikai elvek alapján.  Off-page SEO: linképítés nagy pagerank értékkel rendelkező site-ok segítségével - automatikusan. Ez utóbbi biztosítja azt, hogy szinte azonnal bekerülünk a Google keresési eredményei közé.
  55. 55. 55 Wordpress on-page SEO elemzés
  56. 56. Merre tartunk? Szemantikus web?
  57. 57. A Web működése okozza a gondot! 57 A HTML dokumentum leíró és nem információ leíró nyelv. • Metaelemek - sovány vigasz • <meta name="description" content="Az oldal a … témakörével foglalkozik."> • <meta name="keywords" content="kulcsszó1, kulcsszó2, kulcsszó3"> • Az oldalak közötti kapcsolatok egyirányúak. • A tartalom az embernek szól. • A HTML5 picit segít ezen Az emberi nyelv nem formalizálható teljesen a matematika segítségével.
  58. 58. Szemantikus web vs. szemantikus keresés 58   Szemantikus web: gépileg feldolgozható tudás Szemantikus keresés: értelmezhető keresés, jobb, pontosabb találatok
  59. 59. Az adatok a weboldalakba temetve 59
  60. 60. Számítógépnek is értenie kell Nagyszámú integráció - ad hoc - egyedi Alkalmazások milliói A kapott információk jellemzően túl nagy mennyiségűek áttekintéshez, automatikus keresésre és összekapcsolásra van szükség 10100 10 0010 01 101 0 101 01 1101 110 1 10 1 10 0 1 1 0 1 0 1 0 0 1 1 0 1 1 1 10 0 1 101 0 1 010 0 1 1 0 A weblapok ember számára „érthetőek”. Search & Mash-up Engine A tartalom a 60 számítógép számára „érthetetlen”.
  61. 61. Mi a „megértés”? 61     Mit mond egy weblap egy Web robotnak? " For more information visit <a href=“http://www.ex.org”> my company </a> Web site. . .” Ebből azt értik, hogy: " blah blah blah blah blah <a href=“http://www.ex.org”> blah blah blah </a> blah blah. . .”
  62. 62. Mit „ért meg” a Google?  Azt érti meg, hogy:   [page1] hivatkozik [page2]  page2 fontos  Google rendezni tudja a találatokat! Az okosabb találatokhoz okosabb adatleírás kell.
  63. 63. Szemantika, kapcsolat, … 63  Kapcsolat nem weblapok között, hanem tartalmak között.  Szemantika ~ jelentés egér  egér Metaadatok szükségesek a leírásra
  64. 64. Szemantikus web 64 van van van eszik fél tőle egér ábrázol terminológia (szó v. kifejezés) a fogalomra…. eszik
  65. 65. Google: Microadatok, microformats, RDFa 65 Tulajdonság name (fn) recipeType (tag) photo published summary Leírás Kötelező. Az esemény neve. Az étel típusa: pl. előétel, főétel, desszert ... Az étel készítését ábrázoló fénykép. A recept közzétételének ideje ISO dátumformátumban. Az étel rövid összefoglaló leírása. review Az étel értékelése. Tartalmazhat beágyazott értékelési információkat. prepTime A recept előkészítésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is. cookTime Az étel megfőzésének/-sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is. totalTime (duration) Az étel előkészítésének és megfőzésének/sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is. nutrition A recepttel kapcsolatos tápanyagadatok. A következő gyermekelemeket tartalmazhatja: servingSize, calories, fat, saturatedFat, unsaturatedFat, carbohydrates, sugar, fiber, protein, cholesterol. Ezek az elemek nem kifejezett részei a hRecipe mikroformátumnak, de a Google felismeri őket. instructions yield Az étel elkészítésének lépései. Tartalmazhatja az instruction gyermekelemet, amellyel az egyes lépéseket különböztetheti meg. A recept alapján elkészített étel mennyisége (pl. hány főre, hány adag stb.). ingredient A receptben használt hozzávaló. Tartalmazhatja a name (a hozzávalók neve) és az amount (mennyiség) gyermekelemeket. Ennek használatával azonosítsa az egyes hozzávalókat. author A recept szerzője. Tartalmazhat beágyazott, személyre vonatkozó információt. Forrás: http://www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=173379
  66. 66. RDFa – RDF with attributes 66 További információk: http://www.w3.org/TR/xhtml-rdfa-primer/
  67. 67. RDFa példa kód 67 <html xmlns="http://www.w3.org/1999/xhtml" xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#" xmlns:xs="http://www.w3.org/2001/XMLSchema#" > <body> <p about="#event1" typeof="cal:Vevent"> <b property="cal:summary">Borkóstoló és konferencia</b>: <span property="cal:dtstart" datatype="xs:date">2010-11-25 </span>-től <span property="cal:dtend" datatype="xs:date">2010-11-27 </span>-ig. További információk<a rel="cal:url" href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak. <br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>. </p> </body> </html>
  68. 68. Az ember számára látható adatok 68 <html xmlns="http://www.w3.org/1999/xhtml" xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#" xmlns:xs="http://www.w3.org/2001/XMLSchema#" > <body> <p about="#event1" typeof="cal:Vevent"> <b property="cal:summary">Borkóstoló és konferencia</b>: <span property="cal:dtstart" datatype="xs:date">2010-11-25 </span>-től <span property="cal:dtend" datatype="xs:date">2010-11-27 </span>-ig. További információk<a rel="cal:url" href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak. <br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>. </p> </body> </html>
  69. 69. Adatok az RDFa ügynöknek 69 <html xmlns="http://www.w3.org/1999/xhtml" xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#" xmlns:xs="http://www.w3.org/2001/XMLSchema#" > <body> <p about="#event1" typeof="cal:Vevent"> <b property="cal:summary">Borkóstoló és konferencia</b>: <span property="cal:dtstart" datatype="xs:date">2010-11-25 </span>-től <span property="cal:dtend" datatype="xs:date">2010-11-27 </span>-ig. További információk<a rel="cal:url" href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak. <br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>. </p> </body> </html>
  70. 70. A kettő metszete: a „lényeg” 70 <html xmlns="http://www.w3.org/1999/xhtml" xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#" xmlns:xs="http://www.w3.org/2001/XMLSchema#" > <body> <p about="#event1" typeof="cal:Vevent"> <b property="cal:summary">Borkóstoló és konferencia</b>: <span property="cal:dtstart" datatype="xs:date">2010-11-25 </span>-től <span property="cal:dtend" datatype="xs:date">2010-11-27 </span>-ig. További információk<a rel="cal:url" href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak. <br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>. </p> </body> </html>
  71. 71. Mit tud az RDFa ügynök? 71       #event1 isA cal:Vevent #event1 cal:summary "Borkóstoló és konferencia" #event1 cal:dtstart "2010-11-25" (xs:date) #event1 cal:dtend "2010-11-27" (xs:date) #event1 cal:url <http://infoera.hu/> #event1 cal:location "Füzesgyarmat"
  72. 72. Melyek azok a legalább 50 kilométer hosszú folyók, melyek a Rajnába ömlenek? 72
  73. 73. Szemantikus keresés 73 Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel:            kapcsolódó keresések felajánlása, keresett kifejezések javítása definíciók, referenciák megjelenítése egy keresett kifejezésre szemantikailag annotált eredménymegjelenítés, a releváns információk kiemelése hosszabb szöveg alapú keresés szemantikai/szintaktikai annotációval támogatott keresés fogalmi keresés taxonómiák alkalmazásával ontológia alapú keresés szemantikus web technológiáinak kihasználása előre definiált kategóriák szerinti eredménymegjelenítés eredmények klaszterezett, csoportosított megjelenítése természetes nyelvű kereső kérdések megválaszolása http://kereses.blog.hu/2010/02/03/mitol_szemantikus_egy_kereso
  74. 74. Néhány érdekes példa: 74  http://www.hakia.com/  http://swoogle.umbc.edu/  http://www.cognitionsearch.com/  http://www.powerset.com/  http://www.kartoo.com/  http://www.quintura.com/  http://iglue.com/  http://www.polymeta.hu  http://szorcs.hu/
  75. 75. Vége

×