Pretrazivanje Interneta 2011
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Pretrazivanje Interneta 2011

  • 37,500 views
Uploaded on

Prezentacija vezano uz radionicu Pretraživanja informacija na Internetu

Prezentacija vezano uz radionicu Pretraživanja informacija na Internetu

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
37,500
On Slideshare
37,500
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
43
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Pretraživanje i upravljanje digitalnim informacijama Dijana Machala, prof., dipl. knjiž. Nacionalna i sveučilišna knjižnica u Zagrebu [email_address]
  • 2. Internet
    • Internet
      • sustav globalnih nezavisnih međusobno povezanih računalnih umreženja koja komuniciraju pomoću TCP/IP protokola
      • osmišljen 1969. u okviru istraživačkog programa američkog Ministarstva obrane (ARPANet)
      • informacijsko središte (hub) gdje ljudi provode većinu svog vremena učeći, igrajući se i komunicirajući globalno jedni s drugima
      • platforma društvenog medija, Ray Oldenburg – “third places”
      • medij jedan-na-jedan, jedan-na-više, više-na-više, u realnom vremenu i sinkroniziran
      • platforma za poslovanje, druženje, objavljivanje, političko djelovanje, učenje i sl.
      • ISOC – Internet Society – svjetska organizacija koja se brine o smjernicama razvoja Interneta
      • 3WC – konzorcij koji se brine za standardizaciju internetskog medija
  • 3. Barras, Colin. Unknown internet 3: How big is the net? New Scientist, 1 May 2009. URL: http://www.newscientist.com/article/mg20227062.200-unknown-internet-3-how-big-is-the-net.html
  • 4. Internet
    • Internetski servisi
      • World Wide Web - koristi HTTP za prijenos web stranica napisanih u HTML-u - to je noviji servis, ali i najbrže rastući
      • razgovor ili čavrljanje (chat) - koji može biti komunikacija glasom ili pismena komunikacija - primjeri su IRC, ICQ i u zadnje vrijeme sve popularniji Skype
      • elektronička pošta - koristi POP, SMTP i druge protokole, jedna od prvih usluga na Internetu ( 1971. Ray Tomlinson osmislio je program koji šalje mail poruke preko mreže ; 1 976. kraljica Elizabeta II poslala je prvi mail ; 73% zaposlenika pr o vede više od sat vremena na mail komunikaciju )
      • prijenos datoteka - uz standardni FTP danas se sve više koristi peer to peer protokoli
      • Usenet - mreža namijenjena razmjeni poruka u interesnim grupama
  • 5. Površinski web
    • Internetski sadržaj:
      • Površinski web – surface web
      • Dubinski web – deep web , invisible web , hidden web , darkweb , underweb
    • Površinski web čini dio ukupnog sadržaja globalne mreže kojeg su dohvatili roboti u svom indeksiranju web prostora.
      • Sadržaj dohvatljiv tražilicama, odnosno paukovima, robotima, crawlerima , botima …
    • Nevidljivi web 500 puta je veći od površinskog weba
  • 6. Nevidljivi web
    • Većinu sadržaja nevidljivog weba čini:
      • sadržaj baza podataka
      • dinamičke stranice koje se kreiraju na upit
      • stranice koje su označene da ne budu indeksirane
      • sadržaj koji ne sadrži link niti na jednu drugu stranicu
      • privatni web sadržaj koji zahtijeva autentifikaciju (intranet, extranet i druge računalne mreže)
      • sadržaj u formatima različitim od HTML-a ili teksta (multimedija, JavaScript, video i sl.)
      • dokumente izvan http protokola (gopher, telnet, ftp)
      • dinamički sadržaj (novosti, avio letovi i sl.)
      • postovi, komentari, FB komunikacija, društvno označivanje
    • Pretražuje se pomoću vertikalnog pretraživanja, internetskih imenika, ‘dvorazinskog’ pretraživanja
  • 7. Internetske adrese
    • URI, URL, URN
      • definiran standardom RFC 3986/2009
      • služi za određivanje lokacije i metode pristupa objektima na Internetu. Sastoji se od naziva protokola koji određuje kako će se pristupiti objektu te mrežnog mjesta zajedno s mogućim upitima i identifikacijskim dijelovima adrese
      • namjena mu je da upućuje tražilice na određeno mrežno mjesto ili digitalni objekt
      • Oznaka adrese statičkih, predefiniranih stranica – .html, .pdf, .doc, .rtf, .ps …
      • Primjer: http://www.w3.org/
    • Dinamički URL
      • obično sadrži sljedeće znakove - ?, &, %, +, =, $, cgi-bin, .cgi
      • Dinamički URL se generira nakon upita na bazu podataka
      • Odnosi se na dinamički i aktivni sadržaj web-a (.asp, .jsp, .php, .cfm)
      • Primjer: http://www.nsk.hr/home.aspx?id=24
    • PURL – persistent uniform resource locator
      • URL koji se koristi za preusmjerenje adrese tražene mrežne stranice
      • koristi izvorni kod HTTP-a (eror 404, 303)
      • razvio OCLC 1995. godine
      • nedostatak - prevelika ovisnost o DNS serveru
  • 8. Internetske adrese
    • DOI
      • DOI – digital object identifier – alfanumerički naziv za jedinstvenu identifikaciju digitalnog sadržaja, kao što je knjiga, članak i sl.
      • DOI se uparuje s URL adresom unutar središnjeg imenika, te se objavljuje umjesto URL-a
      • DOI je trajan, dok se adresa dokumenta može mijenjati
      • DOI se dodjeljuje izdavačima i može se koristiti u različitim sustavima i bazama podataka
      • Primjer: Green, T (2009), “We Need Publishing Standards for Datasets and Data Tables”, OECD Publishing White Paper, OECD Publishing. doi: 10.1787/603233448430 http://dx.doi.org/10.1787/603233448430
    • Permalink
      • Permalink – URL ili adresa koja upućuje na određeni post na blogu ili forumu nakon što je arhivirana
      • Upotrebljava se u wiki alatu za različite verzije dokumenta
      • TrackBack protokol – link kojim ćemo se referirati na sadržaj blogova
      • Primjer: http://en.wikipedia.org/w/index.php?title=Library_of_Alexandria&oldid=435746862
  • 9. Internetske adrese
    • Wallace Koehler, An Analysis of Web Page and Web Site Constancy and Permanence, 50 J. AM. SOC. INFO. SCIENCE & TECH. 161, 172 (1999).
      • Poluživot mrežnog mjesta iznosi 2.9 godina
      • Poluživot mrežne stranice iznosi 1.9 godina (statički web)
    • Adresa mrežnog sadržaja:
      • oznaka vjerodostojnosti i autoriteta na razini sadržaja
      • oznaka trajnosti, pristupačnosti i stabilnosti na razini nosioca sadržaja
    • Struktura internetske adrese:
    • [oznaka protokola]://[adrese poslužitelja].[oznaka domene]:[port]
      • http, https
        • https://www.amazon.com/gp/cart/view.html/ref=lh_co?ie=UTF8&proceedToCheckout.x=129
        • jutarnji.hr
      • ftp
      • gopher
      • telnet
      • Primjer: telnet pristup zbirki Bodleiane - http://www.lib.ox.ac.uk/olis
      • telnet://library.ox.ac.uk:23
  • 10. Internetske adrese
    • Kastomizirana URL adresa:
      • http://retweet.cc/
      • http://tiny.cc/
      • https://bitly.com/
        • https://bitly.com/kZ5D6t+
    • ‘ Mrtvi’ link
      • Alexa.com – wayback machine
    • Internetske domene
      • Internet Corporation for Assigned Names and Numbers (ICANN)
      • generičke domene: .com, .gov, .org, .edu, .net
      • geografske: .hr, .si, .ca, .rs, .me, .is, .to, .ly
      • Od 2012 proširenje domena sukladno IPv6
      • Funkcija whois URL
      • http://www.alexa.com/siteinfo
  • 11. Semantički web
      • Meta elementi (meta tag) - s emantički podaci o web stranici
      • <!DOCTYPE html PUBLIC &quot;-//W3C//DTD XHTML 1.0 Transitional//EN&quot; &quot;http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd&quot;>
      • < html xmlns=&quot;http://www.w3.org/1999/xhtml&quot;>
      • <head>
      • <title>Knjižnice grada Zagreba - Naslovna</title>
      • <meta name=&quot;keywords&quot; content=&quot;Knjižnice grada Zagreba, kgz, knjižnica, Zagreb, Knjiznice grada Zagreba, katalog, OPAC&quot; />
      • <meta name=&quot;description&quot; content=&quot;Knjižnica grada Zagreba su mreža narodnih knjižnica u Gradu Zagrebu. Stranice donose sve informacije o ustanovi, lokacijama i uvjetima korištenja knjižnica, građi, radnom vremenu, novostima i događanjima&quot; />
      • <meta name=&quot;copyright&quot; content=&quot;KGZ 2010&quot; />
      • <meta name=&quot;author&quot; content=&quot;Globaldizajn&quot; />
      • < !--meta name=&quot;email&quot; content=&quot;kgz@kgz.hr&quot; / 
      • <meta name=&quot;Distribution&quot; content=&quot;Global&quot; />
      • <meta name=&quot;Rating&quot; content=&quot;General&quot; />
      • <meta name=&quot;Robots&quot; content=&quot;INDEX,FOLLOW&quot; />
      • <meta http-equiv=&quot;content-language&quot; content=&quot;hr, en&quot; />
      • <meta http-equiv=&quot;Content-Type&quot; content=&quot;text/html; charset=utf-8&quot; />
      • Mirkopodaci
      • dogovoreni set mirkopodataka za opisivanje mrežnog sadržaja
      • podražavaju Google, Bing
      • schema.org
  • 12. http://technolog.msnbc.msn.com/_news/2011/06/16/6874191-what-happens-on-the-internet-every-60-seconds#blog_archives
  • 13. Netizens
    • Prosječan korisnik Interneta:
    • ima od 18 do 45 godina
    • društvene medije koriste osobe od 33-38 godina, od čega je 56% žena
    • 2/3 svih korisnika Interneta koristi društveni softver
    • - višeg obrazovnog statusa
    • - godišnjih primanja većih od 70.000 $
    • živi u gradskom i prigradskom središtu
    • 9.9% minuta provedenih na webu povede na Facebooku
    • 9.6% minuta provedenih na webu provede na Google stanicama (YouTube, Google, Gmail)
    Pew Internet http://www.youtube.com/watch?v=WjTZ7SlgyT4 comScore http://www.comscore.com/ http://internetstatstoday.com/?feed=rss
  • 14. Digitalni identitet
    • Važnost upravljanja digitalnim identitetom – digitalni otisak
    • 75% korisnika društvenih medija redovito provjerava svoj digitalni identitet
    MyOpenID http://myopenid.com
  • 15. Tražilice
    • Pretražujemo da bismo:
      • obnovili, ponovno pronašli informacije koje znamo da su na Internetu (recovery/discovery)
      • otkrili nove mrežne informacije i usluge (serendipity)
    • Pretraživanje:
      • Horizontalno pretraživanje – široko pretraživanje raspoloživih izvora
      • Vertikalno pretraživanje – unutar određenog područja, određenih vrsta dokumenata i sl.
      • Semantičko pretraživanje (semantic search)
      • Društveno pretraživanje (social search), real-time search
    • Tražilice
      • namijenjene pretraživanju internetskog sadržaja
      • sastoje se od algoritma za indeksiranje sadržaja, baze podataka, sučelja za pretraživanje i baze korisnika
    • AltaVista
      • kreator Louis Monier, 15. prosinca 1995. – na dan javnog pokretanja indeksirala je 16 milijuna dokumenata
      • prvi pretraživač koji je nudio višejezično pretraživanje (Babel Fish)
    Roy Tennant (2003) – „Only librarians like to search, everyone else likes to find“
  • 16. Google
    • Google
      • Stanford University – Larry Page, Sergey Brin
      • Larry Page inspiriran znanstvenom komunikacijom, citatnim analizama, bibliometrijom
      • doktorska teza o BackRub – sistem web citata
      • PageRank – algoritam rangiranja mrežnog sadržaja temeljen na procjeni linkova koje upućuju na određenu stranicu
    • Sergey Brin. Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine – najcitiraniji članak iz područja pretraživanja Interneta
      • povećanjem Interneta njihov algoritam daje sve bolje rezultate, jer će imati veći suodnos ukupnog broja linkova s linkovima na pojedinu stranicu (milijun sa 100 nula)
      • 2002. – AdWords (pay-per-click)
      • 2003. – Blogger , Picasa
      • 2004. – Google Print – Google Books (Google Five - Harvard, Michigan University Library, New York Public library, Oxford library and Stanford library), Google Scholar , Google Lab , Google News , Gmail
      • 2005. – AdSense
      • 2006. - YouTube
  • 17. Google
    • Razvoj Google-ove tražilice:
      • 2007. – universal search, Zeitgeist
      • 2010. – instant preview, realtime search, social search, google profiles
      • 2011. – mobile search , voice search , image search , instant page , Google +1 , related search
    • Google SERP 2011
    • Dobro su rangirane stranice koje:
      • Brzina učitavanja stranica (prilagođena grafika)
      • Poveznice na twitter, quora, friendfeed
      • Poveznice na renomirane stranice
      • Google +1
      • brendirano ime @ime
      • Upotreba Alt tag-a za opis slika, video zapisa
      • bez klasičnih domena (com, org), već .ly, .me, .is
  • 18. Google
    • Postavke pretraživanja:
      • Jezik sučelja
      • Jezik pretraživanja
      • Lokacija
      • Filtriranje
      • Prikaz rezultata
      • Google instant/autocomplete
    • Jednostavno pretraživanje
    • Tips & Tricks:
    • ?GoogleGuide making searching even easier
    • http://www.googleguide.com/advanced_operators_reference_print.html
    • OSNOVNA SINTAKSA PRETRAŽIVANJA
      • Upotreba Booleovih operatora AND (+), OR (|), NOT (-)
      • Pretraživanje po poljima (Field Seach)
      • Kraćenje pojmova *, ?, !
      • Limitiranje pretraživanja
      • Oblikovanje ključnih riječi: stop words, velika i mala slova i dr.
      • Ograničenje upita na 32 ključne riječi
  • 19. Google
    • Napredno pretraživanje
      • * - zamjena bilo kojeg pojma npr. how to * cake
      • site:, filetype:, link:
      • define
      • info:, id:, related:
      • (all)inanchor:, (all)intext:, (all)intitle:, (all)inurl:
      • realtime search: #mashup
      • search by image – sort by subject/relevance
      • advanced book search
      • create e-mail alert
  • 20. Ostale tražilice
    • Ask.com
      • My Q&A
      • Ask community
    • Bing
      • Microsoftova tražilica
      • Social search – related blogs, related tweets
    • Hakia
      • omogućava semantičko pretraživanje
    • Blekko
      • / slashtag
      • intergrira u SERP likeani sadržaj FB prijatelja
  • 21. Tražilice znanstvenih informacija
    • Scirus
      • „ for scientific information only“ – najbolja tražilica znanstvenih informacija
      • najobuhvatniji referentni izvor znanstvenih informacija dostupan na mreži. Pokriva više od 450 milijuna znanstvenih radova. Pretraživač indeksira znanstvene časopise, mrežne stranice znanstvenika, radne materijale, pre-print radove, patente i institucijske repozitorije.
    • Google Scholar
      • je pretraživač znanstvenih informacija (disertacija, recenziranih znanstvenih članaka, patenata i sl.) čija je prednost u tome što istovremeno pretražuje i komercijalne baze podataka znanstvenih informacija. Nedostatak Google Scholara je u tome što većinom pokriva članke i znanstvene radove engleskog govornog područja, te mu je naglasak na prirodnim i tehničkim a manje na društveno-humanističkim znanostima. Posjeduje funkciju citatnog indeksa!
    • Intute
      • zbog financijskih razloga prekida djelovanje
    • OAIster
      • Integriran u WorldCat.org
      • Sadrži linkove na cjelovite dokumente, disertacije, mrežne stranice, slike, video zapise
  • 22. Metatražilice
    • Istovremeno prosljeđuju upit na nekoliko tražilica, sortiraju rezultate i izbacuju duplikate. Skraćuju vrijeme pretraživanja.
    • Search.com – pretražuje Google , Blekko , Bing , DMOZ
    • Allplus - pretražuje tražilice Google, Yahoo, Bing i Ask.com, web stranice, novosti, slike, video zapise i blogove. Rezultati se uspoređuju i rangiraju na korisniku intuitivan način.
  • 23. Imenici
    • Yahoo
      • Jerry Yang i David Filo
      • 1993 – Yang objavljuje svoju mrežnu stranicu Akebono (po imenu sumoborca) i iz te stranice će 1994. godine razviti Jerry and David's Guide to World Wild Web
      • 1995 – Yahoo – Yet Another Hierarchical Officious Oracle
      • imenik temelje na ljudskoj komponenti
      • uvode sistem oglasa, zadržavaju mladenački izgled, humor te postaju portal
      • prate clikstreams kao odraz potreba korisnika i iznalaze nove sadržaje: Yahoo Finance, Yahooligans i sl.
    • dmoz
      • od 1998 godine jedan od najvećih i najobuhvatnijih internetskih imenika koje uređuju stručnjaci. DMOZ je imao više od 70 000 urednika, a danas ih je aktivno oko 6 000.
      • „ republic of web“
      • „ definitive catalog of the web“
      • „ internet brain“
  • 24. Twitter
    • Twitter
      • http://search.twitter.com/
      • LoC arhivira kompletan Twitter
    • Sintaksa pretraživanja:
    • # haiku - sadrži hashtag &quot;haiku&quot; from: alexiskold – poslao &quot;alexiskold&quot; to: techcrunch – poslano &quot;techcrunch&quot; @ mashable – tweet koji se odnosi na osobu &quot;mashable&quot; &quot;happy hour&quot; near: &quot;san francisco“ – sadrži točnu frazu &quot;happy hour&quot; i poslano je blizu &quot;san francisco“ superhero since: 2011-06-24 – sadrži pojam &quot;superhero&quot; i poslano je od &quot;2011-06-24&quot; (year-month-day). movie -scary :) sadrži pojam &quot;movie&quot;, ali ne &quot;scary&quot;, i ima pozitivan stav flight :( - sadrži pojam “ flight&quot; s negativnim stavom traffic ? - sadrži pojam &quot;traffic&quot; i pita pitanje
  • 25. Facebook
    • Facebook
      • socialsearching.info
      • social-searcher.com – open facebook search
      • Bing planira integraciju pretraživanja FB postova
  • 26. Društveno označivanje
    • Del.icio.us – delicious.com
    • CiteULike – citeulike.com
    • Stumbleupon – www.stumbleupon.com
    • iCyte – http://www.icyte.com/users/home
    • Diigo – www.diigo.com
  • 27. Praćenje informacija
    • RSS ( Really Simple Syndication)
      • je dio XML-a (Extensible Markup Language) jezika, čiji su sadržaji čitljivi pomoću posebnog softvera zvanog agregator ili čitač (eng. Reeder/Aggregator). Agregatori prenose RSS kanale koji sadrže novosti sa mrežnih stranica koje prate. Korisnici RSS kanala ne moraju fizički odlaziti i posjećivati mrežne stranice, već novi sadržaj dolazi izravno njima.
      • Klikom na ikonicu za RSS kanal odabire se stranica s koje se žele primati novosti, nakon čega čitač prati i na jednom mjestu objavljuje sve informacije objavljene na toj stranici.
    • RSS kanale koristimo u svrhu:
      • praćenja određenog područja
      • praćenja novosti s neke mrežne stranice
      • uključivanje informacija sa stanica s vijestima izravno na vlastite stranice
      • praćenje sadržaja stručnih časopisa (TOC – table of contents) i sl.
  • 28. Početne stranice - mashups
    • IGoogle – www.google.com/ig
    • Protopage – www.protpage.com
    • Squidoo – www.squidoo.com
    • Rollyo – www.rollyo.com/
    • Google Custom Search Engine - http://www.google.com/cse/
      • +
      • Organizacija sadržaja prema osobnim potrebama
      • Integracija različitih servisa na jednom mjestu
      • Velika mogućnost personalizacije
      • Sadržaj se može dijeliti, omogućuje kolaboraciju
      • -
      • Nalaze se pod nazorom trećih osoba
      • Stalne beta verizije
      • Nije osigurana stalnost aplikacije
      • Ne podržavaju jednako sve aplikacije