6. Ricercare nel Web
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

6. Ricercare nel Web

on

  • 1,271 views

Slides dalle lezioni del corso di "Strumenti e applicazioni del Web", Università di Milano Bicocca - Prof.R.Polillo - A.A.2012-13 ...

Slides dalle lezioni del corso di "Strumenti e applicazioni del Web", Università di Milano Bicocca - Prof.R.Polillo - A.A.2012-13
Lezione del 21 marzo 2013
Vedi anche www.corsoweb.wordpress.com

Statistics

Views

Total Views
1,271
Views on SlideShare
554
Embed Views
717

Actions

Likes
1
Downloads
44
Comments
0

6 Embeds 717

http://corsow.wordpress.com 496
http://www.weebly.com 111
http://ssit-laboratorionline.weebly.com 66
http://www.comphumanities.org 34
http://ssit-scritturaetraduzioneweb.weebly.com 7
http://www.europaclub.comphumanities.org 3

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

6. Ricercare nel Web Presentation Transcript

  • 1. Edizione 2012-13Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e ComunicazioneCorso di Strumenti e applicazioni del Web6. Ricercare nel Web
  • 2. Queste slides2Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Ilsito del corso, con il materiale completo, si trova inwww.corsow.wordpress.com . Data la rapida evoluzione della rete, il corsoviene aggiornato ogni anno.Il presente materiale è pubblicato con licenza Creative Commons“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):La licenza non si estende alle immagini provenienti da altre fonti ealle screen shots, i cui diritti restano in capo ai rispettivi proprietari,che, ove possibile, sono stati indicati. Lautore si scusa per eventualiomissioni, e resta a disposizione per correggerle.R.Polillo - Marzo 2013
  • 3. Una visualizzazione [di una parte] del webLa immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 linksWALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/R.Polillo - Marzo 20133
  • 4. 4R.Polillo - Marzo 2013Una visualizzazione [di una parte] del web
  • 5. R.Polillo - Marzo 20135Una visualizzazione [di una parte] del web
  • 6. Come trovare linformazione in rete DirectoriesIndici strutturati di argomenti (gestiti da una redazione) Motori di ricercaQuery → Risultati EsplorazioneBrowsing, serendipity Motori semanticiwww.wolframalpha.com, … Sistemi di Q&A socialeYahoo! Answer, …R.Polillo - Marzo 20136
  • 7. Web directories7 Storicamente, il primo strumento di ausilio alle ricerchenel Web Classificazione gerarchica dei siti (e non delle pagine) incategorie e sottocategorie, a più livelli, effettuata "amano" -> varie "tassonomie" Directories “generaliste” e directories verticali o di nicchia http://en.wikipedia.org/wiki/Web_directoryR.Polillo - Marzo 2013
  • 8. Tassonomia8Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli dicammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.R.Polillo - Marzo 2013 Raggruppamentodi oggetti inclassi, secondoqualche criterio taxis=ordinenomos=regola Ogni tassonomiaè arbitraria, edipende dagliobiettivi
  • 9. Yahoo! (http://dir.yahoo.com)9R.Polillo - Marzo 2013- Nasce come “La guida alWWW di Jerry e David”,nel 1994- Qui la home del 1996, dawww.archive.orghttp://en.wikipedia.org/wiki/Interne
  • 10. The Open Directory Project (ODP)10 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ Directory gratuita, aperta e multilingua Posseduta da Netscape (dal 1998) e manutenuta da una comunità dieditor volontari http://en.wikipedia.org/wiki/Open_Directory_ProjectR.Polillo - Marzo 2013
  • 11. Domoz vs Yahoo!R.Polillo - Marzo 201311Dmoz Yahoo!
  • 12. Wikipedia come strumento di ricerca12 Wikipedia è un formidabile strumento di ricerca e accessoal web Ogni voce di Wikipedia è corredata da numerosi linkinterni ed esterni, che spesso permettono di raggiungere isiti più significativi correlati all’argomento esaminato Inoltre Wikipedia contiene numerosi indici e directories,fra cui anche veri e propri portali tematici(http://en.wikipedia.org/wiki/Portal:List_of_portals )R.Polillo - Marzo 2013
  • 13. Serendipità13 Cerco una cosa e ne trovo unaltra Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi diSerendip” (Serendip è lantico nome di Sri Lanka) Serve fortuna (“il caso”) e un atteggiamento di apertura: percogliere lindizio che porterà alla scoperta occorre essere aperti allaricerca e riconoscere il valore di esperienze che non corrispondonoalle originarie aspettative http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.htmlR.Polillo - Marzo 2013
  • 14. 14 R.Polillo - Marzo 2013
  • 15. www.stumbleupon.com16 to stumble: inciampare, scoprire per caso È una discovery engine di pagine web, fondato in Canada nel 2001 Premendo il bottone STUMBLE! installato sul browser, vieneproposto un sito, un’immagine o un video scelti sulla base dellepreferenze dell’utente, o delle raccomandazioni dei suoi amici o daaltri utenti che hanno interessi simili Il processo di selezione si affina sulla base del gradimento espresso(opzionalmente) dall’utente:R.Polillo - Marzo 2013
  • 16. Motori di ricerca per il Web Componente software (utilizzabile come servizioonline) progettato per ricercare informazioni sulWorld Wide Web Le informazioni (di solito nella forma di link) sonopresentate in una serie di Search Engine ResultsPage (SERP) La qualità di un motore si valuta sulla base dellapertinenza e rilevanza dei risultatiR.Polillo - Marzo 201317
  • 17. Motori di ricercaUna storia complessa, iniziata negli anni 90. Oggi, i primi 3:Google- Dal 1998Bing- Dal 2009- Prima: MSN Search,Windows Live Search,Live SearchYahoo!- Con motori esterni(dal 1999 "Powered by Bing")R.Polillo - Marzo 201318Market share, Jan 2013,http://www.statowl.com
  • 18. Motori di ricerca: strutturaR.Polillo - Marzo 201319InterfacciaQueryprocessingRankingdei risultatiQueryRisultati(SERP)Front-end processIndici + cachedpagesCrawlerCrawlerIndicizzatoreCrawlerRichiestePaginewebPaginewebWWWBack-end process
  • 19. Web crawling I crawler (robot, spider, bot) sono programmi chenavigano il Web, esaminando le diverse pagine eseguendo i link in esse presenti Seguono opportune politiche di navigazione (peres. per decidere quando riesaminare una pagina giàvista) Linterazione con i Web server segue specificiprotocolli (per es. robot exclusion protocol, orobot.txt) Non tutto il Web è accessibile ai crawlerR.Polillo - Marzo 201321
  • 20. robots.txt: esempiowww.domain.comR.Polillo - Marzo 201322/robots.txtutentifotoaboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec
  • 21. Deep vs surface Web Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini digrandezza più vasto del Web visibile ("surfaceWeb") Deep Web, esempi: Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di inputforniti attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc.R.Polillo - Marzo 201323
  • 22. Struttura del web: uno studioAnalisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,WWW Conference 2000, http://www9.org/w9cdrom/160/160.html17 million nodes24R.Polillo - Marzo 2013
  • 23. Tipi di query InformativaObiettivo: trovare uninformazione NavigazionaleObiettivo: trovare una pagina web, che conosco già RisorsaObiettivo: trovare una risorsa (non informativa)disponibile sul web Il risultato è di solito (ma non sempre!) una lista di link apagine web Dal contenitore al contenutoR.Polillo - Marzo 201325
  • 24. Search forms (Google)R.Polillo - Marzo 201326Semplice: Avanzata:Posso usare una sintassicomplessaEsempi:query AND queryquery OR query-queryterm site:urllink: x…. Cfr.http://www.google.com/insidesearch/http://bit.ly/13dakJx
  • 25. Google: evoluzione della home pageVideo sulla evoluzione di www.google.com dal 1998 al 2007http://www.youtube.com/watch?v=1vgprty39ogR.Polillo - Marzo 201327
  • 26. SERP: struttura tipicaR.Polillo - Marzo 201328Search boxRisultati sponsorizzatiOpzioni per la ricercaRisultati"organici"(non influenzatidallesponsorizzazioni)Google:AdWords
  • 27. La coda lunga delle ricercheR.Polillo - Marzo 201329Search termsFrequenzaAlto costo, alta frequenza,bassa probabilità diconversioneBasso costo, bassafrequenza, alta probabilitàdi conversione
  • 28. Google Trends (www.google.com/trends)R.Polillo - Marzo 201330Vedi anchewww.google.com/zeitgeist/2012
  • 29. Risultati della ricerca: esempio (Google)R.Polillo - Marzo 201331PreviewCachedFiathttp://www.googleguide.com/cached_pages.html
  • 30. Ranking I risultati della ricerca dovrebbero esserepresentati sulla SERP in ordine di "rilevanza" (gliutenti considerano di solito solo i risultati nellaprima pagina) Il successo di un motore di ricerca è fortementelegato al suo algoritmo di rankingR.Polillo - Marzo 201332
  • 31. Google PageRank Algoritmo sviluppato da S.Brin e Larry Page nella loro tesidi PhD a Stanford (progetto BackRub, 1995-96),brevettato a nome della Stanford University Lidea: la "importanza" di una pagina Web è tantomaggiore quante più sono le pagine Web (a loro volta"importanti") che la linkano In sostanza, è il meccanismo con cui vengono valutati ipaper accademici S.Brin, L.Page, “The anatomy of a large-scale hypertextualWeb search engine” 1998: Brin e Page fondano Google IncR.Polillo - Marzo 201333
  • 32. PageRank: esempio34R.Polillo - Marzo 2013711611
  • 33. PageRank: esempio35http://en.wikipedia.org/wiki/PageRankR.Polillo - Marzo 2013Per la spiegazione dellalgoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-
  • 34. Risultati della ricerca: non solo linkProvate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- AZ637- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….R.Polillo - Marzo 201337Search engine→ Answerengine
  • 35. Google: quali servizi di ricerca?R.Polillo - Marzo 201338Marzo2013
  • 36. Google: quali servizi di ricerca?R.Polillo - Marzo 201339
  • 37. Google: quali servizi di ricerca?R.Polillo - Marzo 201340
  • 38. Google: quali servizi di ricerca?R.Polillo - Marzo 201341
  • 39. Search history La search history di ciascuno viene salvata nella"cronologia Web" (Google, Bing) È possibile cancellare singoli elementi, o tutti Cronologia in Google:entrare nel proprio account, ed entrare nella"dashboard" Google sulla privacy delle ricerche (2007):http://www.youtube.com/watch?v=iPkvNr2cpqg42
  • 40. SEO / SEM SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di unsito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization SEM: Search Engine MarketingAttività di promozione di un sito Web permigliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing Page rank checker: esempio:http://www.whatsmypr.netR.Polillo - Marzo 201343
  • 41. SEM/SEO44 La posizione (rank) in cui un sito viene mostrato dal motore di ricerca èestremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltrela prima pagina) Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito clienteacquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search EngineOptimization) Le tecniche usate non sono sempre corrette: per es. vengono creati siti compostisolo da link per far “salire” i siti che pagano Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello checonsidera spamming da parte degli specialisti SEM/SEO http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=itR.Polillo - Marzo 2013
  • 42. Google search: per saperne di più Help di Google:http://support.google.com/websearch Google Guide (indipendente da Google):http://www.googleguide.com Wikipedia:http://en.wikipedia.org/wiki/Google_SearchR.Polillo - Marzo 201345
  • 43. Lavoro individuale Esplorare accuratamente le funzioni del motore di ricerca diGoogle, e confrontarle con quelle di Bing Esplorare la propria dashboard (nel proprio account Google), everificare quali informazioni sulla vostra storia sono memorizzate Esplorate www.wolframalpha.comR.Polillo - Marzo 201346