• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
9. Ricercare nel web (Parte I)
 

9. Ricercare nel web (Parte I)

on

  • 285 views

Slides dalle lezioni del corso di Strumenti e applicazioni del Web per il corso di laurea magistrale in Teoria e tecnologia della comunicazione - Università di Milano Bicocca (prof. R.Polillo) - ...

Slides dalle lezioni del corso di Strumenti e applicazioni del Web per il corso di laurea magistrale in Teoria e tecnologia della comunicazione - Università di Milano Bicocca (prof. R.Polillo) - Lezione del 26 marzo 2014

Statistics

Views

Total Views
285
Views on SlideShare
120
Embed Views
165

Actions

Likes
0
Downloads
10
Comments
0

1 Embed 165

http://corsow.wordpress.com 165

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    9. Ricercare nel web (Parte I) 9. Ricercare nel web (Parte I) Presentation Transcript

    • Edizione 2013-14 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo
    • Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/ R.Polillo - Marzo 2014 3
    • 4 R.Polillo - Marzo 2014 Una visualizzazione [di una parte] del web
    • R.Polillo - Marzo 2014 5 Una visualizzazione [di una parte] del web
    • Come trovare l'informazione in rete  Directories Indici strutturati di argomenti (gestiti da una redazione)  Wikipedia Enciclopedia collaborativa  Motori di ricerca Query Risultati  Motori semantici www.wolframalpha.com, …  Sistemi di Q&A sociale Yahoo! Answer, …  Esplorazione Browsing, serendipity R.Polillo - Marzo 2014 6
    • Web directories 7  Storicamente, il primo strumento di ausilio alle ricerche nel Web  Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"  Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo  http://en.wikipedia.org/wiki/Web_directory R.Polillo - Marzo 2014
    • Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a) Appartenenti all’imperatore b) Imbalsamati c) Ammaestrati d) Lattonzoli e) Sirene f) Favolosi g) Cani randagi h) Inclusi in questa classificazione i) Che si agitano come pazzi j) Innumerevoli k) Disegnati con un pennello finissimo di peli di cammello l) Eccetera m) Che hanno ritto il vaso n) Che da lontano sembrano mosche. R.Polillo - Marzo 2014  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi
    • Yahoo! (http://dir.yahoo.com) 9 R.Polillo - Marzo 2014 - Nasce come “La guida al WWW di Jerry e David”, nel 1994 - Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
    • The Open Directory Project (ODP) 10  Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/  Directory gratuita, aperta e multilingua  Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari  http://en.wikipedia.org/wiki/Open_Directory_Project R.Polillo - Marzo 2014
    • Domoz vs Yahoo! R.Polillo - Marzo 2014 11 Dmoz Yahoo!
    • Wikipedia come strumento di ricerca 12  Wikipedia è un formidabile strumento di ricerca e accesso al web  Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato  Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals) R.Polillo - Marzo 2014
    • Serendipità 13  Cerco una cosa e ne trovo un'altra  Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)  Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative  http://en.wikipedia.org/wiki/Serendipity  http://serendip.brynmawr.edu/serendip/about.html R.Polillo - Marzo 2014
    • 14 R.Polillo - Marzo 2014
    • www.stumbleupon.com 16  to stumble: inciampare, scoprire per caso  È una discovery engine di pagine web, fondato in Canada nel 2001  Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili  Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: R.Polillo - Marzo 2014
    • Motori di ricerca per il Web  Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web  Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)  La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati R.Polillo - Marzo 2014 17
    • Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo! - Con motori esterni (dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) R.Polillo - Marzo 2014 18
    • Search engine market share R.Polillo - Marzo 2014 19 Fonte: http://www.netmarketshare.com Dic 2013, solo desktop
    • Motori di ricerca: struttura R.Polillo - Marzo 2014 20 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler Crawler IndicizzatoreCrawler Richieste Pagine web Pagine web WWW Back-end process
    • Web crawling  I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti  Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)  L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)  Non tutto il Web è accessibile ai crawler R.Polillo - Marzo 2014 22
    • robots.txt: esempio www.domain.com R.Polillo - Marzo 2014 23 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec
    • Deep vs surface Web  Non tutto il Web è accessibile ai motori di ricerca  Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")  Deep Web, esempi:  Pagine "vietate" dai Web server (robots.txt)  Pagine generate dinamicamente a fronte di query o di input forniti attraverso form  Pagine senza link entranti  Pagine accessibili tramite registrazione e login  Ecc. R.Polillo - Marzo 2014 24
    • Struttura del web: uno studio Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html 17 million nodes 25 R.Polillo - Marzo 2014 Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.
    • Tipi di query  Informativa Obiettivo: trovare un'informazione  Navigazionale Obiettivo: trovare una pagina web, che conosco già  Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web  Il risultato è di solito (ma non sempre!) una lista di link a pagine web  Evoluzione: dal contenitore (anche) al contenuto R.Polillo - Marzo 2014 26