Slides dalle lezioni del corso di "Strumenti e applicazioni del Web", Università di Milano Bicocca - Prof.R.Polillo - A.A.2012-13
Lezione del 21 marzo 2013
Vedi anche www.corsoweb.wordpress.com
1. Edizione 2012-13
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
6. Ricercare nel Web
2. Queste slides
2
Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Il
sito del corso, con il materiale completo, si trova in
www.corsow.wordpress.com . Data la rapida evoluzione della rete, il corso
viene aggiornato ogni anno.
Il presente materiale è pubblicato con licenza Creative Commons
“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”
(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e
alle screen shots, i cui diritti restano in capo ai rispettivi proprietari,
che, ove possibile, sono stati indicati. L'autore si scusa per eventuali
omissioni, e resta a disposizione per correggerle.
R.Polillo - Marzo 2013
3. Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2013
3
6. Come trovare l'informazione in rete
Directories
Indici strutturati di argomenti (gestiti da una redazione)
Motori di ricerca
Query → Risultati
Esplorazione
Browsing, serendipity
Motori semantici
www.wolframalpha.com, …
Sistemi di Q&A sociale
Yahoo! Answer, …
R.Polillo - Marzo 2013
6
7. Web directories
7
Storicamente, il primo strumento di ausilio alle ricerche
nel Web
Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
Directories “generaliste” e directories verticali o di nicchia
http://en.wikipedia.org/wiki/Web_directory
R.Polillo - Marzo 2013
8. Tassonomia
8
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
R.Polillo - Marzo 2013
Raggruppamento
di oggetti in
classi, secondo
qualche criterio
taxis=ordine
nomos=regola
Ogni tassonomia
è arbitraria, e
dipende dagli
obiettivi
9. Yahoo! (http://dir.yahoo.com)
9
R.Polillo - Marzo 2013
- Nasce come “La guida al
WWW di Jerry e David”,
nel 1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Interne
10. The Open Directory Project (ODP)
10
Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/
Directory gratuita, aperta e multilingua
Posseduta da Netscape (dal 1998) e manutenuta da una comunità di
editor volontari
http://en.wikipedia.org/wiki/Open_Directory_Project
R.Polillo - Marzo 2013
12. Wikipedia come strumento di ricerca
12
Wikipedia è un formidabile strumento di ricerca e accesso
al web
Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:List_of_portals )
R.Polillo - Marzo 2013
13. Serendipità
13
Cerco una cosa e ne trovo un'altra
Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka)
Serve fortuna (“il caso”) e un atteggiamento di apertura: per
cogliere l'indizio che porterà alla scoperta occorre essere aperti alla
ricerca e riconoscere il valore di esperienze che non corrispondono
alle originarie aspettative
http://en.wikipedia.org/wiki/Serendipity
http://serendip.brynmawr.edu/serendip/about.html
R.Polillo - Marzo 2013
15. www.stumbleupon.com
16
to stumble: inciampare, scoprire per caso
È una discovery engine di pagine web, fondato in Canada nel 2001
Premendo il bottone STUMBLE! installato sul browser, viene
proposto un sito, un’immagine o un video scelti sulla base delle
preferenze dell’utente, o delle raccomandazioni dei suoi amici o da
altri utenti che hanno interessi simili
Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:
R.Polillo - Marzo 2013
16. Motori di ricerca per il Web
Componente software (utilizzabile come servizio
online) progettato per ricercare informazioni sul
World Wide Web
Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
R.Polillo - Marzo 2013
17
17. Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i primi 3:
Google
- Dal 1998
Bing
- Dal 2009
- Prima: MSN Search,
Windows Live Search,
Live Search
Yahoo!
- Con motori esterni
(dal 1999 "Powered by Bing")
R.Polillo - Marzo 2013
18
Market share, Jan 2013,
http://www.statowl.com
18. Motori di ricerca: struttura
R.Polillo - Marzo 2013
19
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultat
i
(SERP)
Front-end process
Indici + cached
pages
Crawler
Crawler
IndicizzatoreCrawler
Richiest
e
Pagine
web
Pagine
web
WWW
Back-end process
19. Web crawling
I crawler (robot, spider, bot) sono programmi che
navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
Seguono opportune politiche di navigazione (per
es. per decidere quando riesaminare una pagina già
vista)
L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
Non tutto il Web è accessibile ai crawler
R.Polillo - Marzo 2013
21
21. Deep vs surface Web
Non tutto il Web è accessibile ai motori di ricerca
Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface
Web")
Deep Web, esempi:
Pagine "vietate" dai Web server (robots.txt)
Pagine generate dinamicamente a fronte di query o di input
forniti attraverso form
Pagine senza link entranti
Pagine accessibili tramite registrazione e login
Ecc.
R.Polillo - Marzo 2013
23
22. Struttura del web: uno studio
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
24
R.Polillo - Marzo 2013
23. Tipi di query
Informativa
Obiettivo: trovare un'informazione
Navigazionale
Obiettivo: trovare una pagina web, che conosco già
Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
Dal contenitore al contenuto
R.Polillo - Marzo 2013
25
24. Search forms (Google)
R.Polillo - Marzo 2013
26
Semplice: Avanzata:
Posso usare una sintassi
complessa
Esempi:
query AND query
query OR query
-query
term site:url
link: x
…. Cfr.
http://www.google.com/insidesearch/
http://bit.ly/13dakJx
25. Google: evoluzione della home page
Video sulla evoluzione di www.google.com dal 1998 al 2007
http://www.youtube.com/watch?v=1vgprty39og
R.Polillo - Marzo 2013
27
26. SERP: struttura tipica
R.Polillo - Marzo 2013
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati
"organici"
(non influenzati
dalle
sponsorizzazioni)
Google:
AdWords
27. La coda lunga delle ricerche
R.Polillo - Marzo 2013
29
Search terms
Frequenza
Alto costo, alta frequenza,
bassa probabilità di
conversione
Basso costo, bassa
frequenza, alta probabilità
di conversione
29. Risultati della ricerca: esempio (Google)
R.Polillo - Marzo 2013
31
PreviewCachedFiat
http://www.googleguide.com/cached_page
s.html
30. Ranking
I risultati della ricerca dovrebbero essere
presentati sulla SERP in ordine di "rilevanza" (gli
utenti considerano di solito solo i risultati nella
prima pagina)
Il successo di un motore di ricerca è fortemente
legato al suo algoritmo di ranking
R.Polillo - Marzo 2013
32
31. Google PageRank
Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi
di PhD a Stanford (progetto BackRub, 1995-96),
brevettato a nome della Stanford University
L'idea: la "importanza" di una pagina Web è tanto
maggiore quante più sono le pagine Web (a loro volta
"importanti") che la linkano
In sostanza, è il meccanismo con cui vengono valutati i
paper accademici
S.Brin, L.Page, “The anatomy of a large-scale hypertextual
Web search engine”
1998: Brin e Page fondano Google Inc
R.Polillo - Marzo 2013
33
34. Risultati della ricerca: non solo link
Provate a cercare (su Google e Bing):
- weather Milano
- time San Francisco
- sunrise New York
- 5*9+(sqrt 10)^3=
- Ernest Hemingway
- Population Milan
- define philosophy
- ristoranti 20143
- movies 20143
- AZ637
- mappa 20143
- mappa corso italia 6 milano
- concessionari Fiat
- ….
R.Polillo - Marzo 2013
37
Search engine
→ Answer
engine
39. Search history
La search history di ciascuno viene salvata nella
"cronologia Web" (Google, Bing)
È possibile cancellare singoli elementi, o tutti
Cronologia in Google:
entrare nel proprio account, ed entrare nella
"dashboard"
Google sulla privacy delle ricerche (2007):
http://www.youtube.com/watch?v=iPkvNr2cpqg
42
40. SEO / SEM
SEO: Search Engine Optimization
Metodi e tecniche per migliorare il ranking di un
sito Web, per i vari motori di ricerca
http://http://en.wikipedia.org/wiki/Search_engine_optimization
SEM: Search Engine Marketing
Attività di promozione di un sito Web per
migliorarne il ranking dei motori di ricerca
http://en.wikipedia.org/wiki/Search_engine_marketing
Page rank checker: esempio:
http://www.whatsmypr.net
R.Polillo - Marzo 2013
43
41. SEM/SEO
44
La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è
estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre
la prima pagina)
Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente
acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine
Optimization)
Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti
solo da link per far “salire” i siti che pagano
Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che
considera spamming da parte degli specialisti SEM/SEO
http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
R.Polillo - Marzo 2013
42. Google search: per saperne di più
Help di Google:
http://support.google.com/websearch
Google Guide (indipendente da Google):
http://www.googleguide.com
Wikipedia:
http://en.wikipedia.org/wiki/Google_Search
R.Polillo - Marzo 2013
45
43. Lavoro individuale
Esplorare accuratamente le funzioni del motore di ricerca di
Google, e confrontarle con quelle di Bing
Esplorare la propria dashboard (nel proprio account Google), e
verificare quali informazioni sulla vostra storia sono memorizzate
Esplorate www.wolframalpha.com
R.Polillo - Marzo 2013
46