Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Lezione 16 TROVARE L’INFORMAZIONE Corso Web 2.0 2   Roberto Polillo [email_address] www.rpolillo.it R.Polillo – Corso Web 2.0 (dic 2008)
La rete, oggi Google conta un triliardo di URL unici http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html Come trovare informazioni che mi interessano? La figura mostra una parte delle reti di  classe C connesse a Internet nel 2004 (ogni  nodo corrisponde a un IP address) Da:  http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg
Quattro modalità principali 1. Mediante servizi di directory consulto indici strutturati (tassonomie) di argomenti 2. Mediante strumenti di ricerca dico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni  che ritiene pertinenti 3. Mediante servizi di feed  dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di  “ abbonamenti all’informazione”)  4. Mediante esplorazione (browsing) navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “) R.Polillo – Corso Web 2.0 (dic 2008)
1. DIRECTORIES R.Polillo – Corso Web 2.0 (dic 2008)
Tassonomia Quando vogliamo “fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni:  tassonomia  (da taxis=ordine, nomos=regola) Spesso l’ordinamento è di tipo gerarchico, “ad albero”  (es.: la classificazione degli esseri viventi di Linneo R.Polillo – Corso Web 2.0 (dic 2008)
Classificazione gerarchica: esempio R.Polillo – Corso Web 2.0 (dic 2008)
Le difficoltà della tassonomia Classificare implica decidere come vogliamo vedere il mondo Il mondo può essere classificato in molti modi diversi La liceità di una tassonomia dipende dall’uso che se ne   vuole fare R.Polillo – Corso Web 2.0 (dic 2008)
Esempio 1: Emporio celeste dei riconoscimenti benevoli  (enciclopedia cinese, J.L.Borges, 1973)  Gli animali si dividono in: Appartenenti all’imperatore Imbalsamati Ammaestrati Lattonzoli Sirene Favolosi Cani randagi Inclusi in questa classificazione Che si agitano come pazzi Innumerevoli Disegnati con un pennello finissimo di peli di cammello Eccetera Che hanno ritto il vaso Che da lontano sembrano mosche. R.Polillo – Corso Web 2.0 (dic 2008)
Esempio 2: La collezione di animali di peluche di Gaia (7 anni) Seals (gray, tiny and white) ‏ Elephant (small, tiny) ‏ Sheep Dogs (German shepherd, Scottish collie) ‏ Rabbit Penguin Platypus Skunk (one stripe) ‏ Donkey R.Polillo – Corso Web 2.0 (dic 2008)
La classificazione  di Gaia R.Polillo – Corso Web 2.0 (dic 2008)
La classificazione di Gaia: criteri The seal, the small elephant and the donkey are friends The dogs stay by themselves since they are predators and eat the others animals. We need to sedate them at times The rabbit and the sheep spend time together when the rabbit is not hiding in his hole because they come from the same place (a farm, possibly) ‏ The penguin and the skunk go together because they are both black. Plus, the penguin is teaching the skunk to swim The platypus and the tiny elephant are the same age and play together. So do the two other tiny seals, since they are the same size (Courtesy  Luca Rosati & Andrea Resmini, from EuroIA 2007, Barcelona) R.Polillo – Corso Web 2.0 (dic 2008)
Esempio 3: YouTube R.Polillo – Corso Web 2.0 (dic 2008) Agosto 2008 Novembre 2007
Web directories Storicamente, il primo strumento di ausilio alle ricerche nel web Dalla “ Jerry's Guide to the World Wide Web“, nel 1994  è nato Yahoo! Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…) Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es.  http://www.directorylist.org/ http://en.wikipedia.org/wiki/Web_directory R.Polillo – Corso Web 2.0 (dic 2008)
Esempio (1996) Da  www.archive.org R.Polillo – Corso Web 2.0 (dic 2008)
Alcune directories generaliste The Open Directory Project (ODP) -  Nota anche come DMOZ (Directory Mozilla) -  Directory gratuita, aperta e multilingua, posseduta da   Netscape (dal 1998) e manutenuta da una comunità di editor    volontari -  http://www.dmoz.org/ -  http://en.wikipedia.org/wiki/Open_Directory_Project Yahoo!Directory  -  http://dir.yahoo.com/ Google Directory -  Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi  http://www.google.com/intl/it/dirhelp.html ) -  http://www.google.com/dirhp?hl=en R.Polillo – Corso Web 2.0 (dic 2008)
Architettura dell’informazione La strutturazione di spazi informativi condivisi,  in modo da poter ritrovare facilmente quello che ci interessa prende il nome  di architettura dell’informazione (AI) AI ci serve, per esempio, per strutturare un sito web tradizionale… …  ma anche una libreria, un museo, una fiera… R.Polillo – Corso Web 2.0 (dic 2008)
AI: cinque aree di problemi Classificazione, tassonomia Denominazione, labeling Organizzazione spaziale Navigazione, orientamento, ricerca Compito, scopo, attività NB: In questo corso non ne tratteremo oltre R.Polillo – Corso Web 2.0 (dic 2008)
2. RICERCA R.Polillo – Corso Web 2.0 (dic 2008)
Ricerca Molti metodi principali: Ricerca sulla base di  parole chiave  associate all’informazione (per es. un video, una fotografia, un post di un blog,…) Ricerca  con analisi “intelligente” dell’informazione (per es. una pagina web):  motori di ricerca Ricerca con  entrambi i metodi  R.Polillo – Corso Web 2.0 (dic 2008)
2.1 Ricerca con parole chiave Chi definisce le parole chiave? I contenuti in rete non nascono da un processo ordinato, che segua una tassonomia condivisa Sono tantissimi e crescono nel tempo Se i singoli siti del web 1.0 potevano considerarsi relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up  R.Polillo – Corso Web 2.0 (dic 2008)
Soluzione 1: tagging Chi crea l’informazione  le associa una o più parole chiave ( etichette ,  tags ) scelte liberamente, che a suo parere, la descrivono Esempio : Soluzione poco costosa, ma che riflette solo il punto   di vista personale (parziale) del creatore R.Polillo – Corso Web 2.0 (dic 2008) Tags : mare barche spiaggia italia vacanze 2007
Soluzione 2: social tagging I tags vengono associati non solo da chi crea l’informazione,  ma anche da coloro che la usano Altri termini usati :  Folksonomy = folk + taxonomy  (termine proposto da Thomas Vander Wal)  infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down) tagging cooperativo sistema di classificazione distribuita Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione R.Polillo – Corso Web 2.0 (dic 2008)
Soluzione 3: taxonomy + folksonomy Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo. Esempi: YouTube  usa tagging e tassonomia Flickr  usa tagging e social tagging (su autorizzazione dell’uploader o nei gruppi - discussione in:  http://www.flickr.com/help/forum/5383/?search=social+tagging ) Slideshare  usa tagging (anche geo-tagging) R.Polillo – Corso Web 2.0 (dic 2008)
Analisi cognitiva del tagging (Rashmi Sinha) (°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112  ) R.Polillo – Corso Web 2.0 (dic 2008) Gli associo possibili categorie Scelgo le categorie più adatte Paralisi decisionale (°) PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA): Considero l’oggetto da classificare Considero l’oggetto da classificare PROCESSO DI TAGGING: Gli associo possibili  categorie Non è necessario scegliere
“ The value of this external tagging is derived from people using  their  own vocabulary and adding explicit meaning, which may come from inferred understanding of the information/object. People are not so much categorizing, as providing a means to connect items (placing hooks) to provide  their  meaning in  their  own undesrtanding.” (Thomas Vander Wal) R.Polillo – Corso Web 2.0 (dic 2008)
Tagging http://www.slideshare.net/vanderwal/tagging-to-folksonomy R.Polillo – Corso Web 2.0 (dic 2008)
Social Tagging R.Polillo – Corso Web 2.0 (dic 2008)
Nota terminologica I termini “tassonomia”, “classificazione”, “folksonomy”, ecc. denotano processi cognitivi complessi, e vanno maneggiati con cura. L’uso che se ne fa in rete non sempre è coerente o corretto. Noi useremo solo questi termini: Tagging : l’atto di associare dei tag scelti liberamente a un oggetto Social tagging : tagging effettuato da più persone sullo stesso oggetto .  R.Polillo – Corso Web 2.0 (dic 2008)
Complementi Per chi sa l’inglese, una bellissima lezione di David Weinberger su “Everything is miscellauneous”, in:   http://video.google.com/videoplay?docid=2159021324062223592 R.Polillo – Corso Web 2.0 (dic 2008)
Social tagging: distribuzione dei tag Coda lunga http://www.slideshare.net/vanderwal/tagging-to-folksonomy R.Polillo – Corso Web 2.0 (dic 2008)
Tag cloud Rappresentazione visiva dei tag usati in un sito web, raccolti “a nuvola”  I tag sono rappresentati con un corpo proporzionale alla loro importanza “ Importanza” = frequenza dell’ uso  del tag per taggare elementi  oppure  frequenza dell’ accesso  a elementi con quel tag La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag http://it.wikipedia.org/wiki/Tag_cloud   R.Polillo – Corso Web 2.0 (dic 2008)
Esempio Tag cloud di flickr: http://www.flickr.com/photos/tags/ Word cloud delle parole in un testo: http://tagcrowd.com/   R.Polillo – Corso Web 2.0 (dic 2008)
Geo-localizzazione Significa associare a un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina Può essere intesa come una applicazione particolare del tagging  (“geo-tagging”,  http://en.wikipedia.org/wiki/Geotagging ) Esempi : http://flickr.com/photos/37385373@N00/161862482/ http://81nassau.com/apnews/ R.Polillo – Corso Web 2.0 (dic 2008)
Geoweb Dal punto di vista dell’utente significa poter creare una mappa commentata, personalizzata e condivisibile con terzi. Esistono scenari d’applicazione innovativi ancora tutti da esplorare Il GIS nel Web 2.0 evolve nel Geoweb, l'associazione su web di informazioni e luoghi di una mappa, per rendere fruibile agli utenti un sistema per accedere alle informazioni tramite una mappa piuttosto che tramite parole chiave:  http://en.wikipedia.org/wiki/Geoweb Le basi tecnologiche risiedono nei nuovi servizi quali Google Earth, NASA World Wind, Windows Live Local, Yahoo Maps, etc. A differenza dei GIS, il Geoweb è uno strumento alla portata di un numero molto più alto di utenti http://maps.google.com  etc Come inserire le mappe di Google nelle applicazioni http://www.google.com/intl/en/press/annc/embed_maps.html   R.Polillo – Corso Web 2.0 (dic 2008)
Folksonomy e semantic web L’idea di dotare i contenuti della rete di un sistema di classificazione sociale, condiviso, aperto e generato dal basso è chiaramente in contrasto con la filosofia del web semantico, il cui obiettivo è costruire un ordine “dall’alto”. Il social tagging invece produce, in un modo assolutamente anarchico ed efficiente, una classificazione il cui obiettivo non è l’ordine assoluto, ma il “minor disordine possibile”, cioè quello che permette di effettuare le ricerche e sa adattarsi ad un insieme di contenuti in evoluzione, modificando costantemente il proprio sistema classificatorio in base al modello mentale emergente tra gli utenti.  http://it.wikipedia.org/wiki/Web_semantico   R.Polillo – Corso Web 2.0 (dic 2008)
Social bookmarking Bookmarking : mettere un segnalibro (tradizionale   funzione dei browser)  Social bookmarking: Condividere i propri segnalibri con altri, … … associando ad ogni  segnalibro opportuni tags, anch’essi condivisi, con i quali porre l'accento sugli aspetti maggiormente interessanti NB: Non è più una funzione del browser, ma un’applicazione web 2.0, che può essere resa facilmente accessibile con un plugin (es.: bottone TAG sul bowser) R.Polillo – Corso Web 2.0 (dic 2008)
delicious Video: Social bookmarking in plain English (3’25”) http://it.youtube.com/watch?v=x66lV7GOcNU (da Commoncraft,  http://it.youtube.com/user/leelefever  ) R.Polillo – Corso Web 2.0 (dic 2008)
www.delicious.com   Inizialmente  www.del.icio.us.com   Il sito che ha inventato il social bookmarking, fondato nel 2003 e acquisito da Yahoo! Nel dicembre 2005 Permette di salvare, taggare e condividere bookmarks (che per default sono pubblici), gratuitamente Bottoni TAG e delicious installabili sul proprio browser Più di 150 milioni di bookmarks in archivio http://en.wikipedia.org/wiki/Del.icio.us R.Polillo – Corso Web 2.0 (dic 2008)
Delicious: tagging
Delicious: alcune caratteristiche Ogni utente ha una pagina personale pubblica, con i propri bookmarks Possibilità di definire un network di “amici” Tag cloud “ Bundle” di tag Segnalazione di bookmark ad amici, abbonamenti a tag di interesse Accesso rapido con  www.delicios/tag/<tag > R.Polillo – Corso Web 2.0 (dic 2008)
Altri siti di social bookmarking  Sono numerosi: http://www.listible.com/list/social-bookmarking-sites R.Polillo – Corso Web 2.0 (dic 2008)
Una tassonomia dei sistemi di tagging Marlow, Naaman, Boyd, Davis,”  HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead” http://www.danah.org/papers/Hypertext2006.pdf R.Polillo – Corso Web 2.0 (dic 2008)
Un approccio diverso Cronologia web di Google:  storia, statistiche, segmentazioni, bookmarks delle ricerche effettuate dall’utente http://www.google.com/history   R.Polillo – Corso Web 2.0 (dic 2008)
Wikipedia come strumento di ricerca Wikipedia è un formidabile strumento di ricerca e accesso al web Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici ( http://en.wikipedia.org/wiki/Portal:List_of_portals  ) R.Polillo – Corso Web 2.0 (dic 2008)
2.2.  Motori di ricerca Ogni motore di ricerca è composto da quattro componenti:  crawler ,  indice ,  interfaccia  e software di  query Il  crawler  è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ... L' indice  è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse  L' interfaccia  interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al  query processor  che agisce sull'indice R.Polillo – Corso Web 2.0 (dic 2008)
Le ricerche Le ricerche normalmente sono molto stringate: il 20 % usa una sola parola, quasi il 50% è composta da due o tre parole,solo 5% più di sei parole Anche le “ricerche” si distribuiscono come frequenza secondo una curva “a coda lunga” : circa il 50% delle ricerche quotidiane sono uniche.  Il traffico sui motori di ricerca ha due picchi giornalieri uno la mattina in ufficio e uno la sera al rientro a casa. R.Polillo – Corso Web 2.0 (dic 2008)
Motori di ricerca: storia Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti. Poi il Web e allora  WebCrawler  (1994) , il primo a indicizzare il testo delle pagine. Primo motore valido:  AltaVista  (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche! Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni)  Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a  directory  (v.  www.archive.org  ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google. R.Polillo – Corso Web 2.0 (dic 2008)
Google: l’inizio Brin e Page studiavano a Stanford e Page impostò la tesi sul Web come grafo con Terry Winograd. Il progetto BackRub (1995) era un sistema per scoprire link sul Web, conservarli per analizzarli e ripubblicarli per far vedere quali pagine puntavano a una data pagina. Nel 1996 BackRub iniziò ad indicizzare il Web e, attraverso l'interpretazione dei grafi, a valutare anche l'importanza relativa dei siti e quindi dei loro link. Nasce qui il concetto base dell'algoritmo  PageRank  che tiene in considerazione sia il numero dei link che riceve un sito sia il numero dei link verso ognuno dei siti collegati al primo. Nel 1998 Brin e Page pubblicarono le caratteristiche di PageRank nell'articolo “The anatomy of a large-scale hypertextual Web search engine” e fondarono Google inc con sede nel classico garage. R.Polillo – Corso Web 2.0 (dic 2008)
Il brevetto originale dell'algoritmo Pagerank (1998) U.s Patent file # 6,285,999 ; METHOD FOR NODE RANKING IN A LINKED DATABASE Descrizione : Un metodo che assegna una classificazione di importanza a documenti contenuti in un archivio, come ad esempio ogni archivio che contenga citazioni e rimandi, il Web o tutti gli altri database ipermediali. Il valore assegnato ad un documento è calcolato partendo dal valore dei documenti che lo richiamano. Inoltre, la classificazione di un documento è calcolata prendendo in riferimento una costante che rappresenta la probabilità che un ricercatore all'interno del database salterà in maniera casuale da un documento all'altro. Il metodo è assai utile per implementare la qualità dei risultati di un motore di ricerca per archivi ipermediali come ad esempio il Web, all'interno del quale la qualità dei documenti è molto variabile. Inventori : Page; Lawrence (Stanford, CA) ‏ Assegnatario : The Board of Trustees of the Leland Stanford Junior University (Stanford, CA) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
Google oggi Il motore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet.  Fare una ricerca con Google, oppure  to google , sono diventati parte del linguaggio comune.  Non lo sai? Chiedi a Google .  Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%) ‏ http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg R.Polillo – Corso Web 2.0 (dic 2008)
PageRank “ Basato sullo specifico carattere &quot;democratico&quot; del Web, PageRank sfrutta la vastissima rete di collegamenti associati alle singole pagine per determinarne il valore.  In pratica, Google interpreta un collegamento dalla pagina A alla pagina B come un &quot;voto&quot; espresso dalla prima in merito alla seconda.  Tuttavia, non si limita a calcolare il numero di voti, o collegamenti, assegnati a una pagina. Oltre a effettuare questo calcolo, Google prende in esame la pagina che ha assegnato il voto. I voti espressi da pagine &quot;importanti&quot; hanno più rilevanza e quindi contribuiscono a rendere &quot;importanti&quot; anche le pagine collegate.” (da  http://www.google.it/intl/it/why_use.html  ) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
PageRank: esempio Per spiegazione vedi:  http://en.wikipedia.org/wiki/PageRank R.Polillo – Corso Web 2.0 (dic 2008)
L’algoritmo: altri aspetti PageRank assegna ai siti Web importanti e di alta qualità un &quot;voto&quot; più elevato di cui Google tiene conto ogni volta che esegue una ricerca.  È evidente che oltre ad essere importanti, le pagine devono corrispondere ai termini ricercati. Quindi, Google integra PageRank con sofisticate procedure di ricerca testo per trovare le pagine che sono rilevanti e rispondono ai criteri di ricerca indicati.  Google non si limita solo ad esaminare il numero di volte in cui una parola specifica è presente nella pagina, ma esamina tutti gli aspetti del contenuto della pagina (e dei contenuti delle pagine correlate ad essa) per stabilire se risponde o meno ai criteri di ricerca indicati. R.Polillo – Corso Web 2.0 (dic 2008)
Google: l’algoritmo (I) Il successo del motore sta nell'algoritmo di ricerca, ovviamente coperto da segreto, anche se sulla rete ci sono le sue caratteristiche più importanti. Un esperto di SEO (Search Engine Optimization), Rand Fishkin, ha sviluppato una ipotesi sul funzionamento di Google:   http://www.seomoz.org/blog/a-little-piece-of-the-google-algorithm-revealed PunteggioGoogle = (Utilizzo delle parole chiave * 0.3) + (Importanza del dominio * 0.25) + (Link in ingresso * 0.25) + (Dati degli utenti * 0.1) + (Qualità del contenuto * 0.1) + (Spinte manuali) - (Penalizzazioni automatiche & manuali) R.Polillo – Corso Web 2.0 (dic 2008)
Google: l’algoritmo (II) Fattori nell’utilizzo delle parole chiave (Keywords): Parole chiave nel tag del titolo Parole chiave nei tag degli header Parole chiave nel testo del documento Parole chiave nei link interni che puntano alla pagina Parole chiave nel nome di dominio e/o nell’URL R.Polillo – Corso Web 2.0 (dic 2008)
Google: l’algoritmo (III) Importanza del dominio: Storia della registrazione Età del dominio Importanza dei link che puntano al dominio Rilevanza del dominio sull’argomento basata sui link in entrata ed in uscita Utilizzo storico & pattern dei link verso il dominio Punteggio dei link in entrata: Età dei link Qualità dei domini che mandano il link Qualità delle pagine che mandano il link Testo dei link Valutazione della quantità/peso dei link (Pagerank) ‏ Rilevanza sull’argomento delle pagine che mandano i link R.Polillo – Corso Web 2.0 (dic 2008)
Google: l’algoritmo (IV) Dati degli utenti: Storia della percentuale dei click (CTR) sulla pagina nei risultati dei motori di ricerca Tempo speso dagli utenti sulla pagina Numero di ricerche per URL/nome del dominio Storia delle visite/utilizzo dell’URL/nome del dominio degli utenti che Google può monitorare (toolbar, wifi, analytics, ecc.) ‏ Punteggio della qualità del contenuto: Potenzialmente dato a mano per le ricerche e per le pagine più popolari Fornite da valutatori interni di Google (vedi Henk) ‏ Algoritmi automatizzati per valutare il testo (qualità, leggibilità, ecc.) R.Polillo – Corso Web 2.0 (dic 2008)
Google: quali servizi di ricerca? Ricerca :  pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!) http://www.google.com/intl/it/options/ Cronologia web: storia personale delle ricerche: http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 R.Polillo – Corso Web 2.0 (dic 2008)
Google: integrità I complessi metodi di ricerca automatici di Google sono studiati per limitare al minimo le interferenze degli utenti.  Sebbene vengano visualizzati annunci pubblicitari accanto ad alcuni dei risultati più rilevanti (servizio AdWords), Google non vende spazi pubblicitari all'interno dei risultati (cioè i clienti non possono acquistare un PageRank superiore).  Le funzioni di ricerca di Google offrono un sistema semplice, onesto ed obiettivo per trovare siti Web di alta qualità contenenti dati rispondenti a quelli ricercati.  R.Polillo – Corso Web 2.0 (dic 2008)
SEM/SEO La  posizione  ( rank ) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina) Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization) Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti  che pagano Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera  spamming  da parte degli specialisti SEM/SEO http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
Il grande fratello? Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione:  “ Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti &quot;Don't be evil.&quot; &quot;Non fate i cattivi&quot;. E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy. Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare &quot;Don't be evil, buy the Devil!&quot;.  Altri dubbi su Google:  http://www.ippolita.net/google R.Polillo – Corso Web 2.0 (dic 2008)
Il punto di vista di Google Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti: http://www.youtube.com/watch?v=iPkvNr2cpqg   R.Polillo – Corso Web 2.0 (dic 2008)
Un’idea interessante “ Currently, the Web is similar to an old style card catalog in the local library.  You can find resources but to discover whether the resource is of value or even pertinent to your search you must retrive it.  Luckily, the resource usually has metadata in the form of a Table of Contents and an Index to help peruse the contents.  What if instead we take that metadata and make it available in a separate navigatable space?  This navigational space would be meta-metadata, a first step toward knowledge.”   http://ourworld.cs.com/tcmits1/webbrainpaper.html R.Polillo – Corso Web 2.0 (dic 2008)
Un esempio:  www.webbrain.com   Ricerca tradizionale: Ricerca parola/e chiave pagine  dei  risultati Esamina R.Polillo – Corso Web 2.0 (dic 2008) Ricerca parola/e chiave pagine  dei  risultati Naviga Esamina “ rete semantica” www.webbrain.com  :
R.Polillo – Corso Web 2.0 (dic 2008)
&quot;The technology is designed to separate the navigation from the Web pages. Instead of the typical search, where you have long lists of textual information where you could get hundreds or thousands of search results, now you see it in a visual form.&quot;  The database under WebBrain.com is actually Netscape's Open Directory Project, a human-edited search engine that lets users review and categorize sites. ODP has more than 24,000 contributors who have entered more than 1.7 million websites, divided into 260,000 categories.  http://www.wired.com/science/discoveries/news/2000/05/36600 R.Polillo – Corso Web 2.0 (dic 2008)
3. WEB FEEDS (vedi lezione apposita) R.Polillo – Corso Web 2.0 (dic 2008)
4. ESPLORAZIONE R.Polillo – Corso Web 2.0 (dic 2008)
4. Esplorazione e serendipità Ci sono molti modi di cercare: Cerco un qualcosa di preciso una scatola di pelati Cirio al supermarket un sito che ho visto ieri Cerco qualcosa di vago qualche cosa per fare una paella qualche notizia sui motori di ricerca Cerco qualcosa e ne trovo un’altra (browsing, serendipità) guarda questo vino cileno!  R.Polillo – Corso Web 2.0 (dic 2008)
R.Polillo – Corso Web 2.0 (dic 2008)
Serendipità Nome coniato da Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)  Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html R.Polillo – Corso Web 2.0 (dic 2008)
“ I find vastly more weird, unplanned stuff online than I ever did browsing the stacks as a grad student ... Thanks to the connective nature of hypertext, and the blogosphere's exploratory hunger for finding new stuff, the web is the greatest serendipity engine in the history of culture ... http://www.roughtype.com/archives/2006/05/the_systematize.php R.Polillo – Corso Web 2.0 (dic 2008)
Browsing http://www.visualthesaurus.com/ R.Polillo – Corso Web 2.0 (dic 2008)
Deep attention & hyper attention “ The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention.  Deep attention , the cognitive style traditionally associated with the humanities, is characterized by  concentrating on a single object for long periods  (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times.  Hyper attention , by contrast, is characterized by  switching focus rapidly between different tasks , preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom. Katherine Hayles, (2007). &quot;Hyperattention ”  R.Polillo – Corso Web 2.0 (dic 2008)
www.stumbleupon.com   to stumble : inciampare, scoprire per caso È un  social recommendation system  di pagine web Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007 Premendo il bottone  STUMBLE!  installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:  http://www.stumbleupon.com/about/ R.Polillo – Corso Web 2.0 (dic 2008)
Fonte:  http://www.stumbleupon.com/technology/ R.Polillo – Corso Web 2.0 (dic 2008)
stumbleupon: alcune funzioni Possibilità di definire l’ambito dello “stumble”  (es. flickr, youtube, .blogspot, .edu, .gov, …) Pagina personale (pubblica o privata) R.Polillo – Corso Web 2.0 (dic 2008)
stumbleupon: profilo personale (pubblico) R.Polillo – Corso Web 2.0 (dic 2008)
stumbleupon: profilo personale (privato) R.Polillo – Corso Web 2.0 (dic 2008)
Un altro strumento interessante Discover: http://72.47.194.68/discover/:www.uroulette.com/ R.Polillo – Corso Web 2.0 (dic 2008)
Il punto di vista di Eco “ Lo studente stava dicendo che oggi esiste Internet, la Gran Madre di tutte le Enciclopedie, dove si trovano la Siria, la fusione fredda, la guerra dei trent'anni e la discussione infinita sul più alto dei numeri dispari. Stava dicendo che le informazioni che Internet gli mette a disposizione sono immensamente più ampie e spesso più approfondite di quelle di cui dispone il professore. E trascurava un punto importante: che Internet gli dice 'quasi tutto', salvo come cercare, filtrare, selezionare, accettare o rifiutare quelle informazioni. A immagazzinare nuove informazioni, purché si abbia buona memoria, sono capaci tutti. Ma decidere quali vadano ricordate e quali no è arte sottile. Questo fa la differenza tra chi ha fatto un corso di studi regolari (anche male) e un autodidatta (anche se geniale).” Umberto Eco Intervista a U.Eco:  http://www.rodoni.ch/busoni/umbertoeco/umbertoeco.html   R.Polillo – Corso Web 2.0 (dic 2008)
Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet:  http://creativecommons.org/licenses/by-nc-sa/2.5/it/ .  Il corso completo si trova in  http://corsoweb20polillo.blogspot.com/   Credits Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in  http://camerino20.wordpress.com/ .  Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile. R.Polillo – Corso Web 2.0 (dic 2008)

Corso Web 2.0: Trovare l'informazione

  • 1.
    Università degli Studidi Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Lezione 16 TROVARE L’INFORMAZIONE Corso Web 2.0 2 Roberto Polillo [email_address] www.rpolillo.it R.Polillo – Corso Web 2.0 (dic 2008)
  • 2.
    La rete, oggiGoogle conta un triliardo di URL unici http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html Come trovare informazioni che mi interessano? La figura mostra una parte delle reti di classe C connesse a Internet nel 2004 (ogni nodo corrisponde a un IP address) Da: http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg
  • 3.
    Quattro modalità principali1. Mediante servizi di directory consulto indici strutturati (tassonomie) di argomenti 2. Mediante strumenti di ricerca dico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni che ritiene pertinenti 3. Mediante servizi di feed dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di “ abbonamenti all’informazione”) 4. Mediante esplorazione (browsing) navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “) R.Polillo – Corso Web 2.0 (dic 2008)
  • 4.
    1. DIRECTORIES R.Polillo– Corso Web 2.0 (dic 2008)
  • 5.
    Tassonomia Quando vogliamo“fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni: tassonomia (da taxis=ordine, nomos=regola) Spesso l’ordinamento è di tipo gerarchico, “ad albero” (es.: la classificazione degli esseri viventi di Linneo R.Polillo – Corso Web 2.0 (dic 2008)
  • 6.
    Classificazione gerarchica: esempioR.Polillo – Corso Web 2.0 (dic 2008)
  • 8.
    Le difficoltà dellatassonomia Classificare implica decidere come vogliamo vedere il mondo Il mondo può essere classificato in molti modi diversi La liceità di una tassonomia dipende dall’uso che se ne vuole fare R.Polillo – Corso Web 2.0 (dic 2008)
  • 9.
    Esempio 1: Emporioceleste dei riconoscimenti benevoli (enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: Appartenenti all’imperatore Imbalsamati Ammaestrati Lattonzoli Sirene Favolosi Cani randagi Inclusi in questa classificazione Che si agitano come pazzi Innumerevoli Disegnati con un pennello finissimo di peli di cammello Eccetera Che hanno ritto il vaso Che da lontano sembrano mosche. R.Polillo – Corso Web 2.0 (dic 2008)
  • 10.
    Esempio 2: Lacollezione di animali di peluche di Gaia (7 anni) Seals (gray, tiny and white) ‏ Elephant (small, tiny) ‏ Sheep Dogs (German shepherd, Scottish collie) ‏ Rabbit Penguin Platypus Skunk (one stripe) ‏ Donkey R.Polillo – Corso Web 2.0 (dic 2008)
  • 11.
    La classificazione di Gaia R.Polillo – Corso Web 2.0 (dic 2008)
  • 12.
    La classificazione diGaia: criteri The seal, the small elephant and the donkey are friends The dogs stay by themselves since they are predators and eat the others animals. We need to sedate them at times The rabbit and the sheep spend time together when the rabbit is not hiding in his hole because they come from the same place (a farm, possibly) ‏ The penguin and the skunk go together because they are both black. Plus, the penguin is teaching the skunk to swim The platypus and the tiny elephant are the same age and play together. So do the two other tiny seals, since they are the same size (Courtesy Luca Rosati & Andrea Resmini, from EuroIA 2007, Barcelona) R.Polillo – Corso Web 2.0 (dic 2008)
  • 13.
    Esempio 3: YouTubeR.Polillo – Corso Web 2.0 (dic 2008) Agosto 2008 Novembre 2007
  • 14.
    Web directories Storicamente,il primo strumento di ausilio alle ricerche nel web Dalla “ Jerry's Guide to the World Wide Web“, nel 1994 è nato Yahoo! Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…) Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es. http://www.directorylist.org/ http://en.wikipedia.org/wiki/Web_directory R.Polillo – Corso Web 2.0 (dic 2008)
  • 15.
    Esempio (1996) Da www.archive.org R.Polillo – Corso Web 2.0 (dic 2008)
  • 16.
    Alcune directories generalisteThe Open Directory Project (ODP) - Nota anche come DMOZ (Directory Mozilla) - Directory gratuita, aperta e multilingua, posseduta da Netscape (dal 1998) e manutenuta da una comunità di editor volontari - http://www.dmoz.org/ - http://en.wikipedia.org/wiki/Open_Directory_Project Yahoo!Directory - http://dir.yahoo.com/ Google Directory - Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi http://www.google.com/intl/it/dirhelp.html ) - http://www.google.com/dirhp?hl=en R.Polillo – Corso Web 2.0 (dic 2008)
  • 17.
    Architettura dell’informazione Lastrutturazione di spazi informativi condivisi, in modo da poter ritrovare facilmente quello che ci interessa prende il nome di architettura dell’informazione (AI) AI ci serve, per esempio, per strutturare un sito web tradizionale… … ma anche una libreria, un museo, una fiera… R.Polillo – Corso Web 2.0 (dic 2008)
  • 18.
    AI: cinque areedi problemi Classificazione, tassonomia Denominazione, labeling Organizzazione spaziale Navigazione, orientamento, ricerca Compito, scopo, attività NB: In questo corso non ne tratteremo oltre R.Polillo – Corso Web 2.0 (dic 2008)
  • 19.
    2. RICERCA R.Polillo– Corso Web 2.0 (dic 2008)
  • 20.
    Ricerca Molti metodiprincipali: Ricerca sulla base di parole chiave associate all’informazione (per es. un video, una fotografia, un post di un blog,…) Ricerca con analisi “intelligente” dell’informazione (per es. una pagina web): motori di ricerca Ricerca con entrambi i metodi R.Polillo – Corso Web 2.0 (dic 2008)
  • 21.
    2.1 Ricerca conparole chiave Chi definisce le parole chiave? I contenuti in rete non nascono da un processo ordinato, che segua una tassonomia condivisa Sono tantissimi e crescono nel tempo Se i singoli siti del web 1.0 potevano considerarsi relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up R.Polillo – Corso Web 2.0 (dic 2008)
  • 22.
    Soluzione 1: taggingChi crea l’informazione le associa una o più parole chiave ( etichette , tags ) scelte liberamente, che a suo parere, la descrivono Esempio : Soluzione poco costosa, ma che riflette solo il punto di vista personale (parziale) del creatore R.Polillo – Corso Web 2.0 (dic 2008) Tags : mare barche spiaggia italia vacanze 2007
  • 23.
    Soluzione 2: socialtagging I tags vengono associati non solo da chi crea l’informazione, ma anche da coloro che la usano Altri termini usati : Folksonomy = folk + taxonomy (termine proposto da Thomas Vander Wal) infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down) tagging cooperativo sistema di classificazione distribuita Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione R.Polillo – Corso Web 2.0 (dic 2008)
  • 24.
    Soluzione 3: taxonomy+ folksonomy Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo. Esempi: YouTube usa tagging e tassonomia Flickr usa tagging e social tagging (su autorizzazione dell’uploader o nei gruppi - discussione in: http://www.flickr.com/help/forum/5383/?search=social+tagging ) Slideshare usa tagging (anche geo-tagging) R.Polillo – Corso Web 2.0 (dic 2008)
  • 25.
    Analisi cognitiva deltagging (Rashmi Sinha) (°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112 ) R.Polillo – Corso Web 2.0 (dic 2008) Gli associo possibili categorie Scelgo le categorie più adatte Paralisi decisionale (°) PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA): Considero l’oggetto da classificare Considero l’oggetto da classificare PROCESSO DI TAGGING: Gli associo possibili categorie Non è necessario scegliere
  • 26.
    “ The valueof this external tagging is derived from people using their own vocabulary and adding explicit meaning, which may come from inferred understanding of the information/object. People are not so much categorizing, as providing a means to connect items (placing hooks) to provide their meaning in their own undesrtanding.” (Thomas Vander Wal) R.Polillo – Corso Web 2.0 (dic 2008)
  • 27.
  • 28.
    Social Tagging R.Polillo– Corso Web 2.0 (dic 2008)
  • 29.
    Nota terminologica Itermini “tassonomia”, “classificazione”, “folksonomy”, ecc. denotano processi cognitivi complessi, e vanno maneggiati con cura. L’uso che se ne fa in rete non sempre è coerente o corretto. Noi useremo solo questi termini: Tagging : l’atto di associare dei tag scelti liberamente a un oggetto Social tagging : tagging effettuato da più persone sullo stesso oggetto . R.Polillo – Corso Web 2.0 (dic 2008)
  • 30.
    Complementi Per chisa l’inglese, una bellissima lezione di David Weinberger su “Everything is miscellauneous”, in: http://video.google.com/videoplay?docid=2159021324062223592 R.Polillo – Corso Web 2.0 (dic 2008)
  • 31.
    Social tagging: distribuzionedei tag Coda lunga http://www.slideshare.net/vanderwal/tagging-to-folksonomy R.Polillo – Corso Web 2.0 (dic 2008)
  • 32.
    Tag cloud Rappresentazionevisiva dei tag usati in un sito web, raccolti “a nuvola” I tag sono rappresentati con un corpo proporzionale alla loro importanza “ Importanza” = frequenza dell’ uso del tag per taggare elementi oppure frequenza dell’ accesso a elementi con quel tag La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag http://it.wikipedia.org/wiki/Tag_cloud R.Polillo – Corso Web 2.0 (dic 2008)
  • 33.
    Esempio Tag clouddi flickr: http://www.flickr.com/photos/tags/ Word cloud delle parole in un testo: http://tagcrowd.com/ R.Polillo – Corso Web 2.0 (dic 2008)
  • 34.
    Geo-localizzazione Significa associarea un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina Può essere intesa come una applicazione particolare del tagging (“geo-tagging”, http://en.wikipedia.org/wiki/Geotagging ) Esempi : http://flickr.com/photos/37385373@N00/161862482/ http://81nassau.com/apnews/ R.Polillo – Corso Web 2.0 (dic 2008)
  • 35.
    Geoweb Dal puntodi vista dell’utente significa poter creare una mappa commentata, personalizzata e condivisibile con terzi. Esistono scenari d’applicazione innovativi ancora tutti da esplorare Il GIS nel Web 2.0 evolve nel Geoweb, l'associazione su web di informazioni e luoghi di una mappa, per rendere fruibile agli utenti un sistema per accedere alle informazioni tramite una mappa piuttosto che tramite parole chiave: http://en.wikipedia.org/wiki/Geoweb Le basi tecnologiche risiedono nei nuovi servizi quali Google Earth, NASA World Wind, Windows Live Local, Yahoo Maps, etc. A differenza dei GIS, il Geoweb è uno strumento alla portata di un numero molto più alto di utenti http://maps.google.com etc Come inserire le mappe di Google nelle applicazioni http://www.google.com/intl/en/press/annc/embed_maps.html R.Polillo – Corso Web 2.0 (dic 2008)
  • 36.
    Folksonomy e semanticweb L’idea di dotare i contenuti della rete di un sistema di classificazione sociale, condiviso, aperto e generato dal basso è chiaramente in contrasto con la filosofia del web semantico, il cui obiettivo è costruire un ordine “dall’alto”. Il social tagging invece produce, in un modo assolutamente anarchico ed efficiente, una classificazione il cui obiettivo non è l’ordine assoluto, ma il “minor disordine possibile”, cioè quello che permette di effettuare le ricerche e sa adattarsi ad un insieme di contenuti in evoluzione, modificando costantemente il proprio sistema classificatorio in base al modello mentale emergente tra gli utenti. http://it.wikipedia.org/wiki/Web_semantico R.Polillo – Corso Web 2.0 (dic 2008)
  • 37.
    Social bookmarking Bookmarking: mettere un segnalibro (tradizionale funzione dei browser) Social bookmarking: Condividere i propri segnalibri con altri, … … associando ad ogni segnalibro opportuni tags, anch’essi condivisi, con i quali porre l'accento sugli aspetti maggiormente interessanti NB: Non è più una funzione del browser, ma un’applicazione web 2.0, che può essere resa facilmente accessibile con un plugin (es.: bottone TAG sul bowser) R.Polillo – Corso Web 2.0 (dic 2008)
  • 38.
    delicious Video: Socialbookmarking in plain English (3’25”) http://it.youtube.com/watch?v=x66lV7GOcNU (da Commoncraft, http://it.youtube.com/user/leelefever ) R.Polillo – Corso Web 2.0 (dic 2008)
  • 39.
    www.delicious.com Inizialmente www.del.icio.us.com Il sito che ha inventato il social bookmarking, fondato nel 2003 e acquisito da Yahoo! Nel dicembre 2005 Permette di salvare, taggare e condividere bookmarks (che per default sono pubblici), gratuitamente Bottoni TAG e delicious installabili sul proprio browser Più di 150 milioni di bookmarks in archivio http://en.wikipedia.org/wiki/Del.icio.us R.Polillo – Corso Web 2.0 (dic 2008)
  • 40.
  • 41.
    Delicious: alcune caratteristicheOgni utente ha una pagina personale pubblica, con i propri bookmarks Possibilità di definire un network di “amici” Tag cloud “ Bundle” di tag Segnalazione di bookmark ad amici, abbonamenti a tag di interesse Accesso rapido con www.delicios/tag/<tag > R.Polillo – Corso Web 2.0 (dic 2008)
  • 42.
    Altri siti disocial bookmarking Sono numerosi: http://www.listible.com/list/social-bookmarking-sites R.Polillo – Corso Web 2.0 (dic 2008)
  • 43.
    Una tassonomia deisistemi di tagging Marlow, Naaman, Boyd, Davis,” HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead” http://www.danah.org/papers/Hypertext2006.pdf R.Polillo – Corso Web 2.0 (dic 2008)
  • 44.
    Un approccio diversoCronologia web di Google: storia, statistiche, segmentazioni, bookmarks delle ricerche effettuate dall’utente http://www.google.com/history R.Polillo – Corso Web 2.0 (dic 2008)
  • 45.
    Wikipedia come strumentodi ricerca Wikipedia è un formidabile strumento di ricerca e accesso al web Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici ( http://en.wikipedia.org/wiki/Portal:List_of_portals ) R.Polillo – Corso Web 2.0 (dic 2008)
  • 46.
    2.2. Motoridi ricerca Ogni motore di ricerca è composto da quattro componenti: crawler , indice , interfaccia e software di query Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ... L' indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse L' interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice R.Polillo – Corso Web 2.0 (dic 2008)
  • 47.
    Le ricerche Lericerche normalmente sono molto stringate: il 20 % usa una sola parola, quasi il 50% è composta da due o tre parole,solo 5% più di sei parole Anche le “ricerche” si distribuiscono come frequenza secondo una curva “a coda lunga” : circa il 50% delle ricerche quotidiane sono uniche. Il traffico sui motori di ricerca ha due picchi giornalieri uno la mattina in ufficio e uno la sera al rientro a casa. R.Polillo – Corso Web 2.0 (dic 2008)
  • 48.
    Motori di ricerca:storia Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti. Poi il Web e allora WebCrawler (1994) , il primo a indicizzare il testo delle pagine. Primo motore valido: AltaVista (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche! Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni) Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a directory (v. www.archive.org ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google. R.Polillo – Corso Web 2.0 (dic 2008)
  • 49.
    Google: l’inizio Brine Page studiavano a Stanford e Page impostò la tesi sul Web come grafo con Terry Winograd. Il progetto BackRub (1995) era un sistema per scoprire link sul Web, conservarli per analizzarli e ripubblicarli per far vedere quali pagine puntavano a una data pagina. Nel 1996 BackRub iniziò ad indicizzare il Web e, attraverso l'interpretazione dei grafi, a valutare anche l'importanza relativa dei siti e quindi dei loro link. Nasce qui il concetto base dell'algoritmo PageRank che tiene in considerazione sia il numero dei link che riceve un sito sia il numero dei link verso ognuno dei siti collegati al primo. Nel 1998 Brin e Page pubblicarono le caratteristiche di PageRank nell'articolo “The anatomy of a large-scale hypertextual Web search engine” e fondarono Google inc con sede nel classico garage. R.Polillo – Corso Web 2.0 (dic 2008)
  • 50.
    Il brevetto originaledell'algoritmo Pagerank (1998) U.s Patent file # 6,285,999 ; METHOD FOR NODE RANKING IN A LINKED DATABASE Descrizione : Un metodo che assegna una classificazione di importanza a documenti contenuti in un archivio, come ad esempio ogni archivio che contenga citazioni e rimandi, il Web o tutti gli altri database ipermediali. Il valore assegnato ad un documento è calcolato partendo dal valore dei documenti che lo richiamano. Inoltre, la classificazione di un documento è calcolata prendendo in riferimento una costante che rappresenta la probabilità che un ricercatore all'interno del database salterà in maniera casuale da un documento all'altro. Il metodo è assai utile per implementare la qualità dei risultati di un motore di ricerca per archivi ipermediali come ad esempio il Web, all'interno del quale la qualità dei documenti è molto variabile. Inventori : Page; Lawrence (Stanford, CA) ‏ Assegnatario : The Board of Trustees of the Leland Stanford Junior University (Stanford, CA) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
  • 51.
    Google oggi Ilmotore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet. Fare una ricerca con Google, oppure to google , sono diventati parte del linguaggio comune. Non lo sai? Chiedi a Google . Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%) ‏ http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg R.Polillo – Corso Web 2.0 (dic 2008)
  • 52.
    PageRank “ Basatosullo specifico carattere &quot;democratico&quot; del Web, PageRank sfrutta la vastissima rete di collegamenti associati alle singole pagine per determinarne il valore. In pratica, Google interpreta un collegamento dalla pagina A alla pagina B come un &quot;voto&quot; espresso dalla prima in merito alla seconda. Tuttavia, non si limita a calcolare il numero di voti, o collegamenti, assegnati a una pagina. Oltre a effettuare questo calcolo, Google prende in esame la pagina che ha assegnato il voto. I voti espressi da pagine &quot;importanti&quot; hanno più rilevanza e quindi contribuiscono a rendere &quot;importanti&quot; anche le pagine collegate.” (da http://www.google.it/intl/it/why_use.html ) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
  • 53.
    PageRank: esempio Perspiegazione vedi: http://en.wikipedia.org/wiki/PageRank R.Polillo – Corso Web 2.0 (dic 2008)
  • 54.
    L’algoritmo: altri aspettiPageRank assegna ai siti Web importanti e di alta qualità un &quot;voto&quot; più elevato di cui Google tiene conto ogni volta che esegue una ricerca. È evidente che oltre ad essere importanti, le pagine devono corrispondere ai termini ricercati. Quindi, Google integra PageRank con sofisticate procedure di ricerca testo per trovare le pagine che sono rilevanti e rispondono ai criteri di ricerca indicati. Google non si limita solo ad esaminare il numero di volte in cui una parola specifica è presente nella pagina, ma esamina tutti gli aspetti del contenuto della pagina (e dei contenuti delle pagine correlate ad essa) per stabilire se risponde o meno ai criteri di ricerca indicati. R.Polillo – Corso Web 2.0 (dic 2008)
  • 55.
    Google: l’algoritmo (I)Il successo del motore sta nell'algoritmo di ricerca, ovviamente coperto da segreto, anche se sulla rete ci sono le sue caratteristiche più importanti. Un esperto di SEO (Search Engine Optimization), Rand Fishkin, ha sviluppato una ipotesi sul funzionamento di Google: http://www.seomoz.org/blog/a-little-piece-of-the-google-algorithm-revealed PunteggioGoogle = (Utilizzo delle parole chiave * 0.3) + (Importanza del dominio * 0.25) + (Link in ingresso * 0.25) + (Dati degli utenti * 0.1) + (Qualità del contenuto * 0.1) + (Spinte manuali) - (Penalizzazioni automatiche & manuali) R.Polillo – Corso Web 2.0 (dic 2008)
  • 56.
    Google: l’algoritmo (II)Fattori nell’utilizzo delle parole chiave (Keywords): Parole chiave nel tag del titolo Parole chiave nei tag degli header Parole chiave nel testo del documento Parole chiave nei link interni che puntano alla pagina Parole chiave nel nome di dominio e/o nell’URL R.Polillo – Corso Web 2.0 (dic 2008)
  • 57.
    Google: l’algoritmo (III)Importanza del dominio: Storia della registrazione Età del dominio Importanza dei link che puntano al dominio Rilevanza del dominio sull’argomento basata sui link in entrata ed in uscita Utilizzo storico & pattern dei link verso il dominio Punteggio dei link in entrata: Età dei link Qualità dei domini che mandano il link Qualità delle pagine che mandano il link Testo dei link Valutazione della quantità/peso dei link (Pagerank) ‏ Rilevanza sull’argomento delle pagine che mandano i link R.Polillo – Corso Web 2.0 (dic 2008)
  • 58.
    Google: l’algoritmo (IV)Dati degli utenti: Storia della percentuale dei click (CTR) sulla pagina nei risultati dei motori di ricerca Tempo speso dagli utenti sulla pagina Numero di ricerche per URL/nome del dominio Storia delle visite/utilizzo dell’URL/nome del dominio degli utenti che Google può monitorare (toolbar, wifi, analytics, ecc.) ‏ Punteggio della qualità del contenuto: Potenzialmente dato a mano per le ricerche e per le pagine più popolari Fornite da valutatori interni di Google (vedi Henk) ‏ Algoritmi automatizzati per valutare il testo (qualità, leggibilità, ecc.) R.Polillo – Corso Web 2.0 (dic 2008)
  • 59.
    Google: quali servizidi ricerca? Ricerca : pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!) http://www.google.com/intl/it/options/ Cronologia web: storia personale delle ricerche: http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 R.Polillo – Corso Web 2.0 (dic 2008)
  • 60.
    Google: integrità Icomplessi metodi di ricerca automatici di Google sono studiati per limitare al minimo le interferenze degli utenti. Sebbene vengano visualizzati annunci pubblicitari accanto ad alcuni dei risultati più rilevanti (servizio AdWords), Google non vende spazi pubblicitari all'interno dei risultati (cioè i clienti non possono acquistare un PageRank superiore). Le funzioni di ricerca di Google offrono un sistema semplice, onesto ed obiettivo per trovare siti Web di alta qualità contenenti dati rispondenti a quelli ricercati. R.Polillo – Corso Web 2.0 (dic 2008)
  • 61.
    SEM/SEO La posizione ( rank ) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina) Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization) Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così) ‏ R.Polillo – Corso Web 2.0 (dic 2008)
  • 62.
    Il grande fratello?Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione: “ Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti &quot;Don't be evil.&quot; &quot;Non fate i cattivi&quot;. E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy. Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare &quot;Don't be evil, buy the Devil!&quot;. Altri dubbi su Google: http://www.ippolita.net/google R.Polillo – Corso Web 2.0 (dic 2008)
  • 63.
    Il punto divista di Google Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti: http://www.youtube.com/watch?v=iPkvNr2cpqg R.Polillo – Corso Web 2.0 (dic 2008)
  • 64.
    Un’idea interessante “Currently, the Web is similar to an old style card catalog in the local library. You can find resources but to discover whether the resource is of value or even pertinent to your search you must retrive it. Luckily, the resource usually has metadata in the form of a Table of Contents and an Index to help peruse the contents. What if instead we take that metadata and make it available in a separate navigatable space? This navigational space would be meta-metadata, a first step toward knowledge.” http://ourworld.cs.com/tcmits1/webbrainpaper.html R.Polillo – Corso Web 2.0 (dic 2008)
  • 65.
    Un esempio: www.webbrain.com Ricerca tradizionale: Ricerca parola/e chiave pagine dei risultati Esamina R.Polillo – Corso Web 2.0 (dic 2008) Ricerca parola/e chiave pagine dei risultati Naviga Esamina “ rete semantica” www.webbrain.com :
  • 66.
    R.Polillo – CorsoWeb 2.0 (dic 2008)
  • 67.
    &quot;The technology isdesigned to separate the navigation from the Web pages. Instead of the typical search, where you have long lists of textual information where you could get hundreds or thousands of search results, now you see it in a visual form.&quot; The database under WebBrain.com is actually Netscape's Open Directory Project, a human-edited search engine that lets users review and categorize sites. ODP has more than 24,000 contributors who have entered more than 1.7 million websites, divided into 260,000 categories. http://www.wired.com/science/discoveries/news/2000/05/36600 R.Polillo – Corso Web 2.0 (dic 2008)
  • 68.
    3. WEB FEEDS(vedi lezione apposita) R.Polillo – Corso Web 2.0 (dic 2008)
  • 69.
    4. ESPLORAZIONE R.Polillo– Corso Web 2.0 (dic 2008)
  • 70.
    4. Esplorazione eserendipità Ci sono molti modi di cercare: Cerco un qualcosa di preciso una scatola di pelati Cirio al supermarket un sito che ho visto ieri Cerco qualcosa di vago qualche cosa per fare una paella qualche notizia sui motori di ricerca Cerco qualcosa e ne trovo un’altra (browsing, serendipità) guarda questo vino cileno! R.Polillo – Corso Web 2.0 (dic 2008)
  • 71.
    R.Polillo – CorsoWeb 2.0 (dic 2008)
  • 72.
    Serendipità Nome coniatoda Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka) Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html R.Polillo – Corso Web 2.0 (dic 2008)
  • 73.
    “ I findvastly more weird, unplanned stuff online than I ever did browsing the stacks as a grad student ... Thanks to the connective nature of hypertext, and the blogosphere's exploratory hunger for finding new stuff, the web is the greatest serendipity engine in the history of culture ... http://www.roughtype.com/archives/2006/05/the_systematize.php R.Polillo – Corso Web 2.0 (dic 2008)
  • 74.
  • 75.
    Deep attention &hyper attention “ The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention. Deep attention , the cognitive style traditionally associated with the humanities, is characterized by concentrating on a single object for long periods (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times. Hyper attention , by contrast, is characterized by switching focus rapidly between different tasks , preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom. Katherine Hayles, (2007). &quot;Hyperattention ” R.Polillo – Corso Web 2.0 (dic 2008)
  • 76.
    www.stumbleupon.com to stumble : inciampare, scoprire per caso È un social recommendation system di pagine web Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007 Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: http://www.stumbleupon.com/about/ R.Polillo – Corso Web 2.0 (dic 2008)
  • 77.
    Fonte: http://www.stumbleupon.com/technology/R.Polillo – Corso Web 2.0 (dic 2008)
  • 78.
    stumbleupon: alcune funzioniPossibilità di definire l’ambito dello “stumble” (es. flickr, youtube, .blogspot, .edu, .gov, …) Pagina personale (pubblica o privata) R.Polillo – Corso Web 2.0 (dic 2008)
  • 79.
    stumbleupon: profilo personale(pubblico) R.Polillo – Corso Web 2.0 (dic 2008)
  • 80.
    stumbleupon: profilo personale(privato) R.Polillo – Corso Web 2.0 (dic 2008)
  • 81.
    Un altro strumentointeressante Discover: http://72.47.194.68/discover/:www.uroulette.com/ R.Polillo – Corso Web 2.0 (dic 2008)
  • 82.
    Il punto divista di Eco “ Lo studente stava dicendo che oggi esiste Internet, la Gran Madre di tutte le Enciclopedie, dove si trovano la Siria, la fusione fredda, la guerra dei trent'anni e la discussione infinita sul più alto dei numeri dispari. Stava dicendo che le informazioni che Internet gli mette a disposizione sono immensamente più ampie e spesso più approfondite di quelle di cui dispone il professore. E trascurava un punto importante: che Internet gli dice 'quasi tutto', salvo come cercare, filtrare, selezionare, accettare o rifiutare quelle informazioni. A immagazzinare nuove informazioni, purché si abbia buona memoria, sono capaci tutti. Ma decidere quali vadano ricordate e quali no è arte sottile. Questo fa la differenza tra chi ha fatto un corso di studi regolari (anche male) e un autodidatta (anche se geniale).” Umberto Eco Intervista a U.Eco: http://www.rodoni.ch/busoni/umbertoeco/umbertoeco.html R.Polillo – Corso Web 2.0 (dic 2008)
  • 83.
    Il presente materialeè pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/ . Il corso completo si trova in http://corsoweb20polillo.blogspot.com/ Credits Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in http://camerino20.wordpress.com/ . Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile. R.Polillo – Corso Web 2.0 (dic 2008)