Corso Web 2.0: Trovare l'informazione
Upcoming SlideShare
Loading in...5
×
 

Corso Web 2.0: Trovare l'informazione

on

  • 4,356 views

Lezione 16 del corso sul Web 2.0 tenuto all'Università di Milano Bicocca.

Lezione 16 del corso sul Web 2.0 tenuto all'Università di Milano Bicocca.
Vedi anche www.corsoweb20polillo.blogspot.com

Statistics

Views

Total Views
4,356
Views on SlideShare
3,959
Embed Views
397

Actions

Likes
6
Downloads
142
Comments
0

6 Embeds 397

http://corsoweb20polillo.blogspot.com 238
http://corsoweb20polillo.blogspot.it 86
http://www.corsoweb20polillo.blogspot.com 36
http://www.corsoweb20polillo.blogspot.it 33
http://www.slideshare.net 3
http://corsoweb20polillo.blogspot.fr 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Corso Web 2.0: Trovare l'informazione Corso Web 2.0: Trovare l'informazione Presentation Transcript

  • Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione
    • Lezione 16 TROVARE L’INFORMAZIONE Corso Web 2.0 2 Roberto Polillo
    • [email_address] www.rpolillo.it
    R.Polillo – Corso Web 2.0 (dic 2008)
  • La rete, oggi Google conta un triliardo di URL unici http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html Come trovare informazioni che mi interessano? La figura mostra una parte delle reti di classe C connesse a Internet nel 2004 (ogni nodo corrisponde a un IP address) Da: http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg
  • Quattro modalità principali
    • 1. Mediante servizi di directory consulto indici strutturati (tassonomie) di argomenti
    • 2. Mediante strumenti di ricerca dico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni che ritiene pertinenti
    • 3. Mediante servizi di feed dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di “ abbonamenti all’informazione”)
    • 4. Mediante esplorazione (browsing) navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “)
    R.Polillo – Corso Web 2.0 (dic 2008)
    • 1. DIRECTORIES
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Tassonomia
    • Quando vogliamo “fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio
    • In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni: tassonomia (da taxis=ordine, nomos=regola)
    • Spesso l’ordinamento è di tipo gerarchico, “ad albero” (es.: la classificazione degli esseri viventi di Linneo
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Classificazione gerarchica: esempio R.Polillo – Corso Web 2.0 (dic 2008)
  • Le difficoltà della tassonomia
    • Classificare implica decidere come vogliamo vedere il mondo
    • Il mondo può essere classificato in molti modi diversi
    • La liceità di una tassonomia dipende dall’uso che se ne vuole fare
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Esempio 1: Emporio celeste dei riconoscimenti benevoli (enciclopedia cinese, J.L.Borges, 1973)
    • Gli animali si dividono in:
    • Appartenenti all’imperatore
    • Imbalsamati
    • Ammaestrati
    • Lattonzoli
    • Sirene
    • Favolosi
    • Cani randagi
    • Inclusi in questa classificazione
    • Che si agitano come pazzi
    • Innumerevoli
    • Disegnati con un pennello finissimo di peli di cammello
    • Eccetera
    • Che hanno ritto il vaso
    • Che da lontano sembrano mosche.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Esempio 2: La collezione di animali di peluche di Gaia (7 anni)
      • Seals (gray, tiny and white) ‏
      • Elephant (small, tiny) ‏
      • Sheep
      • Dogs (German shepherd, Scottish collie) ‏
      • Rabbit
      • Penguin
      • Platypus
      • Skunk (one stripe) ‏
      • Donkey
    R.Polillo – Corso Web 2.0 (dic 2008)
  • La classificazione di Gaia R.Polillo – Corso Web 2.0 (dic 2008)
  • La classificazione di Gaia: criteri
    • The seal, the small elephant and the donkey are friends
    • The dogs stay by themselves since they are predators and eat the others animals. We need to sedate them at times
    • The rabbit and the sheep spend time together when the rabbit is not hiding in his hole because they come from the same place (a farm, possibly) ‏
    • The penguin and the skunk go together because they are both black. Plus, the penguin is teaching the skunk to swim
    • The platypus and the tiny elephant are the same age and play together. So do the two other tiny seals, since they are the same size
    • (Courtesy Luca Rosati & Andrea Resmini, from EuroIA 2007, Barcelona)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Esempio 3: YouTube R.Polillo – Corso Web 2.0 (dic 2008) Agosto 2008 Novembre 2007
  • Web directories
    • Storicamente, il primo strumento di ausilio alle ricerche nel web
    • Dalla “ Jerry's Guide to the World Wide Web“, nel 1994 è nato Yahoo!
    • Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori
    • Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…)
    • Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es. http://www.directorylist.org/
    • http://en.wikipedia.org/wiki/Web_directory
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Esempio (1996) Da www.archive.org R.Polillo – Corso Web 2.0 (dic 2008)
  • Alcune directories generaliste
    • The Open Directory Project (ODP) - Nota anche come DMOZ (Directory Mozilla) - Directory gratuita, aperta e multilingua, posseduta da Netscape (dal 1998) e manutenuta da una comunità di editor volontari - http://www.dmoz.org/ - http://en.wikipedia.org/wiki/Open_Directory_Project
    • Yahoo!Directory - http://dir.yahoo.com/
    • Google Directory - Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi http://www.google.com/intl/it/dirhelp.html ) - http://www.google.com/dirhp?hl=en
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Architettura dell’informazione
    • La strutturazione di spazi informativi condivisi, in modo da poter ritrovare facilmente quello che ci interessa prende il nome di architettura dell’informazione (AI)
    • AI ci serve, per esempio, per strutturare un sito web tradizionale…
    • … ma anche una libreria, un museo, una fiera…
    R.Polillo – Corso Web 2.0 (dic 2008)
  • AI: cinque aree di problemi
    • Classificazione, tassonomia
    • Denominazione, labeling
    • Organizzazione spaziale
    • Navigazione, orientamento, ricerca
    • Compito, scopo, attività
    • NB: In questo corso non ne tratteremo oltre
    R.Polillo – Corso Web 2.0 (dic 2008)
    • 2. RICERCA
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Ricerca
    • Molti metodi principali:
    • Ricerca sulla base di parole chiave associate all’informazione (per es. un video, una fotografia, un post di un blog,…)
    • Ricerca con analisi “intelligente” dell’informazione (per es. una pagina web): motori di ricerca
    • Ricerca con entrambi i metodi
    R.Polillo – Corso Web 2.0 (dic 2008)
  • 2.1 Ricerca con parole chiave
    • Chi definisce le parole chiave?
    • I contenuti in rete non nascono da un processo ordinato, che segua una tassonomia condivisa
    • Sono tantissimi e crescono nel tempo
    • Se i singoli siti del web 1.0 potevano considerarsi relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Soluzione 1: tagging
    • Chi crea l’informazione le associa una o più parole chiave ( etichette , tags ) scelte liberamente, che a suo parere, la descrivono
    • Esempio :
    • Soluzione poco costosa, ma che riflette solo il punto di vista personale (parziale) del creatore
    R.Polillo – Corso Web 2.0 (dic 2008) Tags : mare barche spiaggia italia vacanze 2007
  • Soluzione 2: social tagging
    • I tags vengono associati non solo da chi crea l’informazione, ma anche da coloro che la usano
    • Altri termini usati :
      • Folksonomy = folk + taxonomy (termine proposto da Thomas Vander Wal) infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down)
      • tagging cooperativo
      • sistema di classificazione distribuita
    • Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Soluzione 3: taxonomy + folksonomy
    • Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo.
    • Esempi:
      • YouTube usa tagging e tassonomia
      • Flickr usa tagging e social tagging (su autorizzazione dell’uploader o nei gruppi - discussione in: http://www.flickr.com/help/forum/5383/?search=social+tagging )
      • Slideshare usa tagging (anche geo-tagging)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Analisi cognitiva del tagging (Rashmi Sinha) (°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112 ) R.Polillo – Corso Web 2.0 (dic 2008) Gli associo possibili categorie Scelgo le categorie più adatte Paralisi decisionale (°) PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA): Considero l’oggetto da classificare Considero l’oggetto da classificare PROCESSO DI TAGGING: Gli associo possibili categorie Non è necessario scegliere
    • “ The value of this external tagging is derived from people using their own vocabulary and adding explicit meaning, which may come from inferred understanding of the information/object.
    • People are not so much categorizing, as providing a means to connect items (placing hooks) to provide their meaning in their own undesrtanding.”
    • (Thomas Vander Wal)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Tagging http://www.slideshare.net/vanderwal/tagging-to-folksonomy R.Polillo – Corso Web 2.0 (dic 2008)
  • Social Tagging R.Polillo – Corso Web 2.0 (dic 2008)
  • Nota terminologica
    • I termini “tassonomia”, “classificazione”, “folksonomy”, ecc. denotano processi cognitivi complessi, e vanno maneggiati con cura. L’uso che se ne fa in rete non sempre è coerente o corretto.
    • Noi useremo solo questi termini:
      • Tagging : l’atto di associare dei tag scelti liberamente a un oggetto
      • Social tagging : tagging effettuato da più persone sullo stesso oggetto .
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Complementi
    • Per chi sa l’inglese, una bellissima lezione di David Weinberger su “Everything is miscellauneous”, in: http://video.google.com/videoplay?docid=2159021324062223592
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Social tagging: distribuzione dei tag Coda lunga http://www.slideshare.net/vanderwal/tagging-to-folksonomy R.Polillo – Corso Web 2.0 (dic 2008)
  • Tag cloud
    • Rappresentazione visiva dei tag usati in un sito web, raccolti “a nuvola”
    • I tag sono rappresentati con un corpo proporzionale alla loro importanza
    • “ Importanza” = frequenza dell’ uso del tag per taggare elementi oppure frequenza dell’ accesso a elementi con quel tag
    • La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag
    • http://it.wikipedia.org/wiki/Tag_cloud
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Esempio
    • Tag cloud di flickr: http://www.flickr.com/photos/tags/
    • Word cloud delle parole in un testo: http://tagcrowd.com/
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Geo-localizzazione
    • Significa associare a un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina
    • Può essere intesa come una applicazione particolare del tagging (“geo-tagging”, http://en.wikipedia.org/wiki/Geotagging )
    • Esempi : http://flickr.com/photos/37385373@N00/161862482/ http://81nassau.com/apnews/
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Geoweb
    • Dal punto di vista dell’utente significa poter creare una mappa commentata, personalizzata e condivisibile con terzi.
    • Esistono scenari d’applicazione innovativi ancora tutti da esplorare
    • Il GIS nel Web 2.0 evolve nel Geoweb, l'associazione su web di informazioni e luoghi di una mappa, per rendere fruibile agli utenti un sistema per accedere alle informazioni tramite una mappa piuttosto che tramite parole chiave: http://en.wikipedia.org/wiki/Geoweb
    • Le basi tecnologiche risiedono nei nuovi servizi quali Google Earth, NASA World Wind, Windows Live Local, Yahoo Maps, etc. A differenza dei GIS, il Geoweb è uno strumento alla portata di un numero molto più alto di utenti
    • http://maps.google.com etc
    • Come inserire le mappe di Google nelle applicazioni http://www.google.com/intl/en/press/annc/embed_maps.html
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Folksonomy e semantic web
    • L’idea di dotare i contenuti della rete di un sistema di classificazione sociale, condiviso, aperto e generato dal basso è chiaramente in contrasto con la filosofia del web semantico, il cui obiettivo è costruire un ordine “dall’alto”.
    • Il social tagging invece produce, in un modo assolutamente anarchico ed efficiente, una classificazione il cui obiettivo non è l’ordine assoluto, ma il “minor disordine possibile”, cioè quello che permette di effettuare le ricerche e sa adattarsi ad un insieme di contenuti in evoluzione, modificando costantemente il proprio sistema classificatorio in base al modello mentale emergente tra gli utenti.
    • http://it.wikipedia.org/wiki/Web_semantico
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Social bookmarking
    • Bookmarking : mettere un segnalibro (tradizionale funzione dei browser)
    • Social bookmarking:
    • Condividere i propri segnalibri con altri, …
    • … associando ad ogni segnalibro opportuni tags, anch’essi condivisi, con i quali porre l'accento sugli aspetti maggiormente interessanti
    NB: Non è più una funzione del browser, ma un’applicazione web 2.0, che può essere resa facilmente accessibile con un plugin (es.: bottone TAG sul bowser) R.Polillo – Corso Web 2.0 (dic 2008)
  • delicious
    • Video: Social bookmarking in plain English (3’25”) http://it.youtube.com/watch?v=x66lV7GOcNU
    • (da Commoncraft, http://it.youtube.com/user/leelefever )
    R.Polillo – Corso Web 2.0 (dic 2008)
  • www.delicious.com
    • Inizialmente www.del.icio.us.com
    • Il sito che ha inventato il social bookmarking, fondato nel 2003 e acquisito da Yahoo! Nel dicembre 2005
    • Permette di salvare, taggare e condividere bookmarks (che per default sono pubblici), gratuitamente
    • Bottoni TAG e delicious installabili sul proprio browser
    • Più di 150 milioni di bookmarks in archivio
    • http://en.wikipedia.org/wiki/Del.icio.us
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Delicious: tagging
  • Delicious: alcune caratteristiche
    • Ogni utente ha una pagina personale pubblica, con i propri bookmarks
    • Possibilità di definire un network di “amici”
    • Tag cloud
    • “ Bundle” di tag
    • Segnalazione di bookmark ad amici, abbonamenti a tag di interesse
    • Accesso rapido con www.delicios/tag/<tag >
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Altri siti di social bookmarking
    • Sono numerosi:
    • http://www.listible.com/list/social-bookmarking-sites
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Una tassonomia dei sistemi di tagging
    • Marlow, Naaman, Boyd, Davis,” HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead”
    • http://www.danah.org/papers/Hypertext2006.pdf
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Un approccio diverso
    • Cronologia web di Google:
    • storia, statistiche, segmentazioni, bookmarks delle ricerche effettuate dall’utente
    • http://www.google.com/history
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Wikipedia come strumento di ricerca
    • Wikipedia è un formidabile strumento di ricerca e accesso al web
    • Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato
    • Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici ( http://en.wikipedia.org/wiki/Portal:List_of_portals )
    R.Polillo – Corso Web 2.0 (dic 2008)
  • 2.2. Motori di ricerca
    • Ogni motore di ricerca è composto da quattro componenti: crawler , indice , interfaccia e software di query
      • Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ...
      • L' indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse
      • L' interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Le ricerche
    • Le ricerche normalmente sono molto stringate: il 20 % usa una sola parola, quasi il 50% è composta da due o tre parole,solo 5% più di sei parole
    • Anche le “ricerche” si distribuiscono come frequenza secondo una curva “a coda lunga” : circa il 50% delle ricerche quotidiane sono uniche.
    • Il traffico sui motori di ricerca ha due picchi giornalieri uno la mattina in ufficio e uno la sera al rientro a casa.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Motori di ricerca: storia
    • Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti.
    • Poi il Web e allora WebCrawler (1994) , il primo a indicizzare il testo delle pagine.
    • Primo motore valido: AltaVista (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche!
    • Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni)
    • Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a directory (v. www.archive.org ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: l’inizio
    • Brin e Page studiavano a Stanford e Page impostò la tesi sul Web come grafo con Terry Winograd.
    • Il progetto BackRub (1995) era un sistema per scoprire link sul Web, conservarli per analizzarli e ripubblicarli per far vedere quali pagine puntavano a una data pagina. Nel 1996 BackRub iniziò ad indicizzare il Web e, attraverso l'interpretazione dei grafi, a valutare anche l'importanza relativa dei siti e quindi dei loro link.
    • Nasce qui il concetto base dell'algoritmo PageRank che tiene in considerazione sia il numero dei link che riceve un sito sia il numero dei link verso ognuno dei siti collegati al primo.
    • Nel 1998 Brin e Page pubblicarono le caratteristiche di PageRank nell'articolo “The anatomy of a large-scale hypertextual Web search engine” e fondarono Google inc con sede nel classico garage.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Il brevetto originale dell'algoritmo Pagerank (1998)
    • U.s Patent file # 6,285,999 ;
    • METHOD FOR NODE RANKING IN A LINKED DATABASE
    • Descrizione : Un metodo che assegna una classificazione di importanza a documenti contenuti in un archivio, come ad esempio ogni archivio che contenga citazioni e rimandi, il Web o tutti gli altri database ipermediali. Il valore assegnato ad un documento è calcolato partendo dal valore dei documenti che lo richiamano. Inoltre, la classificazione di un documento è calcolata prendendo in riferimento una costante che rappresenta la probabilità che un ricercatore all'interno del database salterà in maniera casuale da un documento all'altro. Il metodo è assai utile per implementare la qualità dei risultati di un motore di ricerca per archivi ipermediali come ad esempio il Web, all'interno del quale la qualità dei documenti è molto variabile.
    • Inventori : Page; Lawrence (Stanford, CA) ‏
    • Assegnatario : The Board of Trustees of the Leland Stanford Junior University (Stanford, CA) ‏
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google oggi
    • Il motore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet.
    • Fare una ricerca con Google, oppure to google , sono diventati parte del linguaggio comune. Non lo sai? Chiedi a Google .
    • Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%) ‏
    http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg R.Polillo – Corso Web 2.0 (dic 2008)
  • PageRank
    • “ Basato sullo specifico carattere &quot;democratico&quot; del Web, PageRank sfrutta la vastissima rete di collegamenti associati alle singole pagine per determinarne il valore.
    • In pratica, Google interpreta un collegamento dalla pagina A alla pagina B come un &quot;voto&quot; espresso dalla prima in merito alla seconda.
    • Tuttavia, non si limita a calcolare il numero di voti, o collegamenti, assegnati a una pagina. Oltre a effettuare questo calcolo, Google prende in esame la pagina che ha assegnato il voto. I voti espressi da pagine &quot;importanti&quot; hanno più rilevanza e quindi contribuiscono a rendere &quot;importanti&quot; anche le pagine collegate.”
    • (da http://www.google.it/intl/it/why_use.html ) ‏
    R.Polillo – Corso Web 2.0 (dic 2008)
  • PageRank: esempio Per spiegazione vedi: http://en.wikipedia.org/wiki/PageRank R.Polillo – Corso Web 2.0 (dic 2008)
  • L’algoritmo: altri aspetti
    • PageRank assegna ai siti Web importanti e di alta qualità un &quot;voto&quot; più elevato di cui Google tiene conto ogni volta che esegue una ricerca.
    • È evidente che oltre ad essere importanti, le pagine devono corrispondere ai termini ricercati. Quindi, Google integra PageRank con sofisticate procedure di ricerca testo per trovare le pagine che sono rilevanti e rispondono ai criteri di ricerca indicati.
    • Google non si limita solo ad esaminare il numero di volte in cui una parola specifica è presente nella pagina, ma esamina tutti gli aspetti del contenuto della pagina (e dei contenuti delle pagine correlate ad essa) per stabilire se risponde o meno ai criteri di ricerca indicati.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: l’algoritmo (I)
    • Il successo del motore sta nell'algoritmo di ricerca, ovviamente coperto da segreto, anche se sulla rete ci sono le sue caratteristiche più importanti.
    • Un esperto di SEO (Search Engine Optimization), Rand Fishkin, ha sviluppato una ipotesi sul funzionamento di Google:
    • http://www.seomoz.org/blog/a-little-piece-of-the-google-algorithm-revealed
    • PunteggioGoogle =
    • (Utilizzo delle parole chiave * 0.3) +
    • (Importanza del dominio * 0.25) +
    • (Link in ingresso * 0.25) +
    • (Dati degli utenti * 0.1) +
    • (Qualità del contenuto * 0.1) +
    • (Spinte manuali) -
    • (Penalizzazioni automatiche & manuali)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: l’algoritmo (II)
    • Fattori nell’utilizzo delle parole chiave (Keywords):
    • Parole chiave nel tag del titolo
    • Parole chiave nei tag degli header
    • Parole chiave nel testo del documento
    • Parole chiave nei link interni che puntano alla pagina
    • Parole chiave nel nome di dominio e/o nell’URL
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: l’algoritmo (III)
    • Importanza del dominio:
    • Storia della registrazione
    • Età del dominio
    • Importanza dei link che puntano al dominio
    • Rilevanza del dominio sull’argomento basata sui link in entrata ed in uscita
    • Utilizzo storico & pattern dei link verso il dominio
    • Punteggio dei link in entrata:
    • Età dei link
    • Qualità dei domini che mandano il link
    • Qualità delle pagine che mandano il link
    • Testo dei link
    • Valutazione della quantità/peso dei link (Pagerank) ‏
    • Rilevanza sull’argomento delle pagine che mandano i link
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: l’algoritmo (IV)
    • Dati degli utenti:
    • Storia della percentuale dei click (CTR) sulla pagina nei risultati dei motori di ricerca
    • Tempo speso dagli utenti sulla pagina
    • Numero di ricerche per URL/nome del dominio
    • Storia delle visite/utilizzo dell’URL/nome del dominio degli utenti che Google può monitorare (toolbar, wifi, analytics, ecc.) ‏
    • Punteggio della qualità del contenuto:
    • Potenzialmente dato a mano per le ricerche e per le pagine più popolari
    • Fornite da valutatori interni di Google (vedi Henk) ‏
    • Algoritmi automatizzati per valutare il testo (qualità, leggibilità, ecc.)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: quali servizi di ricerca? Ricerca : pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!) http://www.google.com/intl/it/options/ Cronologia web: storia personale delle ricerche: http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 R.Polillo – Corso Web 2.0 (dic 2008)
  • Google: integrità
    • I complessi metodi di ricerca automatici di Google sono studiati per limitare al minimo le interferenze degli utenti.
    • Sebbene vengano visualizzati annunci pubblicitari accanto ad alcuni dei risultati più rilevanti (servizio AdWords), Google non vende spazi pubblicitari all'interno dei risultati (cioè i clienti non possono acquistare un PageRank superiore).
    • Le funzioni di ricerca di Google offrono un sistema semplice, onesto ed obiettivo per trovare siti Web di alta qualità contenenti dati rispondenti a quelli ricercati.
    R.Polillo – Corso Web 2.0 (dic 2008)
  • SEM/SEO
    • La posizione ( rank ) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)
    • Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)
    • Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano
    • Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO
    • http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
    • Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così) ‏
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Il grande fratello?
    • Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione:
    • “ Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti &quot;Don't be evil.&quot; &quot;Non fate i cattivi&quot;. E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy.
    • Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare &quot;Don't be evil, buy the Devil!&quot;.
    • Altri dubbi su Google: http://www.ippolita.net/google
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Il punto di vista di Google
    • Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti:
    • http://www.youtube.com/watch?v=iPkvNr2cpqg
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Un’idea interessante
    • “ Currently, the Web is similar to an old style card catalog in the local library.
    • You can find resources but to discover whether the resource is of value or even pertinent to your search you must retrive it.
    • Luckily, the resource usually has metadata in the form of a Table of Contents and an Index to help peruse the contents.
    • What if instead we take that metadata and make it available in a separate navigatable space? This navigational space would be meta-metadata, a first step toward knowledge.” http://ourworld.cs.com/tcmits1/webbrainpaper.html
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Un esempio: www.webbrain.com Ricerca tradizionale: Ricerca parola/e chiave pagine dei risultati Esamina R.Polillo – Corso Web 2.0 (dic 2008) Ricerca parola/e chiave pagine dei risultati Naviga Esamina “ rete semantica” www.webbrain.com :
  • R.Polillo – Corso Web 2.0 (dic 2008)
    • &quot;The technology is designed to separate the navigation from the Web pages. Instead of the typical search, where you have long lists of textual information where you could get hundreds or thousands of search results, now you see it in a visual form.&quot;
    • The database under WebBrain.com is actually Netscape's Open Directory Project, a human-edited search engine that lets users review and categorize sites. ODP has more than 24,000 contributors who have entered more than 1.7 million websites, divided into 260,000 categories.
    • http://www.wired.com/science/discoveries/news/2000/05/36600
    R.Polillo – Corso Web 2.0 (dic 2008)
    • 3. WEB FEEDS (vedi lezione apposita)
    R.Polillo – Corso Web 2.0 (dic 2008)
    • 4. ESPLORAZIONE
    R.Polillo – Corso Web 2.0 (dic 2008)
  • 4. Esplorazione e serendipità
    • Ci sono molti modi di cercare:
    • Cerco un qualcosa di preciso
      • una scatola di pelati Cirio al supermarket
      • un sito che ho visto ieri
    • Cerco qualcosa di vago
      • qualche cosa per fare una paella
      • qualche notizia sui motori di ricerca
    • Cerco qualcosa e ne trovo un’altra (browsing, serendipità)
      • guarda questo vino cileno!
    R.Polillo – Corso Web 2.0 (dic 2008)
  • R.Polillo – Corso Web 2.0 (dic 2008)
  • Serendipità
    • Nome coniato da Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)
    • Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra
    • Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative
    • http://en.wikipedia.org/wiki/Serendipity
    • http://serendip.brynmawr.edu/serendip/about.html
    R.Polillo – Corso Web 2.0 (dic 2008)
    • “ I find vastly more weird, unplanned stuff online than I ever did browsing the stacks as a grad student ... Thanks to the connective nature of hypertext, and the blogosphere's exploratory hunger for finding new stuff, the web is the greatest serendipity engine in the history of culture ... http://www.roughtype.com/archives/2006/05/the_systematize.php
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Browsing http://www.visualthesaurus.com/ R.Polillo – Corso Web 2.0 (dic 2008)
  • Deep attention & hyper attention
    • “ The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention. Deep attention , the cognitive style traditionally associated with the humanities, is characterized by concentrating on a single object for long periods (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times. Hyper attention , by contrast, is characterized by switching focus rapidly between different tasks , preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom.
    • Katherine Hayles, (2007). &quot;Hyperattention ”
    R.Polillo – Corso Web 2.0 (dic 2008)
  • www.stumbleupon.com
    • to stumble : inciampare, scoprire per caso
    • È un social recommendation system di pagine web
    • Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007
    • Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili
    • Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:
    • http://www.stumbleupon.com/about/
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Fonte: http://www.stumbleupon.com/technology/ R.Polillo – Corso Web 2.0 (dic 2008)
  • stumbleupon: alcune funzioni
    • Possibilità di definire l’ambito dello “stumble” (es. flickr, youtube, .blogspot, .edu, .gov, …)
    • Pagina personale (pubblica o privata)
    R.Polillo – Corso Web 2.0 (dic 2008)
  • stumbleupon: profilo personale (pubblico) R.Polillo – Corso Web 2.0 (dic 2008)
  • stumbleupon: profilo personale (privato) R.Polillo – Corso Web 2.0 (dic 2008)
  • Un altro strumento interessante
    • Discover:
    • http://72.47.194.68/discover/:www.uroulette.com/
    R.Polillo – Corso Web 2.0 (dic 2008)
  • Il punto di vista di Eco
    • “ Lo studente stava dicendo che oggi esiste Internet, la Gran Madre di tutte le Enciclopedie, dove si trovano la Siria, la fusione fredda, la guerra dei trent'anni e la discussione infinita sul più alto dei numeri dispari. Stava dicendo che le informazioni che Internet gli mette a disposizione sono immensamente più ampie e spesso più approfondite di quelle di cui dispone il professore. E trascurava un punto importante: che Internet gli dice 'quasi tutto', salvo come cercare, filtrare, selezionare, accettare o rifiutare quelle informazioni.
    • A immagazzinare nuove informazioni, purché si abbia buona memoria, sono capaci tutti. Ma decidere quali vadano ricordate e quali no è arte sottile. Questo fa la differenza tra chi ha fatto un corso di studi regolari (anche male) e un autodidatta (anche se geniale).”
    • Umberto Eco
    • Intervista a U.Eco: http://www.rodoni.ch/busoni/umbertoeco/umbertoeco.html
    R.Polillo – Corso Web 2.0 (dic 2008)
    • Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/ .
    • Il corso completo si trova in http://corsoweb20polillo.blogspot.com/
    • Credits
    • Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in http://camerino20.wordpress.com/ .
    • Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile.
    R.Polillo – Corso Web 2.0 (dic 2008)