Seminario IBM - 17 set 09
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Seminario IBM - 17 set 09

  • 1,233 views
Uploaded on

Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppo

Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppo

More in: Technology , Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,233
On Slideshare
1,231
From Embeds
2
Number of Embeds
1

Actions

Shares
Downloads
10
Comments
0
Likes
0

Embeds 2

http://www.slideshare.net 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. STaR: a Social Tag Recommender @ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09 Cataldo Musto mercoledì 16 settembre 2009
  • 2. ECML/PKDD Discovery Challenge 2009 • Discovery Challenge • Competizione collaterale alla conferenza • L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation • Dominio: www.bibsonomy.org • Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma mercoledì 16 settembre 2009
  • 3. Social Tagging • Nel contesto del Web 2.0 si sta assistendo a una sempre maggiore diffusione dei sistemi di Tagging Collaborativo • es) Flickr (www.flickr.com) , Delicious (http:// del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc. • Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale • Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia mercoledì 16 settembre 2009
  • 4. Tag Cloud mercoledì 16 settembre 2009
  • 5. Folksonomie • Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo • Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione • Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica • Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione • es) Oggetti annotati con il tag “Apple” o “Rinascimento” mercoledì 16 settembre 2009
  • 6. Tag Recommender • Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa • Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc. • Modello di raccomandazione: • Analisi del comportamento dell’utente • Analisi del comportamento della comunità • Analisi del contenuto mercoledì 16 settembre 2009
  • 7. STaR: a Social Tag Recommender • Concetti chiave • Risorse “simili” possono essere modellate con tag simili • I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione mercoledì 16 settembre 2009
  • 8. STaR: a Social Tag Recommender • Modello di raccomandazione • Preprocessing • Indicizzazione di contenuti precedentemente taggati • Filtraggio • Ritrovamento di contenuti “simili” a quello da taggare • Estrazione delle folksonomie sulle risorse simili • Fusione delle folksonomie e pesatura dei tag • Ordinamento e filtraggio dei tag candidati mercoledì 16 settembre 2009
  • 9. Architettura mercoledì 16 settembre 2009
  • 10. Preprocessing • Indexer • basato su Apache Lucene • costruisce un indice personale per ciascun utente e un indice della comunità • Query Processor • si prende carico della risorsa da taggare • processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.) • estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.) • inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità mercoledì 16 settembre 2009
  • 11. Scenario, step 1 • Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25 • Interpretazione “probabilistica” del modello di pesatura TF/IDF mercoledì 16 settembre 2009
  • 12. Architettura mercoledì 16 settembre 2009
  • 13. Filtering • Tag Extractor • estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale • fonde le folksonomie assegnando a ciascun tag uno score • direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente • pesato a seconda che il tag provenga dalla componente personale o sociale • Filter • filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni mercoledì 16 settembre 2009
  • 14. Scenario, step 2 mercoledì 16 settembre 2009
  • 15. Discovery Challenge • Test Set • sorgente: www.bibsonomy.org • 17.000 bookmark, 26.000 BibTeX, 1.600 utenti • 48 ore per produrre i risultati • Metriche di riferimento: Precision, Recall, F1-Measure • calcolate sui primi cinque tag • 16 diversi partecipanti • 13 nazioni mercoledì 16 settembre 2009
  • 16. Risultati http://www.kde.cs.uni-kassel.de/ws/dc09/results/ mercoledì 16 settembre 2009
  • 17. Conclusioni • Lo sviluppo di STaR è nato per scopi puramente didattici • Confronto con gli altri partecipanti della Challenge • Viaggio in Slovenia :) • La validità del primo prototipo permette di delineare degli sviluppi futuri • Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto. • Applicazioni di STaR • Miglioramento nell’efficacia della classificazione/browsing di documenti testuali • Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente • Migliore accuratezza in componenti di personalizzazione tag-based • Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori mercoledì 16 settembre 2009
  • 18. Recommender System e Personalizzazione Sviluppi futuri Cataldo Musto mercoledì 16 settembre 2009
  • 19. Sviluppi futuri • Miglioramento dei modelli di filtraggio • Utilizzo di Linked Data • Analisi dei Social Media per la personalizzazione • Interoperabilità di Profili Utente mercoledì 16 settembre 2009
  • 20. Miglioramento dei modelli di filtraggio • I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere • Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti • Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti • es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica) • L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare mercoledì 16 settembre 2009
  • 21. Utilizzo di Linked Data • Termine coniato da Tim Berners-Lee • Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati • Garantisce interoperabilità e reasoning tra dati • L’esempio più importante è DBPedia • Un piccolo passo verso il Semantic Web mercoledì 16 settembre 2009
  • 22. Linked Data mercoledì 16 settembre 2009
  • 23. Linked Data e Recommender Systems • Gli approcci più comuni alla raccomandazione sono legati a interpretazioni di tipo probabilistico/frequentista • es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo • Problemi tipici: ridotta serendipità nelle raccomandazioni • L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte mercoledì 16 settembre 2009
  • 24. Analisi dei Social Media • L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio • L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film) • I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi • La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche mercoledì 16 settembre 2009
  • 25. Analisi dei Social Media (2) mercoledì 16 settembre 2009
  • 26. Analisi dei Social Media (3) mercoledì 16 settembre 2009
  • 27. Analisi dei Social Media (4) • I dati disponibili su queste piattaforme rappresentano un buon compromesso • Sono dati reali, perchè prodotti liberamente dagli utenti • Forniscono informazioni esplicite sulle preferenze • Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide mercoledì 16 settembre 2009
  • 28. Interoperabilità tra profili utente • I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale” • Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti • es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio • es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori • Cross-Domain Personalization mercoledì 16 settembre 2009
  • 29. Cross-Domain Personalization • Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID) • L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni • In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi • Costruzione di profili analoghi • Utilizzo di Standard per la Profilazione mercoledì 16 settembre 2009
  • 30. APML (www.apml.org) • APML (www.apml.org) • Attention Profiling Markup Language • Linguaggio di modellazione XML-based • Orientato alla costruzione di “profili di attenzione” • Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete • Molto utile per scopi di filtraggio e personalizzazione mercoledì 16 settembre 2009
  • 31. APML (www.apml.org) mercoledì 16 settembre 2009
  • 32. fine mercoledì 16 settembre 2009