STaR: a Social Tag
                                Recommender
                              @ECML/PKDD Discovery Challeng...
ECML/PKDD Discovery Challenge 2009




               •     Discovery Challenge

                     •        Competizion...
Social Tagging
     •      Nel contesto del Web 2.0 si sta assistendo a una
            sempre maggiore diffusione dei sis...
Tag Cloud




mercoledì 16 settembre 2009
Folksonomie
       •       Una folksonomia è un modello di rappresentazione delle
               informazioni costruito li...
Tag Recommender
     •       Componente che si occupa di filtrare lo spazio dei tag
             suggerendo all’utente quel...
STaR: a Social Tag
                               Recommender
     • Concetti chiave
      • Risorse “simili” possono esse...
STaR: a Social Tag
                               Recommender
     • Modello di raccomandazione
      • Preprocessing
    ...
Architettura




mercoledì 16 settembre 2009
Preprocessing
      •       Indexer

            •       basato su Apache Lucene

            •       costruisce un indice...
Scenario, step 1
             •       Sostituzione della
                     funzione di
                     similarità ...
Architettura




mercoledì 16 settembre 2009
Filtering
      •       Tag Extractor

            •       estrae le folksonomie per ciascuna delle
                    ri...
Scenario, step 2




mercoledì 16 settembre 2009
Discovery Challenge
                 • Test Set
                  • sorgente: www.bibsonomy.org
                  • 17.000...
Risultati




                   http://www.kde.cs.uni-kassel.de/ws/dc09/results/
mercoledì 16 settembre 2009
Conclusioni
       •      Lo sviluppo di STaR è nato per scopi puramente didattici

             •      Confronto con gli ...
Recommender System
                     e Personalizzazione
                               Sviluppi futuri




           ...
Sviluppi futuri

                    • Miglioramento dei modelli di filtraggio
                    • Utilizzo di Linked Dat...
Miglioramento dei
                              modelli di filtraggio
     •       I migliori risultati ottenuti dalla BM25...
Utilizzo di Linked Data

                 • Termine coniato da Tim Berners-Lee
                  • Denota dati rilasciati ...
Linked Data




mercoledì 16 settembre 2009
Linked Data e
                 Recommender Systems
                 •       Gli approcci più comuni alla raccomandazione s...
Analisi dei Social Media
                              •   L’elicitazione delle preferenze dell’utente è uno degli
       ...
Analisi dei Social Media (2)




mercoledì 16 settembre 2009
Analisi dei Social Media (3)




mercoledì 16 settembre 2009
Analisi dei Social Media (4)

           •       I dati disponibili su queste piattaforme rappresentano un
               ...
Interoperabilità tra profili utente
                 •       I modelli attuali di raccomandazione non sono ancora così effic...
Cross-Domain Personalization

                       •      Alcune tendenze recenti sottolineano l’utilità di investire in...
APML (www.apml.org)
     • APML (www.apml.org)
      • Attention Profiling Markup Language
      • Linguaggio di modellazio...
APML (www.apml.org)




mercoledì 16 settembre 2009
fine



mercoledì 16 settembre 2009
Upcoming SlideShare
Loading in...5
×

Seminario IBM - 17 set 09

636

Published on

Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppo

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
636
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
11
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Seminario IBM - 17 set 09

  1. 1. STaR: a Social Tag Recommender @ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09 Cataldo Musto mercoledì 16 settembre 2009
  2. 2. ECML/PKDD Discovery Challenge 2009 • Discovery Challenge • Competizione collaterale alla conferenza • L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation • Dominio: www.bibsonomy.org • Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma mercoledì 16 settembre 2009
  3. 3. Social Tagging • Nel contesto del Web 2.0 si sta assistendo a una sempre maggiore diffusione dei sistemi di Tagging Collaborativo • es) Flickr (www.flickr.com) , Delicious (http:// del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc. • Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale • Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia mercoledì 16 settembre 2009
  4. 4. Tag Cloud mercoledì 16 settembre 2009
  5. 5. Folksonomie • Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo • Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione • Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica • Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione • es) Oggetti annotati con il tag “Apple” o “Rinascimento” mercoledì 16 settembre 2009
  6. 6. Tag Recommender • Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa • Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc. • Modello di raccomandazione: • Analisi del comportamento dell’utente • Analisi del comportamento della comunità • Analisi del contenuto mercoledì 16 settembre 2009
  7. 7. STaR: a Social Tag Recommender • Concetti chiave • Risorse “simili” possono essere modellate con tag simili • I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione mercoledì 16 settembre 2009
  8. 8. STaR: a Social Tag Recommender • Modello di raccomandazione • Preprocessing • Indicizzazione di contenuti precedentemente taggati • Filtraggio • Ritrovamento di contenuti “simili” a quello da taggare • Estrazione delle folksonomie sulle risorse simili • Fusione delle folksonomie e pesatura dei tag • Ordinamento e filtraggio dei tag candidati mercoledì 16 settembre 2009
  9. 9. Architettura mercoledì 16 settembre 2009
  10. 10. Preprocessing • Indexer • basato su Apache Lucene • costruisce un indice personale per ciascun utente e un indice della comunità • Query Processor • si prende carico della risorsa da taggare • processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.) • estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.) • inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità mercoledì 16 settembre 2009
  11. 11. Scenario, step 1 • Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25 • Interpretazione “probabilistica” del modello di pesatura TF/IDF mercoledì 16 settembre 2009
  12. 12. Architettura mercoledì 16 settembre 2009
  13. 13. Filtering • Tag Extractor • estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale • fonde le folksonomie assegnando a ciascun tag uno score • direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente • pesato a seconda che il tag provenga dalla componente personale o sociale • Filter • filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni mercoledì 16 settembre 2009
  14. 14. Scenario, step 2 mercoledì 16 settembre 2009
  15. 15. Discovery Challenge • Test Set • sorgente: www.bibsonomy.org • 17.000 bookmark, 26.000 BibTeX, 1.600 utenti • 48 ore per produrre i risultati • Metriche di riferimento: Precision, Recall, F1-Measure • calcolate sui primi cinque tag • 16 diversi partecipanti • 13 nazioni mercoledì 16 settembre 2009
  16. 16. Risultati http://www.kde.cs.uni-kassel.de/ws/dc09/results/ mercoledì 16 settembre 2009
  17. 17. Conclusioni • Lo sviluppo di STaR è nato per scopi puramente didattici • Confronto con gli altri partecipanti della Challenge • Viaggio in Slovenia :) • La validità del primo prototipo permette di delineare degli sviluppi futuri • Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto. • Applicazioni di STaR • Miglioramento nell’efficacia della classificazione/browsing di documenti testuali • Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente • Migliore accuratezza in componenti di personalizzazione tag-based • Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori mercoledì 16 settembre 2009
  18. 18. Recommender System e Personalizzazione Sviluppi futuri Cataldo Musto mercoledì 16 settembre 2009
  19. 19. Sviluppi futuri • Miglioramento dei modelli di filtraggio • Utilizzo di Linked Data • Analisi dei Social Media per la personalizzazione • Interoperabilità di Profili Utente mercoledì 16 settembre 2009
  20. 20. Miglioramento dei modelli di filtraggio • I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere • Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti • Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti • es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica) • L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare mercoledì 16 settembre 2009
  21. 21. Utilizzo di Linked Data • Termine coniato da Tim Berners-Lee • Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati • Garantisce interoperabilità e reasoning tra dati • L’esempio più importante è DBPedia • Un piccolo passo verso il Semantic Web mercoledì 16 settembre 2009
  22. 22. Linked Data mercoledì 16 settembre 2009
  23. 23. Linked Data e Recommender Systems • Gli approcci più comuni alla raccomandazione sono legati a interpretazioni di tipo probabilistico/frequentista • es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo • Problemi tipici: ridotta serendipità nelle raccomandazioni • L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte mercoledì 16 settembre 2009
  24. 24. Analisi dei Social Media • L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio • L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film) • I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi • La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche mercoledì 16 settembre 2009
  25. 25. Analisi dei Social Media (2) mercoledì 16 settembre 2009
  26. 26. Analisi dei Social Media (3) mercoledì 16 settembre 2009
  27. 27. Analisi dei Social Media (4) • I dati disponibili su queste piattaforme rappresentano un buon compromesso • Sono dati reali, perchè prodotti liberamente dagli utenti • Forniscono informazioni esplicite sulle preferenze • Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide mercoledì 16 settembre 2009
  28. 28. Interoperabilità tra profili utente • I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale” • Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti • es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio • es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori • Cross-Domain Personalization mercoledì 16 settembre 2009
  29. 29. Cross-Domain Personalization • Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID) • L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni • In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi • Costruzione di profili analoghi • Utilizzo di Standard per la Profilazione mercoledì 16 settembre 2009
  30. 30. APML (www.apml.org) • APML (www.apml.org) • Attention Profiling Markup Language • Linguaggio di modellazione XML-based • Orientato alla costruzione di “profili di attenzione” • Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete • Molto utile per scopi di filtraggio e personalizzazione mercoledì 16 settembre 2009
  31. 31. APML (www.apml.org) mercoledì 16 settembre 2009
  32. 32. fine mercoledì 16 settembre 2009
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×