Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia <br />Relatori: D...
Outline<br />Content-based Recommender systems<br />FIRSt (Folksonomy-based Item Recommender System)<br />Explicit Semanti...
Content-basedRecSys<br />Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato<br...
Motivazioni<br />FIRSt – Folksonomy-based Item Recommender System<br />Modello di classificazione bayesiano<br />Limiti ra...
FIRSt<br />FIRSt è un content-based recommender system<br />Profile learner<br />Recommender<br />Approccio bayesiano<br /...
FIRSt<br />6/17<br />
ExplicitSemanticAnalysis - 1<br />Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and ...
ExplicitSemanticAnalysis - 2<br />Utilizzare gli articoli di Wikipedia per rappresentare i concetti<br />Ogni parola è rap...
Perché Wikipedia<br />Conoscenza generale ed accurata<br />Sempre aggiornata<br />Corpus esteso<br />Articolo ≈ Concetto<b...
Wikiprep - 1<br />Dump Wikipedia 12 marzo 2010<br />9.654.328 pagine in 27Gb<br />Rimozione Redirect, individuazione Outli...
Wikiprep - 2<br />L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti ris...
Matrice Termini-Concetti - 1<br />0.00409<br />Finestra da 100 elementi<br />><br />E_sup-E_inf = (0,86636-0,830043) = 0,0...
Matrice Termini-Concetti - 2<br />Matrice Termini/Concetti<br />					La semantica di un frammento di testo è il <br />				...
Estrazione dei primi N<br />Esiste già<br /><INDONESIA,0.17><br />allora<br /><INDONESIA,0.17+0.35=0.52><br />Arricchiment...
Sperimentazione<br /><ul><li>Dataset Movielens
520 film, 613 utenti, rating : <UserID,movieID,{1..5}>
Film rappresentato da diverse features
Upcoming SlideShare
Loading in...5
×

Presentazione Picariello Vincenzo

672

Published on

Presentazione Tesi Informatica Magistrale

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
672
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Presentazione Picariello Vincenzo

  1. 1. Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia <br />Relatori: Dott. Lops Pasquale<br /> Prof. Semeraro Giovanni<br /> Dott. Musto Cataldo<br />Laureando:<br />Picariello Vincenzo<br />
  2. 2. Outline<br />Content-based Recommender systems<br />FIRSt (Folksonomy-based Item Recommender System)<br />Explicit Semantic Analysis <br />Wikiprep<br />Matrice Termini-Concetti<br />Sperimentazione<br />Conclusioni e sviluppi futuri<br />2/17<br />
  3. 3. Content-basedRecSys<br />Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato<br />Informazioni circa gli oggetti<br />Informazioni sugli utenti<br />Features dell’item<br />Sistema di Raccomandazione<br />Item raccomandati<br />Profilo Utente<br />3/17<br />
  4. 4. Motivazioni<br />FIRSt – Folksonomy-based Item Recommender System<br />Modello di classificazione bayesiano<br />Limiti rappresentazione keyword-based<br />Scarsa sovrapposizione tra documenti e profili<br />Descrizioni testuali associate agli items troppo sintetiche<br />Idea<br />Arricchimento semantico dei contenuti testuali<br />Explicit Semantic Analysis (ESA)<br />Rappresentazione della conoscenza di Wikipedia mediante matrice Termini-Concetti<br />Arricchimento dei documenti mediante ESA ha dimostrato miglioramenti nel task di classificazione di testi<br />4/17<br />
  5. 5. FIRSt<br />FIRSt è un content-based recommender system<br />Profile learner<br />Recommender<br />Approccio bayesiano<br />P(ci|dj): probabilità che un documento dj appartenga alla categoria ci<br />Teorema di Bayes<br />5/17<br />
  6. 6. FIRSt<br />6/17<br />
  7. 7. ExplicitSemanticAnalysis - 1<br />Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and Markovitch (2009)<br />7/17<br />
  8. 8. ExplicitSemanticAnalysis - 2<br />Utilizzare gli articoli di Wikipedia per rappresentare i concetti<br />Ogni parola è rappresentata come un vettore di articoli di Wikipedia<br />Articolo 2<br />word<br />Articolo 1<br />Articolo N<br />8/17<br />
  9. 9. Perché Wikipedia<br />Conoscenza generale ed accurata<br />Sempre aggiornata<br />Corpus esteso<br />Articolo ≈ Concetto<br />Wikipedia ≈ Ontologia<br />Categorie: nodi per organizzare gli articoli<br />9/17<br />
  10. 10. Wikiprep - 1<br />Dump Wikipedia 12 marzo 2010<br />9.654.328 pagine in 27Gb<br />Rimozione Redirect, individuazione Outlink e Inlink<br />4.909.224 Articoli in 14 Gb <br />Euristiche<br />Concetti troppo specifici<br />Outlink<br />Inlink<br />Pagine di Disambiguazione, Categorie, Template<br />Articoli brevi<br />10/17<br />
  11. 11. Wikiprep - 2<br />L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti risultati.<br />11/17<br />
  12. 12. Matrice Termini-Concetti - 1<br />0.00409<br />Finestra da 100 elementi<br />><br />E_sup-E_inf = (0,86636-0,830043) = 0,036317<br />E_sup-E_inf = (0,840227-0,004882) = 0,835345<br />5%(C3) = 0,043318<br />12/17<br />
  13. 13. Matrice Termini-Concetti - 2<br />Matrice Termini/Concetti<br /> La semantica di un frammento di testo è il <br /> vettore medio (centroide) della semantica<br /> delle sue parole<br />Programming language<br />Indonesia<br />I have been in Java island<br />0,36<br />0,34<br />java<br />island<br />0,70<br />Programming language [0,36]<br />Indonesia [0,52]<br />Java island<br />13/17<br />
  14. 14. Estrazione dei primi N<br />Esiste già<br /><INDONESIA,0.17><br />allora<br /><INDONESIA,0.17+0.35=0.52><br />Arricchimento di documenti<br />Sia BOW(doc) = {java(0.5), island (0.5)} <br />Sia BOW(doc) = {java(0.5), island (0.5), indonesia (0.52)} <br /><PRLANG,0.18><br /><INDONESIA,0.52><br /><INDONESIA,0.17><br /><PRLANG,0.18><br />14/17<br />
  15. 15. Sperimentazione<br /><ul><li>Dataset Movielens
  16. 16. 520 film, 613 utenti, rating : <UserID,movieID,{1..5}>
  17. 17. Film rappresentato da diverse features
  18. 18. Regista, Genere, Trama
  19. 19. Confronto tra 4 classi di profili
  20. 20. Senza arricchimento
  21. 21. Arricchimento 20, 50, 100 concetti Wikipedia
  22. 22. 3Like (83% positivi) 3Dislike (56% positivi)
  23. 23. Metriche
  24. 24. Precision, Recall, F0,5-measure</li></ul>15/17<br />
  25. 25. Risultati<br />Miglioramento della precision nei tre moduli di arricchimento.<br />Arricchimento 20 concetti<br />16/17<br />
  26. 26. Conclusioni e Sviluppi futuri<br />Arricchire la rappresentazione dei documenti attraverso concetti di Wikipedia<br />Miglioramenti in termini di Precision del sistema<br />Sviluppi futuri<br />Feature Selection<br />Applicare il multi-resolution approach per l’arricchimento<br />Integrare il profilo nel modello dei Linked Data<br />17/17<br />
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×