Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Thesis presentation slides

1,169 views

Published on

Thesis presentation slides

  • Be the first to comment

  • Be the first to like this

Thesis presentation slides

  1. 1. Analisi e mappatura di thesauri mediante tecniche di apprendimento automatico Giacomo Bartoloni Relatore: Dr. Enrico Francesconi Università degli studi di Firenze 20 Luglio 2010 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  2. 2. Lo scenario Lo scenario Accesso a banche dati eterogenee in un ambiente distribuito Cross-collection retrieval unica interfaccia per la denizione di interrogazioni per il recupero di documenti rilevanti da collezioni dierenti Prestazioni del retrieval In singole collezioni collegate alla disponibilità di un thesauro specico Cross-collection collegate alla interoperabilità tra i thesauri Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  3. 3. Obbiettivo della tesi Obbiettivo della tesi Elaborare un metodo di mappatura automatica tra thesauri che faccia uso di tecniche di intelligenza articiale Stato dell'arte Mapping eettuato da esperti o con strumenti poco ecienti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  4. 4. I thesauri Denizione di thesauro Un thesauro è un vocabolario controllato di termini strutturati gerarchicamente usato per l'indicizzazione e il recupero di informazioni all'interno di collezioni documentali composto da descrittori non descrittori relazioni semantiche (BT, NT, RT) denito dagli standard ISO2788, 1986 (1993 in versione italiana) ISO5964, 1985 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  5. 5. SKOS Simple Knowledge Organization System Cos'è SKOS - Simple Knowledge Organization System linguaggio formale per la rappresentazione di tassonomie e vocabolari controllati SWDWG @ W3C nel Febbraio 2003 Working draft nel Maggio 2005 (SKOS 2005) Recommendation nell'Agosto 2009 (SKOS 2009) Dierenze SKOS 2005 - SKOS 2009 namespace e semantica delle proprietà di mappatura tra concetti eliminazione di alcune proprietà non necessarie Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  6. 6. SKOS Modello di dati SKOS Concetto è l'unità fondamentale Descrizioni del concetto Proprietà per le relazioni semantiche skos:narrower skos:broader skos:related Schemi di concetti Proprietà per relazioni di equivalenza tra concetti di schemi dierenti skos:mappingRelation skos:closeMatch skos:exactMatch skos:broadMatch skos:narrowMatch skos:relatedMatch Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  7. 7. SKOS SKOS per la codica dei thesauri Non esiste una metodologia condivisa per la traduzione a SKOS dei thesauri Creazione di due sottoclassi di skos:Concept con l'estensione a SKOS http://www.ittig.cnr.it/skos/skos- extensions Descriptor Microthesaurus Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  8. 8. Mappatura tra thesauri Mappatura tra thesauri Specializzazione del Matching di schemi od ontologie Denizione Processo per l'identicazione dei termini, dei concetti e delle relazioni gerarchiche approssimativamente equivalenti Il problema si sposta sulla denizione di equivalenza tra concetti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  9. 9. Mappatura tra thesauri Equivalenza tra concetti Equivalenza instance-based Due concetti sono considerati equivalenti se sono associati con o classicano lo stesso insieme di concetti Equivalenza schema-based Due concetti sono considerati equivalenti se esiste una similarità tra le loro caratteristiche Caso di studio Mappatura tra i termini dei thesauri dove è disponibile solo l'informazione relativa allo schema Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  10. 10. Mappatura tra thesauri Caratterizzazione proposta Misurare la somiglianza concettuale o semantica tra un termine del thesauro origine e i termini candidati del thesauro destinazione, classicandoli secondo il grado di similarità TM IR Descrittore del thesauro sorgente ⇐⇒ Query Descrittori del thesauro destinazione ⇐⇒ Documenti attinenti Nuova formulazione Considerare la mappatura tra thesauri (MT ) come un problema di information retrieval (IR) MT ⇐⇒ IR Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  11. 11. Mappatura tra thesauri Caratterizzazione formale di MT proposta MT = D , Q , F , R (qi , dj ) Dove D: viste logiche di un termine del thesaurus target (i documenti in una collezione, in IR) Q: viste logiche di un termine del thesaurus source (query da confrontare con i documenti di una collezione, in IR) F: l'ambiente di rappresentazione dei termini dei thesauri R (qi , dj ), qi ∈ Q , dj ∈ D : funzione di ranking, restituisce un ordinamento dei termini del thesauro target dj secondo la rilevanza rispetto ai termini del thesauro sorgente qi Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  12. 12. Mappatura tra thesauri Rappresentazione lessicale e semantica di un termine Parole dierenti identicano lo stesso concetto stessa lingua (per es. `inquinamento', `contaminazione', `emissione tossica') lingue dierenti (per es. EUROVOC `water' (EN), `acqua' (IT)) Obbiettivo del MT : confrontare il signicato dei termini (la semantica) piuttosto che le rappresentazioni formali (lessicali) Ipotesi Più i termini sono caratterizzati semanticamente, meglio il sistema sarà in grado di confrontarne il signicato Come si rappresenta la semantica di un termine per il matching di thesauri basato sugli schemi? Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  13. 13. Mappatura tra thesauri Le viste logiche proposte per i termini del thesauro sorgente (Q ) e destinazione (D ) La semantica di un termine è portata da: 1 le sue caratteristiche morfologiche 2 il contesto in cui il termine è usato 3 le relazioni con gli altri termini Proponiamo di rappresentare la semantica di un termine appartenente a un thesauro con: 1 la sua Rappresentazione Lessicale: stringhe (pre-processate) 2 il suo Contesto Lessicale: vettore di elementi binari/pesati (il termine stesso e alcuni collegati) 3 la sua Rete Lessicale: grafo di termini (i nodi sono i termini e gli archi le relazioni tra di essi) Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  14. 14. Mappatura tra thesauri Un esempio di Rappresentazione Lessicale (Forma radice) Parliamentary committees → Parliament$ committee$ Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  15. 15. Mappatura tra thesauri Un esempio di Contesto Lessicale EUROVOC: Thesaurus sorgente Vocabolario di EUROVOC e Parliamentary committee 40 o 658 o UNESCO ...  q = [0, . . . , 0, 12) ad  1 , 0, . . . , 0, 1 , 0, . . . , 0]     T ...    40) committ     ... T UNESCO: Thesaurus destinazione 658) parliament     ...   Parliamentary committees  930) report  o o   40 658   d = [0, . . . , 0, 1 , 0, . . . , 0, 1 , 0, . . . , 0] ... T Un Contesto Lessicale è un vettore di elementi binari/pesati [w1 , . . . , wT ], dove T è la dimensione di un vocabolario. Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  16. 16. Mappatura tra thesauri Un esempio di Rete Lessicale Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  17. 17. Mappatura tra thesauri Le funzioni di ranking proposte (R ) 1 Rappresentazione Lessicale: Distanza/Similarità di Levenshtein (minimo numero normalizzato di operazioni (inserimento, eliminazione o sostituzione di un singolo carattere) richiesto per trasformare una stringa in un'altra). 2 Contesto Lessicale: Distanza/Similarità del coseno e di Jaccard 3 Rete Lessicale: Graph Edit Distance/Similarità Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  18. 18. Support Vector Machines Apprendimento automatico per l'information retrieval Uso dell'apprendimento automatico con due nalità: scegliere da un thesaurus obiettivo un insieme di descrittori rilevanti per un termine appartenente a un thesaurus di partenza; ordinare (o meglio eseguire un rank di) tale sottoinsieme secondo la misura di similarità rispetto al termine sorgente. Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  19. 19. Support Vector Machines Support Vector Machines lineari Ogni esempio è descritto da un insieme di caratteristiche x (un vettore) Due classi di dati yi = {−1, +1} Iperpiano di decisione w, b trovato ottimizzando una funzione quadratica: minimizzare 1 w T w tenendo conto del ∀ {(xi , yi )} , yi (w T x + b ) ≥ 1 2 vincolo Classicazione secondo la funzione f (x ) = sign(w T x + b ) Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  20. 20. Caso di studio Caso di studio EUROVOC utilizzato come thesauro pivot Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  21. 21. Caso di studio I thesauri Thesauri utilizzati da vari enti della comunità internazionale Thesaurus Numero di descrittori Eurovoc 6645 Eclas 6352 Ett 2522 Unesco 4374 Gold standard forniti da esperti Mappatura Numero di esempi di skos:exactMatch Eurovoc-Eclas 146 Eurovoc-Ett 71 Eurovoc-Unesco 99 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  22. 22. Prestazioni Individuazione dei concetti rilevanti Validazione incrociata ottenuta dall'implementazione delle SVM con tecnica Leave-one-out tp tp Precision = Recall = tp + fp tp + fn Uso altLabel Peso parole Uso vicini Precision Recall Errore no binario no 83.27% 70.12% 5.80% si binario no 89.17% 70.12% 5.07% no tf-idf no 85.03% 71.21% 5.46% no binario si 100.00% 99.38% 0.08% si tf-idf no 90.50% 67.80% 5.19% si binario si 100.00% 98.92% 0.14% no tf-idf si 100.00% 99.38% 0.08% si tf-idf si 100.00% 99.38% 0.08% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  23. 23. Prestazioni Individuazione dei concetti rilevanti Validazione incrociata ottenuta dall'implementazione delle SVM con tecnica Leave-one-out tp tp Precision = Recall = tp + fp tp + fn Uso altLabel Peso parole Uso vicini Precision Recall Errore no binario no 83.27% 70.12% 5.80% si binario no 89.17% 70.12% 5.07% no tf-idf no 85.03% 71.21% 5.46% no binario si 100.00% 99.38% 0.08% si tf-idf no 90.50% 67.80% 5.19% si binario si 100.00% 98.92% 0.14% no tf-idf si 100.00% 99.38% 0.08% si tf-idf si 100.00% 99.38% 0.08% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  24. 24. Prestazioni Individuazione delle mappature esatte Validazione incrociata ottenuta con k -fold (k = 3) Uso altLabel Peso parole Uso vicini Precision Recall no binario no 86,02% 100% si binario no 96,77% 100% no tf-idf no 88,17% 100% no binario si 52,69% 100% si tf-idf no 93,55% 100% si binario si 54,84% 100% no tf-idf si 72,04% 100% si tf-idf si 92,47% 100% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  25. 25. Prestazioni Individuazione delle mappature esatte Validazione incrociata ottenuta con k -fold (k = 3) Uso altLabel Peso parole Uso vicini Precision Recall no binario no 86,02% 100% si binario no 96,77% 100% no tf-idf no 88,17% 100% no binario si 52,69% 100% si tf-idf no 93,55% 100% si binario si 54,84% 100% no tf-idf si 72,04% 100% si tf-idf si 92,47% 100% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  26. 26. Prestazioni Conclusioni Traduzioni di thesauri in SKOS Rappresentazione semantica dei descrittori Metodo di mappatura mediante tecniche di information retrieval, utilizzando l'apprendimento automatico per il mapping Risultati incoraggianti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  27. 27. Prestazioni Sviluppi futuri Dierenti criteri di selezione delle caratteristiche di un descrittore Dierente descrizione della semantica di un termine Gra Classicatori multiclasse per mapping di relazioni di equivalenza diverse Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico

×