2. Sviluppo sistema iTag
1Studio del sistemaImplementazione similaritàValutazione qualità
3. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
4. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
2
5. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
2
6. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI
VIDEO2
7. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
SITI WEB2
8. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
9. “Affinità di natura, struttura o composizione.”
(De Mauro “Il dizionario della lingua italiana”)
3
10. “Affinità di natura, struttura o composizione.”
(De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematicodi DISTANZA
3
11. “Affinità di natura, struttura o composizione.”
(De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematicodi DISTANZA
3
12. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
17. PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
RUMOROSI
4
18. PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSI
4
19. PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSIPassi principali:
•Pulizia: levigare il rumore nei dati, risolvere le inconsistenze
•Integrazione: più fonti eterogenee vengono unite
•Riduzione: diminuire il volume del dataset
4
20. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
22. elemento taggato (foto, video, sito web)
piattaforma online che favorisce il contributo degli utenti dietro incentivo economico
sistema di social bookmarking
RISORSADATASETPOSTDELICIOUSCROWDSOURCINGinsieme di tag dati di una risorsa
insieme di risorse, ognuna con i suoi post
5
23. Ogni risorsa alla quale è possibile applicare tag può risultare:
•Sovrataggata (per le più popolari)
•Sottotaggata
6
24. In questo modo quando un
utente effettua una ricerca
Non tutte le risorse vengono
mostrate ricerca inefficiente
6
•Sottotaggata
30. DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7
31. DATASET
iTAG CREA I LAVORILAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7
32. DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7
33. DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-TagMOTORE DI INCENTIVI
7
34. DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7
35. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
36. I passi sono stati:
•Analizzare iTag
•Cercare aspetti da migliorare
•Ho fatto alcune proposte:
8
37. I passi sono stati:
•Analizzare iTag
•Cercare aspetti da migliorare
•Ho fatto alcune proposte:
Feedback
8
38. I passi sono stati:
•Analizzare iTag
•Cercare aspetti da migliorare
•Ho fatto alcune proposte:
Similarità
Feedback8
39. I passi sono stati:
•Analizzare iTag
•Cercare aspetti da migliorare
•Ho fatto alcune proposte:
Similarità
Feedback
Differenziazione incentivi8
41. Le tre misure di similarità che ho scelto sono state:
9
42. Le tre misure di similarità che ho scelto sono state: Similarità del Coseno9
43. Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di Dice9
44. Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di DiceSimilarità di Jacquard
9
45. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
49. Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB
10
52. Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa
11
53. Per ogni risorsa, la prima cifra rappresenta il numero di post
Ogni linea è una risorsa
11
54. Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa11
55. Per ogni risorsa, la prima cifra rappresenta il numero di postPer ogni post, la prima cifra rappresenta il numero di tag dentro al post
Ogni linea è una risorsa
11
56. Per ogni risorsa, la prima cifra rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il numero di tag dentro al post
Ogni linea è una risorsa
11
57. Per ogni risorsa, la prima cifra rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il numero di tag dentro al post
Ogni linea è una risorsa12
9
8
7
6
5
4
3
11
58. Per ogni risorsa, la prima cifra rappresenta il numero di post
Le cifre dentro al post rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa1
2
9
8
7
6
5
4
3
11
59. Per ogni risorsa, la prima cifra rappresenta il numero di post
Le cifre dentro al post rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa
1
2
9
8
7
6
5
4
3
“viaggi”
11
60. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
62. finestra (quantità di post) utilizzata per valutare la stabilità
vettore di frequenze relative di ogni tag
STABILITÀwQUALITÀRFD DPB
si ha quando il livello di informazioni per la risorsa è sufficiente
si ha quando le informazioni della risorsa superano la soglia di stabilità
algoritmo ottimo per generare gli assegnamenti delle risorse
Budget stanziato dal provider per l’incremento della qualità
12
64. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
65. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
13
CARATTERISTICHE:
66. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
13
CARATTERISTICHE:
67. spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
68. spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
69. spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
RIDUZIONE RUMORE
13
CARATTERISTICHE:
70. spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
pasta
cucina
ricetta
13
CARATTERISTICHE:
71. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
72. Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
13
CARATTERISTICHE:
73. spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
13
CARATTERISTICHE:
74. spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
13
CARATTERISTICHE:
75. spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
RIDUZIONE RIDONDANZA
13
CARATTERISTICHE:
76. spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
pasta
13
CARATTERISTICHE:
77. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
78. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB
1 mese
13
CARATTERISTICHE:
79. Circa 1TB
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB
1 mese
2 anni
13
CARATTERISTICHE:
80. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
81. 4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
82. 4 X 10GB
100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
83. 4 X 10GB
100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
PULITO
FORMATTATO
RIDOTTO
DATASET ORIGINALE
13
CARATTERISTICHE:
84. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
89. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
95. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
108. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
110. Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
112. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbrida
26
113. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profilo
26
114. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedback26
115. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedbackGenerare un sistema di riconoscimento semantico dei tag26