Presentazione ufficiale splittata

Sviluppo sistema iTag
1Studio del sistemaImplementazione similaritàValutazione qualità

Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
2

IMMAGINI
2

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI
VIDEO2

IMMAGINI
VIDEO
SITI WEB2

Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Conclusioni
Sviluppi futuri

“Affinità di natura, struttura o composizione.”
(De Mauro “Il dizionario della lingua italiana”)
3

(De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematicodi DISTANZA
3

(De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematicodi DISTANZA
3

Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Conclusioni
Sviluppi futuri

PERCHÈ si effettua la pulizia? Molto spesso i dati sono
4

INCOMPLETI
4

INCOMPLETI
RUMOROSI
4

INCOMPLETI
INCONSISTENTI
RUMOROSI
4

INCOMPLETI
INCONSISTENTI
RUMOROSIPassi principali:
•Pulizia: levigare il rumore nei dati, risolvere le inconsistenze
•Integrazione: più fonti eterogenee vengono unite
•Riduzione: diminuire il volume del dataset
4

Per cominciare:
Cos’è un tag?
Perchè la pulizia dei dati?
Conclusioni
Sviluppi futuri

elemento taggato (foto, video, sito web)
piattaforma online che favorisce il contributo degli utenti dietro incentivo economico
sistema di social bookmarking
RISORSADATASETPOSTDELICIOUSCROWDSOURCINGinsieme di tag dati di una risorsa
insieme di risorse, ognuna con i suoi post
5

Ogni risorsa alla quale è possibile applicare tag può risultare:
•Sovrataggata (per le più popolari)
•Sottotaggata
6

In questo modo quando un
utente effettua una ricerca
Non tutte le risorse vengono
mostrate ricerca inefficiente
6
•Sottotaggata

6Aumentare la QUALITA’ del dataset

DATASET
CROWDSOURCINGi-Tag
MOTORE DI INCENTIVI
7

DATASET
CROWDSOURCINGi-TagMOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORI
CROWDSOURCINGi-Tag
MOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORILAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-TagMOTORE DI INCENTIVI
7

DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI
7

Per cominciare:
Cos’è un tag?
Presentazione del sistema iTag
Conclusioni
Sviluppi futuri

I passi sono stati:
•Analizzare iTag
•Cercare aspetti da migliorare
•Ho fatto alcune proposte:
8

I passi sono stati:
•Analizzare iTag
Feedback
8

I passi sono stati:
•Analizzare iTag
Similarità
Feedback8

I passi sono stati:
•Analizzare iTag
Similarità
Feedback
Differenziazione incentivi8

Similarità
8Argomento approvato:

Le tre misure di similarità che ho scelto sono state:
9

Le tre misure di similarità che ho scelto sono state: Similarità del Coseno9

Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di Dice9

Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di DiceSimilarità di Jacquard
9

Per cominciare:
Cos’è un tag?
Ricerca effettuata
Conclusioni
Sviluppi futuri

Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) 10

Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB
10

Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa
11

Per ogni risorsa, la prima cifra rappresenta il numero di post
Ogni linea è una risorsa
11

Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa11

Per ogni risorsa, la prima cifra rappresenta il numero di postPer ogni post, la prima cifra rappresenta il numero di tag dentro al post
11

Per ogni post, la prima cifra rappresenta il numero di tag dentro al post
11

Per ogni post, la prima cifra rappresenta il numero di tag dentro al post
Ogni linea è una risorsa12
9
8
7
6
5
4
3
11

Le cifre dentro al post rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa1
2
9
8
7
6
5
4
3
11

Le cifre dentro al post rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa
1
2
9
8
7
6
5
4
3
“viaggi”
11

Per cominciare:
Cos’è un tag?
Breve descrizione del dataset
Conclusioni
Sviluppi futuri

finestra (quantità di post) utilizzata per valutare la stabilità
vettore di frequenze relative di ogni tag
STABILITÀwQUALITÀRFD DPB
si ha quando il livello di informazioni per la risorsa è sufficiente
si ha quando le informazioni della risorsa superano la soglia di stabilità
algoritmo ottimo per generare gli assegnamenti delle risorse
Budget stanziato dal provider per l’incremento della qualità
12

4 X 10GB
DATASET ORIGINALE
13

4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:

4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
13
CARATTERISTICHE:

4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Guardiamo i seguenti tag:
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
RIDUZIONE RUMORE
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
pasta
cucina
ricetta
13
CARATTERISTICHE:

4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
cucina
cucina
pasta
pasta
spaghetti
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
RIDUZIONE RIDONDANZA
13
CARATTERISTICHE:

spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
cucina
pasta
13
CARATTERISTICHE:

4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB
1 mese
13
CARATTERISTICHE:

Circa 1TB
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB
1 mese
2 anni
13
CARATTERISTICHE:

4 X 10GB
100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:

4 X 10GB
100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
PULITO
FORMATTATO
RIDOTTO
DATASET ORIGINALE
13
CARATTERISTICHE:

Per cominciare:
Cos’è un tag?
Pulizia del dataset
Conclusioni
Sviluppi futuri

APPLICAZIONE FORMULE STATISTICHE
14

DATASET PULITO
INPUT
14

DATASET PULITOINPUT
OUTPUT
14

DATASET PULITO
RFD
INPUT
OUTPUT
Punto di stabilità
14

Per cominciare:
Cos’è un tag?
Calcolo delle frequenze e del punto di stabilità
Conclusioni
Sviluppi futuri

DP
RFD
Punto di stabilità
INPUT
BUDGET
15

DP
RFD
Punto di stabilità
INPUT
OUTPUT
BUDGET
15

DP
RFD
Punto di stabilità
INPUT
OUTPUT
Qualità del datasetASSIGNMENT
ASSIGNMENT
ASSEGNAMENTO OTTIMO
BUDGET
15

DP
ASSEGNAMENTO OTTIMO
STATO INIZIALE (RANDOM)
15

Per cominciare:
Cos’è un tag?
Implementazione dell’algoritmo di qualità
Implementazione della strategia ottima
Conclusioni
Sviluppi futuri

COSINE
DICE
JACQUARDCOME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
16

COSINE
DICE
JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?
16

Per cominciare:
Cos’è un tag?
Risultati sperimentali
Conclusioni
Sviluppi futuri

OsservandoirisultatisperimentalièpossibilevederecomeirisultatiinvaloreassolutosianosimiliperquantoriguardaCosenoeDice,mentresianodiversiperlaJacquard.
Dopoaveranalizzatoirisultatisperimentali,èpossibileaffermarecheperilsistemaanalizzatononèpresenteunamisuradisimilaritàmiglioredellealtre,masonotutteetreequivalenti.
Infattièinteressantenotarecome,nonostantegliassegnamentivarinodamisuraamisura,lecurveabbianoesattamentelostessocomportamento,ottenendoallafineglistessivaloridiqualità.
Ilmiocontributoèstatoapprezzato,verràintrodottoinun’estensionedelpaper“Onincentive-basedtagging”(ICDE2013).
25

Per cominciare:
Cos’è un tag?
Risultati sperimentali
Conclusioni
Sviluppi futuri

Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbrida
26

Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profilo
26

Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedback26

Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedbackGenerare un sistema di riconoscimento semantico dei tag26

Presentazione ufficiale splittata

Presentazione ufficiale splittata

Recommended

Recommended

More Related Content

Similar to Presentazione ufficiale splittata

Similar to Presentazione ufficiale splittata (20)

Presentazione ufficiale splittata