SlideShare a Scribd company logo
1 of 116
Download to read offline
&
Sviluppo sistema iTag 
1Studio del sistemaImplementazione similaritàValutazione qualità
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: 
2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: 
IMMAGINI 
2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI 
VIDEO2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: 
IMMAGINI 
VIDEO 
SITI WEB2
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
“Affinità di natura, struttura o composizione.” 
(De Mauro “Il dizionario della lingua italiana”) 
3
“Affinità di natura, struttura o composizione.” 
(De Mauro “Il dizionario della lingua italiana”) 
In informatica, la similarità viene implementata 
attraverso il concetto matematicodi DISTANZA 
3
“Affinità di natura, struttura o composizione.” 
(De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematicodi DISTANZA 
3
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
FONTI ETEROGENEE 
4
FONTI ETEROGENEE 
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono 
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono 
INCOMPLETI 
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono 
INCOMPLETI 
RUMOROSI 
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono 
INCOMPLETI 
INCONSISTENTI 
RUMOROSI 
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono 
INCOMPLETI 
INCONSISTENTI 
RUMOROSIPassi principali: 
•Pulizia: levigare il rumore nei dati, risolvere le inconsistenze 
•Integrazione: più fonti eterogenee vengono unite 
•Riduzione: diminuire il volume del dataset 
4
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
5
elemento taggato (foto, video, sito web) 
piattaforma online che favorisce il contributo degli utenti dietro incentivo economico 
sistema di social bookmarking 
RISORSADATASETPOSTDELICIOUSCROWDSOURCINGinsieme di tag dati di una risorsa 
insieme di risorse, ognuna con i suoi post 
5
Ogni risorsa alla quale è possibile applicare tag può risultare: 
•Sovrataggata (per le più popolari) 
•Sottotaggata 
6
In questo modo quando un 
utente effettua una ricerca 
Non tutte le risorse vengono 
mostrate ricerca inefficiente 
6 
•Sottotaggata
6Aumentare la QUALITA’ del dataset
DATASET 
CROWDSOURCINGi-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
CROWDSOURCINGi-TagMOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
CROWDSOURCINGi-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
CROWDSOURCINGi-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
CROWDSOURCING 
i-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORILAVORO COMPLETATO 
CROWDSOURCING 
i-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
LAVORO COMPLETATO 
CROWDSOURCING 
i-Tag 
MOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
VIENE CONSEGNATO L’INCENTIVO 
LAVORO COMPLETATO 
CROWDSOURCING 
i-TagMOTORE DI INCENTIVI 
7
DATASET 
iTAG CREA I LAVORI 
VIENE CONSEGNATO L’INCENTIVO 
LAVORO COMPLETATO 
CROWDSOURCING 
i-Tag 
MOTORE DI INCENTIVI 
7
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
I passi sono stati: 
•Analizzare iTag 
•Cercare aspetti da migliorare 
•Ho fatto alcune proposte: 
8
I passi sono stati: 
•Analizzare iTag 
•Cercare aspetti da migliorare 
•Ho fatto alcune proposte: 
Feedback 
8
I passi sono stati: 
•Analizzare iTag 
•Cercare aspetti da migliorare 
•Ho fatto alcune proposte: 
Similarità 
Feedback8
I passi sono stati: 
•Analizzare iTag 
•Cercare aspetti da migliorare 
•Ho fatto alcune proposte: 
Similarità 
Feedback 
Differenziazione incentivi8
Similarità 
8Argomento approvato:
Le tre misure di similarità che ho scelto sono state: 
9
Le tre misure di similarità che ho scelto sono state: Similarità del Coseno9
Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di Dice9
Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di DiceSimilarità di Jacquard 
9
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
10
Fonte: Delicious10
Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) 10
Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 
10
11
Ogni linea è una risorsa11
Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa 
11
Per ogni risorsa, la prima cifra rappresenta il numero di post 
Ogni linea è una risorsa 
11
Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa11
Per ogni risorsa, la prima cifra rappresenta il numero di postPer ogni post, la prima cifra rappresenta il numero di tag dentro al post 
Ogni linea è una risorsa 
11
Per ogni risorsa, la prima cifra rappresenta il numero di post 
Per ogni post, la prima cifra rappresenta il numero di tag dentro al post 
Ogni linea è una risorsa 
11
Per ogni risorsa, la prima cifra rappresenta il numero di post 
Per ogni post, la prima cifra rappresenta il numero di tag dentro al post 
Ogni linea è una risorsa12 
9 
8 
7 
6 
5 
4 
3 
11
Per ogni risorsa, la prima cifra rappresenta il numero di post 
Le cifre dentro al post rappresentano l’ID del tag 
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa1 
2 
9 
8 
7 
6 
5 
4 
3 
11
Per ogni risorsa, la prima cifra rappresenta il numero di post 
Le cifre dentro al post rappresentano l’ID del tag 
Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa 
1 
2 
9 
8 
7 
6 
5 
4 
3 
“viaggi” 
11
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
12
finestra (quantità di post) utilizzata per valutare la stabilità 
vettore di frequenze relative di ogni tag 
STABILITÀwQUALITÀRFD DPB 
si ha quando il livello di informazioni per la risorsa è sufficiente 
si ha quando le informazioni della risorsa superano la soglia di stabilità 
algoritmo ottimo per generare gli assegnamenti delle risorse 
Budget stanziato dal provider per l’incremento della qualità 
12
4 X 10GB 
DATASET ORIGINALE 
13
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
Guardiamo i seguenti tag: 
13 
CARATTERISTICHE:
spaghetti 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
Guardiamo i seguenti tag: 
r4sa334 
sidofhbdjnopf 
3dfasgg5 
pasta 
cucina 
ricetta 
13 
CARATTERISTICHE:
spaghetti 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
Guardiamo i seguenti tag: 
QUESTO E’ IL RUMORE 
r4sa334 
sidofhbdjnopf 
3dfasgg5 
pasta 
cucina 
ricetta 
13 
CARATTERISTICHE:
spaghetti 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
Guardiamo i seguenti tag: 
QUESTO E’ IL RUMORE 
r4sa334 
sidofhbdjnopf 
3dfasgg5 
pasta 
cucina 
ricetta 
RIDUZIONE RUMORE 
13 
CARATTERISTICHE:
spaghetti 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RUMORE: DATI SPORCHI 
Guardiamo i seguenti tag: 
pasta 
cucina 
ricetta 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
Guardiamo i seguenti tag: 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RIDONDANZA: DATI RIPETUTI 
13 
CARATTERISTICHE:
spaghetti 
Guardiamo i seguenti tag: 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RIDONDANZA: DATI RIPETUTI 
cucina 
cucina 
pasta 
pasta 
spaghetti 
13 
CARATTERISTICHE:
spaghetti 
Guardiamo i seguenti tag: 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RIDONDANZA: DATI RIPETUTI 
cucina 
cucina 
pasta 
pasta 
spaghetti 
QUESTA E’ LA RIDONDANZA 
13 
CARATTERISTICHE:
spaghetti 
Guardiamo i seguenti tag: 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RIDONDANZA: DATI RIPETUTI 
cucina 
cucina 
pasta 
pasta 
spaghetti 
QUESTA E’ LA RIDONDANZA 
RIDUZIONE RIDONDANZA 
13 
CARATTERISTICHE:
spaghetti 
Guardiamo i seguenti tag: 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
RIDONDANZA: DATI RIPETUTI 
cucina 
pasta 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
Circa 40GB 
1 mese 
13 
CARATTERISTICHE:
Circa 1TB 
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
Circa 40GB 
1 mese 
2 anni 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
4 X 10GB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
4 X 10GB 
100 MB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
4 X 10GB 
100 MB 
RUMOROSO 
RIDONDANTE 
TROPPO GRANDE 
PULITO 
FORMATTATO 
RIDOTTO 
DATASET ORIGINALE 
13 
CARATTERISTICHE:
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
APPLICAZIONE FORMULE STATISTICHE 
14
APPLICAZIONE FORMULE STATISTICHE 
DATASET PULITO 
INPUT 
14
APPLICAZIONE FORMULE STATISTICHE 
DATASET PULITOINPUT 
OUTPUT 
14
APPLICAZIONE FORMULE STATISTICHE 
DATASET PULITO 
RFD 
INPUT 
OUTPUT 
Punto di stabilità 
14
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
DP 
15
DP 
RFD 
Punto di stabilità 
INPUT 
BUDGET 
15
DP 
RFD 
Punto di stabilità 
INPUT 
OUTPUT 
BUDGET 
15
DP 
RFD 
Punto di stabilità 
INPUT 
OUTPUT 
Qualità del datasetASSIGNMENT 
ASSIGNMENT 
ASSEGNAMENTO OTTIMO 
BUDGET 
15
DP 
ASSEGNAMENTO OTTIMO 
STATO INIZIALE (RANDOM) 
15
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
COSINE 
DICE 
JACQUARD 
16
COSINE 
DICE 
JACQUARD 
16
COSINE 
DICE 
JACQUARDCOME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... 
16
COSINE 
DICE 
JACQUARD 
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... 
... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 
16
17
18
19
20
21
22
23
24
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
OsservandoirisultatisperimentalièpossibilevederecomeirisultatiinvaloreassolutosianosimiliperquantoriguardaCosenoeDice,mentresianodiversiperlaJacquard. 
Dopoaveranalizzatoirisultatisperimentali,èpossibileaffermarecheperilsistemaanalizzatononèpresenteunamisuradisimilaritàmiglioredellealtre,masonotutteetreequivalenti. 
Infattièinteressantenotarecome,nonostantegliassegnamentivarinodamisuraamisura,lecurveabbianoesattamentelostessocomportamento,ottenendoallafineglistessivaloridiqualità. 
Ilmiocontributoèstatoapprezzato,verràintrodottoinun’estensionedelpaper“Onincentive-basedtagging”(ICDE2013). 
25
Per cominciare: 
Cos’è un tag? 
Cosa si intende per similarità? 
Perchè la pulizia dei dati? 
Presentazione del sistema iTag 
Ricerca effettuata 
Breve descrizione del dataset 
Implementazione dell’algoritmo di qualità 
Pulizia del dataset 
Calcolo delle frequenze e del punto di stabilità 
Implementazione della strategia ottima 
Risultati sperimentali 
Conclusioni 
Sviluppi futuri
26
Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbrida 
26
Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profilo 
26
Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedback26
Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedbackGenerare un sistema di riconoscimento semantico dei tag26
Presentazione ufficiale splittata

More Related Content

Similar to Presentazione ufficiale splittata

Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
INPSDG
 
Basi di Dati - B1 - La progettazione delle basi di dati
Basi di Dati - B1 - La progettazione delle basi di datiBasi di Dati - B1 - La progettazione delle basi di dati
Basi di Dati - B1 - La progettazione delle basi di dati
Majong DevJfu
 
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
Alessandro Zonin
 

Similar to Presentazione ufficiale splittata (20)

Data Profiling with Metanome
Data Profiling with MetanomeData Profiling with Metanome
Data Profiling with Metanome
 
Metodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integrationMetodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integration
 
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven InnovationCerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
 
Digital 1nn0vation saturday pn 2019 - ML.NET
Digital 1nn0vation saturday pn 2019 - ML.NETDigital 1nn0vation saturday pn 2019 - ML.NET
Digital 1nn0vation saturday pn 2019 - ML.NET
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
Le tecnologie dei Big Data
Le tecnologie dei Big DataLe tecnologie dei Big Data
Le tecnologie dei Big Data
 
Basi di Dati - B1 - La progettazione delle basi di dati
Basi di Dati - B1 - La progettazione delle basi di datiBasi di Dati - B1 - La progettazione delle basi di dati
Basi di Dati - B1 - La progettazione delle basi di dati
 
Relaxed FD Discoverer
Relaxed FD DiscovererRelaxed FD Discoverer
Relaxed FD Discoverer
 
I Graph Database: analisi del comportamento degli utenti
I Graph Database: analisi del comportamento degli utentiI Graph Database: analisi del comportamento degli utenti
I Graph Database: analisi del comportamento degli utenti
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
Microsoft Power BI fast with aggregation and composite model
Microsoft Power BI fast with aggregation and composite modelMicrosoft Power BI fast with aggregation and composite model
Microsoft Power BI fast with aggregation and composite model
 
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
Introduzione a NVIVO per l'analisi qualitativa dei dati (CAQDAS)
 
Machine Learning e Artificial Intelligence: casi d'uso per la pubblica ammini...
Machine Learning e Artificial Intelligence: casi d'uso per la pubblica ammini...Machine Learning e Artificial Intelligence: casi d'uso per la pubblica ammini...
Machine Learning e Artificial Intelligence: casi d'uso per la pubblica ammini...
 
Open data: come fare
Open data: come fareOpen data: come fare
Open data: come fare
 
An MPI approach to build philogenetics trees
An MPI approach to build philogenetics treesAn MPI approach to build philogenetics trees
An MPI approach to build philogenetics trees
 
Panzera Eugenio, Laiolo Sergio, Agilent - Minitab nella produzione di Agilen...
Panzera Eugenio, Laiolo Sergio, Agilent  - Minitab nella produzione di Agilen...Panzera Eugenio, Laiolo Sergio, Agilent  - Minitab nella produzione di Agilen...
Panzera Eugenio, Laiolo Sergio, Agilent - Minitab nella produzione di Agilen...
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 

Presentazione ufficiale splittata

  • 1. &
  • 2. Sviluppo sistema iTag 1Studio del sistemaImplementazione similaritàValutazione qualità
  • 3. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 4. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: 2
  • 5. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI 2
  • 6. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO2
  • 7. Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO SITI WEB2
  • 8. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 9. “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) 3
  • 10. “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematicodi DISTANZA 3
  • 11. “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematicodi DISTANZA 3
  • 12. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 15. PERCHÈ si effettua la pulizia? Molto spesso i dati sono 4
  • 16. PERCHÈ si effettua la pulizia? Molto spesso i dati sono INCOMPLETI 4
  • 17. PERCHÈ si effettua la pulizia? Molto spesso i dati sono INCOMPLETI RUMOROSI 4
  • 18. PERCHÈ si effettua la pulizia? Molto spesso i dati sono INCOMPLETI INCONSISTENTI RUMOROSI 4
  • 19. PERCHÈ si effettua la pulizia? Molto spesso i dati sono INCOMPLETI INCONSISTENTI RUMOROSIPassi principali: •Pulizia: levigare il rumore nei dati, risolvere le inconsistenze •Integrazione: più fonti eterogenee vengono unite •Riduzione: diminuire il volume del dataset 4
  • 20. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 21. 5
  • 22. elemento taggato (foto, video, sito web) piattaforma online che favorisce il contributo degli utenti dietro incentivo economico sistema di social bookmarking RISORSADATASETPOSTDELICIOUSCROWDSOURCINGinsieme di tag dati di una risorsa insieme di risorse, ognuna con i suoi post 5
  • 23. Ogni risorsa alla quale è possibile applicare tag può risultare: •Sovrataggata (per le più popolari) •Sottotaggata 6
  • 24. In questo modo quando un utente effettua una ricerca Non tutte le risorse vengono mostrate ricerca inefficiente 6 •Sottotaggata
  • 28. DATASET iTAG CREA I LAVORI CROWDSOURCINGi-Tag MOTORE DI INCENTIVI 7
  • 29. DATASET iTAG CREA I LAVORI CROWDSOURCINGi-Tag MOTORE DI INCENTIVI 7
  • 30. DATASET iTAG CREA I LAVORI CROWDSOURCING i-Tag MOTORE DI INCENTIVI 7
  • 31. DATASET iTAG CREA I LAVORILAVORO COMPLETATO CROWDSOURCING i-Tag MOTORE DI INCENTIVI 7
  • 32. DATASET iTAG CREA I LAVORI LAVORO COMPLETATO CROWDSOURCING i-Tag MOTORE DI INCENTIVI 7
  • 33. DATASET iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO LAVORO COMPLETATO CROWDSOURCING i-TagMOTORE DI INCENTIVI 7
  • 34. DATASET iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO LAVORO COMPLETATO CROWDSOURCING i-Tag MOTORE DI INCENTIVI 7
  • 35. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 36. I passi sono stati: •Analizzare iTag •Cercare aspetti da migliorare •Ho fatto alcune proposte: 8
  • 37. I passi sono stati: •Analizzare iTag •Cercare aspetti da migliorare •Ho fatto alcune proposte: Feedback 8
  • 38. I passi sono stati: •Analizzare iTag •Cercare aspetti da migliorare •Ho fatto alcune proposte: Similarità Feedback8
  • 39. I passi sono stati: •Analizzare iTag •Cercare aspetti da migliorare •Ho fatto alcune proposte: Similarità Feedback Differenziazione incentivi8
  • 41. Le tre misure di similarità che ho scelto sono state: 9
  • 42. Le tre misure di similarità che ho scelto sono state: Similarità del Coseno9
  • 43. Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di Dice9
  • 44. Le tre misure di similarità che ho scelto sono state: Similarità del CosenoCoefficiente di DiceSimilarità di Jacquard 9
  • 45. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 46. 10
  • 48. Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) 10
  • 49. Fonte: DeliciousInizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 10
  • 50. 11
  • 51. Ogni linea è una risorsa11
  • 52. Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa 11
  • 53. Per ogni risorsa, la prima cifra rappresenta il numero di post Ogni linea è una risorsa 11
  • 54. Per ogni risorsa, la prima cifra rappresenta il numero di postOgni linea è una risorsa11
  • 55. Per ogni risorsa, la prima cifra rappresenta il numero di postPer ogni post, la prima cifra rappresenta il numero di tag dentro al post Ogni linea è una risorsa 11
  • 56. Per ogni risorsa, la prima cifra rappresenta il numero di post Per ogni post, la prima cifra rappresenta il numero di tag dentro al post Ogni linea è una risorsa 11
  • 57. Per ogni risorsa, la prima cifra rappresenta il numero di post Per ogni post, la prima cifra rappresenta il numero di tag dentro al post Ogni linea è una risorsa12 9 8 7 6 5 4 3 11
  • 58. Per ogni risorsa, la prima cifra rappresenta il numero di post Le cifre dentro al post rappresentano l’ID del tag Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa1 2 9 8 7 6 5 4 3 11
  • 59. Per ogni risorsa, la prima cifra rappresenta il numero di post Le cifre dentro al post rappresentano l’ID del tag Per ogni post, la prima cifra rappresenta il numero di tag dentro al postOgni linea è una risorsa 1 2 9 8 7 6 5 4 3 “viaggi” 11
  • 60. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 61. 12
  • 62. finestra (quantità di post) utilizzata per valutare la stabilità vettore di frequenze relative di ogni tag STABILITÀwQUALITÀRFD DPB si ha quando il livello di informazioni per la risorsa è sufficiente si ha quando le informazioni della risorsa superano la soglia di stabilità algoritmo ottimo per generare gli assegnamenti delle risorse Budget stanziato dal provider per l’incremento della qualità 12
  • 63. 4 X 10GB DATASET ORIGINALE 13
  • 64. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 65. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI 13 CARATTERISTICHE:
  • 66. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI Guardiamo i seguenti tag: 13 CARATTERISTICHE:
  • 67. spaghetti 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI Guardiamo i seguenti tag: r4sa334 sidofhbdjnopf 3dfasgg5 pasta cucina ricetta 13 CARATTERISTICHE:
  • 68. spaghetti 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI Guardiamo i seguenti tag: QUESTO E’ IL RUMORE r4sa334 sidofhbdjnopf 3dfasgg5 pasta cucina ricetta 13 CARATTERISTICHE:
  • 69. spaghetti 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI Guardiamo i seguenti tag: QUESTO E’ IL RUMORE r4sa334 sidofhbdjnopf 3dfasgg5 pasta cucina ricetta RIDUZIONE RUMORE 13 CARATTERISTICHE:
  • 70. spaghetti 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RUMORE: DATI SPORCHI Guardiamo i seguenti tag: pasta cucina ricetta 13 CARATTERISTICHE:
  • 71. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 72. Guardiamo i seguenti tag: 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RIDONDANZA: DATI RIPETUTI 13 CARATTERISTICHE:
  • 73. spaghetti Guardiamo i seguenti tag: 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RIDONDANZA: DATI RIPETUTI cucina cucina pasta pasta spaghetti 13 CARATTERISTICHE:
  • 74. spaghetti Guardiamo i seguenti tag: 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RIDONDANZA: DATI RIPETUTI cucina cucina pasta pasta spaghetti QUESTA E’ LA RIDONDANZA 13 CARATTERISTICHE:
  • 75. spaghetti Guardiamo i seguenti tag: 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RIDONDANZA: DATI RIPETUTI cucina cucina pasta pasta spaghetti QUESTA E’ LA RIDONDANZA RIDUZIONE RIDONDANZA 13 CARATTERISTICHE:
  • 76. spaghetti Guardiamo i seguenti tag: 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE RIDONDANZA: DATI RIPETUTI cucina pasta 13 CARATTERISTICHE:
  • 77. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 78. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE Circa 40GB 1 mese 13 CARATTERISTICHE:
  • 79. Circa 1TB 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE Circa 40GB 1 mese 2 anni 13 CARATTERISTICHE:
  • 80. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 81. 4 X 10GB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 82. 4 X 10GB 100 MB RUMOROSO RIDONDANTE TROPPO GRANDE DATASET ORIGINALE 13 CARATTERISTICHE:
  • 83. 4 X 10GB 100 MB RUMOROSO RIDONDANTE TROPPO GRANDE PULITO FORMATTATO RIDOTTO DATASET ORIGINALE 13 CARATTERISTICHE:
  • 84. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 86. APPLICAZIONE FORMULE STATISTICHE DATASET PULITO INPUT 14
  • 87. APPLICAZIONE FORMULE STATISTICHE DATASET PULITOINPUT OUTPUT 14
  • 88. APPLICAZIONE FORMULE STATISTICHE DATASET PULITO RFD INPUT OUTPUT Punto di stabilità 14
  • 89. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 90. DP 15
  • 91. DP RFD Punto di stabilità INPUT BUDGET 15
  • 92. DP RFD Punto di stabilità INPUT OUTPUT BUDGET 15
  • 93. DP RFD Punto di stabilità INPUT OUTPUT Qualità del datasetASSIGNMENT ASSIGNMENT ASSEGNAMENTO OTTIMO BUDGET 15
  • 94. DP ASSEGNAMENTO OTTIMO STATO INIZIALE (RANDOM) 15
  • 95. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 98. COSINE DICE JACQUARDCOME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... 16
  • 99. COSINE DICE JACQUARD COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... ... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 16
  • 100. 17
  • 101. 18
  • 102. 19
  • 103. 20
  • 104. 21
  • 105. 22
  • 106. 23
  • 107. 24
  • 108. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 110. Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
  • 111. 26
  • 112. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbrida 26
  • 113. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profilo 26
  • 114. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedback26
  • 115. Effettuare i test anche con le altre strategie di assegnamentoScelta liberaRound RobinLess Posts firstMost Unstable firstIbridaIndirizzare l’utente verso le risorse che più si addicono al suo profiloImplementare un sistema di feedbackGenerare un sistema di riconoscimento semantico dei tag26