SlideShare a Scribd company logo
1 of 54
Download to read offline
WEB MINING E ANALISI DI RETI SOCIALI
Irene Chiarolanza
Prof. Dino Pedreschi
Dott. Giulio Rossetti
Dott. Luca Pappalardo
2	
	
INDICE
1. Introduzione p. 3;
2. Network Analysis p. 5;
3. Tie Strength I e II p. 24;
4. Link Prediction I e II p. 30;
5. Trust I e II p. 36;
6. Multidimentional Network Analysis p. 46;
7. Conclusioni p. 52;
8. Riferimenti bibliografici p. 54.
3	
	
INTRODUZIONE
Lo studio affrontato è stato svolto sulla base di approfondite analisi effettuate sui dati
raccolti dalla classe di Web Mining dell’anno accademico 2012-2013 per otto settimane.
I dati raccolti forniscono le interazioni tra gli studenti della classe nella vita reale, in
Facebook, in Google Plus e in Twitter. Il dataset utilizzato è stato creato in questo
modo: ID_utente1, ID_utente2, ID_network, ID_week, Strength, Trust. I primi
due attributi corrispondono agli identificativi resi anonimi, dello studente che registra
l’interazione e dello studente su cui si realizza l’interazione. L’ID_network e
l’ID_week rappresentano il tipo di network analizzato e la settimana di riferimento,
Strength indica la forza di ogni relazione (con valore compreso tra 1 e 5) e Trust è la
fiducia assegnata ad ogni relazione (con valore compreso tra 1 e 5).
Alla fine del corso, tutte le interazioni sono state raccolte in file .txt, da cui è stato
possibile estrapolare il grafo della rete con Cytoscape e gli altri dati necessari per lo
studio delle altre componenti della rete, per cui ci si è servito sia di Excel che di alcuni
script in Python.
Nell’analisi non sono state prese in considerazione le interazioni avvenute con Twitter
e Google Plus, perché a nostro avviso irrilevanti rispetto alle altre analizzate.
Prima di affrontare lo studio generale con Cytoscape ci si è accorti che tutte le reti
analizzate presentavano archi duplicati, quindi sono stati rimossi per non falsare le
analisi.
4	
	
Sono stati svolti i seguenti esercizi, per un valore complessivo di 11 punti:
- Network Analysis [2 points];
- Tie Strength I e II [1+2 points];
- Link Prediction I e II [1+2 points];
- Trust I e II [1+1 points];
- Multidimentional Network Analysis [2 points];
5	
	
NETWORK ANALYSIS
Tramite il software Cytoscape sono state analizzate le reti come dirette temporali
pesate1
, tranne che per la realizzazione delle strutture dove sono stati rimossi gli archi
duplicati. Sono stati presi in esame i dataset contententi anche Trust.
FULL (TRUST)
- |V| = 48;
- |E| = 1402;
Fig. 1. Struttura rete Full con archi duplicati.
																																																													
1 Le reti possono essere viste come dei grafi. Un grafo è un insieme di elementi detti nodi o vertici collegati
fra loro da archi o lati. Più formalmente, si dice grafo una coppia ordinata G = (V, E) di insiemi, con V insieme
dei nodi ed E insieme degli archi, tali che gli elementi di E siano coppie di elementi di V (da segue in particolare
che ). Un grafo diretto è una specie particolare di grafo in cui l'ordine dei vertici in un lato ha importanza. Un
lato (u, v) di tale grafo, detto anche lato diretto, si dice uscente da u ed entrante in v. Un lato diretto è spesso
rappresentato da una freccia nella direzione del vertice entrante. In un grafo diretto le connessioni sono
rappresentate da coppie ordinate di vertici, mentre in un grafo indiretto sono rappresentate da coppie non
ordinate di vertici e sono rappresentate con E = {vi, vj}. I grafi diretti e indiretti possono essere pesati, ovvero
ai vertici e/o alle connessioni possono essere associati dei pesi (dei valori che stabiliscono l’importanza di un
certo tipo di legame o interazione). I grafi temporali sono, banalmente, grafi che variano nel tempo. L'idea di
base, dato un grafo temporale, è quella di avere una visualizzazione più o meno approfondita di come questo
evolve con il passare del tempo, cercando di capirne i motivi, legandoli ad avvenimenti storici o sociali
conosciuti. Il risultato potrebbe essere paragonato ad un video che rappresenta le variazioni di clima nei prossimi
periodi: esso dà una visualizzazione globale di ciò che accade – o sta per accadere – permettendo di raccogliere
utili informazioni sull'evoluzione dello stato nel tempo.
6	
	
Fig. 2. Rimozione dalla rete Full degli archi duplicati.
Fig. 3. Rete Full senza archi duplicati.
7	
	
Fig. 4. Struttura rete Full. I nodi più grandi sono quelli con più interazioni.
Fig. 5. I dati dell’analisi.
COMPONENTE CONNESSA
La componente connessa di un grafo è il sottoinsieme di nodi connessi tra loro. Il
network analizzato possiede una componente gigante, che è una componente connessa
che contiene tutti i nodi, che sono 48. Un grafo con componente connessa ideale
dovrebbe possedere questo valore in un intervallo che va da 1 a 10, nel nostro caso, il
valore in questione è 48, quindi, di gran lunga più alto. C’è un’unica componente
connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno
un’interazione.
8	
	
COEFFICIENTE DI CLUSTERING
Il coefficiente di clustering stima quanto i nodi adiacenti ad un altro nodo siano in
relazione fra loro. Per esempio, nelle reti sociali dove gli archi rappresentano la
relazione di amicizia/frequentazione, il coefficiente di clustering fornisce una stima di
quanto il gruppo, o comunità, sia chiuso rispetto agli altri nodi nella rete.
In questo caso, esso è pari a 0.519, quindi poco più della metà dei nodi è in contatto tra
loro.
DIAMETRO
Il diametro è la massima distanza fra ogni coppia di nodi nel grafo. Più è alto il suo
valore, più i nodi sono lontani tra loro. Nel nostro caso il valore è 5, misura
relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è
chiaro anche “visivamente”, in quanto è presente una componente gigante che
racchiude la maggior parte dei nodi).
RAGGIO
Il raggio rappresenta il minimo valore tra le eccentricità dei nodi. In questo caso è pari
a 3.
NETWORK CENTRALIZATION
Il parametro della Network centralization ha un valore pari a 0.432. Nello studio delle reti
complesse, la nozione di centralità può essere importante per:
• Giudicare la rilevanza/criticità di nodi o aree delle rete;
• Attribuire una misura di distanza fra nodi o aree delle rete;
• Identificare il grado di coesione di un’area delle rete;
• Identificare le aree di una rete (i gruppi coesi, le sue comunità).
9	
	
In questo caso essa rappresenta un valore relativamente basso, perché probabilmente i
nodi non fanno capo ad un unico centro, ma sono dislocati su più punti focali
all’interno della componente gigante.
CAMMINO MINIMO
Il valore che emerge è 2256 (100%), valore perfetto che sta a significare che i cammini
esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si
muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,
sono tutti vicini e connessi tra loro.
CHARACTERISTIC PATH LENGTH
La distanza media è pari a 2.315.
SHORTEST PATH LENGTH DISTRIBUTION
	
Fig. 6. Shortest path length distribution della rete Full.
10	
	
Analizzando la Shortest Path Length Distribution è possibile notare che la moda della
distribuzione è pari a 2. Questo dimostra che la maggior parte dei nodi viene raggiunta
da un cammino minimo di 2.
NODE DEGREE DISTRIBUTION (IN E OUT)
Fig. 7. In-degree distribution della rete Full.
Fig. 8. Out-degree distribution della rete Full.
11	
	
Sono stati generati gli istogrammi, con i dati elaborati da Cytoscape, della distribuzione
del grado in entrata e in uscita. I dati, che sono stati raggruppati con un intervallo di 10,
hanno dimostrato che la maggior parte dei nodi ha un grado compreso tra 20 e 100,
mentre solo 3 nodi hanno valore 1, perché solo 3 studenti hanno molti archi sia in
entrata che in uscita.
12	
	
FACEBOOK (TRUST)
- |V| = 41;
- |E| = 505;
Fig. 9. Struttura della rete Facebook con archi duplicati.
Fig. 10. Rimozione dalla rete Facebook degli archi duplicate.
13	
	
Fig. 11. Struttura della rete Facebook senza archi duplicati.
Fig. 12. Struttura della rete Facebook. I nodi più grandi sono quelli con più interazioni.
14	
	
	
Fig. 13. I dati dell’analisi.
COMPONENTE CONNESSA
Il network analizzato possiede una componente gigante, che è una componente
connessa che contiene l’insieme dei nodi della rete, che sono 41. C’è un’unica
componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto
almeno un’interazione su Facebook.
COEFFICIENTE DI CLUSTERING
Il coefficiente di clustering è pari a 0.403, quindi, meno della metà dei nodi è in contatto
tra loro.
DIAMETRO
Il diametro è 6, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini
tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente
gigante che racchiude tutti i nodi).
RAGGIO
Il raggio è pari a 3.
15	
	
NETWORK CENTRALIZATION
Il parametro della Network centralization ha un valore pari a 0.488, anche in questo caso il
valore è relativamente basso perché i nodi non fanno capo ad un unico centro ma sono
dislocati su più punti focali all’interno della componente gigante.
CAMMINO MINIMO
Il valore che emerge è 1640 (100%), valore perfetto che sta a significare che i cammini
esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si
muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,
sono tutti vicini e connessi tra loro.
CHARACTERISTIC PATH LENGTH
La distanza media è pari a 2.429.
SHORTEST PATH LENGTH DISTRIBUTION
Fig. 14. Shortest path length distribution della rete Facebook.
16	
	
Il valore con frequenza più alta è 2 anche se, rispetto alle altre distribuzioni, risulta più
basso e ci sono più cammini di lunghezza maggiore a 2, perché ci sono state molte più
interazioni nella vita reale che su Facebook.
NODE-DEGREE DISTRIBUTION (IN E OUT)
	
Fig. 15. In-degree distribution della rete Facebook.
	
Fig. 16. Out-degree distribution della rete Facebook.
17	
	
Nella rete Facebook la maggior parte dei nodi ha un grado compreso tra 0 e 30. Ci
sono pochi studenti che hanno molti archi in entrata e in uscita, ad eccezione di uno,
che ne ha avuti molti in entrata e in uscita e un altro, che ne ha avuti, invece, molti in
uscita.
18	
	
REAL LIFE (TRUST)
- |V| = 47;
- |E| = 834;
Fig. 17. Struttura della rete Real Life con archi duplicati.
Fig. 18. Rimozione dalla rete Real Life degli archi duplicate.
19	
	
Fig. 19. Struttura della rete Real Life senza archi duplicati.
Fig. 20. Struttura della rete Real Life. I nodi più grandi sono quelli con più interazioni.
20	
	
Fig. 21. I dati dell’analisi.
COMPONENTE CONNESSA
Il network analizzato possiede una componente gigante, che è una componente
connessa che a sua volta contiene una frazione di tutti i nodi, che sono 47. C’è un’unica
componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto
almeno un’interazione nella vita reale (data probabilmente dalla frequenza del corso).
COEFFICIENTE DI CLUSTERING
Il coefficiente di clustering è pari a 0.476, quindi, quasi la metà dei nodi è in contatto tra
loro.
DIAMETRO
Il diametro è 8, misura nella norma, quindi i nodi sono abbastanza vicini tra loro (e
questo è chiaro anche “visivamente”, in quanto è presente una componente gigante
che racchiude tutti i nodi).
RAGGIO
Il raggio è pari a 4.
21	
	
NETWORK CENTRALIZATION
Il parametro della Network centralization ha un valore pari a 0.301.
CAMMINO MINIMO
Il valore che emerge è 2162 (100%), valore perfetto che sta a significare che i cammini
esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si
muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,
sono tutti vicini e connessi tra loro.
CHARACTERISTIC PATH LENGTH
La distanza media è pari a 2.666.
SHORTEST PATH LENGTH DISTRIBUTION
Fig. 22. Shortest path length distribution della rete Real Life.
22	
	
Anche in questo caso, il valore con frequenza più alta (la moda) è pari a 2. Questo ci
dimostra, nuovamente, che la maggior parte dei nodi può essere raggiunta con un
cammino molto breve.
NODE DEGREE DISTRIBUTION (IN E OUT)
Fig. 23. In-degree distribution della rete Real Life.
Fig. 24. Out-degree distribution della rete Real Life.
23	
	
Nella rete Real Life la maggior parte dei nodi ha un grado compreso tra 0 e 80. Anche
in questo caso, ci sono pochi studenti che hanno molti archi in entrata e in uscita. Uno
studente in particolare ha avuto molti archi, sia in entrata che in uscita.
24	
	
TIE STRENGTH
3.1 EVOLUTION OF STRENGTH
La registrazione dei dati prevedeva l’assegnazione ad ogni interazione di una forza,
intesa come quantità e qualità, che poteva assumere un valore compreso tra 1 e 5.
Nei prossimi due punti analizziamo come questa cambia nelle interazioni tra gli
studenti nel corso delle otto settimane e studiamo la forza dei legami sfruttando la
multidimensionalità, considerando le reti come dirette temporali pesate2
.
Per analizzare come la forza (Strength) si sia evoluta durante il periodo della raccolta
dei dati per le interazioni della rete Real Life e Facebook è stato realizzato per
entrambe un grafico ad istogramma che mostra per ogni settimana quante interazioni ci
sono state, raggruppate per settimana.
Come primo passo, tramite del codice in Python, abbiamo estratto dai due file in
formato .txt, che contenevano le interazioni di Facebook e quelle di Real Life, i dati per
creare una lista di ogni settimana con all’interno la somma delle interazioni raggruppate
per livello di forza; successivamente abbiamo utilizzato Excel per la creazione di
grafici.
																																																													
2 Cfr. nota 1 pag. 5.
25	
	
Fig. 25. Evoluzione della forza dei legami nel tempo. Rete Facebook.
Fig. 26. Evoluzione della forza dei legami nel tempo. Rete Real Life.
Nelle Fig. 25 e Fig. 26 è possibile seguire l'andamento delle interazioni su Facebook e
nella vita reale durante le otto settimane di corso. Nel primo grafico si nota subito
45	
33	
26	
34	
55	
27	
43	
41	
39	
34	
27	
27	
31	
40	
40	
38	
48	
34	
33	
32	
37	
27	
39	
30	
20	
19	
30	
29	
24	
28	
18	
31	
30	
21	
21	
22	
30	
19	
26	
31	
0	 50	 100	 150	 200	
1	
2	
3	
4	
5	
6	
7	
8	
1	
2	
3	
4	
5	
19	
12	
4	
14	
23	
12	
22	
20	
19	
17	
4	
30	
29	
18	
26	
16	
27	
18	
17	
25	
32	
37	
29	
22	
20	
14	
9	
19	
24	
27	
16	
17	
18	
13	
16	
20	
21	
27	
28	
20	
0	 20	 40	 60	 80	 100	 120	 140	
1	
2	
3	
4	
5	
6	
7	
8	
1	
2	
3	
4	
5
26	
	
come gli studenti abbiano interagito maggiormente nella prima (Tie strenght 48) e quinta
(Tie strenght 55) settimana di corso. I valori si mantengono invece stabili nelle restanti
settimane. Nella Fig. 26 il picco delle interazione si è avuto tra la quinta e la sesta
settimana, dimunisce notevolmente nella terza settimana. Confrontando invece la rete
con la figura 26 emerge che mentre sulla rete Facebook c'è stato un notevole
incremento delle interazioni sulla rete Real Life non è stato così. La spiegazione
potrebbe risiedere nel fatto che gli studenti frequentavano con meno assiduità le lezioni
ma continuavano a tenersi in contatto interagendo sul social network.
27	
	
3.2 MULTIDIMENSIONAL TIE STRENGTH
Per studiare la forza dei legami è stato usato l’approccio della multidimensionalità
proposto nel riferimento [1] applicando ad ogni coppia di nodi la formula della forza
dei legami multidimensionali :
Dove hd corrisponde alla similarità dei nodi in una singola dimensione nella quale Wd
rappresenta l’intensità dell’interazione tra i nodi nella dimensione d e d l’insieme dei
vicini di un nodo.
E corrisponde invece alla ridondanza della connessione, dove DR è la frazione
dei vicini che diventano direttamente irraggiungibili da un nodo se tutti i nodi nella
dimensione specifica sono rimossi.
	
	
Attraverso uno script in Python è stata applicata al file contenente le interazioni
(wmr_network_full.txt) la funzione della forza dei legami multidimensionali (str). Il
risultato è stata la creazione di un ulteriore file in .txt, nel quale sono stati scritti in
output (come risultato dello script) tutte le coppie di nodi con la relativa forza, ottenuta
tenendo conto della similarità e della ridondanza. I risultati della forza dei legami,
ottenuti applicando la funzione in oggetto, oscillano tra 0.28 e 9.8 (valori che sono stati
successivamente rielaborati con Cytoscape).
Successivamente, con Cytoscape sono stati analizzati i risultati attraverso la
rappresentazione di grafi che mostrano la struttura della rete dove è stato impostato il
colore degli archi in base alla variazione della forza dei legami: giallo per la forza
compresa tra 0 e 5, rosso da 5 a 7, e blu da 7 a 9.8.
28	
	
Fig. 27. Struttura della rete Full che evidenzia la forza dei legami.
Dalla figura emerge che la maggior parte dei legami ha una forza compresa tra 0 e 5, a
seguire quelli tra 5 e 7 e rari quelli oltre il 7. La spiegazione sta nel fatto che la maggior
parte degli studenti si è conosciuta o ha rapporti con gli altri prevalentemente in ambito
universitario, di conseguenza, la valutazione del legame è circoscritta a questo ambito.
Per evidenziare come cambia la struttura della rete, abbiamo infine rimosso gli archi
con forza minore di 5 (Fig. 28), quelli con forza maggiore di 5 (Fig. 29), e quelli con
forza maggiore di 7 (Fig. 30).
29	
	
Fig. 28. Strength<5; Fig. 29. Strength>5; Fig. 30. Strength>7;
Dai grafi risultanti vediamo che nella Fig. 30 la sotto-rete è formata da pochi nodi e da
4 componenti connesse, ciò dimostra quindi che le relazioni più intense si sono create
tra un gruppo ristretto di studenti; allo stesso tempo però nella Fig. 29, dove sono
presenti solo gli archi con forza maggiore di 5, è comunque presente una grande
componente connessa che rende la sotto-rete abbastanza unita.
30	
	
LINK PREDICTION
4.1 LINK PREDICTION
Attraverso la Link Prediction si cerca di individuare l’insieme di archi che, a partire da
un primo intervallo detto di Training, verranno più probabilmente creati in un secondo
intervallo temporale detto di Test: per ogni arco viene calcolato (da un predittore) un
valore che indica la probabilità (Score) che questo entri nel grafo in un futuro intervallo
di tempo.
Il dominio di analisi in questo caso sono quindi le reti dinamiche, cioè quelle in cui la
struttura cambia ed evolve nel tempo e quindi sono state utilizzate le reti di Real Life e
di Facebook come non dirette temporali e pesate3
alle quali sono stati applicati gli
approcci di previsione proposti nel riferimento [3]: Common Neighbours, Jaccard, Adamic
Adar, Preferential attachment.
Fig. 31. Predittori Link Prediction.
COMMON NEIGHBORD
Questo algoritmo assegna uno Score agli archi seguendo la seguente formula che
considera il numero dei vicini comune ai due nodi.
																																																													
3 Cfr. nota 1 pag. 5.
31	
	
JACCARD SIMILARITY
Misura la probabilità che sia x che y abbiano una feature f (vicini nel grafo); lo Score
viene assegnato tramite la formula
ADAMIC ADAR
È un modello di valutazione basato sulla correlazione tra due pagine web. Per
analizzare la correlazione tra due pagine si analizzano le caratteristiche di entrambe e se
ne definisce la somiglianza, secondo la formula:
PREFERENTIAL ATTACHMENT
L’approccio del predittore Preferential Attachment si basa sulla probabilità che la
possibilità che un arco si colleghi a un nodo x sia direttamente proporzionale al
numero dei vicini del nodo in questione. Più semplicemente, maggiore è il numero dei
vicini di un nodo, più alta è la possibilità che un arco si colleghi al nodo in questione in
futuro.
ANALISI
Nelle seguenti tabelle i valori corrispondono al rapporto tra la performance del
predittore (Common Neighbour, Jaccard, Adamic Adar e Preferential Attachment) e la
performance di un predittore scelto casualmente. Essi ricoprono la prima settimana,
quella centrale e l’ultima, in modo tale da vedere l’evoluzione nel tempo delle due reti.
32	
	
Misure Facebook
Training Test
Common
N. Jaccard
Adamic
A.
Preferenial
A.
1 7 2,79 2,51 2,37 2,16
4 4 2,62 1,67 3,57 3,57
7 1 0 0 17,55 17,55
Fig. 32. Confronto tra predittori per la rete Facebook.
Misure Real Life
Training Test
Common
N. Jaccard
Adamic
A.
Preferenial
A.
1 7 2,65 2,55 2,23 2,23
4 4 3,51 2,51 2,76 2,51
7 1 16,22 10,82 0 16,22
Fig. 33. Confronto tra predittori per la rete Real Life.
Nella rete Real Life dalle tabelle vediamo che i valori migliori riguardano l’approccio
Adamic Adar e Preferential Attachment: per il primo approccio si può affermare che se la
comunità di nodi condivisa da x e y è esclusiva/selettiva entrambi nodi avranno più alta
probabilità di interagire tra loro; per il secondo, un nodo che presenta numerose
interazioni attrae sia nuovi nodi sia, soprattutto, altri nodi con un numero alto di
interazioni/archi.
Per quanto riguarda la rete di Facebook, dalle tabelle vediamo che i valori migliori
riguardano l’approccio Preferential Attachment e Common Neighbours: all’aumentare del
numero degli amici di due nodi aumenta anche la probabilità che interagiscano nel
futuro.
I risultati migliori sono forniti rispettivamente in Facebook da Preferential Attachment e
Common Neighbours e in Real Life da Adamic Adar e Preferential Attachment in quanto
risultano più vicini alla realtà. I valori si riferiscono alla settima ed ultima settimana di
corso, in cui è presumibilmente più semplice prevedere quali cambiamenti subirà la rete
in questione.
33	
	
4.2 MULTIDIMENSIONALITY OF THE NETWORK
Attraverso l’analisi multidimensionale di una rete si cerca di prevedere quali possono
essere i collegamenti su una stessa rete partendo dai nodi presenti, in particolare
partendo dall’analisi di una rete e utilizzando uno dei predittori si calcola la possibilità
che altri nodi in futuro si aggiungano alla rete già presente. Nell’analisi delle reti ci
sono quattro possibili tipi di analisi:
- Common Neighbors;
- Adamic Adar;
- Jaccard;
- Preferential Attachment.
Nell’analisi seguente la metodologia utilizzata è quella del Common neighbors e la rete
analizzata è Real life.
Dalla letteratura emerge che, l’evoluzione di una rete dipende principalmente da tre
fattori:
- Dalle interazioni di un nodo, infatti un nodo con un grado elevato di archi (nella
fattispecie uno studente con molti collegamenti) tenderà ad attrarre più nodi;
- Dall’interazione tra le dimensioni;
- Dall’evoluzione temporale di un collegamento.
La funzione Neighbors è definita nel modo seguente:
Neighbors (v, D) = {U ∈ V|∃(U, v, d) ∈ E∧ d∈ D}
Questa funzione restituisce l'insieme di tutti i nodi direttamente raggiungibili dal nodo
v.
La variante delle funzione Neighbors è rappresentata da neighbors xor:
(V, D) = {U ∈ V|∃d ∈ D: (U, v, d) ∈ E∧ d∈ D: (U, v, d )∈ E}
34	
	
Questa funzione, considerando una dimensione D, restituisce l’insieme di nodi vicini
tra loro e li collega da archi che appartengono alla dimensione D.
Attraverso gli script realizzati in Python, ottenuti elaborando le funzioni contenute nelle
librerie fornite dagli assistenti e utilizzando per la realizzazione del grafo il software
Cytoscape, si è giunti al seguente risultato:
-	|V|	=	 169;
-	|E|	=	 224;
Fig. 34. Link Prediction. Analisi multidimensionale della rete Real Life.
35	
	
Il grafo dimostra come la maggior parte dei nodi è collegata, cioè gli studenti sono in
contatto tra loro, mentre sono pochi quelli che rimangono isolati e con pochi archi. Il
cammino minimo tra i nodi è pari al 90%, quindi i cammini sono abbastanza brevi. I
nodi sono quasi tutti vicini e connessi tra loro.
Dall'analisi della rete e dai risultati ottenuti è facile immaginare che la probabilità che in
futuro altri nodi si aggiungano a quelli già presenti sia altissima, poiché allo stato attuale
la rete appare “fitta” di collegamenti e la maggior parte degli studenti è in contatto tra
di loro.
36	
	
TRUST
5.1 TRUST
Durante la raccolta dei dati gli studenti hanno assegnato ad ogni interazione anche una
Trust, ovvero un valore che misura il rapporto in termini di fiducia, onestà e sincerità.
Anche in questo caso tutte le interazioni sono state raccolte in un file .txt per la rete
globale (Full), per quella di Real Life e per quella di Facebook, per poi essere elaborate.
L’obiettivo è quello di studiare la correlazione tra i valori di Strength e Trust per ogni
dimensione sia statica che dinamica; la rete utilizzata in questo caso è diretta non
temporale e pesata4
.
Innanzitutto è stata calcolata la differenza tra i suddetti valori per ogni interazione nelle
due dimensioni; successivamente sono stati raggruppati i risultati ottenuti. Per illustrare
i risultati sono stati realizzati grafici ad istogramma, sia per la rete di Real Life sia per
quella di Facebook.
RAPPORTO STRENGTH/TRUST FACEBOOK
Fig. 35. Rapporto Strength/Trust rete Facebook.
																																																													
4 Cfr. nota 1, pag. 5.
20	
86	 93	
218	
59	
7	 2	
0	
50	
100	
150	
200	
250	
-3	 -2	 -1	 0	 1	 2	 3	
Totale
37	
	
RAPPORTO STRENGTH/TRUST REAL LIFE
Fig. 36. Rapporto Strength/Trust rete Real Life.
Vediamo che, per entrambe le reti prevale la differenza uguale a 0, ovvero quando il
valore dei due attributi coincide. Ciò sta a significare che la tendenza degli studenti è
stata quella di assegnare lo stesso valore di forza e di fiducia all’interazione. Allo stesso
tempo vediamo come risulti più probabile che ad un valore di fiducia alto ne
corrisponda uno di forza più basso rispetto al contrario, evidentemente perché ad
interazioni frequenti non è detto che corrisponda un aumento di fiducia e, anche se la
forza è bassa, la fiducia in molti casi è alta probabilmente perché gli studenti si
conoscevano da prima dell’inizio del corso o perché frequentavano altri corsi insieme.
Per studiare la dinamicità, cioè come la forza e la fiducia si sono evolute nel corso delle
otto settimane, i record sono stati raggruppati per settimana calcolando la media dei
valori per la Strength e la Trust. I risultati per le due dimensioni sono stati, infine,
riportati in un grafico a linee, per meglio evidenziarne l’andamento e per consentire un
confronto più sistematico.
Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso
andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori
di forza alle interazioni nel social network dando quindi più importanza a quelle
avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la
fiducia risulta sempre maggiore rispetto alla forza.
3	 14	
36	
58	
211	
70	
9	
0	
50	
100	
150	
200	
250	
-4	 -3	 -2	 -1	 0	 1	 2	
Totale
38	
	
Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente
correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori
di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real
Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia
dipendente dalla forza.
TRUST AND CLASSICAL NETWORK MEASURE CORRELATION
L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche
della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e
pesata. I risultati sono riportati nei seguenti grafici.
FACEBOOK
week strength trust
1 2,821429 3,392857
2 2,68 3,44
3 2,97619 3,571429
4 3,203704 3,537037
5 3,028986 3,318841
6 3,115385 3,403846
7 2,75 3,338235
8 2,863636 3,5
Fig. 37. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati numerici.
Fig. 38. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati grafici.
39	
	
REAL LIFE
week strength trust
1 2,925926 3,296296
2 2,815789 3,342105
3 3,5 3,653846
4 2,868852 3,04918
5 3 3,096774
6 3,053571 3,392857
7 3,14 3,18
8 2,944444 3,203704
Fig. 39. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati numerici.
Fig. 40. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati grafici.
Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso
andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori
di forza alle interazioni nel social network dando quindi più importanza a quelle
avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la
fiducia risulta sempre maggiore rispetto alla forza.
Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente
correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori
di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real
Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia
dipendente dalla forza.
40	
	
5.2 TRUST AND CLASSICAL NETWORK MEASURE
CORRELATION
L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche
della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e
pesata. I risultati sono riportati nei seguenti grafici.
FACEBOOK
Fig. 41. Correlazione tra Trust e Edge Betwenness, rete Facebook.
Fig. 42. Correlazione tra Trust e Common Neighbours, rete Facebook.
0,000	
0,005	
0,010	
0,015	
0,020	
0,025	
0,030	
0,035	
1	 2	 3	 4	 5	
Edge	Betweenness	
Trust	
0,000	
0,500	
1,000	
1,500	
2,000	
2,500	
3,000	
3,500	
4,000	
4,500	
5,000	
1	 2	 3	 4	 5	
Common	Neighbours	
Trust
41	
	
I valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto
nella rete di Facebook, infatti al crescere della fiducia aumenta anche il numero dei
vicini comuni. Probabilmente questo accade poiché una coppia di nodi legata da un
valore Trust alto avrà sempre (potenzialmente) più amici in comune rispetto ad una
coppia di nodi legata da un valore di Trust basso.
Fig. 43. Correlazione tra Trust e Jaccard, rete Facebook.
Fig. 44. Correlazione tra Trust e Adamic Adar, rete Facebook.
0,000	
0,050	
0,100	
0,150	
0,200	
0,250	
0,300	
0,350	
0,400	
1	 2	 3	 4	 5	
Jaccard	
Trust	
0,000	
0,100	
0,200	
0,300	
0,400	
0,500	
0,600	
0,700	
0,800	
0,900	
1	 2	 3	 4	 5	
Adamic	Adar	
Trust
42	
	
Le medesime riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard,
anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust=4:
questo coefficiente e la Trust sono direttamente proporzionali, quindi se aumenta la
fiducia aumentano anche le probabilità che i due nodi abbiano amici comuni.
43	
	
REAL LIFE
Fig. 45. Correlazione tra Trust e Edge Betwenness, rete Real Life.
Fig. 46. Correlazione tra Trust e Common Neighbours, rete Real Life.
Per quanto riguarda i valori di Trust, anche qui si nota che al crescere della fiducia
aumenta significativamente anche il numero dei vicini comuni.
0,000	
0,002	
0,004	
0,006	
0,008	
0,010	
0,012	
0,014	
0,016	
0,018	
0,020	
1	 2	 3	 4	 5	
Edge	Betweenness	
Trust	
0	
1	
2	
3	
4	
5	
6	
7	
1	 2	 3	 4	 5	
Common	neighbors	
Trust
44	
	
Fig. 47. Correlazione tra Trust e Jaccard, rete Real Life.
Fig. 48. Correlazione tra Trust e Adamic Adar, rete Real Life.
In conclusione, si può dire che un dato anomalo si registra in corrispondenza del
valore di Trust pari a 3: infatti la rete di Facebook risulta avere un numero medio di
vicini più basso rispetto a quello di Real Life.		
Dai risultati ottenuti si nota che i valori della Trust sono inversamente proporzionali
all’Edge Betweenness, soprattutto nella rete di Facebook, e quindi nel caso in cui
rimuovessimo gli archi con Trust uguale a 5 la rete rimarrebbe comunque compatta.
0,000	
0,050	
0,100	
0,150	
0,200	
0,250	
0,300	
0,350	
0,400	
0,450	
1	 2	 3	 4	 5	
Jaccard	
Trust	
0,000	
0,100	
0,200	
0,300	
0,400	
0,500	
0,600	
0,700	
0,800	
0,900	
1	 2	 3	 4	 5	
Adamic	Adar	
Trust
45	
	
Analoghe riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard
anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust 4:
questo coefficiente e Trust sono direttamente proporzionali quindi se aumenta la
fiducia aumenta anche la probabilità che i due nodi abbiano amici comuni.
Infine notiamo come anche nel rapporto tra i punteggi di Trust e quelli ottenuti tramite
il metodo Adamic Adar la relazione segua un andamento crescente ad eccezione del
valore in corrispondenza di Trust uguale a 3 nella rete Facebook.
46	
	
MULTIDIMENTIONAL NETWORK ANALYSIS
Per uno studio multidimensionale delle reti abbiamo utilizzato le formule introdotte nel
riferimento [8] prendendo in esame solo le reti di Real Life e Facebook come dirette
dinamiche pesate5
: per tutte le interazioni tra due nodi è stato considerato un solo arco
avente come Strength la media delle forze su tutto il periodo delle otto settimane.
NEIGHBOURS
Il grado di un nodo si riferisce alle connessioni di un nodo in una rete ed è definito
come il numero di archi adiacenti al nodo stesso che, nel caso di reti monodimensionali
corrisponde al numero dei vicini; nelle reti multidimensionali invece il grado di un
nodo e il numero dei vicini non sono correlati poiché ci possono essere più archi tra
due nodi.
Per calcolare il numero dei vicini per la rete multidimensionale è stata utilizzata la
seguente formula:
Dove NeighborSet corrisponde al numero di tutti i nodi direttamente raggiungibili dal
nodo v tramite gli archi aventi rispettiva dimensione d.
Attraverso la rielaborazione degli script forniti durante il corso è stato calcolato il
numero dei vicini adiacenti ad ogni nodo e i risultati sono stati rappresentati in un
grafico ad istogramma.
																																																													
5 Cfr. nota 1 pag. 5.
47	
	
Fig. 49. Numero dei vicini di ogni nodo. Rete Full.
Il grafico fornisce una panoramica dei numeri di vicini per ogni nodo.
È evidente che in alcuni casi tale numero sfiora il picco di 35 vicini, mentre in altri
raggiunge a stento il 5. Ciò significa che alcuni nodi risultano essere più “centrali”
rispetto ad altri che hanno, invece, meno vicini e si trovano in una posizione più isolata
all’interno del network. Si può dedurre che questi ultimi nodi siano gli studenti che
rispetto agli altri interagiscono di meno, magari per timidezza.
Con la formula del Neighbors XOR sono stati invece considerati soltanto i nodi
adiacenti connessi tra loro da archi appartenenti soltanto ad una data dimensione.
I risultati di entrambe le dimensioni sono stati rappresentati su un grafico ad
istogramma per effettuare lo studio sulla rete multidimensionale.
48	
	
Fig. 50. Nodi adiacenti connessi tra loro. Facebook e Real Life.
Da questi risultati vediamo come i numeri dei vicini studiati sia tendenzialmente più
alto nella dimensione di Real Life rispetto a quella di Facebook a conferma che gli
studenti hanno avuto più interazioni nella vita reale piuttosto che nel social network.
DIMENSION RELEVANCE
Un aspetto chiave dell’analisi della rete multidimensionale è capire quanto sia
importante una particolare dimensione rispetto alle altre in base alla connettività di un
nodo.
Attraverso la formula della Dimension Relevance si calcola il rapporto tra il numero dei
vicini di un nodo collegato da archi appartenenti ad una specifica dimensione e il
numero totale dei suoi vicini; tuttavia, essendo la rete multidimensionale dobbiamo
considerare la seguente variante:
49	
	
Questa variante calcola la frazione dei vicini direttamente raggiungibile dal nodo v
seguendo archi appartenenti solo ad una dimensione appartenente a D.
La seguente formula è stata quindi applicata per ogni dimensione (Real Life e Facebook)
e i risultati ottenuti sono stati riportati in un grafico.
Fig. 51. Rapporto tra il numero dei vicini di un nodo collegato da archi che appartengono a
una specifica dimensione e il numero totale dei nodi suoi vicini.
Notiamo che numerosi nodi presentano valori di Dimension Relevance XOR al di sotto
della media e pochi nodi presentano valori elevati; l’andamento del grafico fa
presupporre che non sia presente una rete più importante rispetto ad un’altra.
DIMENSION CONNECTIVITY
Attraverso la Dimension Connectivity, cioè il rapporto degli archi della rete etichettati con
dimensione d, studiamo la percentuale di nodi o archi contenuti in una specifica
dimensione (EDC, Edge Dimension Connectivity) o che appartengono solo ad una data
dimensione tale che non ci siano altri archi tra i due nodi appartenenti ad altre
dimensioni (EEDC, Exclusive Edge Dimension Connectivity).
Nel primo caso la dimensione D è comune a più archi, nel secondo caso invece la
dimensione è esclusiva a due nodi.
50	
	
Attraverso gli script in Python, opportunamente creati sulla base delle librerie rese
disponibili dagli assistenti, sono state calcoate la EDC (Edge Dimention Connectivity) e la
EEDC (Exclusive Edge Dimention Connectivity), sia per i nodi sia per gli archi ottenendo i
seguenti risultati:
Colonna1
DC
(nodes)
EDC
(nodes)
DC
(edges)
EDC
(edges)
Real Life 1 0.43 0.96 0.13
Facebook 0.98 0.18 0.79 0.03
Fig. 52. Dimention Connectivity e Exclusive Dimention Connectivity, Real Life e Facebook.
Per quanto riguarda i calcoli relativi alla Dimension Connectivity dei nodi, per la rete Real
Life il valore ottenuto è 1 perché potenzialmente tutti i nodi sono raggiungibili ed
infatti è presente un’unica componente connessa, mentre per Facebook è 0.98, solo il
2% dei nodi non risulta collegato agli altri tramite il social network, che corrisponde ad
un solo studente visto che i nodi totali sono 48; inoltre il 96% degli archi sul totale
appartiene alla rete di Real Life e il 79% a quella di Facebook.
Per i calcoli relativi alla Exclusive Dimension Connectivity invece, nell’analisi dei nodi
otteniamo 43% per la Real Life e solo 18% per Facebook e quindi nella prima rete i nodi
sono più facilmente raggiungibili rispetto alla seconda; i valori calcolati sugli archi sono
il 13% e il 3% che conferma le precedenti considerazioni.
51	
	
D-CORRELATION
Si tratta di un aspetto della multidimensionalità che calcola il rapporto tra le coppie di
nodi/archi connesse in tutte le reti e il numero totale di coppie di nodi/archi connessi
in almeno una rete.
Questo rapporto fornisce un’idea di come siano ridondanti due dimensioni per
l’esistenza di un nodo o di un arco; queste due misure si basano sul coefficiente di
correlazione di Jaccard.
Nelle reti di Real Life e Facebook quindi con questa formula si calcola il rapporto tra gli
studenti che hanno avuto interazioni in entrambe le reti e il numero totale degli
studenti che presentano almeno un collegamento.
D-Correlation
Edges 0.56
Nodes 0.98
Fig. 53. Archi e nodi in comune in entrambe le sotto-reti.
I risultati mostrano come in queste due reti quasi la totalità dei nodi (98%) sia coinvolta
in entrambe le sotto-reti, mentre per gli archi, quelli in comune risultano poco più della
metà (56%).
52	
	
CONCLUSIONI
Il dataset utilizzato per le varie analisi era costituito dalle interazioni raccolte dagli
studenti nelle 12 settimane di corso. Le reti oggetto di analisi erano quelle di Real Life e
Facebook.
Le analisi effettuate da svariati punti di vista (sono stati studiati aspetti
multidimensionali, temporali ecc.) hanno fatto emergere l’alto livello di interazione del
gruppo classe. Interessante è stato notare che le interazioni della classe sono aumentate
nel corso delle settimane utili alla raccolta dati e nelle settimane centrali, i giorni
immediatamente prossimi alla consegna del “Middle Term Project” di Web Mining. In
quei giorni, gli individui hanno avuto diverse interazioni per chiedere chiarimenti sul
progetto o per confrontarsi con gli altri studenti. Inoltre, in quelle settimane, c’erano
anche prove in itinere di altri corsi, presumibilmente frequentati da più studenti della
classe di Web Mining. Lo dimostrano, ad esempio, i valori della componente connessa,
solitamente compresa tra 1 e 10, nel nostro caso 48. La classe si è suddivisa in macro-
gruppi di interazione corrispondenti alla facoltà di appartenenza e in micro-gruppi
corrispondenti per lo più ai gruppi di lavoro creati successivamente per il progetto
finale. Alcuni individui, tre per l’esattezza, hanno manifestato interazioni con quasi
tutto il gruppo classe e uno in particolare ha fatto da hub tra due macro-gruppi diversi
(presumibilmente quello di Informatica Umanistica e quello di Informatica per
l’Economia). Un caso isolato è quello di un individuo che ha avuto interazione con una
sola persona.
Anche per quanto riguarda la Link Prediction del gruppo classe il risultato non è stato da
meno, dal grafico è emersa, infatti, una rete “fitta” in cui la possibilità che altri nodi si
aggiungano a quello già esistenti è altissima.
Confrontando i dati relativi a Real Life e quelli relativi a Facebook possiamo notare
inoltre che le interazioni risultanti all'interno dei vari gruppi di lavoro sembrano
mantenere una stabilità maggiore rispetto alle interazioni tra i diversi gruppi. In altre
parole, il rapporto d'amicizia nella vita reale permette di tenere un valore di interazione
pressoché costante all'interno del singolo gruppo che interagisce anche attraverso
53	
	
Facebook. Questo valore di interazione tra Real Life e Facebook è invece scostante e
variabile nel caso in cui si considerino le interazioni tra gruppi diversi.
54	
	
RIFERIMENTI BIBLIOGRAFICI
[8] Michele Berlingerio, Michele Coscia, Fosca Giannotti, Anna Monreale,
DinoPedreschi: Foundations of Multidimensional Network Analysis.
ASONAM2011:485-489;
[2] Mark S. Granovetter: The Strength of Weak Ties. American Journal of
Sociology, Volume 78, Issue 6 (May, 1973), 1360-1380;
[3] David Liben-Nowell, Jon M. Kleinberg: The link prediction problem for social
networks. CIKM 2003: 556-559;
[1] Luca Pappalardo, Giulio Rossetti, Dino Pedreschi: How Well Do We Know
Each Other? Detecting Tie Strength in Multidimensional Social Networks. ASONAM
2012:1040-1045;

More Related Content

Similar to Network analysis - Irene Chiarolanza

Dispersion centrality
Dispersion centralityDispersion centrality
Dispersion centralitySimone Romano
 
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...Maurizio Peretto
 
Metodi matematici per l’analisi di sistemi complessi
Metodi matematici per l’analisi di sistemi complessiMetodi matematici per l’analisi di sistemi complessi
Metodi matematici per l’analisi di sistemi complessiLino Possamai
 
Extended Summary of Self-building Neural Networks
Extended Summary of Self-building Neural NetworksExtended Summary of Self-building Neural Networks
Extended Summary of Self-building Neural Networkschiarabotter
 
Learning of non-homogeneous Continuous Times Bayesian Networks Thesis
Learning of non-homogeneous Continuous Times Bayesian Networks ThesisLearning of non-homogeneous Continuous Times Bayesian Networks Thesis
Learning of non-homogeneous Continuous Times Bayesian Networks ThesisGuido Colangiuli
 
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...KevinMarzio
 
Social Network Analysis
Social Network Analysis Social Network Analysis
Social Network Analysis Claudia Licari
 
SNA e Scienza delle Reti
SNA e Scienza delle RetiSNA e Scienza delle Reti
SNA e Scienza delle Retieugenio iorio
 
Reti Neurali Su Personal Computer + Fuzzy Logic
Reti Neurali Su Personal Computer + Fuzzy LogicReti Neurali Su Personal Computer + Fuzzy Logic
Reti Neurali Su Personal Computer + Fuzzy LogicFausto Intilla
 
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...Marco Garoffolo
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei networkmttdlllbr
 
Progettazione e intelligenza artificiale
Progettazione e intelligenza artificialeProgettazione e intelligenza artificiale
Progettazione e intelligenza artificialeAlessandri Giuseppe
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data miningFrancesco Tamburini
 

Similar to Network analysis - Irene Chiarolanza (17)

Dispersion centrality
Dispersion centralityDispersion centrality
Dispersion centrality
 
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...
Tesi - Distrettualizzazione di reti acquedottistiche mediante la teoria delle...
 
Relazione
RelazioneRelazione
Relazione
 
Metodi matematici per l’analisi di sistemi complessi
Metodi matematici per l’analisi di sistemi complessiMetodi matematici per l’analisi di sistemi complessi
Metodi matematici per l’analisi di sistemi complessi
 
Extended Summary of Self-building Neural Networks
Extended Summary of Self-building Neural NetworksExtended Summary of Self-building Neural Networks
Extended Summary of Self-building Neural Networks
 
Learning of non-homogeneous Continuous Times Bayesian Networks Thesis
Learning of non-homogeneous Continuous Times Bayesian Networks ThesisLearning of non-homogeneous Continuous Times Bayesian Networks Thesis
Learning of non-homogeneous Continuous Times Bayesian Networks Thesis
 
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...
Graph partitioning: implementazione dell'algoritmo spettrale e confronto con ...
 
AV_tesi_v5
AV_tesi_v5AV_tesi_v5
AV_tesi_v5
 
Social Network Analysis
Social Network Analysis Social Network Analysis
Social Network Analysis
 
SNA e Scienza delle Reti
SNA e Scienza delle RetiSNA e Scienza delle Reti
SNA e Scienza delle Reti
 
Reti Neurali Su Personal Computer + Fuzzy Logic
Reti Neurali Su Personal Computer + Fuzzy LogicReti Neurali Su Personal Computer + Fuzzy Logic
Reti Neurali Su Personal Computer + Fuzzy Logic
 
Social Network Analysis
Social Network AnalysisSocial Network Analysis
Social Network Analysis
 
Descrizione di NO-SQL
Descrizione di NO-SQLDescrizione di NO-SQL
Descrizione di NO-SQL
 
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...
PROGETTAZIONE ED IMPLEMENTAZIONE DI STRUMENTI PER LA VALUTAZIONE DI RETI COMP...
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei network
 
Progettazione e intelligenza artificiale
Progettazione e intelligenza artificialeProgettazione e intelligenza artificiale
Progettazione e intelligenza artificiale
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 

More from Irene Chiarolanza

Flayer Associazione Sportiva
Flayer Associazione SportivaFlayer Associazione Sportiva
Flayer Associazione SportivaIrene Chiarolanza
 
Reportage Le dune del Parco di S.Rossore
Reportage Le dune del Parco di S.RossoreReportage Le dune del Parco di S.Rossore
Reportage Le dune del Parco di S.RossoreIrene Chiarolanza
 
Reportage simulazione evento catastrofico
Reportage simulazione evento catastrofico Reportage simulazione evento catastrofico
Reportage simulazione evento catastrofico Irene Chiarolanza
 
La tutela dei dati personali in Google street view - Irene Chiarolanza
La tutela dei dati personali in Google street view -  Irene ChiarolanzaLa tutela dei dati personali in Google street view -  Irene Chiarolanza
La tutela dei dati personali in Google street view - Irene ChiarolanzaIrene Chiarolanza
 
Accessibilità WC AG 2 - Irene Chiarolanza
Accessibilità WC AG 2 - Irene ChiarolanzaAccessibilità WC AG 2 - Irene Chiarolanza
Accessibilità WC AG 2 - Irene ChiarolanzaIrene Chiarolanza
 
Studio valutazione euristica - Irene Chiarolanza
Studio valutazione euristica - Irene ChiarolanzaStudio valutazione euristica - Irene Chiarolanza
Studio valutazione euristica - Irene ChiarolanzaIrene Chiarolanza
 
Visual design interfacce - Interface Design
Visual design interfacce - Interface DesignVisual design interfacce - Interface Design
Visual design interfacce - Interface DesignIrene Chiarolanza
 
Adattamento - Irene Chiarolanza
Adattamento  - Irene Chiarolanza Adattamento  - Irene Chiarolanza
Adattamento - Irene Chiarolanza Irene Chiarolanza
 
Modello di task - Irene Chiarolanza
Modello di task - Irene ChiarolanzaModello di task - Irene Chiarolanza
Modello di task - Irene ChiarolanzaIrene Chiarolanza
 
Visual design - Irene Chiarolanza
Visual design - Irene Chiarolanza Visual design - Irene Chiarolanza
Visual design - Irene Chiarolanza Irene Chiarolanza
 
Learning technology - Irene chiarolanza
Learning technology - Irene chiarolanzaLearning technology - Irene chiarolanza
Learning technology - Irene chiarolanzaIrene Chiarolanza
 

More from Irene Chiarolanza (14)

Flayer Associazione Sportiva
Flayer Associazione SportivaFlayer Associazione Sportiva
Flayer Associazione Sportiva
 
Data set 3d model
Data set 3d modelData set 3d model
Data set 3d model
 
Reportage Le dune del Parco di S.Rossore
Reportage Le dune del Parco di S.RossoreReportage Le dune del Parco di S.Rossore
Reportage Le dune del Parco di S.Rossore
 
Logo
Logo Logo
Logo
 
Reportage Cross Fit Games
Reportage Cross Fit GamesReportage Cross Fit Games
Reportage Cross Fit Games
 
Reportage simulazione evento catastrofico
Reportage simulazione evento catastrofico Reportage simulazione evento catastrofico
Reportage simulazione evento catastrofico
 
La tutela dei dati personali in Google street view - Irene Chiarolanza
La tutela dei dati personali in Google street view -  Irene ChiarolanzaLa tutela dei dati personali in Google street view -  Irene Chiarolanza
La tutela dei dati personali in Google street view - Irene Chiarolanza
 
Accessibilità WC AG 2 - Irene Chiarolanza
Accessibilità WC AG 2 - Irene ChiarolanzaAccessibilità WC AG 2 - Irene Chiarolanza
Accessibilità WC AG 2 - Irene Chiarolanza
 
Studio valutazione euristica - Irene Chiarolanza
Studio valutazione euristica - Irene ChiarolanzaStudio valutazione euristica - Irene Chiarolanza
Studio valutazione euristica - Irene Chiarolanza
 
Visual design interfacce - Interface Design
Visual design interfacce - Interface DesignVisual design interfacce - Interface Design
Visual design interfacce - Interface Design
 
Adattamento - Irene Chiarolanza
Adattamento  - Irene Chiarolanza Adattamento  - Irene Chiarolanza
Adattamento - Irene Chiarolanza
 
Modello di task - Irene Chiarolanza
Modello di task - Irene ChiarolanzaModello di task - Irene Chiarolanza
Modello di task - Irene Chiarolanza
 
Visual design - Irene Chiarolanza
Visual design - Irene Chiarolanza Visual design - Irene Chiarolanza
Visual design - Irene Chiarolanza
 
Learning technology - Irene chiarolanza
Learning technology - Irene chiarolanzaLearning technology - Irene chiarolanza
Learning technology - Irene chiarolanza
 

Network analysis - Irene Chiarolanza

  • 1. WEB MINING E ANALISI DI RETI SOCIALI Irene Chiarolanza Prof. Dino Pedreschi Dott. Giulio Rossetti Dott. Luca Pappalardo
  • 2. 2 INDICE 1. Introduzione p. 3; 2. Network Analysis p. 5; 3. Tie Strength I e II p. 24; 4. Link Prediction I e II p. 30; 5. Trust I e II p. 36; 6. Multidimentional Network Analysis p. 46; 7. Conclusioni p. 52; 8. Riferimenti bibliografici p. 54.
  • 3. 3 INTRODUZIONE Lo studio affrontato è stato svolto sulla base di approfondite analisi effettuate sui dati raccolti dalla classe di Web Mining dell’anno accademico 2012-2013 per otto settimane. I dati raccolti forniscono le interazioni tra gli studenti della classe nella vita reale, in Facebook, in Google Plus e in Twitter. Il dataset utilizzato è stato creato in questo modo: ID_utente1, ID_utente2, ID_network, ID_week, Strength, Trust. I primi due attributi corrispondono agli identificativi resi anonimi, dello studente che registra l’interazione e dello studente su cui si realizza l’interazione. L’ID_network e l’ID_week rappresentano il tipo di network analizzato e la settimana di riferimento, Strength indica la forza di ogni relazione (con valore compreso tra 1 e 5) e Trust è la fiducia assegnata ad ogni relazione (con valore compreso tra 1 e 5). Alla fine del corso, tutte le interazioni sono state raccolte in file .txt, da cui è stato possibile estrapolare il grafo della rete con Cytoscape e gli altri dati necessari per lo studio delle altre componenti della rete, per cui ci si è servito sia di Excel che di alcuni script in Python. Nell’analisi non sono state prese in considerazione le interazioni avvenute con Twitter e Google Plus, perché a nostro avviso irrilevanti rispetto alle altre analizzate. Prima di affrontare lo studio generale con Cytoscape ci si è accorti che tutte le reti analizzate presentavano archi duplicati, quindi sono stati rimossi per non falsare le analisi.
  • 4. 4 Sono stati svolti i seguenti esercizi, per un valore complessivo di 11 punti: - Network Analysis [2 points]; - Tie Strength I e II [1+2 points]; - Link Prediction I e II [1+2 points]; - Trust I e II [1+1 points]; - Multidimentional Network Analysis [2 points];
  • 5. 5 NETWORK ANALYSIS Tramite il software Cytoscape sono state analizzate le reti come dirette temporali pesate1 , tranne che per la realizzazione delle strutture dove sono stati rimossi gli archi duplicati. Sono stati presi in esame i dataset contententi anche Trust. FULL (TRUST) - |V| = 48; - |E| = 1402; Fig. 1. Struttura rete Full con archi duplicati. 1 Le reti possono essere viste come dei grafi. Un grafo è un insieme di elementi detti nodi o vertici collegati fra loro da archi o lati. Più formalmente, si dice grafo una coppia ordinata G = (V, E) di insiemi, con V insieme dei nodi ed E insieme degli archi, tali che gli elementi di E siano coppie di elementi di V (da segue in particolare che ). Un grafo diretto è una specie particolare di grafo in cui l'ordine dei vertici in un lato ha importanza. Un lato (u, v) di tale grafo, detto anche lato diretto, si dice uscente da u ed entrante in v. Un lato diretto è spesso rappresentato da una freccia nella direzione del vertice entrante. In un grafo diretto le connessioni sono rappresentate da coppie ordinate di vertici, mentre in un grafo indiretto sono rappresentate da coppie non ordinate di vertici e sono rappresentate con E = {vi, vj}. I grafi diretti e indiretti possono essere pesati, ovvero ai vertici e/o alle connessioni possono essere associati dei pesi (dei valori che stabiliscono l’importanza di un certo tipo di legame o interazione). I grafi temporali sono, banalmente, grafi che variano nel tempo. L'idea di base, dato un grafo temporale, è quella di avere una visualizzazione più o meno approfondita di come questo evolve con il passare del tempo, cercando di capirne i motivi, legandoli ad avvenimenti storici o sociali conosciuti. Il risultato potrebbe essere paragonato ad un video che rappresenta le variazioni di clima nei prossimi periodi: esso dà una visualizzazione globale di ciò che accade – o sta per accadere – permettendo di raccogliere utili informazioni sull'evoluzione dello stato nel tempo.
  • 6. 6 Fig. 2. Rimozione dalla rete Full degli archi duplicati. Fig. 3. Rete Full senza archi duplicati.
  • 7. 7 Fig. 4. Struttura rete Full. I nodi più grandi sono quelli con più interazioni. Fig. 5. I dati dell’analisi. COMPONENTE CONNESSA La componente connessa di un grafo è il sottoinsieme di nodi connessi tra loro. Il network analizzato possiede una componente gigante, che è una componente connessa che contiene tutti i nodi, che sono 48. Un grafo con componente connessa ideale dovrebbe possedere questo valore in un intervallo che va da 1 a 10, nel nostro caso, il valore in questione è 48, quindi, di gran lunga più alto. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione.
  • 8. 8 COEFFICIENTE DI CLUSTERING Il coefficiente di clustering stima quanto i nodi adiacenti ad un altro nodo siano in relazione fra loro. Per esempio, nelle reti sociali dove gli archi rappresentano la relazione di amicizia/frequentazione, il coefficiente di clustering fornisce una stima di quanto il gruppo, o comunità, sia chiuso rispetto agli altri nodi nella rete. In questo caso, esso è pari a 0.519, quindi poco più della metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è la massima distanza fra ogni coppia di nodi nel grafo. Più è alto il suo valore, più i nodi sono lontani tra loro. Nel nostro caso il valore è 5, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude la maggior parte dei nodi). RAGGIO Il raggio rappresenta il minimo valore tra le eccentricità dei nodi. In questo caso è pari a 3. NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.432. Nello studio delle reti complesse, la nozione di centralità può essere importante per: • Giudicare la rilevanza/criticità di nodi o aree delle rete; • Attribuire una misura di distanza fra nodi o aree delle rete; • Identificare il grado di coesione di un’area delle rete; • Identificare le aree di una rete (i gruppi coesi, le sue comunità).
  • 9. 9 In questo caso essa rappresenta un valore relativamente basso, perché probabilmente i nodi non fanno capo ad un unico centro, ma sono dislocati su più punti focali all’interno della componente gigante. CAMMINO MINIMO Il valore che emerge è 2256 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.315. SHORTEST PATH LENGTH DISTRIBUTION Fig. 6. Shortest path length distribution della rete Full.
  • 10. 10 Analizzando la Shortest Path Length Distribution è possibile notare che la moda della distribuzione è pari a 2. Questo dimostra che la maggior parte dei nodi viene raggiunta da un cammino minimo di 2. NODE DEGREE DISTRIBUTION (IN E OUT) Fig. 7. In-degree distribution della rete Full. Fig. 8. Out-degree distribution della rete Full.
  • 11. 11 Sono stati generati gli istogrammi, con i dati elaborati da Cytoscape, della distribuzione del grado in entrata e in uscita. I dati, che sono stati raggruppati con un intervallo di 10, hanno dimostrato che la maggior parte dei nodi ha un grado compreso tra 20 e 100, mentre solo 3 nodi hanno valore 1, perché solo 3 studenti hanno molti archi sia in entrata che in uscita.
  • 12. 12 FACEBOOK (TRUST) - |V| = 41; - |E| = 505; Fig. 9. Struttura della rete Facebook con archi duplicati. Fig. 10. Rimozione dalla rete Facebook degli archi duplicate.
  • 13. 13 Fig. 11. Struttura della rete Facebook senza archi duplicati. Fig. 12. Struttura della rete Facebook. I nodi più grandi sono quelli con più interazioni.
  • 14. 14 Fig. 13. I dati dell’analisi. COMPONENTE CONNESSA Il network analizzato possiede una componente gigante, che è una componente connessa che contiene l’insieme dei nodi della rete, che sono 41. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione su Facebook. COEFFICIENTE DI CLUSTERING Il coefficiente di clustering è pari a 0.403, quindi, meno della metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è 6, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude tutti i nodi). RAGGIO Il raggio è pari a 3.
  • 15. 15 NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.488, anche in questo caso il valore è relativamente basso perché i nodi non fanno capo ad un unico centro ma sono dislocati su più punti focali all’interno della componente gigante. CAMMINO MINIMO Il valore che emerge è 1640 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.429. SHORTEST PATH LENGTH DISTRIBUTION Fig. 14. Shortest path length distribution della rete Facebook.
  • 16. 16 Il valore con frequenza più alta è 2 anche se, rispetto alle altre distribuzioni, risulta più basso e ci sono più cammini di lunghezza maggiore a 2, perché ci sono state molte più interazioni nella vita reale che su Facebook. NODE-DEGREE DISTRIBUTION (IN E OUT) Fig. 15. In-degree distribution della rete Facebook. Fig. 16. Out-degree distribution della rete Facebook.
  • 17. 17 Nella rete Facebook la maggior parte dei nodi ha un grado compreso tra 0 e 30. Ci sono pochi studenti che hanno molti archi in entrata e in uscita, ad eccezione di uno, che ne ha avuti molti in entrata e in uscita e un altro, che ne ha avuti, invece, molti in uscita.
  • 18. 18 REAL LIFE (TRUST) - |V| = 47; - |E| = 834; Fig. 17. Struttura della rete Real Life con archi duplicati. Fig. 18. Rimozione dalla rete Real Life degli archi duplicate.
  • 19. 19 Fig. 19. Struttura della rete Real Life senza archi duplicati. Fig. 20. Struttura della rete Real Life. I nodi più grandi sono quelli con più interazioni.
  • 20. 20 Fig. 21. I dati dell’analisi. COMPONENTE CONNESSA Il network analizzato possiede una componente gigante, che è una componente connessa che a sua volta contiene una frazione di tutti i nodi, che sono 47. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione nella vita reale (data probabilmente dalla frequenza del corso). COEFFICIENTE DI CLUSTERING Il coefficiente di clustering è pari a 0.476, quindi, quasi la metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è 8, misura nella norma, quindi i nodi sono abbastanza vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude tutti i nodi). RAGGIO Il raggio è pari a 4.
  • 21. 21 NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.301. CAMMINO MINIMO Il valore che emerge è 2162 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.666. SHORTEST PATH LENGTH DISTRIBUTION Fig. 22. Shortest path length distribution della rete Real Life.
  • 22. 22 Anche in questo caso, il valore con frequenza più alta (la moda) è pari a 2. Questo ci dimostra, nuovamente, che la maggior parte dei nodi può essere raggiunta con un cammino molto breve. NODE DEGREE DISTRIBUTION (IN E OUT) Fig. 23. In-degree distribution della rete Real Life. Fig. 24. Out-degree distribution della rete Real Life.
  • 23. 23 Nella rete Real Life la maggior parte dei nodi ha un grado compreso tra 0 e 80. Anche in questo caso, ci sono pochi studenti che hanno molti archi in entrata e in uscita. Uno studente in particolare ha avuto molti archi, sia in entrata che in uscita.
  • 24. 24 TIE STRENGTH 3.1 EVOLUTION OF STRENGTH La registrazione dei dati prevedeva l’assegnazione ad ogni interazione di una forza, intesa come quantità e qualità, che poteva assumere un valore compreso tra 1 e 5. Nei prossimi due punti analizziamo come questa cambia nelle interazioni tra gli studenti nel corso delle otto settimane e studiamo la forza dei legami sfruttando la multidimensionalità, considerando le reti come dirette temporali pesate2 . Per analizzare come la forza (Strength) si sia evoluta durante il periodo della raccolta dei dati per le interazioni della rete Real Life e Facebook è stato realizzato per entrambe un grafico ad istogramma che mostra per ogni settimana quante interazioni ci sono state, raggruppate per settimana. Come primo passo, tramite del codice in Python, abbiamo estratto dai due file in formato .txt, che contenevano le interazioni di Facebook e quelle di Real Life, i dati per creare una lista di ogni settimana con all’interno la somma delle interazioni raggruppate per livello di forza; successivamente abbiamo utilizzato Excel per la creazione di grafici. 2 Cfr. nota 1 pag. 5.
  • 25. 25 Fig. 25. Evoluzione della forza dei legami nel tempo. Rete Facebook. Fig. 26. Evoluzione della forza dei legami nel tempo. Rete Real Life. Nelle Fig. 25 e Fig. 26 è possibile seguire l'andamento delle interazioni su Facebook e nella vita reale durante le otto settimane di corso. Nel primo grafico si nota subito 45 33 26 34 55 27 43 41 39 34 27 27 31 40 40 38 48 34 33 32 37 27 39 30 20 19 30 29 24 28 18 31 30 21 21 22 30 19 26 31 0 50 100 150 200 1 2 3 4 5 6 7 8 1 2 3 4 5 19 12 4 14 23 12 22 20 19 17 4 30 29 18 26 16 27 18 17 25 32 37 29 22 20 14 9 19 24 27 16 17 18 13 16 20 21 27 28 20 0 20 40 60 80 100 120 140 1 2 3 4 5 6 7 8 1 2 3 4 5
  • 26. 26 come gli studenti abbiano interagito maggiormente nella prima (Tie strenght 48) e quinta (Tie strenght 55) settimana di corso. I valori si mantengono invece stabili nelle restanti settimane. Nella Fig. 26 il picco delle interazione si è avuto tra la quinta e la sesta settimana, dimunisce notevolmente nella terza settimana. Confrontando invece la rete con la figura 26 emerge che mentre sulla rete Facebook c'è stato un notevole incremento delle interazioni sulla rete Real Life non è stato così. La spiegazione potrebbe risiedere nel fatto che gli studenti frequentavano con meno assiduità le lezioni ma continuavano a tenersi in contatto interagendo sul social network.
  • 27. 27 3.2 MULTIDIMENSIONAL TIE STRENGTH Per studiare la forza dei legami è stato usato l’approccio della multidimensionalità proposto nel riferimento [1] applicando ad ogni coppia di nodi la formula della forza dei legami multidimensionali : Dove hd corrisponde alla similarità dei nodi in una singola dimensione nella quale Wd rappresenta l’intensità dell’interazione tra i nodi nella dimensione d e d l’insieme dei vicini di un nodo. E corrisponde invece alla ridondanza della connessione, dove DR è la frazione dei vicini che diventano direttamente irraggiungibili da un nodo se tutti i nodi nella dimensione specifica sono rimossi. Attraverso uno script in Python è stata applicata al file contenente le interazioni (wmr_network_full.txt) la funzione della forza dei legami multidimensionali (str). Il risultato è stata la creazione di un ulteriore file in .txt, nel quale sono stati scritti in output (come risultato dello script) tutte le coppie di nodi con la relativa forza, ottenuta tenendo conto della similarità e della ridondanza. I risultati della forza dei legami, ottenuti applicando la funzione in oggetto, oscillano tra 0.28 e 9.8 (valori che sono stati successivamente rielaborati con Cytoscape). Successivamente, con Cytoscape sono stati analizzati i risultati attraverso la rappresentazione di grafi che mostrano la struttura della rete dove è stato impostato il colore degli archi in base alla variazione della forza dei legami: giallo per la forza compresa tra 0 e 5, rosso da 5 a 7, e blu da 7 a 9.8.
  • 28. 28 Fig. 27. Struttura della rete Full che evidenzia la forza dei legami. Dalla figura emerge che la maggior parte dei legami ha una forza compresa tra 0 e 5, a seguire quelli tra 5 e 7 e rari quelli oltre il 7. La spiegazione sta nel fatto che la maggior parte degli studenti si è conosciuta o ha rapporti con gli altri prevalentemente in ambito universitario, di conseguenza, la valutazione del legame è circoscritta a questo ambito. Per evidenziare come cambia la struttura della rete, abbiamo infine rimosso gli archi con forza minore di 5 (Fig. 28), quelli con forza maggiore di 5 (Fig. 29), e quelli con forza maggiore di 7 (Fig. 30).
  • 29. 29 Fig. 28. Strength<5; Fig. 29. Strength>5; Fig. 30. Strength>7; Dai grafi risultanti vediamo che nella Fig. 30 la sotto-rete è formata da pochi nodi e da 4 componenti connesse, ciò dimostra quindi che le relazioni più intense si sono create tra un gruppo ristretto di studenti; allo stesso tempo però nella Fig. 29, dove sono presenti solo gli archi con forza maggiore di 5, è comunque presente una grande componente connessa che rende la sotto-rete abbastanza unita.
  • 30. 30 LINK PREDICTION 4.1 LINK PREDICTION Attraverso la Link Prediction si cerca di individuare l’insieme di archi che, a partire da un primo intervallo detto di Training, verranno più probabilmente creati in un secondo intervallo temporale detto di Test: per ogni arco viene calcolato (da un predittore) un valore che indica la probabilità (Score) che questo entri nel grafo in un futuro intervallo di tempo. Il dominio di analisi in questo caso sono quindi le reti dinamiche, cioè quelle in cui la struttura cambia ed evolve nel tempo e quindi sono state utilizzate le reti di Real Life e di Facebook come non dirette temporali e pesate3 alle quali sono stati applicati gli approcci di previsione proposti nel riferimento [3]: Common Neighbours, Jaccard, Adamic Adar, Preferential attachment. Fig. 31. Predittori Link Prediction. COMMON NEIGHBORD Questo algoritmo assegna uno Score agli archi seguendo la seguente formula che considera il numero dei vicini comune ai due nodi. 3 Cfr. nota 1 pag. 5.
  • 31. 31 JACCARD SIMILARITY Misura la probabilità che sia x che y abbiano una feature f (vicini nel grafo); lo Score viene assegnato tramite la formula ADAMIC ADAR È un modello di valutazione basato sulla correlazione tra due pagine web. Per analizzare la correlazione tra due pagine si analizzano le caratteristiche di entrambe e se ne definisce la somiglianza, secondo la formula: PREFERENTIAL ATTACHMENT L’approccio del predittore Preferential Attachment si basa sulla probabilità che la possibilità che un arco si colleghi a un nodo x sia direttamente proporzionale al numero dei vicini del nodo in questione. Più semplicemente, maggiore è il numero dei vicini di un nodo, più alta è la possibilità che un arco si colleghi al nodo in questione in futuro. ANALISI Nelle seguenti tabelle i valori corrispondono al rapporto tra la performance del predittore (Common Neighbour, Jaccard, Adamic Adar e Preferential Attachment) e la performance di un predittore scelto casualmente. Essi ricoprono la prima settimana, quella centrale e l’ultima, in modo tale da vedere l’evoluzione nel tempo delle due reti.
  • 32. 32 Misure Facebook Training Test Common N. Jaccard Adamic A. Preferenial A. 1 7 2,79 2,51 2,37 2,16 4 4 2,62 1,67 3,57 3,57 7 1 0 0 17,55 17,55 Fig. 32. Confronto tra predittori per la rete Facebook. Misure Real Life Training Test Common N. Jaccard Adamic A. Preferenial A. 1 7 2,65 2,55 2,23 2,23 4 4 3,51 2,51 2,76 2,51 7 1 16,22 10,82 0 16,22 Fig. 33. Confronto tra predittori per la rete Real Life. Nella rete Real Life dalle tabelle vediamo che i valori migliori riguardano l’approccio Adamic Adar e Preferential Attachment: per il primo approccio si può affermare che se la comunità di nodi condivisa da x e y è esclusiva/selettiva entrambi nodi avranno più alta probabilità di interagire tra loro; per il secondo, un nodo che presenta numerose interazioni attrae sia nuovi nodi sia, soprattutto, altri nodi con un numero alto di interazioni/archi. Per quanto riguarda la rete di Facebook, dalle tabelle vediamo che i valori migliori riguardano l’approccio Preferential Attachment e Common Neighbours: all’aumentare del numero degli amici di due nodi aumenta anche la probabilità che interagiscano nel futuro. I risultati migliori sono forniti rispettivamente in Facebook da Preferential Attachment e Common Neighbours e in Real Life da Adamic Adar e Preferential Attachment in quanto risultano più vicini alla realtà. I valori si riferiscono alla settima ed ultima settimana di corso, in cui è presumibilmente più semplice prevedere quali cambiamenti subirà la rete in questione.
  • 33. 33 4.2 MULTIDIMENSIONALITY OF THE NETWORK Attraverso l’analisi multidimensionale di una rete si cerca di prevedere quali possono essere i collegamenti su una stessa rete partendo dai nodi presenti, in particolare partendo dall’analisi di una rete e utilizzando uno dei predittori si calcola la possibilità che altri nodi in futuro si aggiungano alla rete già presente. Nell’analisi delle reti ci sono quattro possibili tipi di analisi: - Common Neighbors; - Adamic Adar; - Jaccard; - Preferential Attachment. Nell’analisi seguente la metodologia utilizzata è quella del Common neighbors e la rete analizzata è Real life. Dalla letteratura emerge che, l’evoluzione di una rete dipende principalmente da tre fattori: - Dalle interazioni di un nodo, infatti un nodo con un grado elevato di archi (nella fattispecie uno studente con molti collegamenti) tenderà ad attrarre più nodi; - Dall’interazione tra le dimensioni; - Dall’evoluzione temporale di un collegamento. La funzione Neighbors è definita nel modo seguente: Neighbors (v, D) = {U ∈ V|∃(U, v, d) ∈ E∧ d∈ D} Questa funzione restituisce l'insieme di tutti i nodi direttamente raggiungibili dal nodo v. La variante delle funzione Neighbors è rappresentata da neighbors xor: (V, D) = {U ∈ V|∃d ∈ D: (U, v, d) ∈ E∧ d∈ D: (U, v, d )∈ E}
  • 34. 34 Questa funzione, considerando una dimensione D, restituisce l’insieme di nodi vicini tra loro e li collega da archi che appartengono alla dimensione D. Attraverso gli script realizzati in Python, ottenuti elaborando le funzioni contenute nelle librerie fornite dagli assistenti e utilizzando per la realizzazione del grafo il software Cytoscape, si è giunti al seguente risultato: - |V| = 169; - |E| = 224; Fig. 34. Link Prediction. Analisi multidimensionale della rete Real Life.
  • 35. 35 Il grafo dimostra come la maggior parte dei nodi è collegata, cioè gli studenti sono in contatto tra loro, mentre sono pochi quelli che rimangono isolati e con pochi archi. Il cammino minimo tra i nodi è pari al 90%, quindi i cammini sono abbastanza brevi. I nodi sono quasi tutti vicini e connessi tra loro. Dall'analisi della rete e dai risultati ottenuti è facile immaginare che la probabilità che in futuro altri nodi si aggiungano a quelli già presenti sia altissima, poiché allo stato attuale la rete appare “fitta” di collegamenti e la maggior parte degli studenti è in contatto tra di loro.
  • 36. 36 TRUST 5.1 TRUST Durante la raccolta dei dati gli studenti hanno assegnato ad ogni interazione anche una Trust, ovvero un valore che misura il rapporto in termini di fiducia, onestà e sincerità. Anche in questo caso tutte le interazioni sono state raccolte in un file .txt per la rete globale (Full), per quella di Real Life e per quella di Facebook, per poi essere elaborate. L’obiettivo è quello di studiare la correlazione tra i valori di Strength e Trust per ogni dimensione sia statica che dinamica; la rete utilizzata in questo caso è diretta non temporale e pesata4 . Innanzitutto è stata calcolata la differenza tra i suddetti valori per ogni interazione nelle due dimensioni; successivamente sono stati raggruppati i risultati ottenuti. Per illustrare i risultati sono stati realizzati grafici ad istogramma, sia per la rete di Real Life sia per quella di Facebook. RAPPORTO STRENGTH/TRUST FACEBOOK Fig. 35. Rapporto Strength/Trust rete Facebook. 4 Cfr. nota 1, pag. 5. 20 86 93 218 59 7 2 0 50 100 150 200 250 -3 -2 -1 0 1 2 3 Totale
  • 37. 37 RAPPORTO STRENGTH/TRUST REAL LIFE Fig. 36. Rapporto Strength/Trust rete Real Life. Vediamo che, per entrambe le reti prevale la differenza uguale a 0, ovvero quando il valore dei due attributi coincide. Ciò sta a significare che la tendenza degli studenti è stata quella di assegnare lo stesso valore di forza e di fiducia all’interazione. Allo stesso tempo vediamo come risulti più probabile che ad un valore di fiducia alto ne corrisponda uno di forza più basso rispetto al contrario, evidentemente perché ad interazioni frequenti non è detto che corrisponda un aumento di fiducia e, anche se la forza è bassa, la fiducia in molti casi è alta probabilmente perché gli studenti si conoscevano da prima dell’inizio del corso o perché frequentavano altri corsi insieme. Per studiare la dinamicità, cioè come la forza e la fiducia si sono evolute nel corso delle otto settimane, i record sono stati raggruppati per settimana calcolando la media dei valori per la Strength e la Trust. I risultati per le due dimensioni sono stati, infine, riportati in un grafico a linee, per meglio evidenziarne l’andamento e per consentire un confronto più sistematico. Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori di forza alle interazioni nel social network dando quindi più importanza a quelle avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la fiducia risulta sempre maggiore rispetto alla forza. 3 14 36 58 211 70 9 0 50 100 150 200 250 -4 -3 -2 -1 0 1 2 Totale
  • 38. 38 Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia dipendente dalla forza. TRUST AND CLASSICAL NETWORK MEASURE CORRELATION L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e pesata. I risultati sono riportati nei seguenti grafici. FACEBOOK week strength trust 1 2,821429 3,392857 2 2,68 3,44 3 2,97619 3,571429 4 3,203704 3,537037 5 3,028986 3,318841 6 3,115385 3,403846 7 2,75 3,338235 8 2,863636 3,5 Fig. 37. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati numerici. Fig. 38. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati grafici.
  • 39. 39 REAL LIFE week strength trust 1 2,925926 3,296296 2 2,815789 3,342105 3 3,5 3,653846 4 2,868852 3,04918 5 3 3,096774 6 3,053571 3,392857 7 3,14 3,18 8 2,944444 3,203704 Fig. 39. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati numerici. Fig. 40. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati grafici. Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori di forza alle interazioni nel social network dando quindi più importanza a quelle avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la fiducia risulta sempre maggiore rispetto alla forza. Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia dipendente dalla forza.
  • 40. 40 5.2 TRUST AND CLASSICAL NETWORK MEASURE CORRELATION L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e pesata. I risultati sono riportati nei seguenti grafici. FACEBOOK Fig. 41. Correlazione tra Trust e Edge Betwenness, rete Facebook. Fig. 42. Correlazione tra Trust e Common Neighbours, rete Facebook. 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 1 2 3 4 5 Edge Betweenness Trust 0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 5,000 1 2 3 4 5 Common Neighbours Trust
  • 41. 41 I valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto nella rete di Facebook, infatti al crescere della fiducia aumenta anche il numero dei vicini comuni. Probabilmente questo accade poiché una coppia di nodi legata da un valore Trust alto avrà sempre (potenzialmente) più amici in comune rispetto ad una coppia di nodi legata da un valore di Trust basso. Fig. 43. Correlazione tra Trust e Jaccard, rete Facebook. Fig. 44. Correlazione tra Trust e Adamic Adar, rete Facebook. 0,000 0,050 0,100 0,150 0,200 0,250 0,300 0,350 0,400 1 2 3 4 5 Jaccard Trust 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1 2 3 4 5 Adamic Adar Trust
  • 42. 42 Le medesime riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard, anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust=4: questo coefficiente e la Trust sono direttamente proporzionali, quindi se aumenta la fiducia aumentano anche le probabilità che i due nodi abbiano amici comuni.
  • 43. 43 REAL LIFE Fig. 45. Correlazione tra Trust e Edge Betwenness, rete Real Life. Fig. 46. Correlazione tra Trust e Common Neighbours, rete Real Life. Per quanto riguarda i valori di Trust, anche qui si nota che al crescere della fiducia aumenta significativamente anche il numero dei vicini comuni. 0,000 0,002 0,004 0,006 0,008 0,010 0,012 0,014 0,016 0,018 0,020 1 2 3 4 5 Edge Betweenness Trust 0 1 2 3 4 5 6 7 1 2 3 4 5 Common neighbors Trust
  • 44. 44 Fig. 47. Correlazione tra Trust e Jaccard, rete Real Life. Fig. 48. Correlazione tra Trust e Adamic Adar, rete Real Life. In conclusione, si può dire che un dato anomalo si registra in corrispondenza del valore di Trust pari a 3: infatti la rete di Facebook risulta avere un numero medio di vicini più basso rispetto a quello di Real Life. Dai risultati ottenuti si nota che i valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto nella rete di Facebook, e quindi nel caso in cui rimuovessimo gli archi con Trust uguale a 5 la rete rimarrebbe comunque compatta. 0,000 0,050 0,100 0,150 0,200 0,250 0,300 0,350 0,400 0,450 1 2 3 4 5 Jaccard Trust 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1 2 3 4 5 Adamic Adar Trust
  • 45. 45 Analoghe riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust 4: questo coefficiente e Trust sono direttamente proporzionali quindi se aumenta la fiducia aumenta anche la probabilità che i due nodi abbiano amici comuni. Infine notiamo come anche nel rapporto tra i punteggi di Trust e quelli ottenuti tramite il metodo Adamic Adar la relazione segua un andamento crescente ad eccezione del valore in corrispondenza di Trust uguale a 3 nella rete Facebook.
  • 46. 46 MULTIDIMENTIONAL NETWORK ANALYSIS Per uno studio multidimensionale delle reti abbiamo utilizzato le formule introdotte nel riferimento [8] prendendo in esame solo le reti di Real Life e Facebook come dirette dinamiche pesate5 : per tutte le interazioni tra due nodi è stato considerato un solo arco avente come Strength la media delle forze su tutto il periodo delle otto settimane. NEIGHBOURS Il grado di un nodo si riferisce alle connessioni di un nodo in una rete ed è definito come il numero di archi adiacenti al nodo stesso che, nel caso di reti monodimensionali corrisponde al numero dei vicini; nelle reti multidimensionali invece il grado di un nodo e il numero dei vicini non sono correlati poiché ci possono essere più archi tra due nodi. Per calcolare il numero dei vicini per la rete multidimensionale è stata utilizzata la seguente formula: Dove NeighborSet corrisponde al numero di tutti i nodi direttamente raggiungibili dal nodo v tramite gli archi aventi rispettiva dimensione d. Attraverso la rielaborazione degli script forniti durante il corso è stato calcolato il numero dei vicini adiacenti ad ogni nodo e i risultati sono stati rappresentati in un grafico ad istogramma. 5 Cfr. nota 1 pag. 5.
  • 47. 47 Fig. 49. Numero dei vicini di ogni nodo. Rete Full. Il grafico fornisce una panoramica dei numeri di vicini per ogni nodo. È evidente che in alcuni casi tale numero sfiora il picco di 35 vicini, mentre in altri raggiunge a stento il 5. Ciò significa che alcuni nodi risultano essere più “centrali” rispetto ad altri che hanno, invece, meno vicini e si trovano in una posizione più isolata all’interno del network. Si può dedurre che questi ultimi nodi siano gli studenti che rispetto agli altri interagiscono di meno, magari per timidezza. Con la formula del Neighbors XOR sono stati invece considerati soltanto i nodi adiacenti connessi tra loro da archi appartenenti soltanto ad una data dimensione. I risultati di entrambe le dimensioni sono stati rappresentati su un grafico ad istogramma per effettuare lo studio sulla rete multidimensionale.
  • 48. 48 Fig. 50. Nodi adiacenti connessi tra loro. Facebook e Real Life. Da questi risultati vediamo come i numeri dei vicini studiati sia tendenzialmente più alto nella dimensione di Real Life rispetto a quella di Facebook a conferma che gli studenti hanno avuto più interazioni nella vita reale piuttosto che nel social network. DIMENSION RELEVANCE Un aspetto chiave dell’analisi della rete multidimensionale è capire quanto sia importante una particolare dimensione rispetto alle altre in base alla connettività di un nodo. Attraverso la formula della Dimension Relevance si calcola il rapporto tra il numero dei vicini di un nodo collegato da archi appartenenti ad una specifica dimensione e il numero totale dei suoi vicini; tuttavia, essendo la rete multidimensionale dobbiamo considerare la seguente variante:
  • 49. 49 Questa variante calcola la frazione dei vicini direttamente raggiungibile dal nodo v seguendo archi appartenenti solo ad una dimensione appartenente a D. La seguente formula è stata quindi applicata per ogni dimensione (Real Life e Facebook) e i risultati ottenuti sono stati riportati in un grafico. Fig. 51. Rapporto tra il numero dei vicini di un nodo collegato da archi che appartengono a una specifica dimensione e il numero totale dei nodi suoi vicini. Notiamo che numerosi nodi presentano valori di Dimension Relevance XOR al di sotto della media e pochi nodi presentano valori elevati; l’andamento del grafico fa presupporre che non sia presente una rete più importante rispetto ad un’altra. DIMENSION CONNECTIVITY Attraverso la Dimension Connectivity, cioè il rapporto degli archi della rete etichettati con dimensione d, studiamo la percentuale di nodi o archi contenuti in una specifica dimensione (EDC, Edge Dimension Connectivity) o che appartengono solo ad una data dimensione tale che non ci siano altri archi tra i due nodi appartenenti ad altre dimensioni (EEDC, Exclusive Edge Dimension Connectivity). Nel primo caso la dimensione D è comune a più archi, nel secondo caso invece la dimensione è esclusiva a due nodi.
  • 50. 50 Attraverso gli script in Python, opportunamente creati sulla base delle librerie rese disponibili dagli assistenti, sono state calcoate la EDC (Edge Dimention Connectivity) e la EEDC (Exclusive Edge Dimention Connectivity), sia per i nodi sia per gli archi ottenendo i seguenti risultati: Colonna1 DC (nodes) EDC (nodes) DC (edges) EDC (edges) Real Life 1 0.43 0.96 0.13 Facebook 0.98 0.18 0.79 0.03 Fig. 52. Dimention Connectivity e Exclusive Dimention Connectivity, Real Life e Facebook. Per quanto riguarda i calcoli relativi alla Dimension Connectivity dei nodi, per la rete Real Life il valore ottenuto è 1 perché potenzialmente tutti i nodi sono raggiungibili ed infatti è presente un’unica componente connessa, mentre per Facebook è 0.98, solo il 2% dei nodi non risulta collegato agli altri tramite il social network, che corrisponde ad un solo studente visto che i nodi totali sono 48; inoltre il 96% degli archi sul totale appartiene alla rete di Real Life e il 79% a quella di Facebook. Per i calcoli relativi alla Exclusive Dimension Connectivity invece, nell’analisi dei nodi otteniamo 43% per la Real Life e solo 18% per Facebook e quindi nella prima rete i nodi sono più facilmente raggiungibili rispetto alla seconda; i valori calcolati sugli archi sono il 13% e il 3% che conferma le precedenti considerazioni.
  • 51. 51 D-CORRELATION Si tratta di un aspetto della multidimensionalità che calcola il rapporto tra le coppie di nodi/archi connesse in tutte le reti e il numero totale di coppie di nodi/archi connessi in almeno una rete. Questo rapporto fornisce un’idea di come siano ridondanti due dimensioni per l’esistenza di un nodo o di un arco; queste due misure si basano sul coefficiente di correlazione di Jaccard. Nelle reti di Real Life e Facebook quindi con questa formula si calcola il rapporto tra gli studenti che hanno avuto interazioni in entrambe le reti e il numero totale degli studenti che presentano almeno un collegamento. D-Correlation Edges 0.56 Nodes 0.98 Fig. 53. Archi e nodi in comune in entrambe le sotto-reti. I risultati mostrano come in queste due reti quasi la totalità dei nodi (98%) sia coinvolta in entrambe le sotto-reti, mentre per gli archi, quelli in comune risultano poco più della metà (56%).
  • 52. 52 CONCLUSIONI Il dataset utilizzato per le varie analisi era costituito dalle interazioni raccolte dagli studenti nelle 12 settimane di corso. Le reti oggetto di analisi erano quelle di Real Life e Facebook. Le analisi effettuate da svariati punti di vista (sono stati studiati aspetti multidimensionali, temporali ecc.) hanno fatto emergere l’alto livello di interazione del gruppo classe. Interessante è stato notare che le interazioni della classe sono aumentate nel corso delle settimane utili alla raccolta dati e nelle settimane centrali, i giorni immediatamente prossimi alla consegna del “Middle Term Project” di Web Mining. In quei giorni, gli individui hanno avuto diverse interazioni per chiedere chiarimenti sul progetto o per confrontarsi con gli altri studenti. Inoltre, in quelle settimane, c’erano anche prove in itinere di altri corsi, presumibilmente frequentati da più studenti della classe di Web Mining. Lo dimostrano, ad esempio, i valori della componente connessa, solitamente compresa tra 1 e 10, nel nostro caso 48. La classe si è suddivisa in macro- gruppi di interazione corrispondenti alla facoltà di appartenenza e in micro-gruppi corrispondenti per lo più ai gruppi di lavoro creati successivamente per il progetto finale. Alcuni individui, tre per l’esattezza, hanno manifestato interazioni con quasi tutto il gruppo classe e uno in particolare ha fatto da hub tra due macro-gruppi diversi (presumibilmente quello di Informatica Umanistica e quello di Informatica per l’Economia). Un caso isolato è quello di un individuo che ha avuto interazione con una sola persona. Anche per quanto riguarda la Link Prediction del gruppo classe il risultato non è stato da meno, dal grafico è emersa, infatti, una rete “fitta” in cui la possibilità che altri nodi si aggiungano a quello già esistenti è altissima. Confrontando i dati relativi a Real Life e quelli relativi a Facebook possiamo notare inoltre che le interazioni risultanti all'interno dei vari gruppi di lavoro sembrano mantenere una stabilità maggiore rispetto alle interazioni tra i diversi gruppi. In altre parole, il rapporto d'amicizia nella vita reale permette di tenere un valore di interazione pressoché costante all'interno del singolo gruppo che interagisce anche attraverso
  • 53. 53 Facebook. Questo valore di interazione tra Real Life e Facebook è invece scostante e variabile nel caso in cui si considerino le interazioni tra gruppi diversi.
  • 54. 54 RIFERIMENTI BIBLIOGRAFICI [8] Michele Berlingerio, Michele Coscia, Fosca Giannotti, Anna Monreale, DinoPedreschi: Foundations of Multidimensional Network Analysis. ASONAM2011:485-489; [2] Mark S. Granovetter: The Strength of Weak Ties. American Journal of Sociology, Volume 78, Issue 6 (May, 1973), 1360-1380; [3] David Liben-Nowell, Jon M. Kleinberg: The link prediction problem for social networks. CIKM 2003: 556-559; [1] Luca Pappalardo, Giulio Rossetti, Dino Pedreschi: How Well Do We Know Each Other? Detecting Tie Strength in Multidimensional Social Networks. ASONAM 2012:1040-1045;