Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

0

Share

Download to read offline

Web Mining e analisi di reti sociali

Download to read offline

Web Mining e analisi di reti sociali

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Web Mining e analisi di reti sociali

  1. 1. WEB MINING E ANALISI DI RETI SOCIALI Relazione Finale Prof. Dino Pedreschi Dott. Giulio Rossetti Dott. Luca Pappalardo Irene Chiarolanza (matricola 500124); Maria Rosaria Cutrullà (matricola 407924); Mariagiovanna Scarale (matricola 423062); a.a. 2012/2013
  2. 2. 2 INDICE 1. Introduzione p. 3; 2. Network Analysis p. 5; 3. Tie Strength I e II p. 24; 4. Link Prediction I e II p. 30; 5. Trust I e II p. 36; 6. Multidimentional Network Analysis p. 46; 7. Conclusioni p. 52; 8. Riferimenti bibliografici p. 54.
  3. 3. 3 INTRODUZIONE Lo studio affrontato è stato svolto sulla base di approfondite analisi effettuate sui dati raccolti dalla classe di Web Mining dell’anno accademico 2012-2013 per otto settimane. I dati raccolti forniscono le interazioni tra gli studenti della classe nella vita reale, in Facebook, in Google Plus e in Twitter. Il dataset utilizzato è stato creato in questo modo: ID_utente1, ID_utente2, ID_network, ID_week, Strength, Trust. I primi due attributi corrispondono agli identificativi resi anonimi, dello studente che registra l’interazione e dello studente su cui si realizza l’interazione. L’ID_network e l’ID_week rappresentano il tipo di network analizzato e la settimana di riferimento, Strength indica la forza di ogni relazione (con valore compreso tra 1 e 5) e Trust è la fiducia assegnata ad ogni relazione (con valore compreso tra 1 e 5). Alla fine del corso, tutte le interazioni sono state raccolte in file .txt, da cui è stato possibile estrapolare il grafo della rete con Cytoscape e gli altri dati necessari per lo studio delle altre componenti della rete, per cui ci si è servito sia di Excel che di alcuni script in Python. Nell’analisi non sono state prese in considerazione le interazioni avvenute con Twitter e Google Plus, perché a nostro avviso irrilevanti rispetto alle altre analizzate. Prima di affrontare lo studio generale con Cytoscape ci si è accorti che tutte le reti analizzate presentavano archi duplicati, quindi sono stati rimossi per non falsare le analisi.
  4. 4. 4 Sono stati svolti i seguenti esercizi, per un valore complessivo di 11 punti: - Network Analysis [2 points]; - Tie Strength I e II [1+2 points]; - Link Prediction I e II [1+2 points]; - Trust I e II [1+1 points]; - Multidimentional Network Analysis [2 points];
  5. 5. 5 NETWORK ANALYSIS Tramite il software Cytoscape sono state analizzate le reti come dirette temporali pesate1 , tranne che per la realizzazione delle strutture dove sono stati rimossi gli archi duplicati. Sono stati presi in esame i dataset contententi anche Trust. FULL (TRUST) - |V| = 48; - |E| = 1402; Fig. 1. Struttura rete Full con archi duplicati. 1 Le reti possono essere viste come dei grafi. Un grafo è un insieme di elementi detti nodi o vertici collegati fra loro da archi o lati. Più formalmente, si dice grafo una coppia ordinata G = (V, E) di insiemi, con V insieme dei nodi ed E insieme degli archi, tali che gli elementi di E siano coppie di elementi di V (da segue in particolare che ). Un grafo diretto è una specie particolare di grafo in cui l'ordine dei vertici in un lato ha importanza. Un lato (u, v) di tale grafo, detto anche lato diretto, si dice uscente da u ed entrante in v. Un lato diretto è spesso rappresentato da una freccia nella direzione del vertice entrante. In un grafo diretto le connessioni sono rappresentate da coppie ordinate di vertici, mentre in un grafo indiretto sono rappresentate da coppie non ordinate di vertici e sono rappresentate con E = {vi, vj}. I grafi diretti e indiretti possono essere pesati, ovvero ai vertici e/o alle connessioni possono essere associati dei pesi (dei valori che stabiliscono l’importanza di un certo tipo di legame o interazione). I grafi temporali sono, banalmente, grafi che variano nel tempo. L'idea di base, dato un grafo temporale, è quella di avere una visualizzazione più o meno approfondita di come questo evolve con il passare del tempo, cercando di capirne i motivi, legandoli ad avvenimenti storici o sociali conosciuti. Il risultato potrebbe essere paragonato ad un video che rappresenta le variazioni di clima nei prossimi periodi: esso dà una visualizzazione globale di ciò che accade – o sta per accadere – permettendo di raccogliere utili informazioni sull'evoluzione dello stato nel tempo.
  6. 6. 6 Fig. 2. Rimozione dalla rete Full degli archi duplicati. Fig. 3. Rete Full senza archi duplicati.
  7. 7. 7 Fig. 4. Struttura rete Full. I nodi più grandi sono quelli con più interazioni. Fig. 5. I dati dell’analisi. COMPONENTE CONNESSA La componente connessa di un grafo è il sottoinsieme di nodi connessi tra loro. Il network analizzato possiede una componente gigante, che è una componente connessa che contiene tutti i nodi, che sono 48. Un grafo con componente connessa ideale dovrebbe possedere questo valore in un intervallo che va da 1 a 10, nel nostro caso, il valore in questione è 48, quindi, di gran lunga più alto. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione.
  8. 8. 8 COEFFICIENTE DI CLUSTERING Il coefficiente di clustering stima quanto i nodi adiacenti ad un altro nodo siano in relazione fra loro. Per esempio, nelle reti sociali dove gli archi rappresentano la relazione di amicizia/frequentazione, il coefficiente di clustering fornisce una stima di quanto il gruppo, o comunità, sia chiuso rispetto agli altri nodi nella rete. In questo caso, esso è pari a 0.519, quindi poco più della metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è la massima distanza fra ogni coppia di nodi nel grafo. Più è alto il suo valore, più i nodi sono lontani tra loro. Nel nostro caso il valore è 5, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude la maggior parte dei nodi). RAGGIO Il raggio rappresenta il minimo valore tra le eccentricità dei nodi. In questo caso è pari a 3. NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.432. Nello studio delle reti complesse, la nozione di centralità può essere importante per: • Giudicare la rilevanza/criticità di nodi o aree delle rete; • Attribuire una misura di distanza fra nodi o aree delle rete; • Identificare il grado di coesione di un’area delle rete; • Identificare le aree di una rete (i gruppi coesi, le sue comunità).
  9. 9. 9 In questo caso essa rappresenta un valore relativamente basso, perché probabilmente i nodi non fanno capo ad un unico centro, ma sono dislocati su più punti focali all’interno della componente gigante. CAMMINO MINIMO Il valore che emerge è 2256 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.315. SHORTEST PATH LENGTH DISTRIBUTION Fig. 6. Shortest path length distribution della rete Full.
  10. 10. 10 Analizzando la Shortest Path Length Distribution è possibile notare che la moda della distribuzione è pari a 2. Questo dimostra che la maggior parte dei nodi viene raggiunta da un cammino minimo di 2. NODE DEGREE DISTRIBUTION (IN E OUT) Fig. 7. In-degree distribution della rete Full. Fig. 8. Out-degree distribution della rete Full.
  11. 11. 11 Sono stati generati gli istogrammi, con i dati elaborati da Cytoscape, della distribuzione del grado in entrata e in uscita. I dati, che sono stati raggruppati con un intervallo di 10, hanno dimostrato che la maggior parte dei nodi ha un grado compreso tra 20 e 100, mentre solo 3 nodi hanno valore 1, perché solo 3 studenti hanno molti archi sia in entrata che in uscita.
  12. 12. 12 FACEBOOK (TRUST) - |V| = 41; - |E| = 505; Fig. 9. Struttura della rete Facebook con archi duplicati. Fig. 10. Rimozione dalla rete Facebook degli archi duplicate.
  13. 13. 13 Fig. 11. Struttura della rete Facebook senza archi duplicati. Fig. 12. Struttura della rete Facebook. I nodi più grandi sono quelli con più interazioni.
  14. 14. 14 Fig. 13. I dati dell’analisi. COMPONENTE CONNESSA Il network analizzato possiede una componente gigante, che è una componente connessa che contiene l’insieme dei nodi della rete, che sono 41. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione su Facebook. COEFFICIENTE DI CLUSTERING Il coefficiente di clustering è pari a 0.403, quindi, meno della metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è 6, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude tutti i nodi). RAGGIO Il raggio è pari a 3.
  15. 15. 15 NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.488, anche in questo caso il valore è relativamente basso perché i nodi non fanno capo ad un unico centro ma sono dislocati su più punti focali all’interno della componente gigante. CAMMINO MINIMO Il valore che emerge è 1640 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.429. SHORTEST PATH LENGTH DISTRIBUTION Fig. 14. Shortest path length distribution della rete Facebook.
  16. 16. 16 Il valore con frequenza più alta è 2 anche se, rispetto alle altre distribuzioni, risulta più basso e ci sono più cammini di lunghezza maggiore a 2, perché ci sono state molte più interazioni nella vita reale che su Facebook. NODE-DEGREE DISTRIBUTION (IN E OUT) Fig. 15. In-degree distribution della rete Facebook. Fig. 16. Out-degree distribution della rete Facebook.
  17. 17. 17 Nella rete Facebook la maggior parte dei nodi ha un grado compreso tra 0 e 30. Ci sono pochi studenti che hanno molti archi in entrata e in uscita, ad eccezione di uno, che ne ha avuti molti in entrata e in uscita e un altro, che ne ha avuti, invece, molti in uscita.
  18. 18. 18 REAL LIFE (TRUST) - |V| = 47; - |E| = 834; Fig. 17. Struttura della rete Real Life con archi duplicati. Fig. 18. Rimozione dalla rete Real Life degli archi duplicate.
  19. 19. 19 Fig. 19. Struttura della rete Real Life senza archi duplicati. Fig. 20. Struttura della rete Real Life. I nodi più grandi sono quelli con più interazioni.
  20. 20. 20 Fig. 21. I dati dell’analisi. COMPONENTE CONNESSA Il network analizzato possiede una componente gigante, che è una componente connessa che a sua volta contiene una frazione di tutti i nodi, che sono 47. C’è un’unica componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno un’interazione nella vita reale (data probabilmente dalla frequenza del corso). COEFFICIENTE DI CLUSTERING Il coefficiente di clustering è pari a 0.476, quindi, quasi la metà dei nodi è in contatto tra loro. DIAMETRO Il diametro è 8, misura nella norma, quindi i nodi sono abbastanza vicini tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che racchiude tutti i nodi). RAGGIO Il raggio è pari a 4.
  21. 21. 21 NETWORK CENTRALIZATION Il parametro della Network centralization ha un valore pari a 0.301. CAMMINO MINIMO Il valore che emerge è 2162 (100%), valore perfetto che sta a significare che i cammini esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi, sono tutti vicini e connessi tra loro. CHARACTERISTIC PATH LENGTH La distanza media è pari a 2.666. SHORTEST PATH LENGTH DISTRIBUTION Fig. 22. Shortest path length distribution della rete Real Life.
  22. 22. 22 Anche in questo caso, il valore con frequenza più alta (la moda) è pari a 2. Questo ci dimostra, nuovamente, che la maggior parte dei nodi può essere raggiunta con un cammino molto breve. NODE DEGREE DISTRIBUTION (IN E OUT) Fig. 23. In-degree distribution della rete Real Life. Fig. 24. Out-degree distribution della rete Real Life.
  23. 23. 23 Nella rete Real Life la maggior parte dei nodi ha un grado compreso tra 0 e 80. Anche in questo caso, ci sono pochi studenti che hanno molti archi in entrata e in uscita. Uno studente in particolare ha avuto molti archi, sia in entrata che in uscita.
  24. 24. 24 TIE STRENGTH 3.1 EVOLUTION OF STRENGTH La registrazione dei dati prevedeva l’assegnazione ad ogni interazione di una forza, intesa come quantità e qualità, che poteva assumere un valore compreso tra 1 e 5. Nei prossimi due punti analizziamo come questa cambia nelle interazioni tra gli studenti nel corso delle otto settimane e studiamo la forza dei legami sfruttando la multidimensionalità, considerando le reti come dirette temporali pesate2 . Per analizzare come la forza (Strength) si sia evoluta durante il periodo della raccolta dei dati per le interazioni della rete Real Life e Facebook è stato realizzato per entrambe un grafico ad istogramma che mostra per ogni settimana quante interazioni ci sono state, raggruppate per settimana. Come primo passo, tramite del codice in Python, abbiamo estratto dai due file in formato .txt, che contenevano le interazioni di Facebook e quelle di Real Life, i dati per creare una lista di ogni settimana con all’interno la somma delle interazioni raggruppate per livello di forza; successivamente abbiamo utilizzato Excel per la creazione di grafici. 2 Cfr. nota 1 pag. 5.
  25. 25. 25 Fig. 25. Evoluzione della forza dei legami nel tempo. Rete Facebook. Fig. 26. Evoluzione della forza dei legami nel tempo. Rete Real Life. Nelle Fig. 25 e Fig. 26 è possibile seguire l'andamento delle interazioni su Facebook e nella vita reale durante le otto settimane di corso. Nel primo grafico si nota subito 45 33 26 34 55 27 43 41 39 34 27 27 31 40 40 38 48 34 33 32 37 27 39 30 20 19 30 29 24 28 18 31 30 21 21 22 30 19 26 31 0 50 100 150 200 1 2 3 4 5 6 7 8 1 2 3 4 5 19 12 4 14 23 12 22 20 19 17 4 30 29 18 26 16 27 18 17 25 32 37 29 22 20 14 9 19 24 27 16 17 18 13 16 20 21 27 28 20 0 50 100 150 1 2 3 4 5 6 7 8 1 2 3 4 5
  26. 26. 26 come gli studenti abbiano interagito maggiormente nella prima (Tie strenght 48) e quinta (Tie strenght 55) settimana di corso. I valori si mantengono invece stabili nelle restanti settimane. Nella Fig. 26 il picco delle interazione si è avuto tra la quinta e la sesta settimana, dimunisce notevolmente nella terza settimana. Confrontando invece la rete con la figura 26 emerge che mentre sulla rete Facebook c'è stato un notevole incremento delle interazioni sulla rete Real Life non è stato così. La spiegazione potrebbe risiedere nel fatto che gli studenti frequentavano con meno assiduità le lezioni ma continuavano a tenersi in contatto interagendo sul social network.
  27. 27. 27 3.2 MULTIDIMENSIONAL TIE STRENGTH Per studiare la forza dei legami è stato usato l’approccio della multidimensionalità proposto nel riferimento [1] applicando ad ogni coppia di nodi la formula della forza dei legami multidimensionali : Dove hd corrisponde alla similarità dei nodi in una singola dimensione nella quale Wd rappresenta l’intensità dell’interazione tra i nodi nella dimensione d e Γd l’insieme dei vicini di un nodo. E corrisponde invece alla ridondanza della connessione, dove DR è la frazione dei vicini che diventano direttamente irraggiungibili da un nodo se tutti i nodi nella dimensione specifica sono rimossi. Attraverso uno script in Python è stata applicata al file contenente le interazioni (wmr_network_full.txt) la funzione della forza dei legami multidimensionali (str). Il risultato è stata la creazione di un ulteriore file in .txt, nel quale sono stati scritti in output (come risultato dello script) tutte le coppie di nodi con la relativa forza, ottenuta tenendo conto della similarità e della ridondanza. I risultati della forza dei legami, ottenuti applicando la funzione in oggetto, oscillano tra 0.28 e 9.8 (valori che sono stati successivamente rielaborati con Cytoscape). Successivamente, con Cytoscape sono stati analizzati i risultati attraverso la rappresentazione di grafi che mostrano la struttura della rete dove è stato impostato il colore degli archi in base alla variazione della forza dei legami: giallo per la forza compresa tra 0 e 5, rosso da 5 a 7, e blu da 7 a 9.8.
  28. 28. 28 Fig. 27. Struttura della rete Full che evidenzia la forza dei legami. Dalla figura emerge che la maggior parte dei legami ha una forza compresa tra 0 e 5, a seguire quelli tra 5 e 7 e rari quelli oltre il 7. La spiegazione sta nel fatto che la maggior parte degli studenti si è conosciuta o ha rapporti con gli altri prevalentemente in ambito universitario, di conseguenza, la valutazione del legame è circoscritta a questo ambito. Per evidenziare come cambia la struttura della rete, abbiamo infine rimosso gli archi con forza minore di 5 (Fig. 28), quelli con forza maggiore di 5 (Fig. 29), e quelli con forza maggiore di 7 (Fig. 30).
  29. 29. 29 Fig. 28. Strength<5; Fig. 29. Strength>5; Fig. 30. Strength>7; Dai grafi risultanti vediamo che nella Fig. 30 la sotto-rete è formata da pochi nodi e da 4 componenti connesse, ciò dimostra quindi che le relazioni più intense si sono create tra un gruppo ristretto di studenti; allo stesso tempo però nella Fig. 29, dove sono presenti solo gli archi con forza maggiore di 5, è comunque presente una grande componente connessa che rende la sotto-rete abbastanza unita.
  30. 30. 30 LINK PREDICTION 4.1 LINK PREDICTION Attraverso la Link Prediction si cerca di individuare l’insieme di archi che, a partire da un primo intervallo detto di Training, verranno più probabilmente creati in un secondo intervallo temporale detto di Test: per ogni arco viene calcolato (da un predittore) un valore che indica la probabilità (Score) che questo entri nel grafo in un futuro intervallo di tempo. Il dominio di analisi in questo caso sono quindi le reti dinamiche, cioè quelle in cui la struttura cambia ed evolve nel tempo e quindi sono state utilizzate le reti di Real Life e di Facebook come non dirette temporali e pesate3 alle quali sono stati applicati gli approcci di previsione proposti nel riferimento [3]: Common Neighbours, Jaccard, Adamic Adar, Preferential attachment. Fig. 31. Predittori Link Prediction. COMMON NEIGHBORD Questo algoritmo assegna uno Score agli archi seguendo la seguente formula che considera il numero dei vicini comune ai due nodi. 3 Cfr. nota 1 pag. 5.
  31. 31. 31 JACCARD SIMILARITY Misura la probabilità che sia x che y abbiano una feature f (vicini nel grafo); lo Score viene assegnato tramite la formula ADAMIC ADAR È un modello di valutazione basato sulla correlazione tra due pagine web. Per analizzare la correlazione tra due pagine si analizzano le caratteristiche di entrambe e se ne definisce la somiglianza, secondo la formula: PREFERENTIAL ATTACHMENT L’approccio del predittore Preferential Attachment si basa sulla probabilità che la possibilità che un arco si colleghi a un nodo x sia direttamente proporzionale al numero dei vicini del nodo in questione. Più semplicemente, maggiore è il numero dei vicini di un nodo, più alta è la possibilità che un arco si colleghi al nodo in questione in futuro. ANALISI Nelle seguenti tabelle i valori corrispondono al rapporto tra la performance del predittore (Common Neighbour, Jaccard, Adamic Adar e Preferential Attachment) e la performance di un predittore scelto casualmente. Essi ricoprono la prima settimana, quella centrale e l’ultima, in modo tale da vedere l’evoluzione nel tempo delle due reti.
  32. 32. 32 Misure Facebook Training Test Common N. Jaccard Adamic A. Preferenial A. 1 7 2,79 2,51 2,37 2,16 4 4 2,62 1,67 3,57 3,57 7 1 0 0 17,55 17,55 Fig. 32. Confronto tra predittori per la rete Facebook. Misure Real Life Training Test Common N. Jaccard Adamic A. Preferenial A. 1 7 2,65 2,55 2,23 2,23 4 4 3,51 2,51 2,76 2,51 7 1 16,22 10,82 0 16,22 Fig. 33. Confronto tra predittori per la rete Real Life. Nella rete Real Life dalle tabelle vediamo che i valori migliori riguardano l’approccio Adamic Adar e Preferential Attachment: per il primo approccio si può affermare che se la comunità di nodi condivisa da x e y è esclusiva/selettiva entrambi nodi avranno più alta probabilità di interagire tra loro; per il secondo, un nodo che presenta numerose interazioni attrae sia nuovi nodi sia, soprattutto, altri nodi con un numero alto di interazioni/archi. Per quanto riguarda la rete di Facebook, dalle tabelle vediamo che i valori migliori riguardano l’approccio Preferential Attachment e Common Neighbours: all’aumentare del numero degli amici di due nodi aumenta anche la probabilità che interagiscano nel futuro. I risultati migliori sono forniti rispettivamente in Facebook da Preferential Attachment e Common Neighbours e in Real Life da Adamic Adar e Preferential Attachment in quanto risultano più vicini alla realtà. I valori si riferiscono alla settima ed ultima settimana di corso, in cui è presumibilmente più semplice prevedere quali cambiamenti subirà la rete in questione.
  33. 33. 33 4.2 MULTIDIMENSIONALITY OF THE NETWORK Attraverso l’analisi multidimensionale di una rete si cerca di prevedere quali possono essere i collegamenti su una stessa rete partendo dai nodi presenti, in particolare partendo dall’analisi di una rete e utilizzando uno dei predittori si calcola la possibilità che altri nodi in futuro si aggiungano alla rete già presente. Nell’analisi delle reti ci sono quattro possibili tipi di analisi: - Common Neighbors; - Adamic Adar; - Jaccard; - Preferential Attachment. Nell’analisi seguente la metodologia utilizzata è quella del Common neighbors e la rete analizzata è Real life. Dalla letteratura emerge che, l’evoluzione di una rete dipende principalmente da tre fattori: - Dalle interazioni di un nodo, infatti un nodo con un grado elevato di archi (nella fattispecie uno studente con molti collegamenti) tenderà ad attrarre più nodi; - Dall’interazione tra le dimensioni; - Dall’evoluzione temporale di un collegamento. La funzione Neighbors è definita nel modo seguente: Neighbors (v, D) = {U ∈ V|∃(U, v, d) ∈ E∧ d∈ D} Questa funzione restituisce l'insieme di tutti i nodi direttamente raggiungibili dal nodo v. La variante delle funzione Neighbors è rappresentata da neighbors xor: (V, D) = {U ∈ V|∃d ∈ D: (U, v, d) ∈ E∧ d∈ D: (U, v, d )∈ E}
  34. 34. 34 Questa funzione, considerando una dimensione D, restituisce l’insieme di nodi vicini tra loro e li collega da archi che appartengono alla dimensione D. Attraverso gli script realizzati in Python, ottenuti elaborando le funzioni contenute nelle librerie fornite dagli assistenti e utilizzando per la realizzazione del grafo il software Cytoscape, si è giunti al seguente risultato: - |V| = 169; - |E| = 224; Fig. 34. Link Prediction. Analisi multidimensionale della rete Real Life.
  35. 35. 35 Il grafo dimostra come la maggior parte dei nodi è collegata, cioè gli studenti sono in contatto tra loro, mentre sono pochi quelli che rimangono isolati e con pochi archi. Il cammino minimo tra i nodi è pari al 90%, quindi i cammini sono abbastanza brevi. I nodi sono quasi tutti vicini e connessi tra loro. Dall'analisi della rete e dai risultati ottenuti è facile immaginare che la probabilità che in futuro altri nodi si aggiungano a quelli già presenti sia altissima, poiché allo stato attuale la rete appare “fitta” di collegamenti e la maggior parte degli studenti è in contatto tra di loro.
  36. 36. 36 TRUST 5.1 TRUST Durante la raccolta dei dati gli studenti hanno assegnato ad ogni interazione anche una Trust, ovvero un valore che misura il rapporto in termini di fiducia, onestà e sincerità. Anche in questo caso tutte le interazioni sono state raccolte in un file .txt per la rete globale (Full), per quella di Real Life e per quella di Facebook, per poi essere elaborate. L’obiettivo è quello di studiare la correlazione tra i valori di Strength e Trust per ogni dimensione sia statica che dinamica; la rete utilizzata in questo caso è diretta non temporale e pesata4 . Innanzitutto è stata calcolata la differenza tra i suddetti valori per ogni interazione nelle due dimensioni; successivamente sono stati raggruppati i risultati ottenuti. Per illustrare i risultati sono stati realizzati grafici ad istogramma, sia per la rete di Real Life sia per quella di Facebook. RAPPORTO STRENGTH/TRUST FACEBOOK Fig. 35. Rapporto Strength/Trust rete Facebook. 4 Cfr. nota 1, pag. 5. 20 86 93 218 59 7 2 0 50 100 150 200 250 -3 -2 -1 0 1 2 3 Totale
  37. 37. 37 RAPPORTO STRENGTH/TRUST REAL LIFE Fig. 36. Rapporto Strength/Trust rete Real Life. Vediamo che, per entrambe le reti prevale la differenza uguale a 0, ovvero quando il valore dei due attributi coincide. Ciò sta a significare che la tendenza degli studenti è stata quella di assegnare lo stesso valore di forza e di fiducia all’interazione. Allo stesso tempo vediamo come risulti più probabile che ad un valore di fiducia alto ne corrisponda uno di forza più basso rispetto al contrario, evidentemente perché ad interazioni frequenti non è detto che corrisponda un aumento di fiducia e, anche se la forza è bassa, la fiducia in molti casi è alta probabilmente perché gli studenti si conoscevano da prima dell’inizio del corso o perché frequentavano altri corsi insieme. Per studiare la dinamicità, cioè come la forza e la fiducia si sono evolute nel corso delle otto settimane, i record sono stati raggruppati per settimana calcolando la media dei valori per la Strength e la Trust. I risultati per le due dimensioni sono stati, infine, riportati in un grafico a linee, per meglio evidenziarne l’andamento e per consentire un confronto più sistematico. Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori di forza alle interazioni nel social network dando quindi più importanza a quelle avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la fiducia risulta sempre maggiore rispetto alla forza. 3 14 36 58 211 70 9 0 50 100 150 200 250 -4 -3 -2 -1 0 1 2 Totale
  38. 38. 38 Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia dipendente dalla forza. TRUST AND CLASSICAL NETWORK MEASURE CORRELATION L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e pesata. I risultati sono riportati nei seguenti grafici. FACEBOOK week strength trust 1 2,821429 3,392857 2 2,68 3,44 3 2,97619 3,571429 4 3,203704 3,537037 5 3,028986 3,318841 6 3,115385 3,403846 7 2,75 3,338235 8 2,863636 3,5 Fig. 37. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati numerici. Fig. 38. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati grafici.
  39. 39. 39 REAL LIFE week strength trust 1 2,925926 3,296296 2 2,815789 3,342105 3 3,5 3,653846 4 2,868852 3,04918 5 3 3,096774 6 3,053571 3,392857 7 3,14 3,18 8 2,944444 3,203704 Fig. 39. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati numerici. Fig. 40. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati grafici. Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori di forza alle interazioni nel social network dando quindi più importanza a quelle avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la fiducia risulta sempre maggiore rispetto alla forza. Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia dipendente dalla forza.
  40. 40. 40 5.2 TRUST AND CLASSICAL NETWORK MEASURE CORRELATION L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e pesata. I risultati sono riportati nei seguenti grafici. FACEBOOK Fig. 41. Correlazione tra Trust e Edge Betwenness, rete Facebook. Fig. 42. Correlazione tra Trust e Common Neighbours, rete Facebook. 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 1 2 3 4 5 EdgeBetweenness Trust 0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 5,000 1 2 3 4 5 CommonNeighbours Trust
  41. 41. 41 I valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto nella rete di Facebook, infatti al crescere della fiducia aumenta anche il numero dei vicini comuni. Probabilmente questo accade poiché una coppia di nodi legata da un valore Trust alto avrà sempre (potenzialmente) più amici in comune rispetto ad una coppia di nodi legata da un valore di Trust basso. Fig. 43. Correlazione tra Trust e Jaccard, rete Facebook. Fig. 44. Correlazione tra Trust e Adamic Adar, rete Facebook. 0,000 0,050 0,100 0,150 0,200 0,250 0,300 0,350 0,400 1 2 3 4 5 Jaccard Trust 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1 2 3 4 5 AdamicAdar Trust
  42. 42. 42 Le medesime riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard, anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust=4: questo coefficiente e la Trust sono direttamente proporzionali, quindi se aumenta la fiducia aumentano anche le probabilità che i due nodi abbiano amici comuni.
  43. 43. 43 REAL LIFE Fig. 45. Correlazione tra Trust e Edge Betwenness, rete Real Life. Fig. 46. Correlazione tra Trust e Common Neighbours, rete Real Life. Per quanto riguarda i valori di Trust, anche qui si nota che al crescere della fiducia aumenta significativamente anche il numero dei vicini comuni. 0,000 0,002 0,004 0,006 0,008 0,010 0,012 0,014 0,016 0,018 0,020 1 2 3 4 5 EdgeBetweenness Trust 0 1 2 3 4 5 6 7 1 2 3 4 5 Commonneighbors Trust
  44. 44. 44 Fig. 47. Correlazione tra Trust e Jaccard, rete Real Life. Fig. 48. Correlazione tra Trust e Adamic Adar, rete Real Life. In conclusione, si può dire che un dato anomalo si registra in corrispondenza del valore di Trust pari a 3: infatti la rete di Facebook risulta avere un numero medio di vicini più basso rispetto a quello di Real Life. Dai risultati ottenuti si nota che i valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto nella rete di Facebook, e quindi nel caso in cui rimuovessimo gli archi con Trust uguale a 5 la rete rimarrebbe comunque compatta. 0,000 0,050 0,100 0,150 0,200 0,250 0,300 0,350 0,400 0,450 1 2 3 4 5 Jaccard Trust 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1 2 3 4 5 AdamicAdar Trust
  45. 45. 45 Analoghe riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust 4: questo coefficiente e Trust sono direttamente proporzionali quindi se aumenta la fiducia aumenta anche la probabilità che i due nodi abbiano amici comuni. Infine notiamo come anche nel rapporto tra i punteggi di Trust e quelli ottenuti tramite il metodo Adamic Adar la relazione segua un andamento crescente ad eccezione del valore in corrispondenza di Trust uguale a 3 nella rete Facebook.
  46. 46. 46 MULTIDIMENTIONAL NETWORK ANALYSIS Per uno studio multidimensionale delle reti abbiamo utilizzato le formule introdotte nel riferimento [8] prendendo in esame solo le reti di Real Life e Facebook come dirette dinamiche pesate5 : per tutte le interazioni tra due nodi è stato considerato un solo arco avente come Strength la media delle forze su tutto il periodo delle otto settimane. NEIGHBOURS Il grado di un nodo si riferisce alle connessioni di un nodo in una rete ed è definito come il numero di archi adiacenti al nodo stesso che, nel caso di reti monodimensionali corrisponde al numero dei vicini; nelle reti multidimensionali invece il grado di un nodo e il numero dei vicini non sono correlati poiché ci possono essere più archi tra due nodi. Per calcolare il numero dei vicini per la rete multidimensionale è stata utilizzata la seguente formula: Dove NeighborSet corrisponde al numero di tutti i nodi direttamente raggiungibili dal nodo v tramite gli archi aventi rispettiva dimensione d. Attraverso la rielaborazione degli script forniti durante il corso è stato calcolato il numero dei vicini adiacenti ad ogni nodo e i risultati sono stati rappresentati in un grafico ad istogramma. 5 Cfr. nota 1 pag. 5.
  47. 47. 47 Fig. 49. Numero dei vicini di ogni nodo. Rete Full. Il grafico fornisce una panoramica dei numeri di vicini per ogni nodo. È evidente che in alcuni casi tale numero sfiora il picco di 35 vicini, mentre in altri raggiunge a stento il 5. Ciò significa che alcuni nodi risultano essere più “centrali” rispetto ad altri che hanno, invece, meno vicini e si trovano in una posizione più isolata all’interno del network. Si può dedurre che questi ultimi nodi siano gli studenti che rispetto agli altri interagiscono di meno, magari per timidezza. Con la formula del Neighbors XOR sono stati invece considerati soltanto i nodi adiacenti connessi tra loro da archi appartenenti soltanto ad una data dimensione. I risultati di entrambe le dimensioni sono stati rappresentati su un grafico ad istogramma per effettuare lo studio sulla rete multidimensionale.
  48. 48. 48 Fig. 50. Nodi adiacenti connessi tra loro. Facebook e Real Life. Da questi risultati vediamo come i numeri dei vicini studiati sia tendenzialmente più alto nella dimensione di Real Life rispetto a quella di Facebook a conferma che gli studenti hanno avuto più interazioni nella vita reale piuttosto che nel social network. DIMENSION RELEVANCE Un aspetto chiave dell’analisi della rete multidimensionale è capire quanto sia importante una particolare dimensione rispetto alle altre in base alla connettività di un nodo. Attraverso la formula della Dimension Relevance si calcola il rapporto tra il numero dei vicini di un nodo collegato da archi appartenenti ad una specifica dimensione e il numero totale dei suoi vicini; tuttavia, essendo la rete multidimensionale dobbiamo considerare la seguente variante:
  49. 49. 49 Questa variante calcola la frazione dei vicini direttamente raggiungibile dal nodo v seguendo archi appartenenti solo ad una dimensione appartenente a D. La seguente formula è stata quindi applicata per ogni dimensione (Real Life e Facebook) e i risultati ottenuti sono stati riportati in un grafico. Fig. 51. Rapporto tra il numero dei vicini di un nodo collegato da archi che appartengono a una specifica dimensione e il numero totale dei nodi suoi vicini. Notiamo che numerosi nodi presentano valori di Dimension Relevance XOR al di sotto della media e pochi nodi presentano valori elevati; l’andamento del grafico fa presupporre che non sia presente una rete più importante rispetto ad un’altra. DIMENSION CONNECTIVITY Attraverso la Dimension Connectivity, cioè il rapporto degli archi della rete etichettati con dimensione d, studiamo la percentuale di nodi o archi contenuti in una specifica dimensione (EDC, Edge Dimension Connectivity) o che appartengono solo ad una data dimensione tale che non ci siano altri archi tra i due nodi appartenenti ad altre dimensioni (EEDC, Exclusive Edge Dimension Connectivity). Nel primo caso la dimensione D è comune a più archi, nel secondo caso invece la dimensione è esclusiva a due nodi.
  50. 50. 50 Attraverso gli script in Python, opportunamente creati sulla base delle librerie rese disponibili dagli assistenti, sono state calcoate la EDC (Edge Dimention Connectivity) e la EEDC (Exclusive Edge Dimention Connectivity), sia per i nodi sia per gli archi ottenendo i seguenti risultati: Colonna1 DC (nodes) EDC (nodes) DC (edges) EDC (edges) Real Life 1 0.43 0.96 0.13 Facebook 0.98 0.18 0.79 0.03 Fig. 52. Dimention Connectivity e Exclusive Dimention Connectivity, Real Life e Facebook. Per quanto riguarda i calcoli relativi alla Dimension Connectivity dei nodi, per la rete Real Life il valore ottenuto è 1 perché potenzialmente tutti i nodi sono raggiungibili ed infatti è presente un’unica componente connessa, mentre per Facebook è 0.98, solo il 2% dei nodi non risulta collegato agli altri tramite il social network, che corrisponde ad un solo studente visto che i nodi totali sono 48; inoltre il 96% degli archi sul totale appartiene alla rete di Real Life e il 79% a quella di Facebook. Per i calcoli relativi alla Exclusive Dimension Connectivity invece, nell’analisi dei nodi otteniamo 43% per la Real Life e solo 18% per Facebook e quindi nella prima rete i nodi sono più facilmente raggiungibili rispetto alla seconda; i valori calcolati sugli archi sono il 13% e il 3% che conferma le precedenti considerazioni.
  51. 51. 51 D-CORRELATION Si tratta di un aspetto della multidimensionalità che calcola il rapporto tra le coppie di nodi/archi connesse in tutte le reti e il numero totale di coppie di nodi/archi connessi in almeno una rete. Questo rapporto fornisce un’idea di come siano ridondanti due dimensioni per l’esistenza di un nodo o di un arco; queste due misure si basano sul coefficiente di correlazione di Jaccard. Nelle reti di Real Life e Facebook quindi con questa formula si calcola il rapporto tra gli studenti che hanno avuto interazioni in entrambe le reti e il numero totale degli studenti che presentano almeno un collegamento. D-Correlation Edges 0.56 Nodes 0.98 Fig. 53. Archi e nodi in comune in entrambe le sotto-reti. I risultati mostrano come in queste due reti quasi la totalità dei nodi (98%) sia coinvolta in entrambe le sotto-reti, mentre per gli archi, quelli in comune risultano poco più della metà (56%).
  52. 52. 52 CONCLUSIONI Il dataset utilizzato per le varie analisi era costituito dalle interazioni raccolte dagli studenti nelle 12 settimane di corso. Le reti oggetto di analisi erano quelle di Real Life e Facebook. Le analisi effettuate da svariati punti di vista (sono stati studiati aspetti multidimensionali, temporali ecc.) hanno fatto emergere l’alto livello di interazione del gruppo classe. Interessante è stato notare che le interazioni della classe sono aumentate nel corso delle settimane utili alla raccolta dati e nelle settimane centrali, i giorni immediatamente prossimi alla consegna del “Middle Term Project” di Web Mining. In quei giorni, gli individui hanno avuto diverse interazioni per chiedere chiarimenti sul progetto o per confrontarsi con gli altri studenti. Inoltre, in quelle settimane, c’erano anche prove in itinere di altri corsi, presumibilmente frequentati da più studenti della classe di Web Mining. Lo dimostrano, ad esempio, i valori della componente connessa, solitamente compresa tra 1 e 10, nel nostro caso 48. La classe si è suddivisa in macro- gruppi di interazione corrispondenti alla facoltà di appartenenza e in micro-gruppi corrispondenti per lo più ai gruppi di lavoro creati successivamente per il progetto finale. Alcuni individui, tre per l’esattezza, hanno manifestato interazioni con quasi tutto il gruppo classe e uno in particolare ha fatto da hub tra due macro-gruppi diversi (presumibilmente quello di Informatica Umanistica e quello di Informatica per l’Economia). Un caso isolato è quello di un individuo che ha avuto interazione con una sola persona. Anche per quanto riguarda la Link Prediction del gruppo classe il risultato non è stato da meno, dal grafico è emersa, infatti, una rete “fitta” in cui la possibilità che altri nodi si aggiungano a quello già esistenti è altissima. Confrontando i dati relativi a Real Life e quelli relativi a Facebook possiamo notare inoltre che le interazioni risultanti all'interno dei vari gruppi di lavoro sembrano mantenere una stabilità maggiore rispetto alle interazioni tra i diversi gruppi. In altre parole, il rapporto d'amicizia nella vita reale permette di tenere un valore di interazione pressoché costante all'interno del singolo gruppo che interagisce anche attraverso
  53. 53. 53 Facebook. Questo valore di interazione tra Real Life e Facebook è invece scostante e variabile nel caso in cui si considerino le interazioni tra gruppi diversi.
  54. 54. 54 RIFERIMENTI BIBLIOGRAFICI [8] Michele Berlingerio, Michele Coscia, Fosca Giannotti, Anna Monreale, DinoPedreschi: Foundations of Multidimensional Network Analysis. ASONAM2011:485-489; [2] Mark S. Granovetter: The Strength of Weak Ties. American Journal of Sociology, Volume 78, Issue 6 (May, 1973), 1360-1380; [3] David Liben-Nowell, Jon M. Kleinberg: The link prediction problem for social networks. CIKM 2003: 556-559; [1] Luca Pappalardo, Giulio Rossetti, Dino Pedreschi: How Well Do We Know Each Other? Detecting Tie Strength in Multidimensional Social Networks. ASONAM 2012:1040-1045;

Web Mining e analisi di reti sociali

Views

Total views

1,000

On Slideshare

0

From embeds

0

Number of embeds

6

Actions

Downloads

8

Shares

0

Comments

0

Likes

0

×