AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION

Ammasso Regolato
Strategie di Community
CANDIDATO: LUCA SCARINCI/786259
RELATORE: PROF. LUCA FOIS
FACOLTÀ DI DESIGN
CORSO DI LAUREA MAGISTRALE IN
DESIGN DELLA COMUNICAZIONE
A.A. 2012/2013
DETECTION

Think like a wise man, but communicate in the
language of the people
William Butler Yeats

III
Sommario
Capitolo 1 - Introduzione
1.1 Obiettivi della ricerca
1.2 Metodologia e approccio
1.3 Struttura della tesi
Capitolo 2 - L’era 2.0
2.1 Contraddizione della terminologia social
2.1.1 I social media di Mcluhan
2.1.2 Effetto Zuckerberg
2.2 La grande fuga dei blogger
Capitolo 3 - La community
3.1 Comunità sociale e virtuale
3.1.1 Marx ai tempi di Facebook
3.1.2 Il villaggio globale
3.2 La comunità virtuale di Howard Rheingold
3.2.1 Il concetto di web-community
3.3 Community management
3.3.1 La logica del condottiero 2.0
3.3.2 150: il collasso sociale ottimale
3.3.3 Intercettare e animare le community
Capitolo 4 - Archittetura e analisi delle reti
4.1 La SNA e lo studio dei grafi
4.2 Algoritmi di Clustering
4.2.1 L’indice della modularità
1
3
5
6
9
11
12
16
22
25
27
29
30
34
37
39
41
44
45
49
51
55
56

4.2.2 Algoritmo Edge Betweenness
4.2.3 Algoritmo Fastgreedy
4.2.4 Algoritmo Walktrap
4.2.5 I limiti della modularità
4.2.6 Algoritmo di Louvain
4.3 Overlapping Communities
4.3.1 Clique Percolation Method
4.3.2 Link Partitioning Method
4.3.3 Local Optimization Method
Capitolo 5 - Raccomandazione & Reputazione
5.1 Introduzione
5.2 Sistemi di Raccomandazione
5.2.1 Modelli di raccomandazione
5.2.2 Algoritmi di raccomandazione
5.2.2.1 Sistemi basati sul contenuto
5.2.2.2 Sistemi collaborativi
5.2.3 Modelli ibridi
5.2.4 Algoritmi di raccomandazione & social
5.3 Sistemi di Reputazione
5.3.1 Sistemi di reputazione centralizzati
5.3.2 Sistemi di reputazione distribuiti
5.3.3 Metodi di calcolo della reputazione
5.4 Ibridi di Raccomandazione & Reputazione
Capitolo 6 - Strategie di Community Detection
6.1 Introduzione
IV
58
59
60
61
62
63
66
68
69
71
73
73
74
75
76
79
82
82
84
87
88
89
92
95
97

6.3 Target di riferimento: il consumer 2.0
6.4 Strategia applicata
6.5 Vinitaly: la fiera dell’eccellenza Made in Italy
6.6 Scenario di riferimento
6.7 Importazione dei dati con Netvizz 2.0
6.8 Node XL: il network analyzer con base Excel
6.8.1 L’interfaccia grafica
6.8.2 L’importazione dei dati
6.9 Gephi 0.8.2: il Network Analyzer
6.9.1 L’interfaccia grafica
6.9.2 I Layout
6.9.3 Ranking & Statistic
6.10 Netvizz to Gephi: Facebook Fan Page Analysis
6.11 Node XL to Gephi: Twitter Analysis
6.11.1 Geolocalizzazione delle fonti
6.11.2 Tag Cloud: analisi semantica dei tweet
Capitolo 7 - Conclusioni
7.1 Osservazioni
7.2 Prospettive future: accessibilità e attendibilità
Bibliografia & Sitografia
V
98
101
104
106
107
110
113
114
115
117
117
119
121
123
135
145
150
154
155
157
158
163

VII
ABSTRACT
In questa tesi viene mostrata una strategia di Community
Detection. Illustreremo i vari significati del termine
“comunità”, mostrando come nel tempo ne sia cambiato
l’approccio e lo studio semantico, per giungere allo stretto
legame se non alla totale sovrapposizione che ad oggi lo
stesso termine ha con l’accezione “social”. Illustreremo in
fine una strategia di ricerca e analisi delle comunità, basata
su algoritmi di estrazione e modellazione, il cui obiettivo
sarà identificare e restituire in forma grafica le divisioni di
un network di riferimento.
Nel nostro caso prenderemo in esame il Vinitaly 2014,
fiera di rilevanza internazionale nel settore enologico,
estrapolando dai principali canali social di riferimento,
Facebook e Twitter, una serie di dati antecedenti
all’inaugurazione fieristica. Grazie a questi potremo
ottenere interessanti informazioni e statistiche che ci
permetteranno di valutare con senso critico la qualità
dei contenuti e di mapparne le utenze e gli argomenti
dividendoli in cluster (comunità).

Valutare al giorno d’oggi le opportunità di investimento
diviene compito prioritario per chi come me, giovane
studente laureando, è ben consapevole della situazione di
estrema difficoltà del bel paese.
Sembra quindi necessario, in prospettiva futura, dar
valore al proprio presente, delineando un profilo in grado
di creare una forte “domanda” d’acquisto verso se stessi.
Progettare la propria professione, come valore aggiunto
della scacchiera, in cui specialisti di settore faticano a
respirare e ad “aspirare”, significa ad oggi dar vita alla
propria idea di business, flessibile e digitale, immateriale
e accattivante.
Siamo parte appunto della società “immateriale”, che
genera valore sulla spinta propulsiva del feedback, sia
esso tweet o like ci viene richiesto di osservare ed ascoltare
comportamenti e tendenze, filtrandoli e selezionandoli in
un gioco dinamico in cui contraddizione e logica sembrano
sovrapporsi.
Siamo i pionieri e condottieri dell’era 2.0, che come direbbe
McLuhan “...ha esteso il nostro sistema nervoso centrale
fino a farlo diventare un abbraccio globale, abolendo
limiti di spazio e tempo...”, siamo i nuovi interpreti di una
coscienza di massa ancora non definita, la cui natura e il
cui limite devono ancora esser delineati.
3

L’obiettivo che rincorro in queste pagine, è lo sviluppo
di una strategia di ricerca di un “valore immateriale”,
attraverso opportuni strumenti informatici, basata
sull’analisi degli interessi e delle tendenze che nascono
e crescono all’interno delle comunità virtuali. Una
ricerca che punta quindi alla qualità dei risultati e non
alla quantità delle informazioni, poichè come vedremo nel
nostro percorso divengono, sopra una certa soglia, fattore
di deterioramento per una corretta community detection.
Il titolo della tesi prende spunto da un’opera del pittore
russo, Vassily Kandinsky, originariamente chiamata
“Ensemble Multicolore” e tradotta in italiano come
“Ammasso Regolato”.
Un composizione informe di colori in mezzo al silenzio
primordiale di un oceano bianco, quasi a rappresentare un
isola in cui sono raccolte queste tonalità e forme pungenti,
che al contrario risuonano forti con la loro vivacità
armoniosa e meticolosa. Lo stesso Kandinsky in uno dei
suoi scritti osserva:
«un silenzio che improvvisamente riusciamo a
comprendere. È la prima giovinezza del nulla, o meglio
un nulla prima dell’origine, prima della nascita. Forse la
terra risuonava così, nel tempo bianco dell’era glaciale.»
4

Come impareremo a vedere nei capitoli successivi,
la moderna visualizzazione dei software sembrerà
quasi restituire attualità a questo astrattismo artistico
appartenente al secolo scorso.
1.2 Metodologia e approccio
Lo studio delle community ad oggi è affidato a gruppi di
professionisti specializzati in differenti settori, che scavano
e selezionano nell’oscurità della rete i consumer appetibili,
quasi come fossero questi ultimi, prodotti di alta qualità, da
raccogliere ed esporre, da indirizzare ed animare. Il profilo
del community manager, non è un profilo ben definito,
poichè è figlio di un mercato obsolescente, in continua
espansione, le cui richieste curriculari aumentano di
giorno in giorno.
Diviene dunque difficoltoso tracciare delle caratteristiche
comuni di questa scienza poco chiara: è richiesta flessibilità
di linguaggio, poichè la comunicazione tende a cambiare in
base al prodotto e alle esigenze delle singole community,
ed una semplicità di approccio; dobbiamo essere complici
per acquisir consapevolezza e notorietà.
Franklin Roosvelt diceva “fai ciò che puoi, con ciò che hai,
dove sei”.
Questa è la base del nostro approccio metodologico,
dinamico e flessibile, il cui obiettivo sarà la stesura di una
5

serie di consigli e filtri informatici che ci supporteranno
nello studio delle aggregazioni sociali nell’era 2.0.
Il mondo social per l’appunto, luogo e “non” luogo in cui
le community fioriscono, seguendo tendenze e passioni,
eventi e brand.
Non ci limiteremo come visto al solo approccio teorico ma
anche ad un approccio scientifico, poichè l’analisi della
rete essendo essa stessa codice, passa per determinati filtri
software opportunamente ottimizzati e declinati ai singoli
casi e usi.
1.3 Struttura della tesi
Nel capitolo 2 tratteremo argomentazioni teoriche inerenti
all’era 2.0, attraverso un excursus delle più importanti
autorità in tema di comunicazione. Partiremo da una breve
introduzione sulle contraddizioni semantiche del termine
“social”, che ci porterà a menzionare le celeberrime teorie
sui media di Mcluhan accompagnate assieme ad una
breve storia del social networking, giungendo in fine alle
contraddizioni delle piattaforme moderne di condivisione.
Nel capitolo 3 illustreremo l’evoluzione del termine
“comunità”, dalle teorie marxiane della società, giungendo
finoallaconcezionemodernadivillaggioglobaleedisocietà
virtuale di Mcluhan e Rheingold. Inoltre illustreremo gli
approcci di studio sulle community, attraverso una breve
6

descrizione delle competenze dei community manager e
delle tecniche di individuazione a gestione delle comunità
social adottate nel settore del marketing digitale.
Il capitolo 4 affronterà temi più pratici, riguardanti le
teorie della Social Network Analisys (SNA). Illustreremo
gli algoritmi su cui si basa la Community detection,
partendo da una descrizione della struttura di rete basata
sulle teorie dei grafi.
Il capitolo 5 affronterà un secondo tema pratico, che
trova applicazione nelle piattaforme digitali: i sistemi di
raccomandazione e reputazione, nati per ottimizzare la
gestione dei dati e la loro attendibilità, garantendo quindi
una maggior qualità dei servizi offerti.
Il capitolo 5 illustrerà gli obiettivi reali della nostra ricerca
e successivamente descriverà in atti pratici una strategia
efficacedicommunitydetectionattraversounveroeproprio
test guidato su un evento di spessore internazionale, quale
il Vinitaly 2014. Verranno inoltre introdotti gli strumenti
software per l’estrapolazione e la modellazione dei dati,
con i principali comandi per l’individuazione in differenti
reti, dei cluster tematici.
Nel capitolo 7 infine si ipotizzerà lo sviluppo futuro di
una piattaforma, basata appunto sull’analisi delle proprie
network areas e sull’attendibilità delle informazioni
reperite.
7

2.1 Contraddizioni della terminologia social
Tema molto dibattuto, sia sulla rete che in sede univesitaria
è l’equivoco linguistico sulla differenza tra social media e
social network.
Letteralmente social network si può tradurre come rete
sociale,ovverocomeluogo(ononluogo)diaggregazione;al
contempo social media si può tradurre come media sociale,
ovvero strumento di comunicazione di origine sociale.
Facendo una ricerca in rete, è sembrato utile riportare
quella che è la descrizione di una delle più importanti ed
influenti community sulla libera informazione del web:
wikipedia.
Secondo il dizionario online “una rete sociale consiste
in un qualsiasi gruppo di persone connesse tra loro
da diversi legami sociali, che vanno dalla conoscenza
casuale, ai rapporti di lavoro, ai vincoli familiari”, mentre
“social media è un termine generico che indica tecnologie
e pratiche online che gli utenti adottano per condividere
contenuti testuali, immagini, video e audio”.
La stessa versione inglese di Wikipedia definisce social
networking, un “servizio focalizzato nella costruzione di
community on-line di persone che condividono interessi
e/o attività. Molti servizi di social network sono web-
based e forniscono ai loro utenti una serie di strumenti
per interagire”.
11

Sembra quindi chiaro quella che è la tendenza linguistica
comune: il social network diviene un sottoinsieme del
socialmedia,strumentoconilqualeconoscere,condividere
ed ascoltare, il filo che intercorre tra i diversi users e ne
traccia i profili, definiti e chiari, o come direbbe McLuhan
“caldi” ovvero ad alta definizione.
2.1.2 I social media di McLuhan
L’origine delle teorie moderne sulla comunicazione è da
attribuire ad una delle figure più influenti e importanti
della sociologia.
Nato in una delle terre più verdi e fertili del Canada,
precisamente Emonton, Marshall McLuhan (Figura
2.1) studiò dapprima ingegneria presso l’università
di Manitoba, per poi iscriversi a Cambrige in lingua e
letteratura inglese.
L’importanza del suo lavoro, risiede nell’interpretazione
innovativa che egli stesso da all’influenza della
comunicazione sul singolo e sulla società.
Una riflessione che ruota attorno alla celeberrima tesi
“il medium è il messaggio”, ovvero un mezzo mezzo
tecnologico capace di produrre effetti sulla collettività,
indipendentemente dai contenuti e dall’obiettivo
comunicativo/pervasivo.
Un determinismo tecnologico marcato, che trova sfogo
Figura 2.1 Marshall Mcluahn
12

tra le pagine del suo scritto più famoso, “Gli strumenti
del comunicare” del 1964 (Understanding Media:
The Extensions of Man), vera e propria bibbia della
comunicazione.
Afferma McLuhan che “le conseguenze individuali e
sociali di ogni medium, cioè di ogni estensione di noi
stessi, derivano dalle nuove proporzioni introdotte nelle
nostre questioni personali da ognuna di tali estensioni
o da una nuova tecnologia”. Continua sostenendo che il
medium stesso, plasma e controlla le porzioni, la forma
dell’associazione e dell’azione umana, non il contenuto
come la “passata ignoranza” afferma, poichè il contenuto
di un medium è sempre un altro medium.
Ogni medium va analizzato quindi secondo i criteri
strutturali della comunicazione (la frammentazione è
l’essenza della tecnologia della macchina), ovvero secondo
quella che è un’altra fondamentale chiave di lettura dello
studio moderno sui media, l’agenda setting.
In questo vero e proprio modello di agenda, i media
delineano le tematiche da somministrare al pubblico: i
temi sono selezionati secondo dei criteri legati alle routine
produttive dei mezzi di comunicazione anzichè alla
rilevanza del tema.
Altro fulcro fondamentale dello studio di McLuhan è
quello della catalogazione dei mezzi di comunicazione in
14

due grandi categorie: media caldi e media freddi.
Accusata per essere contraddittoria, causa l’utilizzo
antifrastico degli aggettivi “caldo” e “freddo”, la
classificazione prevede l’associazione di media a “bassa
definizione” con la categoria “freddi”, ovvero media
bisognosi di un’alta partecipazione da parte dell’utente
(per “completare” e “riempire” la comunicazione non
trasmessa), e media ad “alta definizione”, sotto la categoria
“caldi”, ovvero “completi” verso cui vi è bisogno di una
scarsa partecipazione.
Come abbiamo visto quindi, il sociologo canadese, arriva
alle sue osservazioni spiazzanti, non da una posizione
privilegiata all’interno di una società informatica, ma
bensì da un trascorso universitario passato sui testi del
Rinascimento, della poesia e dell’arte di fine 800, fino a
giungere alle tecniche della prospettiva lineare e ai lavori
di economia di Harold Innis.
Ad oggi le teorie di McLuhan, sono fondamentali per
comprendere quella che è la reale evoluzione dei media, la
loro diffusione di massa e soprattutto gli usi sociali ad essi
legati. Come sosteneva lo studioso “ogni nuova tecnologia
è un agente rivoluzionario...nessun medium esiste o ha
significato da solo ma soltanto in continuo rapporto con
altri media”.
Un precursore delle nuove dinamiche sociali che come
15

vedremo nei paragrafi successivi, attraverso la tesi del
“villaggio globale”, interpreta perfettamente quella che è
la tendenza dei nuovi media.
Già negli anni Sessanta, mentre i calcolatori della Xerox
ingombravano stanze enormi per pochi semplici calcoli,
McLuhanscrisse:“inquest’eraelettricacivediamotradotti
sempre più nella forma dell’informazione e avanziamo
verso l’estensione tecnologica della conoscenza. Inserendo
con i media elettrici i nostri corpi fisici nei nostri sistemi
nervosi estesi, istituiamo una dinamica mediante la quale
tutte le tecnologie precedenti, che sono soltanto estensioni
del corpo (compresa la città) saranno tradotte in sistemi
di informazione”.
2.1.3 Effetto Zuckerberg
“QuandoènatoFacebooksibasavasupochiconcettimolto
semplici: le persone vogliono condividere e connettersi
con le altre persone intorno a loro, quando la gente ha il
controllo su quello che condivide si fiderà a condividere
di più, più la gente condivide più il mondo sarà aperto e
connesso, in un mondo più aperto i problemi che tutti ci
troviamo ad affrontare saranno più facili da risolvere”.
Estratto da un’intervista di Mark Zucherberg (Figura
2.3), il concetto del social trova un definizione concreta
16

nella frase “più la gente condivide più il mondo sarà
aperto e connesso”. Generare contenuti da condividere
con il mondo: una relazione forte di interscambio in cui
le barriere spazio temporali sono annullate in favore
dell’informazione immediata e illimitata.
Ma l’effetto social non nasce con Facebook, si può invece
affermare che lo stesso rappresenti ad oggi la realtà digitale
più vasta e popolare di aggregazione e condivisione del
web: un vero tesoro di informazioni, ormai non più
unicamente luogo di interscambio, ma vero e proprio
campo di applicazione e studio.
Infatti internet ha avuto la capacità di mettere in contatto
le persone tra di loro già dal lontano 1971, l’era del web
1.0 basato su una visualizzazione di documenti statici
ipertestualiattraversounostrumentocheoggidefiniremmo
quasi obsoleto, la mail condivisa.
Il primo vero social network nasce nel 1997 dalla mente di
Andrew Weinreich e prende il nome di “Sixdegrees”. Esso
si basava sulla teoria dei 6 gradi separazione elaborata nel
1967 dallo psicologo di Harvard, Stanley Milgram; secondo
questa teoria tutti gli uomini sulla terra sono collegati tra
di loro attraverso una catena di informazioni e conoscenze
con non più di 5 intermediari: questo fa in modo che due
persone che non si conoscono, trovino sempre un link
capace di metterli in contatto tra loro attraverso non più
17

di 5 contatti.
“Find the people you want to know through the people
you already know” ovvero “trova le persone che vuoi
conoscere attraverso le persone che già conosci”. Questo
lo slogan che Microview utilizzò per il lancio della propria
piattaforma: infatti con una mail inviata nel gennaio del
1997, Weinreich raccolse in breve tempo circa 150 contatti
proveniente dalla sua rubrica professionale e personale,
tutti concentrati nella zona di New York, fino a toccare
quota 675.000 contatti nel giugno del 1998.
Secondo in ordine di tempo, celeberrimo nella struttura
innovativa, e oggi anche nella larghezza del proprio
bacino di utenza, Friendster fu fondato nel marzo 2002
dal programmatore californiano Johnatan Abrams.
Incoronata subito dalle riviste di tutto il mondo, come una
piattaforma rivoluzionaria, offre la possibilità di conoscere
nuove persone accoppiandole sulla base degli interessi
personali. Ad oggi essa rimane tra le più usate, contando
oltre 90 milioni di iscritti (di cui 62 milioni in Asia) e 19
miliardi di pagine visitate al mese. Tuttavia la grande
notorietà di cui gode oggi Friendster è riconducibile ad
una ottimizzazione delle reti e del codice nativo sviluppata
anno per anno. Infatti nel 2003 l’inaspettato successo
del social mise a nudo i limiti della propria neonata
architettura: a causa delle numerose richieste di iscrizione
18

(di cui numerose appartenenti a profili falsi, i cosiddetti
Fakester), il caricamento della pagine divenne molto
lento fino ad alternare veri e propri collassi con attese che
farebberoadoggiimpallidirelevecchieconnessionea56kb.
Questo fenomeno fu decisivo poichè di li a poco nacque
My Space (seguito qualche mese dopo da LinkedIN, social
le cui relazioni tra gli utenti sono di natura professionale).
Ideato nel 2003 da Tom Anderson e Chris De Wolfe, My
Space nasce con lo scopo di dare ai giovani uno spazio
libero su cui creare e condividere contenuti attraverso
una moltitudine di strumenti, tra cui inizialmente blog,
oroscopo e giochi.
Ma paradossalmente il vero successo di My Space si deve
ad un bug di sistema: infatti grazie a questo piccolo e
inaspettato difetto l’utente poteva personalizzare a proprio
piacimento la pagina del profilo. Quando gli sviluppatori si
accorsero del successo casuale di questo bug, decisero di
non porvi rimedio ma di implementarlo con più funzioni.
Venduto nel 2005 per circa 600 milioni di dollari a Rupert
Murdoch, oggi My Space di proprietà della Specific Media
è sull’orlo del fallimento.
È nel 2004 che la filosofia del social verrà rivoluzionata,
grazie all’avvento di The Facebook. Creato tra le pareti di
un college dall’appena diciannovenne Mark Zuckerberg
(Figura 2.2), la piattaforma si basava su profili reali ed un
19

sistema di registrazione contatti. Infatti all’inizio il codice
fu sviluppato per essere adattabile alla sola rete sociale di
Harward, con poche semplici funzioni.
Nato come un semplice mezzo di comunicazione per un
pubblico esclusivo, il network rappresenta oggi una vera
alternativa alla realtà in cui il singolo utente vi tende a
trasferire la propria rete sociale preesistente: sia esso un
legame di sangue, professionale o amicale, la piattaforma
ti permette di condividervi contenuti disparati in maniera
immediata ed intuitiva.
Saranno invenzioni come il tagging e il news feed a rendere
quasi perfetta la macchina mediatica di Zuckerberg, che
grazie anche alla possibilità di ospitare applicazioni di
terze parti, aprirà la porta ad un business ad oggi fiorente
ed in continua espansione, quello dei “social tools”.
Solograzieall’avventodiFacebookprenderannopiedealtre
numerose idee e piattaforme, ad oggi veri e propri colossi
del settore social: Twitter nato durante un brainstorming
è un servizio che permette di mandare brevi messaggi a
piccoli gruppi, e Google+ di Google le cui novità come i
videoritrovi (hangouts), gli spunti (sparks), il sistema
di feed (che divide per poi filtrare gli argomenti in box)
o il sistema basato sui circle (strumento di tutela per la
privacy), sono solo l’inizio di una rivoluzione mediatica
senza precedenti.
Figura 2.2 Mark Zuckerberg
21

2.2 La grande fuga dei Blogger
Come abbiamo visto nel paragrafo precedente, anche l’era
del web 1.0 ha saputo consegnare alla sua generazione
gli strumenti necessari per comunicare. Infatti proprio
con l’ascesa dell’era “statica” del web, molte aziende
incominciarono a investire su un proprio sito istituzionale,
poco flessibile e usabile, la cui realizzazione era affidata
a webagency neonate e quindi poco esperte del settore.
La pubblicità avveniva tramite banner aggressivi: veri e
propri mattoncini di spam, fastidiosi e ingombranti.
Qualche anno dopo abbiamo la rapida discesa del web
2.0, completamente flessibile e immediato, dinamico e
spettacolare nelle visualizzazioni flash e implementazioni
shockwave. La sua espansione procede di pari passo
con l’implementazione e l’aggiornamento dei siti, che
arrivarono ad ospitare al proprio interno forum e blog:
strumenti di condivisione, ascolto e fidelizzazione. Un
trend durato quasi 10 anni, fino all’avvento dei social
appunto.
Il web 2.0 creando e ampliando nuovi spazi di condivisione
e diversificazione di contenuti ha abbattuto i tempi di
lettura e ricerca della news, facendo addirittura in modo
che la stessa fosse a bussare la porta del nostro broswer.
Uno strumento di fama improvviso e senza precedenti per
chi ormai da anni era abituato ad un numero contenuto
22

di visite, causa anche una diversa indicizzazione delle reti.
Un traffico quasi del tutto assorbito quello della
blogsfera, che ha visto numerose aziende e blogger di
fama internazionale e mondiale, chiudere i battenti per
trasferirsi su un palcoscenico più ampio e risonante. Un
cambiamento quasi naturale ed impercettibile per chi del
blog ne faceva semplice strumento di contatto e share.
Come spiega Marco Camisani Calzolari, docente
universitario di Comunicazione Aziendale e Linguaggi
Digitali presso l’università di Milano e di Londra, nel
suo libro “Fuga da Facebook: the back home strategy”
lo stumento blog rimane ad oggi molto interessante
nell’economia dei differenti mezzi utilizzati dai blogger,
quindi sarebbe un grave errore chiudere i blog aziendali
come fece Ducati Italia nel 2010.
Lo stesso Calzolari continua affermando che “non
bisogna confondere la voglia degli utenti di socializzare
su piattaforme come Facebook con la scelta di tenere
aperto o chiuso il proprio blog o sito aziendale. Questa
defezione è dovuta soprattutto alla scarsa qualità dei
siti, neppure lontanamente paragonabili all’agilità di siti
come Facebook, che grazie alle ultime tecnologie come
Ajax hanno aggiornamenti in tempo reale, e cambiano i
contenuti davanti agli occhi degli utenti e permettono la
connessione e l’interazione a tutti i livelli con chi ha i tuoi
23

stessi interessi.”
Un meccanismo quindi che premia la velocità di
informazione e di visualizzazione, e che ormai si avvia
verso uno sviluppo intuitivo delle piattaforme: un vero
e proprio specchietto per le allodole messo a punto dal
nuovo sistema social, in cui la privacy viene sviscerata
sulle bacheche di miliardi di utenti.
24

3.1 Comunità sociale e virtuale
Sotto il termine comunità il dizionario online Treccani
riporta la seguente dicitura:
“Insieme di persone che hanno comunione di vita
sociale, condividono gli stessi comportamenti e interessi;
collettività: fare gli interessi, il bene della comunità; c.
nazionale, etnica; c. familiare, la famiglia; c. scientifica,
il complesso degli studiosi che appartengono a un
determinato ambito di ricerca; c. linguistica, i cui membri
condividono lo stesso sistema linguistico; c. virtuale,
quella che unisce gruppi di utenti di Internet, definita
più tecnicamente community (v.); arme di c. sono dette,
in araldica, quelle degli stati, regioni, province, città e
comuni.”
Molto più sintetica ma abbastanza chiara e diretta, la
prima definizione che ne da Wikipedia, dizionario online
(nonchè community digitale):
“Una comunità è un insieme di individui che condividono
lo stesso ambiente fisico e tecnologico, formando un
gruppo riconoscibile, unito da vincoli organizzativi,
linguistici, religiosi, economici e da interessi comuni.”
27

Entrambi le definizioni risaltano per più volte il termine
condivisione, vera giunzione di una comunità, sia essa
fisica o virtuale.
Ferdinand Tönnies sociologo tedesco vissuto tra la seconda
metàdell’800elaprimametàdel900,fuilprimoastudiare
la comunità come unità di aggregazione e interscambio.
Nella sua più importante opera, “Comunità e società”
(Gemeinschaft und Gesellschaft, 1887), individua due
forme sociali di aggregazione: la comunità (Gemeinschaft),
incuipredominaunsensodiappartenenzaepartecipazione
spontanea, propria del periodo pre-industriale e la società
(Gesellschaft), in cui predomina invece razionalità e
condivisione (scambio), propria della moderna società
industriale. Il sociologo contrappone queste due tipologie
di forme sociali sostenendo che: “la teoria della società
riguarda una costruzione artificiale, un aggregato
di esseri umani che solo superficialmente assomiglia
alla comunità, nella misura in cui anche in essa gli
individui vivono pacificamente gli uni accanto agli altri.
Però, mentre nella comunità gli esseri umani restano
essenzialmente uniti nonostante i fattori che li separano,
nella società restano essenzialmente separati nonostante
i fattori che li uniscono”.
Le moderne teorie della comunità, prendono spunto
dagli studi sociologici di Ferdinand Tönnies: un percorso
28

evolutivo basato su una progressiva decostruzione dei
confini propri dell’individuo che come vedremo in seguito
con lo stesso Howard Rheingold papà del termine e del
concetto di “community virtuale”, tenderà sempre più a
relazionarsi per gruppi di interesse specifico.
3.1.2 Marx ai tempi di Facebook
Come abbiamo più volte ripetuto nei paragrafi precendenti
la vita sui social è un estensione della vita off-line: la
comune tendenza a trasportare in toto, contatti, lavoro,
hobby e quant’altro, è ormai quasi del tutto naturale e
impercettibile.
Non bisogna però ridurre questo gesto ad una comune
trasposizione di beni e tendenze: potremmo definirlo
come una vera e propria riproduzione “mediata” o meglio
“mediatica” della vita stessa.
Essa di fatti si arricchisce di nuovi contenuti e strumenti,
che creano un vero e proprio linguaggio moderno e
specifico, una nuova semantica digitale, che incide e
modifica in maniera profonda i rapporti personali e sociali.
Un fenomeno che muta radicalmente la nozione stessa di
individuo nella modernità, creando nuovi equilibri nella
“struttura” socio-economica.
Carattere fondamentale di un sistema economico
capitalistico è la prevalere dell’individuo sulla collettività,
29

soprattutto se si parla di società concorrenziale: creare un
immagine forte di se stessi diviene strumento vincente per
emergere sulla moltitudine di profili e crearsi uno spazio
illimitato di studio e azione. Una logica individualista che
lavora per generare consenso e guadagnare notorietà.
Il social network in quanto strumento sociale, alimenta
questa autocostruzione e promozione della propria
immagine rendendola accattivante e seducente (sia
essa brand o semplicemente profilo privato), attraverso
un’amplificazione dei propri caratteri distintivi ora
mascherati sotto moltitudine di contenuti digitali.
Facebook è l’esempio lampante di come la propria vita
diventi prodotto da esibire in una vetrina digitale: una
soggettività pubblicizzata secondo particolari dettami,
le cui strategie sono riconducibili al puro marketing
pubblicitario. Le piattaforme virtuali, sono quindi una
“sovrastruttura” del fenomeno sociale legato all’uso di
massa di internet, con un linguaggio differente a seconda
della tipologia delle stesse e delle norme che ne regolano il
funzionamento e la libertà d’azione; esse rendono operativi
e concreti gli effetti della vita virtuale in quella reale.
3.1.2 Il villaggio globale
Il concetto di villaggio globale, ossimoro della nota teoria
di Mc Luhan sullo sviluppo tecnologico, serve al sociologo
30

canadese per esprimere l’evoluzione verso cui la società si
sta incamminando.
Ciò che in passato era distribuito e amalgamato su distanze
“globali”, grazie all’innovazione della comunicazione e
delle rispettive tecnologie è ora accessibile e percorribile
con l’immediatezza della luce. Una globalità racchiusa
negli spazi di un villaggio, la cui evoluzione è affidata alla
modalità, alla velocità di fruizione delle informazioni e alla
forma delle stesse.
Il sociologo canadese introduceva di fatto così il suo
discorso al villaggio globale: “il nostro è un mondo nuovo
di zecca, fatto di subitaneità. Il tempo è cessato, lo spazio
è svanito. Ora noi viviamo in un villaggio globale, in un
avvenimento simultaneo”. Simultaneità che per esser
compresa deve necessariamente esser analizzata nel
contesto in cui il “medium è il messaggio”:
“L’elettricità rappresenta un messaggio radicale,
permeante, decentrato, che si traduce nell’eliminazione
di quei fattori di tempo e di spazio che condizionavano
la nostra vita fino a ieri. Questo è anche il messaggio
fondamentale della radio, del telegrafo, del telefono, della
televisione, dei computers: tutti mezzi che, al di là dell’uso
che ne facciamo, dicono che spazio e tempo sono aboliti,
creando una partecipazione in profondità. L’elettricità
31

stessa è messaggio.”
L’originalità di questo pensiero è attribuibile anche alla
suddivisione che il sociologo ridisegna riguardo ai periodi
storici e alle esperienze mediatiche ad essi appartenenti.
Infatti il villaggio globale, è un fenomeno che nasce e si
sviluppa nella società “elettronica”, terzo stadio evolutivo
dopo la tradizione orale e la scrittura/stampa, in cui i
media “estendono” il sistema nervoso umano all’intero
pianeta: ogni uomo partecipa è condivide i propri problemi
con altri uomini fisicamente distanti su scala globale;
contatti simili a quelli che avvenivano nel villaggio in cui
la fruizione dell’informazione era immediata e accessibile.
L’era moderna, ovvero postindustriale, è teatro di quello
che è il passaggio da una società dell’informazione,
caratterizzata dal dominio dei mass media e dal messaggio
monodirezionale (fonte-destinatario), ed una società della
comunicazione, caratterizzata dalla convergenza della
multimedialità in piattaforme uniche, in cui il soggetto
è al tempo stesso destinatario e fonte del messaggio
polidirezionale.
Un passaggio obbligato e condizionato dalla tecnologia
digitale, colpevole di quella che è la globalizzazione delle
reti (banda larga), una moltiplicazione dei canali e una
convergenza degli stessi in poche e performanti tecnologie
32

interattive, intuitive e flessibili.
Anzichéfavorirelacostruzionediununicovillaggioglobale,
la digitalizzazione crea le condizioni per un nuovo spazio
sociale multiprofilo in cui possono convivere migliaia di
linguaggi, etnie, culture e religioni.
Internet diviene quindi metafora, se non incarnazione
stessa della globalizzazione tecnologica. Una distribuzione
equilibrata del potere sociale, un informazione senza
barriere e limiti territoriali e culturali; l’arma più efficace
per una democrazia moderna, in cui l’informazione mirata
e di ristretto dominio, diviene libera e accessibile al mondo.
La velocità e lo sviluppo di questa nuova democrazia,
procede di pari passo con una serie di problematiche
legate all’eccessiva “liberalizzazione” dell’informazione,
alla sua correttezza d’uso ed infine all’abbatimento della
soglia di privacy a cui, in quanto utenti digitali, decidiamo
quasi istintivamente di rinunciarvi.
L’universo virtuale costruito ed abitato dall’uomo non
è altro che una “sovrastruttura” di quello reale regolato
da norme fodamentali come connettività e accessibilità
alle informazioni, ipertestualità e immediatezza ed
interattività.
Proprio quest’ultimo fondamentale aspetto, trova sulle
reti nuovi modelli di socialità, collanti del rapporto uomo-
macchina: nascono gruppi autonomi attorno a tematiche
33

diversificate e software di collaborazione open source,
capaci di generare nuovi linguaggi e metodi di interazione.
Tra le più interessanti manifestazioni di vi sono ad oggi
le comunità virtuali: web television e online games sono
solo alcune delle estensioni dei nuovi villaggi globali
“informatizzati”. “Think globally, act locally” (Zygmunt
Bauman) è lo slogan che meglio riassume il nuovo
approccio al vivere sociale.
3.2 La comunità virtuale di Howard Rheingold
Howard Rheingold (7 luglio 1947) sociologo statunitense
specializzato in comunicazione dei nuovi media, studia e
formulatraglianni70e80alcunedelleteoriefondamentali
sulle comunità del nuovo millennio. Papà del termine
“comunità virtuale”, intuisce e intravede in queste nuove
forme di aggregazione social/digitale uno strumento di
affermazione per una democrazia decentralizzata, poichè
grazie all’espansione delle reti, i vincoli della vita pubblica
crollano.
Da villaggio globale quindi a Community virtuale globale.
Fu Stewart Brand, nei primi anni 80 a fondare la prima
community virtuale, ed Howard Rheingol (Figura 3.1),
noto giornalista americano esperto di comunicazione
multimediale, a raccontarne il suo percorso nel saggio
“Comunità virtuali. Parlare, incontrarsi, vivere nel
Figura 3.1 Howard Rheingold
34

ciberspazio”: uno studio che attraverso l’esperienza
personale dell’autore nel mondo delle nuove tecnologie,
analizza le dinamiche interne che regolano questi piccoli
gruppi autosufficienti on-line e che egli stesso come
precedentemente detto, definisce “comunità virtuali”.
“Le comunità virtuali sono aggregazioni sociali che
emergono dalla rete quando un certo numero di persone
porta avanti delle discussioni pubbliche sufficientemente
a lungo, con un certo livello di emozioni umane, tanto
da formare dei reticoli di relazioni sociali personali nel
cyberspazio”.
Una comunità virtuale è quindi regolata da norme e
accordi imprescindibili: fondamentale è la predisposizione
alla collaborazione reciproca e allo sharing o condivisione
di informazioni. “È necessario dare qualcosa; è possibile
ricevere qualcosa”.
AffermaRheingol:“senzaespressionifacciali,tonodivoce,
linguaggio corporeo, vestiti, ambiente fisico comune né
altri indizi contestuali che segnalino la presenza fisica, i
partecipanti all’IRC hanno a disposizione solo le parole
per ricostruire contesti a loro immagine, aggiungendo
azioni immaginate (…).”
Profili quindi bene delineati, non da una fisicità, ma da una
36

mitizzazione del proprio “io” virtuale: valori e credibilità
misurati non dal contenuto ma dalla forma del proprio
messaggio, vero e proprio punto di forza dell’influencer
digitale.
Rheingold ha il merito di aver anticipato i tempi
comprendendo per primo i vantaggi e le ripercussione
della comunicazione digitale, moderata e supportata da
sistemi informatici multitasking.
Rispetto agli anni in cui il sociologo statunitense,
analizzava i nuovi metodi e strumenti di aggregazione, la
rete si è evoluta: le comunità virtuali hanno trovato nuove
forme che ne hanno aumentato il grado di complessità
organizzativa, gestionale e strutturale. A rimanere quasi
del tutto invariate, sono le dinamiche di interazione tra
individui, che pur godendo di nuovi strumenti, basano
la loro ricerca di notorietà e crescita individuale sulle
solide fondamenta già descritte in precedenza. Da una
totale assenza di output visivi ci muoviamo verso un’era
di ricostruzione tridimensionale e virtuale, che conserva
la sua natura immateriale, ma ci fornisce nuove metriche
di valutazione della fonte informativa: gli avatar e i profili
social.
3.2.1 Il concetto di web community
Dopo aver ripercorso attraverso esperienze ed analizzato
37

sotto differenti chiavi interpretative l’accezione di
comunità sociale, ci apprestiamo ora a comprendere nel
concreto i meccanismi che ne regolano la gestione ed il
funzionamente determinandone il ciclo di vita utile.
Oggi il vivere sociale dell’uomo in rete è il vero motivo della
crescita esponenziale delle community, anfratti in cui gli
utenti si aggregano seguendo passioni e ambizioni, la cui
condivisione diviene fondamentale per l’arricchimento e
la crescita delle stesse.
La Condivisione, termine che viene spesso sostituito con
il tecnicismo inglese “sharing”, rappresenta il vero core di
ogni processo sociale in atto nel web.
Le community ad oggi sono un vero e proprio vaso di
Pandora: celano un potenziale inesplorato, difficile da
cogliere e studiare; siano esse valoriali o brand inspired,
sono nate all’interno delle piattaforme social (blog, forum,
social network), e si sono affermate piantandovi profonde
radici, capaci di costituire veri e propri trend, spesso
proiettati nella vita offline.
Un vero e proprio business digitale in espansione, la cui
appetibilità fa gola alle aziende, i cui investimenti sono
ormai concentrati sulle nuove piattaforme mediatiche:
le stesse hanno compreso come sia fondamentale
intercettarle, e quasi impossibile crearle ex novo,
assoggettandole al brand.
38

Charlene Li e Josh Benoff in L’onda anomala (2008), ci
spiegano attraverso l’acronimo “post”, la strategia con
cui le community prendono vita: “P sono le persone. Non
avviate una strategia social se non avete compreso le
reali capacità, conoscenza e utilizzo delle tecnologie social
da parte della vostra audience. O sta per obiettivi. Quali
obiettivi potete realisticamente aspettarvi di raggiungere
con il vostro target di riferimento? S sta per strategia.
Come pensate di raggiungere tali obiettivi? T sta per
tecnologia: una community che si esprime in wiki, un
blog o centro blog.”
3.3 Community management
Matthieu Chereau, autore di Community Management
(2011), scrive che “la vocazione è quella di offrire alla
community gli strumenti per organizzarsi, discutere,
ed eventualmente creare insieme. Ciò significa che le
comunità preesitono ai social media. Tuttavia esse
possono cristallizzarsi momentaneamente o in maniera
più stabile e duratura intorno a particolari social
media. Le funzionalità dei social media permettono
alle community di discutere, scambiare informazioni,
opinioni e contenuti. Il loro codice si fonda su tre principi:
essere trasparenti, esprimersi normalmente e mai in
maniera formale, privilegiare il dono per ricevere di più
39

in cambio”.
La community management ad oggi è una materia che non
si improvvisa, ed è di difficile collocazione: sotto questa
accezione vi sono numerose discipline che, con il passare
degli anni e la consequenziale evoluzione della rete,
aumentano e si specializzano, non rientrando più nelle
competenze di una sola figura, ma di interi team aziendali.
Occorre quindi essere a conoscenza dei diversi linguaggi
della rete, e di quelli che potremmo definire sottolinguaggi,
propri delle nicchie virtuali e delle innumerevoli
piattaforme oggi disponibili.
La cultura quindi diviene un requisito fondamentale per
entrare a far parte di questo mondo, poichè non ci fa
ragionare in termini di flusso costante di messaggi, ma ci
impone una sorta di “agenda setting” delle conversazioni,
fluida e flessibile.
Comunicazione di impresa, comunicazione interna o
istituzionale, marketing, SEO e SEM, comunicazione del
prodotto sono solo alcune delle innumerevoli attività
che un community manager dovrebbe possedere nel suo
bagaglio di conoscenze.
Tutte queste difficoltà sono dovute al semplice fatto che
le community hanno una vita propria regolata in maniera
flessibile in funzione delle tendenze, degli usi e degli
obiettivi. La loro animazione e l’interazione con esse
40

richiede quindi grande flessibilità culturale e di pensiero,
ed una reattività quasi immediata di fronte al cambiamento
della comunicazione e degli strumenti ad essa legata.
3.3.1 La logica del condottiero 2.0
Non vi è quindi alla base della disciplina una sola e
semplice gestione dei contenuti. Giampaolo Coletti nel
suo libro “Vendere con le community” illustra una serie di
azioni ben distinte che tracciano il compito del community
manager “ideale”.
Una delle prime regole è ascoltare, non vendere: “non
parlare ai consumatori, non vogliono ascoltarti, vogliono
essere ascoltati”.
L’ascolto in realtà non è altro che il primo approccio verso
una fidelizzazione e una successiva vendita della propria
visione o del proprio brand. Esso implica una forma di
dialogo che sfrutti un linguaggio orizzontale o per meglio
dire alla pari.
La seconda azione è presidiare e non condizionare:
attraversounlinguaggiomoderatoneitonienell’approccio,
il confronto costante con le dinamiche interne ed esterne
è fondamentale. Il presidio di piattaforme, che siano
ricettacolo di lamentele o meno, è uno dei punti cruciali
per una strategia impeccabile poichè la comprensione del
messaggio postato deve servirci da input per permetterci
41

di scegliere quali canali attivare in sede di dibattito
(moderato), portando all’attenzione delle varie parti
coinvolte il tema sviscerato.
Una terza azione fondamentale, su cui come vedremo
successivamente si baserà l’intero percorso di tesi, è
intercettare e non creare. Soprattutto nelle fasi embrionali,
in cui un’azienda decide di nascere o lanciare un proprio
servizio/prodotto, occorre studiare la rete.
Le migliori community che operano nel web sono quelle
che nascono spontaneamente e che come spiegato nel
punto precedente, non vengono gestite ma monitorate
costantemente. Comunità che nascono all’interno e
all’esterno dell’azienda, e che seguono la scia di piccoli
hobby e passioni, si espandono a macchia d’olio sulle
varie piattaforme di rete, vivendo spesso all’ombra di
grandi comunità. Queste community che chiameremo
“sotterranee” meritano di essere intercettate e non forzate,
poichè esse sono un vero patrimonio per un analisi di
prodotto e di mercato accurata e affidabile.
A contraddire apparentemente il primo e secondo punto
elencati in precedenza, è la quarta azione del buon
community manager: veicolare una vision e non un brand.
L’ascolto infatti deve essere di per se accompagnato da
una comunicazione moderata e pesata; la condivisione di
contenuti,sianoessiimmagini,notizieovideo,devedivenire
42

lo spunto ottimale per lo sviluppo di una conversazione.
La figura del manager non deve mai essere ingombrante
come il brand che lo rappresenta, ma bensì accomodante,
poichè egli è traduttore delle esigenze della comunità e
allo stesso tempo condottiero di una visione di gruppo.
Lo stesso Santagata sottolinea la necessità di fornire “una
ragione per partecipare”. Una condivisione bidirezionale
di contenuti multimediali, in cui il community manager ha
il compito di promuovere idee e prodotti, e solo di riflesso
il brand.
Ultima azione che secondo lo scrittore Giampaolo Coletti
rappresenta la sfida più ardua del community manager
è quella di lavorare bene all’interno per essere forti
all’esterno. Nel periodo di crisi mondiale, ad oggi unica e
triste realtà in cui navigano le imprese e le aziende, a farne
le spese sono spesso i microcosmi interni di dipendenti, la
cui volontà e ricerca di confronto appare ancor più delicata
e complicata. Il filone di pensiero moderno, propone un
ritorno al “grado zero della comunicazione” interna:
informareildipendentesulledinamicheaziendali,formarlo
focalizzandosi sui servizi e prodotti offerti. Ma per essere
più precisi, come si ridefinisce la comunicazione interna
nella crisi? Quale approccio semantico adottare e quali
azioni interpretare per essere efficaci? Giampaolo Coletti
suggerisce che da “questa quinta azione può emergere un
43

decalogo della corretta comunicazione interna di impresa
per un community manager, che possa essere interprete
del tempo e pungolo per cogliere le opportunità di
mercato”. Un’opportunità nella crisi quindi, per scorgere
nuovi segmenti di mercato, appetibili ed incentrati ad un
risultato qualitativo più che quantitativo.
3.3.2 150: il collasso sociale ottimale
Robin Dunbar, docente di antropologia evoluzionistica
presso l’università di Oxford, studia dagli anni ’80 il
rapporto tra l’uso del linguaggio e le dimensioni dei gruppi
in cui noi esseri umani decidiamo di socializzare.
Dunbar sostiene che gli uomini vivono all’interno gruppi
complessi, animati da una moltitudine di legami sociali tra
individui, la cui forza è espressa e mantenuta attraverso la
cura reciproca.
Inoltre la grandezza del gruppo è strettamente dipendente
da vincoli temporali: infatti se il gruppo risulterà troppo
grande sarà difficoltoso gestire in termini di tempo
i rapporti tra gli individui che ne fanno parte, con la
consequenziale possibilità che vi nascano delle divergenze
interne tra gli stessi.
La dimensione massima per una gestione dei rapporti
viene definita attorno al numero di 150 membri, ovvero
una comunità in cui tutti si conoscono di persona, anche
44

solo di vista. Un numero che permette un ordine ed un
rispetto reciproci regolati dalla sola peer pressure, ovvero
la pressione tra membri della stessa comunità.
Oltre la soglia dei 150 membri avviene ciò che Dunbar
definisce “collasso sociale ottimale”.
Un’altra caratteristica di questi gruppi sociali, è la
capacità di sviluppare al loro interno, attraverso relazioni
emotivamente intense, una serie di microgruppi o
microcommunity ristrette, che non danneggiano
l’equilibrio del vivere sociale, anzi lo alimentano e fungono
da collante per lo stesso.
Ogni community di potenziali clienti dovrebbe essere
contenuta all’interno 150 unità, poichè solo all’interno
di tale comunità diverrebbe possibile gestire e soddisfare
le singole utenze, mostrando quell’attenzione e quella
dedizione che contribuiscono alla costruzione di un solido
rapporto di fiducia tra brand e consumer.
3.3.3 Intercettare e animare community
Come affermato dallo stesso Zuckerberg “non si crea una
comunità, esse esistono già e fanno ciò che vogliono”.
Proprio da questa intuizione deve partire la nostra strategia
di ricerca: intercettare una community significa mettere in
secondo piano l’estensione diretta del proprio prodotto o
del proprio brand per far emergere i valori, la filosofia e
45

l’anima stessa della propria idea di prodotto o di business.
Un altro importante spunto ci è dato da Tony Hsieh,
responsabile di Zappos, un sito americano leader nell’e-
commerce del calzaturiero: “le persone si identificano con
le altre persone e non con le aziende”.
Questa frase conferma quanto sia importante gestire
all’interno di una comunità, i rapporti sociali tra i membri,
in quanto il valore viene veicolato internamente dagli
stessi, vero e proprio strumento “attivo” di comunicazione.
Bisognaquindiessereviciniaivaloristessidellacommunity,
creando attività di engaging che sappiano attirare l’utenza
rispondendo alle necessità e alle curiosità della stessa,
strategia applicata con successo da multinazionali come
Nestlè, Nokia e Wind.
Pianificare creando riti e miti legati alla stessa community,
usando una simbologia ed un linguaggio specifico, non
improvvisato:ilcommunitymanagerdeveavereunproprio
palinsesto, un proprio piano editoriale, che punti ad
incuriosireedaffascinareattraversolaspettacolarizzazione
dei contenuti e il coinvolgimento attivo dei membri in un
luogo che generi valore nelle loro coscienze. Un valore di
appartenenza a qualcosa di “esclusivo”.
Solo conoscendo a fondo il proprio target, i sui gusti e i
suoi interessi, si potrà sorreggere una strategia che punti
alla ricerca del trait d’union fra i valori della brand idea
46

e i segmenti di una potenziale utenza di riferimento.
L’equilibrio comunicativo è uno dei requisiti fondamentali
per far comprendere al proprio pubblico che la community
è un contesto piacevole nel quale si condividono contenuti
interessanti e allo stesso tempo di una certa rilevanza; un
luogo in cui l’utente è allo stesso livello dell’azienda, con
cui vi è un confronto alla pari, costante e non invasivo/
pervasivo.
Èutiletenerebeneamentechevisonoinunacomunità,fette
di utenti che non partecipano in maniera attiva e costante:
per porre rimedio a questa mancanza è fondamentale
puntare sui gruppi di fedelissimi, poichè come detto in
precedenza il concatenamento comunicativo tra i membri,
sarà la costante di successo per un coinvolgimento di
massa.
47

4
#Architettura_&
#Analisi_delle_reti

4.1 La SNA e lo studio dei grafi
Wasserman, docente universitario presso l’Università
dell’Indiana, è ritenuto uno dei massimi esponenti
dell’analisi moderna sui social network. Nel suo
celebre testo, “Social Network Analysis: Methods and
Applications”, lo studioso definisce la “rete sociale” come
uno o più gruppi finiti di attori (individui o gruppi sociali)
tra cui intercorrono una o più relazioni definite (legami
di parentela, occasionali, fisici o lavorativi).
Dal punto di vista puramente analitico fondamentali
sono i contributi dello psicologo statunitense Jacob Levi
Moreno, papà della sociometria moderna. I suoi studi si
basano sull’osservazione dei fenomeni di raggruppamento
Figura 4.1 Rete Sociale
51

sociale e dei rapporti che intercorrono tra i vari attori.
Potremmo, basandoci su queste teorie, definire la rete
sociale come un grafo, ovvero un insieme di nodi (attori)
le cui relazioni sono riportate sotto forma di archi.
Gliarchi, megliodefiniticomerelazionidiunsociogramma,
possono essere orientati o meno, a descriverne
l’unidirezionalità del rapporto che intercorre tra i due nodi
(es.mittente – destinatario di un messaggio).
Nei grafi non orientati (o indiretti) gli archi tra i nodi
sono rappresentate da semplici tratti che rappresentano
relazioni simmetriche tra i nodi, come rappresentato in
Figura 4.2.
Nei grafi orientati (o diretti) invece, l’arco avrà una
direzione rappresentata da una freccia (testa) che ne indica
il senso di marcia verso un vertice, come rappresentato in
figura 4.3.
Figura 4.2 Grafo non orientato
52

Secondo Wasserman e Faust le relazioni che intercorrono
tra i vari nodi, possono essere misurate ed analizzate
mediante specifici algoritmi o approcci analitici, che
prendono in esame il nodo centrale o la lista di nodi
appartenenti alla Social Network.
Diviene quindi fondamentale introdurre un ulteriore
caratteristica nell’analisi di una rete sociale, definita come
indice di influenza di un nodo/utente su una community:
la centralità.
La misura di questo indice è strettamente dipendente dalla
tipologia di approccio analitico.
Definiamo infatti degree centrality la capacità di
interconnessione di un utente, con altri nodi/utenti
adiacenti ad esso. Importante sottolineare che il grado di
centralità in questa tipologia di approccio, nello specifico
caso dei grafi diretti, viene distinto in “entrata” (indegree
centrality) ed “uscita” (outdegree centrality), a
Figura 4.3 Grafo orientato
53

seconda appunto, della direzione del rapporto.
Altro approccio interessante è quello riguardante la
closeness centrality definita come somma delle
distanze di un nodo rispetto a tutti gli altri nodi. Essa è
indice della velocità con cui un nodo può raggiungere altri
nodi all’interno della sua rete.
Allo stesso modo, ovvero attraverso un analisi dei percorsi
direte,sibasaunotragliapproccipiùimpiegatinell’odierna
ricerca, quello della betweenness centrality, definita
come numero di percorsi (path) passanti tra una coppia
di nodi che a loro volta transitano attraverso il nodo
d’interesse.
Newman spiega che questa caratteristica propria dei nodi
è un misuratore del grado di influenza che un tal nodo ha
nell’essere un punto di passaggio verso il resto della rete.
La formula generica per il calcolo della Betweenness è la
seguente:
54

Ultimo approccio è quello della eigenvector centrality
definita come l’importanza delle connessioni di un nodo
con nodi influenti della rete.
4.2 Algoritmi di Clustering
Il termine Cluster Analisys fu introdotto per la prima
volta nel 1939 da Robert Tryon, ad indicare le tecniche
analitiche utilizzate per determinare i raggruppamenti
logici all’interno delle reti. Essi si basano sulla somigliana
degli elementi in una rete, divisa poi in cluster appunto.
Girvan e Newman, docenti e ricercatori universitari nel
campo della SNA, differenziano gli algoritmi di clustering
in due macro-categorie: gli agglomerativi/gerarchici e gli
algoritmi divisionali.
Gli algoritmi agglomerativi, che sfruttano un
approccio analitico dal basso verso l’alto (bottom-up),
tendono ad individuare in tutti gli elementi della rete
dei cluster indipendenti unendo di volta in volta quelli
più vicini tra loro, fino al raggiungimento della distanza
prefissata. Il limite di questo approccio, è la tendenza ad
escludere a priori i nodi più periferici, nonostante l’ottima
performance temporale di estrapolazione dati.
Gli algoritmi divisionali (detti anche algoritmi
k-clustering), il cui approccio tende ad analizzare la mole
di dati dall’alto verso il basso (top-down), individuano
55

inizialmente tutti gli elementi della rete come unico grande
cluster per poi, in maniera ciclica, generare coppie di nodi
con caratteristiche simili e quindi condivise, eliminando
l’arco tra di essi, ed ottenendo quindi progressivamente
una divisione in comunità sempre più piccole.
Nella nostra analisi ci soffermeremo sulla prima tipologia
di algoritmi, nonchè i più impiegati nella SNA, gli
agglomerativi/gerarchici, poichè offrono performance
ottimali in tempi brevi se confrontate con gli algoritmi
divisionali.
4.2.1 L’indice della Modularità
Come anticipato nei paragrafi precedente una rete sociale
è formata da più nodi legati tra di loro da rapporti sociali
(archi): il raggruppamento logico in base a definiti legami
tra nodi determina i cluster o comunità.
La densità di una rete sociale è definita come misura del
rapporto tra gli archi del grafo e il numero massimo di
archi possibili tra i nodi. Essa sarà pari a 1 se tutti i nodi
sono connessi tra di loro (clique o cricche: insieme V di
vertici in un grafo non orientato G, tale che, per ogni
coppia di vertici in V, esiste un arco che li collega)
Essa è un indice fondamentale per comprendere
l’interrelazione tra elementi di una rete e per determinare
un altra misura basilare: la modularità.
56

La modularità o modularity è un concetto introdotto da
Newman, definita come la differenza tra il numero di archi
che collegano nodi dello stesso tipo (cluster) e il numero
previsto da una rete differente, con le stesse comunità ma
connessione casuale tra i nodi.
Il valore ottenuto potrà essere positivo e compreso tra [0,1]
se la rete presenta suddivisioni (il range ottimali è tra 0,3 e
0,7), negativo se la rete non presenta alcuna suddivisione.
Ricordiamo inoltre che oltre la soglia massima, la rete
riporterebbe troppi legami forti e quindi il clustering
risulterebbe poco affidabile.
La formula generica della modularità è espressa come:
Di seguito analizzeremo alcune tipologie di algoritmi che
sfruttano il concetto della modularità ottimizzandolo in
57

maniera differente a seconda dei casi per un conseguente
impiego nella community detection.
4.2.2 Algoritmo Edge Betweenness
L’algoritmo Edge Betweennes conosciuto anche con il
nome di algoritmo Girvan/Newman, è stato uno dei primi
metodi a sfruttare l’approccio di clustering gerarchico
ottimizzandovi al suo interno il concetto di modularity:
esso determina quale tra le divisioni ottenute genera un
insieme di comunità corrispondenti a quelle realmente
presenti nel network. Questa modalità di analisi si basa
sulla betweenness, ovvero la capacità di misurare il peso
degli archi in base ai collegamenti che essi anno tra i diversi
cluster, omettendo quelli interni agli stessi cluster.
L’algoritmo genera un dendrogramma, leggibile in
verticale: un percorso che inizia con il calcolo del valore
di betweenness per ogni arco della rete; trovato l’arco
con il valore più alto, viene rimosso e ricalcolato il valore
di betweenness per gli archi restanti. Un percorso che si
ripeterà ciclicamente dalla ricerca degli archi.
Il punto di forza di questa metodologia è appunto il
ricalcolo dei valori di betweenness, in quanto la potenza
e la precisione nel rilevare le comunità è molto elevata
rispetto ad altri algoritmi.
Il punto debole invece è rappresentato dal tetto massimo di
58

1000 nodi analizzabili in una rete, causa un prolungamento
eccessivo di tempo ed un uso sporporzionato di memoria.
4.2.3 Algoritmo Fastgreedy
Un’altro interessantissimo approccio all’implementazioni
della modularità, è l’algoritmo Fastgreedy appartenente
anch’ess0 alla tipologia degli agglomerativi.
Il compito che questo algoritmo svolge con ottimi
risultati, è la ricerca a livello globale, in network di
ampio raggio, di comunità unite da un solo nodo, per
poi unire consequenzialmente le due che producono in
accoppiamento il più alto valore di modularità.
Al massimo in n-1 passi, con n numero di nodi, si ottiene
la soluzione con singolo cluster, rappresentata come i
precedenti algoritmi, con un dendrogramma.
L’algoritmodimodularitàcosìottimizzatosipresenterebbe
con:
I passaggi del Fastgreedy sono i seguenti:
59

1. Calcolare ∆Qi,j e ai riempiendo H con il valore massimo
di ogni ∆Q.
2. Selezionare il valore massimo di H, unire le comunità
corrispondenti aggiornando successivamente attraverso
una somma le corrispettive righe ∆Q, il vaore ai e il
contenuto di H.
3. Il punto 2 verrà ripetuto fino ad ottenere una sola
comunità ovvero n-1 cicli.
Il miglior rendimento temporale dell’algoritmo Fastgreedy
rispetto ad esempio ad unEdge Betweeness risiede nel fatto
che dopo ogni interazione non vi è bisogno di un ricalcolo
completo dei dati, ma basta semplicemente aggiornare i
valori della matrice ∆Q.
Inoltre come anticipato all’inizio del paragrafo, questo
strumento ci permette di analizzare reti di dimensioni
elevate, contenenti anche milioni di nodi, in un tempo
breve di O(md log n) con reti sparse e O(m log2
n) con reti
bilanciate.
4.2.4 Algoritmo Walktrap
Uno degli algoritmi più usati che sfrutta il sistema della
modularity, è il Walktrap, algoritmo di tipo agglomerativo
che ha il compito di rilevare i cammini brevi e casuali in
un grafo, intrappolati in zone di alta densità di connessioni
60

(community).
Il risultato sarà visibile sotto forma di un sistema
gerarchico, rappresentato da un dendrogramma, in cui
vi è una suddivisione delle comunità o cluster in base alla
somiglianza tra i vertici.
Riprendendo l’algoritmo della modularità ed integrandolo
con il Walktrap otteniamo che:
Nonostante ci sia un’alta precisione di raccolta dati e vi sia
la possibilità di analizzare reti di dimensioni consistenti,
il Walktrap presenta ancora limiti di tempo dovuti alla
complessità strutturale dell’algoritmo stesso.
4.2.5 I limiti della Modularità
Una delle tematiche di dibattito più accese per
l’implementazione della modularità, è rappresentato dalla
resolution limit.
61

Si è notato che gli algoritmi in fase di analisi tendono, sia su
piccole reti che su reti di grandi dimensioni, ad individuare
e dividere cluster in maniera poco affidabile.
Questo errore di valutazione è dovuto al fatto che il valore
della modularità di un dato cluster ottenuto in una rete, è
strettamente legato e dipendente dal numero degli archi
presenti nella stessa rete.
Interi sotto-gruppi con proprie caratteristiche semantiche
e strutturali, vengono quindi raggruppati erroneamente in
cluster apparentemente omogenei di grandi dimensioni.
La soluzione a questo problema, è stata trovata grazie ad
un ulteriore ottimizzazione della modularità, che come
vedremo nel paragrafo successivo, analizza i valori dei
singoli cluster in maniera ciclica, garantendo una maggiore
accuratezza dei risultati, senza scendere a compromessi
sulle tempistiche di raccolta e smistamento dati.
4.2.6 Algoritmo di Louvain
Un altro algoritmo appartenente alla famiglia degli
agglomerativi, strutturato in maniera più complessa
rispetto agli algoritmi finora analizzati, è quello di Louvain,
che si propone di estrapolare risultati qualitativamente
eccelsi in tempi brevi.
Il processo di calcolo e analisi prevede in un primo
momento l’assegnazione di ogni nodo del grafo ad una sua
62

comunità. Per ogni nodo i si considera il nodo j vicino e si
sposta i (qual’ora fosse possibile) nel cluster j, favorendo
quindi una massimizzazione della modularità.
Successivamente ogni comunità o cluster rilevati verranno
identificati come nodo di una rete, dove il peso della
connessione tra due nodi è dato dalla sommatoria dei pesi
degli archi tra i nodi dei due cluster, con gli archi interni
che contribuiranno alla formazione di un autoanello sul
gruppo stesso.
Questi passi andranno ripetuti finchè non si otterranno
nuove interazioni e quindi una massimizzazione della
modularity.
A differenza degli algoritmi analizzati precedentemente,
il metodo Louvain non presenta il problema della
resolution limit in quanto esegue un’ottimizzazione locale
identificando specificatamente ed in un tempo davvero
breve, comunità di piccole dimensioni in ambienti la cui
densità di nodi e archi è elevatissima.
Tra i metodi analizzati fin ora sembra essere per la qualità
dei risultati e la velocità di calcolo, la migliore soluzione
implementabile per la community detection.
I metodi analizzati finora forniscono una serie di strumenti
il cui approccio metodologico è basato su una analisi e
63

visualizzazione della rete gerarchica e organizzativa.
Vi sono però, all’interno della Social Network Analysis,
approcci che tengono conto di numerose varianti,
fondamentali per un’analisi strutturale più accurata dei
cluster.
Uno dei temi di recente interesse, è quello inerente le
Community Sovrapposte (Overlapping Community).
Secondo questo approccio analitico, un utente può far
condividere differenti interesse in altrettanto differenti
comunità: la rete quindi contiene numerosissimi cluster
che si sovrappongono, pur non presupponendo che uno
contenga l’altro.
Figura 4.4 Overlapping Communities
64

L’identificazione di questo insieme di cluster è definita da
Lancichinetti, cover C = {c1
,c2
,…,ck
}; in essa ogni nodo può
appartenere a differenti cluster contemporaneamente.
Ognuno di questi nodi i è associato ad una comunità
secondo un fattore di appartenenza [ai1
, ai2
, ... , aik
]; in essa
aic
è il fattore che misura la forza di associazione tra il nodo
i e il cluster c.
Diremo quindi che siamo in presenza di community
sovrapposte se i seguenti vincoli verranno rispettati:
in cui |C| è il numero totale di cluster.
L’identificazione di questi sottografi non è un compito
semplice: ad oggi infatti i metodi più performanti di
community detection, non sono in grado di garantire una
correttapartizionedellarete,poichètendononellamaggior
parte dei casi ad ignorare la variante della sovrapposizione.
Di seguito illustreremo gli algoritmi di maggiore impiego
proposti dai recenti studi di community detection, utili ai
fini di una strategia più accurata.
65

4.3.1 Clique Percolation Method
Il primo algoritmo analizzato è il Clique Percolation
Method (CPM).
Esso si basa sul presupposto che una comunità è formata
da una serie di grafi sovrapposti e connessi.
Prima di procedere ad illustrare le dinamiche con cui
lavora l’algoritmo, ricordiamo che le cricche o cliques
sono definite come insieme V di vertici in un grafo non
orientato G, tale che, per ogni coppia di vertici in V, esiste
un arco che li collega.
Procediamooraperordine:ilCPMindividuainprimoluogo
tutte le cricche di dimensione k in una rete, denominate
k-cliques; successivamente viene costituito un grafo che
prende il nome di k-clique i cui nodi saranno appunto le
cricche k individuate nel passaggio precedente.
Due nodi risulteranno collegati se e solo se le k-cliques che
li rappresentano condividono k-1 membri. I componenti
così ottenuti nel grafico e collegati tra loro identificano
quali cricche compongono la comunità. Ricordiamo che
se un vertice contiene più k-cliques contemporaneamente,
siamo in presenza di comunità sovrapposte.
Il CPM è un approccio adatto per i network ad alta
intensità di collegamenti: empiricamente i piccoli valori di
k (solitamente 3<k<6) hanno prodotto buoni risultati.
Vi sono alcune implementazione che permettono al CPM
66

di eccellere in alcune caratteristiche di analisi. Di seguito
mostreremo i principali:
1. Cfinder2
[Palla et al. 2005] di complessità temporale
polinominale in molte applicazioni, spesso fallisce su
network di grande densità.
2. CPMw [Farkas et al. 2007] introduce una soglia di
intensità nel sottografo per pesare le reti. Solo le k-cliques
con una soglia di intensità maggiore, potranno esser ritenute
parte della comunità.
3. SCP [Kumpula et al. 2008] invece di considerare tutti i
valori di k, prende sotto esame solo le clique community di
una certa dimensione. In una prima fase SCP trova tutte le
k-cliques analizzando tutte le (k-2)-cliques nelle vicinanze
dei due estremi, quando i collegamenti sono stati inseriti
in maniera sequenziale nella rete rispettando un ordine
decrescente del peso. Nella seconda fase rileviamo la
k-community attraverso la ricerca dei componenti connessi
nella proiezione (k-1)-cliques della rappresentazione
bipartita; in quest’ultima un solo nodo rappresenta un
k-clique a l’alto invece (k-1)-clique. Poichè ogni k-clique,
viene processata al doppio della velocità, il tempo di
esecuzione cresce linearmente e consequenzialmente con il
numero di cliques.
67

Ilproblemaprincipalediquestoalgoritmo,oltreall’enorme
dispendio computazionale dovuto a k-clique di dimensioni
arbitrarie, è la troppa rigidità e uniformità di approccio
su tutta la rete. Infatti uno dei requisiti fondamentali per
l’applicabilità del CPM è l’omogeneità delle community
analizzate, che come sappiamo nella maggior parte dei
casi differiscono l’una dall’altra per via di numerosi fattori.
4.3.2 Link Partitioning Method
A differenza dell’algoritmo precedente che si basa su un
partizionamento dei nodi, il Link Partitioning Method
(che per comodità chiameremo LPM) prevede come dice
lo stesso nome un partizionamento dei link o collegamenti
tra i nodi. Un nodo si dice sovrapposto se i link collegati ad
esso sono indirizzati su più cluster.
Solitamente i link sono suddivisi sfruttando il clustering
gerarchico e si basano su valori di somiglianza tra bordi
(edges).
Data una coppia di connessioni eik
e ejk
incidenti su un
nodo k, la somiglianza può essere calcolata tramite l’indice
di Jaccard, definito come:
68

dove Ni
è la zona vicina al nodo i che comprende incluso i.
4.3.3 Local Optimization Method
Questoapproccioprende inconsiderazionel’ottimizzazione
della densità di semi gruppi. Essi sono considerati tali
quando la rimozione o l’aggiunta di un vertice non incide
sulla funzione della densità, intesa come indice di qualità
dei risultati.
Questa metodologia propone quindi una differente
definizione di densità della rete intesa come insieme isolato
di individui con alta intensità di collegamenti rispetto al
resto della rete.
Più precisamente diremmo che la densità è data dal
rapporto delle connessioni interne win
al gruppo S e la
somma totale delle connessione interne win
del gruppo S
con quelle esterne wout
del network.
Avremo quindi:
Come notiamo subito questa funzione è basata sulle
tecniche di ottimizzazione della modularità già analizzati
in precedenza.
69

Infatti la Local Optimization, come dice lo stesso nome,
lavora su una ottimizzazione “locale” puntando su una
massimizzazione della funzione di modularity interna,
e ad una minimizzazione delle connessioni esterne di un
ipotetico gruppo S.
70

5
#Sistemi_di_Raccomandazione
#Sistemi_di_Reputazione

5.1 Introduzione
Come abbiamo già visto nei capitoli precedenti, l’avvento
delle nuove tecnologie ha permesso una diffusione
pervasiva della comunicazione e dei mezzi ad essa annessi.
Una mole di messaggi oggi difficile ad oggi da gestire ed
organizzare, che rende prioritaria quindi la ricerca di una
soluzione che ne faciliti la fruizione e l’uso.
In questo contesto di ricerca scientifica e quindi
ottimizzazione della gestione di risorse, si inseriscono
nuove metodologie applicative, studiate e create ad hoc:
parliamodeiSistemidiRaccomandazioneoRecommender
System (RS) e Sistemi Reputazione o Reputation System.
L’impiego massiccio di questi sistemi, come vedremo
nei paragrafi successivi, non si ferma al solo mondo
dell’e-commerce, ma trova ampia implementazione nelle
piattaforme social.
5.2 Sistemi di raccomandazione
Come suggerisce il nome stesso, queste soluzioni
informatiche, “raccomandano” il contenuto all’utente:
un sistema quindi che filtra le informazioni basandosi sui
feed, o più banalmente sulle tracce, che l’utente semina in
rete. Uno strumento la cui natura si sposa perfettamente
con le dinamiche di marketing, e più specificatamente di
e-commerce, ma che non tralascia sicuramente la pura
73

analisi delle reali dinamiche sociali. È del tutto corretto
infatti affermare che i sistemi di raccomandazione rivelano
una rete di legami tra persone, un network di contatti
raccolti in ben definite community la cui nascita avviene
attorno a particolari interessi.
5.2.1 Modelli di raccomandazione
Il modello di raccomandazione può essere espresso
formalmente con una funzione in cui abbiamo C che
rappresenta l’insieme di utenti ed S l’insieme di possibili
contenuti (oggetti, soggetti, servizi a seconda dell’uso) che
possono essere raccomandati. Sia u una funzione di utilità,
che misura quanto un messaggio s sia utile all’utente u, con
una funzione del tipo: u : C x S ─›R. Il problema centrale
per RS è quello di determinare per ogni utente c є C il
contenuto s1
є S tale che massimizza la funzione di utilità
per l’utente u:
La funzione di utilità u è solitamente arbitraria poichè
dipende dal campo di utilizzo e dalla tipologia di
informazione che si vuole raccomandare.
74

Per quanto riguarda invece gli elementi dello spazio C
(gli utenti) e quelli dello spazio S (i contenuti), essi sono
rappresentati da un solo parametro ID, che definisce il
l’identità l’elemento.
Il limite di questi modelli risiede però nel raggio d’azione
della funzione u, definita in un sottoinsieme dello spazio
C x S, formato dalle coppie di utenti che hanno fornito feed
e contenuti a loro volta votati.
5.2.2 Algoritmi di raccomandazione
A distinguere gli algoritmi di raccomandazione in differenti
categorie, è l’approccio al sistema di calcolo dei feedback
degli utenti. Distinguiamo ad oggi tre tipologie di metodi:
1. Raccomandazioni basate sul contenuto o Content-
based:ovvero raccomandazioni di contenuti simili a quelli
che hanno già votato e preferito precedentemente.
2. Raccomandazioni collaborative o Collaborative:
raccomandano all’utente i contenuti che altri utenti con
gusti simili hanno votato precedentemente.
3. Approcci Ibridi o Hybrid Approaches: sistemi che
combinano le tecniche dei due metodi sopra citati.
Elencate le categorie, ci apprestiamo ora ad analizzarle
passo passo, per capirne dinamiche e usi più comuni.
75

5.2.2.1 Sistemi basati sul contenuto
Nei sistemi basati sul contenuto la funzione di utilità u(c,s)
del contenuto s per l’utente c viene predetta basandosi sui
valori di utilità u(c,si
) assegnati dallo stesso utente c per
altri contenuti simili si che appartengono all’insieme S.
La maggiore diffusione dei sistemi content-based in ambiti
esclusivamente testuali ove è dovuta alla possibilità di
estrapolare con una certa immediatezza i contenuti di un
testo attraverso l’analisi delle key-words.
Nel caso appunto di un elemento di tipo testuale, si
può definire Content(s) come profilo del documento s,
costituito da un’isieme di parole chiave s.
La rilevanza di una parola ki
, in un documento di testo
dj si può calcolare con le misure di peso wij
, attraverso il
TF-IDF (term frequency/inverse document frequency)
entrambi metodi della Information Retrievel.
La possibilità estrapolare automaticamente key-words, è
dovuta al fatto che ad ogni contenuto s є S viene associato
un profilo Profilo(s), ossia un insieme di attributi capaci di
descriverne la natura.
Ipotizzando che N sia l’insieme dei documenti
raccomandabili ad un utente, e che la parola ki sia
contenuta in ni
di questi documenti, con fi,j
uguale alla
frequenza con cui la parola ki
compare nel documento dj
allora la TFi,j
della parola ki
contenuta nel documento dj
è:
76

In cui maxz
fz,j
rappresenta la frequenza massima tra le
parole kz
che appaiono nel documento dj
.
AlcontrariolamisuradellaIDFi
dellaparolaki
èlaseguente:
È ora possibile definire il peso wi,j
TF-IDF per la parola
ki
nel documento di testo dj
e il contenuto Content(dj
) del
documento appunto dj
:
Considerando il profilo dell’utente c (che corrisponde ad
un insieme di interessi), viene definito come un vettore
di pesi ContentBasedProfile(c) = (w1c,...wkc), dove ogni
77

peso corrisponde all’importanza attribuita alla key-world
ki
per l’utente c (calcolata in base alle preferenze fornite
dall’utente stesso).
Tradotta generalmente la funzione di utilità u(c,s) si ha:
u(c,s) = score[ContentBasedProfile(c),Content(s)]
Il profilo dell’utente u e quello del contenuto s, possono
essere rappresentati rispettivamente da dei vettori wc
e ws
.
Otterremo quindi una funzione di utilità, utilizzando la
misura di somiglianza del coseno:
u(c,s) = cos( )
Uno dei limiti maggiori dei sistemi Content Based, è
rappresentato dalla poca flessibilità metodologica. Infatti
il sistema deve essere di volta in volta adattato al contenuto
assegnando i valori degli stessi manualmente. Inoltre un
altro limite è rappresentato dalla ricerca iperspecializzata
che permette si una corrispondenza accurata utente/
contenuto, ma che non tiene conto degli eventuali
imprevisti di contenuti non valutati in precedenza.
Stesso problema che avrebbero gli utenti nuovi, le cui
78

valutazioni non sono raccolte.
5.2.2.2 Sistemi collaborativi
A differenza dei sistemi di raccomandazione, i sistemi
Collaborativi stimano la funzione d’utilità di un particolare
contenuto per un determinato utente, basandosi sui
contenuti simili pesati e condivisi dagli altri utenti con
gusti simili a lui.
L’utilità u(c,s) del contenuto s per l’utente c, viene definita
come la combinazione dei valori dell’utilità u(ci
,s) assegnati
al contenuto s da un insieme di utenti ci
є C , ovvero utenti
con gusti simili all’utente c.
Questacategoriadisistemicollaborativipuòesseredivisain
due sottocategorie più specifiche, a seconda dell’algoritmo
utilizzato per l’analisi delle connessioni tra gli utenti:
1. Algoritmi Memory Based (basati sulla memoria)
2. Algoritmi Model Based (basati su modelli preesistenti)
Algoritmi Memory Based
Negli algoritmi basati sulla memoria, viene effettuata una
predizione basata su contenuti precedentemente votati. Il
valore di un voto sconosciuto rc,s
di un oggetto s per l’utente
c viene calcolato come aggregato (aggr) dei voti di utenti
simili a c forniti dallo stesso contenuto s:
79

dove Ĉ è l’insieme degli N utenti più simili a c che hanno
precedentemente votato il contenuto s.
Nel calcolo della media voti forniti dai vari utenti può
essere utile introdurre il concetto di somiglianza sim(c,c1
)
tipicamente indicata come una misura di distanza. Più vi è
somiglianza tra gli utenti e maggiore sarà il peso attribuito
al voto rc1,s
nella predizione di rc,s
: funzione utilizzata per
diversificare i vari livelli di somiglianza.
Per esser calcolata vi sono vari approcci, il più usato è il
coseno di somiglianza. Esso vien definito come, similmente
visto prima per la funzione di utilità nei sistemi content-
based:
sim(x,y) = cos( )
in cui vengono considerati come vettori all’interno di
uno spazio vettoriale di dimensione m, con m = |Sxy
|
La differenza tra la misura del coseno dei sistemi di
raccomandazione content-based e quella dei sistemi di tipo
80

collaborativo sta nel fatto che nei primi vi è un calcolo di
somiglianza tra vettori di pesi TF-IDF, nel secondo invece
vi è un calcolo di somiglianza tra vettori di voti forniti tra
gli utenti.
Algoritmi Model Based
Gli algoritmi basati sui modelli utilizzano le raccolte di voti
precedentemente collezionate per apprendere un modello
usato e successivamente predire i voti non conosciuti.
L’approccio più impiegato è di tipo probabilistico e può
essere stimato attraverso cluster models o reti Bayesiane.
Nei cluster models gli utenti vengono raggruppati in
classi a differenza delle reti Bayesiane in cui vengono
rappresentati come nodi all’interno di una rete (detta
appunto rete Bayesiana).
Come i sistemi basati sulla memoria, gli algoritmi basati sui
modelli soffrono delle stesse problematiche: l’affidabilità
dei nuovi utenti non può essere valutata sulla base di
un numero sufficiente di voti e l’inserimento di nuovi
contenuti non potrà avere una valutazione immediata,
causa la scarsità di voti assegnati. Per risolvere queste
problematiche si ricorre a modelli ibridi che come vedremo
combinano alcune caratteristiche di sistemi basati sul
contenuto e sistemi basati sui modelli.
81

5.2.3 Modelli ibridi
Come anticipato nel capitolo precedente, i modelli ibridi
hanno il compito di ovviare alle falle di analisi dei sistemi
di reputazione basati su contenuti e su modelli.
Esistono due differenti approcci con cui gli algoritmi ibridi
uniscono i sistemi di reputazione:
1. Implementazione separata di algoritmi content-based
e model-based e successiva combinazione delle predizioni
calcolate.
2. Implementazione di un’unica metodologia che riesca
fondere le tecniche di entrambi gli algoritmi sotto un unico
sistema.
Mentre quest’ultimo approccio gode di una semplicità di
applicazione, il secondo gode di maggiore flessibilità d’uso
e un rilevamento dei dati più accurato.
5.2.4 Algoritmi di raccomandazione & social
Una delle applicazione più comune degli algoritmi di
raccomandazione all’interno piattaforme social è quella
dalla Friend Recommendation, basata su differenti
algoritmi in grado di suggerire le amicizie all’utente,
sfruttando le informazioni del suo profilo, quali ad esempio
geolocalizzazione, istruzione, hobby e anagrafica. Studi
82

recenti dimostrano come su campioni di 500 utenti circa il
95% trovi utile questa soluzione: il 77% dei suggerimenti è
riconosciuto infatti valido e corretto.
Analizzeremo di seguito alcuni tra i principali
algoritmi sfrutti dalle piattaforme social nella Friend
Recommendation.
L’algoritmo più diffuso ad oggi è indubbiamente Friend
of Friend, implementato in origine su Facebook sotto
la voce Persone che potresti conoscere. Il meccanismo
punta alle amicizie in comune tra gli utenti della propria
Personal Network per estendere la rete di conoscenze.
Esso si basa anche su parametri quali il tempo, inteso
come periodo trascorso dall’attivazione del proprio profilo
o aggiornamento dello stesso, e ad una ricerca incrociata
tra le proprie rubriche mail o telefoniche. Un algoritmo
che trova largo impiego anche nel suggerimento di Pagine
dedicate e Gruppi.
Altro algoritmo implementato di recente è il Content
Matching, basato sulla condivisione di contenuti simili.
Attraverso le tecniche precedentemente analizzate di
Term Frequency (v.d. par. 5.2.3.1), l’algoritmo crea un
insieme in cui vi conserva all’interno parole estrapolate
dai contenuti condivisi e dalle informazioni personali.
Queste serviranno per mettere in relazione gli utenti e
procedere quindi con in suggerimento dell’amicizia.
83

Ultimo algoritmo analizzato, è quello del Content plus
Link, simile come struttura a quello precedentemente
analizzato. Questo algoritmo oltre ad un’analisi basata
sullaTF,lavorasullecorrelazionideicontenuticommentati
da utenti che non si conoscono ma che hanno in comune
un’amicizia (quella dell’utente che condivide).
5.3 Sistemi di Reputazione
I sistemi di reputazione sono strutture in grado di
raccogliere e conservare dati che gli utenti forniscono
riguardo alle interazioni avvenute con altri utenti, e di
utilizzarle a loro volta per determinare un punteggio che
determini la reputazione di questi utenti.
Sono sistemi molto diffusi, in maniera particolare nelle
piattaforme moderne di e-commerce (vd. modello e-bay
basato su una raccolta di feedback che determinano
l’affidabilitàdell’acquirenteodelvenditore),inl’affidabilità
è misurata sul numero di transazioni positive.
I punteggi possono essere consultati da chiunque poichè
determinano come detto un meccanismo di fidelizzazione
tra coppie di membri.
Per comprendere bene le tecniche su cui di basano questi
sistemi è fondamentale come primo passo fare un’attenta
analisi concettuale dei termini “fiducia” e “reputazione”.
Il vocabolario Treccani definisce il termine fiducia come
84

“l’atteggiamento, verso altri o verso se stessi, che risulta
da una valutazione positiva di fatti, circostanze, relazioni,
per cui si confida nelle altrui o proprie possibilità, e
che generalmente produce un sentimento di sicurezza e
tranquillità.”
Volendo illustrate il concetto di fiducia in termini più
analitici useremo la definizione che ne da Gambetta:
“considerati due membri A e B, la fiducia è la probabilità
con cui A si aspetta che B compia una determinata azione,
da cui lo stesso membro A ne trarrà beneficio.”
Al concetto di fiducia è strettamente legato quello di
reputazione,chepotremmodefinirecomelaconsiderazione
o la stima che un soggetto gode in una società o comunità.
Mentre il primo concetto, quello di fiducia, è strettamente
basato su un esperienza personale, risultando quindi
basato su un metro di giudizio soggettivo, il secondo è
derivato da un esperienza comune, che fonda le proprie
basi su una misura collettiva della fiducia.
Nel primo caso un utente è libero di affidarsi a fattori
strettamente personali, che possono essere parentele di
sangue o esperienze pregresse.
Nel secondo caso invece, l’utente si affida ad un profilo
definito da differenti valutazioni, siano esse positive o
negative per pesare l’eventuale affidabilità dello scambio.
Gli obiettivi che un sistema di reputazione persegue sono
85

duplici:
1. Trovare nuove metodologie che permettano attraverso
accurati calcoli, di valutare la fiducia e la reputazioni di
determinati elementi/utenti sulle piattaforme online.
2. Creare sistemi intelligenti e automatizzati che
supportino nelle piattaforme di e-commerce gli utenti
nella valutazione e affidabilità delle transazioni,
attraverso una raccolta dati consultabili liberamente.
Per essere efficiente, il sistema di reputazione deve
rispettare determinate proprietà: gli utenti/elementi
del sistema devono essere longevi, ovvero devono
essere presenti nello stesso sistema da molto tempo, per
prevenire i cambi di identità e la cancellazione quindi di
profili inaffidabili; i voti delle interazioni tra coppie di
membri devono essere resi pubblici a tutti gli utenti di una
comunità o società, per facilitare il coinvolgimento degli
stessi utenti nel sistema di votazione e raccolta dati; i voti
riguardanti le interazioni già avvenute devono influenzare
il sistema di interazione poichè l’efficienza dello stesso si
basa su quest’ultimo principio.
Possiamo dividere i sistemi di reputazione in due principali
classi, che si differenziano per l’architettura e la modalità
di raccolta e distribuzione dei voti e dei punteggi. Parliamo
86

di sistemi Centralizzati e sistemi Distribuiti.
5.3.1 Sistemi di reputazione centralizzati
In questa tipologia di architettura, le informazioni inerenti
le interazioni o transazioni (su piattaforma e-commerce)
vengono raccolte sotto forma di voto fornito dagli utenti
stessi, beneficiari del rapporto. I voti a loro volta sono
raccolti da un’ autorità centrale chiamata centro di
reputazione che successivamente attraverso una media
aritmetica, genera il punteggio da attribuire ad ogni utente,
rendendolo pubblico ai membri della comunità o del
sistema. Proprio questa condivisione delle informazioni,
servirà agli utenti del sistema, per decidere se effettuare
future interazioni/transazioni con altri utenti.
Aspetto fondamentale di questa struttura è il protocollo
di comunicazione centralizzato con il quale il centro di
reputazione, di cui abbiam parlato prima, è in grado di
raccogliere i voti ed effettuare una media del punteggio da
attribuire ad ogni utente coinvolto nello scambio. Questa
operazione avviene attraverso un motore di calcolo della
reputazione, altro pilastro del sistema, che rappresenta
in forma pratica la metodologia sfruttata dall’autorità
centrale per il calcolo aritmetico del punteggio: esso si basa
non solo sui voti attribuiti dagli altri utenti, ma tiene conto
anche della loro reputazione nel sistema di riferimento.
87

Questa metodologia serve per garantire una maggiore
affidabilità e credibilità dei punteggi a tutela degli utenti
parte integrante del sistema.
5.3.2 Sistemi di reputazione distribuiti
Altro approccio è definito dai sistemi di reputazione
distribuiti, in cui non vi è una struttura la cui raccolta
dati è affidata ad un’autorità centrale, ma vi è una rete di
nodi che fungono da centro di raccolta indipendente l’uno
dall’altro.
L’utente infatti registra le interazioni con altri utenti della
propri rete, e rende disponibili su richiesta agli stessi
membri i dati delle interazioni/transazioni.
Fondamentali in questo sistema sono il protocollo di
comunicazione distribuito che ha il compito di ottenere i
voti dagli utenti del sistema e il metodo di calcolo della
reputazione con il quale ogni utente può misurare il grado
di affidabilità di altri utenti prima di interagire con essi.
Nei sistemi distribuiti ogni utente deve quindi
necessariamente raccogliere e determinare i punteggi
di reputazione. Questo sistema trova applicazione nelle
reti P2P (Peer to Peer): ogni nodo/utente rappresenta in
pratica sia un client che un server (oggi comunemente
definito servent).
88

5.3.3 Metodi di calcolo della reputazione
Il calcolo della reputazione si basa su numerose e differenti
tecniche dipendenti da differenti fattori.
Di seguito elencheremo i più performanti ed impiegati
dalle piattaforme moderne, spiegandone le caratteristiche
principali ed elencandone pregi e difetti di ognuno.
La tecnica più semplice è quella della somma dei voti
ottenuto calcolando la differenza tra voti positivi e negativi
del singolo utente.
Su questa semplice tecnica si basa il sistema di reputazione
centralizzato di e-bay, i cui feedback generano profili più
o meno affidabili pesati in tre diverse maniere: positivo,
neutro e negativo.
Il vantaggio principale di questo metodo risiede appunto
nella sua semplicità di applicazione e comprensione.
Di contropeso i sui più grandi svantaggi sono, quello
di fornire dati su reputazioni non “mediate”, quindi
spesso contrastanti tra utenti che hanno un numero di
voti differenti e di non offrire una protezione dai voti
fraudolenti.
Tecnicamente più avanzato è il metodo basato sulla media
voti, anch’esso di facile applicabilità, si basa appunto
sulla media numerica attribuita ad un utente da differenti
membri della comunità con i quali lo stesso ha interagito.
Questo metodo è impiegato nel sistema di reputazione di
89

Amazon, in cui la media viene ponderata su di un range che
va da 1 a 5. Anche questo sistema di calcolo soffre se pur
in minor misura delle stesse problematiche della somma
voti. I voti fraudolenti nonostante un controllo dei cookies
costante, è facilmente evadibile con un cambio pc, ovvero
la fonte con cui noi forniamo il voto, e di cui la piattaforma
conserva le tracce.
Un altro metodo, per certi versi distante dalle tecniche di
calcolo precedentemente viste, è quello basato sui modelli
discreti introdotti da Rahaman & Hailes nell’ormai lontano
2000.
Questo metodo si basa non più su una valutazione
numerica, ma bensì su quattro tanto semplici quanto
fondamentali valori: very trustworthy (molto affidabile),
trustworthy (affidabile), untrustworthy (inaffidabile) e
very untrustworthy (molto inaffidabile). Affidandosi ad
una tabella di ricerca per ogni utente, questa determina la
reale affidabilità dello stesso in base al numero maggiore
di valori assegnati.
Nonostante l’intuitività del sistema esso presenta dei grossi
limiti applicativi su grandi reti, causate proprio dalla mole
di dati ingestibile dalle tabelle.
Traipiùperformantimetodidicalcolosicollocanoi sistemi
Bayesaini. Bayes matematico britannico, sosteneva che
ogni evento cui è attribuita una probabilità è valutabile in
90

baseall’analisideglieventigiàverificatisiprecedentemente.
Questi sistemi sono impiegati in maniera massiccia come
filtri anti-spam per le mail.
Il maggior vantaggio di questi sistemi risiede nella solidità
delle tecniche di calcolo dei punteggi, in quanto essi
vengono ottenuti in modo univoco attraverso espressioni
matematiche. Purtroppo la difficile comprensione le limita
l’utilizzo ad un target ristretto di utenti esperti.
Sicuramente di più facile applicabilità, ma con limiti di
impiego legati alla grandezza delle reti, è il Flow Model.
Quest’ultima tipologia analizzata, si posiziona tra le più
affidabili per il calcolo dei voti.
Questomodelloassegnaunpesocostanteatuttiimembridi
una comunità (la somma totale dei pesi rimane costante):
se un membro della comunità innalza la sua reputazione, in
maniera consequenziale i membri della stessa si vedranno
abbassare la propria.
Questa tecnica è parte dell’algoritmo che gestisce il
PageRank di Google, in cui viene assegnato un peso
numerico ad ogni elemento di un hyperlink in un insieme
di documenti allo scopo di determinare una priorità ed
un’importanza all’interno del sistema di appartenenza.
L’equazione del PageRank è la seguente:
91

in cui
• u pagina di riferimento per cui verrà calcolarlo il PageRank
• PR[pk
] è il valore del PageRank della pagina pk
• C(pk
) è il numero totale di link contenuti nella pagina pk
• c definito come dumping factor è un valore convenzionale
solitamente 0,85 attribuito dallo stesso Google.
• E(u) è il valore minimo di PageRank che può avere una
pagina.
Dalla formula seguente ne deduciamo che all’aumentare
dei link che rimandano alla pagina u vi è un consequenziale
aumento dell’indice di PageRank.
5.4 Ibridi di Raccomandazione & Reputazione
Una svolta importante nel campo dei sistemi informatici
automatizzati, si è avuta grazie all’integrazione di
quest’ultimi in un’unica piattaforma.
Di recente infatti è stato proposto (A. Josang, G. Guo,
M.S. Pini, F. Santini, Y. Xu. “Combining Recommender
and Reputation System to Produce Better Online Advice”.
Barcelona, Spain, 2013) un metodo che riesce a fondere
92

le caratteristiche dei sistemi di reputazione con quelli
di raccomandazione, ottenendo risultati più accurati e
gratificanti. Nonostante l’obiettivo perseguito da entrambi
i sistemi sia molto simile, poichè entrambi fungono da
supporto valutativo per le interazioni, vi è una notevole
difficoltà nel rendere i risultati omogenei: questo è dovuto
principalmente agli algoritmi di valutazione differenti, su
cui si basano entrambi i sistemi.
Per porre rimedio alle problematiche sopra elencate, le
valutazioni vengono trasformate in primo luogo in opinioni
soggettive per poi impiegare il Cascading Minimum
Common Belief Fusion (CasMin), un operatore in grado
di fondere i risultati ottenuti e fornirli all’utente solo se
una risorsa è stata raccomandata dal sistema con alta
confidenza e allo stesso tempo conserva un alto punteggio
di reputazione.
Questa soluzione è ancora poco diffusa, causa come
anticipato,laformaembrionaledelletecnichedifusionedei
sistemi, ancora troppo poco performanti nelle tempistiche
di output dati.
93

6.1 Introduzione
Glistudimodernisullacommunitydetection,comeabbiamo
approfondito nel capitolo appena concluso, affrontano
analiticamente il problema della localizzazione sotto
forma di un partizionamento gerarchico o agglomerativo
graficamente rappresentato da un dendogramma.
Da qui si presume infatti che la rete si strutturi sotto forma
di un numero esagerato di nodi che formano piccoli gruppi
disgiunti,interconnessitralorodarelazioniunivoche(grafo
orientato) e biunivoche (grafo non orientato) ben definite;
a loro volta questi cluster sono raggruppati in insiemi
sempre più grandi e disomogenei articolati su relazioni
sociali più generiche che ne regolano la suddivisione
spaziale nell’universo virtuale (i Social Network) fino a
giungere ai primordi della categoria: la società odierna del
web.
Questa approccio scientifico è molto utile poichè permette
di analizzare un’intera rete sociale, scomponendola
attraverso un meccanismo di sottrazione degli archi
deboli, fino ai primordi, per capire quali relazioni vi sono
alla base di un sistema sociale più ampio e di conseguenza
complesso.
Tuttavia nonostante l’elevata potenzialità di calcolo nella
suddivisione, il sistema di analisi pecca nel momento in
cui si voglia identificare i migliori raggruppamenti sociali.
97

Come abbiam visto nel capitolo 4, a supporto di questa
problematica, sono stati determinati alcuni strumenti
informatici, meglio denominati algoritmi di Clustering,
che attraverso differenti ottimizzazioni del calcolo
della Modularità (v.d. par. 4.2), filtrano la rete secondo
“determinati” e ben “precisi” requisiti quantitativo/
qualitativi.
In questo capitolo cercheremo di fornire gli strumenti
necessari per una strategia di community detection,
attraverso l’uso di algoritmi di Clustering performanti
su reti di grandi dimensioni. Illustreremo gli obiettivi
e le motivazioni che vi sono alla base della strategia,
giungendo ad un possibile sviluppo ed implementazione
di una piattaforma ad-hoc basata su sistemi di ibridi di
raccomandazione e reputazione.
Nel ciclo di vita di un prodotto da sempre vi sono numerose
costanti da tenere in considerazione, poichè queste
interagiscono con lo sviluppo e la crescita dello stesso in
ogni fase, determinandone il successo o il fallimento.
Un processo di ideazione e creazione che punti al successo,
ha come obiettivo quello di catturare l’aspettativa e la totale
attenzione dell’utente. Un fascino studiato e preponderato
su dati reali, su esperienze e soprattutto su visioni.
98

La forma del prodotto non è altro che il concretizzarsi di un
bisogno, di un ideale, di una trasgressione quasi necessaria
di interazione con l’immateriale.
L’obiettivo alla base di questa ricerca e analisi, è interagire
in maniera decisa su differenti fasi del ciclo di vita di un
prodotto, per supportare il designer nella ricerca del valore
aggiunto.
Possiamo individuare 6 fasi che determinano il ciclo di vita
di un prodotto:
1. Definizione degli obiettivi: la fase iniziale di brain
storming in cui il progettista o il team di progettisti definisce
e condivide obiettivi di progetto e di business.
2. Analisi target: attraverso una definita e accurata
strategia di ricerca, si procede ad una fase di interazione
diretta con l’utente, per captarne bisogni e desideri; questa
fase è indispensabile per lo sviluppo di un prodotto solido e
di sicuro successo.
3. Definizione concept: risultato della raccolta dati dei
primi due step, questa terza fase rappresenta una vera e
propria simulazione di quello che sarà l’impatto del prodotto
nella vita del consumer, uno scenario immaginario basato
su previsioni strategiche.
4. Progettazione: incentrata sulla user experience, la
progettazione seguirà uno stile ben preciso, che punti
99

AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION

AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION

Recommended

Recommended

More Related Content

Similar to AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION

Similar to AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION (20)

AMMASSO REGOLATO - STRATEGIE DI COMMUNITY DETECTION