L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining

Università degli Studi di Salerno
Facoltà di Lettere e Filosofia
Laurea Specialistica in Comunicazione d’Impresa e Pubblica

Tesi in Informatica per il commercio elettronico

L’applicazione del data mining alla personalizzazione
dei siti di e-commerce:
dal web usage mining al social data mining

Tiziana Capozzoli
tizianaxx@inwind.it

Indice
• Contesto
• Data mining
• Il processo di personalizzazione
– Sistemi di personalizzazione
• Progetto

Il contesto
– Diffusione dell’e-commerce
• L’aumento della complessità dell’ambiente
competitivo delle aziende
• L’aumento della concorrenza
• L’incremento dei dati e l’information overload

Marketing relazionale
Data mining
Personalizzazione

Marketing relazionale
• Focalizza l’attenzione sulla relazione azienda-
cliente
• Rapporti di lungo periodo con clienti
• Fidelizzazione degli attuali clienti
• Lo scopo dell’azienda diventa quello di
soddisfare il maggior numero di bisogni di uno
stesso cliente
•Dalla quota mercato alla quota cliente
•Importanza di avere a disposizione quante più
informazioni sui clienti

Indice
• Contesto
• Data mining
• Il processo di personalizzazione
• Sistemi di personalizzazione
• Progetto

Data mining
Il data mining è

“il processo di esplorazione e analisi di un
insieme di dati, generalmente di grandi
dimensioni, per individuare eventuali
regolarità, estrarre conoscenza e ricavare
regole ricorrenti significative”
(Vercellis,2006, p.77)

Supervisionato/non supervisionato
• Apprendimento supervisionato (analisi dirette) è presente
un attributo target, che rappresenta la classe di
appartenenza per ciascun record:
– le classi alle quali ricondurre le osservazioni sono già note,
– l’analisi deve spiegare come le osservazioni si aggreghino ad
una classe piuttosto che ad un'altra, in base ai valori assunti
rispetto agli altri attributi disponibili.
• Apprendimento non supervisionato (analisi indirette): il
dataset di riferimento non prevede alcun attributo target:
– Esse mirano ad individuare ricorrenze, affinità e difformità e a
determinare raggruppamenti di record omogenei al loro interno e
diversi rispetto agli altri.

Metodologie di data mining

• Classificazione
• Clustering
• Regole associative

Classificazione
• La classificazione consiste nell’assegnare agli oggetti
esaminati l’etichetta di una classe scelta tra un insieme
predefinito di classi.
• A partire da un insieme di osservazioni riferite al passato,
per le quali è nota la classe di appartenenza, vengono
costruiti i modelli di classificazione
• I modelli individuano legami ricorrenti tra le variabili
esplicative per descrivere le osservazioni appartenenti ad
una medesima classe.
– Metodo di apprendimento supervisionato
• I legami individuati vengono tradotti in regole di
classificazione da impiegare per predire la classe di
appartenenza di osservazioni delle quali è noto solo il
valore degli attributi esplicativi

Attributo1 Attributo2 Attributo n Classe

Esempio1 Classe1

Esempio2 Classe2

Esempio3 Classe1

Esempio4

… …..

…

xij Classe (yi)
Esempio i

…

…

…

Esempio m

Classificazione
Il caso Carla è rappresentato dal punto nero in uno spazio a quattro dimensioni.
La posizione nello spazio è determinata dai valori assunti da Carla rispetto ai
quattro attributi.

Classificazione
In un problema di classificazione si deve
•definire uno spazio di ipotesi F, che rappresentano le possibili relazioni di dipendenza tra
la classe e il vettore degli attributi predittivi.
•scegliere un algoritmo che identifichi la funzione f capace di descrivere in modo
soddisfacente la relazione tra gli attributi e la classe
Funzione che
descrive la
relazione tra
attributi e
classe

Classificazione
Fasi della classificazione: training, test e predizione.
• Training viene estratto un sottoinsieme T degli esempi presenti nel
dataset D, denominato training set, generalmente corrispondente al
66% dei casi del dataset. L’algoritmo di classificazione viene
applicato agli esempi appartenenti a questo sottoinsieme T per
ricavare le regole di classificazione che consentono di attribuire a
ciascuna osservazione x la corrispondente classe target y.
• Test: le regole prodotte nella fase di training sono impiegate per
classificare la restante parte delle osservazioni del dataset D,
corrispondenti al 33% della grandezza del dataset e per le quali è
noto il valore della classe target.
– Si valuta l’accuratezza del modello, confrontando la classe
predetta dal classificatore con quella a cui realmente
appartengono gli esempi.
• Predizione: il modello scelto viene usato per classificare nuovi
esempi.

Clustering
– Il clustering si propone di identificare
raggruppamenti omogenei di record, mediante
la definizione di opportune metriche e delle
relative nozioni di distanza e similarità tra
coppie di osservazioni.
– Le osservazioni in ogni cluster devono essere
quanto più simili è possibile tra loro e dissimili
dalle osservazioni degli altri gruppi.
– Metodo di apprendimento non supervisionato

Metodi di clustering
• Metodi di partizione suddividono il dataset in un numero
predeterminato di sottogruppi :
– un’assegnazione iniziale delle osservazioni ai cluster.
– applicano iterativamente una tecnica di riallocazione delle osservazioni
per accrescere la qualità della suddivisione,
– fin quando non si raggiunge la “convergenza”.
– Richiedono di conoscere in anticipo il numero di cluster da ottenere
• Metodi gerarchici derivano molteplici suddivisioni in sottogruppi dei
dati, in base a diverse soglie di omogeneità.
– I metodi gerarchici possono essere agglomerativi o di suddivisione
• Agglomerativi: formano un cluster per ogni osservazione (cluster atomici)
che in varie iterazioni successive vengono aggregati formando cluster di
dimensioni sempre maggiori
• Suddivisione: collocano tutte le osservazioni in un solo cluster, che, in varie
iterazioni successive, viene suddiviso in raggruppamenti di dimensioni
minori.
– Sono lenti nell’elaborazione

Metodi di clustering
Per risolvere tali inconvenienti si possono integrare
i due approcci in vari modi:
–I
• Si estrae un campione dei dati sul quale effettuare l’analisi
gerarchica per determinare il numero ottimale di cluster,
• Usando il numero di cluster calcolato, si effettua l’analisi non
gerarchica sull’intero dataset.
– II
• Si realizza un’analisi non gerarchica su tutti i dati
ipotizzando un numero elevato di cluster
• Si crea un campione con le medie dei cluster ottenuti. Sul
campione, così ottenuto, si effettua un’analisi gerarchica.

Regole associative
• Ricercano oggetti (item) che tendono ad apparire insieme in un certo
dataset.
• Sono un metodo locale, cioè nei dati scoprono pattern che sono applicabili
solo ad una piccola percentuale di esempi
– Preso I, l’insieme di tutti gli item.
– Una transazione T è definita come un insieme di item che si presentano insieme.
– Una regola associativa è un’implicazione di natura probabilistica tra due insiemi
di item A e B, sottoinsiemi di I, rappresentata come A→B.
– Essa indica che la presenza in una transazione degli item compresi nel
sottoinsieme A implica la presenza degli oggetti in B con certa probabilità.
• Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli
oggetti rispetto a quelle che contengono solo il primo oggetto
• Supporto: è il rapporto tra la frazione di transazioni che contengono sia A
che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza
con cui A e B compaiono insieme nelle transazioni.

(Agrawal e Srikant,1994)

Data mining per la
personalizzazione
• Acquisizione dei clienti: le tecniche di data mining permettono di
distinguere le caratteristiche (anagrafiche, di comportamento, di
acquisto etc.) degli utenti che hanno una maggiore probabilità di
diventare clienti e quindi di realizzare azioni mirate solo nei loro
confronti, in modo da ridurre gli sprechi e incrementando l’efficacia
delle azioni di marketing.
• Maturità:
– prolungare la redditività e la durata della relazione, massimizzando il
valore del cliente.
– migliorare la loyality: identificazione dei segmenti di mercato che
risponderanno meglio ad azioni di cross-selling o up-selling.
• Predizione del rischio di abbandono: confrontare le caratteristiche di
chi è rimasto fedele nel tempo con chi ha cambiato fornitore per
indirizzare soltanto ai clienti con alto rischio di abbandono le azioni
di retention.

Esempi
• CRM

• Click stream

• User profiling
(Giudici, 2005)

CRM
• Piccola azienda che opera nel settore della
vendita per corrispondenza.
• Obiettivi:
– studiare il comportamento di acquisto dei clienti
– capire quali fattori distinguono un cliente occasionale
da uno fedele,
– individuare in anticipo quali clienti saranno veramente
profittevoli
– studiare politiche di marketing adatte ai diversi tipi di
clienti

CRM
• Dati:
– dati relativi ai 210.085 clienti che hanno effettuato almeno un
acquisto presso l’azienda tra il 1992 e il 1996.
• Si estrae un campione stratificato in modo proporzionale in base
alla data di contatto con l’azienda di 2.470 clienti
– Le variabili prese in considerazione sono state sette, cinque
discrete e due continue:
• l’ammontare del primo acquisto (variabile quantitativa)
• pagamento a rate (dicotomica)
• il numero di oggetti acquistati (variabile quantitativa)
• l’area di provenienza della filiale (variabile qualitativa: nord, centro e
sud)
• età (variabile discretizzata in tre range 15-35, 36-50, 51-89)
• dimensione della filiale (variabile qualitativa: piccola, media, grande)
• sesso (dicotomica)

CRM
• Modello di classificazione predittivo, per
collocare i clienti in due classi (profittevoli/non
profittevoli).
• Sono stati costruiti differenti tipi di modelli:
– Regressione logistica (per scegliere le variabili)
– Reti neurali
– Alberi decisionali (algoritmo CART)
– Nearest neighbor
• Scelta del modello
– In base a conoscenze di markerting, scegliendo di
minimizzare gli errori più costosi
– Analisi ROC

Curva ROC
Questa curva ha come coordinate in ascisse (1- la specificità, cioè la probabilità
dell’errore di secondo tipo) e in ordinata la sensitività, cioè (1-la probabilità
dell’errore di primo tipo)

1- la probabilità dell’errore di secondo tipo
(falsi negativi)

CRM
• In base alla ROC analisi, gli alberi di
classificazione e i modelli nearest
neighbour sono risultati i migliori tra i quelli
costruiti per questa analisi.
• Sono stati scelti gli alberi di decisione
perchè hanno l’ulteriore beneficio di
produrre regole facilmente intelligibili.

Click stream
•Società che vende prodotti software e hardware on line
•Obiettivo: prevedere il comportamento di visita al sito degli utenti
•Dati:
–dataset ottenuto dall’elaborazione di un log file, contenente i dati relativi agli
accessi al sito per un periodo di circa due anni.
–attributi l’user id dell’utente, una variabile con la data di accesso e una con la
pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527
visitatori
–Il sito ha 36 pagine

Richieste Id utente Data Pagina
accesso richiesta

1

…………

250.711

Click stream
Da questo iniziale dataset ne viene ricavato un altro, organizzato per
sessioni
sessioni Durata Orario inizio Numero Pag. 1 Pag. 2 Pag.3 …. …. … Pag. 36
sessione di click

…………

Cluster analysis preliminare per ottenere quattro cluster
di comportamento omogenei rispetto alle tre variabili:
orario di accesso, durata della sessione e numero di
click.

Click stream
• Si è scelto un cluster di 1.240 sessioni caratterizzato da
una durata dalle sessioni particolarmente lunga e un
numero di pagine viste abbastanza alto, quindi con un’alta
potenzialità di acquisto.
• Modello: le regole sequenziali, cioè regole associative
ordinate per una variabile. Per estrarre le regole
sequenziali è stato usato l’algoritmo Apriori.
• Le sequenze più interessanti riguardano:
– la visita della pagina programmi e poi quella prodotti
program→product
– la visita di due pagine di prodotti consecutivamente
product→product

User profiling
• Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi
profili comportamentali.
• Sito www.microsoft.com
• Dati:
– Pagine visitate da 32.711 utenti in una settimana.

C, “10908”, 10908
V, 1108
V, 1017
C, “10909”, 10909
V, 1113
V, 1009
V, 1034
C, “10910”, 10910
V, 1026
V, 1017

Ogni visitatore è identificato da un’etichetta (C), poi tradotta in codice
numerico (109**), ed è seguito da una o più righe che indicano le pagine
visitate (V), anch’esse identificate da un codice numerico (da 1000 a 1295).

User profiling
Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica
che descrive quante volte ogni pagina è stata visitata.
Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee.

Codice Inizial Help Svago office Windo Altro Down Altro Svilup Hardw Biz Info Area
cliente e w Soft. load Int. po are
10001 1 1 1 0 0 0 0 0 0 0 5 0 0
10002 1 1 0 0 0 0 0 3 0 0 0 0 0
10003 2 1 0 0 0 2 0 0 0 0 0 0 2
… … … … … … … … … … … … … …

Modelli:
•Clustering
•Mappe di Kohonen

User profiling
• Test di cross validation:
– sono stati creati due dataset con i risultati ottenuti dai due diversi
procedimenti, aggiungendo al dataset iniziale la variabile
categorica che assegna l’osservazione ad uno dei 10 cluster.
– Su questi dataset è stata realizzata la classificazione per
verificare quale modello è più accurato.
• Modello migliore: mappe di Kohonen.
• I cluster ottenuti grazie a questo modello rappresentano
tre tipi di utenti
– profili monotematici di utenti, che visitano soltanto un’area
specifica,
– profili politematici di utenti che visitano tutte le aree del sito,
– profili intermedi di professionisti dell’informatica, che visitano le
pagine relative allo sviluppo, a particolari software e al download

La personalizzazione dei siti web
“Ogni azione che adatta l’informazione o il
servizio fornito da un sito web ai bisogni di un
utente specifico, sfruttando la conoscenza
acquisita:
– dall’analisi del comportamento di navigazione
dell’utente (usage data)
– dagli interessi individuali inseriti nel profilo utente
– combinanti con altre informazioni del web: contenuto e
la struttura del sito web”
(Eirinaki e Vazirgiannis, 2003)

Perché la personalizzazione dei siti web?

La personalizzazione di un sito web
permette di predire i bisogni degli utenti al
fine di migliorare l’usabilità e la retention.

Obiettivo: fornire agli utenti l’informazione
che vogliono o di cui hanno bisogno senza
aspettare che la chiedano esplicitamente.

Il processo di personalizzazione
Raccolta dei web data

User profiling e User
profiling

Analisi dei dati
Web usage mining
Content based filtering
Collaborative filtering

Scelta del tipo di
personalizzazione
Contenuto

Interfaccia

Presentazione

Il processo di personalizzazione
Raccolta dei web data
• Le informazioni sull’utente
• Dati ambientali: informazioni sul dispositivo usato
per interagire con il sistema
• Informazioni sul contesto d’uso
• Usage data

Le informazioni sull’utente
• Dati demografici: nome,numero di telefono, età, il luogo di
abitazione, sesso, il titolo di studio, il reddito;
• Conoscenza dell’utente: la familiarità dell’utente con i concetti del
dominio e la sua expertise per quel dominio;
• Saper fare dell’utente: indipendentemente da cosa l’utente sa, in
molti casi è importante sapere cosa l’utente sa fare e distinguere tra
cosa gli è familiare e cosa può realizzare che può essere
particolarmente importante per la vendita di prodotti e servizi
complessi (computer, ADSL e simili);
• interessi e preferenze, di solito riferiti alle categorie di prodotti
venduti dal negozio on line o a specifiche proprietà di tali prodotti;
• bisogni: le disabilità per le quali è necessario un servizio accessibile
• scopi: l’utente può comprare qualcosa per sé o un regalo per
qualcuno altro un assistente di un negozio on line potrebbe aiutare
l’utente a trovare la soluzione meno costosa o la più efficace o
bilanciare richieste conflittuali

Dati ambientali: informazioni sul
dispositivo usato
L’utente può usare diversi tipi di hardware per accedere al sito:
un desktop PC, un laptop, un telefono cellulare, un PDA,

Ogni dispositivo ha differenti caratteristiche:
•la dimensione dello schermo
•la capacità e la memoria di calcolo,
•i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc).

I dati ambientali riguardano:
•la versione del browser,
•la piattaforma usata,
•la disponibilità di plug-ins,
•i firewall che bloccano le applet,
•la banda disponibile,
•la velocità di processing,
•i dispositivi di visualizzazione,
•informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.

Informazioni sul contesto d’uso
L’utente può interagire con il negozio on line in
situazioni differenti, a casa, in treno, mentre
cammina o guida, durante una riunione.
Il contesto d’uso è costituito da:
• il contesto fisico include la location dell’utente e
le condizioni ambientali come la luce, il rumore, la
temperatura, il tempo di connessione, la velocità di
spostamento.
• il contesto sociale include la comunità o il gruppo
a cui l’utente appartiene, il compito che sta
realizzando e la relazione con le persone che lo
circondano mentre interagisce con l’applicazione.

Usage data
Gli usage data sono i dati derivanti dai log
file e rappresentano il comportamento dei
visitatori.

Web Log
Ogni accesso ad una pagina web è
registrato nel log di accesso del server.
Nel log ci sono campi predefiniti:

Remote host Remote log User name Date and Request Status Bytes
name login time
Ip

Referrer: l’url di provenienza dell’utente
User agent: il software che l’utente usa per navigare nel sito
Cookies: se il sito visitato li usa

Log file
... 213.213.31.41 [15/Apr/2000:04:00:04 +0200]
“GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1quot; 200 1267

MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0

Dove
• 213.213.31.41 indica l’indirizzo IP del computer che ha fatto la richiesta della pagina
• 15/Apr/2000:04:00:04 è la data è l’ora della transazione,
• GET è il metodo di transazione (che può essere GET o POST),
• http://www.unipi.it/images/h/h home.gif , indica l’URL richiesta dall’utente,
• HTTP/1.1 è il protocollo HTTP usato,
• 200 è il codice di ritorno HTTP (200 per le transazioni riuscite),
• 1267 è la grandezza in bytes della risposta inviata al cliente
• MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente,
• http://www.unipi.it è il cosiddetto campo referrer, l’URL di provenienza dell’utente,
• MSIE+6.0 indica il browser usato dall’utente.

User profile

User profile è “un record di dati strutturati, contenente
informazioni dell’utente: gli identificatori, le caratteristiche,
le capacità, i bisogni e gli interessi, le preferenze, il
comportamento precedente in contesti rilevanti per
predire o influenzare il comportamento futuro” (Van Dijk et
alt., 2005)

• Profili statici e dinamici
• Acquisizione dei dati implicita ed esplicita

User profile
Io sono Identificatori: nome utente, password, domande
segrete,etc
Io sono + Me: personalità,
Preferisco Preferenze: musica, arte, notizie, cibo, viaggi, etc
Mi piace Interessi: pittura, immersioni, internet, etc
Possiedo Circostanze: studio, cerco casa/lavoro/un’auto,
organizzo un viaggio, etc
Voglio Obiettivi: carriera, vita sociale, etc
Faccio Comportamento: lavoro, ascolto musica, etc
Conosco Expertise: fisica quantistica, giardinaggio, motori,
etc
….. ….

Fonte: adattamento da (van Dijk et alt., 2005, p.13)

Tecniche per la personalizzazione
• Web usage mining
• Content-based filtering
• Collaborative filtering

Web usage mining
• Preprocessing
• Pattern discovery
– Regole associative: sono usate per trovare correlazioni tra pagine
visitate assieme in una sessione. Indicano la possibile relazione tra
pagine anche se non sono direttamente connesse e possono
rilevare associazioni tra gruppi di utenti con specifici interessi
– Sequential pattern:è un’estensione delle regole associative per
rilevare pattern di co-occorrenze in un certa sequenza temporale
– Clustering:
» User cluster: gruppi di utenti che sembrano comportarsi
in modo simile mentre navigano
» Page cluster: pagine che sembrano interrelate
concettualmente nella percezione degli utenti
– Classificazione: riconduce le pagine o gli utenti ad una serie di classi
predeterminate
• Analisi dei pattern estratti

Il Web Personalizer
Un framework per la personalizzazione dei siti web basata sugli
usage data.
• Mining degli usage data per la personalizzazione dei siti web
–Regole associative ed itemsets
–Clustering Transactions
–Usage Clusters
• Il processo di raccomandazione
–Realizzare le raccomandazioni direttamente dagli itemsets.
–Calcolare le raccomandazioni in base ai clusters di URL

Struttura del Web Personalizer
Componente off line

Preparazione dei dati Usage Mining

Transaction
File del
clustering Cluster
sito e
Usage clustering di URL
metadati Pulizia dei dati
Identificazione
degli utenti e delle File delle
transazioni transazioni
Server Statistiche d’uso utente
Log

Association rule Itemset
discovery frequenti

Motore di Raccomandazione

Componente
on line
Sessione Raccomandazioni
attiva

Web Client
Fonte: adattamento da (Mobasher
et al., 2000) server browser

Clickworld
• Obiettivo: costruire dei modelli del comportamento di navigazione
degli utenti nel portale Vivacity.it per fornire agli utenti
un’organizzazione del sito personalizzata e proattiva.
• Compiti specifici:
– predire se un utente sarà interessato a visitare una specifica sezione del
sito sulla base alle sezioni visitate precedentemente.
– predire il sesso dell’utente in base alle pagine web visitate
• Dati:
– i log di accesso al portale un periodo di 5 mesi, corrispondenti a più di 7
milioni di richieste.
– Informazioni aggiuntive per il 15% di utenti registrati
• Struttura del sito: il portale presentava un’area nazionale con
notizie, forum, informazioni, barzellette, etc. e più di 30 sezioni locali
con informazioni specifiche per ogni città.
• Costruzione dell’ontologia del sito

Clickworld
• Predire se un utente sarà interessato a visitare una
specifica sezione del sito sulla base alle sezioni visitate
precedentemente
– Le sezioni sono state usate come attributi: scelta una sezione
come classe le altre sono diventate gli attributi esplicativi.
– Applicando l’algoritmo dell’albero decisionale C4.5 si è ottenuto
• Recall (numero di utenti interessati riconosciuti rispetto a tutti gli
utenti interessati) di circa il 50%, cioè nel fare le previsioni riesce a
raggiungere il 50% di utenti potenzialmente interessati.
• Precision (numero di utenti interessati rispetto al totale degli utenti
riconosciuti) di circa il 90%, cioè c’erano pochi errori di predizione.

Clickworld
• Predire il sesso dell’utente in base alle pagine web visitate
– dati degli utenti registrati, corrispondenti al 15% del dataset, in quanto
solo per queste persone era noto il sesso. L’insieme degli utenti
registrati è stato diviso nel training e nel test set, corrispondenti al 67%
e al 33% degli utenti registrati.
– Gli attributi sono rappresentati dalle pagine o sezioni del sito e la classe
dal sesso dell’utente.
– Il modello migliore è stato ottenuto dall’albero decisionale C4.5, che ha
presentato un errore di classificazione del 39,8%, ritenuto non
soddisfacente.
– Gli autori hanno spiegato il mancato miglioramento dell’accuratezza del
modello in base alla scarsa capacità di discriminazione dell’ontologia
usata e alle caratteristiche delle sessioni, troppo brevi e con pochi click,
per fornire pattern di accesso distintivi per il sesso degli utenti

(Baglioni et al., 2003).

Limiti del web usage mining
• Può essere difficile ottenere informazioni
dai log file:
– I log file hanno lo scopo di raccogliere
informazioni per il debug del web server e non
per il data mining.
• Il web usage mining tralascia le
informazioni legate al contenuto ed alla
struttura del sito.

Content-based filtering
• Sono basati sulle preferenze dell’utente, il
sistema ne traccia il comportamento e gli
presenta item simili a quelli che ha
preferito in passato

www.amazon.com

Limiti del content –based filtering
• Richiede che a ciascun oggetto sia
associato del contenuto e che esso sia
analizzato.
• Fornendo raccomandazioni strettamente
associate all’user profile, non vengono
suggeriti nuovi prodotti.
– Non permette il suggerimento casuale di
prodotti (serendipity)

Un’architettura che integra il contenuto
nel processo di personalizzazione
• C-Log : web log migliorati grazie
all’introduzione di campi aggiuntivi relativi
alle categorie semantiche derivate
dall’analisi del contenuto
• L’integrazione delle caratteristiche di
contenuto nel processo di
personalizzazione permette di ampliare il
set di raccomandazione

Fonte: Adattamento da (Eirinaki et al., 2003)

Meccanismo di pubblicazione Motore di raccomandazione

Clusters dei Usage pattern
documenti

Clustering dei Web Usage Mining
documenti

Contenuto del sito web

C- Logs
Tassonomia

Tesaurus
Creazione dei C-Logs

Preprocessing dei dati
Web Log Preprocessati
Web Logs

Il web semantico
Il web semantico è un’idea di Tim Berners-Lee
secondo la quale le macchine diventano “capaci di
analizzare tutti i dati sul web, il contenuto, i link e
le transazioni tra persone e computer” (Berners-
Lee, 2001, p. 139).

Secondo tale visione il web è un mezzo potente
per favorire la cooperazione tra gruppi di persone,
in cui la condivisione di conoscenza e l’interazione
sono semplici e dirette.

Il web semantico

FIDUCIA D
O
M
PROVA A
N
FIRMA I
LOGICA
DIGITALE
O
OWL G
G
RDF + RDF
I
SCHEMA
I
XML + NAMESPACE + XML SCHEMA E
R
I
UNICODE URI

Fonte: adattamento da (Berners-Lee, 2001)

RDF
• RDF standardizza la definizione di relazioni tra informazioni in base ai
principi della logica dei predicati e ricorrendo agli strumenti tipici del web (ad
esempio URI) e dell'XML (ad esempio i namespace).
• Secondo la logica dei predicati le informazioni sono esprimibili con
asserzioni, costituite da triple formate da
– Soggetto (risorsa)
– predicato (proprietà)
– oggetto (valore)
• Le risorse possono essere le pagine web o raccolte di pagine web o
qualsiasi oggetto, anche non direttamente parte del web, raggiungibile
attraverso un URL.
• Le proprietà sono specifici attributi che descrivono le risorse. Ogni proprietà
ha un significato specifico, definisce i valori ammessi, i tipi di risorse a cui
può riferirsi e la sua relazione con altre proprietà.
• Un valore è o una risorsa o un’altra asserzione
• Una risorsa con una proprietà che assume un valore per quella risorsa
forma un’asserzione RDF.

RDF
La frase “Ora Lassila è il creatore della pagina
http://www.w3c.org/home/Lassila,

Creator
http://www.w3.org/Home/Lassila Ora Lassila

(Berners-Lee et al., 2001).

Ontologie
• Gruber (1993) definisce un’ontologia “la specificazione esplicita di
una concettualizzazione”
• La costruzione di un’ontologia richiede:
– l’esplicitazione dei concetti relativi ad un dominio
– la loro presentazione in un formato comprensibile agli esseri umani e
leggibile dalle macchine.
• La concettualizzazione è una rappresentazione formale della realtà
come percepita e organizzata da un agente, indipendentemente dal
vocabolario utilizzato e dall’occorrenza in una specifica situazione.
• Le ontologie rendono la conoscenza riusabile in diverse applicazioni
e in domini differenti.
• Le ontologie possono fornire una ricca concettualizzazione del
dominio di lavoro di un’organizzazione, rappresentando:
– un insieme di concetti,
– una gerarchia di questi concetti
– le relazioni tra loro.

Ontologie
• La forma tipica dell’ontologia per il web è costituita da una
tassonomia e un insieme di regole di inferenza.
• La tassonomia definisce le classi di oggetti e le relazioni
tra loro.
• Classi, sottoclassi e relazioni tra le entità sono strumenti
molto potenti da usare sul web, perché permettono
– di esprimere un gran numero di relazioni tra le entità,
– assegnano le proprietà alle classi
– fanno ereditare alle sottoclassi le proprietà delle classi del livello
superiore.
• Le regole di inferenza permettono di trarre
automaticamente delle conclusioni dalle ontologie.

Tipi di ontologie
• Usa un piccolo numero di relazioni tra i concetti,
di solito le relazioni di sottoclasse e a volte le
relazioni “parte di”.
– DMoz e Yahoo!: i documenti sono organizzati
gerarchicamente in base al contenuto, per ogni topic di
contenuto c’è un nodo dell’ontologia e questo è
associato a parecchie centinaia di pagine web,
identificate dalle loro URL.
• Presenta numerosi tipi di relazioni, ma ha una
descrizione dei concetti piuttosto limitata.
– la rete semantica Word-Net, costruita manualmente,
possiede 26 diversi tipi di relazioni (iperonimi, sinonimi,
etc.)

Struttura del sistema di personalizzazione che
integra conoscenza di dominio e profili d’uso

• Nella fase di preprocessing, si usano la
conoscenza di dominio, gli usage data e i
metadati delle pagine del sito
• Nella fase on line, si usano la conoscenza di
dominio, l’attuale sessione attiva dell’utente e il
profilo utente individuale, per creare i profili
utente integrati, che insieme ai profili d’uso
aggregati sono usati dal motore di
raccomandazione per fare i suggerimenti
all’utente

Struttura del sistema di personalizzazione che
integra conoscenza di dominio e profili d’uso

Preparazione dei dati Usage Mining

Files del
sito e
metadati Derivazione dei Profili
Preprocessing dei dati profili aggregati d’uso
Identificazione delle
pageviews, sessioni,
Usage
utenti e transazioni
data

Transaction clustering
pageview/item clustering
Conoscen File delle
Association rule discovery
za di transazioni
Sequential pattern discovery
dominio utente

Fonte: adattamento da (Dai e Mobasher, 2002)

Fase di raccomandazione

Profili
d’uso Motore di Raccomandazione
aggregati

Profilo
utente
Profilo Raccomandazioni
integrato
d’uso
individua
le
Sessione
attiva
Conoscenza Web Client
di
server browser
dominio

Fonte: adattamento da Dai e Mobasher, 2002

Collaborative filtering
Invita l’utente a diffondere le sue preferenze e in cambio gli
propone degli item che potrebbero essere di suo interesse,
in base al principio che utenti con comportamenti simili
hanno interessi simili.

www.amazon.com

Limiti del collaborative filtering
• Può operare solo in base agli acquisti e alle valutazioni degli altri
utenti.
• Quando non sono disponibili le valutazioni degli utenti non può
funzionare.
• “Cold start”: raggiungimento di una massa critica di utenti per
realizzare suggerimenti interessanti.
• Valutazioni soggettive.
• Valutazioni difficili da ottenere: gli utenti devono impegnarsi in un
compito completamente nuovo.
• La sparsità dei dati: il numero di persone che valutano gli oggetti è
relativamente piccolo rispetto agli item totali.
• Il problema dei nuovi prodotti gli utenti non valutano volentieri un
nuovo item
• La velocità di lavoro: i sistemi con un grande volume di dati lavorano
lentamente
• Non considera le relazioni sociali, cioè l’esistenza di legami di
conoscenza tra chi produce e chi riceve i suggerimenti.

Tecniche per la personalizzazione
• Web usage mining
• Content-based filtering
• Collaborative filtering
• Social data mining

Social data mining
• Si basa sull’idea che si possono ottenere
le informazioni necessarie alla costruzione
degli user profile dalle tracce di attività
sociale presenti in rete.
• Questi sistemi permettono alle persone di
condividere opinioni con i loro amici e
conoscenti fisici e virtuali, estraendo e
ridistribuendo l’informazione da record di
attività sociale.

Passaparola
• Il passaparola (word-of-mouth) è una fonte di
informazioni molto credibile
• Legittimare la qualità di un prodotto attraverso il
consiglio diretto di chi l’ha già sperimentata.
• Le persone suggeriscono un
prodotto/messaggio ad amici e conoscenti
potenzialmente interessati e questi a loro volta
contattano altri utenti interessati al prodotto.
• Il passaparola crea buzz, cioè una grande
quantità di commenti, discussioni, testi e
citazioni sia on line che off line.

Marketing virale
• Grazie alle caratteristiche delle nuove tecnologie
è diventato capace di coinvolgere molte più
persone più velocemente
• Le persone più influenti della rete (opinion
leader) possono parlare bene di prodotto perché
– Sono state incentivate dalle aziende con premi in
denaro o dall’offerta di prodotti
– Solo perché favorevolmente impressionati da un
prodotto.
• Il passaparola ha una maggiore durata rispetto
alle azioni di marketing tradizionali.

Passaparola on line
• Le comunità on line sono luoghi sociali e dinamici, nei
quali i suggerimenti di prodotti e la ricerca di informazioni
avvengono con estrema facilità.
• Nei legami tradizionali l’interazione personale richiedeva
un grande sforzo in termini di tempo ed energia per
mantenere un network eterogeneo e per trasmettere le
informazioni.
• I social network permettono di realizzare questo processo
più efficientemente.
– Si possono mandare messaggi in broadcast al network
composto dai propri amici e dagli amici dei propri amici.

Processo di social data mining
• Individuare dei siti web dove gruppi di persone
producono contenuti computazionali, documenti,
messaggi, testi e link, come parte della loro
normale attività di navigazione sul web.
• Estrarre ed aggregare l’informazione,
potenzialmente utile attraverso tecniche
computazionali adatte.
• Presentare le informazioni estratte attraverso
un’interfaccia utente che permetta di valutare gli
item, selezionarli ed organizzarli in significative
raccolte personali.

Comunità virtuali
• I forum (noti anche come message board o bulletin board) sono uno
strumento di comunicazione
– molto flessibile
– interazione asincronica.
– catene di argomenti (thread) in uno spazio condiviso.
– registrazione.
• I newsgroup sono bacheche elettroniche, con messaggi simili alla
posta elettronica. Gli utenti possono leggere liberamente tutti i
messaggi e rispondere inviando il proprio.
– Di solito i newsgroup sono dedicati i specifici argomenti.
• Le chat sono sistemi che permettono lo scambio di messaggi in
tempo reale:
– Internet Relay Chat (IRC)
– web chat
– istant messenger

I blog
• I blog sono siti simili a diari dove gli interventi (post)
dell’autore sono presentati in ordine cronologico inverso.
• I post hanno una struttura tipica:
– un titolo
– la data di scrittura
– il testo personale
– i link ad altri contenuti,
– I commenti dei lettori
• La realizzazione dei blog è resa possibile dai content
management system (CMS)
– permettono di realizzare velocemente un sito con molti link e
funzioni avanzate senza conoscere i linguaggi di marcatura per
la costruzione dei siti web.

I blog
• Feed RSS (RDF Site Summary/Really Simple Syndication) è un
formato per la distribuzione di contenuti sul web
– permette agli utenti di restare sempre aggiornati sui blog a cui sono
interessati
– Gli utenti fanno una scelta consapevole quando decidono di iscriversi ad
un RSS al proprio lettore o aggregatore, dimostrando esplicitamente un
interesse nei confronti di quanto presentato nel sito.
– I siti di social networking creano automaticamente le pagine in XML con
i metadati che si riferiscono all’autore, al titolo del post, all’argomento,
alla data, ma anche agli interessi e ai contatti dell’autore.
• I blog mettono in relazione le persone e creano un forte
coinvolgimento tra gli utenti.
• Le imprese possono usare lo strumento del blog per
– costruire un legame privilegiato con i propri clienti
– sfruttare le reti di relazione già esistenti intorno ai blog più frequentati ed
aggiornati.

Social network
• I social network sono ambienti on line nei quali
le persone creano i propri profili e inseriscono i
link a quelli delle persone che conoscono,
creando un network di connessioni personali.
• Lo scopo principale dei partecipanti ai siti di
social networking è di usare le relazioni nate nel
network per farsi degli amici o per connessioni
d’affari.
• I social network sono fonti di aiuto emotivo e
finanziario, di informazioni sul lavoro e su altre
persone.

User profile sociali
• I profili nei social network permettono di ricostruire una
rappresentazione dei più ampi interessi di una persona.
– Nei social network professionali le categorie riguardano gli studi,
le esperienze lavorative precedenti, le competenze professionali
e gli interessi lavorativi, etc.
– Nei social network che mirano a creare relazioni di amicizia sono
la musica, i libri, i film, i programmi televisivi, gli sport e il cibo
preferito.
– Una categoria particolare è quella passion/general
interest/hobby e interest. Queste passioni sono più generali per
una persona, per la concezione di sé e per la propria
identificazione.
• User profile capaci di rispecchiare meglio gli utenti,
“person model” per riflettere la loro maggiore generalità

User profile generati automaticamente
• Gli user profile possono essere generati manualmente dagli utenti o
automaticamente da un sistema.
• Gli utenti spesso commettono molti errori nel definire i loro bisogni
di informazione:
– nei motori di ricerca inseriscono termini che sono scarsi predittori
dell’informazione che stanno cercando,
• Tecniche per la generazione degli user profile automaticamente:
– Categorizzazione dei testi
• Limite: questi sistemi hanno bisogno di un gran numero di esempi
– Regole di selezione dell’informazione per rappresentare i bisogni degli
utenti
• Limite: richiedono un notevole sforzo iniziale per la loro definizione
• Integrazione delle due tecniche:
– Fase iniziale: user profile basati su regole semplici e facili da definire.
– Seconda fase: user profile basati sul contenuto sufficientemente ricco
– Migliorare gli user profile in base ai feedback degli utenti

(Kuflik e Shoval, 2003)

Fiducia nei social network
• Fattori che favoriscono la nascita di un rapporto di fiducia
tra gli utenti in un network:
– I partecipanti ai siti di social networking:
• sono identificati dai loro nomi reali: i propri conoscenti possono
verificare la sincerità del profilo
• inseriscono i link ai profili dei loro amici: le relazioni personali
diventano parte integrante della presentazione di ciascun utente.
– verifica implicita dell’identità: mostrare pubblicamente le proprie
connessioni personali permette di sapere che una persona è
connessa in qualche modo con le altre persone collegate al suo
profilo. Avere conoscenti e persone di fiducia in comune può
essere la base per costruire un rapporto di collaborazione con
una persona appena conosciuta sul web.
– Meccanismo sociale della reputazione per punire gli ingannatori.

Analisi dei network
La collaborazione nell’ambito di una comunità può
essere rappresentata per mezzo di un grafo come una
rete di utenti che si scambiano informazioni:
– gli utenti sono rappresentati come nodi
– le relazioni collaborative sono rappresentate come
legami diretti (archi) tra i nodi
Per descrivere la struttura di questi grafi si possono
usare modelli analitici dei network, che in una
notazione matematica, descrivono la distribuzione dei
link tra i nodi dei network:
– Small Word
– Free Scale

Small World
• Un network Small World soddisfa due condizioni
– non deve crescere nel tempo
– la probabilità di connessione tra due punti qualsiasi del
network deve essere uguale per tutti i punti.
• La distanza tra le persone cresce in proporzione
al logaritmo del numero di membri del network,
quindi l’aumento del numero dei membri del
network influenza la distanza fra loro.

Small World
• Il famoso esperimento di Milgram ha evidenziato in modo
empirico il fenomeno “Small World” in una rete sociale.
– L’esperimento esaminava il numero di persone che un
messaggio aveva bisogno di “attraversare” per raggiungere un
perfetto sconosciuto.
– Il numero dei passaggi necessari per raggiungere la
destinazione risultò di soli sei passi
– In generale si stabilì che il numero di passaggi necessari in una
catena di contatti umani è più piccola di quanto ci si aspetti.
– Nei sistemi Small World esistono delle “catene di conoscenze” di
lunghezza limitata che connettono una qualsiasi coppia di
persone sconosciute

Small World

In un network Small World ci si aspetta di trovare un gruppo ampiamente
unificato, un network in cui sia impossibile nascondersi per quanto è
interconnesso.

Free scale
I network free scale:
– crescono nel tempo
– presentano delle preferenze nella connessione tra alcuni nodi
con altri (preferential attachment): esistono nodi (hub) che
hanno molte connessioni e questo rimane inalterato anche
aumentando il numero di nodi nella rete.

Social network e modelli
• Le caratteristiche di questi due modelli permettono di
spiegare:
– il modo in cui i network si organizzano in strutture sociali stabili,
– la relazione tra potere e struttura sociale,
– come l’abbandono di alcuni individui non distrugge il network
– l’efficienza della trasmissione da punto a punto nel network.
• Descrivere un sistema sociale come:
– Small World permette di spiegare i ritmi di rapida diffusione dei
messaggi.
– Scale Free indica la presenza di un potere specifico e una
distribuzione di potere con influenza informale e pertanto
mostrano una maggiore tolleranza quando fronteggiano
opposizione e attacchi generali, anche se sono più vulnerabili ad
attacchi sistematici e ben diretti

InterestMap
• InterestMap è un network di interconnessioni tra interessi
ed identità
• Esso può essere usato per:
– la classificazione delle identità,
– l’associazione di persone in base agli interessi.
– Il suggerimento di oggetti interessanti
• La costruzione di InterestMap ha richiesto:
– Estrazione di 100.000 user profile da due social network
– Riconoscimento dello stile di delimitazione degli interessi
– Estrazione di liste segmentate di keyword e key-phrase dal
linguaggio naturale degli user profile
– Inserire gli interessi estratti in grandi ontologie di libri, musica,
film, etc. ed una categoria speciale per le passioni.

InterestMap
• Grande ontologia formale con:
– 21.000 descrittori di interessi
– 1.000 descrittori di identità riflettere i molti tipi di
passioni dei profili.
• Gli user profile sono stati normalizzati rispetto ai
concetti di questa ontologia.
• I profili normalizzati permettono di apprendere la
forza della relazione semantica tra tutti i descrittori
di interessi e i descrittori di identità ed usarli per
costruire il grafo della mappa.

InterestMap
La tecnica pointwise mutual information (PMI) ha permesso
di ricostruire la forza delle relazioni semantiche tra due
descrittori e tra i profili, in modo da rappresentare il grafo
della InterestMap
– dai profili normalizzati l’algoritmo di apprendimento valuta ogni
possibile coppia di descrittori nel profilo che possono avere una
correlazione e aggiorna le coppie PMI.
– In seguito al filtraggio dei descrittori, la matrice ha assunto la forma
definitiva di 12.000 x 12.000, con 600 descrittori di identità.
• La mappa ottenuta è caratterizzata da
– identity hub (nodi descrittori di identità): organizzano la moltitudine di
interessi, permettendo di formare cluster intorno alle identità.
– taste clique (gruppi di gusti): gruppi di utenti che hanno un insieme di
gusti in comune. Quando la coesione è forte i taste clique tendono a
comportarsi come un solo identity hub.

InterestMap
Per realizzare le raccomandazioni Il profilo di un nuovo utente viene
normalizzato nell’ontologia dei descrittori e ricondotto ai nodi della
mappa, attivando un certo pattern nella rete.
– a partire dai nodi attivati inizialmente, l’attivazione si diffonde verso
l’esterno in modo che emergano i nodi vicini più strettamente legati ai
nodi iniziali. Il vicinato semantico, definito dai top N nodi descrittori di
interessi attivati, rappresenta le raccomandazioni prodotte attraverso la
mappa. Un insieme dei nodi del vicinato semantico saranno nodi
descrittori di identità, quelli più forti e vicini possono essere considerati
come identità riconosciute per il nuovo profilo.
– I suggerimenti realizzati usando InterestMap sono risultati molto
accurati ed intelligibili visivamente perché ogni singolo interesse è
inserito in una parte di network più ampia

(Liu e Maes, 2005)

Miglioramenti rispetto al
collaborative filtering
• Non richiede la valutazione esplicita degli oggetti da parte
degli utenti.
• I testi e i commenti disponibili sul web sono già tanti che
non si pone il problema di raggiungere la massa critica
necessaria per ottenere suggerimenti di buona qualità.
• User profile più ricchi
• Recupera le relazioni sociali tra gli utenti considerando i
link inseriti negli user profile e può sfruttare la fiducia alla
base di queste relazioni.
• Con la generazione automatica degli user profile supera
in parte la soggettività delle valutazioni degli utenti.

Limiti del social data mining
• Rispetto della privacy: i sistemi di social data
mining estraggono le preferenze da contesti
dove gli utenti non le hanno rilasciate per questo
esplicito motivo, perciò è necessario porre
attenzione ai problemi di violazione della
privacy:
– la raccolta delle preferenze
– la distribuzione dei suggerimenti.
• la possibilità di rilasciare suggerimenti in broadcast, offerta
dai sistemi di social data mining, può causare spam

Il permission marketing
• Contatta solo utenti interessati che hanno espressamente
acconsentito ad ascoltare quel particolare messaggio.
– garantisce che il consumatore presti attenzione perché effettivamente
interessato
– l’azienda possa trasmettere il proprio messaggio con calma, ma
concisamente, senza paura di essere interrotta dai concorrenti.
• Tassi di risposta molto alti, senza grandi investimenti economici,
solo sfruttando le relazioni sociali preesistenti tra membri delle
comunità virtuali.
• Il permission marketing anticipa i bisogni dell’utente, propone
messaggi legati direttamente alla persona e usa argomenti rilevanti .
• Permission marketing e marketing relazionale: non si può creare
una relazione con un cliente senza un suo consenso esplicito

Limiti del social data mining
• Tecniche di analisi del linguaggio naturale
nelle community
– Sistemi sempre più accurati
– Web Semantico

Sistema di analisi del linguaggio
naturale

Fonte: adattamento da (Glance et al., 2005).

naturale
• Il sistema colleziona
– discussioni sul web riguardanti un particolare dominio
– le classifica tra argomenti appartenenti al dominio specifico
– realizza un’analisi dei sentimenti legati alle combinazioni di argomenti

• Il modello proposto è costituito da:
– Il sistema del contenuto: scandisce il web alla ricerca dei blog, dei
message board e del contenuto Usenet e riempie gli indici di ricerca
interni
– Il sistema di produzione, usando query booleane nei motori di ricerca e
un classificatore addestrato su un campione causale di messaggi,
recupera il contenuto e lo analizza, ottenendo prima un insieme di
messaggi taggati (in base all’argomento ed alla polarità) e poi estraendo
i fatti (una tripla di brand, caratteristiche e polarità)
– l sistema analitico realizza le analisi interattive con le tradizionali
tecniche di data mining (il text mining perché i fatti hanno un contenuto
testuale).

naturale
Un messaggio viene strutturato come un albero le cui foglie possono
essere:
– la citazione dell’intestazione,
– la citazione del messaggio precedente,
– la firma
– il corpo del testo.
I blocchi di testo sono stati segmentati in paragrafi e, ad un livello
successivo, i paragrafi sono segmentati ulteriormente fino ad arrivare
alle frasi.
• Le frasi vengono definite come unità testuali più grandi di una parola,
ma più piccole di una frase intera.
• L’estrazione delle frasi-chiave (keyphrase) permette di ridurre la
dimensionalità e riassumere i documenti perciò possono essere usate
come misura di similarità tra i documenti.

Axim Dell
• Analisi delle discussioni on line sui palmari Dell Axim
– i commenti riguardanti questo prodotto coprano il 12% delle discussioni sui
dispositivi portatili
– polarità è abbastanza bassa (3,4), cioè i commenti non sono molto favorevoli.
• Si può adottare sia una metodologia d’analisi top-down che una bottom-up
per analizzare i motivi di questa bassa preferenza.
• Top-down:
– consultare i messaggi negativi
– estrarre le keyword e le keyphrase, che descrivono un sentimento negativo nei
confronti del prodotto.
– Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim,
– i malumori degli utenti sono dovuti:
• molte schede SD sono incompatibili con Dell Axim
• sono necessari degli aggiornamenti per far funzionare correttamente Axim con il
Personal Internet Explorer.
• Bottom-up
– costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente
in un forum di dispositivi portatili molto frequentato.

Axim Dell
Dall’analisi del grafo è emerso che i messaggi sono organizzati in tre diverse
discussioni. Analizzando le citazioni si è scoperto che i clienti non sono soddisfatti
• per la qualità dell’audio
• per le porte a raggi infrarossi (IR)

Fonte: adattamento da (Glance et al., 2005).

Prospettive future
• La diffusione del web semantico
– Integrazione del contenuto nel processo di personalizzazione
• Diffusione delle comunità virtuali
– Interazione più facile tra gli utenti

Sistemi di personalizzazione migliori, più
efficaci e meno intrusivi per gli utenti

User profile e web semantico (FOAF)
• Un progetto in cui sono applicati contemporaneamente il
semantic web e le relazioni sociali, i due elementi che
potranno migliorare significativamente la qualità dei
sistemi di personalizzazione, è il Friend-of-a-Friend
(FOAF)
• Nato nel 1999 dal World Wide Web Consortium (W3C)
con l'obiettivo di creare un web in cui le pagine, che
descrivono i “person profile” e i collegamenti tra esse
siano interpretabili dalle macchine.
• Il maggior risultato raggiunto dal progetto è stato il
vocabolario FOAF, un insieme di namespace RDF/XML,
per descrivere la sfera sociale di un individuo.

• Il progetto FOAF rappresenta un accordo sui termini
chiave
– usa il linguaggio Ontology Web Language (OWL) perciò
permette l’integrazione delle informazioni personali provenienti
da diverse fonti
• I profili FOAF sono collegati tra loro usando la relazione
rdfs:seeAlso in modo da formare la cosiddetta FOAF-web.
• Le tipiche modalità d’uso del vocabolario FOAF sono
simili a quelle dell'RSS:
– il proprietario di un sito crea uno o più file FOAF
– li carica su un web server
– rende noti gli URL di tali file, cosicché appositi agenti software
possano usare l'informazione contenuta in essi.
• I profili sono creati e poi condivisi dal singolo utente perciò
la creazione di dati FOAF è un processo decentralizzato e
sotto il controllo dell'autore

• Recentemente i grandi siti di blogging e social networking generano
file FOAF automaticamente a partire dagli user profile
immagazzinati nei loro database e li rendono disponibili sul web
– Swoogle, il più grande aggregatore di documenti semantici, ha 19
grandi siti di blogging nei primi 50 posti.
• Nei profili FOAF sono disponibili i metadati dell’autore, dei suoi
interessi e dei modi per contattarlo, del titolo del post,
dell’argomento trattato e della data di pubblicazione.
• La relazione foaf:knows rappresenta “una persona che conosce
un’altra”.
– non esprime le proprietà e la qualità della relazione
– è unidirezionale, riflettendo il fatto che le persone a volte dicono di
conoscere qualcuno che non necessariamente ricambierebbe
l’affermazione.
– Tali asserzioni auto-riportate permettono di inferire ulteriori informazioni
riguardo le relazioni tra gli utenti.

Fiducia nei network FOAF
La diffusione della fiducia nei social network che adottano gli standard del
semantic web può essere:
• Esplicitamente codificata con il modulo di fiducia FOAF Trust Module
• Inferita a partire dalle relazioni in un social network da appositi algoritmi

– Il sito FilmTrusper (Golbeck, 2005) per il suggerimento di film ha usato
l’algoritmo TidalTrust che inferisce la fiducia tra due persone nel network a
partire dai percorsi che le uniscono e, in base ai risultati ottenuti, genera i
suggerimenti.
– La fiducia nel social network è usata per personalizzare l’esperienza di
navigazione dell’utente.
– L’accuratezza delle valutazioni basate sulla fiducia è risultata migliore rispetto ai
sistemi tradizionali che si basano solo sulle valutazioni.

Bridging the gap between on-line
shoppers and online shopping websites.

A user centered analysis

“Bridging the gap between on-line shoppers and online
shopping websites. A user centered analysis”

• Obiettivi:
– Fare il punto della situazione sui cambiamenti nell’ambito dell’e-
commerce:
• la grande crescita del numero di siti di e-commerce,
• l’information overload
• la diffusione dei recommender system.
– Definire il gap tra l’attuale offerta dei siti web di e-commerce e le
richieste (bisogni e desideri) degli utenti che fanno acquisti on
line.
– Fornire informazioni utili per migliorare la struttura
dell’applicazioni web ed andare incontro ai bisogni dei clienti.
– Suggerire miglioramenti da apportare ai recommender system
attualmente usati.
– Mappare i servizi offerti dai siti web

Fasi del progetto
La ricerca si sviluppa in tre fasi: lo studio pilota, la raccolta dei dati e
l’analisi dei dati.
• Lo studio pilota prevede la selezione di vari siti di e-commerce e la
dettagliata analisi di tutte le loro caratteristiche al fine di individuare gli
elementi specifici di ciascun sito e quelli comuni a tutti. Le
caratteristiche individuate devono permettere la costruzione di una
scheda di valutazione da applicare nella successiva fase di analisi di
altri siti di e-commerce.
• La raccolta dei dati consiste
– nella compilazione della scheda di valutazione per alcune centinaia di
siti web
– nella ricerca di studi (ricerche e pubblicazioni) sull’esigenze dei clienti
dei siti di e-commerce.
• Analisi dei dati raccolti: il confronto tra richieste degli utenti e le
caratteristiche attualmente offerte dai siti e la stesura di un report con i
risultati ottenuti.

Lo studio pilota
Analisi dettagliata di tutte le caratteristiche
di 30 siti web di e-commerce considerati.
Individuazione di sezioni comuni tra i vari
siti

Analisi delle caratteristiche di 20
siti web riconducibili alle sezioni
individuate

Sintesi delle
caratteristiche nella
scheda di valutazione
con diversi livelli di
astrazione

• This site is available in different languages with country-specific homepages (United Kingdom,
Shopping at
Bonprix Italy, Germany, Holland, Swiss, Holland, etc) as shown by flags at the end of each page. The
structure of website is quite similar for different countries.
• Vendor’s mission and history is described in detail.
www.bonprix.co.uk
• Items are divided into categories (Men, Lingerie, Women, Kids, Shoes, Top Trend) and
subcategories (for example dresses, jeans, T-shirt, etc.)
• Items recommendations in homepage.
• Record recently viewed products by each customer.
• It is possible filter products by size, colours and price.
On line clothes
• New products are highlighted in homepage
on line shopping
website. • Product description has a main visual part, where the product is dressed in by a model and the
other available colours are shown in another picture. The text product description is quite little.
• Guide to choose size.
• Basket picture remembers how many items have been added.
• Prices are expressed in pounds and include taxes.
• Off line catalogue can be requested.
• Orders are accepted by on line form, by phone and also by ma il.
• Delivers only in UK and Northern Ireland
• Delivers only by carrier Parcelnet.
• Fixed postage and packing price for one or several packages.
• Payments: debit and credit cards are accepted: Switch/Maestro, Visa Debit/Delta, Visa and
MasterCard, but also cheque or post order. No cash or postal stamps.
al
• Product exchanges and returns are allowed within 14 days of receipt.
• Security - VeriSign SSL certificate
• Customer service by phone number and e-mail- FAQ
• Privacy - the site may share personal data with other organizations, they may contact customers
for marketing purposes by mail, telephone, e-mail or otherwise. Customers’ information, including
shopping habits, can be used for marketing purpose and customer satisfaction analysis. If
customers do no longer wish to receive catalogues and/or other information, they have to inform

Le sezioni
• Descrizione del venditore
• Registrazione
• Il carrello / cestino della spesa
• I prodotti

Le sezioni
• I siti mettono a disposizioni dei loro utenti molti servizi che
facilitano la navigazione e la scelta dei prodotti:
– Compare service
– Ordine dei prodotti
– Il motore di ricerca
– Lista dei desideri (wish list)
– Send to a friend / e-mail a friend
– Suggerimenti
– Valutazioni dei clienti
– Nuovi prodotti
– Prodotti in offerta
– Prodotti personalizzati
– Newsletter.
– E-coupons
– Club

Le sezioni
• Servizi specifici
– Guida alla scelta delle taglie
– Download di driver e di aggiornamenti
– Remind service
• Pagamenti
– Supporto finanziario
– Carte di credito del negozio
– I prezzi generalmente sono presentati nella
valuta del Paese dell’azienda, ma spesso
sono presenti meccanismi che permettono di
convertili nelle valute più diffuse al mondo.

Le sezioni
• Consegna
– Rintracciare il prodotto (track product)
– Spedizione gratuita
• Restituzione e rimborsi
• Customer service
• Privacy
• Sicurezza
• L’analisi dei siti web è stata realizzata dal 26/11/2006 al
05/01/2007, nel periodo dell’anno a cavallo delle festività
natalizie, pertanto i siti presentavano sezioni dedicate a:
– Idee regalo
– Gift certificates (buoni regalo)

A partire da queste sezioni sono stati analizzati altri 20 siti
web.

La scheda di valutazione
La scheda di valutazione presenta tre livelli di
astrazione.
• Il livello più alto corrisponde alle sezioni
individuate nella seconda fase.
• Il secondo livello rappresenta un’ulteriore
specificazione del primo livello e riguarda i servizi
offerti da ciascun sito nell’ambito delle varie
sezioni.
•L’ultimo livello indica alcuni dei possibili valori che
possono assumere le caratteristiche di secondo
livello.

Successive fasi del progetto
• Nella seconda fase del progetto saranno rilevati gli
attributi della scheda di valutazione per alcune centinaia
di siti web e contemporaneamente saranno ricercati studi
sul comportamento dei clienti dei siti di e-commerce.
– Al termine della seconda fase si avrà a disposizione un data set
in cui ciascuna riga indicherà la presenza o meno, in un
particolare sito web analizzato, degli attributi della scheda di
valutazione. Se un particolare attribuito è presente in sito nella
colonna corrispondente sarà inserito 1, se invece non è
presente sarà inserito 0.
• Al data set così ottenuto, nella terza ed ultima fase del
progetto, potranno essere applicate le tecniche di data
mining per estrarre conoscenza riguardo l’attuale
organizzazione dell’offerta dei siti di e-commerce.

L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining

Similar to L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining (19)

L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining