• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
La tesi in slide
 

La tesi in slide

on

  • 7,841 views

 

Statistics

Views

Total Views
7,841
Views on SlideShare
7,820
Embed Views
21

Actions

Likes
3
Downloads
31
Comments
0

1 Embed 21

http://www.slideshare.net 21

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    La tesi in slide La tesi in slide Presentation Transcript

    • L’applicazione del data mining ai siti web di e-commerce Dal web usage mining al social data mining
    • Indice
      • Contesto
      • Data mining
      • Il processo di personalizzazione
        • Sistemi di personalizzazione
      • Progetto
    • Il contesto
        • Diffusione dell’e-commerce
          • L’aumento della complessità dell’ambiente competitivo delle aziende
          • L’aumento della concorrenza
          • L’incremento dei dati e l’information overload
      Marketing relazionale Data mining Personalizzazione
    • Marketing relazionale
      • Focalizza l’attenzione sulla relazione azienda-cliente
      • Rapporti di lungo periodo con clienti
      • Fidelizzazione degli attuali clienti
      • Lo scopo dell’azienda diventa quello di soddisfare il maggior numero di bisogni di uno stesso cliente
      • Dalla quota mercato alla quota cliente
      • Importanza di avere a disposizione quante più informazioni sui clienti
    • Indice
      • Contesto
      • Data mining
      • Il processo di personalizzazione
      • Sistemi di personalizzazione
      • Progetto
    • Data mining
      • Il data mining è
      • “ il processo di esplorazione e analisi di un insieme di dati, generalmente di grandi dimensioni, per individuare eventuali regolarità, estrarre conoscenza e ricavare regole ricorrenti significative”
      • (Vercellis,2006, p.77)
    • Supervisionato/non supervisionato
      • Apprendimento supervisionato (analisi dirette) è presente un attributo target, che rappresenta la classe di appartenenza per ciascun record:
        • le classi alle quali ricondurre le osservazioni sono già note,
        • l’analisi deve spiegare come le osservazioni si aggreghino ad una classe piuttosto che ad un'altra, in base ai valori assunti rispetto agli altri attributi disponibili.
      • Apprendimento non supervisionato (analisi indirette): il dataset di riferimento non prevede alcun attributo target:
        • Esse mirano ad individuare ricorrenze, affinità e difformità e a determinare raggruppamenti di record omogenei al loro interno e diversi rispetto agli altri.
    • Metodologie di data mining
      • Classificazione
      • Clustering
      • Regole associative
    • Classificazione
      • La classificazione consiste nell’assegnare agli oggetti esaminati l’etichetta di una classe scelta tra un insieme predefinito di classi.
      • A partire da un insieme di osservazioni riferite al passato, per le quali è nota la classe di appartenenza, vengono costruiti i modelli di classificazione
      • I modelli individuano legami ricorrenti tra le variabili esplicative per descrivere le osservazioni appartenenti ad una medesima classe.
        • Metodo di apprendimento supervisionato
      • I legami individuati vengono tradotti in regole di classificazione da impiegare per predire la classe di appartenenza di osservazioni delle quali è noto solo il valore degli attributi esplicativi
    • Esempio m … … … Classe (y i ) x ij Esempio i … … .. … Esempio4 Classe1 Esempio3 Classe2 Esempio2 Classe1 Esempio1 Classe Attributo n Attributo2 Attributo1
    • Classificazione Il caso Carla è rappresentato dal punto nero in uno spazio a quattro dimensioni. La posizione nello spazio è determinata dai valori assunti da Carla rispetto ai quattro attributi .
    • Classificazione Funzione che descrive la relazione tra attributi e classe
      • In un problema di classificazione si deve
        • definire uno spazio di ipotesi F, che rappresentano le possibili relazioni di dipendenza tra la classe e il vettore degli attributi predittivi.
        • scegliere un algoritmo che identifichi la funzione f capace di descrivere in modo soddisfacente la relazione tra gli attributi e la classe
    • Classificazione
      • Fasi della classificazione: training, test e predizione.
      • Training viene estratto un sottoinsieme T degli esempi presenti nel dataset D, denominato training set , generalmente corrispondente al 66% dei casi del dataset. L’algoritmo di classificazione viene applicato agli esempi appartenenti a questo sottoinsieme T per ricavare le regole di classificazione che consentono di attribuire a ciascuna osservazione x la corrispondente classe target y.
      • Test: le regole prodotte nella fase di training sono impiegate per classificare la restante parte delle osservazioni del dataset D, corrispondenti al 33% della grandezza del dataset e per le quali è noto il valore della classe target.
        • Si valuta l’accuratezza del modello, confrontando la classe predetta dal classificatore con quella a cui realmente appartengono gli esempi.
      • Predizione : il modello scelto viene usato per classificare nuovi esempi.
    • Clustering
        • Il clustering si propone di identificare raggruppamenti omogenei di record, mediante la definizione di opportune metriche e delle relative nozioni di distanza e similarità tra coppie di osservazioni.
        • Le osservazioni in ogni cluster devono essere quanto più simili è possibile tra loro e dissimili dalle osservazioni degli altri gruppi.
        • Metodo di apprendimento non supervisionato
    • Clustering Cluster
    • Metodi di clustering
      • Metodi di partizione suddividono il dataset in un numero predeterminato di sottogruppi :
        • un’assegnazione iniziale delle osservazioni ai cluster.
        • applicano iterativamente una tecnica di riallocazione delle osservazioni per accrescere la qualità della suddivisione,
        • fin quando non si raggiunge la “convergenza”.
        • Richiedono di conoscere in anticipo il numero di cluster da ottenere
      • Metodi gerarchici derivano molteplici suddivisioni in sottogruppi dei dati, in base a diverse soglie di omogeneità.
        • I metodi gerarchici possono essere agglomerativi o di suddivisione
          • Agglomerativi: formano un cluster per ogni osservazione (cluster atomici) che in varie iterazioni successive vengono aggregati formando cluster di dimensioni sempre maggiori
          • Suddivisione: collocano tutte le osservazioni in un solo cluster, che, in varie iterazioni successive, viene suddiviso in raggruppamenti di dimensioni minori.
        • Sono lenti nell’elaborazione
    • Metodi di clustering
      • Per risolvere tali inconvenienti si possono integrare i due approcci in vari modi:
        • I
          • Si estrae un campione dei dati sul quale effettuare l’analisi gerarchica per determinare il numero ottimale di cluster,
          • Usando il numero di cluster calcolato, si effettua l’analisi non gerarchica sull’intero dataset.
        • II
          • Si realizza un’analisi non gerarchica su tutti i dati ipotizzando un numero elevato di cluster
          • Si crea un campione con le medie dei cluster ottenuti. Sul campione, così ottenuto, si effettua un’analisi gerarchica.
    • Regole associative
      • Ricercano oggetti (item) che tendono ad apparire insieme in un certo dataset.
      • Sono un metodo locale, cioè nei dati scoprono pattern che sono applicabili solo ad una piccola percentuale di esempi
        • Preso I, l’insieme di tutti gli item.
        • Una transazione T è definita come un insieme di item che si presentano insieme.
        • Una regola associativa è un’implicazione di natura probabilistica tra due insiemi di item A e B, sottoinsiemi di I, rappresentata come A->B.
        • Essa indica che la presenza in una transazione degli item compresi nel sottoinsieme A implica la presenza degli oggetti in B con certa probabilità.
      • Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli oggetti rispetto a quelle che contengono solo il primo oggetto
      • Supporto: è il rapporto tra la frazione di transazioni che contengono sia A che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza con cui A e B compaiono insieme nelle transazioni.
      • (Agrawal e Srikant,1994)
    • Data mining per la personalizzazione
      • Acquisizione dei clienti : le tecniche di data mining permettono di distinguere le caratteristiche (anagrafiche, di comportamento, di acquisto etc.) degli utenti che hanno una maggiore probabilità di diventare clienti e quindi di realizzare azioni mirate solo nei loro confronti, in modo da ridurre gli sprechi e incrementando l’efficacia delle azioni di marketing.
      • Maturità :
        • prolungare la redditività e la durata della relazione, massimizzando il valore del cliente.
        • migliorare la loyality: identificazione dei segmenti di mercato che risponderanno meglio ad azioni di cross-selling o up-selling.
      • Predizione del rischio di abbandono : confrontare le caratteristiche di chi è rimasto fedele nel tempo con chi ha cambiato fornitore per indirizzare soltanto ai clienti con alto rischio di abbandono le azioni di retention.
    • Esempi
      • CRM
      • Click stream
      • User profiling
      • (Giudici, 2005)
    • CRM
      • Piccola azienda che opera nel settore della vendita per corrispondenza.
      • Obiettivi:
        • studiare il comportamento di acquisto dei clienti
        • capire quali fattori distinguono un cliente occasionale da uno fedele,
        • individuare in anticipo quali clienti saranno veramente profittevoli
        • studiare politiche di marketing adatte ai diversi tipi di clienti
    • CRM
      • Dati:
        • dati relativi ai 210.085 clienti che hanno effettuato almeno un acquisto presso l’azienda tra il 1992 e il 1996.
          • Si estrae un campione stratificato in modo proporzionale in base alla data di contatto con l’azienda di 2.470 clienti
        • Le variabili prese in considerazione sono state sette, cinque discrete e due continue:
          • l’ammontare del primo acquisto (variabile quantitativa)
          • pagamento a rate (dicotomica)
          • il numero di oggetti acquistati (variabile quantitativa)
          • l’area di provenienza della filiale (variabile qualitativa: nord, centro e sud)
          • età (variabile discretizzata in tre range 15-35, 36-50, 51-89)
          • dimensione della filiale (variabile qualitativa: piccola, media, grande)
          • sesso (dicotomica)
    • CRM
      • Modello di classificazione predittivo, per collocare i clienti in due classi (profittevoli/non profittevoli).
      • Sono stati costruiti differenti tipi di modelli:
        • Regressione logistica (per scegliere le variabili)
        • Reti neurali
        • Alberi decisionali (algoritmo CART)
        • Nearest neighbor
      • Scelta del modello
        • In base a conoscenze di markerting, scegliendo di minimizzare gli errori più costosi
        • Analisi ROC
    • Curva ROC Questa curva ha come coordinate in ascisse (1- la specificità, cioè la probabilità dell’errore di secondo tipo) e in ordinata la sensitività, cioè (1-la probabilità dell’errore di primo tipo) 1- la probabilità dell’errore di secondo tipo (falsi negativi)
    • CRM
      • In base alla ROC analisi, gli alberi di classificazione e i modelli nearest neighbour sono risultati i migliori tra i quelli costruiti per questa analisi.
      • Sono stati scelti gli alberi di decisione perchè hanno l’ulteriore beneficio di produrre regole facilmente intelligibili.
      • Società che vende prodotti software e hardware on line
      • Obiettivo: prevedere il comportamento di visita al sito degli utenti
      • Dati:
        • dataset ottenuto dall’elaborazione di un log file, contenente i dati relativi agli accessi al sito per un periodo di circa due anni.
        • attributi l’user id dell’utente, una variabile con la data di accesso e una con la pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527 visitatori
        • Il sito ha 36 pagine
      Click stream 250.711 ………… 1 Pagina richiesta Data accesso Id utente Richieste
    • Click stream
        • Cluster analysis preliminare per ottenere quattro cluster di comportamento omogenei rispetto alle tre variabili: orario di accesso, durata della sessione e numero di click.
      Da questo iniziale dataset ne viene ricavato un altro, organizzato per sessioni ………… Pag. 36 … … . … . Pag.3 Pag. 2 Pag. 1 Numero di click Orario inizio Durata sessione sessioni
    • Click stream
      • Si è scelto un cluster di 1.240 sessioni caratterizzato da una durata dalle sessioni particolarmente lunga e un numero di pagine viste abbastanza alto, quindi con un’alta potenzialità di acquisto.
      • Modello: le regole sequenziali, cioè regole associative ordinate per una variabile. Per estrarre le regole sequenziali è stato usato l’algoritmo Apriori.
      • Le sequenze più interessanti riguardano:
        • la visita della pagina programmi e poi quella prodotti
        • program->product
        • la visita di due pagine di prodotti consecutivamente
        • product->product
    • User profiling
      • Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi profili comportamentali.
      • Sito www.microsoft.com
      • Dati:
        • Pagine visitate da 32.711 utenti in una settimana.
      Ogni visitatore è identificato da un’etichetta (C), poi tradotta in codice numerico (109**), ed è seguito da una o più righe che indicano le pagine visitate (V), anch’esse identificate da un codice numerico (da 1000 a 1295). V, 1017 V, 1026 C, “10910”, 10910 V, 1034 V, 1009 V, 1113 C, “10909”, 10909 V, 1017 V, 1108 C, “10908”, 10908
    • User profiling
      • Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica che descrive quante volte ogni pagina è stata visitata.
      • Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee.
      • Modelli:
        • Clustering
        • Mappe di Kohonen
      … … … … … … … … … … … … … … 2 0 0 0 0 0 0 2 0 0 0 1 2 10003 0 0 0 0 0 3 0 0 0 0 0 1 1 10002 0 0 5 0 0 0 0 0 0 0 1 1 1 10001 Area Info Biz Hardware Sviluppo Altro Int. Down load Altro Soft. Window office Svago Help Iniziale Codice cliente
    • User profiling
      • Test di cross validation:
        • sono stati creati due dataset con i risultati ottenuti dai due diversi procedimenti, aggiungendo al dataset iniziale la variabile categorica che assegna l’osservazione ad uno dei 10 cluster.
        • Su questi dataset è stata realizzata la classificazione per verificare quale modello è più accurato.
      • Modello migliore: mappe di Kohonen.
      • I cluster ottenuti grazie a questo modello rappresentano tre tipi di utenti
        • profili monotematici di utenti, che visitano soltanto un’area specifica,
        • profili politematici di utenti che visitano tutte le aree del sito,
        • profili intermedi di professionisti dell’informatica, che visitano le pagine relative allo sviluppo, a particolari software e al download
    • Indice
      • Contesto
      • Data mining
      • Il processo di personalizzazione
        • Sistemi di personalizzazione
      • Progetto
    • La personalizzazione dei siti web
      • “ Ogni azione che adatta l’informazione o il servizio fornito da un sito web ai bisogni di un utente specifico, sfruttando la conoscenza acquisita:
        • dall’analisi del comportamento di navigazione dell’utente (usage data)
        • dagli interessi individuali inseriti nel profilo utente
        • combinanti con altre informazioni del web: contenuto e la struttura del sito web”
        • (Eirinaki e Vazirgiannis, 2003)
    • Perché la personalizzazione dei siti web?
      • La personalizzazione di un sito web permette di predire i bisogni degli utenti al fine di migliorare l’usabilità e la retention.
      • Obiettivo: fornire agli utenti l’informazione che vogliono o di cui hanno bisogno senza aspettare che la chiedano esplicitamente.
    • Il processo di personalizzazione Analisi dei dati Raccolta dei web data User profiling e User profiling Collaborative filtering Content based filtering Web usage mining Scelta del tipo di personalizzazione Contenuto Interfaccia Presentazione
    • Il processo di personalizzazione
        • Raccolta dei web data
          • Le informazioni sull’utente
          • Dati ambientali: informazioni sul dispositivo usato per interagire con il sistema
          • Informazioni sul contesto d’uso
          • Usage data
    • Le informazioni sull’utente
      • Dati demografici : nome,numero di telefono, età, il luogo di abitazione, sesso, il titolo di studio, il reddito;
      • Conoscenza dell’utente: la familiarità dell’utente con i concetti del dominio e la sua expertise per quel dominio;
      • Saper fare dell’utente : indipendentemente da cosa l’utente sa, in molti casi è importante sapere cosa l’utente sa fare e distinguere tra cosa gli è familiare e cosa può realizzare che può essere particolarmente importante per la vendita di prodotti e servizi complessi (computer, ADSL e simili);
      • interessi e preferenze , di solito riferiti alle categorie di prodotti venduti dal negozio on line o a specifiche proprietà di tali prodotti;
      • bisogni : le disabilità per le quali è necessario un servizio accessibile
      • scopi : l’utente può comprare qualcosa per sé o un regalo per qualcuno altro un assistente di un negozio on line potrebbe aiutare l’utente a trovare la soluzione meno costosa o la più efficace o bilanciare richieste conflittuali
    • Dati ambientali: informazioni sul dispositivo usato
      • L’utente può usare diversi tipi di hardware per accedere al sito:
      • un desktop PC, un laptop, un telefono cellulare, un PDA,
      • Ogni dispositivo ha differenti caratteristiche:
      • la dimensione dello schermo
      • la capacità e la memoria di calcolo,
      • i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc).
      • I dati ambientali riguardano:
      • la versione del browser,
      • la piattaforma usata,
      • la disponibilità di plug-ins,
      • i firewall che bloccano le applet,
      • la banda disponibile,
      • la velocità di processing,
      • i dispositivi di visualizzazione,
      • informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.
    • Informazioni sul contesto d’uso
      • L’utente può interagire con il negozio on line in situazioni differenti, a casa, in treno, mentre cammina o guida, durante una riunione.
      • Il contesto d’uso è costituito da:
      • il contesto fisico include la location dell’utente e le condizioni ambientali come la luce, il rumore, la temperatura, il tempo di connessione, la velocità di spostamento.
      • il contesto sociale include la comunità o il gruppo a cui l’utente appartiene, il compito che sta realizzando e la relazione con le persone che lo circondano mentre interagisce con l’applicazione.
    • Usage data
      • Gli usage data sono i dati derivanti dai log file e rappresentano il comportamento dei visitatori.
    • Web Log
      • Ogni accesso ad una pagina web è registrato nel log di accesso del server.
      • Nel log ci sono campi predefiniti:
      Request Remote host Ip Remote log name User name login Date and time Status Bytes Referrer: l’url di provenienza dell’utente User agent: il software che l’utente usa per navigare nel sito Cookies: se il sito visitato li usa
    • Log file
      • ... 213.213.31.41 [15/Apr/2000:04:00:04 +0200]
      • “ GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1" 200 1267
      • MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0
      • Dove
      • 213.213.31.41 indica l’indirizzo IP del computer che ha fatto la richiesta della pagina
      • 15/Apr/2000:04:00:04 è la data è l’ora della transazione,
      • GET è il metodo di transazione (che può essere GET o POST),
      • http://www.unipi.it/images/h/h home.gif , indica l’URL richiesta dall’utente,
      • HTTP/1.1 è il protocollo HTTP usato,
      • 200 è il codice di ritorno HTTP (200 per le transazioni riuscite),
      • 1267 è la grandezza in bytes della risposta inviata al cliente
      • MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente,
      • http://www.unipi.it è il cosiddetto campo referrer, l’URL di provenienza dell’utente,
      • MSIE+6.0 indica il browser usato dall’utente.
    • User profile
          • User profile è “un record di dati strutturati, contenente informazioni dell’utente: gli identificatori, le caratteristiche, le capacità, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro” (Van Dijk et alt., 2005)
          • Profili statici e dinamici
          • Acquisizione dei dati implicita ed esplicita
    • User profile Fonte: adattamento da (van Dijk et alt., 2005, p.13) … . … .. Expertise: fisica quantistica, giardinaggio, motori, etc Conosco Comportamento: lavoro, ascolto musica, etc Faccio Obiettivi: carriera, vita sociale, etc Voglio Circostanze: studio, cerco casa/lavoro/un’auto, organizzo un viaggio, etc Possiedo Interessi: pittura, immersioni, internet, etc Mi piace Preferenze: musica, arte, notizie, cibo, viaggi, etc Preferisco Me: personalità, Io sono + Identificatori: nome utente, password, domande segrete,etc Io sono
    • Tecniche per la personalizzazione
      • Web usage mining
      • Content-based filtering
      • Collaborative filtering
    • Web usage mining
      • Preprocessing
      • Pattern discovery
            • Regole associative: sono usate per trovare correlazioni tra pagine visitate assieme in una sessione. Indicano la possibile relazione tra pagine anche se non sono direttamente connesse e possono rilevare associazioni tra gruppi di utenti con specifici interessi
            • Sequential pattern :è un’estensione delle regole associative per rilevare pattern di co-occorrenze in un certa sequenza temporale
            • Clustering :
              • User cluster: gruppi di utenti che sembrano comportarsi in modo simile mentre navigano
              • Page cluster: pagine che sembrano interrelate concettualmente nella percezione degli utenti
            • Classificazione: riconduce le pagine o gli utenti ad una serie di classi predeterminate
      • Analisi dei pattern estratti
    • Il Web Personalizer
        • Un framework per la personalizzazione dei siti web basata sugli usage data.
          • Mining degli usage data per la personalizzazione dei siti web
            • Regole associative ed itemsets
            • Clustering Transactions
            • Usage Clusters
          • Il processo di raccomandazione
            • Realizzare le raccomandazioni direttamente dagli itemsets.
            • Calcolare le raccomandazioni in base ai clusters di URL
    • Preparazione dei dati Usage Mining File del sito e metadati Server Log Pulizia dei dati Identificazione degli utenti e delle transazioni Statistiche d’uso File delle transazioni utente Transaction clustering Usage clustering Association rule discovery Itemset frequenti Cluster di URL Motore di Raccomandazione Sessione attiva Client browser Raccomandazioni Web server Componente off line Componente on line Struttura del Web Personalizer Fonte: adattamento da (Mobasher et al., 2000)
    • Clickworld
      • Obiettivo: costruire dei modelli del comportamento di navigazione degli utenti nel portale Vivacity.it per fornire agli utenti un’organizzazione del sito personalizzata e proattiva.
      • Compiti specifici:
        • predire se un utente sarà interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente.
        • predire il sesso dell’utente in base alle pagine web visitate
      • Dati:
        • i log di accesso al portale un periodo di 5 mesi, corrispondenti a più di 7 milioni di richieste.
        • Informazioni aggiuntive per il 15% di utenti registrati
      • Struttura del sito: il portale presentava un’area nazionale con notizie, forum, informazioni, barzellette, etc. e più di 30 sezioni locali con informazioni specifiche per ogni città.
      • Costruzione dell’ontologia del sito
    • Clickworld
      • Predire se un utente sarà interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente
        • Le sezioni sono state usate come attributi: scelta una sezione come classe le altre sono diventate gli attributi esplicativi.
        • Applicando l’algoritmo dell’albero decisionale C4.5 si è ottenuto
          • Recall (numero di utenti interessati riconosciuti rispetto a tutti gli utenti interessati) di circa il 50%, cioè nel fare le previsioni riesce a raggiungere il 50% di utenti potenzialmente interessati.
          • Precision (numero di utenti interessati rispetto al totale degli utenti riconosciuti) di circa il 90%, cioè c’erano pochi errori di predizione.
    • Clickworld
      • Predire il sesso dell’utente in base alle pagine web visitate
        • dati degli utenti registrati, corrispondenti al 15% del dataset, in quanto solo per queste persone era noto il sesso. L’insieme degli utenti registrati è stato diviso nel training e nel test set, corrispondenti al 67% e al 33% degli utenti registrati.
        • Gli attributi sono rappresentati dalle pagine o sezioni del sito e la classe dal sesso dell’utente.
        • Il modello migliore è stato ottenuto dall’albero decisionale C4.5, che ha presentato un errore di classificazione del 39,8%, ritenuto non soddisfacente.
        • Gli autori hanno spiegato il mancato miglioramento dell’accuratezza del modello in base alla scarsa capacità di discriminazione dell’ontologia usata e alle caratteristiche delle sessioni, troppo brevi e con pochi click, per fornire pattern di accesso distintivi per il sesso degli utenti
        • (Baglioni et al., 2003).
    • Limiti del web usage mining
      • Può essere difficile ottenere informazioni dai log file:
        • I log file hanno lo scopo di raccogliere informazioni per il debug del web server e non per il data mining.
      • Il web usage mining tralascia le informazioni legate al contenuto ed alla struttura del sito.
    • Tecniche per la personalizzazione
      • Web usage mining
      • Content-based filtering
      • Collaborative filtering
    • Content-based filtering
      • Sono basati sulle preferenze dell’utente, il sistema ne traccia il comportamento e gli presenta item simili a quelli che ha preferito in passato
      www.amazon.com
    • Limiti del content –based filtering
      • Richiede che a ciascun oggetto sia associato del contenuto e che esso sia analizzato.
      • Fornendo raccomandazioni strettamente associate all’user profile, non vengono suggeriti nuovi prodotti.
        • Non permette il suggerimento casuale di prodotti (serendipity)
    • Un’architettura che integra il contenuto nel processo di personalizzazione
      • C-Log : web log migliorati grazie all’introduzione di campi aggiuntivi relativi alle categorie semantiche derivate dall’analisi del contenuto
      • L’integrazione delle caratteristiche di contenuto nel processo di personalizzazione permette di ampliare il set di raccomandazione
    • Web Logs Contenuto del sito web Tassonomia Tesaurus Clusters dei documenti Usage pattern C- Logs Web Log Preprocessati Motore di raccomandazione Meccanismo di pubblicazione Preprocessing dei dati Web Usage Mining Clustering dei documenti Creazione dei C-Logs Fonte: Adattamento da (Eirinaki et al., 2003)
    • Il web semantico
      • Il web semantico è un’idea di Tim Berners-Lee secondo la quale le macchine diventano “capaci di analizzare tutti i dati sul web, il contenuto, i link e le transazioni tra persone e computer” (Berners-Lee, 2001, p. 139).
      • Secondo tale visione il web è un mezzo potente per favorire la cooperazione tra gruppi di persone, in cui la condivisione di conoscenza e l’interazione sono semplici e dirette.
    • Il web semantico URI UNICODE XML + NAMESPACE + XML SCHEMA RDF + RDF SCHEMA FIRMA DIGITALE OWL LOGICA PROVA FIDUCIA D O M A N I O G G I I E R I Fonte: adattamento da (Berners-Lee, 2001)
    • RDF
      • RDF standardizza la definizione di relazioni tra informazioni in base ai principi della logica dei predicati e ricorrendo agli strumenti tipici del web (ad esempio URI) e dell'XML (ad esempio i namespace).
      • Secondo la logica dei predicati le informazioni sono esprimibili con asserzioni, costituite da triple formate da
        • Soggetto (risorsa)
        • predicato (proprietà)
        • oggetto (valore)
      • Le risorse possono essere le pagine web o raccolte di pagine web o qualsiasi oggetto, anche non direttamente parte del web, raggiungibile attraverso un URL.
      • Le proprietà sono specifici attributi che descrivono le risorse. Ogni proprietà ha un significato specifico, definisce i valori ammessi, i tipi di risorse a cui può riferirsi e la sua relazione con altre proprietà.
      • Un valore è o una risorsa o un’altra asserzione
      • Una risorsa con una proprietà che assume un valore per quella risorsa forma un’asserzione RDF.
    • RDF (Berners-Lee et al., 2001). La frase “Ora Lassila è il creatore della pagina http://www.w3c.org/home/Lassila, http://www.w3.org/Home/Lassila Ora Lassila Creator
    • Ontologie
      • Gruber (1993) definisce un’ontologia “la specificazione esplicita di una concettualizzazione”
      • La costruzione di un’ontologia richiede:
        • l’esplicitazione dei concetti relativi ad un dominio
        • la loro presentazione in un formato comprensibile agli esseri umani e leggibile dalle macchine.
      • La concettualizzazione è una rappresentazione formale della realtà come percepita e organizzata da un agente, indipendentemente dal vocabolario utilizzato e dall’occorrenza in una specifica situazione.
      • Le ontologie rendono la conoscenza riusabile in diverse applicazioni e in domini differenti.
      • Le ontologie possono fornire una ricca concettualizzazione del dominio di lavoro di un’organizzazione, rappresentando:
        • un insieme di concetti,
        • una gerarchia di questi concetti
        • le relazioni tra loro.
    • Ontologie
      • La forma tipica dell’ontologia per il web è costituita da una tassonomia e un insieme di regole di inferenza.
      • La tassonomia definisce le classi di oggetti e le relazioni tra loro.
      • Classi, sottoclassi e relazioni tra le entità sono strumenti molto potenti da usare sul web, perché permettono
        • di esprimere un gran numero di relazioni tra le entità,
        • assegnano le proprietà alle classi
        • fanno ereditare alle sottoclassi le proprietà delle classi del livello superiore.
      • Le regole di inferenza permettono di trarre automaticamente delle conclusioni dalle ontologie.
    • Tipi di ontologie
      • Usa un piccolo numero di relazioni tra i concetti, di solito le relazioni di sottoclasse e a volte le relazioni “parte di”.
        • DMoz e Yahoo!: i documenti sono organizzati gerarchicamente in base al contenuto, per ogni topic di contenuto c’è un nodo dell’ontologia e questo è associato a parecchie centinaia di pagine web, identificate dalle loro URL.
      • Presenta numerosi tipi di relazioni, ma ha una descrizione dei concetti piuttosto limitata.
        • la rete semantica Word-Net, costruita manualmente, possiede 26 diversi tipi di relazioni (iperonimi, sinonimi, etc.)
    • Struttura del sistema di personalizzazione che integra conoscenza di dominio e profili d’uso
      • Nella fase di preprocessing, si usano la conoscenza di dominio, gli usage data e i metadati delle pagine del sito
      • Nella fase on line, si usano la conoscenza di dominio, l’attuale sessione attiva dell’utente e il profilo utente individuale, per creare i profili utente integrati, che insieme ai profili d’uso aggregati sono usati dal motore di raccomandazione per fare i suggerimenti all’utente
    • Struttura del sistema di personalizzazione che integra conoscenza di dominio e profili d’uso Fonte: adattamento da (Dai e Mobasher, 2002) Preparazione dei dati Usage Mining Files del sito e metadati Usage data Conoscenza di dominio Preprocessing dei dati Identificazione delle pageviews, sessioni, utenti e transazioni File delle transazioni utente Derivazione dei profili aggregati Transaction clustering pageview/item clustering Association rule discovery Sequential pattern discovery Profili d’uso
    • Fase di raccomandazione Conoscenza di dominio Profili d’uso aggregati Profilo d’uso individuale Motore di Raccomandazione Profilo utente integrato Sessione attiva Client browser Raccomandazioni Web server Fonte: adattamento da Dai e Mobasher, 2002
    • Tecniche per la personalizzazione
      • Web usage mining
      • Content-based filtering
      • Collaborative filtering
    • Collaborative filtering
      • Invita l’utente a diffondere le sue preferenze e in cambio gli propone degli item che potrebbero essere di suo interesse, in base al principio che utenti con comportamenti simili hanno interessi simili.
      www.amazon.com
    • Limiti del collaborative filtering
      • Può operare solo in base agli acquisti e alle valutazioni degli altri utenti.
      • Quando non sono disponibili le valutazioni degli utenti non può funzionare.
      • “ Cold start”: raggiungimento di una massa critica di utenti per realizzare suggerimenti interessanti.
      • Valutazioni soggettive.
      • Valutazioni difficili da ottenere: gli utenti devono impegnarsi in un compito completamente nuovo.
      • La sparsità dei dati: il numero di persone che valutano gli oggetti è relativamente piccolo rispetto agli item totali.
      • Il problema dei nuovi prodotti gli utenti non valutano volentieri un nuovo item
      • La velocità di lavoro: i sistemi con un grande volume di dati lavorano lentamente
      • Non considera le relazioni sociali, cioè l’esistenza di legami di conoscenza tra chi produce e chi riceve i suggerimenti.
    • Tecniche per la personalizzazione
      • Web usage mining
      • Content-based filtering
      • Collaborative filtering
      • Social data mining
    • Social data mining
      • Si basa sull’idea che si possono ottenere le informazioni necessarie alla costruzione degli user profile dalle tracce di attività sociale presenti in rete.
      • Questi sistemi permettono alle persone di condividere opinioni con i loro amici e conoscenti fisici e virtuali, estraendo e ridistribuendo l’informazione da record di attività sociale.
    • Passaparola
      • Il passaparola (word-of-mouth) è una fonte di informazioni molto credibile
      • Legittimare la qualità di un prodotto attraverso il consiglio diretto di chi l’ha già sperimentata.
      • Le persone suggeriscono un prodotto/messaggio ad amici e conoscenti potenzialmente interessati e questi a loro volta contattano altri utenti interessati al prodotto.
      • Il passaparola crea buzz, cioè una grande quantità di commenti, discussioni, testi e citazioni sia on line che off line.
    • Marketing virale
      • Grazie alle caratteristiche delle nuove tecnologie è diventato capace di coinvolgere molte più persone più velocemente
      • Le persone più influenti della rete (opinion leader) possono parlare bene di prodotto perché
        • Sono state incentivate dalle aziende con premi in denaro o dall’offerta di prodotti
        • Solo perché favorevolmente impressionati da un prodotto.
      • Il passaparola ha una maggiore durata rispetto alle azioni di marketing tradizionali.
    • Passaparola on line
      • Le comunità on line sono luoghi sociali e dinamici, nei quali i suggerimenti di prodotti e la ricerca di informazioni avvengono con estrema facilità.
      • Nei legami tradizionali l’interazione personale richiedeva un grande sforzo in termini di tempo ed energia per mantenere un network eterogeneo e per trasmettere le informazioni.
      • I social network permettono di realizzare questo processo più efficientemente.
        • Si possono mandare messaggi in broadcast al network composto dai propri amici e dagli amici dei propri amici.
    • Processo di social data mining
      • Individuare dei siti web dove gruppi di persone producono contenuti computazionali, documenti, messaggi, testi e link, come parte della loro normale attività di navigazione sul web.
      • Estrarre ed aggregare l’informazione, potenzialmente utile attraverso tecniche computazionali adatte.
      • Presentare le informazioni estratte attraverso un’interfaccia utente che permetta di valutare gli item, selezionarli ed organizzarli in significative raccolte personali.
    • Comunità virtuali
      • I forum (noti anche come message board o bulletin board) sono uno strumento di comunicazione
        • molto flessibile
        • interazione asincronica.
        • catene di argomenti (thread) in uno spazio condiviso.
        • registrazione.
      • I newsgroup sono bacheche elettroniche, con messaggi simili alla posta elettronica. Gli utenti possono leggere liberamente tutti i messaggi e rispondere inviando il proprio.
        • Di solito i newsgroup sono dedicati i specifici argomenti.
      • Le chat sono sistemi che permettono lo scambio di messaggi in tempo reale:
        • Internet Relay Chat (IRC)
        • web chat
        • istant messenger
    • I blog
      • I blog sono siti simili a diari dove gli interventi (post) dell’autore sono presentati in ordine cronologico inverso.
      • I post hanno una struttura tipica:
        • un titolo
        • la data di scrittura
        • il testo personale
        • i link ad altri contenuti,
        • I commenti dei lettori
      • La realizzazione dei blog è resa possibile dai content management system (CMS)
        • permettono di realizzare velocemente un sito con molti link e funzioni avanzate senza conoscere i linguaggi di marcatura per la costruzione dei siti web.
    • I blog
      • Feed RSS (RDF Site Summary/Really Simple Syndication) è un formato per la distribuzione di contenuti sul web
        • permette agli utenti di restare sempre aggiornati sui blog a cui sono interessati
        • Gli utenti fanno una scelta consapevole quando decidono di iscriversi ad un RSS al proprio lettore o aggregatore, dimostrando esplicitamente un interesse nei confronti di quanto presentato nel sito.
        • I siti di social networking creano automaticamente le pagine in XML con i metadati che si riferiscono all’autore, al titolo del post, all’argomento, alla data, ma anche agli interessi e ai contatti dell’autore.
      • I blog mettono in relazione le persone e creano un forte coinvolgimento tra gli utenti.
      • Le imprese possono usare lo strumento del blog per
        • costruire un legame privilegiato con i propri clienti
        • sfruttare le reti di relazione già esistenti intorno ai blog più frequentati ed aggiornati.
    • Social network
      • I social network sono ambienti on line nei quali le persone creano i propri profili e inseriscono i link a quelli delle persone che conoscono, creando un network di connessioni personali.
      • Lo scopo principale dei partecipanti ai siti di social networking è di usare le relazioni nate nel network per farsi degli amici o per connessioni d’affari.
      • I social network sono fonti di aiuto emotivo e finanziario, di informazioni sul lavoro e su altre persone.
    • User profile sociali
      • I profili nei social network permettono di ricostruire una rappresentazione dei più ampi interessi di una persona.
        • Nei social network professionali le categorie riguardano gli studi, le esperienze lavorative precedenti, le competenze professionali e gli interessi lavorativi, etc.
        • Nei social network che mirano a creare relazioni di amicizia sono la musica, i libri, i film, i programmi televisivi, gli sport e il cibo preferito.
        • Una categoria particolare è quella passion/general interest/hobby e interest. Queste passioni sono più generali per una persona, per la concezione di sé e per la propria identificazione.
      • User profile capaci di rispecchiare meglio gli utenti, “person model” per riflettere la loro maggiore generalità
    • User profile generati automaticamente
      • Gli user profile possono essere generati manualmente dagli utenti o automaticamente da un sistema.
      • Gli utenti spesso commettono molti errori nel definire i loro bisogni di informazione:
        • nei motori di ricerca inseriscono termini che sono scarsi predittori dell’informazione che stanno cercando,
      • Tecniche per la generazione degli user profile automaticamente:
        • Categorizzazione dei testi
          • Limite: questi sistemi hanno bisogno di un gran numero di esempi
        • Regole di selezione dell’informazione per rappresentare i bisogni degli utenti
          • Limite: richiedono un notevole sforzo iniziale per la loro definizione
      • Integrazione delle due tecniche:
        • Fase iniziale: user profile basati su regole semplici e facili da definire.
        • Seconda fase: user profile basati sul contenuto sufficientemente ricco
        • Migliorare gli user profile in base ai feedback degli utenti
      (Kuflik e Shoval, 2003)
    • User profile nei blog
    • User profile nei blog
    • Fiducia nei social network
      • Fattori che favoriscono la nascita di un rapporto di fiducia tra gli utenti in un network:
        • I partecipanti ai siti di social networking:
          • sono identificati dai loro nomi reali : i propri conoscenti possono verificare la sincerità del profilo
          • inseriscono i link ai profili dei loro amici: le relazioni personali diventano parte integrante della presentazione di ciascun utente.
        • verifica implicita dell’identità: mostrare pubblicamente le proprie connessioni personali permette di sapere che una persona è connessa in qualche modo con le altre persone collegate al suo profilo. Avere conoscenti e persone di fiducia in comune può essere la base per costruire un rapporto di collaborazione con una persona appena conosciuta sul web.
        • Meccanismo sociale della reputazione per punire gli ingannatori.
    • Analisi dei network
      • La collaborazione nell’ambito di una comunità può essere rappresentata per mezzo di un grafo come una rete di utenti che si scambiano informazioni:
        • gli utenti sono rappresentati come nodi
        • le relazioni collaborative sono rappresentate come legami diretti (archi) tra i nodi
      • Per descrivere la struttura di questi grafi si possono usare modelli analitici dei network, che in una notazione matematica, descrivono la distribuzione dei link tra i nodi dei network:
        • Small Word
        • Free Scale
    • Small World
      • Un network Small World soddisfa due condizioni
        • non deve crescere nel tempo
        • la probabilità di connessione tra due punti qualsiasi del network deve essere uguale per tutti i punti.
      • La distanza tra le persone cresce in proporzione al logaritmo del numero di membri del network, quindi l’aumento del numero dei membri del network influenza la distanza fra loro.
    • Small World
      • Il famoso esperimento di Milgram ha evidenziato in modo empirico il fenomeno “Small World” in una rete sociale.
        • L’esperimento esaminava il numero di persone che un messaggio aveva bisogno di “attraversare” per raggiungere un perfetto sconosciuto.
        • Il numero dei passaggi necessari per raggiungere la destinazione risultò di soli sei passi
        • In generale si stabilì che il numero di passaggi necessari in una catena di contatti umani è più piccola di quanto ci si aspetti.
        • Nei sistemi Small World esistono delle “catene di conoscenze” di lunghezza limitata che connettono una qualsiasi coppia di persone sconosciute
    • Small World In un network Small World ci si aspetta di trovare un gruppo ampiamente unificato, un network in cui sia impossibile nascondersi per quanto è interconnesso.
    • Free scale
      • I network free scale:
        • crescono nel tempo
        • presentano delle preferenze nella connessione tra alcuni nodi con altri (preferential attachment): esistono nodi (hub) che hanno molte connessioni e questo rimane inalterato anche aumentando il numero di nodi nella rete.
    • Social network e modelli
      • Le caratteristiche di questi due modelli permettono di spiegare:
        • il modo in cui i network si organizzano in strutture sociali stabili,
        • la relazione tra potere e struttura sociale,
        • come l’abbandono di alcuni individui non distrugge il network
        • l’efficienza della trasmissione da punto a punto nel network.
      • Descrivere un sistema sociale come:
        • Small World permette di spiegare i ritmi di rapida diffusione dei messaggi.
        • Scale Free indica la presenza di un potere specifico e una distribuzione di potere con influenza informale e pertanto mostrano una maggiore tolleranza quando fronteggiano opposizione e attacchi generali, anche se sono più vulnerabili ad attacchi sistematici e ben diretti
    • InterestMap
      • InterestMap è un network di interconnessioni tra interessi ed identità
      • Esso può essere usato per:
        • la classificazione delle identità,
        • l’associazione di persone in base agli interessi.
        • Il suggerimento di oggetti interessanti
      • La costruzione di InterestMap ha richiesto:
        • Estrazione di 100.000 user profile da due social network
        • Riconoscimento dello stile di delimitazione degli interessi
        • Estrazione di liste segmentate di keyword e key-phrase dal linguaggio naturale degli user profile
        • Inserire gli interessi estratti in grandi ontologie di libri, musica, film, etc. ed una categoria speciale per le passioni.
    • InterestMap
      • Grande ontologia formale con:
        • 21.000 descrittori di interessi
        • 1.000 descrittori di identità riflettere i molti tipi di passioni dei profili.
      • Gli user profile sono stati normalizzati rispetto ai concetti di questa ontologia.
      • I profili normalizzati permettono di apprendere la forza della relazione semantica tra tutti i descrittori di interessi e i descrittori di identità ed usarli per costruire il grafo della mappa.
    • InterestMap
      • La tecnica pointwise mutual information (PMI) ha permesso di ricostruire la forza delle relazioni semantiche tra due descrittori e tra i profili, in modo da rappresentare il grafo della InterestMap
        • dai profili normalizzati l’algoritmo di apprendimento valuta ogni possibile coppia di descrittori nel profilo che possono avere una correlazione e aggiorna le coppie PMI.
        • In seguito al filtraggio dei descrittori, la matrice ha assunto la forma definitiva di 12.000 x 12.000, con 600 descrittori di identità.
      • La mappa ottenuta è caratterizzata da
        • identity hub (nodi descrittori di identità): organizzano la moltitudine di interessi, permettendo di formare cluster intorno alle identità.
        • taste clique (gruppi di gusti): gruppi di utenti che hanno un insieme di gusti in comune. Quando la coesione è forte i taste clique tendono a comportarsi come un solo identity hub.
    • InterestMap
      • Per realizzare le raccomandazioni Il profilo di un nuovo utente viene normalizzato nell’ontologia dei descrittori e ricondotto ai nodi della mappa, attivando un certo pattern nella rete.
        • a partire dai nodi attivati inizialmente, l’attivazione si diffonde verso l’esterno in modo che emergano i nodi vicini più strettamente legati ai nodi iniziali. Il vicinato semantico, definito dai top N nodi descrittori di interessi attivati, rappresenta le raccomandazioni prodotte attraverso la mappa. Un insieme dei nodi del vicinato semantico saranno nodi descrittori di identità, quelli più forti e vicini possono essere considerati come identità riconosciute per il nuovo profilo.
        • I suggerimenti realizzati usando InterestMap sono risultati molto accurati ed intelligibili visivamente perché ogni singolo interesse è inserito in una parte di network più ampia
        • (Liu e Maes, 2005)
    • InterestMap
    • Miglioramenti rispetto al collaborative filtering
      • Non richiede la valutazione esplicita degli oggetti da parte degli utenti.
      • I testi e i commenti disponibili sul web sono già tanti che non si pone il problema di raggiungere la massa critica necessaria per ottenere suggerimenti di buona qualità.
      • User profile più ricchi
      • Recupera le relazioni sociali tra gli utenti considerando i link inseriti negli user profile e può sfruttare la fiducia alla base di queste relazioni.
      • Con la generazione automatica degli user profile supera in parte la soggettività delle valutazioni degli utenti.
    • Limiti del social data mining
      • Rispetto della privacy: i sistemi di social data mining estraggono le preferenze da contesti dove gli utenti non le hanno rilasciate per questo esplicito motivo, perciò è necessario porre attenzione ai problemi di violazione della privacy:
        • la raccolta delle preferenze
        • la distribuzione dei suggerimenti.
          • la possibilità di rilasciare suggerimenti in broadcast, offerta dai sistemi di social data mining, può causare spam
    • Il permission marketing
      • Contatta solo utenti interessati che hanno espressamente acconsentito ad ascoltare quel particolare messaggio.
        • garantisce che il consumatore presti attenzione perché effettivamente interessato
        • l’azienda possa trasmettere il proprio messaggio con calma, ma concisamente, senza paura di essere interrotta dai concorrenti.
      • Tassi di risposta molto alti, senza grandi investimenti economici, solo sfruttando le relazioni sociali preesistenti tra membri delle comunità virtuali.
      • Il permission marketing anticipa i bisogni dell’utente, propone messaggi legati direttamente alla persona e usa argomenti rilevanti .
      • Permission marketing e marketing relazionale: non si può creare una relazione con un cliente senza un suo consenso esplicito
    • Limiti del social data mining
      • Tecniche di analisi del linguaggio naturale nelle community
        • Sistemi sempre più accurati
        • Web Semantico
    • Sistema di analisi del linguaggio naturale Fonte: adattamento da (Glance et al., 2005).
    • Sistema di analisi del linguaggio naturale
      • Il sistema colleziona
        • discussioni sul web riguardanti un particolare dominio
        • le classifica tra argomenti appartenenti al dominio specifico
        • realizza un’analisi dei sentimenti legati alle combinazioni di argomenti
      • Il modello proposto è costituito da:
        • Il sistema del contenuto: scandisce il web alla ricerca dei blog, dei message board e del contenuto Usenet e riempie gli indici di ricerca interni
        • Il sistema di produzione, usando query booleane nei motori di ricerca e un classificatore addestrato su un campione causale di messaggi, recupera il contenuto e lo analizza, ottenendo prima un insieme di messaggi taggati (in base all’argomento ed alla polarità) e poi estraendo i fatti (una tripla di brand, caratteristiche e polarità)
        • l sistema analitico realizza le analisi interattive con le tradizionali tecniche di data mining (il text mining perché i fatti hanno un contenuto testuale).
    • Sistema di analisi del linguaggio naturale
      • Un messaggio viene strutturato come un albero le cui foglie possono essere:
        • la citazione dell’intestazione,
        • la citazione del messaggio precedente,
        • la firma
        • il corpo del testo.
      • I blocchi di testo sono stati segmentati in paragrafi e, ad un livello successivo, i paragrafi sono segmentati ulteriormente fino ad arrivare alle frasi.
      • Le frasi vengono definite come unità testuali più grandi di una parola, ma più piccole di una frase intera.
      • L’estrazione delle frasi-chiave (keyphrase) permette di ridurre la dimensionalità e riassumere i documenti perciò possono essere usate come misura di similarità tra i documenti.
    • Axim Dell
      • Analisi delle discussioni on line sui palmari Dell Axim
        • i commenti riguardanti questo prodotto coprano il 12% delle discussioni sui dispositivi portatili
        • polarità è abbastanza bassa (3,4), cioè i commenti non sono molto favorevoli.
      • Si può adottare sia una metodologia d’analisi top-down che una bottom-up per analizzare i motivi di questa bassa preferenza.
      • Top-down:
        • consultare i messaggi negativi
        • estrarre le keyword e le keyphrase, che descrivono un sentimento negativo nei confronti del prodotto.
        • Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim,
        • i malumori degli utenti sono dovuti:
          • molte schede SD sono incompatibili con Dell Axim
          • sono necessari degli aggiornamenti per far funzionare correttamente Axim con il Personal Internet Explorer.
      • Bottom-up
        • costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente in un forum di dispositivi portatili molto frequentato.
    • Axim Dell
        • Dall’analisi del grafo è emerso che i messaggi sono organizzati in tre diverse discussioni. Analizzando le citazioni si è scoperto che i clienti non sono soddisfatti
          • per la qualità dell’audio
          • per le porte a raggi infrarossi (IR)
      Fonte: adattamento da (Glance et al., 2005).
    • Prospettive future
      • La diffusione del web semantico
        • Integrazione del contenuto nel processo di personalizzazione
      • Diffusione delle comunità virtuali
        • Interazione più facile tra gli utenti
      Sistemi di personalizzazione migliori, più efficaci e meno intrusivi per gli utenti
    • User profile e web semantico (FOAF)
      • Un progetto in cui sono applicati contemporaneamente il semantic web e le relazioni sociali, i due elementi che potranno migliorare significativamente la qualità dei sistemi di personalizzazione, è il Friend-of-a-Friend (FOAF)
      • Nato nel 1999 dal World Wide Web Consortium (W3C) con l'obiettivo di creare un web in cui le pagine, che descrivono i “person profile” e i collegamenti tra esse siano interpretabili dalle macchine.
      • Il maggior risultato raggiunto dal progetto è stato il vocabolario FOAF, un insieme di namespace RDF/XML, per descrivere la sfera sociale di un individuo.
    • User profile e web semantico (FOAF)
      • Il progetto FOAF rappresenta un accordo sui termini chiave
        • usa il linguaggio Ontology Web Language (OWL) perciò permette l’integrazione delle informazioni personali provenienti da diverse fonti
      • I profili FOAF sono collegati tra loro usando la relazione rdfs:seeAlso in modo da formare la cosiddetta FOAF-web.
      • Le tipiche modalità d’uso del vocabolario FOAF sono simili a quelle dell'RSS:
        • il proprietario di un sito crea uno o più file FOAF
        • li carica su un web server
        • rende noti gli URL di tali file, cosicché appositi agenti software possano usare l'informazione contenuta in essi.
      • I profili sono creati e poi condivisi dal singolo utente perciò la creazione di dati FOAF è un processo decentralizzato e sotto il controllo dell'autore
    • User profile e web semantico (FOAF)
      • Recentemente i grandi siti di blogging e social networking generano file FOAF automaticamente a partire dagli user profile immagazzinati nei loro database e li rendono disponibili sul web
        • Swoogle, il più grande aggregatore di documenti semantici, ha 19 grandi siti di blogging nei primi 50 posti.
      • Nei profili FOAF sono disponibili i metadati dell’autore, dei suoi interessi e dei modi per contattarlo, del titolo del post, dell’argomento trattato e della data di pubblicazione.
      • La relazione foaf:knows rappresenta “una persona che conosce un’altra”.
        • non esprime le proprietà e la qualità della relazione
        • è unidirezionale, riflettendo il fatto che le persone a volte dicono di conoscere qualcuno che non necessariamente ricambierebbe l’affermazione.
        • Tali asserzioni auto-riportate permettono di inferire ulteriori informazioni riguardo le relazioni tra gli utenti.
    • Fiducia nei network FOAF
      • La diffusione della fiducia nei social network che adottano gli standard del semantic web può essere:
      • Esplicitamente codificata con il modulo di fiducia FOAF Trust Module
      • Inferita a partire dalle relazioni in un social network da appositi algoritmi
        • Il sito FilmTrusper (Golbeck, 2005) per il suggerimento di film ha usato l’algoritmo TidalTrust che inferisce la fiducia tra due persone nel network a partire dai percorsi che le uniscono e, in base ai risultati ottenuti, genera i suggerimenti.
        • La fiducia nel social network è usata per personalizzare l’esperienza di navigazione dell’utente.
        • L’accuratezza delle valutazioni basate sulla fiducia è risultata migliore rispetto ai sistemi tradizionali che si basano solo sulle valutazioni.
    • Bridging the gap between on-line shoppers and online shopping websites. A user centered analysis
    • “ Bridging the gap between on-line shoppers and online shopping websites. A user centered analysis”
      • Obiettivi:
        • Fare il punto della situazione sui cambiamenti nell’ambito dell’e-commerce:
          • la grande crescita del numero di siti di e-commerce,
          • l’information overload
          • la diffusione dei recommender system.
        • Definire il gap tra l’attuale offerta dei siti web di e-commerce e le richieste (bisogni e desideri) degli utenti che fanno acquisti on line.
        • Fornire informazioni utili per migliorare la struttura dell’applicazioni web ed andare incontro ai bisogni dei clienti.
        • Suggerire miglioramenti da apportare ai recommender system attualmente usati.
        • Mappare i servizi offerti dai siti web
    • Fasi del progetto
      • La ricerca si sviluppa in tre fasi: lo studio pilota, la raccolta dei dati e l’analisi dei dati.
      • Lo studio pilota prevede la selezione di vari siti di e-commerce e la dettagliata analisi di tutte le loro caratteristiche al fine di individuare gli elementi specifici di ciascun sito e quelli comuni a tutti. Le caratteristiche individuate devono permettere la costruzione di una scheda di valutazione da applicare nella successiva fase di analisi di altri siti di e-commerce.
      • La raccolta dei dati consiste
        • nella compilazione della scheda di valutazione per alcune centinaia di siti web
        • nella ricerca di studi (ricerche e pubblicazioni) sull’esigenze dei clienti dei siti di e-commerce.
      • Analisi dei dati raccolti: il confronto tra richieste degli utenti e le caratteristiche attualmente offerte dai siti e la stesura di un report con i risultati ottenuti.
    • Lo studio pilota Analisi dettagliata di tutte le caratteristiche di 30 siti web di e-commerce considerati. Individuazione di sezioni comuni tra i vari siti Analisi delle caratteristiche di 20 siti web riconducibili alle sezioni individuate Sintesi delle caratteristiche nella scheda di valutazione con diversi livelli di astrazione
      • This site is available in different languages with country-specific homepages (United Kingdom, Italy, Germany, Holland, Swiss, Holland, etc) as shown by flags at the end of each page. The structure of website is quite similar for different countries.
      • Vendor’s mission and history is described in detail.
      • Items are divided into categories (Men, Lingerie, Women, Kids, Shoes, Top Trend) and subcategories (for example dresses, jeans, T-shirt, etc.)
      • Items recommendations in homepage.
      • Record recently viewed products by each customer.
      • It is possible filter products by size, colours and price.
      • New products are highlighted in homepage
      • Product description has a main visual part, where the product is dressed in by a model and the other available colours are shown in another picture. The text product description is quite little.
      • Guide to choose size.
      • Basket picture remembers how many items have been added.
      • Prices are expressed in pounds and include taxes.
      • Off line catalogue can be requested.
      • Orders are accepted by on line form, by phone and also by mail.
      • Delivers only in UK and Northern Ireland
      • Delivers only by carrier Parcelnet.
      • Fixed postage and packing price for one or several packages.
      • Payments: debit and credit cards are accepted: Switch/Maestro, Visa Debit/Delta, Visa and MasterCard, but also cheque or postal order. No cash or postal stamps.
      • Product exchanges and returns are allowed within 14 days of receipt.
      • Security - VeriSign SSL certificate
      • Customer service by phone number and e-mail- FAQ
      • Privacy - the site may share personal data with other organizations, they may contact customers for marketing purposes by mail, telephone, e-mail or otherwise. Customers’ information, including shopping habits, can be used for marketing purpose and customer satisfaction analysis. If customers do no longer wish to receive catalogues and/or other information, they have to inform the site.
      On line clothes on line shopping website. Shopping at Bonprix www.bonprix.co.uk
    • Le sezioni
      • Descrizione del venditore
      • Registrazione
      • Il carrello / cestino della spesa
      • I prodotti
    • Le sezioni
      • I siti mettono a disposizioni dei loro utenti molti servizi che facilitano la navigazione e la scelta dei prodotti:
        • Compare service
        • Ordine dei prodotti
        • Il motore di ricerca
        • Lista dei desideri (wish list)
        • Send to a friend / e-mail a friend
        • Suggerimenti
        • Valutazioni dei clienti
        • Nuovi prodotti
        • Prodotti in offerta
        • Prodotti personalizzati
        • Newsletter.
        • E-coupons
        • Club
    • Le sezioni
      • Servizi specifici
        • Guida alla scelta delle taglie
        • Download di driver e di aggiornamenti
        • Remind service
      • Pagamenti
        • Supporto finanziario
        • Carte di credito del negozio
        • I prezzi generalmente sono presentati nella valuta del Paese dell’azienda, ma spesso sono presenti meccanismi che permettono di convertili nelle valute più diffuse al mondo.
    • Le sezioni
      • Consegna
        • Rintracciare il prodotto (track product)
        • Spedizione gratuita
      • Restituzione e rimborsi
      • Customer service
      • Privacy
      • Sicurezza
      • L’analisi dei siti web è stata realizzata dal 26/11/2006 al 05/01/2007, nel periodo dell’anno a cavallo delle festività natalizie, pertanto i siti presentavano sezioni dedicate a:
        • Idee regalo
        • Gift certificates (buoni regalo)
      • A partire da queste sezioni sono stati analizzati altri 20 siti web.
    • La scheda di valutazione
      • La scheda di valutazione presenta tre livelli di astrazione.
      • Il livello più alto corrisponde alle sezioni individuate nella seconda fase.
      • Il secondo livello rappresenta un’ulteriore specificazione del primo livello e riguarda i servizi offerti da ciascun sito nell’ambito delle varie sezioni.
      • L’ultimo livello indica alcuni dei possibili valori che possono assumere le caratteristiche di secondo livello.
    • Successive fasi del progetto
      • Nella seconda fase del progetto saranno rilevati gli attributi della scheda di valutazione per alcune centinaia di siti web e contemporaneamente saranno ricercati studi sul comportamento dei clienti dei siti di e-commerce.
        • Al termine della seconda fase si avrà a disposizione un data set in cui ciascuna riga indicherà la presenza o meno, in un particolare sito web analizzato, degli attributi della scheda di valutazione. Se un particolare attribuito è presente in sito nella colonna corrispondente sarà inserito 1, se invece non è presente sarà inserito 0.
      • Al data set così ottenuto, nella terza ed ultima fase del progetto, potranno essere applicate le tecniche di data mining per estrarre conoscenza riguardo l’attuale organizzazione dell’offerta dei siti di e-commerce.