DMAround 2014 - Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy - Furio Camillo (Università di Bologna)
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

DMAround 2014 - Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy - Furio Camillo (Università di Bologna)

  • 302 views
Uploaded on

 

More in: Business
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
302
On Slideshare
300
From Embeds
2
Number of Embeds
1

Actions

Shares
Downloads
6
Comments
0
Likes
0

Embeds 2

http://www.slideee.com 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Furio Camillo Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy Furio Camillo Alma Mater Studiorum Università di Bologna
  • 2. Furio Camillo
  • 3. Furio Camillo Silver osserva che, a dispetto del sensazionalismo dei media, una previsione accurata richiede un misto di umiltà e lavoro duro; più si dichiara il margine di incertezza più ci si avvicina alla verità, e ricorda che l'elemento umano è ancora essenziale nelle previsioni e nel progresso delle scienze, della tecnologia, dell'economia e della politica. I dati da soli non bastano. "Il mondo ha fatto molta strada dai tempi dell'invenzione della stampa a caratteri mobili. L'informazione non è più una merce rara; ne abbiamo a disposizione più di quanto siamo in grado di gestire. Ma solo una parte relativamente piccola di essa è utile. La percepiamo selettivamente, soggettivamente, e senza molta considerazione per le alterazioni che ciò comporta. Pensiamo di volere informazioni quando in realtà quello che vogliamo davvero è conoscenza. Il segnale è la verità. Il rumore è ciò che ci distrae dalla verità.
  • 4. Furio Camillo Tre mesi fa, una sera… degli esempi • Musica in auto • Dati della sim di MG • Difficoltà del merge • Leggere il rumore: emersione delle infos • Io e il collega X su FB: più o meno di sinistra • Ma…. • Io: amo il tennis, lo sci, tifo Roma • Lui: ama il nuoto, tifa Juve, fuma • Cosa è importante per la vendita di una polizza? Un modello di causa-effetto!!
  • 5. Furio Camillo Una analisi è una valutazione critica, solitamente condotta scomponendo l'oggetto (materiale o intellettuale) nelle sue parti costituenti, per poi descrivere tali parti e le loro relazioni col tutto. Anal-isi (-itico)
  • 6. Furio Camillo Per Cartesio l'analisi e la sintesi effettuano un’operazione di scomposizione e composizione che riguarda la conoscenza: l'analisi permette di identificare gli effetti dipendenti dalle loro cause, mentre la sintesi procede ripercorrendo e restaurando i rapporti identificati dall'analisi: in termini più generali l'analisi consiste nel dividere il problema conoscitivo nelle sue parti componenti più semplici, con l'avvertenza di non procedere troppo con la scomposizione per non perdere il senso complessivo del problema (il che accadrebbe se lo si frantumasse in parti troppo piccole); la sintesi consiste nel rimettere assieme le parti analizzate identificando in questo modo la giusta struttura e composizione del problema da risolvere. In Cartesio l'analisi procede con fini euristici mentre alla sintesi è affidata l'esposizione. Definizione filosofica di «conoscenza analitica»
  • 7. Furio Camillo Per Cartesio l'analisi e la sintesi effettuano una operazione di scomposizione e composizione che riguarda la conoscenza: l'analisi permette di identificare gli effetti dipendenti dalle loro cause, mentre la sintesi procede ripercorrendo e restaurando i rapporti identificati dall'analisi: in termini più generali l'analisi consiste nel dividere il problema conoscitivo nelle sue parti componenti più semplici, con l'avvertenza di non procedere troppo con la scomposizione per non perdere il senso complessivo del problema (il che accadrebbe se lo si frantumasse in parti troppo piccole); la sintesi consiste nel rimettere assieme le parti analizzate identificando in questo modo la giusta struttura e composizione del problema da risolvere. In Cartesio l'analisi procede con fini euristici mentre alla sintesi è affidata l'esposizione. Definizione filosofica di «conoscenza analitica»
  • 8. Furio Camillo • Il report non è «analytics» • Occorre lavorare invece su un modello causale, sistematicamente, esplorando la «complessità» e stimando «funzioni causa-effetto» • Stimare: inferenza causale Analytics e reporting
  • 9. Furio Camillo A no-technical book
  • 10. Furio Camillo
  • 11. Furio Camillo Concorso per il brand di Bologna a partire da uno studio
  • 12. Furio Camillo Il lessico Quali sono i termini più utilizzati dagli stranieri? Nomi Gli stranieri passano «un giorno» a Bologna, ne apprezzano il cibo, il gelato e l’atmosfera amichevole. Il tempo è un fattore chiave.
  • 13. Furio Camillo Il lessico Quali sono i termini più utilizzati dagli stranieri? Gli stranieri scoprono una città differente da come se la erano immaginata. La apprezzano. Verbi
  • 14. Furio Camillo Lo Spazio dei Concetti Le relazioni logico-funzionali Gli stranieri amano il cibo e la gentilezza delle persone. Apprezzano l’accento, ma trovano le strade affollate e sporche. Amano vagare per le strade strette e camminare sotto i portici. c
  • 15. Furio Camillo Lo Spazio dei Concetti Le relazioni logico-funzionali Gli stranieri associano il gelato – delizioso, buono, fresco, artigianale - all’Università o agli studenti universitari. Trovano in Bologna una reale «cultura del gelato» e citano spesso il museo ad esso dedicato. c
  • 16. Furio Camillo Big data • La mole di informazioni disponibili aumenta a ritmo vertiginoso, ma fare previsioni non è affatto semplice: i dati da soli non bastano, la maggior parte è solo interferenza e il rumore è più forte del segnale • … Shakespeare così meraviglioso e tragico… • Nella prima metà della tragedia Cesare riceve ogni tipo di “profezie”, segnali che avrebbero dovuto metterlo in guardia sulla sua incoronazione (“Guardati dalle idi di marzo”). Cesare naturalmente ignora questi segnali, insiste nella convinzione che riguardino la morte di qualcun altro e li interpreta selettivamente. Come sappiamo, Cesare viene infine assassinato. • “Gli uomini possono interpretare le cose a modo loro, interamente contrario al significato delle cose stesse”, ci avverte Shakespeare attraverso la voce di Cicerone, • Più Informazioni, Più Problemi Analitici !!!
  • 17. Furio Camillo Tre casi • Propensione all’acquisto • Credit scoring • Sentiment analysis come mix di analisi «linguistica» e «modelli predittivi»
  • 18. Furio Camillo Big-data e propensione all’acquisto Da una presentazione a un convegno ufficiale
  • 19. Furio Camillo Big-data e propensione all’acquisto
  • 20. Furio Camillo
  • 21. Furio Camillo www.glamonweb.it • The Glam on Web is projected to be a great emotional value site. It is composed by artistic pictures that “describe” the products (or the collections) in materials and in features as a catalog • The navigation in the site of Glam on Web occurs as when one flips through a fashionable magazine composed by images and products descriptions Y 1 1 0 0 PROBLEM: ESTIMATION OF PURCHASE PROPENSITY Purchase made by the visitors (target variable) has been coded with a binary string of values (1=buy and 0=no-buy)
  • 22. Furio Camillo Significant characteristic headwords of every cluster
  • 23. Furio Camillo Modello predittivo =f1/0 Semantic Basket Semantic Basket consists in the extraction of factor scores of a Lexical Correspondence Analysis calculated on the lexical matrix (users)*(1-7 cluster of objects) cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 cluster 6 cluster 7 user1 f11 . . . . . . user2 f21 . . . . . . user3 f32 . . . . user4 f42 . . . . . . . . . . . . . . . . . . .
  • 24. Furio Camillo Fisher DA From/To no buyer buyer Total no buyer 88.50 11.50 100 buyer 57.69 42.31 100 Nearest Neighbour Method (n=20) From/To no buyer buyer Total no buyer 81.10 18.90 100 buyer 30.77 69.23 100 Results are quite good, it is an expected result. Using only the navigation via “concepts” and “visual stimuli” is possible to explain the purchase behaviour In such frame is useful using a non-linear Discriminant Analysis which is capable to capture the nonlinear structures in the data: in fact texts are well represented with chi-square metric. It is known that the factor representation of data which use such metric could be non-linear
  • 25. Furio Camillo
  • 26. Furio Camillo KDA RESULTS KDA hibridizated with NNM (n=20) From/To no buyer buyer Total no buyer 97.00 3.00 100 buyer 26.92 73.08 100 Cauchy kernel (width = 0.01) ATTENTI ALLE SOLUZIONI FACILI e SEMPLICI: DIFFIDATE!!!!!
  • 27. Furio Camillo A proposito di credit scoring Input variables: Cdb, Comportamenti, Survey di satisfaction, opinioni a testo libero Soluzione kernel ma linearizzata con un’approssimazione
  • 28. Furio Camillo
  • 29. Furio Camillo Intangible values have not been exploited in credit risk modeling. More specifically the usage of the information coming from personal values reputation and other intangible assets can be used as loan collateral to distressed borrowers that lack sufficient predictive risk indicators. This is particularly true for specific customer segments: high revenue individuals (affluent segments) not involved in corporations. Lending against intangibles is a recent credit market innovation, and in recent literature we found evidence consistent with the fact that this credit practice has not been a negative mutation in credit markets. A predictive kernel discriminant has been performed, matching marketing data (opinions survey and individual semiometrics) with usual individual credit scoring drivers. Results highlight standard risk indicators express only the high level of affluent segment homogeneity. Marketing data have been crucial in prediction and interpretation of risk factors especially for adjusting bank CRM actions according to individual credit scoring. Data complexity, related to characteristics of affluent segment which is very spread in Italian financial system, has been treated ad hoc: the selection of relevant variables and the model identification have been combined simultaneously via a linear reconstruction of a kernel rule. Uso degli «intangibles» nel credit scoring
  • 30. Furio Camillo
  • 31. Furio Camillo Fantascienza? E la survey? La survey sarà un sistema di aggiustamento dei meccanismi di self-selection: la post-stratificazione Il rumore aumenta all’aumentare della quantità di dati, ma non aumenta neanche proporzionalmente a ciascuna delle dimensioni concettuali presenti nelle info non strutturate
  • 32. Furio Camillo La tesi che Morozov sostiene è: La maggior parte dei servizi che ci vengono offerti online, ad esempio su Gmail, possono rimanere gratuiti esclusivamente vendendo le nostre informazioni personali. Questo è il motivo per cui Google, setacciando le nostre mail, riesce a proporci la pubblicità su misura per noi: del resto è il prezzo da pagare per avere un servizio gratuito. Ecco la prima questione che Morozov pone: gli esseri umani accettano di farsi controllare le mail e le ricerche che fanno in rete pur di avere un servizio gratuito. Quando il futuro sarà ancora più smart di adesso, ovvero quando molti oggetti di uso comune avranno dei sensori che consentiranno una connessione ad internet, il numero dei dati a disposizione del mercato si moltiplicherà. L’esempio che viene fatto è quello dello spazzolino smart, che invierà informazioni su quante volte e come ci laviamo i denti, o ancora delle scarpe smart che informano la casa produttrice sulla modalità con cui si consuma la suola, o, e questo è già il presente, di pannolini per bambini che avvisano i genitori con un tweet quando sono da cambiare. La domanda che si pone a questo punto è: ma dove andranno a finire tutti questi dati? Come verranno utilizzati e da chi? La risposta è molto semplice: verranno venduti ed in cambio di questo noi avremo servizi gratuiti o a basso costo.
  • 33. Furio Camillo
  • 34. Furio Camillo
  • 35. Furio Camillo
  • 36. Furio Camillo
  • 37. Furio Camillo (milioni di euro)
  • 38. Furio Camillo Customer Lifetime Value, satisfaction, happiness e churn • Orizzonte temporale nuovo • Breve poiché la struttura informativa permetterà aggiustamenti repentini delle policies (anche pubbliche) • Lungo, poiché il «trattamento» del cliente- cittadino riguarderà la sua soddisfazione, la sua felicità, il suo livello di «condivisione» del sistema sociale • Nascita di consorzi di consumatori-cittadini che «venderanno» la loro privacy • Quanto valgono i dati su di te?
  • 39. Furio Camillo furio.camillo@unibo.it In time: Everyone Wants to Live Forever
  • 40. Furio Camillo Quanto vale il tuo database? Data Science, Data Mining e Marketing Strategy Furio Camillo Alma Mater Studiorum Università di Bologna DoxaCRM - LAB Questo documento è servito come supporto scritto per una presentazione orale; non è quindi esaustivo senza i commenti che lo hanno accompagnato furio.camillo@unibo.it
  • 41. Furio Camillo Modelli di survival
  • 42. Furio Camillo
  • 43. Furio Camillo