Big Data :
 volume di dati
 livelli variabili di complessità
 generati a velocità differenti
 non elaborabili con tecnologie tradizionali
 Volume: gestione di moltissimi
dati
 Velocità: gestione in tempo
reale
 Varietà: fonti e tipologie diverse
 Veridicità: attendibilità
dei dati raccolti
 Volatilità: tempo di
validità dei dati
 Opportunità di conoscenza
 Capire il mondo reale
 Opportunità commerciali
 Non possiedono un modello prestabilito
 Non sono organizzati
 Possono causare ambiguità
 Sono costituiti da:
› Testo
› Audio
› Video
› Flussi di click
› …
 Raccolta di informazioni
 Classificazione in categorie prestabilite
 Organizzazione secondo uno schema preciso
 Memorizzazione fisica dei dati
 Collezione e
memorizzazione dei dati
 Classificazione per
categorie
 Trasformazione dei dati
 Generazione dei risultati
trovati
 ASCOLTARE
 CAPIRE
 RIELABORARE
 VISUALIZZARE
 Script pattern matching:
› individuare tokens
› stabilire il pattern delle frequenze in un testo
 Set di parole:
› Google books
› Twitter
› Canzoni 1960/2007
› New York Times 1987/2007
 Grado di felicitá:
› Amazon’s Mechanical Turk
http://www.hedonometer.org/index.html
 havg(T) = livello di felicitá della frase T
 havg (wi) = felicitá di ciascuna parola
 Fi = frequenza della i-esima parola
 484 miloni di tweets
 9.8 milioni di persone
 Luglio 2009 e Gennaio 2012
 54 piú larghe cittá della Gran Bretagna
 Parole cercate:
PAURA, GIOIA, RABBIA, TRISTEZZA
PAPER: <<Big Data Analysis of News and Social Media Content>>
Ilias Flaounas, Thomas Lansdall-Welfare, Nello Cristianini
Intelligent Systems Laboratory, University of Bristol
PAPER: <<Temporal patterns of happiness in a global social
network: Hedonometrics and Twitter>>
P. Sheridan Dodds, K. Decker Harris, I. Kloumann,
Center of complex systems of the university of Vermont
http://www.blogsvoices.unimi.it
 AMBIGUITÁ
 SENSI MULTIPLI
 TONO
 SARCASMO
 SOPRANNOMI
 IMMAGINI
«Il Big Data ha avuto un impatto nello
studio del comportamento umano simile
all’introduzione del microscopio o del
telescopio nei campi della biologia e
dell’astronomia»
Zeynep Tufekci
“Big Questions for Social Media Big Data”
 Big Data aiutano a comprendere le dinamiche
del proprio mercato di riferimento
 Per riuscire a trarne il massimo bisogna
sodisfare alcuni requisiti:
› Nuova mentalità
› Leadership
› Team di ricerca
› Gestione dei dati
Big Data + Marketing =
ROI enorme
=
Risultato Operativo
Capitale investito netto operatvo
Attraverso un’analisi dei dati il negozio Target è
riuscito a scoprire che una ragazza era incinta,
ancora prima che lo sapessero i suoi genitori.
Fedelity Card
Informazioni Personali
+
Informazioni di Vendita
Big Data
 152 milioni di conti cliente
Ricerche
+
Acquisti
+
Desideri
Big Data Pubblicità
• Raccolta
• Archiviazione
• Calcolo
• Condivisione
 5 GB gratis
 1.000 GB massimo
 2 GB trasferimento massimo per file
 $ 0.50 per GB
 Online software  Cloud Player
Obiettivi:
 Restringere tempi di attesa
 Predire gli ordini del cliente
« Se non lo vuoi,
te lo regaliamo! »
 15 KM massimo
 2 KG massimo
 Spediti 30/60 minuti dall’ordine
 Ricevuti nella stessa giornata dell’ordine
 Utenti:
› Motore di ricerca
› Chrome
› Gmail
 Aziende:
› Pubblicità con testo
› Pubblicità multimediale
 Traffico
 Meteo
 Sport
 Attività
 Appuntamenti
 Trasporto pubblico
 Attrazioni nelle vicinanze
 Amici nelle vicinanze
 Notizie
 Salvataggio posizione parcheggio
 Conto alla rovescia
 Promemoria pagamento bollette
 Cronologia delle posizioni
 GPS
 Gmail
 Calendario
 Contatti
 Ricerche Google
 Trascinamento
 Caricamento
 URL
 Click su un’immagine Web
 Immagine stessa
 Immagini simili
 Siti web contenenti immagini simili
 80 lingue
 traduzione automatica statistica
 possibilità di cambiare il testo tradotto
scegliendo alternative da un elenco esistente
« Improve this translation »
 immissione vocale
 fotocamera
 scrittura a mano libera
 modalità offline
Reperimento delle informazioni:
È l'insieme delle tecniche utilizzate per gestire
oggetti contenenti informazioni
Permette di:
 Rappresentare
 Memorizzare
 Organizzare
Soddisfa:
 Il bisogno informativo
dell’utente
Gestistione:
 Ricerca di informazioni,
non di dati
 Possibile restituzione di
risultati non pertinenti
È un movimento che promuove il non utilizzo
del modello relazionale.
Identifica:
 un'ampia varietà di tecnologie legate ai database
Risponde:
 al crescente volume di dati memorizzati sulla Rete
 alle modalità e alla frequenza di accesso ai dati
 alla necessitá di performance e di potenza di
calcolo
 Scalabilitá
 Prestazioni migliori
 Schemi dinamici
 Facile da utilizzare
 Flessibile
 È un framework che supporta applicazioni
distribuite con elevato accesso ai dati
 Permette di lavorare con migliaia di nodi
e petabyte di dati
 Yahoo! è il più grande contributore a questo
progetto
 È usato anche da:
AOL, Ebay, Facebook, IBM, ImageShack, Joost,
Linkedin, Spotify, The New York Times e Twitter

Big data

  • 1.
    Big Data : volume di dati  livelli variabili di complessità  generati a velocità differenti  non elaborabili con tecnologie tradizionali
  • 2.
     Volume: gestionedi moltissimi dati  Velocità: gestione in tempo reale  Varietà: fonti e tipologie diverse
  • 3.
     Veridicità: attendibilità deidati raccolti  Volatilità: tempo di validità dei dati
  • 4.
     Opportunità diconoscenza  Capire il mondo reale  Opportunità commerciali
  • 5.
     Non possiedonoun modello prestabilito  Non sono organizzati  Possono causare ambiguità  Sono costituiti da: › Testo › Audio › Video › Flussi di click › …
  • 6.
     Raccolta diinformazioni  Classificazione in categorie prestabilite  Organizzazione secondo uno schema preciso  Memorizzazione fisica dei dati
  • 7.
     Collezione e memorizzazionedei dati  Classificazione per categorie  Trasformazione dei dati  Generazione dei risultati trovati
  • 9.
     ASCOLTARE  CAPIRE RIELABORARE  VISUALIZZARE
  • 10.
     Script patternmatching: › individuare tokens › stabilire il pattern delle frequenze in un testo  Set di parole: › Google books › Twitter › Canzoni 1960/2007 › New York Times 1987/2007  Grado di felicitá: › Amazon’s Mechanical Turk http://www.hedonometer.org/index.html
  • 11.
     havg(T) =livello di felicitá della frase T  havg (wi) = felicitá di ciascuna parola  Fi = frequenza della i-esima parola
  • 12.
     484 milonidi tweets  9.8 milioni di persone  Luglio 2009 e Gennaio 2012  54 piú larghe cittá della Gran Bretagna  Parole cercate: PAURA, GIOIA, RABBIA, TRISTEZZA PAPER: <<Big Data Analysis of News and Social Media Content>> Ilias Flaounas, Thomas Lansdall-Welfare, Nello Cristianini Intelligent Systems Laboratory, University of Bristol
  • 14.
    PAPER: <<Temporal patternsof happiness in a global social network: Hedonometrics and Twitter>> P. Sheridan Dodds, K. Decker Harris, I. Kloumann, Center of complex systems of the university of Vermont
  • 15.
  • 16.
     AMBIGUITÁ  SENSIMULTIPLI  TONO  SARCASMO  SOPRANNOMI  IMMAGINI
  • 17.
    «Il Big Dataha avuto un impatto nello studio del comportamento umano simile all’introduzione del microscopio o del telescopio nei campi della biologia e dell’astronomia» Zeynep Tufekci “Big Questions for Social Media Big Data”
  • 19.
     Big Dataaiutano a comprendere le dinamiche del proprio mercato di riferimento  Per riuscire a trarne il massimo bisogna sodisfare alcuni requisiti: › Nuova mentalità › Leadership › Team di ricerca › Gestione dei dati
  • 20.
    Big Data +Marketing = ROI enorme = Risultato Operativo Capitale investito netto operatvo
  • 21.
    Attraverso un’analisi deidati il negozio Target è riuscito a scoprire che una ragazza era incinta, ancora prima che lo sapessero i suoi genitori. Fedelity Card Informazioni Personali + Informazioni di Vendita Big Data
  • 22.
     152 milionidi conti cliente Ricerche + Acquisti + Desideri Big Data Pubblicità • Raccolta • Archiviazione • Calcolo • Condivisione
  • 23.
     5 GBgratis  1.000 GB massimo  2 GB trasferimento massimo per file  $ 0.50 per GB  Online software  Cloud Player
  • 24.
    Obiettivi:  Restringere tempidi attesa  Predire gli ordini del cliente « Se non lo vuoi, te lo regaliamo! »
  • 25.
     15 KMmassimo  2 KG massimo  Spediti 30/60 minuti dall’ordine  Ricevuti nella stessa giornata dell’ordine
  • 26.
     Utenti: › Motoredi ricerca › Chrome › Gmail  Aziende: › Pubblicità con testo › Pubblicità multimediale
  • 27.
     Traffico  Meteo Sport  Attività  Appuntamenti  Trasporto pubblico  Attrazioni nelle vicinanze  Amici nelle vicinanze  Notizie
  • 28.
     Salvataggio posizioneparcheggio  Conto alla rovescia  Promemoria pagamento bollette  Cronologia delle posizioni  GPS  Gmail  Calendario  Contatti  Ricerche Google
  • 29.
     Trascinamento  Caricamento URL  Click su un’immagine Web  Immagine stessa  Immagini simili  Siti web contenenti immagini simili
  • 30.
     80 lingue traduzione automatica statistica  possibilità di cambiare il testo tradotto scegliendo alternative da un elenco esistente « Improve this translation »
  • 31.
     immissione vocale fotocamera  scrittura a mano libera  modalità offline
  • 32.
    Reperimento delle informazioni: Èl'insieme delle tecniche utilizzate per gestire oggetti contenenti informazioni
  • 33.
    Permette di:  Rappresentare Memorizzare  Organizzare
  • 34.
    Soddisfa:  Il bisognoinformativo dell’utente Gestistione:  Ricerca di informazioni, non di dati  Possibile restituzione di risultati non pertinenti
  • 35.
    È un movimentoche promuove il non utilizzo del modello relazionale. Identifica:  un'ampia varietà di tecnologie legate ai database Risponde:  al crescente volume di dati memorizzati sulla Rete  alle modalità e alla frequenza di accesso ai dati  alla necessitá di performance e di potenza di calcolo
  • 36.
     Scalabilitá  Prestazionimigliori  Schemi dinamici  Facile da utilizzare  Flessibile
  • 37.
     È unframework che supporta applicazioni distribuite con elevato accesso ai dati  Permette di lavorare con migliaia di nodi e petabyte di dati
  • 38.
     Yahoo! èil più grande contributore a questo progetto  È usato anche da: AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter