BIG	
  DATA	
  
Laboratorio	
  ICT	
  
î  Imola Informatica
î  Claudio Bergamini
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
2
La	
  storia	
  in	
  breve	
  
Big	
  Data	
   3
Big	
  Data	
  
John	
  Mashey	
  
1998	
  
Francis	
  Diebold	
  
2000	
  
Weiss	
  &	
  
Indurkhya	
  
1998	
  
Big	
  Data	
  Dynamic	
  	
  
Factor	
  Models	
  for	
  	
  
Macroeconomic	
  	
  
Measurement	
  and	
  	
  
ForecasCng	
  
Three	
  V’s	
  of	
  Big	
  Data	
  	
  
(Volume,	
  Variety	
  and	
  Velocity)	
  
Douglas	
  Laney	
  
2001	
  
La	
  storia	
  in	
  breve	
  
§  hKp://www.forbes.com/sites/gilpress/2013/05/09/a-­‐very-­‐short-­‐history-­‐of-­‐big-­‐data/	
  
§  hKp://economics.sas.upenn.edu/sites/economics.sas.upenn.edu/files/12-­‐037.pdf	
  
§  hKp://staCc.usenix.org/event/usenix99/invited_talks/mashey.pdf	
  
§  hKp://www.amazon.com/PredicCve-­‐Data-­‐Mining-­‐PracCcal-­‐Management/dp/1558604030/
ref=sr_1_4?s=books&ie=UTF8&qid=1422883436&sr=1-­‐4	
  
§  Diebold,	
  F.X.	
  (2000),	
  Big	
  Data	
  Dynamic	
  Factor	
  Models	
  for	
  Macroeconomic	
  Measurement	
  and	
  
ForecasCng,"	
  Discussion	
  Read	
  to	
  the	
  Eighth	
  World	
  Congress	
  of	
  the	
  Econometric	
  Society,	
  
SeaKle,	
  August.	
  
§  hKp://blogs.gartner.com/doug-­‐laney/files/2012/01/ad949-­‐3D-­‐Data-­‐Management-­‐
Controlling-­‐Data-­‐Volume-­‐Velocity-­‐and-­‐Variety.pdf	
  
Big	
  Data	
   4
Big	
  Data	
  
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
5
Le	
  definizioni	
  
Big	
  Data	
   6
Big	
  Data	
  
The basic idea behind the phrase 'Big Data' is that everything we do is
increasingly leaving a digital trace (or data), which we (and others) can
use and analyse.
Big Data therefore refers to our ability to make use of the ever-
increasing volumes of data.
Big	
  data	
  è	
  il	
  termine	
  per	
  descrivere	
  una	
  raccolta	
  di	
  dataset	
  così	
  
grande	
  e	
  complessa	
  da	
  richiedere	
  strumenC	
  differenC	
  da	
  quelli	
  
tradizionali,	
  in	
  tuKe	
  le	
  fasi	
  del	
  processo:	
  	
  
dall'acquisizione,	
  alla	
  curaCon,	
  passando	
  per	
  condivisione,	
  analisi	
  e	
  
visualizzazione.	
  
Big	
  data	
  is	
  high-­‐volume,	
  high-­‐velocity	
  and	
  high-­‐variety	
  informaCon	
  
assets	
  that	
  demand	
  cost-­‐effecCve,	
  innovaCve	
  forms	
  of	
  informaCon	
  
processing	
  for	
  enhanced	
  insight	
  and	
  decision	
  making.	
  
Le	
  definizioni	
  
Big	
  Data	
   7
Big	
  Data	
  
Oxford	
  English	
  Dic<onary	
  (OED)	
  (#1)	
  	
  
“data	
  of	
  a	
  very	
  large	
  size,	
  typically	
  to	
  the	
  extent	
  that	
  its	
  manipulaCon	
  and	
  management	
  present	
  
significant	
  logisCcal	
  challenges.”	
  
Wikipedia	
  (#2)	
  	
  
“an	
  all-­‐encompassing	
  term	
  for	
  any	
  collecCon	
  of	
  data	
  sets	
  so	
  large	
  and	
  complex	
  that	
  it	
  becomes	
  
difficult	
  to	
  process	
  using	
  on-­‐hand	
  data	
  management	
  tools	
  or	
  tradiConal	
  data	
  processing	
  applicaCons.”	
  
McKinsey	
  (#3)	
  
	
  “datasets	
  whose	
  size	
  is	
  beyond	
  the	
  ability	
  of	
  typical	
  database	
  sooware	
  tools	
  to	
  capture,	
  store,	
  
manage,	
  and	
  analyze,”	
  	
  
(#8)	
  The	
  shio	
  (for	
  enterprises)	
  from	
  processing	
  internal	
  data	
  to	
  mining	
  external	
  data.	
  
………..	
  
#(11)	
  The	
  belief	
  that	
  the	
  more	
  data	
  you	
  have	
  the	
  more	
  insights	
  and	
  answers	
  will	
  rise	
  
automaCcally	
  from	
  the	
  pool	
  of	
  ones	
  and	
  zeros.	
  
#(12)	
  A	
  new	
  artude	
  by	
  businesses,	
  non-­‐profits,	
  government	
  agencies,	
  and	
  individuals	
  that	
  
combining	
  data	
  from	
  mulCple	
  sources	
  could	
  lead	
  to	
  beKer	
  decisions.	
  
………..	
  
Fonte	
  	
  hKp://www.forbes.com/sites/gilpress/2014/09/03/12-­‐big-­‐data-­‐definiCons-­‐whats-­‐yours	
  
I	
  pilastri	
  conceNuali:	
  le	
  V	
  
Big	
  Data	
   8
Big	
  Data	
  
Volume	
  	
   	
  La	
  quanCtà	
  di	
  daC	
  è	
  alta	
  
	
  
Variety	
  	
  	
   	
  DifferenC	
  Cpi	
  di	
  daC	
  :	
  
	
  	
  	
   	
   	
  	
  
	
  	
  	
   	
   	
  struKuraC	
  
	
  	
  	
   	
   	
  semi-­‐struKuraC	
  
	
  	
  	
   	
   	
  non	
  struKuraC	
  
	
  
Velocity	
  	
  Il	
  faKore	
  velocità	
  da	
  considerare	
  :	
  
	
   	
  	
   	
  	
  	
   	
  Quanto	
  veloci	
  sono	
  I	
  daC	
  disponibili	
  per	
  l’analisi?	
  	
  
	
   	
  	
   	
  	
  	
   	
  Quanto	
  velocemente	
  li	
  dobbiamo	
  traKare	
  e	
  analizzare?	
  
	
  
Le	
  altre	
  V:	
  	
  Veracity,	
  Variability,	
  Validity,	
  Value,...	
  
I	
  da<	
  
Big	
  Data	
   9
Big	
  Data	
  
StruKuraC	
  	
  	
  ca.	
  20%	
  
•  Schema	
  predefinito	
  imposto	
  dai	
  daC	
  
•  StruKura	
  complessa	
  (Data	
  Model)	
  
•  Spesso	
  memeorizzari	
  in	
  un	
  RDBMS	
  
Numeri	
  123.4,	
  200 	
   	
  Date	
  26-­‐5-­‐1989,	
  15	
  marzo	
  2000	
  
Stringhe	
  	
  “abc”,	
  “Claudio”	
  
Semi	
  struKuraC	
  	
  	
  ca.	
  20%	
  
•  StruKura	
  inconsistente	
  
•  Non	
  si	
  possono	
  memorizzare	
  in	
  righe-­‐colonne	
  di	
  un	
  DB	
  Cpico	
  
•  Le	
  informazioni	
  spesso	
  sono	
  autodescrirve	
  	
  (eCcheKa/valore)	
  
XML,	
  json,	
  log,	
  feeds,	
  BibTex,	
  sensori,	
  ….	
  
I	
  da<	
  
Big	
  Data	
   10
Big	
  Data	
  
Non	
  StruKuraC	
  	
  	
  ca.	
  80%	
  
•  Mancano	
  di	
  struKura	
  
•  Parte	
  dei	
  daC	
  manca	
  di	
  struKura	
  
MulCmedia:	
  	
  video,	
  foto,	
  file	
  audio 	
   	
  Messaggi	
  email	
  
Testo	
  a	
  schema	
  libero 	
   	
   	
  DocumenC	
  da	
  WP	
  
Presentazioni 	
   	
   	
   	
  Report	
  
……..	
  
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi	
  aNuali)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
11
Big	
  Data	
  Landscape:	
  i	
  da<	
  u<lizzabili	
  
Big	
  Data	
   12
Big	
  Data	
  
Activity Data
Attività semplici come ascoltare musica o leggere un libro ora stanno generando dati (o
possono farlo). I player per musica digitali e gli eBook collezionano dati sulle nostre attività.
Gli smart phone collezionano dati sul loro utilizzo e I web browser collezionano dati su cosa
cercate e guardate. Le aziende di Carte di Credito collezionano dati su dove comprate e I
negozi su cosa comprate.
Oggi è difficile immaginare attività che non generano o possono generare dati.
Conversation Data
Le	
  nostre	
  conversazioni	
  oggi	
  vengono	
  registrate	
  in	
  file	
  digitali.	
  TuKo	
  è	
  iniziato	
  con	
  le	
  email	
  ma	
  oggi	
  
gran	
  parte	
  delle	
  nostre	
  conversazioni	
  lasciano	
  una	
  traccia	
  digitale.	
  Basta	
  pensare	
  alle	
  conversazioni	
  
che	
  abbiamo	
  sui	
  siC	
  Social	
  Media	
  come	
  Facebook	
  o	
  TwiKer	
  o	
  ai	
  siC	
  di	
  messaggisCca	
  instant.	
  Anche	
  
molte	
  delle	
  nostre	
  conversazioni	
  telefoniche	
  vengono	
  registrate.	
  	
  
Photo and Video Image Data
Pensate	
  solo	
  alle	
  immagini	
  che	
  fissiamo	
  con	
  gli	
  smart	
  phone	
  e	
  le	
  fotocamere	
  digitali.	
  Vengono	
  far	
  
upload	
  e	
  share	
  di	
  cenCnaia	
  di	
  migliaia	
  di	
  foto	
  e	
  filmaC	
  al	
  secondo	
  solo	
  sui	
  siC	
  Social	
  Media	
  .	
  Il	
  numero	
  
crescete	
  di	
  telecamere	
  CCTV	
  caKurano	
  cenCnaia	
  di	
  ore	
  di	
  immagini	
  video	
  di	
  cui	
  viene	
  faKo	
  l’upload	
  su	
  
YouTube,	
  Vimeo,	
  etc.	
  ogni	
  minuto.	
  	
  
Big	
  Data	
  Landscape:	
  i	
  da<	
  u<lizzabili	
  
Big	
  Data	
   13
Big	
  Data	
  
Sensor Data
Siamo	
  sempre	
  più	
  circondaC	
  da	
  sensori	
  che	
  collezionano	
  e	
  condividono	
  daC.	
  Gli	
  smart	
  phone,	
  ad	
  
esempio	
  contengono	
  il	
  Global	
  PosiConing	
  Sensor	
  che	
  traccia	
  esaKamente	
  la	
  vostra	
  posizione	
  ad	
  ogni	
  
secondo	
  della	
  giornata,	
  e	
  includono	
  un	
  Accelermetro	
  che	
  traccia	
  velocità	
  e	
  direzione	
  in	
  cui	
  vi	
  state	
  
muovendoL’inclusione	
  di	
  sensoriè	
  	
  in	
  aumento	
  all’interno	
  di	
  disposiCvi	
  e	
  prodor	
  di	
  ogni	
  genere.	
  
	
  	
  
The Internet of Things Data
Oggi	
  abbiamo	
  Smart	
  TV	
  che	
  hanno	
  la	
  capacità	
  di	
  collezionare	
  e	
  processare	
  daC,	
  abbiamo	
  Smart	
  
watch,	
  Smart	
  meteo,	
  e	
  Smart	
  alarms.	
  L’Internet	
  of	
  Things,	
  o	
  Internet	
  of	
  Everything	
  conneKe	
  quesC	
  
disposiCvi	
  e	
  permeKe	
  di	
  elaborare	
  i	
  daC	
  così	
  che,	
  ad	
  esempio	
  i	
  sensori	
  del	
  traffico	
  sarebbero	
  in	
  
grado	
  di	
  mandare	
  al	
  vostro	
  orologio	
  una	
  sveglia	
  anCcipata	
  perchè	
  c’è	
  la	
  srtada	
  che	
  fate	
  di	
  solito	
  con	
  
un	
  incidente,	
  e	
  fareste	
  tardi	
  al	
  vostro	
  appuntamento	
  delle	
  9.00.	
  
Big	
  Data	
  Landscape:	
  gli	
  u<lizzi	
  aNuali	
  
Big	
  Data	
   14
Big	
  Data	
  
Capire	
  meglio	
  clien<	
  e	
  prospect:	
  	
  	
  
Aggiungendo	
  ai	
  tradizionali	
  dataset	
  quelli	
  di	
  social	
  
media,	
  browser,	
  text	
  analyCcs	
  e	
  sensor	
  data	
  per	
  avere	
  
un	
  profilo	
  più	
  completo.	
  	
  
L’obiervo	
  in	
  molC	
  casi	
  è	
  di	
  creare	
  modelli	
  “predicCve”.	
  	
  
	
  
UClizzando	
  i	
  Big	
  Data,	
  le	
  Telecom	
  cercano	
  di	
  prevedere	
  
il	
  “customer	
  churn”;	
  i	
  commercianC	
  che	
  prodor	
  
venderanno,	
  le	
  Assicurazioni	
  la	
  richiosità	
  dello	
  sCle	
  di	
  
guida	
  dei	
  clienC.
Big	
  Data	
  Landscape:	
  gli	
  u<lizzi	
  aNuali	
  
Big	
  Data	
   15
Big	
  Data	
  
Capire	
  meglio	
  e	
  oRmizzare	
  i	
  Processi	
  Business:	
  	
  	
  
I	
  Big	
  Data	
  vengono	
  sempre	
  più	
  usaC	
  per	
  ormizzare	
  i	
  
processi.	
  I	
  Retailers	
  possono	
  ormizzare	
  i	
  loro	
  stock	
  sulla	
  
base	
  di	
  modelli	
  predirvi	
  alimentaC	
  con	
  daC	
  dai	
  social	
  
media,	
  trend	
  di	
  web	
  search	
  e	
  previsioni	
  del	
  tempo.	
  
Ormizzazioni	
  della	
  supply	
  chain	
  e	
  ormizzazioni	
  del	
  
delivery	
  route	
  sfruKano	
  daC	
  GPS,	
  del	
  traffico,	
  e	
  di	
  
sensori	
  a	
  radio	
  frequenza.	
  
Big	
  Data	
  Landscape:	
  gli	
  u<lizzi	
  aNuali	
  
Big	
  Data	
   16
Big	
  Data	
  
Migliorare	
  Sicurezza	
  e	
  Law	
  Enforcement:	
  	
  	
  
I	
  Servizi	
  di	
  Sicurezza	
  uClizzano	
  i	
  Big	
  Data	
  -­‐analyCcs	
  
e	
  non-­‐	
  per	
  cercare	
  di	
  comprendere	
  i	
  piani	
  
terrorisCci	
  e	
  inteceKare	
  i	
  “cyber	
  aKacks”.	
  Le	
  Forze	
  
di	
  Polizia	
  uClizzano	
  i	
  tools	
  Big	
  Data	
  nella	
  caccia	
  ai	
  
criminali	
  e	
  per	
  mappare	
  e	
  prevenire	
  le	
  arvità	
  
criminali.	
  
I	
  Big	
  Data	
  analyCcs	
  sono	
  una	
  delle	
  parC	
  
fondamentali	
  nella	
  idenCficazione	
  delle	
  
transazioni	
  fraudolente.	
  
Big	
  Data	
  Landscape:	
  gli	
  u<lizzi	
  aNuali	
  
Big	
  Data	
   17
Big	
  Data	
  
Migliorare	
  la	
  salute:	
  	
  	
  
DaC	
  da	
  smart	
  watches	
  e	
  “wearable	
  devices”	
  per	
  
controllare	
  lo	
  stato	
  di	
  salute.	
  Big	
  data	
  analyCcs	
  per	
  
monitorare	
  e	
  predire	
  epidemie.	
  DaC	
  dai	
  Social	
  Media	
  per	
  
fornire	
  comunicazione	
  tempesCva.
Sport	
  Performance:	
  
Video	
  analyCcs	
  per	
  analizzare	
  tecnica	
  individuale	
  e	
  di	
  
squadra,	
  sensor	
  technology	
  inclusa	
  negli	
  aKrezzi	
  sporCvi,	
  
smart	
  e	
  wearable	
  technology	
  per	
  nutrizione,	
  sonno	
  	
  e	
  altri	
  
parametri	
  fisici,	
  conversazioni	
  sui	
  Social	
  Media	
  per	
  il	
  
benessere	
  emozionale.	
  Telemetria	
  etc.	
  nell’AutomoCve.	
  
Big	
  Data	
  Landscape:	
  gli	
  u<lizzi	
  aNuali	
  
Big	
  Data	
   18
Big	
  Data	
  
Ges<one	
  di	
  CiNà	
  e	
  Nazioni:	
  	
  	
  
Ormizzazione	
  del	
  traffico	
  sulla	
  base	
  di	
  informazioni	
  real	
  
Cme,	
  daC	
  da	
  Social	
  Media	
  e	
  daC	
  Meteo.	
  Proger	
  Smart	
  
CiCes,	
  in	
  cui	
  infrastruKure	
  di	
  trasporto	
  e	
  Processi	
  sono	
  visC	
  
insieme.	
  Autobus	
  che	
  aKendono	
  treni	
  in	
  ritardo	
  e	
  semafori	
  
che	
  minimizzano	
  le	
  code.	
  
Finance	
  e	
  Big	
  Data	
  
Big	
  Data	
   19
Big	
  Data	
  
Fonte: insideBIGDATA Guide to Big Data for Finance - http://insidebigdata.com/2014/09/22/insidebigdata-guide-big-data-finance/
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
20
Big	
  Data	
  vs	
  Datawarehouse	
  Analy<cs	
  
Big	
  Data	
   21
Big	
  Data	
  
Source:	
  Wikibon	
  2011	
  
Il modo più semplice di
descrivere una
Architettura Big Data
1. Data Source Layer
3. Data Processing /
Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Data sources layer
E’ il Layer in cui arrivano i dati dentro una
Organizzazione.
Può contenere dati di vendita, dei clienti, i
feedback, i canali Social Media, i dati del
marketing, le email e tutto ciò che serve a
monitorare e misurare le operations.
Occorre capire che dati sono disponibili o
possono esserlo e misurare l’utilità dei dati
rispetto alle domande a cui si vogliono
cercare risposte. Può esserci già tutto ciò
che serve, o può essere necessario creare
o trovare nuove sorgenti dati.
In questa fase Metadata Extraction, Entity
Extraction, etc. fanno la differenza dispetto
agli Analytics tradizionali.
1. Data Source Layer
3. Data Processing /
Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Data storage layer
Qui vivono i Big Data, una volta acquisiti dal
Layer 1.
Data l’esplosione dei dati generati e da
gestire, sono stati sviluppati tool per
permettere o agevolare questa attività.
Sono sistemi di memorizzazione,
organizzazione e categorizzazione/
classificazione.
In questo Layer troviamo quindi File
Systems come Hadoop Dystributed File
System e database come HBase,
DynamoDB, MongoDB, Cassandra ed altri,
tutti di tipo NoSQL.
1. Data Source Layer
3. Data Processing /
Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Data processing/ analysis
layer
Per trovare qualcosa di utile nei dati
memorizzati, vanno processati e
analizzati.
I processi possono essere batch, query, a
bassa latenza o Real Time.
I dati possono venire selezionati con tool
come MapReduce per poi elaborarli con
tool di Data Analytics.
Oppure si useranno tool come PIG o
HIVE per fare query sui dati, o strumenti
per l’Automated Pattern Recognition.
Oppure Text Analytics, Sentiment
Analysis, …..
1. Data Source Layer
3. Data Processing /
Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Data	
  output	
  layer	
  
	
  
Qui	
  le	
  informazioni	
  create	
  aKraverso	
  le	
  
analisi	
  passano	
  a	
  chi	
  le	
  deve	
  uClizzare.	
  
La	
  comunicazione	
  chiara	
  e	
  concisa	
  è	
  
essenziale	
  sopraKuKo	
  se	
  i	
  decision-­‐maker	
  
non	
  hanno	
  un	
  background	
  in	
  staCsCca.	
  
Gli	
  output	
  possono	
  essere	
  reports,	
  grafici,	
  
immagini	
  o	
  racommandazioni.	
  	
  
1. Data Source Layer
3. Data Processing /
Analysis Layer
2. Data Storage Layer
4. Data Output Layer
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Big	
  Data:	
  Stack	
  Tecnologico	
  in	
  estrema	
  sintesi	
  
Big	
  Data	
   27
Big	
  Data	
  
Big	
  Data:	
  Stack	
  Tecnologico	
  esempio	
  
Big	
  Data	
   28
Big	
  Data	
  
Big	
  Data:	
  Stack	
  Tecnologico	
  esempio	
  
Big	
  Data	
   29
Big	
  Data	
  
Big	
  Data:	
  Hadoop	
  in	
  estrema	
  sintesi	
  
Big	
  Data	
   30
Big	
  Data	
  
Hadoop è un framework per il calcolo parallelo di dataset molto grandi (petabyte)
su un alto numero di nodi composti da server “standard”.
Serve a realizzare un sistema distribuito in larga scala, senza preoccuparsi dei problemi
legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo
dei fallimenti dei nodi, gestione della comunicazione tra i nodi.
E’ pensato per l’elaborazione batch, e adotta il modello computazionale Map Reduce
derivato dalle funzioni map() e reduce() del LISP.
Usato da oltre 200 Major di Internet e Enterprise.
Big	
  Data:	
  Hadoop	
  
Big	
  Data	
   31
Big	
  Data	
  
Hadoop Map Reduce
HDFS: Hadoop Distributed File System
YARN: gestione delle risorse per il
calcolo distribuito
Common: funzioni di supporto
YARN
hadoop
MapReduce (Distributed Processing)
HDFS (Distributed Storage)
Common
Big	
  Data:	
  Hadoop	
  
Big	
  Data	
   32
Big	
  Data	
  
All’ecosistema Hadoop appartengono anche, ma non solo:
Zookeper: coordinamento
HCatalog: gestione Tabelle e Schemi
PIG: flusso dati
HIVE: SQL
Hbase: database NoSQL colonnare
Flume, Sqoop, Tika: integrazione ed estrazione dati e metadati
Ambari: management cluster di Hadoop
Storm: elaborazioni Real Time
Mahout: libreria per il Machine Learning
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
33
Le	
  discipline	
  coinvolte	
  
Big	
  Data	
   34
Big	
  Data	
  
Sui Big Data convergono diverse discipline, tra le altre:
Visualizzazione	
  
Database	
  
StaCsCca	
  
Sviluppo	
  algoritmico	
  
PaKern	
  RecogniCon	
  
Intelligenza	
  ArCficiale	
  
SemanCca	
  
Skill	
  profile	
  
Big	
  Data	
   35
Big	
  Data	
  
Sorgen<	
  Da<	
  
Files,	
  DBMS,	
  Text,	
  Info	
  Providers,	
  OLTP	
  
Data	
  Warehouses	
  –	
  Data	
  Marts	
  
OLAP,	
  MDA	
  
Business	
  Intelligence	
  
Analisi	
  staCsCca,	
  Query	
  e	
  ReporCng	
  
Data	
  Mining	
  
Business	
  Discovery	
  
Presentazione	
  Da<	
  
Tecniche	
  di	
  visualizzazione	
  
Decision	
  Making	
  
UtenC	
  finali	
  
Business	
  Analysts	
  
Data	
  Analysts	
  
DB	
  Administrator	
  
Il	
  mi<co	
  Data	
  Scien<st	
  
Big	
  Data	
   36
Big	
  Data	
  
hKp://www.skillprofiles.eu/stable/g3/v2/profiles/WSP-­‐G3-­‐024.pdf	
  
	
  
Figura	
  professionale	
  a	
  cui	
  fanno	
  capo	
  le	
  
arvità	
  di	
  raccolta,	
  analisi,	
  elaborazione,	
  
interpretazione,	
  diffusione	
  e	
  visualizzazione	
  
dei	
  daC	
  quanCtaCvi	
  o	
  quanCficabili	
  
dell’organizzazione	
  a	
  fini	
  analiCci,	
  predirvi	
  o	
  
strategici.	
   	
  	
  
	
  
Responsabile	
  (Accountable)	
  	
  •	
  Scelta	
  e	
  acquisizione	
  dei	
  daC.	
  	
  •	
  Analisi	
  di	
  daC	
  in	
  forma	
  tabellare	
  o	
  grafica.	
  	
  
•	
  Interpretazione	
  delle	
  analisi	
  in	
  forma	
  testuale	
  e	
  grafica.	
  	
  
•	
  Report	
  contenenC	
  analisi	
  e	
  indicazioni	
  che	
  si	
  possono	
  trarre.	
  	
  
•	
  Arvità	
  di	
  elicitazione	
  e	
  raccolta	
  delle	
  esigenze.	
  	
  
•	
  ProgeKare	
  e	
  approntare	
  analisi	
  di	
  daC	
  adeguate	
  al	
  soddisfacimento	
  delle	
  esigenze.	
  	
  
•	
  IdenCficazione	
  i	
  daC	
  significaCvi	
  e	
  le	
  loro	
  fonC	
  aziendali	
  o	
  esterne.	
  	
  
•	
  Arvità	
  di	
  collezione	
  dei	
  daC.	
  	
  
•	
  Validare	
  (data	
  quality)	
  i	
  daC.	
  	
  
•	
  Analizzare	
  i	
  daC.	
  	
  
•	
  Costruire	
  modelli	
  quanCtaCvi	
  e	
  qualitaCvi.	
  	
  
•	
  Costruire	
  modelli	
  predirvi.	
  	
  
•	
  Interpretare	
  analisi	
  e	
  modelli.	
  	
  
•	
  Comunicare	
  in	
  forma	
  opportuna	
  (grafica	
  e/o	
  testuale)	
  le	
  indicazioni	
  emerse	
  dalle	
  analisi	
  e	
  dai	
  modelli.	
  	
  
•	
  Collaborare	
  con	
  il	
  business	
  e	
  indirizzare	
  le	
  loro	
  esigenze.	
  	
  
•	
  Collaborare	
  con	
  l’IT	
  per	
  definire	
  le	
  modalità	
  di	
  raccolta	
  e	
  gesCone	
  dei	
  daC.	
  	
  
•	
  Collaborare	
  con	
  il	
  controller	
  per	
  sviluppare	
  analisi	
  e	
  report	
  a	
  supporto	
  dei	
  processi	
  decisionali.	
  	
  
Lo	
  skill	
  set	
  
Big	
  Data	
   37
Big	
  Data	
  
Skill	
  Anali<ci	
  
Determinare	
  che	
  daC	
  raccogliere	
  
Come	
  analizzarli	
  (paKern	
  e	
  link)	
  
Crea<vità	
  
Trovare	
  nuovi	
  modi	
  di	
  
raccogliere,	
  analizzare,	
  
interpretare	
  i	
  daC	
  
Matema<ca	
  e	
  sta<s<ca	
  
Padronanza	
  dei	
  numeri	
  e	
  del	
  
loro	
  traKamento	
  
Computer	
  science	
  
Padronanza	
  algoritmica	
  
Padronanza	
  tool:	
  Hadoop,	
  Python,	
  Pig,	
  etc.	
  
Business	
  skill	
  
Capire	
  gli	
  obiervi	
  business	
  e	
  i	
  bisogni	
  di	
  
informazioni	
  
Capacità	
  di	
  comunicare	
  
Saper	
  presentare	
  i	
  daC	
  sia	
  in	
  forma	
  
scriKa	
  che	
  verbale,	
  per	
  assicurarsi	
  che	
  
non	
  vengano	
  fraintesi	
  o	
  trascuraC	
  
Elaborato	
  a	
  parCre	
  da	
  Bernard	
  Marr,	
  “Big	
  Data”	
  
Agenda	
  
›  La	
  storia	
  in	
  breve	
  
›  Le	
  definizioni	
  
	
  
›  	
  Big	
  Data	
  Landscape	
  (u<lizzi)	
  
›  Stack	
  Tecnologico	
  
	
  
›  Skill	
  set	
  
	
  
›  Conclusione	
  
	
  
38
Conclusione	
  
Big	
  Data	
   39
Big	
  Data	
  
Domande ?
Dubbi ?
Curiosità ?
cbergamini@imolinfo.it

_ABIlab-BigData-Finale

  • 1.
    BIG  DATA   Laboratorio  ICT   î  Imola Informatica î  Claudio Bergamini
  • 2.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     2
  • 3.
    La  storia  in  breve   Big  Data   3 Big  Data   John  Mashey   1998   Francis  Diebold   2000   Weiss  &   Indurkhya   1998   Big  Data  Dynamic     Factor  Models  for     Macroeconomic     Measurement  and     ForecasCng   Three  V’s  of  Big  Data     (Volume,  Variety  and  Velocity)   Douglas  Laney   2001  
  • 4.
    La  storia  in  breve   §  hKp://www.forbes.com/sites/gilpress/2013/05/09/a-­‐very-­‐short-­‐history-­‐of-­‐big-­‐data/   §  hKp://economics.sas.upenn.edu/sites/economics.sas.upenn.edu/files/12-­‐037.pdf   §  hKp://staCc.usenix.org/event/usenix99/invited_talks/mashey.pdf   §  hKp://www.amazon.com/PredicCve-­‐Data-­‐Mining-­‐PracCcal-­‐Management/dp/1558604030/ ref=sr_1_4?s=books&ie=UTF8&qid=1422883436&sr=1-­‐4   §  Diebold,  F.X.  (2000),  Big  Data  Dynamic  Factor  Models  for  Macroeconomic  Measurement  and   ForecasCng,"  Discussion  Read  to  the  Eighth  World  Congress  of  the  Econometric  Society,   SeaKle,  August.   §  hKp://blogs.gartner.com/doug-­‐laney/files/2012/01/ad949-­‐3D-­‐Data-­‐Management-­‐ Controlling-­‐Data-­‐Volume-­‐Velocity-­‐and-­‐Variety.pdf   Big  Data   4 Big  Data  
  • 5.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     5
  • 6.
    Le  definizioni   Big  Data   6 Big  Data   The basic idea behind the phrase 'Big Data' is that everything we do is increasingly leaving a digital trace (or data), which we (and others) can use and analyse. Big Data therefore refers to our ability to make use of the ever- increasing volumes of data. Big  data  è  il  termine  per  descrivere  una  raccolta  di  dataset  così   grande  e  complessa  da  richiedere  strumenC  differenC  da  quelli   tradizionali,  in  tuKe  le  fasi  del  processo:     dall'acquisizione,  alla  curaCon,  passando  per  condivisione,  analisi  e   visualizzazione.   Big  data  is  high-­‐volume,  high-­‐velocity  and  high-­‐variety  informaCon   assets  that  demand  cost-­‐effecCve,  innovaCve  forms  of  informaCon   processing  for  enhanced  insight  and  decision  making.  
  • 7.
    Le  definizioni   Big  Data   7 Big  Data   Oxford  English  Dic<onary  (OED)  (#1)     “data  of  a  very  large  size,  typically  to  the  extent  that  its  manipulaCon  and  management  present   significant  logisCcal  challenges.”   Wikipedia  (#2)     “an  all-­‐encompassing  term  for  any  collecCon  of  data  sets  so  large  and  complex  that  it  becomes   difficult  to  process  using  on-­‐hand  data  management  tools  or  tradiConal  data  processing  applicaCons.”   McKinsey  (#3)    “datasets  whose  size  is  beyond  the  ability  of  typical  database  sooware  tools  to  capture,  store,   manage,  and  analyze,”     (#8)  The  shio  (for  enterprises)  from  processing  internal  data  to  mining  external  data.   ………..   #(11)  The  belief  that  the  more  data  you  have  the  more  insights  and  answers  will  rise   automaCcally  from  the  pool  of  ones  and  zeros.   #(12)  A  new  artude  by  businesses,  non-­‐profits,  government  agencies,  and  individuals  that   combining  data  from  mulCple  sources  could  lead  to  beKer  decisions.   ………..   Fonte    hKp://www.forbes.com/sites/gilpress/2014/09/03/12-­‐big-­‐data-­‐definiCons-­‐whats-­‐yours  
  • 8.
    I  pilastri  conceNuali:  le  V   Big  Data   8 Big  Data   Volume      La  quanCtà  di  daC  è  alta     Variety        DifferenC  Cpi  di  daC  :                        struKuraC            semi-­‐struKuraC            non  struKuraC     Velocity    Il  faKore  velocità  da  considerare  :                Quanto  veloci  sono  I  daC  disponibili  per  l’analisi?                  Quanto  velocemente  li  dobbiamo  traKare  e  analizzare?     Le  altre  V:    Veracity,  Variability,  Validity,  Value,...  
  • 9.
    I  da<   Big  Data   9 Big  Data   StruKuraC      ca.  20%   •  Schema  predefinito  imposto  dai  daC   •  StruKura  complessa  (Data  Model)   •  Spesso  memeorizzari  in  un  RDBMS   Numeri  123.4,  200    Date  26-­‐5-­‐1989,  15  marzo  2000   Stringhe    “abc”,  “Claudio”   Semi  struKuraC      ca.  20%   •  StruKura  inconsistente   •  Non  si  possono  memorizzare  in  righe-­‐colonne  di  un  DB  Cpico   •  Le  informazioni  spesso  sono  autodescrirve    (eCcheKa/valore)   XML,  json,  log,  feeds,  BibTex,  sensori,  ….  
  • 10.
    I  da<   Big  Data   10 Big  Data   Non  StruKuraC      ca.  80%   •  Mancano  di  struKura   •  Parte  dei  daC  manca  di  struKura   MulCmedia:    video,  foto,  file  audio    Messaggi  email   Testo  a  schema  libero      DocumenC  da  WP   Presentazioni        Report   ……..  
  • 11.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi  aNuali)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     11
  • 12.
    Big  Data  Landscape:  i  da<  u<lizzabili   Big  Data   12 Big  Data   Activity Data Attività semplici come ascoltare musica o leggere un libro ora stanno generando dati (o possono farlo). I player per musica digitali e gli eBook collezionano dati sulle nostre attività. Gli smart phone collezionano dati sul loro utilizzo e I web browser collezionano dati su cosa cercate e guardate. Le aziende di Carte di Credito collezionano dati su dove comprate e I negozi su cosa comprate. Oggi è difficile immaginare attività che non generano o possono generare dati. Conversation Data Le  nostre  conversazioni  oggi  vengono  registrate  in  file  digitali.  TuKo  è  iniziato  con  le  email  ma  oggi   gran  parte  delle  nostre  conversazioni  lasciano  una  traccia  digitale.  Basta  pensare  alle  conversazioni   che  abbiamo  sui  siC  Social  Media  come  Facebook  o  TwiKer  o  ai  siC  di  messaggisCca  instant.  Anche   molte  delle  nostre  conversazioni  telefoniche  vengono  registrate.     Photo and Video Image Data Pensate  solo  alle  immagini  che  fissiamo  con  gli  smart  phone  e  le  fotocamere  digitali.  Vengono  far   upload  e  share  di  cenCnaia  di  migliaia  di  foto  e  filmaC  al  secondo  solo  sui  siC  Social  Media  .  Il  numero   crescete  di  telecamere  CCTV  caKurano  cenCnaia  di  ore  di  immagini  video  di  cui  viene  faKo  l’upload  su   YouTube,  Vimeo,  etc.  ogni  minuto.    
  • 13.
    Big  Data  Landscape:  i  da<  u<lizzabili   Big  Data   13 Big  Data   Sensor Data Siamo  sempre  più  circondaC  da  sensori  che  collezionano  e  condividono  daC.  Gli  smart  phone,  ad   esempio  contengono  il  Global  PosiConing  Sensor  che  traccia  esaKamente  la  vostra  posizione  ad  ogni   secondo  della  giornata,  e  includono  un  Accelermetro  che  traccia  velocità  e  direzione  in  cui  vi  state   muovendoL’inclusione  di  sensoriè    in  aumento  all’interno  di  disposiCvi  e  prodor  di  ogni  genere.       The Internet of Things Data Oggi  abbiamo  Smart  TV  che  hanno  la  capacità  di  collezionare  e  processare  daC,  abbiamo  Smart   watch,  Smart  meteo,  e  Smart  alarms.  L’Internet  of  Things,  o  Internet  of  Everything  conneKe  quesC   disposiCvi  e  permeKe  di  elaborare  i  daC  così  che,  ad  esempio  i  sensori  del  traffico  sarebbero  in   grado  di  mandare  al  vostro  orologio  una  sveglia  anCcipata  perchè  c’è  la  srtada  che  fate  di  solito  con   un  incidente,  e  fareste  tardi  al  vostro  appuntamento  delle  9.00.  
  • 14.
    Big  Data  Landscape:  gli  u<lizzi  aNuali   Big  Data   14 Big  Data   Capire  meglio  clien<  e  prospect:       Aggiungendo  ai  tradizionali  dataset  quelli  di  social   media,  browser,  text  analyCcs  e  sensor  data  per  avere   un  profilo  più  completo.     L’obiervo  in  molC  casi  è  di  creare  modelli  “predicCve”.       UClizzando  i  Big  Data,  le  Telecom  cercano  di  prevedere   il  “customer  churn”;  i  commercianC  che  prodor   venderanno,  le  Assicurazioni  la  richiosità  dello  sCle  di   guida  dei  clienC.
  • 15.
    Big  Data  Landscape:  gli  u<lizzi  aNuali   Big  Data   15 Big  Data   Capire  meglio  e  oRmizzare  i  Processi  Business:       I  Big  Data  vengono  sempre  più  usaC  per  ormizzare  i   processi.  I  Retailers  possono  ormizzare  i  loro  stock  sulla   base  di  modelli  predirvi  alimentaC  con  daC  dai  social   media,  trend  di  web  search  e  previsioni  del  tempo.   Ormizzazioni  della  supply  chain  e  ormizzazioni  del   delivery  route  sfruKano  daC  GPS,  del  traffico,  e  di   sensori  a  radio  frequenza.  
  • 16.
    Big  Data  Landscape:  gli  u<lizzi  aNuali   Big  Data   16 Big  Data   Migliorare  Sicurezza  e  Law  Enforcement:       I  Servizi  di  Sicurezza  uClizzano  i  Big  Data  -­‐analyCcs   e  non-­‐  per  cercare  di  comprendere  i  piani   terrorisCci  e  inteceKare  i  “cyber  aKacks”.  Le  Forze   di  Polizia  uClizzano  i  tools  Big  Data  nella  caccia  ai   criminali  e  per  mappare  e  prevenire  le  arvità   criminali.   I  Big  Data  analyCcs  sono  una  delle  parC   fondamentali  nella  idenCficazione  delle   transazioni  fraudolente.  
  • 17.
    Big  Data  Landscape:  gli  u<lizzi  aNuali   Big  Data   17 Big  Data   Migliorare  la  salute:       DaC  da  smart  watches  e  “wearable  devices”  per   controllare  lo  stato  di  salute.  Big  data  analyCcs  per   monitorare  e  predire  epidemie.  DaC  dai  Social  Media  per   fornire  comunicazione  tempesCva. Sport  Performance:   Video  analyCcs  per  analizzare  tecnica  individuale  e  di   squadra,  sensor  technology  inclusa  negli  aKrezzi  sporCvi,   smart  e  wearable  technology  per  nutrizione,  sonno    e  altri   parametri  fisici,  conversazioni  sui  Social  Media  per  il   benessere  emozionale.  Telemetria  etc.  nell’AutomoCve.  
  • 18.
    Big  Data  Landscape:  gli  u<lizzi  aNuali   Big  Data   18 Big  Data   Ges<one  di  CiNà  e  Nazioni:       Ormizzazione  del  traffico  sulla  base  di  informazioni  real   Cme,  daC  da  Social  Media  e  daC  Meteo.  Proger  Smart   CiCes,  in  cui  infrastruKure  di  trasporto  e  Processi  sono  visC   insieme.  Autobus  che  aKendono  treni  in  ritardo  e  semafori   che  minimizzano  le  code.  
  • 19.
    Finance  e  Big  Data   Big  Data   19 Big  Data   Fonte: insideBIGDATA Guide to Big Data for Finance - http://insidebigdata.com/2014/09/22/insidebigdata-guide-big-data-finance/
  • 20.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     20
  • 21.
    Big  Data  vs  Datawarehouse  Analy<cs   Big  Data   21 Big  Data   Source:  Wikibon  2011  
  • 22.
    Il modo piùsemplice di descrivere una Architettura Big Data 1. Data Source Layer 3. Data Processing / Analysis Layer 2. Data Storage Layer 4. Data Output Layer Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 23.
    Data sources layer E’il Layer in cui arrivano i dati dentro una Organizzazione. Può contenere dati di vendita, dei clienti, i feedback, i canali Social Media, i dati del marketing, le email e tutto ciò che serve a monitorare e misurare le operations. Occorre capire che dati sono disponibili o possono esserlo e misurare l’utilità dei dati rispetto alle domande a cui si vogliono cercare risposte. Può esserci già tutto ciò che serve, o può essere necessario creare o trovare nuove sorgenti dati. In questa fase Metadata Extraction, Entity Extraction, etc. fanno la differenza dispetto agli Analytics tradizionali. 1. Data Source Layer 3. Data Processing / Analysis Layer 2. Data Storage Layer 4. Data Output Layer Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 24.
    Data storage layer Quivivono i Big Data, una volta acquisiti dal Layer 1. Data l’esplosione dei dati generati e da gestire, sono stati sviluppati tool per permettere o agevolare questa attività. Sono sistemi di memorizzazione, organizzazione e categorizzazione/ classificazione. In questo Layer troviamo quindi File Systems come Hadoop Dystributed File System e database come HBase, DynamoDB, MongoDB, Cassandra ed altri, tutti di tipo NoSQL. 1. Data Source Layer 3. Data Processing / Analysis Layer 2. Data Storage Layer 4. Data Output Layer Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 25.
    Data processing/ analysis layer Pertrovare qualcosa di utile nei dati memorizzati, vanno processati e analizzati. I processi possono essere batch, query, a bassa latenza o Real Time. I dati possono venire selezionati con tool come MapReduce per poi elaborarli con tool di Data Analytics. Oppure si useranno tool come PIG o HIVE per fare query sui dati, o strumenti per l’Automated Pattern Recognition. Oppure Text Analytics, Sentiment Analysis, ….. 1. Data Source Layer 3. Data Processing / Analysis Layer 2. Data Storage Layer 4. Data Output Layer Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 26.
    Data  output  layer     Qui  le  informazioni  create  aKraverso  le   analisi  passano  a  chi  le  deve  uClizzare.   La  comunicazione  chiara  e  concisa  è   essenziale  sopraKuKo  se  i  decision-­‐maker   non  hanno  un  background  in  staCsCca.   Gli  output  possono  essere  reports,  grafici,   immagini  o  racommandazioni.     1. Data Source Layer 3. Data Processing / Analysis Layer 2. Data Storage Layer 4. Data Output Layer Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 27.
    Big  Data:  Stack  Tecnologico  in  estrema  sintesi   Big  Data   27 Big  Data  
  • 28.
    Big  Data:  Stack  Tecnologico  esempio   Big  Data   28 Big  Data  
  • 29.
    Big  Data:  Stack  Tecnologico  esempio   Big  Data   29 Big  Data  
  • 30.
    Big  Data:  Hadoop  in  estrema  sintesi   Big  Data   30 Big  Data   Hadoop è un framework per il calcolo parallelo di dataset molto grandi (petabyte) su un alto numero di nodi composti da server “standard”. Serve a realizzare un sistema distribuito in larga scala, senza preoccuparsi dei problemi legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo dei fallimenti dei nodi, gestione della comunicazione tra i nodi. E’ pensato per l’elaborazione batch, e adotta il modello computazionale Map Reduce derivato dalle funzioni map() e reduce() del LISP. Usato da oltre 200 Major di Internet e Enterprise.
  • 31.
    Big  Data:  Hadoop   Big  Data   31 Big  Data   Hadoop Map Reduce HDFS: Hadoop Distributed File System YARN: gestione delle risorse per il calcolo distribuito Common: funzioni di supporto YARN hadoop MapReduce (Distributed Processing) HDFS (Distributed Storage) Common
  • 32.
    Big  Data:  Hadoop   Big  Data   32 Big  Data   All’ecosistema Hadoop appartengono anche, ma non solo: Zookeper: coordinamento HCatalog: gestione Tabelle e Schemi PIG: flusso dati HIVE: SQL Hbase: database NoSQL colonnare Flume, Sqoop, Tika: integrazione ed estrazione dati e metadati Ambari: management cluster di Hadoop Storm: elaborazioni Real Time Mahout: libreria per il Machine Learning
  • 33.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     33
  • 34.
    Le  discipline  coinvolte   Big  Data   34 Big  Data   Sui Big Data convergono diverse discipline, tra le altre: Visualizzazione   Database   StaCsCca   Sviluppo  algoritmico   PaKern  RecogniCon   Intelligenza  ArCficiale   SemanCca  
  • 35.
    Skill  profile   Big  Data   35 Big  Data   Sorgen<  Da<   Files,  DBMS,  Text,  Info  Providers,  OLTP   Data  Warehouses  –  Data  Marts   OLAP,  MDA   Business  Intelligence   Analisi  staCsCca,  Query  e  ReporCng   Data  Mining   Business  Discovery   Presentazione  Da<   Tecniche  di  visualizzazione   Decision  Making   UtenC  finali   Business  Analysts   Data  Analysts   DB  Administrator  
  • 36.
    Il  mi<co  Data  Scien<st   Big  Data   36 Big  Data   hKp://www.skillprofiles.eu/stable/g3/v2/profiles/WSP-­‐G3-­‐024.pdf     Figura  professionale  a  cui  fanno  capo  le   arvità  di  raccolta,  analisi,  elaborazione,   interpretazione,  diffusione  e  visualizzazione   dei  daC  quanCtaCvi  o  quanCficabili   dell’organizzazione  a  fini  analiCci,  predirvi  o   strategici.         Responsabile  (Accountable)    •  Scelta  e  acquisizione  dei  daC.    •  Analisi  di  daC  in  forma  tabellare  o  grafica.     •  Interpretazione  delle  analisi  in  forma  testuale  e  grafica.     •  Report  contenenC  analisi  e  indicazioni  che  si  possono  trarre.     •  Arvità  di  elicitazione  e  raccolta  delle  esigenze.     •  ProgeKare  e  approntare  analisi  di  daC  adeguate  al  soddisfacimento  delle  esigenze.     •  IdenCficazione  i  daC  significaCvi  e  le  loro  fonC  aziendali  o  esterne.     •  Arvità  di  collezione  dei  daC.     •  Validare  (data  quality)  i  daC.     •  Analizzare  i  daC.     •  Costruire  modelli  quanCtaCvi  e  qualitaCvi.     •  Costruire  modelli  predirvi.     •  Interpretare  analisi  e  modelli.     •  Comunicare  in  forma  opportuna  (grafica  e/o  testuale)  le  indicazioni  emerse  dalle  analisi  e  dai  modelli.     •  Collaborare  con  il  business  e  indirizzare  le  loro  esigenze.     •  Collaborare  con  l’IT  per  definire  le  modalità  di  raccolta  e  gesCone  dei  daC.     •  Collaborare  con  il  controller  per  sviluppare  analisi  e  report  a  supporto  dei  processi  decisionali.    
  • 37.
    Lo  skill  set   Big  Data   37 Big  Data   Skill  Anali<ci   Determinare  che  daC  raccogliere   Come  analizzarli  (paKern  e  link)   Crea<vità   Trovare  nuovi  modi  di   raccogliere,  analizzare,   interpretare  i  daC   Matema<ca  e  sta<s<ca   Padronanza  dei  numeri  e  del   loro  traKamento   Computer  science   Padronanza  algoritmica   Padronanza  tool:  Hadoop,  Python,  Pig,  etc.   Business  skill   Capire  gli  obiervi  business  e  i  bisogni  di   informazioni   Capacità  di  comunicare   Saper  presentare  i  daC  sia  in  forma   scriKa  che  verbale,  per  assicurarsi  che   non  vengano  fraintesi  o  trascuraC   Elaborato  a  parCre  da  Bernard  Marr,  “Big  Data”  
  • 38.
    Agenda   ›  La  storia  in  breve   ›  Le  definizioni     ›   Big  Data  Landscape  (u<lizzi)   ›  Stack  Tecnologico     ›  Skill  set     ›  Conclusione     38
  • 39.
    Conclusione   Big  Data   39 Big  Data   Domande ? Dubbi ? Curiosità ? cbergamini@imolinfo.it