BIG	
  DATA	
   #mac201	
  
100	
  petabytes	
  of	
  data	
  
1	
  petabyte	
  =	
  1000	
  
terrabytes	
  
1	
  terrabyte	
  =	
  1000	
  
gigabytes	
  
100	
  petabytes	
  =	
  
100,000,000	
  gigabytes	
  
Theory	
  free?	
  
‘Google’s	
  engineers	
  didn’t	
  bother	
  to	
  develop	
  a	
  hypothesis	
  about	
  
what	
  search	
  terms	
  –	
  “flu	
  symptoms”	
  or	
  “pharmacies	
  near	
  me”	
  –	
  
might	
  be	
  correlated	
  with	
  the	
  spread	
  of	
  the	
  disease	
  itself.	
  The	
  
Google	
  team	
  just	
  took	
  their	
  top	
  50	
  million	
  search	
  terms	
  and	
  let	
  
the	
  algorithms	
  do	
  the	
  work.’	
  
-­‐	
  HarLord,	
  2014	
  
	
  
	
  
IdenOfied	
  key	
  data	
  
points	
  associated	
  
with	
  pregnancy	
  
	
  
Hit	
  enough	
  
indicators	
  =	
  receive	
  
vouchers	
  
Data	
  is	
  
cheap	
  
As	
  our	
  communicaOon,	
  leisure	
  and	
  commerce	
  have	
  moved	
  to	
  the	
  internet	
  
and	
  the	
  internet	
  has	
  moved	
  into	
  our	
  phones,	
  our	
  cars	
  and	
  even	
  our	
  glasses,	
  
life	
  can	
  be	
  recorded	
  and	
  quanOfied	
  in	
  a	
  way	
  that	
  would	
  have	
  been	
  hard	
  to	
  
imagine	
  just	
  a	
  decade	
  ago	
  (Harford,	
  2014)	
  
4	
  big	
  claims:	
  
1.  That	
  data	
  analysis	
  produces	
  uncannily	
  accurate	
  results;	
  	
  
2.  That	
  every	
  single	
  data	
  point	
  can	
  be	
  captured,	
  making	
  old	
  
staOsOcal	
  sampling	
  techniques	
  obsolete;	
  	
  
3.  That	
  it	
  is	
  unnecessary	
  to	
  concentrate	
  upon	
  what	
  causes	
  
what,	
  because	
  staOsOcal	
  correlaOon	
  tells	
  us	
  what	
  we	
  need	
  
to	
  know;	
  	
  
4.  That	
  scienOfic	
  or	
  staOsOcal	
  models	
  aren’t	
  needed	
  
This	
  is	
  a	
  world	
  where	
  massive	
  amounts	
  of	
  data	
  and	
  applied	
  mathemaOcs	
  replace	
  
every	
  other	
  tool	
  that	
  might	
  be	
  brought	
  to	
  bear.	
  	
  Out	
  with	
  every	
  theory	
  of	
  human	
  
behavior,	
  from	
  linguisOcs	
  to	
  sociology.	
  Forget	
  taxonomy,	
  ontology,	
  and	
  
psychology.	
  Who	
  knows	
  why	
  people	
  do	
  what	
  they	
  do?	
  	
  The	
  point	
  is	
  they	
  do	
  it,	
  
and	
  we	
  can	
  track	
  and	
  measure	
  it	
  with	
  unprecedented	
  fidelity.	
  With	
  enough	
  data,	
  
the	
  numbers	
  speak	
  for	
  themselves.	
  
-­‐	
  Anderson,	
  2008	
  
Eisenhower	
  vs	
  Stevenson	
  
1952	
  	
  
Remington	
  Rand	
  UNIVAC	
  
Cost	
  $1m	
  in	
  1952	
  
$8m	
  inflaOon	
  adjusted	
  
Predicted:	
  438	
  to	
  93	
  	
  
Predicted:	
  438	
  to	
  93	
  
Actual:	
  442	
  to	
  89	
  	
  
Richard	
  Whihaker,	
  Senior	
  Vice	
  President	
  at	
  SAP	
  Labs	
  	
  
The	
  amount	
  of	
  likes	
  on	
  Facebook	
  
can	
  predict	
  a	
  screening's	
  chance	
  of	
  
selling	
  out,	
  allowing	
  film	
  marketers	
  
to	
  focus	
  their	
  ahenOon	
  on	
  gekng	
  
the	
  word	
  out	
  amongst	
  relevant	
  
demographics.	
  
Eugene	
  Hernandez,	
  Director	
  of	
  Digital	
  
Strategy	
  at	
  the	
  Film	
  Society	
  of	
  Lincoln	
  Center	
  
three
"With	
  the	
  purchase	
  of	
  series,	
  we	
  look	
  at	
  what	
  does	
  well	
  on	
  piracy	
  sites	
  
…	
  Prison	
  Break	
  is	
  excepOonally	
  popular	
  on	
  piracy	
  sites.	
  
Kelly	
  Merryman,	
  content	
  acquisiOon	
  exec	
  at	
  NeLlix,	
  2013	
  
“in	
  large	
  	
  
data	
  sets,	
  	
  
large	
  deviaOons	
  	
  
are	
  vastly	
  more	
  	
  
ahributable	
  to	
  	
  
variance	
  (or	
  noise)	
  
	
  than	
  to	
  informaOon	
  
	
  (or	
  signal)”	
  	
  
Taleb,	
  2013	
  
Summary	
  
•  Big	
  data	
  is	
  being	
  employed	
  to	
  track	
  digital	
  
media	
  users	
  and	
  their	
  behaviours	
  
•  Offers	
  new	
  insights	
  into	
  real	
  world	
  pracOces	
  
and	
  preferences	
  
•  Incorrect	
  or	
  theory	
  free	
  assumpOons	
  can	
  
mean	
  that	
  big	
  data	
  =	
  big	
  errors	
  
Images	
  CC	
  
•  JD	
  Hancock	
  (2012)	
  Big	
  Data	
  
•  Michael	
  Donovan	
  (2009)	
  Large	
  Hadron	
  Collider	
  
•  Torkild	
  Retvedt	
  (2009)	
  Server	
  room	
  at	
  CERN	
  
•  Carlos	
  Luna	
  (2008)	
  Google	
  
•  Peter	
  Kirkeskov	
  Rasmussen	
  (2014)	
  Social	
  Media	
  
•  David	
  Telford	
  (2011)	
  082/365	
  man-­‐flu!	
  
•  Mike	
  Mozart	
  (2014)	
  Target	
  
•  R2hox	
  (2013)	
  data.path	
  Ryoji.Ikeda	
  –	
  4	
  
•  Sean	
  MacEntee	
  (2010)	
  social	
  media	
  
•  Kevin	
  P	
  Trovini	
  (2014)	
  Google	
  Glass	
  (Red)	
  
•  Sean	
  MacEntee	
  (2014)	
  data	
  is	
  oil	
  
•  Charis	
  Tsevis	
  (2012)	
  I	
  Like	
  Facebook	
  
•  R2hox	
  (2013)	
  data.path	
  Ryoji.Ikeda	
  -­‐	
  3	
  

Mac201 big data

  • 1.
    BIG  DATA  #mac201  
  • 4.
  • 5.
    1  petabyte  =  1000   terrabytes  
  • 6.
    1  terrabyte  =  1000   gigabytes  
  • 7.
    100  petabytes  =   100,000,000  gigabytes  
  • 12.
    Theory  free?   ‘Google’s  engineers  didn’t  bother  to  develop  a  hypothesis  about   what  search  terms  –  “flu  symptoms”  or  “pharmacies  near  me”  –   might  be  correlated  with  the  spread  of  the  disease  itself.  The   Google  team  just  took  their  top  50  million  search  terms  and  let   the  algorithms  do  the  work.’   -­‐  HarLord,  2014      
  • 14.
    IdenOfied  key  data   points  associated   with  pregnancy     Hit  enough   indicators  =  receive   vouchers  
  • 15.
  • 17.
    As  our  communicaOon,  leisure  and  commerce  have  moved  to  the  internet   and  the  internet  has  moved  into  our  phones,  our  cars  and  even  our  glasses,   life  can  be  recorded  and  quanOfied  in  a  way  that  would  have  been  hard  to   imagine  just  a  decade  ago  (Harford,  2014)  
  • 18.
    4  big  claims:   1.  That  data  analysis  produces  uncannily  accurate  results;     2.  That  every  single  data  point  can  be  captured,  making  old   staOsOcal  sampling  techniques  obsolete;     3.  That  it  is  unnecessary  to  concentrate  upon  what  causes   what,  because  staOsOcal  correlaOon  tells  us  what  we  need   to  know;     4.  That  scienOfic  or  staOsOcal  models  aren’t  needed  
  • 19.
    This  is  a  world  where  massive  amounts  of  data  and  applied  mathemaOcs  replace   every  other  tool  that  might  be  brought  to  bear.    Out  with  every  theory  of  human   behavior,  from  linguisOcs  to  sociology.  Forget  taxonomy,  ontology,  and   psychology.  Who  knows  why  people  do  what  they  do?    The  point  is  they  do  it,   and  we  can  track  and  measure  it  with  unprecedented  fidelity.  With  enough  data,   the  numbers  speak  for  themselves.   -­‐  Anderson,  2008  
  • 20.
  • 21.
    Remington  Rand  UNIVAC   Cost  $1m  in  1952   $8m  inflaOon  adjusted  
  • 22.
  • 23.
    Predicted:  438  to  93   Actual:  442  to  89    
  • 25.
    Richard  Whihaker,  Senior  Vice  President  at  SAP  Labs    
  • 26.
    The  amount  of  likes  on  Facebook   can  predict  a  screening's  chance  of   selling  out,  allowing  film  marketers   to  focus  their  ahenOon  on  gekng   the  word  out  amongst  relevant   demographics.   Eugene  Hernandez,  Director  of  Digital   Strategy  at  the  Film  Society  of  Lincoln  Center  
  • 28.
  • 37.
    "With  the  purchase  of  series,  we  look  at  what  does  well  on  piracy  sites   …  Prison  Break  is  excepOonally  popular  on  piracy  sites.   Kelly  Merryman,  content  acquisiOon  exec  at  NeLlix,  2013  
  • 42.
    “in  large     data  sets,     large  deviaOons     are  vastly  more     ahributable  to     variance  (or  noise)    than  to  informaOon    (or  signal)”     Taleb,  2013  
  • 44.
    Summary   •  Big  data  is  being  employed  to  track  digital   media  users  and  their  behaviours   •  Offers  new  insights  into  real  world  pracOces   and  preferences   •  Incorrect  or  theory  free  assumpOons  can   mean  that  big  data  =  big  errors  
  • 45.
    Images  CC   • JD  Hancock  (2012)  Big  Data   •  Michael  Donovan  (2009)  Large  Hadron  Collider   •  Torkild  Retvedt  (2009)  Server  room  at  CERN   •  Carlos  Luna  (2008)  Google   •  Peter  Kirkeskov  Rasmussen  (2014)  Social  Media   •  David  Telford  (2011)  082/365  man-­‐flu!   •  Mike  Mozart  (2014)  Target   •  R2hox  (2013)  data.path  Ryoji.Ikeda  –  4   •  Sean  MacEntee  (2010)  social  media   •  Kevin  P  Trovini  (2014)  Google  Glass  (Red)   •  Sean  MacEntee  (2014)  data  is  oil   •  Charis  Tsevis  (2012)  I  Like  Facebook   •  R2hox  (2013)  data.path  Ryoji.Ikeda  -­‐  3