• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Data Science & Big Data, réalités et perspectives.
 

Data Science & Big Data, réalités et perspectives.

on

  • 499 views

Séminaire donné à l'Université de Mons (Belgique) le 12/3/2014.

Séminaire donné à l'Université de Mons (Belgique) le 12/3/2014.

Statistics

Views

Total Views
499
Views on SlideShare
383
Embed Views
116

Actions

Likes
2
Downloads
30
Comments
0

4 Embeds 116

http://www.scoop.it 112
https://twitter.com 2
http://fleiths.tumblr.com 1
http://www.slideee.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Data Science & Big Data, réalités et perspectives. Data Science & Big Data, réalités et perspectives. Presentation Transcript

    • Data  Science  &  Big  Data   Umons  –  12/3/2014   Alexis  Gil  Gonzales    
    • Agenda   1.  Synopsis  historique   2.  Data  Science  –  principes   3.  Big  Data   4.  Réalités  &  PerspecHves  
    • Synopsis  historique   •  1900’s  :  StaHsHques   •  1960’s  :  Pêche  aux  données  (dredging)   •  1962  :  John  Tukey  «  The  Future  of  Data   Analysis  »   •  1974  :  Peter  Naur  «  Concise  Survey  of   Computer  Methods  »   •  1989  :  Gregory  Piatetsky-­‐Shapiro  :  Knowledge   Discovery  in  Database  (KDD)  Workshop  
    • Synopsis  historique   •  1990’s  :  Data  Mining   •  1996  :  Fayyad,  Piatetsky-­‐Shapiro,  Smyth   «  From  Data  Mining  to  Knowledge  Discovery   in  Databases  »   •  1997  :  Data  Mining  and  Knowledge  Discovery   journal   •  2001  :  William  Cleveland  «  Data  Science  :  An   acHon  plan  for  expanding  the  technical  areas   of  the  field  of  staHsHcs  »  
    • Synopsis  historique   •  2002/2003  :  Data  Science  Journal,  Journal  of  Data   Science   •  2004  :  Dean,  Ghemawat  (Google)  :  «  MapReduce  :   Simplified  Data  Processing  on  Large  Clusters  »     •  2005  :  Davenport,  Cohen,  Jacobson  «  CompeHng  on   AnalyHcs  »   •  2005  :  Hadoop  naît  chez  Yahoo   •  2006  :  Google  AnalyHcs   •  2007  :  Analyse  predicHve   •  2007  :  Research  Center  for  Datalogy  and  Data  Science   –  Shanghai  (China)  
    • Synopsis  historique   •  2008  :  J.  Hammerbacher,  DJ  PaHl  (Facebook,   Linkedin)  uHlisent  pour  la  première  fois  le  rôle   «  Data  ScienHst  »   •  2009  :  Kirk  Borne  «  The  RevoluHon  in   Astronomy  EducaHon  :  Data  Science  for  the   Masses  »   •  2009  :  Mathew  Graham  «  The  Art  of  Data   Science  »  
    • Data  Science  -­‐  Principes   Défini&on     Extrac'on  de  patrons  ou  modèles  u'les  à  par'r   de  vastes  sources  de  données  (Fayyad,   Piatetsky,  Shapiro,  Smyth  1996)  
    • Data  Science  -­‐  Principes   Concepts  divers     Extraire  de  la  connaissance  u'le  à  par'r  de   grands  volumes  de  données  pour  résoudre  des   problèmes  d’entreprise  peut  être  réalisé  en   suivant  un  processus  en  étapes  bien  définies.   Example  :  CRISP-­‐DM  
    • Data  Science  -­‐  Principes   Concepts  divers     A  par'r  de  grands  volumes  de  données,   technologies  de  l’informa'on  peuvent  être   u'lisées  pour  trouver  des  aAributs  descrip'fs  et   informa'fs  d’en'tés  d’intérêt.    
    • Data  Science  -­‐  Principes   Concepts  divers     Si  vous  regardez  assez  longtemps  un  ensemble   de  données  vous  pourriez  trouver  quelque   chose,  mais  ce  ne  peut  pas  être  généralisé  au   délà  de  l’ensemble  de  données  ini'al.     Overfiong    
    • Data  Science  -­‐  Principes   Classifica&on     Prédire,  pour  chaque  élément  d’une  populaHon,  à   quelle  classe  il  apparHent.     Scoring     Prédit,  pour  chaque  élément  d’une  populaHon,  la   probabilité  d’appartenance  à  chaque  classe.    
    • Data  Science  -­‐  Principes   Régression     Prédire,  pour  chaque  élément  d’une  populaHon,  la   valeur  numérique  d’une  variable  donnée.     Correspondance  de  similarités     IdenHfie  des  éléments  similaires  à  parHr  de   données  connues  sur  ceux-­‐ci.  classe.    
    • Data  Science  -­‐  Principes   Clustering     Grouper  des  éléments  d’une  populaHon  ensemble   par  leur  similarité,  mais  sans  objecHf  bien  défini.     Groupage  de  co-­‐occurrence     Trouve  des  associaHons  entre  des  éléments  basées   sur  des  transacHons  les  impliquant.   (Market  basket  analysis)    
    • Data  Science  -­‐  Principes   Profiling     CaractérisaHon  du  comportement  typique  d’un   élément,  groupe  ou  populaHon.     Prédic&on  de  lien     Prédire  l’existence  de  liens  entre  deux  éléments  et   éventuellement  esHmer  la  force  du  lien.    
    • Data  Science  -­‐  Principes   Réduc&on  de  données     ConverHr  un  grand  ensemble  de  données  en  un   autre  plus  peHt  en  conservant  le  max.   d’informaHon  du  premier.     Modélisa&on  causale     Comprendre  quels  événements  ou  acHons   influencent  d’autres.    
    • Data  Science  -­‐  Principes   CRISP-­‐DM
    • Data  Science  -­‐  Principes   Autres  ou'ls  analy'ques   ApprenHssage   Machine   InterrogaHon  BBDD   Data  Warehousing   Analyse  de   régression   StaHsHques  
    • Data  Science  -­‐  Principes   Data  Mining  Supvervisé   Classifica'on  et  Régression   •  SélecHon  d’arributs   •  ClassificaHon  par  arbres  (inducHon)   •  ClassificaHon  par  opHmisaHon  (foncHon   linéaire,  foncHon  objecHf)   •  Support  Vector  Machines   •  Classificateurs  Bayesiens   •  Réseaux  neuronaux  
    • Data  Science  -­‐  Principes   Similarités  et  voisins   •  Similarités  entre  éléments  d’un  ensemble   •  Distance     •  Instances  similaires  -­‐>  distance  minimale   •  Nearest  Neighbor   •  ClassificaHon   •  Diverses  mesures  de  distance  !  (Manharan,   Jaccard,  Cosinus,  distance  d’édiHon,  ...)  
    • Data  Science  -­‐  Principes   Clustering   •  SegmentaHon  non  supervisée   •  «  groupes  naturels  »,  sans  cible  connue   •  Clustering  hiérarchique  
    • Data  Science  -­‐  Principes   Co-­‐occurrence   •  Découverte  d’associaHons  entre  éléments   d’une  populaHon  sur  base  des  transacHons   passées.   •  Recherche  combinaison  d’éléments  aux   staHsHques  intéressantes.   •  Grand  nombre  de  co-­‐occurrences  !   •  Hasard   •  Support  de  l’associaHon  
    • Data  Science  -­‐  Principes   Profiling   •  Comportement-­‐type   •  DistribuHon  normale/log-­‐normale   •  Gaussian  Mixture  Models   •  Clusters  «  mous  »  
    • Big  Data   •  Très  grands  volumes  de  données   •  3  «  V  »   •  Volume   •  Vitesse   •  Variabilité  
    • Big  Data   Paysage  
    • Big  Data  
    • Big  Data   Technologies   •  Au  début  :  MapReduce  (Google),  puis  Hadoop   (Yahoo),  vers  2004.   •  MapReduce  :  Algorithme  distribué.   •  Hadoop  :  plate-­‐forme  distribuée.  
    • Big  Data   Hadoop   •  Architecture  en  Cluster:  NameNode,  DataNode.   Secondary  NameNode   •  HDFS  :  Distributed  FS.  Data  Block   •  Data  écrite  1  seule  fois,  lue  plusieurs.   •  Hadoop  core  en  java   •  MapReduce  inside   •  Hbase  :  BD  en  colonnes.  Flexible,  Compression   •  ZooKeeper  :  GesHon  de  configuraHon   •  Hive  :  analyse  de  données,  proche  de  SQL,  scriptable   •  Pig  :  analyse  de  données,  laHn.  
    • Big  Data   Hadoop  (cont)   •  Flume  :  traitement  de  flux,  logfiles   •   SolR  :  Basé  sur  project  Lucene.  Recherche    textuelle  sur  grands  volumes  de  documents.   •  Mahout  :  Librairie  d’apprenHssage  machine  pour     grands  volumes  de  données.  UHlise  MapReduce.   •  Giraph/Hama  :  Traitement  itéraHf  de  graphes.   Basé  sur  Pregel  (Google),  BSP.   •  Ambari  :  provision,  gesHon,  mgmt  hadoop   •  Squoop  :  connecteurs  de  données.   •  Oozie  :  ordonnanceur  de  jobs.    
    • Big  Data   Hadoop  (cont)   •  WebHDFS  :  REST  API   •  Hcatalog  :  expose  Hive  métadonnées.   «  schéma  »   •  WebHCatalog  :  REST  API   •  YARN  :  MapReduce  2.0,  généralisaHon   •  Tez  :  Nouveau  framework  exécuHon  de  tâches   •  Storm  :  Temps  réel  
    • Big  Data   Evolu'on  Hadoop  
    • Big  Data   Quelques  examples  concrets   Avec  flume,  pig,  hive  et  mahout  
    • Big  Data   Réalités  
    • Big  Data   Enquête  Gartner    2013  (US)   •  64%  entreprises  invesHssent  ou  vont  le  faire   dans  des  technologies  Big  Data   •  Mais  uniquement  8%  de  ces  derniers  ont  pris   des  acHons  concrètes   •  Principaux  secteurs  :  Banque,  médias,  services   •  Problème  1  :  quanHficaHon  de  la  valeur  du  BD   •  Problème  2  :  manque  de  talents  à  <>  niveaux  
    • Big  Data   Réalités  
    • Big  Data   Enquête  EMC  2012  
    • Big  Data   Enquête  EMC  2012  
    • Big  Data   Enquête  EMC  2012  
    • The  End   Merci  !