Your SlideShare is downloading. ×
0
Data	
  Science	
  &	
  Big	
  Data	
  
Umons	
  –	
  12/3/2014	
  
Alexis	
  Gil	
  Gonzales	
  
	
  
Agenda	
  
1.  Synopsis	
  historique	
  
2.  Data	
  Science	
  –	
  principes	
  
3.  Big	
  Data	
  
4.  Réalités	
  &	...
Synopsis	
  historique	
  
•  1900’s	
  :	
  StaHsHques	
  
•  1960’s	
  :	
  Pêche	
  aux	
  données	
  (dredging)	
  
• ...
Synopsis	
  historique	
  
•  1990’s	
  :	
  Data	
  Mining	
  
•  1996	
  :	
  Fayyad,	
  Piatetsky-­‐Shapiro,	
  Smyth	
...
Synopsis	
  historique	
  
•  2002/2003	
  :	
  Data	
  Science	
  Journal,	
  Journal	
  of	
  Data	
  
Science	
  
•  20...
Synopsis	
  historique	
  
•  2008	
  :	
  J.	
  Hammerbacher,	
  DJ	
  PaHl	
  (Facebook,	
  
Linkedin)	
  uHlisent	
  po...
Data	
  Science	
  -­‐	
  Principes	
  
Défini&on	
  
	
  
Extrac'on	
  de	
  patrons	
  ou	
  modèles	
  u'les	
  à	
  par...
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
Extraire	
  de	
  la	
  connaissance	
  u'le	
  à	
  p...
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
A	
  par'r	
  de	
  grands	
  volumes	
  de	
  données...
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
Si	
  vous	
  regardez	
  assez	
  longtemps	
  un	
  ...
Data	
  Science	
  -­‐	
  Principes	
  
Classifica&on	
  
	
  
Prédire,	
  pour	
  chaque	
  élément	
  d’une	
  populaHon,...
Data	
  Science	
  -­‐	
  Principes	
  
Régression	
  
	
  
Prédire,	
  pour	
  chaque	
  élément	
  d’une	
  populaHon,	
...
Data	
  Science	
  -­‐	
  Principes	
  
Clustering	
  
	
  
Grouper	
  des	
  éléments	
  d’une	
  populaHon	
  ensemble	
...
Data	
  Science	
  -­‐	
  Principes	
  
Profiling	
  
	
  
CaractérisaHon	
  du	
  comportement	
  typique	
  d’un	
  
élém...
Data	
  Science	
  -­‐	
  Principes	
  
Réduc&on	
  de	
  données	
  
	
  
ConverHr	
  un	
  grand	
  ensemble	
  de	
  do...
Data	
  Science	
  -­‐	
  Principes	
  
CRISP-­‐DM
Data	
  Science	
  -­‐	
  Principes	
  
Autres	
  ou'ls	
  analy'ques	
  
ApprenHssage	
  
Machine	
  
InterrogaHon	
  BBD...
Data	
  Science	
  -­‐	
  Principes	
  
Data	
  Mining	
  Supvervisé	
  
Classifica'on	
  et	
  Régression	
  
•  SélecHon	...
Data	
  Science	
  -­‐	
  Principes	
  
Similarités	
  et	
  voisins	
  
•  Similarités	
  entre	
  éléments	
  d’un	
  en...
Data	
  Science	
  -­‐	
  Principes	
  
Clustering	
  
•  SegmentaHon	
  non	
  supervisée	
  
•  «	
  groupes	
  naturels...
Data	
  Science	
  -­‐	
  Principes	
  
Co-­‐occurrence	
  
•  Découverte	
  d’associaHons	
  entre	
  éléments	
  
d’une	...
Data	
  Science	
  -­‐	
  Principes	
  
Profiling	
  
•  Comportement-­‐type	
  
•  DistribuHon	
  normale/log-­‐normale	
 ...
Big	
  Data	
  
•  Très	
  grands	
  volumes	
  de	
  données	
  
•  3	
  «	
  V	
  »	
  
•  Volume	
  
•  Vitesse	
  
•  ...
Big	
  Data	
  
Paysage	
  
Big	
  Data	
  
Big	
  Data	
  
Technologies	
  
•  Au	
  début	
  :	
  MapReduce	
  (Google),	
  puis	
  Hadoop	
  
(Yahoo),	
  vers	
  2...
Big	
  Data	
  
Hadoop	
  
•  Architecture	
  en	
  Cluster:	
  NameNode,	
  DataNode.	
  
Secondary	
  NameNode	
  
•  HD...
Big	
  Data	
  
Hadoop	
  (cont)	
  
•  Flume	
  :	
  traitement	
  de	
  flux,	
  logfiles	
  
•  	
  SolR	
  :	
  Basé	
  ...
Big	
  Data	
  
Hadoop	
  (cont)	
  
•  WebHDFS	
  :	
  REST	
  API	
  
•  Hcatalog	
  :	
  expose	
  Hive	
  métadonnées....
Big	
  Data	
  
Evolu'on	
  Hadoop	
  
Big	
  Data	
  
Quelques	
  examples	
  concrets	
  
Avec	
  flume,	
  pig,	
  hive	
  et	
  mahout	
  
Big	
  Data	
  
Réalités	
  
Big	
  Data	
  
Enquête	
  Gartner	
  	
  2013	
  (US)	
  
•  64%	
  entreprises	
  invesHssent	
  ou	
  vont	
  le	
  fai...
Big	
  Data	
  
Réalités	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
The	
  End	
  
Merci	
  !	
  
Upcoming SlideShare
Loading in...5
×

Data Science & Big Data, réalités et perspectives.

888

Published on

Séminaire donné à l'Université de Mons (Belgique) le 12/3/2014.

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
888
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
70
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Transcript of "Data Science & Big Data, réalités et perspectives."

  1. 1. Data  Science  &  Big  Data   Umons  –  12/3/2014   Alexis  Gil  Gonzales    
  2. 2. Agenda   1.  Synopsis  historique   2.  Data  Science  –  principes   3.  Big  Data   4.  Réalités  &  PerspecHves  
  3. 3. Synopsis  historique   •  1900’s  :  StaHsHques   •  1960’s  :  Pêche  aux  données  (dredging)   •  1962  :  John  Tukey  «  The  Future  of  Data   Analysis  »   •  1974  :  Peter  Naur  «  Concise  Survey  of   Computer  Methods  »   •  1989  :  Gregory  Piatetsky-­‐Shapiro  :  Knowledge   Discovery  in  Database  (KDD)  Workshop  
  4. 4. Synopsis  historique   •  1990’s  :  Data  Mining   •  1996  :  Fayyad,  Piatetsky-­‐Shapiro,  Smyth   «  From  Data  Mining  to  Knowledge  Discovery   in  Databases  »   •  1997  :  Data  Mining  and  Knowledge  Discovery   journal   •  2001  :  William  Cleveland  «  Data  Science  :  An   acHon  plan  for  expanding  the  technical  areas   of  the  field  of  staHsHcs  »  
  5. 5. Synopsis  historique   •  2002/2003  :  Data  Science  Journal,  Journal  of  Data   Science   •  2004  :  Dean,  Ghemawat  (Google)  :  «  MapReduce  :   Simplified  Data  Processing  on  Large  Clusters  »     •  2005  :  Davenport,  Cohen,  Jacobson  «  CompeHng  on   AnalyHcs  »   •  2005  :  Hadoop  naît  chez  Yahoo   •  2006  :  Google  AnalyHcs   •  2007  :  Analyse  predicHve   •  2007  :  Research  Center  for  Datalogy  and  Data  Science   –  Shanghai  (China)  
  6. 6. Synopsis  historique   •  2008  :  J.  Hammerbacher,  DJ  PaHl  (Facebook,   Linkedin)  uHlisent  pour  la  première  fois  le  rôle   «  Data  ScienHst  »   •  2009  :  Kirk  Borne  «  The  RevoluHon  in   Astronomy  EducaHon  :  Data  Science  for  the   Masses  »   •  2009  :  Mathew  Graham  «  The  Art  of  Data   Science  »  
  7. 7. Data  Science  -­‐  Principes   Défini&on     Extrac'on  de  patrons  ou  modèles  u'les  à  par'r   de  vastes  sources  de  données  (Fayyad,   Piatetsky,  Shapiro,  Smyth  1996)  
  8. 8. Data  Science  -­‐  Principes   Concepts  divers     Extraire  de  la  connaissance  u'le  à  par'r  de   grands  volumes  de  données  pour  résoudre  des   problèmes  d’entreprise  peut  être  réalisé  en   suivant  un  processus  en  étapes  bien  définies.   Example  :  CRISP-­‐DM  
  9. 9. Data  Science  -­‐  Principes   Concepts  divers     A  par'r  de  grands  volumes  de  données,   technologies  de  l’informa'on  peuvent  être   u'lisées  pour  trouver  des  aAributs  descrip'fs  et   informa'fs  d’en'tés  d’intérêt.    
  10. 10. Data  Science  -­‐  Principes   Concepts  divers     Si  vous  regardez  assez  longtemps  un  ensemble   de  données  vous  pourriez  trouver  quelque   chose,  mais  ce  ne  peut  pas  être  généralisé  au   délà  de  l’ensemble  de  données  ini'al.     Overfiong    
  11. 11. Data  Science  -­‐  Principes   Classifica&on     Prédire,  pour  chaque  élément  d’une  populaHon,  à   quelle  classe  il  apparHent.     Scoring     Prédit,  pour  chaque  élément  d’une  populaHon,  la   probabilité  d’appartenance  à  chaque  classe.    
  12. 12. Data  Science  -­‐  Principes   Régression     Prédire,  pour  chaque  élément  d’une  populaHon,  la   valeur  numérique  d’une  variable  donnée.     Correspondance  de  similarités     IdenHfie  des  éléments  similaires  à  parHr  de   données  connues  sur  ceux-­‐ci.  classe.    
  13. 13. Data  Science  -­‐  Principes   Clustering     Grouper  des  éléments  d’une  populaHon  ensemble   par  leur  similarité,  mais  sans  objecHf  bien  défini.     Groupage  de  co-­‐occurrence     Trouve  des  associaHons  entre  des  éléments  basées   sur  des  transacHons  les  impliquant.   (Market  basket  analysis)    
  14. 14. Data  Science  -­‐  Principes   Profiling     CaractérisaHon  du  comportement  typique  d’un   élément,  groupe  ou  populaHon.     Prédic&on  de  lien     Prédire  l’existence  de  liens  entre  deux  éléments  et   éventuellement  esHmer  la  force  du  lien.    
  15. 15. Data  Science  -­‐  Principes   Réduc&on  de  données     ConverHr  un  grand  ensemble  de  données  en  un   autre  plus  peHt  en  conservant  le  max.   d’informaHon  du  premier.     Modélisa&on  causale     Comprendre  quels  événements  ou  acHons   influencent  d’autres.    
  16. 16. Data  Science  -­‐  Principes   CRISP-­‐DM
  17. 17. Data  Science  -­‐  Principes   Autres  ou'ls  analy'ques   ApprenHssage   Machine   InterrogaHon  BBDD   Data  Warehousing   Analyse  de   régression   StaHsHques  
  18. 18. Data  Science  -­‐  Principes   Data  Mining  Supvervisé   Classifica'on  et  Régression   •  SélecHon  d’arributs   •  ClassificaHon  par  arbres  (inducHon)   •  ClassificaHon  par  opHmisaHon  (foncHon   linéaire,  foncHon  objecHf)   •  Support  Vector  Machines   •  Classificateurs  Bayesiens   •  Réseaux  neuronaux  
  19. 19. Data  Science  -­‐  Principes   Similarités  et  voisins   •  Similarités  entre  éléments  d’un  ensemble   •  Distance     •  Instances  similaires  -­‐>  distance  minimale   •  Nearest  Neighbor   •  ClassificaHon   •  Diverses  mesures  de  distance  !  (Manharan,   Jaccard,  Cosinus,  distance  d’édiHon,  ...)  
  20. 20. Data  Science  -­‐  Principes   Clustering   •  SegmentaHon  non  supervisée   •  «  groupes  naturels  »,  sans  cible  connue   •  Clustering  hiérarchique  
  21. 21. Data  Science  -­‐  Principes   Co-­‐occurrence   •  Découverte  d’associaHons  entre  éléments   d’une  populaHon  sur  base  des  transacHons   passées.   •  Recherche  combinaison  d’éléments  aux   staHsHques  intéressantes.   •  Grand  nombre  de  co-­‐occurrences  !   •  Hasard   •  Support  de  l’associaHon  
  22. 22. Data  Science  -­‐  Principes   Profiling   •  Comportement-­‐type   •  DistribuHon  normale/log-­‐normale   •  Gaussian  Mixture  Models   •  Clusters  «  mous  »  
  23. 23. Big  Data   •  Très  grands  volumes  de  données   •  3  «  V  »   •  Volume   •  Vitesse   •  Variabilité  
  24. 24. Big  Data   Paysage  
  25. 25. Big  Data  
  26. 26. Big  Data   Technologies   •  Au  début  :  MapReduce  (Google),  puis  Hadoop   (Yahoo),  vers  2004.   •  MapReduce  :  Algorithme  distribué.   •  Hadoop  :  plate-­‐forme  distribuée.  
  27. 27. Big  Data   Hadoop   •  Architecture  en  Cluster:  NameNode,  DataNode.   Secondary  NameNode   •  HDFS  :  Distributed  FS.  Data  Block   •  Data  écrite  1  seule  fois,  lue  plusieurs.   •  Hadoop  core  en  java   •  MapReduce  inside   •  Hbase  :  BD  en  colonnes.  Flexible,  Compression   •  ZooKeeper  :  GesHon  de  configuraHon   •  Hive  :  analyse  de  données,  proche  de  SQL,  scriptable   •  Pig  :  analyse  de  données,  laHn.  
  28. 28. Big  Data   Hadoop  (cont)   •  Flume  :  traitement  de  flux,  logfiles   •   SolR  :  Basé  sur  project  Lucene.  Recherche    textuelle  sur  grands  volumes  de  documents.   •  Mahout  :  Librairie  d’apprenHssage  machine  pour     grands  volumes  de  données.  UHlise  MapReduce.   •  Giraph/Hama  :  Traitement  itéraHf  de  graphes.   Basé  sur  Pregel  (Google),  BSP.   •  Ambari  :  provision,  gesHon,  mgmt  hadoop   •  Squoop  :  connecteurs  de  données.   •  Oozie  :  ordonnanceur  de  jobs.    
  29. 29. Big  Data   Hadoop  (cont)   •  WebHDFS  :  REST  API   •  Hcatalog  :  expose  Hive  métadonnées.   «  schéma  »   •  WebHCatalog  :  REST  API   •  YARN  :  MapReduce  2.0,  généralisaHon   •  Tez  :  Nouveau  framework  exécuHon  de  tâches   •  Storm  :  Temps  réel  
  30. 30. Big  Data   Evolu'on  Hadoop  
  31. 31. Big  Data   Quelques  examples  concrets   Avec  flume,  pig,  hive  et  mahout  
  32. 32. Big  Data   Réalités  
  33. 33. Big  Data   Enquête  Gartner    2013  (US)   •  64%  entreprises  invesHssent  ou  vont  le  faire   dans  des  technologies  Big  Data   •  Mais  uniquement  8%  de  ces  derniers  ont  pris   des  acHons  concrètes   •  Principaux  secteurs  :  Banque,  médias,  services   •  Problème  1  :  quanHficaHon  de  la  valeur  du  BD   •  Problème  2  :  manque  de  talents  à  <>  niveaux  
  34. 34. Big  Data   Réalités  
  35. 35. Big  Data   Enquête  EMC  2012  
  36. 36. Big  Data   Enquête  EMC  2012  
  37. 37. Big  Data   Enquête  EMC  2012  
  38. 38. The  End   Merci  !  
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×