Datasio - Big Data : Enjeux et technologies

2,899 views

Published on

Enjeux et technologies du Big Data
Présentation par François Royer, Fondateur et Directeur Général, Datasio

- Retour sur l'émergence du Big Data aux USA et en France.
- Tour d'horizon technologique: Hadoop, poids lourd du Big Data, et ses challengers
- Fiche d'identité du Data Scientist
- Le Data Mining comme avantage compétitif

Evénement - Big Data : ne dormez pas sur vos données !
Valtech - 29/11

Published in: Technology
  • Be the first to comment

Datasio - Big Data : Enjeux et technologies

  1. 1. Big Data Enjeux et technologies© Datasio 2012
  2. 2. © Datasio 2012
  3. 3. Big Data et Data Science dans la presse© Datasio 2012
  4. 4. Nous parlerons ... adopportunités de création de valeur ade retours dexpériences ade technologies “hot” ade mise en oeuvre et dapproches pratiques adaspects humains© Datasio 2012
  5. 5. Nous éviterons ... rde casser lexistant rle catalogue doutils rles aspects théoriques du Big Data© Datasio 2012
  6. 6. Agenda 1 Big Data & Data Mining – les enjeux 2 Hadoop, poids lourd du Big Data 3 Profession: Data Scientist© Datasio 2012
  7. 7. Agenda 1 Big Data & Data Mining© Datasio 2012
  8. 8. Donnéesmétier© Datasio 2012
  9. 9. Autres sources de donnéesDonnées intra-entreprisemétier (logs web, CRM ...)© Datasio 2012
  10. 10. Autres sources DonnéesDonnées de données intra-entreprise externesmétier (logs web, CRM ...)© Datasio 2012
  11. 11. Applications Big Data© Datasio 2012
  12. 12. Applications Big Data {© Datasio 2012
  13. 13. Applications Big Data {© Datasio 2012
  14. 14. Applications Big Data {© Datasio 2012 {
  15. 15. Applications Big Data { {Carte volée!© Datasio 2012
  16. 16. Applications Big DataSuivi de-reputation© Datasio 2012
  17. 17. Applications Big Data Estimer la production diPhones daprès les numéros de série ...© Datasio 2012
  18. 18. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72© Datasio 2012
  19. 19. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom sameAs SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72© Datasio 2012
  20. 20. Applications Big Data ● Optimisation A/B ● Corrélation usage du site web + transactions ● Suivi de lengagement et monitoring du churn Logs web server In-game events© Datasio 2012
  21. 21. Quelles données, quelle croissance?Logs Graphes dinteractionCroissance linéaire + paliers Croissance exponentielle !!© Datasio 2012
  22. 22. © Datasio 2012
  23. 23. Optimisation Prédiction Business insight Analytique Traitements distribués Stockage distribué© Datasio 2012
  24. 24. Verticaux Big Data© Datasio 2012
  25. 25. Réseaux dinteraction Influence entre utilisateurs Affinité / réponse aux campagnes marketing Sensibilité aux variations de prixE-réputationMonitoring de la satisfaction client Statistiques des vols et dopérations au sol(forums ...) historiques et temps réel (retards, grèves, pertes de bagage ...) FUSION DE DONNEES Stats vols, Prix billets web logs social networks... Monitoring WEB Réponse de lusager à la qualité de service Données CRM et marketing 20100916 130748 Economy Incoming 18 20100916 client Historique 131131 Economy Outgoing 99 20100916 131324 Economy Incoming 214 20100916 131735 Economy Outgoing 72 20100916 183403 Economy Overbooked 0 © Datasio 2012
  26. 26. Flightcaster et la prédiction de retards ● Pourquoi ne pas utiliser les alertes de la compagnie aérienne? ● Pourquoi attend-on si longtemps sur la piste? ● Pourquoi y-a-til écrit “à lheure” alors que lavion nest toujours pas arrivé? ● Quest-ce qui cause les retards? ● Quelles les sont les compagnies les plus ponctuelles? Apprentissage machine – architecture sous Amazon Web Services Basé sur lhistorique des retards, la météo ...© Datasio 2012
  27. 27. General Electrics et la maintenance prédictive ● GE Aviations Integrated Vehicle Health Management ● “Preventive maintenance” basée sur les mesures collectées en vol et au sol ● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance© Datasio 2012
  28. 28. Point de départ Besoin business Entrepôt de données© Datasio 2012
  29. 29. Agenda 2 Hadoop, poids lourd du Big Data Qui lutilise? Comment ça marche?© Datasio 2012
  30. 30. Qui utilise Hadoop? Data mining sur click stream Analyse dimage Production dindex Moteur denchères Conversion de 11 millions darticles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011)© Datasio 2012
  31. 31. 0320 Google Filesystem© Datasio 2012
  32. 32. 03 0420 20 Publication de MapReduce Google Filesystem© Datasio 2012
  33. 33. 06 03 04 2020 20 Publication de MapReduce Google Filesystem© Datasio 2012 Création du projet Apache
  34. 34. 06 08 03 04 2020 20 Publication de 20 MapReduce 10000 machines @ Yahoo! Google Filesystem© Datasio 2012 Création du projet Apache
  35. 35. 06 12 03 04 08 20 2020 20 Publication de 20 MapReduce 10000 machines Cluster 100 PB @ Yahoo! @ Facebook Google Filesystem© Datasio 2012 Ouverture du code source
  36. 36. HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  37. 37. (Resource management) Zookeeper Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  38. 38. Pig Hive (Resource management) (Data DSL) (SQL) Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  39. 39. Cascalog (Data flow) (Distributed Key Value) Pig Hive (Resource management) (Data DSL) (SQL) Hbase Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  40. 40. HDFS = système de fichier distribué CLUSTER CPU Traitement DISK Stockage© Datasio 2012
  41. 41. Rack-awareness + data locality CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud CPU Traitement DISK Stockage© Datasio 2012
  42. 42. Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3) CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud bloc1 bloc1 bloc1 bloc2 bloc2 bloc2 bloc3 bloc3 bloc3 bloc4 bloc4 bloc4© Datasio 2012
  43. 43. Map/Reduce = “diviser pour régner” CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud Map Map Map Map Map Reduce Reduce Reduce© Datasio 2012
  44. 44. Map/Reduce = “diviser pour régner”© Datasio 2012
  45. 45. Map/Reduce = “diviser pour régner”© Datasio 2012
  46. 46. Au-delà de Map/Reduce ● Requête sur données structurées et semi-structurées ● Jobs Map/Reduce à lexécution ● Syntaxe “SQL” ● Extensible (types, UDFs) ● Metadonnées en BD (MySQL) ● Join, Group By, Nestinghive> SELECT a.IP FROM logs a where a.tstamp = <DATE>;© Datasio 2012
  47. 47. Mahout – “intelligence artificielle” à grande échelle ● Règles dassociation et Frequent Itemsets ● Recommendation darticles ● Clustering et K-means ● Arbres de décision … ● PageRank© Datasio 2012
  48. 48. Mahout – “intelligence artificielle” à grande échelle ● Règles dassociation et Frequent Itemsets ● Recommendation darticles ● Clustering et K-means ● Arbres de décision … { ● PageRank Millions et + de transactions© Datasio 2012
  49. 49. Agenda 3 Profession: Data Scientist Son rôle dans lentreprise Comment le recruter? Comment le former? Journée type dun Data Scientist© Datasio 2012
  50. 50. “The sexiest job in the next 10 years will be statistician” Hal Varian, Chief Economist at Google© Datasio 2012
  51. 51. Mesures© Datasio 2012
  52. 52. Signal Mesures© Datasio 2012
  53. 53. Information Signal Mesures© Datasio 2012
  54. 54. Connaissance Information Signal Mesures© Datasio 2012
  55. 55. CV du Data Scientist Docteur es-sciences ... Informaticien ... Consultant ... Statisticien ... “Data hacker” ... Java, Scala, Clojure Python, Perl R, Matlab, SAS Machine learning© Datasio 2012
  56. 56. Boîte à outils Postgres MySQL Pig Logs Logs Logs cascalog Hadoop / HDFS© Datasio 2012
  57. 57. Mode opératoire Nettoyage Choix Tuning de données du modèle ● Scatterplots ● K-Means ● Descente de gradient ● Kernel smoothing ● Clustering ● Maximum de vraisemblance ● Robust EM ● Régression logistique ● Meta-optimisation ● SVM ● Méthodes densemble ● Réseaux de neurones ● Naive Bayes ● Random Forest ● Survival modeling© Datasio 2012
  58. 58. Data visualization© Datasio 2012 (Source: D3)
  59. 59. Merci froyer@datasio.com© Datasio 2012

×