Big Data    Enjeux et technologies© Datasio 2012
© Datasio 2012
Big Data et Data Science dans la presse© Datasio 2012
Nous parlerons ...     adopportunités de création de valeur     ade retours dexpériences     ade technologies “hot”     ad...
Nous éviterons ...     rde casser lexistant     rle catalogue doutils     rles aspects théoriques du Big Data© Datasio 2012
Agenda     1           Big Data & Data Mining – les enjeux     2       Hadoop, poids lourd du Big Data     3       Profess...
Agenda                 1   Big Data & Data Mining© Datasio 2012
Donnéesmétier© Datasio 2012
Autres sources                 de donnéesDonnées                 intra-entreprisemétier                 (logs web, CRM ......
Autres sources                                       DonnéesDonnées                 de données                 intra-entre...
Applications Big Data© Datasio 2012
Applications Big Data                 {© Datasio 2012
Applications Big Data                 {© Datasio 2012
Applications Big Data                 {© Datasio 2012                 {
Applications Big Data                 {                 {Carte volée!© Datasio 2012
Applications Big DataSuivi de-reputation© Datasio 2012
Applications Big Data                                Estimer la production diPhones                                daprès ...
Déduplication de données  2 rue de Grenelle  2 rue de Grenelle                           75007                            ...
Déduplication de données  2 rue de Grenelle  2 rue de Grenelle                           75007                            ...
Applications Big Data                                    ●                                      Optimisation A/B          ...
Quelles données, quelle croissance?Logs                                  Graphes dinteractionCroissance linéaire + paliers...
© Datasio 2012
Optimisation                   Prédiction                 Business insight                   Analytique                  T...
Verticaux Big Data© Datasio 2012
Réseaux dinteraction                                 Influence entre utilisateurs                                         ...
Flightcaster et la prédiction de retards                                                  ●                               ...
General Electrics et la maintenance prédictive                             ●                                 GE Aviations ...
Point de départ Besoin business Entrepôt de données© Datasio 2012
Agenda                 2   Hadoop, poids lourd du Big Data                          Qui lutilise?                         ...
Qui utilise Hadoop?   Data mining sur click stream                      Analyse dimage                      Production din...
0320    Google Filesystem© Datasio 2012
03           0420         20                 Publication de                 MapReduce    Google Filesystem© Datasio 2012
06   03           04                                  2020         20                 Publication de                 MapRe...
06                                     08   03           04                                  2020         20              ...
06                                                                12   03           04                                    ...
HDFS                 (Hadoop Distributed Filesystem)© Datasio 2012
(Resource management)        Zookeeper                                         Map/Reduce                                 ...
Pig                              Hive  (Resource management)                          (Data DSL)                         (...
Cascalog                                                                  (Data flow)                          (Distribute...
HDFS = système de fichier distribué   CLUSTER       CPU                  Traitement      DISK                   Stockage© ...
Rack-awareness + data locality   CLUSTER       Rack               Rack             Rack        Noeud    Noeud     Noeud   ...
Fichiers distribués en blocs, avec facteur de                   réplication N (ici, N=3)   CLUSTER       Rack             ...
Map/Reduce = “diviser pour régner”   CLUSTER       Rack                 Rack              Rack        Noeud       Noeud   ...
Map/Reduce = “diviser pour régner”© Datasio 2012
Map/Reduce = “diviser pour régner”© Datasio 2012
Au-delà de Map/Reduce                             ●                                 Requête sur données structurées       ...
Mahout – “intelligence artificielle” à grande échelle                              ●                                  Règl...
Mahout – “intelligence artificielle” à grande échelle                                     ●                               ...
Agenda                 3   Profession: Data Scientist                          Son rôle dans lentreprise                  ...
“The sexiest job in the next 10 years will be statistician”                              Hal Varian, Chief Economist at Go...
Mesures© Datasio 2012
Signal  Mesures© Datasio 2012
Information                 Signal  Mesures© Datasio 2012
Connaissance                          Information                 Signal  Mesures© Datasio 2012
CV du Data Scientist                    Docteur es-sciences ...                    Informaticien ...                    Co...
Boîte à outils          Postgres           MySQL                 Pig           Logs           Logs           Logs       ca...
Mode opératoire      Nettoyage            Choix                                                       Tuning      de donné...
Data visualization© Datasio 2012                        (Source: D3)
Merci    froyer@datasio.com© Datasio 2012
Upcoming SlideShare
Loading in...5
×

Datasio - Big Data : Enjeux et technologies

2,098

Published on

Enjeux et technologies du Big Data
Présentation par François Royer, Fondateur et Directeur Général, Datasio

- Retour sur l'émergence du Big Data aux USA et en France.
- Tour d'horizon technologique: Hadoop, poids lourd du Big Data, et ses challengers
- Fiche d'identité du Data Scientist
- Le Data Mining comme avantage compétitif

Evénement - Big Data : ne dormez pas sur vos données !
Valtech - 29/11

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,098
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
106
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Datasio - Big Data : Enjeux et technologies

  1. 1. Big Data Enjeux et technologies© Datasio 2012
  2. 2. © Datasio 2012
  3. 3. Big Data et Data Science dans la presse© Datasio 2012
  4. 4. Nous parlerons ... adopportunités de création de valeur ade retours dexpériences ade technologies “hot” ade mise en oeuvre et dapproches pratiques adaspects humains© Datasio 2012
  5. 5. Nous éviterons ... rde casser lexistant rle catalogue doutils rles aspects théoriques du Big Data© Datasio 2012
  6. 6. Agenda 1 Big Data & Data Mining – les enjeux 2 Hadoop, poids lourd du Big Data 3 Profession: Data Scientist© Datasio 2012
  7. 7. Agenda 1 Big Data & Data Mining© Datasio 2012
  8. 8. Donnéesmétier© Datasio 2012
  9. 9. Autres sources de donnéesDonnées intra-entreprisemétier (logs web, CRM ...)© Datasio 2012
  10. 10. Autres sources DonnéesDonnées de données intra-entreprise externesmétier (logs web, CRM ...)© Datasio 2012
  11. 11. Applications Big Data© Datasio 2012
  12. 12. Applications Big Data {© Datasio 2012
  13. 13. Applications Big Data {© Datasio 2012
  14. 14. Applications Big Data {© Datasio 2012 {
  15. 15. Applications Big Data { {Carte volée!© Datasio 2012
  16. 16. Applications Big DataSuivi de-reputation© Datasio 2012
  17. 17. Applications Big Data Estimer la production diPhones daprès les numéros de série ...© Datasio 2012
  18. 18. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72© Datasio 2012
  19. 19. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom sameAs SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72© Datasio 2012
  20. 20. Applications Big Data ● Optimisation A/B ● Corrélation usage du site web + transactions ● Suivi de lengagement et monitoring du churn Logs web server In-game events© Datasio 2012
  21. 21. Quelles données, quelle croissance?Logs Graphes dinteractionCroissance linéaire + paliers Croissance exponentielle !!© Datasio 2012
  22. 22. © Datasio 2012
  23. 23. Optimisation Prédiction Business insight Analytique Traitements distribués Stockage distribué© Datasio 2012
  24. 24. Verticaux Big Data© Datasio 2012
  25. 25. Réseaux dinteraction Influence entre utilisateurs Affinité / réponse aux campagnes marketing Sensibilité aux variations de prixE-réputationMonitoring de la satisfaction client Statistiques des vols et dopérations au sol(forums ...) historiques et temps réel (retards, grèves, pertes de bagage ...) FUSION DE DONNEES Stats vols, Prix billets web logs social networks... Monitoring WEB Réponse de lusager à la qualité de service Données CRM et marketing 20100916 130748 Economy Incoming 18 20100916 client Historique 131131 Economy Outgoing 99 20100916 131324 Economy Incoming 214 20100916 131735 Economy Outgoing 72 20100916 183403 Economy Overbooked 0 © Datasio 2012
  26. 26. Flightcaster et la prédiction de retards ● Pourquoi ne pas utiliser les alertes de la compagnie aérienne? ● Pourquoi attend-on si longtemps sur la piste? ● Pourquoi y-a-til écrit “à lheure” alors que lavion nest toujours pas arrivé? ● Quest-ce qui cause les retards? ● Quelles les sont les compagnies les plus ponctuelles? Apprentissage machine – architecture sous Amazon Web Services Basé sur lhistorique des retards, la météo ...© Datasio 2012
  27. 27. General Electrics et la maintenance prédictive ● GE Aviations Integrated Vehicle Health Management ● “Preventive maintenance” basée sur les mesures collectées en vol et au sol ● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance© Datasio 2012
  28. 28. Point de départ Besoin business Entrepôt de données© Datasio 2012
  29. 29. Agenda 2 Hadoop, poids lourd du Big Data Qui lutilise? Comment ça marche?© Datasio 2012
  30. 30. Qui utilise Hadoop? Data mining sur click stream Analyse dimage Production dindex Moteur denchères Conversion de 11 millions darticles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011)© Datasio 2012
  31. 31. 0320 Google Filesystem© Datasio 2012
  32. 32. 03 0420 20 Publication de MapReduce Google Filesystem© Datasio 2012
  33. 33. 06 03 04 2020 20 Publication de MapReduce Google Filesystem© Datasio 2012 Création du projet Apache
  34. 34. 06 08 03 04 2020 20 Publication de 20 MapReduce 10000 machines @ Yahoo! Google Filesystem© Datasio 2012 Création du projet Apache
  35. 35. 06 12 03 04 08 20 2020 20 Publication de 20 MapReduce 10000 machines Cluster 100 PB @ Yahoo! @ Facebook Google Filesystem© Datasio 2012 Ouverture du code source
  36. 36. HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  37. 37. (Resource management) Zookeeper Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  38. 38. Pig Hive (Resource management) (Data DSL) (SQL) Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  39. 39. Cascalog (Data flow) (Distributed Key Value) Pig Hive (Resource management) (Data DSL) (SQL) Hbase Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)© Datasio 2012
  40. 40. HDFS = système de fichier distribué CLUSTER CPU Traitement DISK Stockage© Datasio 2012
  41. 41. Rack-awareness + data locality CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud CPU Traitement DISK Stockage© Datasio 2012
  42. 42. Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3) CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud bloc1 bloc1 bloc1 bloc2 bloc2 bloc2 bloc3 bloc3 bloc3 bloc4 bloc4 bloc4© Datasio 2012
  43. 43. Map/Reduce = “diviser pour régner” CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud Map Map Map Map Map Reduce Reduce Reduce© Datasio 2012
  44. 44. Map/Reduce = “diviser pour régner”© Datasio 2012
  45. 45. Map/Reduce = “diviser pour régner”© Datasio 2012
  46. 46. Au-delà de Map/Reduce ● Requête sur données structurées et semi-structurées ● Jobs Map/Reduce à lexécution ● Syntaxe “SQL” ● Extensible (types, UDFs) ● Metadonnées en BD (MySQL) ● Join, Group By, Nestinghive> SELECT a.IP FROM logs a where a.tstamp = <DATE>;© Datasio 2012
  47. 47. Mahout – “intelligence artificielle” à grande échelle ● Règles dassociation et Frequent Itemsets ● Recommendation darticles ● Clustering et K-means ● Arbres de décision … ● PageRank© Datasio 2012
  48. 48. Mahout – “intelligence artificielle” à grande échelle ● Règles dassociation et Frequent Itemsets ● Recommendation darticles ● Clustering et K-means ● Arbres de décision … { ● PageRank Millions et + de transactions© Datasio 2012
  49. 49. Agenda 3 Profession: Data Scientist Son rôle dans lentreprise Comment le recruter? Comment le former? Journée type dun Data Scientist© Datasio 2012
  50. 50. “The sexiest job in the next 10 years will be statistician” Hal Varian, Chief Economist at Google© Datasio 2012
  51. 51. Mesures© Datasio 2012
  52. 52. Signal Mesures© Datasio 2012
  53. 53. Information Signal Mesures© Datasio 2012
  54. 54. Connaissance Information Signal Mesures© Datasio 2012
  55. 55. CV du Data Scientist Docteur es-sciences ... Informaticien ... Consultant ... Statisticien ... “Data hacker” ... Java, Scala, Clojure Python, Perl R, Matlab, SAS Machine learning© Datasio 2012
  56. 56. Boîte à outils Postgres MySQL Pig Logs Logs Logs cascalog Hadoop / HDFS© Datasio 2012
  57. 57. Mode opératoire Nettoyage Choix Tuning de données du modèle ● Scatterplots ● K-Means ● Descente de gradient ● Kernel smoothing ● Clustering ● Maximum de vraisemblance ● Robust EM ● Régression logistique ● Meta-optimisation ● SVM ● Méthodes densemble ● Réseaux de neurones ● Naive Bayes ● Random Forest ● Survival modeling© Datasio 2012
  58. 58. Data visualization© Datasio 2012 (Source: D3)
  59. 59. Merci froyer@datasio.com© Datasio 2012
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×