Big Data - Open Coffee Brest - 20121121

963 views

Published on

Published in: Technology
1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
963
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
0
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

Big Data - Open Coffee Brest - 20121121

  1. 1. Big
  2. 2. Les 3 V
  3. 3. Volume
  4. 4. Production de données de + en + importanteConservation de plus en plus longueCoût du stockage en diminutionEspoir dextraire un jour de la valeur
  5. 5. Vélocité
  6. 6. Production de données de + en + rapideNécessité danalyser ces données de + en + viteEnvironnement concurrentiel dynamique
  7. 7. Variété
  8. 8. Plus seulement des données structuréesVers une majorité de données non structuréestexte (articles, commentaires, tweets, ...)images (chèques)logs, métriques, ...
  9. 9. Les Challenges
  10. 10. Technologiques
  11. 11. Seek Time
  12. 12. 5-10 ms pour positionner la tête200 déplacements par seconde maximum
  13. 13. Data Transfer Rate
  14. 14. 100 millions doctets par seconde Mo/s 75 100 125 1 Mo 13 ms 10 ms 8 ms 1 CD (700 Mo) 9.1 s 7s 5.6 s 1 Go (1000 Mo) 13 s 10 s 8s 1 DVD (4700 Mo) 1m01s 47 s 37.6 s 1 To (1000 Go) 3h36m 2h46m 2h13m dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000 dd if=payload of=/dev/null iflag=direct bs=1024000
  15. 15. Mo/s 75 100 1251 minute 4.5 Go 6 Go 7.5 Go15 minutes 67.5 Go 90 Go 112.5 Go1 heure 270 Go 360 Go 450 Go1 jour 6.48 To 8.64 To 10.8 To
  16. 16. 78 octets den-tête (38 + 20 + 20) 6-1460 octets de charge utile 94.9 % de la bande passante Mbps 100 1000 800 1 Mo 84.3 ms 8.43 ms 10.5 ms 1 Go (1000 Mo) 1m24s 8.43 s 10.5 s 1 DVD (4700 Mo) 6m36s 39.6 s 49.5 s 1 To (1000 Go) 23h24m 2h20m 2h55m
  17. 17. Quelques exemplesExtraire une sous-chaîne (10→5) 25 nsConvertir une chaîne en nombre 90 nsPasser une chaîne en majuscules 75 nsAllouer un tableau de 100 octets 30 ns 1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
  18. 18. Impact des temps de traitementUne opération nécessitant 10 μspeut être effectuée 100000 fois par secondeLappliquer 1 milliard de fois prend 10000 s 1000 s = 16m40s 10000 s = 2h46m40s 86400 s = 1 jour
  19. 19. Fonctionnels
  20. 20. “ Big data really is about having insights and making an impact on your business. If you aren’t taking advantage of the data you’re collecting, then you just have a pile of data, you don’t have big data. ” Jay Parikh – VP of Engineering, Facebook
  21. 21. Statistiques
  22. 22. Data Mining
  23. 23. Machine Learning
  24. 24. Version Open Source de GFS et Map/Reduce Hadoop Distributed File System
  25. 25. Segmentation des fichiers en blocs A B C Blocs de 64 Mo, favorisent les lectures séquentielles Pas adapté à la gestion de nombreux petits fichiers
  26. 26. Répartition des blocs sur N machines Réplication des blocs pour assurer Performance et Disponibilité A A B B B C C A C
  27. 27. + x =
  28. 28. Parallélisation des traitementset exécution au plus près des données en agissant sur chacun des blocs A A B B B C C A C
  29. 29. (c) 2012 - Tarun Deep Girdher
  30. 30. CrunchCascading (c) 2012 - Tarun Deep Girdher
  31. 31. (c) 2012 - Tarun Deep Girdher
  32. 32. Les Opportunités
  33. 33. (c) 2012 - Tarun Deep Girdher
  34. 34. (c) 2012 - Tarun Deep Girdher
  35. 35. (c) 2012 - Tarun Deep Girdher
  36. 36. ...
  37. 37. (c) 2012 - Tarun Deep Girdher

×