Présentation des solutions big data pour Aristote 9-6-2011

1,769 views

Published on

Face au déluge de donnée, que nous vivons aujourd'hui, quelles sont les réponses des grands acteurs du marché ? Quels défis présente cette explosion du volume de données pour les infrastructures. Décryptage des offres des grands constructeurs que sont EMC, IBM, Oracle…, et des architectures innovantes du monde opensource.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,769
On SlideShare
0
From Embeds
0
Number of Embeds
148
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Présentation des solutions big data pour Aristote 9-6-2011

  1. 1. Cartographie des solutions BigData Panorama du marché et prospective 1samedi 11 juin 2011 1
  2. 2. Solutions BigData • Défi(s) pour les fournisseurs • Quel marché • Architectures • Acteurs commerciaux • Solutions alternatives Solutions BigData le 9/6/2011 2 Vincent Heuschlingsamedi 11 juin 2011 2
  3. 3. Quels Défis ? • des volumes impossibles à traiter : • 30 To de logs par jour chez Facebook • 15 Po de data par an au CERN • des croissances vertigineuses • du business en temps réel • des données différentes : • Non structurées, réparties , NoSQL... Solutions BigData le 9/6/2011 3 Vincent Heuschlingsamedi 11 juin 2011 3
  4. 4. Le quadrant magique (DW database management) Solutions BigData le 9/6/2011 4 Vincent Heuschlingsamedi 11 juin 2011 4
  5. 5. Positionnement des acteurs du marché Exadata Teradata DB2 Greenplum Netezza Isilon sonas HDFS NoSQL Oracle DB2 Solutions BigData le 9/6/2011 5 Vincent Heuschlingsamedi 11 juin 2011 5
  6. 6. ROI • Révolutionne les datawarehouses existants • ROI de 27 mois à 6 mois • 3 fois moins cher • 4 fois plus rapide à implémenter Solutions BigData le 9/6/2011 6 Vincent Heuschlingsamedi 11 juin 2011 6
  7. 7. Architecture & composants • Shared Disk vs Share Nothing Arch. • Hadoop / HBase / HDFS • Map Reduce Solutions BigData le 9/6/2011 7 Vincent Heuschlingsamedi 11 juin 2011 7
  8. 8. Map Reduce Map Function : output ( word : 1 ) Reduce Function : output ( word : sum(1) ) Solutions BigData le 9/6/2011 8 Vincent Heuschlingsamedi 11 juin 2011 8
  9. 9. Map Reduce • S’appuie sur une base key / value • est scalable sur n serveurs • permet d’enchainer plusieurs Reduce • beaucoup d’implémentations Solutions BigData le 9/6/2011 9 Vincent Heuschlingsamedi 11 juin 2011 9
  10. 10. Acteurs du marché • Teradata • Oracle / Exadata • IBM / Netezza • EMC / Greenplum • ... Solutions BigData le 9/6/2011 10 Vincent Heuschlingsamedi 11 juin 2011 10
  11. 11. Teradata • Depuis 1979 • Appliances • Share nothing arch. • Parallélisme • Pour les DW • De 6 To à 92 Po Solutions BigData le 9/6/2011 11 Vincent Heuschlingsamedi 11 juin 2011 11
  12. 12. Oracle Exadata • «Database machine» (n’est pas une appliance) • Serveurs de stockage (168 cores, 5 TB de flash cache, 45 TB utiles) • Serveurs de traitements (128 cores / 2 TB de mémoire) • 1500000 IOPS • Data Load Rate: Up to 12 TB/hour Solutions BigData le 9/6/2011 12 Vincent Heuschlingsamedi 11 juin 2011 12
  13. 13. EMC Greenplum • Serveurs std • Share nothing arch • Map Reduce • SQL Solutions BigData le 9/6/2011 13 Vincent Heuschlingsamedi 11 juin 2011 13
  14. 14. IBM Netezza • Blades IBM + Disques + FPGAs • Share nothing arch. • Map Reduce & SQL • Data load rates de 2TB/h • Produits : Skimmer (1TB à 10TB) & TwinFin (1TB à 1PB+) Solutions BigData le 9/6/2011 14 Vincent Heuschlingsamedi 11 juin 2011 14
  15. 15. Alternatives et Opensource • Active circle • Bases NOSQL • Apache HADOOP • Database.com • Amazon Elastic Map Reduce Solutions BigData le 9/6/2011 15 Vincent Heuschlingsamedi 11 juin 2011 15
  16. 16. Active Circle • FileSystem distribué • Accès par NAS ou API • Virtualisation sur disque et bande • Noeuds locaux ou distants • Réplication • Hiérarchisation Solutions BigData le 9/6/2011 16 Vincent Heuschlingsamedi 11 juin 2011 16
  17. 17. NOSQL : Not Only SQL • Cassandra • Google’s BigTable : HBase • MongoDB (documents, JSON) • CouchDB (documents, JSON) Solutions BigData le 9/6/2011 17 Vincent Heuschlingsamedi 11 juin 2011 17
  18. 18. Apache HADOOP • HDFS (distributed high throughput FS) • MapReduce • HBase (scalable, distributed database) • Hive (data warehouse infrastructure) • Mahout (data mining library) • Pig: (framework for parallel computation) • ZooKeeper (distributed applications) Solutions BigData le 9/6/2011 18 Vincent Heuschlingsamedi 11 juin 2011 18
  19. 19. Amazon Elastic Map Reduce • Logique de PaaS : • Stockage avec Amazon S3 • Processing avec un cluster Amazon EC2 • Mise en oeuvre instantanée • Simple • Economique (0,3 $ / heure par node) Solutions BigData le 9/6/2011 19 Vincent Heuschlingsamedi 11 juin 2011 19
  20. 20. Database.com • Database as a Service (DaaS) • Multi-tenant • Scalable à l’infini • économique : ($10 / mois / 100000 records ) Solutions BigData le 9/6/2011 20 Vincent Heuschlingsamedi 11 juin 2011 20
  21. 21. Conclusions • Des solutions dans la continuité de l’existant. • Des innovations permettant des ROI attrayants : Attention aux ruptures • Outils opensource en voie de maturation Solutions BigData le 9/6/2011 21 Vincent Heuschlingsamedi 11 juin 2011 21
  22. 22. MERCI Vincent Heuschling vincent@heuschling.com twitter : @vhe74 22samedi 11 juin 2011 22

×