Feedback du EMEA Hadoop Summit 2013

747 views

Published on

Restrospective du Hadoop Summit 2013 qui s'est tenu à Amsterdam. Slides présentés dans le cadre du HUG France.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
747
On SlideShare
0
From Embeds
0
Number of Embeds
385
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Feedback du EMEA Hadoop Summit 2013

  1. 1. AMSTERDAM 20 et 21 Mars 2013Vincent Heuschling@vhe74dimanche 28 avril 13
  2. 2. dimanche 28 avril 13
  3. 3. dimanche 28 avril 13
  4. 4. - Summitdimanche 28 avril 13
  5. 5. - SummitSQL - Summit ?dimanche 28 avril 13
  6. 6. Communautédimanche 28 avril 13
  7. 7. 500 visiteurs~ 100 interrogés par75 % sont engagés dans des projets41 % ont une stratégie sur les données34 % ont une plateforme Hadoop en production43 % expérimententUsages : applications marketing, reco, comportemental,optimisation des contenus...dimanche 28 avril 13
  8. 8. 4 TracksApplied HadoopOperating HadoopHadoop FuturesIntegrating Hadoopdimanche 28 avril 13
  9. 9. Past Present and Future of Data Processing in ApacheHadoopInnovations in Apache Hadoop MapReduce Pig Hive forImproving Query PerformanceEnterprise integration of Disruptive Technologies (HSBC)Hadoop Operations at LinkedInAnalyzing 1.4 Trillion events with HadoopScaling Big Data Mining Infrastructure Twitter ExperienceCrowd-Sourced Intelligence Built into Search overHadoopdimanche 28 avril 13
  10. 10. FUTURE of Hadoopdimanche 28 avril 13
  11. 11. Map/Reduce vsYARNdimanche 28 avril 13
  12. 12. Map/Reduce vsYARNdimanche 28 avril 13
  13. 13. Apache TEZdimanche 28 avril 13
  14. 14. Pig/Hive : MR vs TEZdimanche 28 avril 13
  15. 15. Innovations in ApacheHadoop MapReduce Pig Hivefor Improving Querydimanche 28 avril 13
  16. 16. Enterprise Integration ofDisruptive Technologiesdimanche 28 avril 13
  17. 17. dimanche 28 avril 13
  18. 18. Nouvelle approche1 plateformeDonnées non structuréesVues multiplesGénérateur de changementScalabilitéEconomieOutil pour le business et les Techsdimanche 28 avril 13
  19. 19. dimanche 28 avril 13
  20. 20. dimanche 28 avril 13
  21. 21. dimanche 28 avril 13
  22. 22. dimanche 28 avril 13
  23. 23. Economie : coûts / 10Hadoop devient un outil stratégiquePb d’organisation :1 stack pour le stockage et les applicationsRequiert des profils généralistesdimanche 28 avril 13
  24. 24. Hadoop Operations@Linkedindimanche 28 avril 13
  25. 25. “Hadoop is not a developer problem;it’s an operations problem.”Hadoop vendor ex-employeedimanche 28 avril 13
  26. 26. 2009 : 20 nodes20 userspas de monitoringdimanche 28 avril 13
  27. 27. 2009 : 20 nodes20 userspas de monitoring2013 : 5000 Nodes in ~10 gridsFull configuration managementFull monitoring – SecurityCapacity scheduler with SLA~700 users5 dedicated operations staff membersdimanche 28 avril 13
  28. 28. Schedulingdimanche 28 avril 13
  29. 29. Hadoop != Griddimanche 28 avril 13
  30. 30. Autres :1 seul benchmark : « Production code »Outils de distributionGestion des utilisateursTout sera rapidement open-sourcé !dimanche 28 avril 13
  31. 31. Analyzing 1.4 Trillion eventswith Hadoop(comscore)dimanche 28 avril 13
  32. 32. 500 Milliards d’enregistrements par moisdimanche 28 avril 13
  33. 33. Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventilerdimanche 28 avril 13
  34. 34. Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourdimanche 28 avril 13
  35. 35. Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourSolutions :- Partitionner- Trier les données en amontdimanche 28 avril 13
  36. 36. Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourSolutions :- Partitionner- Trier les données en amont... Job exécutés en 3 h !!!dimanche 28 avril 13
  37. 37. 120 Nodes(3000 cores / 6TB memory / 2 PB de disques)MAPR M5 2.1.0SYNCSORT pour le tri et le loadingdimanche 28 avril 13
  38. 38. Scaling Big Data MiningInfrastructureTwitter Experiencedimanche 28 avril 13
  39. 39. Passés de 60 nodes / 6 analystesà~10000 nodes et ~100 analystesdimanche 28 avril 13
  40. 40. Beaucoup de temps passé à- Collecter- Déplacer- OrganiserPour logger les données : Flume, Scribe, etc...aujourd’hui :Thrift,AVRO, PROTOBUFConstruction d’un DAL au dessus de HCatalogdimanche 28 avril 13
  41. 41. Crowd-Sourced IntelligenceBuilt into Search overHadoopdimanche 28 avril 13
  42. 42. Interractions with Big-DataHDFSCommand Line System AdministratorKey-Value storeQueryEngineerIndexKeyword searchEnd Userdimanche 28 avril 13
  43. 43. Interractions with Big-DataHDFSCommand Line System AdministratorKey-Value storeQueryEngineerIndexKeyword searchEnd UserReflected Intelligencedimanche 28 avril 13
  44. 44. Pour aller plus loin !http://hadoopsummit.org/amsterdam/schedule/http://fr.slideshare.net/Hadoop_Summit/http://www.youtube.com/user/HadoopSummitdimanche 28 avril 13
  45. 45. Merci !Vincent HeuschlingGsm : 06 61 88 76 71Email : vhe@affini-tech.comWeb : http://www.affini-tech.comTwitter : @affinitech & @vhe74dimanche 28 avril 13

×