Feedback du EMEA Hadoop Summit 2013
Upcoming SlideShare
Loading in...5
×
 

Feedback du EMEA Hadoop Summit 2013

on

  • 620 views

Restrospective du Hadoop Summit 2013 qui s'est tenu à Amsterdam. Slides présentés dans le cadre du HUG France.

Restrospective du Hadoop Summit 2013 qui s'est tenu à Amsterdam. Slides présentés dans le cadre du HUG France.

Statistics

Views

Total Views
620
Views on SlideShare
343
Embed Views
277

Actions

Likes
0
Downloads
6
Comments
0

5 Embeds 277

http://blog.affini-tech.com 272
http://localhost 2
http://blog.affini-tech.com&_=1377683326956 HTTP 1
http://blog.affini-tech.com&_=1377689694112 HTTP 1
http://blog.affini-tech.com&_=1377690164911 HTTP 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Feedback du EMEA Hadoop Summit 2013 Feedback du EMEA Hadoop Summit 2013 Presentation Transcript

  • AMSTERDAM 20 et 21 Mars 2013Vincent Heuschling@vhe74dimanche 28 avril 13
  • dimanche 28 avril 13
  • dimanche 28 avril 13
  • - Summitdimanche 28 avril 13
  • - SummitSQL - Summit ?dimanche 28 avril 13
  • Communautédimanche 28 avril 13
  • 500 visiteurs~ 100 interrogés par75 % sont engagés dans des projets41 % ont une stratégie sur les données34 % ont une plateforme Hadoop en production43 % expérimententUsages : applications marketing, reco, comportemental,optimisation des contenus...dimanche 28 avril 13
  • 4 TracksApplied HadoopOperating HadoopHadoop FuturesIntegrating Hadoopdimanche 28 avril 13
  • Past Present and Future of Data Processing in ApacheHadoopInnovations in Apache Hadoop MapReduce Pig Hive forImproving Query PerformanceEnterprise integration of Disruptive Technologies (HSBC)Hadoop Operations at LinkedInAnalyzing 1.4 Trillion events with HadoopScaling Big Data Mining Infrastructure Twitter ExperienceCrowd-Sourced Intelligence Built into Search overHadoopdimanche 28 avril 13
  • FUTURE of Hadoopdimanche 28 avril 13
  • Map/Reduce vsYARNdimanche 28 avril 13
  • Map/Reduce vsYARNdimanche 28 avril 13
  • Apache TEZdimanche 28 avril 13
  • Pig/Hive : MR vs TEZdimanche 28 avril 13
  • Innovations in ApacheHadoop MapReduce Pig Hivefor Improving Querydimanche 28 avril 13
  • Enterprise Integration ofDisruptive Technologiesdimanche 28 avril 13
  • dimanche 28 avril 13
  • Nouvelle approche1 plateformeDonnées non structuréesVues multiplesGénérateur de changementScalabilitéEconomieOutil pour le business et les Techsdimanche 28 avril 13
  • dimanche 28 avril 13
  • dimanche 28 avril 13
  • dimanche 28 avril 13
  • dimanche 28 avril 13
  • Economie : coûts / 10Hadoop devient un outil stratégiquePb d’organisation :1 stack pour le stockage et les applicationsRequiert des profils généralistesdimanche 28 avril 13
  • Hadoop Operations@Linkedindimanche 28 avril 13
  • “Hadoop is not a developer problem;it’s an operations problem.”Hadoop vendor ex-employeedimanche 28 avril 13
  • 2009 : 20 nodes20 userspas de monitoringdimanche 28 avril 13
  • 2009 : 20 nodes20 userspas de monitoring2013 : 5000 Nodes in ~10 gridsFull configuration managementFull monitoring – SecurityCapacity scheduler with SLA~700 users5 dedicated operations staff membersdimanche 28 avril 13
  • Schedulingdimanche 28 avril 13
  • Hadoop != Griddimanche 28 avril 13
  • Autres :1 seul benchmark : « Production code »Outils de distributionGestion des utilisateursTout sera rapidement open-sourcé !dimanche 28 avril 13
  • Analyzing 1.4 Trillion eventswith Hadoop(comscore)dimanche 28 avril 13
  • 500 Milliards d’enregistrements par moisdimanche 28 avril 13
  • Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventilerdimanche 28 avril 13
  • Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourdimanche 28 avril 13
  • Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourSolutions :- Partitionner- Trier les données en amontdimanche 28 avril 13
  • Java Map-Reduce quotidien sur 92 jours de donnéesau début 170 Milliards d’enregistrements à trier etventiler.... très rapidement 30h / jourSolutions :- Partitionner- Trier les données en amont... Job exécutés en 3 h !!!dimanche 28 avril 13
  • 120 Nodes(3000 cores / 6TB memory / 2 PB de disques)MAPR M5 2.1.0SYNCSORT pour le tri et le loadingdimanche 28 avril 13
  • Scaling Big Data MiningInfrastructureTwitter Experiencedimanche 28 avril 13
  • Passés de 60 nodes / 6 analystesà~10000 nodes et ~100 analystesdimanche 28 avril 13
  • Beaucoup de temps passé à- Collecter- Déplacer- OrganiserPour logger les données : Flume, Scribe, etc...aujourd’hui :Thrift,AVRO, PROTOBUFConstruction d’un DAL au dessus de HCatalogdimanche 28 avril 13
  • Crowd-Sourced IntelligenceBuilt into Search overHadoopdimanche 28 avril 13
  • Interractions with Big-DataHDFSCommand Line System AdministratorKey-Value storeQueryEngineerIndexKeyword searchEnd Userdimanche 28 avril 13
  • Interractions with Big-DataHDFSCommand Line System AdministratorKey-Value storeQueryEngineerIndexKeyword searchEnd UserReflected Intelligencedimanche 28 avril 13
  • Pour aller plus loin !http://hadoopsummit.org/amsterdam/schedule/http://fr.slideshare.net/Hadoop_Summit/http://www.youtube.com/user/HadoopSummitdimanche 28 avril 13
  • Merci !Vincent HeuschlingGsm : 06 61 88 76 71Email : vhe@affini-tech.comWeb : http://www.affini-tech.comTwitter : @affinitech & @vhe74dimanche 28 avril 13