Hadoop prêt pour l'Entreprise
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Hadoop prêt pour l'Entreprise

on

  • 1,009 views

Présentation Conférence "Bigdata Niort" ...

Présentation Conférence "Bigdata Niort"

Hadoop, prêt pour l’entreprise

Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise.

Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances.

http://www.bigdata-niort.fr/charly-clairmont/

Statistics

Views

Total Views
1,009
Views on SlideShare
1,008
Embed Views
1

Actions

Likes
2
Downloads
56
Comments
0

1 Embed 1

http://www.slideee.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Hadoop prêt pour l'Entreprise Presentation Transcript

  • 1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Big Data Niort - 20 Mars 2014 Hadoop « Enterprise Ready » Hadoop prêt pour l'entreprise Charly CLAIRMONT Altic charly.clairmont@altic.org @egwada
  • 2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Mon parcours ● Depuis 2004 - ALTIC ● Mes Technos … ...
  • 3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop User Group France ● Créé en 2012 ● Plus de 300 membres ● Plus de 100 membres par meetup ● Vimeo (23 vidéos) ● http://vimeo.com/user11241340 ● SlideShare (Présentations (29) ● http://fr.slideshare.net/hugfrance ● Twitter ● @hugFrance ● #HugFr ● Site ● http://hugfrance.fr Un groupe de plus en plus actif ! (messages échangés sur l'année)
  • 4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop une brève histoire, déjà 10 ans ! 2011 Hortonworks founded 2012 2013 Hadoop 1.0 Hadoop 2.0 HugFrance
  • 5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop une brève histoire, déjà 10 ans ! le détail ● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google ● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds ● 2006 Jan. - Doug Cutting rejoind Yahoo! ● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce ● 2006 Fev. - Yahoo! adopte Hadoop ● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures. ● 2006 Mai. - Yahoo! a un cluster de 300 nœuds ● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines) ● 2006 Oct. - Hadoop s'exécute sur 600 nœuds ● 2006 Dec. - Benchmark Tri ● 20 nœuds : 1,8 heures ● 100 nœuds : 3,3 heures ● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures ● 2007 Jan. - Hadoop s'exécute sur 900 nœuds ● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds ● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop ● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds ● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds ● ... ● ... ● 2012 Jan. 4 - Hadoop 1.0 ● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN) ● 2013 Oct. 16 - Hadoop 2.0
  • 6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Et en 10 ans son adoption ne fait plus de doute !
  • 7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop est robuste ! ● Stable ● Testé - Yahoo! (40 000 nœuds) ● Fiable ● Tolérant à la panne ● Flexible ● Schéma à la lecture ! ● Passage à l'échelle ● Économique ● Prédictibilité des coûts
  • 8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, système d'exploitation de la donnée
  • 9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS, le système de fichiers distribué ● Distribué ● Passage à l'échelle ● Auto-surveillance pour redistribuer la donnée ● Peu gourmand en bande passante
  • 10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, calcul parallèle en toute simplicité Map Reduce Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Entées Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Key|Value Intermédiaire Key|Value, Key|Value, Key|Value, Key|Value Résultat = un type de collection Key|Value, Key|Value, Key|Value Key|Value, Key|Value
  • 11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, architecture basique Input Format Map Sort Reduce Output Format Node Node Partitioner MapReduce HDFS (Distributed File System)
  • 12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS et MAP / REDUCE au cœur d'Hadoop
  • 13. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS, range donc les fichiers
  • 14. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HDFS sait où se situe chacun des blocs de données
  • 15. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)
  • 16. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)
  • 17. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HBASE, du NoSQL sur Hadoop ● Distribuée ● Orientée colonnes ● Multidimensionnelle ● Haute Disponibilité ● Haute Performance ● Système de stockage
  • 18. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hive, la couche SQL d'Hadoop HDFS DDL QueriesBrowsing MapReduce MetaStore Thrift API SerDe Thrift Jute JSON.. Execution Driver Parser Planner DB WebUI Optimizer JDBC ODBCCLI
  • 19. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ PIG, pas de Map / Reduce plutôt du script !
  • 20. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Importer / exporter NFS ● Naviguer dans HDFS depuis votre explorateur de fichiers Flume ● Collecte de grands volume de données (logs, événements...) vers Hadoop WebHDFS ● Service REST pour HDSF SQOOP ● Importer et exporter vos données rangées dans votre SGBDR
  • 21. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Exploitation Oozie ● Planification de jobs Ambari ● Installation, gestion, surveillance du cluster Hadoop Falcon ● Gestion cycle de vie des données ● Réplication
  • 22. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Sécurité Knox ● Gestion étendue, unifiée et globale de la sécurité dans Hadoop ● Supporte l'authentification et la gestion des jetons de sécurité. KNOX
  • 23. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop 2 ! Plus de types de traitements !
  • 24. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ YARN, transforme Hadoop en OS de la donnée
  • 25. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Grâce à Yahoo! un standard est né
  • 26. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, un vibrant écosystème
  • 27. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Et c'est bien l'open source qui mène la danse...
  • 28. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Tellement reconnu... qu'il grignote des places... lentement mais sûrement... Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme ● Un excellent complément au data Warehouse ● Une zone de staging et un ETL de grande efficacité
  • 29. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop pourra tout traiter « Le transactionnel » Déjà dans toutes les têtes Surtout celle de Doug CUTTING, le père d'Hadoop !
  • 30. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Pas de bidouillage ! De vrais outils ! Exploitation ETL Exploration Visualisations
  • 31. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Avec de vrais acteurs !
  • 32. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Des solutions disruptives et structurantes Couches logicielles Technologies Traitements massivement parallèles YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ... Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, Lustre MapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ... Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...) Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco
  • 33. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, lac de données
  • 34. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Avec de vrais projets ! #HugFrance a eu de vrais retour d'expérience ● Paris – Crédit Mutuel Arkea ● Consolidation données clients – EDF ● Nouveau Compteur électrique « Linky » – Criteo ● Annonces publicitaires en ligne – 55 ● Optimisation publicité en ligne ● Lyon – Booking.com ● Réservation de nuitées d'hôtel
  • 35. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, C'est avant tout du logiciel ! Il aide à délivrer la vraie valeur de toutes vos données Lancez vous ! Hadoop, C'est avant tout du logiciel ! Il aide à délivrer la vraie valeur de toutes vos données Lancez vous !
  • 36. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Big Data Niort - 20 Mars 2014 Hadoop « Enterprise Ready » Merci pour votre attention Charly CLAIRMONT Altic charly.clairmont@altic.org @egwada