Retour Hadoop Summit San José 2014 - Altic
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Retour Hadoop Summit San José 2014 - Altic

on

  • 487 views

Les éléments intéressants retenus lors du Hadoop Summit de San José en Juin 2014 : Charly Clairmont, d'Altic nous fait un retour.

Les éléments intéressants retenus lors du Hadoop Summit de San José en Juin 2014 : Charly Clairmont, d'Altic nous fait un retour.

Statistics

Views

Total Views
487
Views on SlideShare
487
Embed Views
0

Actions

Likes
0
Downloads
17
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Retour Hadoop Summit San José 2014 - Altic Presentation Transcript

  • 1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France – 11 Juin 2014 Retours du Hadoop Summit 2014 San José Charly CLAIRMONT charly[.]clairmont[@]altic.org @egwada
  • 2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Hadoop, la révolution est toujours en marche ! Plus de 3 000 conférenciers Plus d'exposants Plus de sessions
  • 3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Ce qu'il fallait retenir ! ( selon moi ;-) ) ● SQL on Hadoop ! ● Plus de types traitements au dessus d'Hadoop ● Simplifier Hadoop !
  • 4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ SQL on Hadoop ! ● Beaucoup d'acteurs traditionnels sont venus à Hadoop ! ● Et bien sûr ils font avec ce qu'ils savent faire : SQL ● De même beaucoup de couches SQL pour Hadoop existent... ● Trop ??
  • 5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ SQL on Hadoop ! ● Tout le monde cherche à approcher des temps de réponse humainement acceptable ● « Discardable In-Memory Materialized Queries » ● Grâce Optiq de Julian Hyde – Son but ultime : – « faire tourner Mondrian (OLAP) au dessus d'Hadoop » ● Projet à suivre
  • 6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ SQL on Hadoop ! « Discardable In-Memory Materialized Queries » Pas que pour Hive ! Pig et les autres composants en bénéficieront
  • 7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Plus de types traitements au dessus d'Hadoop
  • 8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Plus de types traitements au dessus d'Hadoop ● Encrer l'approche ● Data Lake ● Data Hub Ou plutôt ● Réservoir – Plus approprié ?!
  • 9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Plus de types traitements au dessus d'Hadoop Pour gérer, traiter tous types de formats de données
  • 10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! ● Rendre Hadoop plus « people ready » ! ● Beaucoup d'initiatives en ce sens – Ambari – Falcon – HCatalog / Templeton – OpenStack Sahara – Hadoop telle une plate-forme – JetStream (continuuity, at&t) – ... ● Tous les projets – qui visent la performance – qui augmentent la productivité
  • 11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! Amabari ● simplifie la gestion du cluster ● devient la porte d'entrée des utilisateurs finaux
  • 12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! Falcon ● Un point unique pour manipuler toutes les données sur tous vos clusters
  • 13. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! HCatalog / Templeton : apporter la cohérence dans les données
  • 14. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! Hadoop, une plate-forme Couches logicielles Technologies Traitements massivement parallèles YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ... Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, Lustre MapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ... Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...) Distributions Cloudera, Hortonworks, IBM, MapR, Pivotal, WanDisco
  • 15. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! Toutes les autres projets... ● Parquet ● Summingbird ● Hivemall ● Kite ● Spring XD ● Reef ● … ● YARN + Docker ● Mesos & co
  • 16. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Simplifier Hadoop ! YARN plus accessible
  • 17. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Conclusion ● Ne pas résumer Hadoop à SQL ● Approche trop réducteur qui efface tellement de possibilités ● Hadoop gagne du terrain ● Commencer petit et viser grand – POC > Production > Plate-forme ● YARN a tout changé
  • 18. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Bonus (1) ● Des rencontres, sans doute des futurs talks au HUG France ● Parquet – Julien Le DEM (Twitter) ● Cascasding, Driven ● OpenStack Sahara – Matthew Farrellee (Red Hat) ● Spark – Nathan Paco (Stanford, Databriks)
  • 19. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Bonus (2) ● Altic, LIPEN & Tugdual Sarazin ● Thèse : Biclustering en big data – Cartographier vos données – Implémentation Spark ● On recherche des jeux de données sympas pour tester les algorithmes implémentés à grande échelle. – Si vous en avez, parlons en !
  • 20. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France - 11 Juin 2014 Retours Hadoop Summit 2014 Merci pour votre attention Charly CLAIRMONT Charly CLAIRMONT @egwada