Hadoop Ecosystème (2013-03) par Affini-Tech

  • 903 views
Uploaded on

Présentation de l'écosystème Hadoop lors du séminaire Big-Data de l'association Aristote de l'école Polytechnique le 27 mars 2013.

Présentation de l'écosystème Hadoop lors du séminaire Big-Data de l'association Aristote de l'école Polytechnique le 27 mars 2013.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
903
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
35
Comments
0
Likes
3

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. HADOOP ET SON ÉCOSYSTÈME Mars 2013 © 2012 Affini-Tech - Diffusion restreinte 1mardi 2 avril 13
  • 2. AFFINI-TECH Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2013 Affini-Tech - Diffusion restreinte 2mardi 2 avril 13
  • 3. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 3mardi 2 avril 13
  • 4. AGENDA BigData Hadoop & Datawarehouses Evolutions Performances Cas d’utilisation © 2013 Affini-Tech - Diffusion restreinte 4mardi 2 avril 13
  • 5. © 2013 Affini-Tech - Diffusion restreinte 5mardi 2 avril 13
  • 6. © 2013 Affini-Tech - Diffusion restreinte 6mardi 2 avril 13
  • 7. LES 4 V DU BIGDATA • Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. • Variété : l’entreprise est confrontée à des données non structurées : emails, web, réseau sociaux, son, image, video... • Vélocité : L’accès et le partage des données doit se faire en temps réel. • Variabilité : On ne sait pas prévoir l’évolution des types de données © 2013 Affini-Tech - Diffusion restreinte 7mardi 2 avril 13
  • 8. BIGDATA VS ANALYTICS Analytics & Business Intelligence Question KPI Collecter Intégrer Reporting BigData Collecter Explorer Modéliser Analyser Partager © 2013 Affini-Tech - Diffusion restreinte 8mardi 2 avril 13
  • 9. Transactionnelles Historisées : B.I. Valeur unitaire Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreintemardi 2 avril 13
  • 10. Transactionnelles Cout Historisées : B.I. Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreintemardi 2 avril 13
  • 11. Performance SQL MPP Volume Variété © 2013 Affini-Tech - Diffusion restreinte 10mardi 2 avril 13
  • 12. Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Ambari Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode © 2013 Affini-Tech - Diffusion restreinte 11mardi 2 avril 13
  • 13. ET LES DATAWAREHOUSES © 2013 Affini-Tech - Diffusion restreinte 12mardi 2 avril 13
  • 14. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 Transactionnel DataWarehouse BI Applications © 2013 Affini-Tech - Diffusion restreinte 13mardi 2 avril 13
  • 15. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse Transactionnel BI Applications & DataMarts © 2013 Affini-Tech - Diffusion restreinte 13mardi 2 avril 13
  • 16. : ETL++ 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse BI Applications Transactionnel & DataMarts © 2013 Affini-Tech - Diffusion restreinte 14mardi 2 avril 13
  • 17. : ETL & DW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 15mardi 2 avril 13
  • 18. : EDW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW & DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 16mardi 2 avril 13
  • 19. EVOLUTIONS Différentes Workloads Map / Reduce ne suffit plus Productivité du développeur Ouverture de l’écosystème Performances © 2013 Affini-Tech - Diffusion restreinte 17mardi 2 avril 13
  • 20. TYPES DE WORKLOADS Batch Stream Interactif Minutes à Millisecondes à Latence Continu Heures Minutes Volume To à Po Flux continu Go à Po Requêtes Modèle Map / Reduce DAG SQL Utilisateurs Développeurs Développeurs Analystes © 2013 Affini-Tech - Diffusion restreinte 18mardi 2 avril 13
  • 21. HADOOP 1 : MAP / REDUCE Task Tracker Task Task Client Job Task Tracker Tracker Client Task Task Task Tracker Task Task © 2013 Affini-Tech - Diffusion restreinte 19mardi 2 avril 13
  • 22. HADOOP 2 : YARN Node Container Manager Master Container Client Ress Node Container Manager Manager Client Master Container Node Container Manager Container Container © 2013 Affini-Tech - Diffusion restreinte 20mardi 2 avril 13
  • 23. YARN Scalabilité (de 4K nodes à 10K+) Containers : unités de processing Utilisation optimale des ressources Compatibilité avec M/R v1 Autres modèles de programmation (MPI...) Haute-Disponibilité © 2013 Affini-Tech - Diffusion restreinte 21mardi 2 avril 13
  • 24. PRODUCTIVITÉ DU DEVELOPPEUR Map/Reduce est contraignant ! Alternatives masquant Map/Reduce : • HIVE : SQL (+ interfaces JDBC) • PIG : Séquences simples de transformation • CASCADING : modèle de programmation simplifié pour tous les langages de la JVM © 2013 Affini-Tech - Diffusion restreinte 22mardi 2 avril 13
  • 25. OUVERTURE DE L’ÉCOSYSTEME Possibilité de substituer des parties d’Hadoop par des codes extérieurs. remplace le tri natif de Hadoop pour améliorer les performances. Remplacement des connecteurs Hadoop par ceux d’ETL classiques du marché © 2013 Affini-Tech - Diffusion restreinte 23mardi 2 avril 13
  • 26. PERFORMANCES Hybridation Hadoop/RDBMS Impala : I/O directes & Bypass HDFS Tez : Réduction de la latence Spark : Map/Reduce in-memory ... © 2013 Affini-Tech - Diffusion restreinte 24mardi 2 avril 13
  • 27. HADOOP + RDBMS Exporter les résultats de requêtes Hadoop vers un SGBD ou un appliance MPP Mixer un SGBD classique et un stockage Hadoop Le SGBD cache les données... Hadapt, CitusDB, PivotalHD, Microsoft Polybase © 2013 Affini-Tech - Diffusion restreinte 25mardi 2 avril 13
  • 28. CLOUDERA IMPALA Projet propriétaire de Cloudera Fonctionnement proche des moteurs MPP & conserve un socle Hadoop Lecture directe des blocs sur disques Format colonne Etend les interfaces de Hive/SQL © 2013 Affini-Tech - Diffusion restreinte 26mardi 2 avril 13
  • 29. APACHE TEZ & STINGER Supprimer les I/O intermédiaires Performances x45 Générique M/R © 2013 Affini-Tech - Diffusion restreinte 27mardi 2 avril 13
  • 30. SPARK & SHARK Spark : Implémentation de M/R en mémoire. Structures de données distribuées. Performances sur les iterations : Machine-Learning Shark offre une compatibilité Hive/SQL Un projet de © 2013 Affini-Tech - Diffusion restreinte 28mardi 2 avril 13
  • 31. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2013 Affini-Tech - Diffusion restreinte 30mardi 2 avril 13