0
HADOOP ET SON                                 ÉCOSYSTÈME                                              Mars 2013   © 2012 A...
AFFINI-TECH                    Méthodes projets                                                  Business                 ...
Collecter                Analyser       Présenter                     Stocker                  Valoriser      Organiser   ...
AGENDA         BigData         Hadoop & Datawarehouses         Evolutions         Performances         Cas d’utilisation  ...
© 2013 Affini-Tech - Diffusion restreinte   5mardi 2 avril 13
© 2013 Affini-Tech - Diffusion restreinte   6mardi 2 avril 13
LES 4 V DU BIGDATA    •    Volume : les technologies actuelles         sont inadaptées à cette croissance         effrénée...
BIGDATA VS ANALYTICS                             Analytics & Business Intelligence                   Question             ...
Transactionnelles            Historisées : B.I.                                                        Valeur unitaire    ...
Transactionnelles                                                        Cout            Historisées : B.I.               ...
Performance                                    SQL                                              MPP                       ...
Hive                 Pig     Cascading            Flume                     HCatalog                 Mahout    Crunch     ...
ET LES                       DATAWAREHOUSES   © 2013 Affini-Tech - Diffusion restreinte   12mardi 2 avril 13
B.I. TRADITIONNELLE                                                                               7%                      ...
B.I. TRADITIONNELLE                                                                               7%                      ...
: ETL++                                                                              7%                                   ...
: ETL & DW                                                                                      7%                        ...
: EDW                                                                                     7%                              ...
EVOLUTIONS                   Différentes Workloads                   Map / Reduce ne suffit plus                   Producti...
TYPES DE WORKLOADS                                               Batch        Stream        Interactif                    ...
HADOOP 1 : MAP / REDUCE                                                           Task                                    ...
HADOOP 2 : YARN                                                        Node        Container                              ...
YARN                   Scalabilité (de 4K nodes à 10K+)                   Containers : unités de processing               ...
PRODUCTIVITÉ DU                          DEVELOPPEUR             Map/Reduce est contraignant !             Alternatives ma...
OUVERTURE DE                                L’ÉCOSYSTEME         Possibilité de substituer des parties         d’Hadoop pa...
PERFORMANCES         Hybridation Hadoop/RDBMS         Impala : I/O directes & Bypass HDFS         Tez : Réduction de la la...
HADOOP + RDBMS         Exporter les résultats de requêtes Hadoop vers         un SGBD ou un appliance MPP         Mixer un...
CLOUDERA IMPALA         Projet propriétaire de Cloudera         Fonctionnement proche des moteurs MPP         & conserve u...
APACHE TEZ & STINGER         Supprimer           les I/O       intermédiaires       Performances            x45           ...
SPARK & SHARK         Spark : Implémentation de M/R en mémoire.         Structures de données distribuées.         Perform...
MERCI !                                              Vincent Heuschling                                              Gsm :...
Upcoming SlideShare
Loading in...5
×

Hadoop Ecosystème (2013-03) par Affini-Tech

1,065

Published on

Présentation de l'écosystème Hadoop lors du séminaire Big-Data de l'association Aristote de l'école Polytechnique le 27 mars 2013.

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,065
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
46
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Transcript of "Hadoop Ecosystème (2013-03) par Affini-Tech"

  1. 1. HADOOP ET SON ÉCOSYSTÈME Mars 2013 © 2012 Affini-Tech - Diffusion restreinte 1mardi 2 avril 13
  2. 2. AFFINI-TECH Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2013 Affini-Tech - Diffusion restreinte 2mardi 2 avril 13
  3. 3. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 3mardi 2 avril 13
  4. 4. AGENDA BigData Hadoop & Datawarehouses Evolutions Performances Cas d’utilisation © 2013 Affini-Tech - Diffusion restreinte 4mardi 2 avril 13
  5. 5. © 2013 Affini-Tech - Diffusion restreinte 5mardi 2 avril 13
  6. 6. © 2013 Affini-Tech - Diffusion restreinte 6mardi 2 avril 13
  7. 7. LES 4 V DU BIGDATA • Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. • Variété : l’entreprise est confrontée à des données non structurées : emails, web, réseau sociaux, son, image, video... • Vélocité : L’accès et le partage des données doit se faire en temps réel. • Variabilité : On ne sait pas prévoir l’évolution des types de données © 2013 Affini-Tech - Diffusion restreinte 7mardi 2 avril 13
  8. 8. BIGDATA VS ANALYTICS Analytics & Business Intelligence Question KPI Collecter Intégrer Reporting BigData Collecter Explorer Modéliser Analyser Partager © 2013 Affini-Tech - Diffusion restreinte 8mardi 2 avril 13
  9. 9. Transactionnelles Historisées : B.I. Valeur unitaire Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreintemardi 2 avril 13
  10. 10. Transactionnelles Cout Historisées : B.I. Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreintemardi 2 avril 13
  11. 11. Performance SQL MPP Volume Variété © 2013 Affini-Tech - Diffusion restreinte 10mardi 2 avril 13
  12. 12. Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Ambari Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode © 2013 Affini-Tech - Diffusion restreinte 11mardi 2 avril 13
  13. 13. ET LES DATAWAREHOUSES © 2013 Affini-Tech - Diffusion restreinte 12mardi 2 avril 13
  14. 14. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 Transactionnel DataWarehouse BI Applications © 2013 Affini-Tech - Diffusion restreinte 13mardi 2 avril 13
  15. 15. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse Transactionnel BI Applications & DataMarts © 2013 Affini-Tech - Diffusion restreinte 13mardi 2 avril 13
  16. 16. : ETL++ 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse BI Applications Transactionnel & DataMarts © 2013 Affini-Tech - Diffusion restreinte 14mardi 2 avril 13
  17. 17. : ETL & DW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 15mardi 2 avril 13
  18. 18. : EDW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW & DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 16mardi 2 avril 13
  19. 19. EVOLUTIONS Différentes Workloads Map / Reduce ne suffit plus Productivité du développeur Ouverture de l’écosystème Performances © 2013 Affini-Tech - Diffusion restreinte 17mardi 2 avril 13
  20. 20. TYPES DE WORKLOADS Batch Stream Interactif Minutes à Millisecondes à Latence Continu Heures Minutes Volume To à Po Flux continu Go à Po Requêtes Modèle Map / Reduce DAG SQL Utilisateurs Développeurs Développeurs Analystes © 2013 Affini-Tech - Diffusion restreinte 18mardi 2 avril 13
  21. 21. HADOOP 1 : MAP / REDUCE Task Tracker Task Task Client Job Task Tracker Tracker Client Task Task Task Tracker Task Task © 2013 Affini-Tech - Diffusion restreinte 19mardi 2 avril 13
  22. 22. HADOOP 2 : YARN Node Container Manager Master Container Client Ress Node Container Manager Manager Client Master Container Node Container Manager Container Container © 2013 Affini-Tech - Diffusion restreinte 20mardi 2 avril 13
  23. 23. YARN Scalabilité (de 4K nodes à 10K+) Containers : unités de processing Utilisation optimale des ressources Compatibilité avec M/R v1 Autres modèles de programmation (MPI...) Haute-Disponibilité © 2013 Affini-Tech - Diffusion restreinte 21mardi 2 avril 13
  24. 24. PRODUCTIVITÉ DU DEVELOPPEUR Map/Reduce est contraignant ! Alternatives masquant Map/Reduce : • HIVE : SQL (+ interfaces JDBC) • PIG : Séquences simples de transformation • CASCADING : modèle de programmation simplifié pour tous les langages de la JVM © 2013 Affini-Tech - Diffusion restreinte 22mardi 2 avril 13
  25. 25. OUVERTURE DE L’ÉCOSYSTEME Possibilité de substituer des parties d’Hadoop par des codes extérieurs. remplace le tri natif de Hadoop pour améliorer les performances. Remplacement des connecteurs Hadoop par ceux d’ETL classiques du marché © 2013 Affini-Tech - Diffusion restreinte 23mardi 2 avril 13
  26. 26. PERFORMANCES Hybridation Hadoop/RDBMS Impala : I/O directes & Bypass HDFS Tez : Réduction de la latence Spark : Map/Reduce in-memory ... © 2013 Affini-Tech - Diffusion restreinte 24mardi 2 avril 13
  27. 27. HADOOP + RDBMS Exporter les résultats de requêtes Hadoop vers un SGBD ou un appliance MPP Mixer un SGBD classique et un stockage Hadoop Le SGBD cache les données... Hadapt, CitusDB, PivotalHD, Microsoft Polybase © 2013 Affini-Tech - Diffusion restreinte 25mardi 2 avril 13
  28. 28. CLOUDERA IMPALA Projet propriétaire de Cloudera Fonctionnement proche des moteurs MPP & conserve un socle Hadoop Lecture directe des blocs sur disques Format colonne Etend les interfaces de Hive/SQL © 2013 Affini-Tech - Diffusion restreinte 26mardi 2 avril 13
  29. 29. APACHE TEZ & STINGER Supprimer les I/O intermédiaires Performances x45 Générique M/R © 2013 Affini-Tech - Diffusion restreinte 27mardi 2 avril 13
  30. 30. SPARK & SHARK Spark : Implémentation de M/R en mémoire. Structures de données distribuées. Performances sur les iterations : Machine-Learning Shark offre une compatibilité Hive/SQL Un projet de © 2013 Affini-Tech - Diffusion restreinte 28mardi 2 avril 13
  31. 31. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2013 Affini-Tech - Diffusion restreinte 30mardi 2 avril 13
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×