Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hortonwork

221 views

Published on

Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Hortonwork

  1. 1. Hortonworks Architecture-Installation A.Stitou Data Scientist Project Manager
  2. 2. Sommaire • Introduction • Architecture • Composants de la distribution • Composants non Apach Hadoop • Installation
  3. 3. Introduction • Hortonworks a été formé en juin 2011 par des membres de l’équipe Yahoo en charge du projet Hadoop. • but est de faciliter l’adoption de la plate-forme Hadoop d’Apache, c’est pourquoi tous les composants sont open source et sous licence Apache. • Cette distribution est la plus conforme à la plate- forme Hadoop d’Apache et Hortonworks est le gros contributeur Apache Hadoop.
  4. 4. Architecture
  5. 5. Architecture
  6. 6. Composants de la distribution Hortonworks • HDFS : stockage distribué. - MapReduce : Traitements parallélisés. • HBase : Base NoSQL orientée colonnes sur HDFS. • Pig : plate-forme de scripts d’interrogation HDFS. • Hive : Requêtage et Méta-données HDFS. • Oozie : Planification de traitements. • ZooKeeper : Coordination du cluster. • Ambari : Gestion et supervision. • WebHDFS : Accès web aux données. - Ingestion de données : • Talend Open Studio for Big Data. • Sqoop : Interactions avec les SGBD. • Flume : Gestion distribuée des logs. • Mahout : Apprentissage
  7. 7. Composants non Apache Hadoop • Hortonworks Cloudbreak (licence Apache) : Solution agnostique de dimensionnement, de gestion et de monitoring d’un cluster HDP, compatible avec Microsoft Azure, Amazon AWS, Google Cloud Platform, OpenStack pour les offres cloud ainsi qu’Apache Ambari, Docker, Swarm et Consul. • Hortonworks SmartSense (nécessite une licence) : Maintenance proactive d’un cluster HDP, recommandations, optimisation de l’utilisation des ressources. • Solr on YARN (licence Apache) : C’est une version entièrement compatible avec Hadoop, ce qui permet de déployer Solr au sein du cluster et évite de déployer des machines dédiées à Solr
  8. 8. Installation

×