Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introductory Keynote at Hadoop Workshop by Ospcon (2014)

568 views

Published on

Note on Hadoop Ecosystem status: Apache Software Foundation projects around Hadoop, Hadoop-as-a-Service solutions, hadoop appliances, hadoop-enabled architecture solutions

Published in: Software
  • Be the first to comment

Introductory Keynote at Hadoop Workshop by Ospcon (2014)

  1. 1. ЭКОСИСТЕМЫHADOOP Становление и тенденции коммерциализации
  2. 2. ЭКОСИСТЕМА? «Экосистема» как архитектура конкретных решений, использующих Hadoop Тиражируемые ИТ-решения, связанные с Hadoop «Экосистема» программных продуктов, стыкующихсяс Hadoop(как проектов фонда Apache, так и сторонних) Готовые сборки «экосистем» – дистриубитвы Hadoop Готовые услуги по предоставлению «экосистем» – «Hadoopкак услуга» Готовые аппаратно- программные «экосистемы»
  3. 3. HADOOPИ СВЯЗАННЫЕ ПРОЕКТЫ Проекты Apache Сторонние проекты
  4. 4. HADOOP2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ YARN[yet another resource negotiator] От MapReduceотделена логика управления ресурсами и планирования заданий Мультиарендностьв одном кластере YARN –«кластерная операционная система» Изображения: ©2014, Hortonworks
  5. 5. “ЭКОСИСТЕМА” ПРОЕКТОВ HDFS GlusterFS Ceph YARN MapReduce (пакетная обработка) Tez (интерактивная обработка) Amazon S3 CloudStore Swift Pig (сценарии) Hive (запросы) HBase (NoSQL) Impala (SQL) Drill (аналог Dremel) Mahout (машинное обучение) Zookeeper (координатор) Ambari (управление) Hue (ClouderaManager) Ganglia (монитор) Spark(оперативная обработка) Storm (поточная обработка) Kafka (брокер сообщений) Oozie (workflow) Sqoop (пакетная загрука) Flume (поточная загрузка) Hama (машинное обучение) Taychon(in-memory data grid) Azure Blob Storage файловые системы объектные хранилища обработчики СУБД-сервис глубинный анализ связующие управляющие Сторонние проекты ЯдроHadoop Проекты Фонда Apache BigTop (сборка пакетов)
  6. 6. ©2014, Arian Nawa ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАННАВА)
  7. 7. ДИСТРИБУТИВЫ HADOOP
  8. 8. Рынок дистрибутивов Hadoop ДИСТРИБУТИВЫ-ЛИДЕРЫ Cloudera Oracle Big Data Appliance EMC Isilon MapR Amazon EMR Pivotal GreenplumHD(первая версия) Hortonworks Teradata MircosoftWindows и Azure Изображение: ©2013, Altoros
  9. 9. ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ» IBM выпускается EMC (Pivotal) выпускается Intel закрыт(в пользу Cloudera) Yahoo закрыт [в пользу Hortonworks] Дистрибутивы Linux Red Hat,Fedora, CentOS SuSE Debian, Ubuntu Apache BigTop .rpm .deb рецепты для Vagrant, docker…
  10. 10. HADOOPКАК УСЛУГА Hadoopв публичных облаках
  11. 11. ОСНОВНЫЕ ПРОВАЙДЕРЫ •На базе MapR •Интегрирован с S3 AmazonElastic MapReduce •На базе Hortonworks •Интегрирован с SwiftFS Rackspace •На базе Hortonworks Microsoft Azure •BigInsights IBM Bluemix
  12. 12. HADOOP- КОМПЛЕКСЫ Тиражируемые интегрированные аппаратно- программные комплексы с Hadoop
  13. 13. КОМПЛЕКСЫ Hadoopна «голом железе» Oracle Big Data Appliance Teradata HadoopAppliance EMC/PivotalGreenplumHD Конвергентные комплексы VCE [Cisco –Vmware–EMC] FlexPod[Cisco –… –NetApp] IBM/LenovoPure for Hadoop
  14. 14. КАРТИНЫ МИРА ОТ DATAMEER …названные «экосистема Hadoop»
  15. 15. HADOOP ECOSYSTEM as of January, 2012 Изображение: ©2012, Datameer
  16. 16. Изображение: ©2013, Datameer
  17. 17. Изображение: ©2014, Forrester Research … И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)
  18. 18. АРХИТЕКТУРНЫЕ РЕШЕНИЯ
  19. 19. Λ-АРХИТЕКТУРА Все данные Свежие данные Предобработанныеданные слой раздачи … пакетный слой быстрый слой Данные реального времени Поток данных Инкремент данных Комплексный агрегат Частичный агрегат Частичный агрегат Пакетные представления Представление реального времени MapReduce Storm HDFS Flume Flume HBase Свежие данные подпадают одновременно в слои пакетной и быстрой обработки и комбинируются в отдельном слое раздачи
  20. 20. SPARK Самый активный свободный проект в области больших данных file= spark.textFile("hdfs://...") file.flatMap(lambdaline: line.split()) .map(lambdaword: (word, 1)) .reduceByKey(lambdaa, b: a+b) Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти Изображение: ©2014, Apache Software Foundation Shark SparkSQL Spark streaming MLib GraphX Проекты над Spark:
  21. 21. SQL НАД HADOOP Изображение: ©2014, GigaomResearch Федераторы Teradata SQL-H GreenplumHawk Встраиваемые в «экосистему» (YARN) ClouderaImpala Hadapt(поглощена Teradata) SQL над Apache Spark Shark Spark SQL В развитие Hive HortonworksStinger Facebook Presto «Появление решений, обеспечивающих выполнение ANSI SQL над Hadoop создало непосредственную возможность признания Hadoopуже в 2015 году как практической платформы данных для широкого круга организаций» Forrester Research, ноябрь 2014
  22. 22. ГЛОССАРИЙ
  23. 23. Applicance Программно- аппаратный комплекс Комплекс Bare-metal «Голое железо» Box Узел Chunk Блок данных Commodity hardware Оборудование массового класса Curring Каррирование A…J Data node Узел данных Deployment Развёртывание Direct- attached storage Устройство хранения прямого подключения Engine Механизм Движок Job Задание Job tracker Трекерзаданий
  24. 24. Machine Машина Map [?] Mapper [?] Mapping Соответствие Master node Главный узел Multi- tennancy Мульти- арендность M…R Name node Узел имён Namespace Пространство имён Node Узел Realtime …реального времени Reduce Свёртка Сведение Reducer Свёртка
  25. 25. S…W Shard Узел [распределённого хранения] Shuffle Тасовка Slave node Подчинённый узел Slot Слот Stack Стек Task Задача Task tracker Трекерзадач Trail След Worker Исполнитель Worker node Узел исполнения Workflow Поток операций Workload Нагрузка
  26. 26. СПАСИБО ЗА ВНИМАНИЕ! mailto:anikolaenko@ibs.ru

×