Cостав дистрибутва Hortonworks data platform 2.3

Знакомство с Hadoop
Докладчик: Плакса Е.А.

2/18Исполнитель: Плакса Е.А.
№ Наименование темы доклада Время
1 что такое Hadoop
Из чего состоит дистрибутив Hadoop - HDP 2.3.2
Начало работы с Hadoop
Бонус и вопросы
10:00 - 11:00
Кофе-брейк 11:00 - 11:15
2 Обзор архитектуры 9 проектов ПриватБанка
использующих Hadoop в режиме вопрос-ответ.
11:15 - 12:30
Повестка мастер класса “Знакомство с Hadoop”

Hadoop Common[⇨]
(связующее программное обеспечение — набор
инфраструктурных программных библиотек и утилит, используемых для других
модулей и родственных проектов)
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит,
библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на
кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных
механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]
.
Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение
разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах
кластера и естественным образом сводимых в конечный результат.
что такое Hadoop?
2013
система для планирования заданий и управления кластером

Дистрибутивы Hadoop
● 2008 Cloudera - cdh 5.5
● 2009 MapR - MapR 5
● 2009 Amazon Elastic MapReduce
● 2011 Hortonworks - HDP 2.3
● 2011 microsoft HDInsight
● Teradata - Aster Big
Analytics appliance
● Pivotal HD 3.0
● IBM - BigInsights 4.1

Hortonworks Data Platform 2.3.2
● Управление данными
● Доступ к данным
● Интеграция данных и планирование
● Администрирование , мониторинг и безопасность

6/18
Исполнитель: Плакса Е.А.
Управление данными
Обработка огромного количества данных,
масштабировать нагрузку можно линейно
● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN,
MapReduce)
● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce
за счет усовершенствования процедуры выполнения графовой модели.
Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.
● Apache Slider 0.80.0 - Окружение предназначенное для систем реального
времени таких как hbase и storm.

Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Пакетная обработка
● Apache Pig 0.15.0 -это высокоуровневый процедурный язык,
предназначенный для выполнения запросов к большим
слабоструктурированным наборам данных.
○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские
функции UDF)
● Apache Hive 1.2.1 - Система управления большими наборами данных.
Используется для создания выборок с помощью SQL-подобного языка (HQL)
В качестве источников данных можно использовать структурированные и не
структурированные хранилища. Hive может быть использован теми, кто
знает язык SQL.!!!
7/18

Работа в реальном времени
● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для
записи/чтения большого объема данных в системах реального времени
○ Apache Phoenix 4.4.0 - SQL оболочка для HBase
● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение
построенная на концепции Google BigTable ( Разработано АНБ США)
● Apache Storm 0.10.0-beta система ориентированная на распределенную
обработку больших потоков данных в реальном времени
● 80К(300К) /мин
● avg 5-20мс

● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового
поиска с открытым исходным кодом, основанная на проекте Apache Lucene.
● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо
диска. Ключевым понятием в Spark-е является RDD (resilient distributed
dataset) — указатель на ленивую распределённую колекцию данных.
Большинство операций над RDD не приводит к каким-либо вычислениям, а
только создаёт очередную обёртку, обещая выполнить операции только
тогда, когда они понадобятся

Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Falcon 0.6.1 - упрощает конфигурацию движения
данных и позволяет установить политику для: сохранения и
репликации данных
● Apache Flume 1.5.2 - используется для потоковой передачи
данных из нескольких источников с возможностью по
резервированию и восстановлению
● Hortonworks DataFlow (Apache nifi) - предназначен для
автоматизации работы с потоками большого количества
данных в разнородных системах (Разработано АНБ США Onyara)

Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Kafka 0.8.2 - распределённая система обмена
сообщениями с высокой пропускной способностью
● Apache Sqoop 1.4.6 -утилита для быстрого копирования
данных между Hadoop и RDBMS
● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально
спроектирован для объединения отдельных MapReduce работ
в единый конвеер и запуска их по расписанию
● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа
к Hdfs, Hive, Pig, Oozie, storm

Администрирование, мониторинг и безопасность
основные инструменты администраторов
● Apache Knox 0.6.0 - обеспечивает единую точку
аутентификации / доступа для кластера
● Apache Ranger 0.5.0 - обеспечивает комплексный
подход к безопасности и хранилище ключей
● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его
мониторинг за счет удобного пользовательского веб-интерфейса и
интерфейса REST API
● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud
Platform и OpenStack
● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации,
хотя его возможности гораздо шире

1. http://hortonworks.com/products/hortonworks-sandbox/#install
или https://aws.amazon.com/ru/
2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery
3. Документация & hadoop summit & google search
Hadoop с чего начать ?

Ambari
.

Hue
.

Linux console & ….
hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,

Hadoop training & certification
$2800
$250
hadoopexam.com

ВОПРОСЫ?
БОНУС
● 14 лекций по Hadoop от Mail.ru
● Скрижали->Разработчикам ПО -> работа с
NoSql
Докладчик: Плакса Е.А.

Cостав дистрибутва Hortonworks data platform 2.3

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to Cостав дистрибутва Hortonworks data platform 2.3

Similar to Cостав дистрибутва Hortonworks data platform 2.3 (20)

Cостав дистрибутва Hortonworks data platform 2.3