Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Лекция 1. Введение в Big Data и MapReduceTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Лекция 3. Распределённая файловая система HDFSTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Лекция 1. Введение в Big Data и MapReduceTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Лекция 3. Распределённая файловая система HDFSTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных".
Лекция №10 "Нереляционное решение в области баз данных — NoSQL". Лектор - Станислав Ступников.
Вводная часть посвящена определению и истории развития концепции NoSQL. Даются характеристики, рассказывается о способах использования. Рассматриваются виды NoSQL БД, теоретические основы NoSQL, а в конце лекции обсуждаются недостатки NoSQL-решений, а также проводится сравнение разных NoSQL-решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Энергоэффективная обработка Больших Данных на гетерогенных многоядерных компьютерных кластерах
Дистрибутив Hadoop основанный на
Apache Bigtop (bigtop.apache.org)
Следующем поколении планировщика Apache Hadoop YARN
Использует параллельные вычислительные мощности GPU нового поколения средствами Java
Зеленый ЦОД
- Sahara как инструмент запуска и управления программным обеспечением для хранения и обработки больших массивов данных (Hadoop) на облаках под управлением OpenStack;
- Общий обзор проекта Sahara, его ключевые возможности и архитектурные аспекты;
- Варианты использования Sahara.
Rapid Deployment of Hadoop Development EnvironmentsAndrei Nikolaenko
Development of Hadoop-related project in DevOps culture with Hadoop distributions, management and configuration tools and modern container virtualization capabatilites
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных".
Лекция №10 "Нереляционное решение в области баз данных — NoSQL". Лектор - Станислав Ступников.
Вводная часть посвящена определению и истории развития концепции NoSQL. Даются характеристики, рассказывается о способах использования. Рассматриваются виды NoSQL БД, теоретические основы NoSQL, а в конце лекции обсуждаются недостатки NoSQL-решений, а также проводится сравнение разных NoSQL-решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Энергоэффективная обработка Больших Данных на гетерогенных многоядерных компьютерных кластерах
Дистрибутив Hadoop основанный на
Apache Bigtop (bigtop.apache.org)
Следующем поколении планировщика Apache Hadoop YARN
Использует параллельные вычислительные мощности GPU нового поколения средствами Java
Зеленый ЦОД
- Sahara как инструмент запуска и управления программным обеспечением для хранения и обработки больших массивов данных (Hadoop) на облаках под управлением OpenStack;
- Общий обзор проекта Sahara, его ключевые возможности и архитектурные аспекты;
- Варианты использования Sahara.
Rapid Deployment of Hadoop Development EnvironmentsAndrei Nikolaenko
Development of Hadoop-related project in DevOps culture with Hadoop distributions, management and configuration tools and modern container virtualization capabatilites
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise LinuxSkillFactory
Никита Войтов – ведущий инструктор SkillFactory по направлению Linux – об особенностях и преимуществах корпоративного стандарта ОС Linux – Red Hat Enterprise.
2. 2/18Исполнитель: Плакса Е.А.
№ Наименование темы доклада Время
1 что такое Hadoop
Из чего состоит дистрибутив Hadoop - HDP 2.3.2
Начало работы с Hadoop
Бонус и вопросы
10:00 - 11:00
Кофе-брейк 11:00 - 11:15
2 Обзор архитектуры 9 проектов ПриватБанка
использующих Hadoop в режиме вопрос-ответ.
11:15 - 12:30
Повестка мастер класса “Знакомство с Hadoop”
3. 3/18Исполнитель: Плакса Е.А.
Hadoop Common[⇨]
(связующее программное обеспечение — набор
инфраструктурных программных библиотек и утилит, используемых для других
модулей и родственных проектов)
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит,
библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на
кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных
механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]
.
Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение
разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах
кластера и естественным образом сводимых в конечный результат.
что такое Hadoop?
2013
система для планирования заданий и управления кластером
5. 5/18Исполнитель: Плакса Е.А.
Hortonworks Data Platform 2.3.2
● Управление данными
● Доступ к данным
● Интеграция данных и планирование
● Администрирование , мониторинг и безопасность
6. 6/18
Исполнитель: Плакса Е.А.
Управление данными
Обработка огромного количества данных,
масштабировать нагрузку можно линейно
● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN,
MapReduce)
● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce
за счет усовершенствования процедуры выполнения графовой модели.
Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.
● Apache Slider 0.80.0 - Окружение предназначенное для систем реального
времени таких как hbase и storm.
7. Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Пакетная обработка
● Apache Pig 0.15.0 -это высокоуровневый процедурный язык,
предназначенный для выполнения запросов к большим
слабоструктурированным наборам данных.
○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские
функции UDF)
● Apache Hive 1.2.1 - Система управления большими наборами данных.
Используется для создания выборок с помощью SQL-подобного языка (HQL)
В качестве источников данных можно использовать структурированные и не
структурированные хранилища. Hive может быть использован теми, кто
знает язык SQL.!!!
7/18
8. 8/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Работа в реальном времени
● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для
записи/чтения большого объема данных в системах реального времени
○ Apache Phoenix 4.4.0 - SQL оболочка для HBase
● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение
построенная на концепции Google BigTable ( Разработано АНБ США)
● Apache Storm 0.10.0-beta система ориентированная на распределенную
обработку больших потоков данных в реальном времени
● 80К(300К) /мин
● avg 5-20мс
9. 9/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового
поиска с открытым исходным кодом, основанная на проекте Apache Lucene.
● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо
диска. Ключевым понятием в Spark-е является RDD (resilient distributed
dataset) — указатель на ленивую распределённую колекцию данных.
Большинство операций над RDD не приводит к каким-либо вычислениям, а
только создаёт очередную обёртку, обещая выполнить операции только
тогда, когда они понадобятся
10. 10/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Falcon 0.6.1 - упрощает конфигурацию движения
данных и позволяет установить политику для: сохранения и
репликации данных
● Apache Flume 1.5.2 - используется для потоковой передачи
данных из нескольких источников с возможностью по
резервированию и восстановлению
● Hortonworks DataFlow (Apache nifi) - предназначен для
автоматизации работы с потоками большого количества
данных в разнородных системах (Разработано АНБ США Onyara)
11. 11/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Kafka 0.8.2 - распределённая система обмена
сообщениями с высокой пропускной способностью
● Apache Sqoop 1.4.6 -утилита для быстрого копирования
данных между Hadoop и RDBMS
● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально
спроектирован для объединения отдельных MapReduce работ
в единый конвеер и запуска их по расписанию
● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа
к Hdfs, Hive, Pig, Oozie, storm
12. 12/18Исполнитель: Плакса Е.А.
Администрирование, мониторинг и безопасность
основные инструменты администраторов
● Apache Knox 0.6.0 - обеспечивает единую точку
аутентификации / доступа для кластера
● Apache Ranger 0.5.0 - обеспечивает комплексный
подход к безопасности и хранилище ключей
● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его
мониторинг за счет удобного пользовательского веб-интерфейса и
интерфейса REST API
● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud
Platform и OpenStack
● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации,
хотя его возможности гораздо шире
13. 13/18Исполнитель: Плакса Е.А.
1. http://hortonworks.com/products/hortonworks-sandbox/#install
или https://aws.amazon.com/ru/
2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery
3. Документация & hadoop summit & google search
Hadoop с чего начать ?