Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Инфраструктура Big Data
от источников до быстрых витрин

НАЗВАНИЕ ПРЕЗЕНТАЦИИ
Петров
Юрий Владимирович
Data Architect, МТС
Тренер, консультант
yurypetrov.com

• ценность темы Биг Дата
• где деньги
• востребованы ли специалисты Big Data
на рынке?
Зачем вам Big Data
www.itsmforum.ru

• Бизнес-модели и финансовые модели
• Евангелизм и консалтинг
• Коучинг
• Аппаратная и программная Инфраструктура
• Биржи данных
• Интернет вещей (IoT)
• Глобальный искусственный интеллект
• Локальный искусственный интеллект
• Стартапы на базе Open Data
Big Data и крупный бизнес
www.itsmforum.ru

Big Data это зонтичный термин и он настолько
широк, что бессмысленно придумывать для него
короткое определение.
Ключевая цель – обработка разнородных
данных любого объема с использованием
алгоритмов любой сложности в реальном
времени
Самое понятное определение Big Data
www.itsmforum.ru

• Финтех, банки - транзакции
• Поисковые системы - тренды, рейтинги, аналитика и т.д.
• Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet
inspection)
• DMP/DSP - предпочтения, социальный профиль и активность пользователей
интернет
• IoT - умный дом, носимые девайсы
• Медицина вещей - фитнес-браслеты, неинвазивные сенсоры
• Датчики на пунктах пропуска на автодорогах и прочих объектах
• Метеодатчики
• Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы
• Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах
• Система умный город
• Различные системы искусственного интеллекта
Где нужен анализ данных в реальном времени?
www.itsmforum.ru

Непреодолимые ограничения традиционных
систем хранения и обработки данных давно
привели к пониманию того, что задача анализа
любого объема данных в реальном времени не
будет решена никогда.
Почему пришла Big Data на смену
традиционной инфраструктуре
www.itsmforum.ru

• Shared nothing – распределённая вычислительная архитектура, в
которой ни один узел не делит память, процессор или дисковое
пространство с другими узлами кластера
• MPP (Massive Parallel Processing) – параллельная обработка данных на
многих вычислительных узлах
• Различные типы контейнеров с данными, а так же просто файлы, видны
друг другу и доступны для прямых SQL-запросов, операций объединения
и трансформации
• Одинаково эффективная работа как со структурированными так и с
неструктурированными данными
Какие преимущества предоставляет Big Data
архитектура #1
www.itsmforum.ru

• Выполнение сложных вычислений в реальном времени на
любых объемах данных
• Снижение сложности модели БД и ETL-процесса
• Кроссплатформенность и, как следствие, снижение стоимости
внедрения
• Неограниченное линейное масштабирование
• Повышенная отказоустойчивость благодаря встроенным
механизмам репликации, что позволит обеспечить
работоспособность 24x7
Какие преимущества предоставляет Big Data
архитектура #2
www.itsmforum.ru

HDFS - распределенная файловая система
Что объединяет всю экосистему Hadoop? - распределенная файловая
система HDFS. И простые файлы, и контейнеры с данными видны друг другу
и доступны для анализа, операций трансформации-объединения и прочих
операций. Т.е. из интерфейса Hive мы можем написать join, который
объединит книги, которые сохранены в простых текстовых файлах и
метаданные по этим книгам из контейнера AVRO и сформировать
результирующий набор. Это невероятная универсальность и удобство, о
которых до сих пор мечтают заложники реляционных БД.
За счет чего в Big Data архитектуре
реализованы все эти преимущества #1
www.itsmforum.ru

Shared nothing
Вычислительный узел в экосистеме Hadoop это независимый полноценный
компьютер. На каждом вычислительном узле расположена своя уникальная
часть данных плюс реплики других вычислительных узлов. Hadoop
старается запустить задачу Map на том узле, где физически находятся
обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким
образом мы доказали соответствие Hadoop требованию Shared nothing,
когда ни один узел не делит память, процессор или дисковое пространство
с другими узлами кластера
www.itsmforum.ru

MPP - YARN и ResourceManager
YARN через ResourceManager может управлять ресурсами кластера и делить
их в определенной пропорции между приложениями. Помимо MapReduce
такими приложениями могут быть Spark, Apache Drill и многие другие.
Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop
избавился от всех bottle neck и детских болезней. Мастер-нода больше не
перегружена метаданными и не является единой точкой отказа.
Промежуточные данные map-reduce джоба больше не приземляются на
диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это
полноценная MPP-система без каких-либо ограничений.
www.itsmforum.ru

Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим
основные и наиболее популярные контейнеры, с помощью которых можно
реализовать 100% стоящих задач. Все контейнеры поддерживают
различные варианты сжатия:
• SequenceFile - список ключ-значение (например ключ: имя файла,
значение: содержимое файла)
• MapFile - сортированный по ключу список ключ-значение
• Avro - многомерное row-oriented хранилище, таблицы которого
описываются json-схемой
• ORCFile (Optimized Record Columnar File) и Parquet - многомерные
column-oriented хранилища, таблицы которых можно описать json-
схемой.
Описание ключевых контейнеров HDFS
www.itsmforum.ru

Нужные нам данные изо всех наших источников мы
собираем в едином хранилище на базе HDFS, которое
называется Data Lake. Данные в Data Lake могут
храниться как as-is так и в контейнерах, которые были
рассмотрены выше. Данные в Data Lake поступают с той
задержкой, которая нам минимально необходима
Data Lake
www.itsmforum.ru

Существует 2 принципиальных подхода к задаче обработки больших
массивов информации — Data Parallelizm и Task Parallelizm.
• В первом случае (Data Parallelizm), одинаковая цепочка вычислений
запускается параллельно на каждом вычислительном узле кластера над
уникальной частью данных. По этому принципу работают Apache Spark и
MapReduce.
• Во втором случае (Task Parallelizm) все наоборот — над одним
фрагментом данных начинает параллельно выполняться несколько
цепочек вычислений: по этому принципу работают Spark Streaming,
Apache Storm и др.
Подходы к обработке массивов данных
www.itsmforum.ru

Поток данных (например с DPI) поступает в брокеры
Apache Kafka, Apache Flume и т.п. Задача брокера
объединить микропакеты за установленный интервал
времени (например за 10 сек) и гарантированно
передать в систему потоковой обработки данных, такую
как Spark Streaming, Apache Storm и др.
Гарантированная доставка пакетов
www.itsmforum.ru

Spark Streaming собирает элементы данных в
упорядоченный неизменяемый RDD (Resilient
Distributed Datasets). Далее над каждым
элементом данных параллельно производятся
цепочки вычислений
Обработка потока
www.itsmforum.ru

Допустим мы вычислили всех абонентов, которые с
вероятностью 80% и более после работы едут в ночные
клубы. Эта информация может быть интересна внешним
компаниям, например ритейлу для проведения
таргетированной рекламной компании. Для быстрой
доставки информации внешним потребителям
используются быстрые витрины ключ-значение, такие
как Redis и AeroSpike.
Быстрые витрины - быстрая отдача
информации - Redis и AeroSpike
www.itsmforum.ru

Для внутренних потребителей с целью
дальнейшего анализа те же самые данные о
принадлежности тому или иному сегменту могут
сохраняться в NoSQL витрине.
NoSQL витрина для внутренних потребителей
www.itsmforum.ru

• Отсутствует реляционной поиск
• Scheme-less
• Многомерное табличное пространство, которое описывается JSON-
схемой
• Развитые механизмы шардирования, распределения по ключу,
распределение таблицы только на указанном кластере "Из коробки"
• Shared nothing и MPP архитектура
• Многомерный JSON-документ вместо таблицы
• Возможность хранения в атрибуте физической ссылки на другую
коллекцию атрибутов в формате JSON
Преимущества документо-ориентированных
БД над реляционными
www.itsmforum.ru

• Вершина является JSON-документом
• Все вершины связаны между собой ребрами
• Вершины и ребра имеют физические адреса, которые
однозначно указывают на местоположение данных
• Ребра имеют 2 направления и тоже являются JSON-
документом
• Язык запросов GREMLIN
Дополнительные преимущества графовых БД
www.itsmforum.ru

select
in.wordid as wordid
,in.in('has_senses_e').lemma as lemma
,linktype
,out.wordid as wordid_link
,out.synsetid as synsetid_link
,out.in('has_senses_e').lemma as lemma_link
from has_link_e
where in.wordid = 28127 and in.synsetid = 300006050 and
linktype = 'antonym'
Язык запросов GREMLIN
www.itsmforum.ru

WhatsApp, Viber, Telegram: +7-926-5872119
Email: petrov@gobigdata.info
https://www.linkedin.com/in/petrovgobigdata
http://facebook.com/gobigdata.info
http://facebook.com/groups/bigbigdata
www.itsmforum.ru
КОНТАКТЫ
Мои тренинги и бесплатные материалы:
http://yurypetrov.com
Петров Юрий Владимирович
Тренер, консультант (Big Data и DWH)

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

More Related Content

What's hot

Viewers also liked

Similar to Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС