В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
3. • ценность темы Биг Дата
• где деньги
• востребованы ли специалисты Big Data
на рынке?
Зачем вам Big Data
www.itsmforum.ru
Инфраструктура Big Data
4. • Бизнес-модели и финансовые модели
• Евангелизм и консалтинг
• Коучинг
• Аппаратная и программная Инфраструктура
• Биржи данных
• Интернет вещей (IoT)
• Глобальный искусственный интеллект
• Локальный искусственный интеллект
• Стартапы на базе Open Data
Big Data и крупный бизнес
www.itsmforum.ru
Инфраструктура Big Data
5. Big Data это зонтичный термин и он настолько
широк, что бессмысленно придумывать для него
короткое определение.
Ключевая цель – обработка разнородных
данных любого объема с использованием
алгоритмов любой сложности в реальном
времени
Самое понятное определение Big Data
www.itsmforum.ru
Инфраструктура Big Data
6. • Финтех, банки - транзакции
• Поисковые системы - тренды, рейтинги, аналитика и т.д.
• Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet
inspection)
• DMP/DSP - предпочтения, социальный профиль и активность пользователей
интернет
• IoT - умный дом, носимые девайсы
• Медицина вещей - фитнес-браслеты, неинвазивные сенсоры
• Датчики на пунктах пропуска на автодорогах и прочих объектах
• Метеодатчики
• Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы
• Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах
• Система умный город
• Различные системы искусственного интеллекта
Где нужен анализ данных в реальном времени?
www.itsmforum.ru
Инфраструктура Big Data
7. Непреодолимые ограничения традиционных
систем хранения и обработки данных давно
привели к пониманию того, что задача анализа
любого объема данных в реальном времени не
будет решена никогда.
Почему пришла Big Data на смену
традиционной инфраструктуре
www.itsmforum.ru
Инфраструктура Big Data
8. • Shared nothing – распределённая вычислительная архитектура, в
которой ни один узел не делит память, процессор или дисковое
пространство с другими узлами кластера
• MPP (Massive Parallel Processing) – параллельная обработка данных на
многих вычислительных узлах
• Различные типы контейнеров с данными, а так же просто файлы, видны
друг другу и доступны для прямых SQL-запросов, операций объединения
и трансформации
• Одинаково эффективная работа как со структурированными так и с
неструктурированными данными
Какие преимущества предоставляет Big Data
архитектура #1
www.itsmforum.ru
Инфраструктура Big Data
9. • Выполнение сложных вычислений в реальном времени на
любых объемах данных
• Снижение сложности модели БД и ETL-процесса
• Кроссплатформенность и, как следствие, снижение стоимости
внедрения
• Неограниченное линейное масштабирование
• Повышенная отказоустойчивость благодаря встроенным
механизмам репликации, что позволит обеспечить
работоспособность 24x7
Какие преимущества предоставляет Big Data
архитектура #2
www.itsmforum.ru
Инфраструктура Big Data
10. HDFS - распределенная файловая система
Что объединяет всю экосистему Hadoop? - распределенная файловая
система HDFS. И простые файлы, и контейнеры с данными видны друг другу
и доступны для анализа, операций трансформации-объединения и прочих
операций. Т.е. из интерфейса Hive мы можем написать join, который
объединит книги, которые сохранены в простых текстовых файлах и
метаданные по этим книгам из контейнера AVRO и сформировать
результирующий набор. Это невероятная универсальность и удобство, о
которых до сих пор мечтают заложники реляционных БД.
За счет чего в Big Data архитектуре
реализованы все эти преимущества #1
www.itsmforum.ru
Инфраструктура Big Data
11. Shared nothing
Вычислительный узел в экосистеме Hadoop это независимый полноценный
компьютер. На каждом вычислительном узле расположена своя уникальная
часть данных плюс реплики других вычислительных узлов. Hadoop
старается запустить задачу Map на том узле, где физически находятся
обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким
образом мы доказали соответствие Hadoop требованию Shared nothing,
когда ни один узел не делит память, процессор или дисковое пространство
с другими узлами кластера
За счет чего в Big Data архитектуре
реализованы все эти преимущества #2
www.itsmforum.ru
Инфраструктура Big Data
12. MPP - YARN и ResourceManager
YARN через ResourceManager может управлять ресурсами кластера и делить
их в определенной пропорции между приложениями. Помимо MapReduce
такими приложениями могут быть Spark, Apache Drill и многие другие.
Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop
избавился от всех bottle neck и детских болезней. Мастер-нода больше не
перегружена метаданными и не является единой точкой отказа.
Промежуточные данные map-reduce джоба больше не приземляются на
диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это
полноценная MPP-система без каких-либо ограничений.
За счет чего в Big Data архитектуре
реализованы все эти преимущества #3
www.itsmforum.ru
Инфраструктура Big Data
13. Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим
основные и наиболее популярные контейнеры, с помощью которых можно
реализовать 100% стоящих задач. Все контейнеры поддерживают
различные варианты сжатия:
• SequenceFile - список ключ-значение (например ключ: имя файла,
значение: содержимое файла)
• MapFile - сортированный по ключу список ключ-значение
• Avro - многомерное row-oriented хранилище, таблицы которого
описываются json-схемой
• ORCFile (Optimized Record Columnar File) и Parquet - многомерные
column-oriented хранилища, таблицы которых можно описать json-
схемой.
Описание ключевых контейнеров HDFS
www.itsmforum.ru
Инфраструктура Big Data
14. Нужные нам данные изо всех наших источников мы
собираем в едином хранилище на базе HDFS, которое
называется Data Lake. Данные в Data Lake могут
храниться как as-is так и в контейнерах, которые были
рассмотрены выше. Данные в Data Lake поступают с той
задержкой, которая нам минимально необходима
Data Lake
www.itsmforum.ru
Инфраструктура Big Data
15. Существует 2 принципиальных подхода к задаче обработки больших
массивов информации — Data Parallelizm и Task Parallelizm.
• В первом случае (Data Parallelizm), одинаковая цепочка вычислений
запускается параллельно на каждом вычислительном узле кластера над
уникальной частью данных. По этому принципу работают Apache Spark и
MapReduce.
• Во втором случае (Task Parallelizm) все наоборот — над одним
фрагментом данных начинает параллельно выполняться несколько
цепочек вычислений: по этому принципу работают Spark Streaming,
Apache Storm и др.
Подходы к обработке массивов данных
www.itsmforum.ru
Инфраструктура Big Data
16. Поток данных (например с DPI) поступает в брокеры
Apache Kafka, Apache Flume и т.п. Задача брокера
объединить микропакеты за установленный интервал
времени (например за 10 сек) и гарантированно
передать в систему потоковой обработки данных, такую
как Spark Streaming, Apache Storm и др.
Гарантированная доставка пакетов
www.itsmforum.ru
Инфраструктура Big Data
17. Spark Streaming собирает элементы данных в
упорядоченный неизменяемый RDD (Resilient
Distributed Datasets). Далее над каждым
элементом данных параллельно производятся
цепочки вычислений
Обработка потока
www.itsmforum.ru
Инфраструктура Big Data
18. Допустим мы вычислили всех абонентов, которые с
вероятностью 80% и более после работы едут в ночные
клубы. Эта информация может быть интересна внешним
компаниям, например ритейлу для проведения
таргетированной рекламной компании. Для быстрой
доставки информации внешним потребителям
используются быстрые витрины ключ-значение, такие
как Redis и AeroSpike.
Быстрые витрины - быстрая отдача
информации - Redis и AeroSpike
www.itsmforum.ru
Инфраструктура Big Data
19. Для внутренних потребителей с целью
дальнейшего анализа те же самые данные о
принадлежности тому или иному сегменту могут
сохраняться в NoSQL витрине.
NoSQL витрина для внутренних потребителей
www.itsmforum.ru
Инфраструктура Big Data
20. • Отсутствует реляционной поиск
• Scheme-less
• Многомерное табличное пространство, которое описывается JSON-
схемой
• Развитые механизмы шардирования, распределения по ключу,
распределение таблицы только на указанном кластере "Из коробки"
• Shared nothing и MPP архитектура
• Многомерный JSON-документ вместо таблицы
• Возможность хранения в атрибуте физической ссылки на другую
коллекцию атрибутов в формате JSON
Преимущества документо-ориентированных
БД над реляционными
www.itsmforum.ru
Инфраструктура Big Data
21. • Вершина является JSON-документом
• Все вершины связаны между собой ребрами
• Вершины и ребра имеют физические адреса, которые
однозначно указывают на местоположение данных
• Ребра имеют 2 направления и тоже являются JSON-
документом
• Язык запросов GREMLIN
Дополнительные преимущества графовых БД
www.itsmforum.ru
Инфраструктура Big Data
22. select
in.wordid as wordid
,in.in('has_senses_e').lemma as lemma
,linktype
,out.wordid as wordid_link
,out.synsetid as synsetid_link
,out.in('has_senses_e').lemma as lemma_link
from has_link_e
where in.wordid = 28127 and in.synsetid = 300006050 and
linktype = 'antonym'
Язык запросов GREMLIN
www.itsmforum.ru
Инфраструктура Big Data
23. WhatsApp, Viber, Telegram: +7-926-5872119
Email: petrov@gobigdata.info
https://www.linkedin.com/in/petrovgobigdata
http://facebook.com/gobigdata.info
http://facebook.com/groups/bigbigdata
www.itsmforum.ru
КОНТАКТЫ
Мои тренинги и бесплатные материалы:
http://yurypetrov.com
Петров Юрий Владимирович
Тренер, консультант (Big Data и DWH)