SlideShare a Scribd company logo
1 of 23
Download to read offline
Инфраструктура Big Data
от источников до быстрых витрин
НАЗВАНИЕ ПРЕЗЕНТАЦИИ
Петров
Юрий Владимирович
Data Architect, МТС
Тренер, консультант
yurypetrov.com
• ценность темы Биг Дата
• где деньги
• востребованы ли специалисты Big Data
на рынке?
Зачем вам Big Data
www.itsmforum.ru
Инфраструктура Big Data
• Бизнес-модели и финансовые модели
• Евангелизм и консалтинг
• Коучинг
• Аппаратная и программная Инфраструктура
• Биржи данных
• Интернет вещей (IoT)
• Глобальный искусственный интеллект
• Локальный искусственный интеллект
• Стартапы на базе Open Data
Big Data и крупный бизнес
www.itsmforum.ru
Инфраструктура Big Data
Big Data это зонтичный термин и он настолько
широк, что бессмысленно придумывать для него
короткое определение.
Ключевая цель – обработка разнородных
данных любого объема с использованием
алгоритмов любой сложности в реальном
времени
Самое понятное определение Big Data
www.itsmforum.ru
Инфраструктура Big Data
• Финтех, банки - транзакции
• Поисковые системы - тренды, рейтинги, аналитика и т.д.
• Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet
inspection)
• DMP/DSP - предпочтения, социальный профиль и активность пользователей
интернет
• IoT - умный дом, носимые девайсы
• Медицина вещей - фитнес-браслеты, неинвазивные сенсоры
• Датчики на пунктах пропуска на автодорогах и прочих объектах
• Метеодатчики
• Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы
• Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах
• Система умный город
• Различные системы искусственного интеллекта
Где нужен анализ данных в реальном времени?
www.itsmforum.ru
Инфраструктура Big Data
Непреодолимые ограничения традиционных
систем хранения и обработки данных давно
привели к пониманию того, что задача анализа
любого объема данных в реальном времени не
будет решена никогда.
Почему пришла Big Data на смену
традиционной инфраструктуре
www.itsmforum.ru
Инфраструктура Big Data
• Shared nothing – распределённая вычислительная архитектура, в
которой ни один узел не делит память, процессор или дисковое
пространство с другими узлами кластера
• MPP (Massive Parallel Processing) – параллельная обработка данных на
многих вычислительных узлах
• Различные типы контейнеров с данными, а так же просто файлы, видны
друг другу и доступны для прямых SQL-запросов, операций объединения
и трансформации
• Одинаково эффективная работа как со структурированными так и с
неструктурированными данными
Какие преимущества предоставляет Big Data
архитектура #1
www.itsmforum.ru
Инфраструктура Big Data
• Выполнение сложных вычислений в реальном времени на
любых объемах данных
• Снижение сложности модели БД и ETL-процесса
• Кроссплатформенность и, как следствие, снижение стоимости
внедрения
• Неограниченное линейное масштабирование
• Повышенная отказоустойчивость благодаря встроенным
механизмам репликации, что позволит обеспечить
работоспособность 24x7
Какие преимущества предоставляет Big Data
архитектура #2
www.itsmforum.ru
Инфраструктура Big Data
HDFS - распределенная файловая система
Что объединяет всю экосистему Hadoop? - распределенная файловая
система HDFS. И простые файлы, и контейнеры с данными видны друг другу
и доступны для анализа, операций трансформации-объединения и прочих
операций. Т.е. из интерфейса Hive мы можем написать join, который
объединит книги, которые сохранены в простых текстовых файлах и
метаданные по этим книгам из контейнера AVRO и сформировать
результирующий набор. Это невероятная универсальность и удобство, о
которых до сих пор мечтают заложники реляционных БД.
За счет чего в Big Data архитектуре
реализованы все эти преимущества #1
www.itsmforum.ru
Инфраструктура Big Data
Shared nothing
Вычислительный узел в экосистеме Hadoop это независимый полноценный
компьютер. На каждом вычислительном узле расположена своя уникальная
часть данных плюс реплики других вычислительных узлов. Hadoop
старается запустить задачу Map на том узле, где физически находятся
обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким
образом мы доказали соответствие Hadoop требованию Shared nothing,
когда ни один узел не делит память, процессор или дисковое пространство
с другими узлами кластера
За счет чего в Big Data архитектуре
реализованы все эти преимущества #2
www.itsmforum.ru
Инфраструктура Big Data
MPP - YARN и ResourceManager
YARN через ResourceManager может управлять ресурсами кластера и делить
их в определенной пропорции между приложениями. Помимо MapReduce
такими приложениями могут быть Spark, Apache Drill и многие другие.
Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop
избавился от всех bottle neck и детских болезней. Мастер-нода больше не
перегружена метаданными и не является единой точкой отказа.
Промежуточные данные map-reduce джоба больше не приземляются на
диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это
полноценная MPP-система без каких-либо ограничений.
За счет чего в Big Data архитектуре
реализованы все эти преимущества #3
www.itsmforum.ru
Инфраструктура Big Data
Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим
основные и наиболее популярные контейнеры, с помощью которых можно
реализовать 100% стоящих задач. Все контейнеры поддерживают
различные варианты сжатия:
• SequenceFile - список ключ-значение (например ключ: имя файла,
значение: содержимое файла)
• MapFile - сортированный по ключу список ключ-значение
• Avro - многомерное row-oriented хранилище, таблицы которого
описываются json-схемой
• ORCFile (Optimized Record Columnar File) и Parquet - многомерные
column-oriented хранилища, таблицы которых можно описать json-
схемой.
Описание ключевых контейнеров HDFS
www.itsmforum.ru
Инфраструктура Big Data
Нужные нам данные изо всех наших источников мы
собираем в едином хранилище на базе HDFS, которое
называется Data Lake. Данные в Data Lake могут
храниться как as-is так и в контейнерах, которые были
рассмотрены выше. Данные в Data Lake поступают с той
задержкой, которая нам минимально необходима
Data Lake
www.itsmforum.ru
Инфраструктура Big Data
Существует 2 принципиальных подхода к задаче обработки больших
массивов информации — Data Parallelizm и Task Parallelizm.
• В первом случае (Data Parallelizm), одинаковая цепочка вычислений
запускается параллельно на каждом вычислительном узле кластера над
уникальной частью данных. По этому принципу работают Apache Spark и
MapReduce.
• Во втором случае (Task Parallelizm) все наоборот — над одним
фрагментом данных начинает параллельно выполняться несколько
цепочек вычислений: по этому принципу работают Spark Streaming,
Apache Storm и др.
Подходы к обработке массивов данных
www.itsmforum.ru
Инфраструктура Big Data
Поток данных (например с DPI) поступает в брокеры
Apache Kafka, Apache Flume и т.п. Задача брокера
объединить микропакеты за установленный интервал
времени (например за 10 сек) и гарантированно
передать в систему потоковой обработки данных, такую
как Spark Streaming, Apache Storm и др.
Гарантированная доставка пакетов
www.itsmforum.ru
Инфраструктура Big Data
Spark Streaming собирает элементы данных в
упорядоченный неизменяемый RDD (Resilient
Distributed Datasets). Далее над каждым
элементом данных параллельно производятся
цепочки вычислений
Обработка потока
www.itsmforum.ru
Инфраструктура Big Data
Допустим мы вычислили всех абонентов, которые с
вероятностью 80% и более после работы едут в ночные
клубы. Эта информация может быть интересна внешним
компаниям, например ритейлу для проведения
таргетированной рекламной компании. Для быстрой
доставки информации внешним потребителям
используются быстрые витрины ключ-значение, такие
как Redis и AeroSpike.
Быстрые витрины - быстрая отдача
информации - Redis и AeroSpike
www.itsmforum.ru
Инфраструктура Big Data
Для внутренних потребителей с целью
дальнейшего анализа те же самые данные о
принадлежности тому или иному сегменту могут
сохраняться в NoSQL витрине.
NoSQL витрина для внутренних потребителей
www.itsmforum.ru
Инфраструктура Big Data
• Отсутствует реляционной поиск
• Scheme-less
• Многомерное табличное пространство, которое описывается JSON-
схемой
• Развитые механизмы шардирования, распределения по ключу,
распределение таблицы только на указанном кластере "Из коробки"
• Shared nothing и MPP архитектура
• Многомерный JSON-документ вместо таблицы
• Возможность хранения в атрибуте физической ссылки на другую
коллекцию атрибутов в формате JSON
Преимущества документо-ориентированных
БД над реляционными
www.itsmforum.ru
Инфраструктура Big Data
• Вершина является JSON-документом
• Все вершины связаны между собой ребрами
• Вершины и ребра имеют физические адреса, которые
однозначно указывают на местоположение данных
• Ребра имеют 2 направления и тоже являются JSON-
документом
• Язык запросов GREMLIN
Дополнительные преимущества графовых БД
www.itsmforum.ru
Инфраструктура Big Data
select
in.wordid as wordid
,in.in('has_senses_e').lemma as lemma
,linktype
,out.wordid as wordid_link
,out.synsetid as synsetid_link
,out.in('has_senses_e').lemma as lemma_link
from has_link_e
where in.wordid = 28127 and in.synsetid = 300006050 and
linktype = 'antonym'
Язык запросов GREMLIN
www.itsmforum.ru
Инфраструктура Big Data
WhatsApp, Viber, Telegram: +7-926-5872119
Email: petrov@gobigdata.info
https://www.linkedin.com/in/petrovgobigdata
http://facebook.com/gobigdata.info
http://facebook.com/groups/bigbigdata
www.itsmforum.ru
КОНТАКТЫ
Мои тренинги и бесплатные материалы:
http://yurypetrov.com
Петров Юрий Владимирович
Тренер, консультант (Big Data и DWH)

More Related Content

What's hot

Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Ontico
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi octantishmanti
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 
Александр Богданов «Lambda - архитектура»
Александр Богданов «Lambda - архитектура»Александр Богданов «Lambda - архитектура»
Александр Богданов «Lambda - архитектура»DataArt
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)Pavel Alexeev
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3antishmanti
 
Управление Big data платформой Почты России
Управление Big data платформой Почты РоссииУправление Big data платформой Почты России
Управление Big data платформой Почты РоссииAndrey Bashchenko
 
Защита данных от Dell Software
Защита данных от Dell SoftwareЗащита данных от Dell Software
Защита данных от Dell SoftwareDell_Russia
 
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...Yandex
 
Лекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelЛекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelTechnopark
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможностиStanislav Makarov
 
как из трех стоек сделать две.
как из трех стоек сделать две.как из трех стоек сделать две.
как из трех стоек сделать две.Serguei Gitinsky
 
Лекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceЛекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceTechnopark
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхDenodo
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015Shamim bhuiyan
 
Digital Entrerprise Forum - секция Документооборот, Макаров
Digital Entrerprise Forum - секция Документооборот,  МакаровDigital Entrerprise Forum - секция Документооборот,  Макаров
Digital Entrerprise Forum - секция Документооборот, МакаровStanislav Makarov
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub.NET User Group Dnipro
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
 
Аналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времениАналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времениCodeFest
 

What's hot (20)

Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi oct
 
ClickHouse
ClickHouseClickHouse
ClickHouse
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Александр Богданов «Lambda - архитектура»
Александр Богданов «Lambda - архитектура»Александр Богданов «Lambda - архитектура»
Александр Богданов «Lambda - архитектура»
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3
 
Управление Big data платформой Почты России
Управление Big data платформой Почты РоссииУправление Big data платформой Почты России
Управление Big data платформой Почты России
 
Защита данных от Dell Software
Защита данных от Dell SoftwareЗащита данных от Dell Software
Защита данных от Dell Software
 
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...
Архитектура бесконечного хранилища для пользовательского контента — Артём Сок...
 
Лекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelЛекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель Pregel
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
как из трех стоек сделать две.
как из трех стоек сделать две.как из трех стоек сделать две.
как из трех стоек сделать две.
 
Лекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceЛекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduce
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015
 
Digital Entrerprise Forum - секция Документооборот, Макаров
Digital Entrerprise Forum - секция Документооборот,  МакаровDigital Entrerprise Forum - секция Документооборот,  Макаров
Digital Entrerprise Forum - секция Документооборот, Макаров
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
 
Аналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времениАналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времени
 

Viewers also liked

FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov Google
FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov GoogleFiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov Google
FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov GoogleShukhrat Yakubov
 
01 Анализ активности инновационных стартапов в России
01 Анализ активности инновационных стартапов в России01 Анализ активности инновационных стартапов в России
01 Анализ активности инновационных стартапов в РоссииStartupvillage2015
 
FinNext-2016: 18 февраля в Москве!!!
FinNext-2016: 18 февраля в Москве!!! FinNext-2016: 18 февраля в Москве!!!
FinNext-2016: 18 февраля в Москве!!! Oleg Anisimov
 
Управление на основе данных: как повысить эффективность HR-процессов с помощь...
Управление на основе данных: как повысить эффективность HR-процессов с помощь...Управление на основе данных: как повысить эффективность HR-процессов с помощь...
Управление на основе данных: как повысить эффективность HR-процессов с помощь...ECOPSY Consulting
 
Робо-советники: финтех в управлении активами
Робо-советники: финтех в управлении активамиРобо-советники: финтех в управлении активами
Робо-советники: финтех в управлении активамиVladimir Kreyndel
 
DEEP: Как создать модель компетенций на основе HR-аналитики
DEEP: Как создать модель компетенций на основе HR-аналитики DEEP: Как создать модель компетенций на основе HR-аналитики
DEEP: Как создать модель компетенций на основе HR-аналитики ECOPSY Consulting
 
Внедрение Lean: эффект vs. знание инструментов
Внедрение Lean: эффект vs. знание инструментовВнедрение Lean: эффект vs. знание инструментов
Внедрение Lean: эффект vs. знание инструментовECOPSY Consulting
 
Agile в производственных компаниях
Agile в производственных компанияхAgile в производственных компаниях
Agile в производственных компанияхECOPSY Consulting
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхOlya Parkhimovich
 
Практики регулярного менеджмента
Практики регулярного менеджментаПрактики регулярного менеджмента
Практики регулярного менеджментаECOPSY Consulting
 
Как работает уникальный в своем роде чат-бот-банк?
Как работает уникальный в своем роде чат-бот-банк?Как работает уникальный в своем роде чат-бот-банк?
Как работает уникальный в своем роде чат-бот-банк?Инфобанк бай
 
Bongo R&D – Fintech [Финтех]
Bongo R&D – Fintech [Финтех]Bongo R&D – Fintech [Финтех]
Bongo R&D – Fintech [Финтех]Pavel Guzhikov
 
TAdviser Banks IT Day - Финтех и банки
TAdviser Banks IT Day - Финтех и банкиTAdviser Banks IT Day - Финтех и банки
TAdviser Banks IT Day - Финтех и банкиStanislav Makarov
 
банк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13октбанк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13октfinopolis
 
Прототип сайта Paymantix 06 2014(ver.3)
Прототип сайта Paymantix 06 2014(ver.3)Прототип сайта Paymantix 06 2014(ver.3)
Прототип сайта Paymantix 06 2014(ver.3)Vadim Andreev
 

Viewers also liked (17)

FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov Google
FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov GoogleFiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov Google
FiNPLACE 2016. Размер имеет значение. Shukhrat Yakubov Google
 
01 Анализ активности инновационных стартапов в России
01 Анализ активности инновационных стартапов в России01 Анализ активности инновационных стартапов в России
01 Анализ активности инновационных стартапов в России
 
fintech
fintechfintech
fintech
 
FinNext-2016: 18 февраля в Москве!!!
FinNext-2016: 18 февраля в Москве!!! FinNext-2016: 18 февраля в Москве!!!
FinNext-2016: 18 февраля в Москве!!!
 
Управление на основе данных: как повысить эффективность HR-процессов с помощь...
Управление на основе данных: как повысить эффективность HR-процессов с помощь...Управление на основе данных: как повысить эффективность HR-процессов с помощь...
Управление на основе данных: как повысить эффективность HR-процессов с помощь...
 
Робо-советники: финтех в управлении активами
Робо-советники: финтех в управлении активамиРобо-советники: финтех в управлении активами
Робо-советники: финтех в управлении активами
 
DEEP: Как создать модель компетенций на основе HR-аналитики
DEEP: Как создать модель компетенций на основе HR-аналитики DEEP: Как создать модель компетенций на основе HR-аналитики
DEEP: Как создать модель компетенций на основе HR-аналитики
 
Внедрение Lean: эффект vs. знание инструментов
Внедрение Lean: эффект vs. знание инструментовВнедрение Lean: эффект vs. знание инструментов
Внедрение Lean: эффект vs. знание инструментов
 
Agile в производственных компаниях
Agile в производственных компанияхAgile в производственных компаниях
Agile в производственных компаниях
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данных
 
Практики регулярного менеджмента
Практики регулярного менеджментаПрактики регулярного менеджмента
Практики регулярного менеджмента
 
Как работает уникальный в своем роде чат-бот-банк?
Как работает уникальный в своем роде чат-бот-банк?Как работает уникальный в своем роде чат-бот-банк?
Как работает уникальный в своем роде чат-бот-банк?
 
Bongo R&D – Fintech [Финтех]
Bongo R&D – Fintech [Финтех]Bongo R&D – Fintech [Финтех]
Bongo R&D – Fintech [Финтех]
 
TAdviser Banks IT Day - Финтех и банки
TAdviser Banks IT Day - Финтех и банкиTAdviser Banks IT Day - Финтех и банки
TAdviser Banks IT Day - Финтех и банки
 
банк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13октбанк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13окт
 
Fscore labshort1
Fscore labshort1Fscore labshort1
Fscore labshort1
 
Прототип сайта Paymantix 06 2014(ver.3)
Прототип сайта Paymantix 06 2014(ver.3)Прототип сайта Paymantix 06 2014(ver.3)
Прототип сайта Paymantix 06 2014(ver.3)
 

Similar to Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 
IBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageIBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageSergey Kostenko
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruLviv Startup Club
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...IT-Portfolio
 
проектная работа на тему субд
проектная работа на тему субдпроектная работа на тему субд
проектная работа на тему субдMarsel Galikhanov
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данныхSergey Gorshkov
 
Платформа и решения НРЕ для больших данных
Платформа и решения НРЕ для больших данныхПлатформа и решения НРЕ для больших данных
Платформа и решения НРЕ для больших данныхAndrey Karpov
 

Similar to Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС (20)

Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
Data centre
Data centreData centre
Data centre
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
IBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageIBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy Storage
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Hpc Day
Hpc DayHpc Day
Hpc Day
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
 
проектная работа на тему субд
проектная работа на тему субдпроектная работа на тему субд
проектная работа на тему субд
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Платформа и решения НРЕ для больших данных
Платформа и решения НРЕ для больших данныхПлатформа и решения НРЕ для больших данных
Платформа и решения НРЕ для больших данных
 

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

  • 1. Инфраструктура Big Data от источников до быстрых витрин
  • 2. НАЗВАНИЕ ПРЕЗЕНТАЦИИ Петров Юрий Владимирович Data Architect, МТС Тренер, консультант yurypetrov.com
  • 3. • ценность темы Биг Дата • где деньги • востребованы ли специалисты Big Data на рынке? Зачем вам Big Data www.itsmforum.ru Инфраструктура Big Data
  • 4. • Бизнес-модели и финансовые модели • Евангелизм и консалтинг • Коучинг • Аппаратная и программная Инфраструктура • Биржи данных • Интернет вещей (IoT) • Глобальный искусственный интеллект • Локальный искусственный интеллект • Стартапы на базе Open Data Big Data и крупный бизнес www.itsmforum.ru Инфраструктура Big Data
  • 5. Big Data это зонтичный термин и он настолько широк, что бессмысленно придумывать для него короткое определение. Ключевая цель – обработка разнородных данных любого объема с использованием алгоритмов любой сложности в реальном времени Самое понятное определение Big Data www.itsmforum.ru Инфраструктура Big Data
  • 6. • Финтех, банки - транзакции • Поисковые системы - тренды, рейтинги, аналитика и т.д. • Телеком, провайдеры - CDR (call data record), ГЕО, Трафик, DPI (deap packet inspection) • DMP/DSP - предпочтения, социальный профиль и активность пользователей интернет • IoT - умный дом, носимые девайсы • Медицина вещей - фитнес-браслеты, неинвазивные сенсоры • Датчики на пунктах пропуска на автодорогах и прочих объектах • Метеодатчики • Фото-Видео-Камеры фиксации нарушений и прочие Фото-Видео-системы • Видеопоток - определение лиц, эмоций - в метро, в гипермаркетах, аэропортах • Система умный город • Различные системы искусственного интеллекта Где нужен анализ данных в реальном времени? www.itsmforum.ru Инфраструктура Big Data
  • 7. Непреодолимые ограничения традиционных систем хранения и обработки данных давно привели к пониманию того, что задача анализа любого объема данных в реальном времени не будет решена никогда. Почему пришла Big Data на смену традиционной инфраструктуре www.itsmforum.ru Инфраструктура Big Data
  • 8. • Shared nothing – распределённая вычислительная архитектура, в которой ни один узел не делит память, процессор или дисковое пространство с другими узлами кластера • MPP (Massive Parallel Processing) – параллельная обработка данных на многих вычислительных узлах • Различные типы контейнеров с данными, а так же просто файлы, видны друг другу и доступны для прямых SQL-запросов, операций объединения и трансформации • Одинаково эффективная работа как со структурированными так и с неструктурированными данными Какие преимущества предоставляет Big Data архитектура #1 www.itsmforum.ru Инфраструктура Big Data
  • 9. • Выполнение сложных вычислений в реальном времени на любых объемах данных • Снижение сложности модели БД и ETL-процесса • Кроссплатформенность и, как следствие, снижение стоимости внедрения • Неограниченное линейное масштабирование • Повышенная отказоустойчивость благодаря встроенным механизмам репликации, что позволит обеспечить работоспособность 24x7 Какие преимущества предоставляет Big Data архитектура #2 www.itsmforum.ru Инфраструктура Big Data
  • 10. HDFS - распределенная файловая система Что объединяет всю экосистему Hadoop? - распределенная файловая система HDFS. И простые файлы, и контейнеры с данными видны друг другу и доступны для анализа, операций трансформации-объединения и прочих операций. Т.е. из интерфейса Hive мы можем написать join, который объединит книги, которые сохранены в простых текстовых файлах и метаданные по этим книгам из контейнера AVRO и сформировать результирующий набор. Это невероятная универсальность и удобство, о которых до сих пор мечтают заложники реляционных БД. За счет чего в Big Data архитектуре реализованы все эти преимущества #1 www.itsmforum.ru Инфраструктура Big Data
  • 11. Shared nothing Вычислительный узел в экосистеме Hadoop это независимый полноценный компьютер. На каждом вычислительном узле расположена своя уникальная часть данных плюс реплики других вычислительных узлов. Hadoop старается запустить задачу Map на том узле, где физически находятся обрабатываемые данные, т.е. вычисления перемещаются к данным. Таким образом мы доказали соответствие Hadoop требованию Shared nothing, когда ни один узел не делит память, процессор или дисковое пространство с другими узлами кластера За счет чего в Big Data архитектуре реализованы все эти преимущества #2 www.itsmforum.ru Инфраструктура Big Data
  • 12. MPP - YARN и ResourceManager YARN через ResourceManager может управлять ресурсами кластера и делить их в определенной пропорции между приложениями. Помимо MapReduce такими приложениями могут быть Spark, Apache Drill и многие другие. Благодаря таким нововведениям как HDFS Federation и TEZ, Hadoop избавился от всех bottle neck и детских болезней. Мастер-нода больше не перегружена метаданными и не является единой точкой отказа. Промежуточные данные map-reduce джоба больше не приземляются на диск, а кешируются в памяти. Таким образом теперь Hadoop + YARN это полноценная MPP-система без каких-либо ограничений. За счет чего в Big Data архитектуре реализованы все эти преимущества #3 www.itsmforum.ru Инфраструктура Big Data
  • 13. Контейнеры, по сути, это NoSQL базы данных различных типов. Рассмотрим основные и наиболее популярные контейнеры, с помощью которых можно реализовать 100% стоящих задач. Все контейнеры поддерживают различные варианты сжатия: • SequenceFile - список ключ-значение (например ключ: имя файла, значение: содержимое файла) • MapFile - сортированный по ключу список ключ-значение • Avro - многомерное row-oriented хранилище, таблицы которого описываются json-схемой • ORCFile (Optimized Record Columnar File) и Parquet - многомерные column-oriented хранилища, таблицы которых можно описать json- схемой. Описание ключевых контейнеров HDFS www.itsmforum.ru Инфраструктура Big Data
  • 14. Нужные нам данные изо всех наших источников мы собираем в едином хранилище на базе HDFS, которое называется Data Lake. Данные в Data Lake могут храниться как as-is так и в контейнерах, которые были рассмотрены выше. Данные в Data Lake поступают с той задержкой, которая нам минимально необходима Data Lake www.itsmforum.ru Инфраструктура Big Data
  • 15. Существует 2 принципиальных подхода к задаче обработки больших массивов информации — Data Parallelizm и Task Parallelizm. • В первом случае (Data Parallelizm), одинаковая цепочка вычислений запускается параллельно на каждом вычислительном узле кластера над уникальной частью данных. По этому принципу работают Apache Spark и MapReduce. • Во втором случае (Task Parallelizm) все наоборот — над одним фрагментом данных начинает параллельно выполняться несколько цепочек вычислений: по этому принципу работают Spark Streaming, Apache Storm и др. Подходы к обработке массивов данных www.itsmforum.ru Инфраструктура Big Data
  • 16. Поток данных (например с DPI) поступает в брокеры Apache Kafka, Apache Flume и т.п. Задача брокера объединить микропакеты за установленный интервал времени (например за 10 сек) и гарантированно передать в систему потоковой обработки данных, такую как Spark Streaming, Apache Storm и др. Гарантированная доставка пакетов www.itsmforum.ru Инфраструктура Big Data
  • 17. Spark Streaming собирает элементы данных в упорядоченный неизменяемый RDD (Resilient Distributed Datasets). Далее над каждым элементом данных параллельно производятся цепочки вычислений Обработка потока www.itsmforum.ru Инфраструктура Big Data
  • 18. Допустим мы вычислили всех абонентов, которые с вероятностью 80% и более после работы едут в ночные клубы. Эта информация может быть интересна внешним компаниям, например ритейлу для проведения таргетированной рекламной компании. Для быстрой доставки информации внешним потребителям используются быстрые витрины ключ-значение, такие как Redis и AeroSpike. Быстрые витрины - быстрая отдача информации - Redis и AeroSpike www.itsmforum.ru Инфраструктура Big Data
  • 19. Для внутренних потребителей с целью дальнейшего анализа те же самые данные о принадлежности тому или иному сегменту могут сохраняться в NoSQL витрине. NoSQL витрина для внутренних потребителей www.itsmforum.ru Инфраструктура Big Data
  • 20. • Отсутствует реляционной поиск • Scheme-less • Многомерное табличное пространство, которое описывается JSON- схемой • Развитые механизмы шардирования, распределения по ключу, распределение таблицы только на указанном кластере "Из коробки" • Shared nothing и MPP архитектура • Многомерный JSON-документ вместо таблицы • Возможность хранения в атрибуте физической ссылки на другую коллекцию атрибутов в формате JSON Преимущества документо-ориентированных БД над реляционными www.itsmforum.ru Инфраструктура Big Data
  • 21. • Вершина является JSON-документом • Все вершины связаны между собой ребрами • Вершины и ребра имеют физические адреса, которые однозначно указывают на местоположение данных • Ребра имеют 2 направления и тоже являются JSON- документом • Язык запросов GREMLIN Дополнительные преимущества графовых БД www.itsmforum.ru Инфраструктура Big Data
  • 22. select in.wordid as wordid ,in.in('has_senses_e').lemma as lemma ,linktype ,out.wordid as wordid_link ,out.synsetid as synsetid_link ,out.in('has_senses_e').lemma as lemma_link from has_link_e where in.wordid = 28127 and in.synsetid = 300006050 and linktype = 'antonym' Язык запросов GREMLIN www.itsmforum.ru Инфраструктура Big Data
  • 23. WhatsApp, Viber, Telegram: +7-926-5872119 Email: petrov@gobigdata.info https://www.linkedin.com/in/petrovgobigdata http://facebook.com/gobigdata.info http://facebook.com/groups/bigbigdata www.itsmforum.ru КОНТАКТЫ Мои тренинги и бесплатные материалы: http://yurypetrov.com Петров Юрий Владимирович Тренер, консультант (Big Data и DWH)