Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции

ИНСТРУМЕНТЫ
БОЛЬШИХ ДАННЫХ
от конкуренции
– к интеграции

ПЛЕНАРНАЯ ЧАСТЬ
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед

ПЛАТФОРМЫ И АРХИТЕКТУРЫ
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие

БОЛЬШИЕ ДАННЫЕ НА ПРАКТИКЕ
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей

БОЛЬШИЕ ДАННЫЕ:
ИСТОРИЧЕСКАЯ ДЕФИНИЦИЯ
“данные такого объёма,
разнообразия,
и скорости прироста,
что их обработка
традиционными средствами
неэффективна”
[1V]
[2V]
[3V]
McKinsey, PwC (2009–2010)

DWH
OLTP
RDBMS
BI,
reporting
“НОВОЕ” ПРОТИВ
“ТРАДИЦИОННОГО”
Hadoop NoSQL
R
→ …
→ “наука о данных”
McKinsey, PwC (2009–2010)

СТРОЙБЛОКИ
ЭФФЕКТИВНОСТИ
Горизонтальная
масштабируемость
Узлы массового класса
Накопители массового
класса узлового
подключения
Стандартная сеть
Кластер без общих ресурсовСвободное программное
обеспечение
Массово-параллельная
обработка
MapReduce
DAG

HADOOP: НЕ ТОЛЬКО MAPREDUCE,
А “ЭКОСИСТЕМА”
HDFS
HBase
S3
Gluster
FS
Swift
Ceph
FS
…
Yarn
MapReduce Tez Spark
MLLib
Streaming
GraphX
Impala
Drill
Presto
Dato
Phoenix
Giraph
Mahout
Pig
Cascading
Hive
SparkSQL
DataFu
H2O
SQL-движки
Графовые движки
Абстракции обработки
Машинное обучение
Хранение
Kylin

NOSQL:
ТЕРМИНОЛОГИЧЕСКИЕ
ТОНКОСТИ
• Реляционные СУБД
• Классические «SQL-серверы»S Q L
• «Не SQL-сервер»
• … но, возможно, с поддержкой языка SQLN o S Q L
• “Not Only SQL”
• …в поддержку языка SQL, но не реляционной
модели
N O S Q L
• Горизонтально масштабируемые СУБД на
реляционных движках
• …или NoSQL-системы, говорящие на SQL
N e w S Q L

NOSQL:
ВЫЯВЛЕННОЕ ОПРЕДЕЛЕНИЕ
и иногда (в широком смысле)
другие нереляционныеСУБД
а также
графовые СУБД
…класс горизонтально масштабируемых СУБД с
агрегатной моделью хранения и ограниченной
транзакционностью
«ключ – значение»
документо-
ориентированные
«семейство
столбцов»

NOSQL-I: АГРЕГАТНЫЕ
«Ключ –
значение»
DynamoDB
Riak
Berkeley DB
Redis
Aerospike
Voldermort
Tarantool
MemcacheDB
FoundationDB
Документо-
MongoDB
CouchDB и
Couchbase
SequoiaDB
RavenDB
«Семейство
столбцов»
BigTable
HBase
Cassandra
SimpleDB
Accumulo

NOSQL-II: ГРАФОВЫЕ
Neo4j
FlockDB OrientDB
Infinite
Graph
Hyper
GraphDB

«Ключ – значение»
Документо-
«Семейство
столбцов»
Графовые
ХАРАКТЕРИСТИЧЕСКИЕ
СВОЙСТВА NOSQL-I [II]
Агрегатная модель хранения
Бессхемность, комбинирование на стороне приложения
Атомарный доступ
Горизонтальная масштабируемость
Ограниченная транзакционность
Эффективная репликация

NOSQL-III:
«И ПРИМКНУВШИЕ К НИМ»
Многозначные
(multivalue) и
иерархические
Mumps
Pick D3
Cachè
Объектно-
Objectivity
db4o
Jasmine
XML DB,
RDF-DB
(часто включены в
сегмент «документо-
ориентированных»)
Sedna
xDB
MarkLogic
Системы полно-
текстового поиска
Lucene
Solr
Elasticsearch
Распределённые
файловые системы
Hadoop
+
Hive
+
Pig

…И ПРИМКНУВШИЕ К
ДВИЖЕНИЮ БОЛЬШИХ ДАННЫХ
Массово-параллельные
аналитические РСУБД
Greenplum DB
Vertica
ParAccel
→ RedShift
DatAllegro
→ PDW
ClickHouse
Резидентные гриды
данных
(NoSQL «ключ – значение»
по факту)
Coherence
Hazelcast
Gridgain
Gemfire
Gigaspaces XAP
Infinispan
Резидентные РСУБД
(“быстрые данные”)
SAP Hana
Exasol
VoltDB
MemSQL

КАРТА КОНКУРЕНЦИИ
Информационные
системы
Электронный
бизнес и
интернет вещей
Хранилища
данных,
отчётность, BI
Наука о данных
операционная обработка
аналитика
корпоративный стиль
цифровой стиль

КОРПОРАТИВНАЯ КЛАССИКА
системы
Вотчина классических РСУБД
Резидентные гриды
данных
«немного
разгрузим
основную
базу
“а нужна ли РСУБД?”

РЕЗИДЕНТНЫЕ ГРИДЫ:
СТАНОВЯТСЯ
НЕОТЛИЧИМЫМИ ОТ РСУБД
Поддержка SQL-92
Hazelcast Gridgain Infinispan Terracota
Поддержка ACID
Coherence Hazelcast Gridgain Gemfire
Gigaspaces
XAP
Terracota …

АНАЛИЗИРУЕМ ПЕТАБАЙТЫ
Хранилища
данных,
Де с я т к и – с о т н и Т Б
К е д и н и ц а м П Б
Массово-параллельныеРСУБД

ЦЕНА ТЕРАБАЙТА В
ХРАНИЛИЩЕ
… н а п р и м е р е л и н е й к и T e r a d a t a ( 2 0 1 4 )
Изображение: Teradata, 2014

ЗВЁЗДНЫЕ ПРОЕКТЫ HADOOP:
ЛИНГВИСТИЧЕСКОЕ
СТРЕМЛЕНИЕ К РСУБД
HBase
• 2007
Hive
• 2009
Impala
• 2011
Spark
• 2013
Presto
• 2015
Phoenix
• 2017
BigTable-
стиль
HiveQL SQL

МЕТОДОЛОГИИ ХРАНИЛИЩ
ДРУЖЕСТВЕННЫ HADOOP
Звёзды,
снежинки
Измерения,
иерархии,
факты, меры
Ветвь
Кимболла Своды данных
• DataVault 2.0 → 3.0
Якорные
модели
Ветвь
Инмона

ОБХОДИМ ВСЕ ИСТОЧНИКИ
ОДНИМ ЗАПРОСОМ
Apache
Drill
HDFS
HBase
Hive
RDBMS
MongoDB
Pivotal HDB
(Apache Hawq)
Hadoop
Greenplum
Database
Gemfire
Teradata
SQL-H
Hadoop
Aster Data
Teradata
Database
Oracle Big
Data SQL
Hadoop
Oracle
Database

HADOOP И РСУБД В DWH
14:15
14:45
15:15
16:00
16:30
17:00

ЦИФРОВОЙ БАЗИС
бизнес и
интернет
вещей
Родина
NoSQL
С большой традицией
свободных РСУБД
(MySQL, PostgreSQL)

NOSQL [И УЖЕ SQL] В IOT
10:00
10:30
11:00
11:30
12:30
13:00
13:30 Обед

NOSQL: ОТ
САМООГРАНИЧЕНИЙ К
ПОЛНОФУНКЦИОНАЛЬНОСТИ
SQL-
подобие
CQL
N1QL
AQL
SQL
Tarantool
ACID
FoundationDB
Tarantool
CouchDB

NOSQL-СВОЙСТВА В РСУБД
Горизонтальная
масштабируемость
Мультимастер
Автосегментация
Агрегатная модель
(JSON)
JSONB
SQL-JSON
Бессхемность
Полугибкие
схемы
Свод данных, EAV

ОПЕРАЦИОННЫЕСУБД:
ОДИНСЕГМЕНТ
Изображение: Gartner, 2016
– Hadoop
– РСУБД

СУБДДЛЯАНАЛИТИКИ:
ПОЧТИТЕЖЕ(ИHADOOP)
Изображение: Gartner, 2017

ОБЪЁМ РЫНКА
IDC: рынок СУБД в 2016
году – $45,7 млрд
451 Research: к 2016 году
объём рынка NoSQL
превзойдёт $1 млрд
IDC: рынок больших
данных к 2016 году
– $16 млрд
Gartner: резидентные СУБД в
2015 году – $6 млрд

МАСШТАБ ПО 451 RESEARCH
Изображение ©451 Research, 2012Изображение: 451 Research, 2015

…и «программатике» с
применением непрерывно
обучаемых моделей
АНАЛИТИКА ВГЛУБЬ
Наука о
данных
От статпакета на
рабочей станции в
масштабеОЗУ узла
[над экстрактом данных]
…к аналитике над
всем массивом…

БОЛЬШИЕ ДАННЫЕ
→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
10:00
10:30
11:00
11:30
12:30
13:00
13:30 Обед

HADOOP И НОВЫЕ
ИНСТРУМЕНТЫ ML (И DL):
ВЗАИМОИНТЕГРАЦИЯ
Средства
экосистемы
Hadoop
Mahout
H2O
…над Spark
Spark MLLib
Intel BigDL
Масштабируемые
по узлам Hadoop-
кластера
Deeplearning4j
Radoop
Доступ к Hadoop
«из коробки»
Tensorflow
MXNet

ДЛЯ DATA SCIENCE
14:15
14:45
15:15
16:00
16:30
17:00

DATA-SCIENCE-ПРОГНОЗЫ –
2020 (GARTNER)
Конвергенция в
одном
инструменте
Hadoop/Spark
Поисковая
аналитика
Визуальный BI
Рост числа
пользователей:
На x для
классических
платформ
На 2x для
“продвинутых
платформ”
Прирост числа
аналитиков
(data scientists):
На x –
профессио-
нальных
На 5x –
непрофес-
сиональных
(citizen data
scientists)
90%
современных
платформ
будут
поддерживать:
Запросы на
естественном
языке
Искусственный
интеллект
50% запросов
будут
формироваться
следующими
средствами:
Поисковой
запрос на
естественном
языке
[Голосовой]
аналитический
запрос
Алгорит-
мическая
автогенерация

10:00
10:30
11:00
11:30
12:30
13:00
13:30 Обед
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА

14:15
14:45
15:15
16:00
16:30
17:00
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА

ЦИФРОВИЗАЦИЯ
системы
бизнес и интернет
вещей
Хранилища
данных,
корпоративный стиль
цифровой стиль
NoSQL
Tensorflow
Theano
MLLib

ЦИФРОВИЗАЦИЯ
КЛАССИЧЕСКИХ НАПРАВЛЕНИЙ
14:15
14:45
15:15
16:00
16:30
17:00

ОПЕРАЦИОНАЛИЗАЦИЯ
АНАЛИТИКИ
системы
бизнес и интернет
вещей
Хранилища
данных,
операционная обработка
аналитика

→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
14:15
14:45
15:15
16:00
16:30
17:00

14:15
14:45
15:15
16:00
16:30
17:00
OLAP+OLTP В ОДНОЙ МОДЕЛИ

ТЕКУЩАЯ ОБСТАНОВКА (1):
ПРИОРИТЕТ МЕТОДОЛОГИЙ
ПЕРЕД ИНСТРУМЕНТАМИ
• “инструмент из
экосистемы”
HBase +
MapReduce
• “Развитый CQL”
• “Spark-
дружественный”
Cassandra +
Spark • “Появился же
Phoenix!”
Снова HBase
?
Инструменты постоянно меняются даже в одном проекте
– и это объективная реальность

ТЕКУЩАЯ ОБСТАНОВКА (2)
Экосистема Hadoop включает значительную
часть инструментария больших данных
Инструментарий больших данных, не входящий
в экосистему, ищет пути интеграции с ней
Задача стандартизации: что значит «инструмент
интегрирован с Hadoop»?
(спойлер: ODPi.org)

ТЕМА ГОДА: СТАНДАРТИЗАЦИЯ
14:15
14:45
15:15
16:00
16:30
17:00

NOSQL-ДВИЖЕНИЕ
ДЕФРАГМЕНТИРОВАНО
• Не сформулировано единых концепций – 4 разных класса и примыкающие
• Не возникло стандартов
Нет скрепляющей идеи
• Признание нарочитого отказа от них способом обратить внимание на
проблему горизонтального масштабирования
Всеобщее движение в сторону SQL и ACID
• Лучшие системы фактически стали восприниматься как одни из участников
рынка СУБД наряду с реляционными СУБД
• Часть систем застревает в развитии.Часть – уходит в небытие
Лучшие - входят в мейнстрим

НАУКА О ДАННЫХ ВЕЗДЕ
BD, ML, DL, AI, DS всё чаще упоминаются вместе
и даже как синонимы единого движения
Текущий этап – становление инструментов и
взаимоинтеграция
Машинное обучение и нейросети над большими данными –
главная точка роста

СПАСИБО ЗА
ВНИМАНИЕ!
mailto:anikolaenko@ibs.ru
mailto:anikolaenko@acm.org

Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции

Recommended

Recommended

More Related Content

Similar to Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции

Similar to Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции (20)

More from IBS

More from IBS (20)

Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции