SlideShare a Scribd company logo
1 of 50
ИНСТРУМЕНТЫ
БОЛЬШИХ ДАННЫХ
от конкуренции
– к интеграции
ПЛЕНАРНАЯ ЧАСТЬ
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
ПЛАТФОРМЫ И АРХИТЕКТУРЫ
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
БОЛЬШИЕ ДАННЫЕ НА ПРАКТИКЕ
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
БОЛЬШИЕ ДАННЫЕ:
ИСТОРИЧЕСКАЯ ДЕФИНИЦИЯ
“данные такого объёма,
разнообразия,
и скорости прироста,
что их обработка
традиционными средствами
неэффективна”
[1V]
[2V]
[3V]
McKinsey, PwC (2009–2010)
DWH
OLTP
RDBMS
BI,
reporting
“НОВОЕ” ПРОТИВ
“ТРАДИЦИОННОГО”
Hadoop NoSQL
R
→ …
→ “наука о данных”
McKinsey, PwC (2009–2010)
СТРОЙБЛОКИ
ЭФФЕКТИВНОСТИ
Горизонтальная
масштабируемость
Узлы массового класса
Накопители массового
класса узлового
подключения
Стандартная сеть
Кластер без общих ресурсовСвободное программное
обеспечение
Массово-параллельная
обработка
MapReduce
DAG
HADOOP: НЕ ТОЛЬКО MAPREDUCE,
А “ЭКОСИСТЕМА”
HDFS
HBase
S3
Gluster
FS
Swift
Ceph
FS
…
Yarn
MapReduce Tez Spark
MLLib
Streaming
GraphX
Impala
Drill
Presto
Dato
Phoenix
Giraph
Mahout
Pig
Cascading
Hive
SparkSQL
DataFu
H2O
SQL-движки
Графовые движки
Абстракции обработки
Машинное обучение
Хранение
Kylin
NOSQL:
ТЕРМИНОЛОГИЧЕСКИЕ
ТОНКОСТИ
• Реляционные СУБД
• Классические «SQL-серверы»S Q L
• «Не SQL-сервер»
• … но, возможно, с поддержкой языка SQLN o S Q L
• “Not Only SQL”
• …в поддержку языка SQL, но не реляционной
модели
N O S Q L
• Горизонтально масштабируемые СУБД на
реляционных движках
• …или NoSQL-системы, говорящие на SQL
N e w S Q L
NOSQL:
ВЫЯВЛЕННОЕ ОПРЕДЕЛЕНИЕ
и иногда (в широком смысле)
другие нереляционныеСУБД
а также
графовые СУБД
…класс горизонтально масштабируемых СУБД с
агрегатной моделью хранения и ограниченной
транзакционностью
«ключ – значение»
документо-
ориентированные
«семейство
столбцов»
NOSQL-I: АГРЕГАТНЫЕ
«Ключ –
значение»
DynamoDB
Riak
Berkeley DB
Redis
Aerospike
Voldermort
Tarantool
MemcacheDB
FoundationDB
Документо-
ориентированные
MongoDB
CouchDB и
Couchbase
SequoiaDB
RavenDB
«Семейство
столбцов»
BigTable
HBase
Cassandra
SimpleDB
Accumulo
NOSQL-II: ГРАФОВЫЕ
Neo4j
FlockDB OrientDB
Infinite
Graph
Hyper
GraphDB
«Ключ – значение»
Документо-
ориентированные
«Семейство
столбцов»
Графовые
ХАРАКТЕРИСТИЧЕСКИЕ
СВОЙСТВА NOSQL-I [II]
Агрегатная модель хранения
Бессхемность, комбинирование на стороне приложения
Атомарный доступ
Горизонтальная масштабируемость
Ограниченная транзакционность
Эффективная репликация
NOSQL-III:
«И ПРИМКНУВШИЕ К НИМ»
Многозначные
(multivalue) и
иерархические
Mumps
Pick D3
Cachè
Объектно-
ориентированные
Objectivity
db4o
Jasmine
XML DB,
RDF-DB
(часто включены в
сегмент «документо-
ориентированных»)
Sedna
xDB
MarkLogic
Системы полно-
текстового поиска
Lucene
Solr
Elasticsearch
Распределённые
файловые системы
Hadoop
+
Hive
+
Pig
…И ПРИМКНУВШИЕ К
ДВИЖЕНИЮ БОЛЬШИХ ДАННЫХ
Массово-параллельные
аналитические РСУБД
Greenplum DB
Vertica
ParAccel
→ RedShift
DatAllegro
→ PDW
ClickHouse
Резидентные гриды
данных
(NoSQL «ключ – значение»
по факту)
Coherence
Hazelcast
Gridgain
Gemfire
Gigaspaces XAP
Infinispan
Резидентные РСУБД
(“быстрые данные”)
SAP Hana
Exasol
VoltDB
MemSQL
КАРТА КОНКУРЕНЦИИ
Информационные
системы
Электронный
бизнес и
интернет вещей
Хранилища
данных,
отчётность, BI
Наука о данных
операционная обработка
аналитика
корпоративный стиль
цифровой стиль
КОРПОРАТИВНАЯ КЛАССИКА
Информационные
системы
Вотчина классических РСУБД
Резидентные гриды
данных
«немного
разгрузим
основную
базу
“а нужна ли РСУБД?”
РЕЗИДЕНТНЫЕ ГРИДЫ:
СТАНОВЯТСЯ
НЕОТЛИЧИМЫМИ ОТ РСУБД
Поддержка SQL-92
Hazelcast Gridgain Infinispan Terracota
Поддержка ACID
Coherence Hazelcast Gridgain Gemfire
Gigaspaces
XAP
Terracota …
АНАЛИЗИРУЕМ ПЕТАБАЙТЫ
Хранилища
данных,
отчётность, BI
Де с я т к и – с о т н и Т Б
К е д и н и ц а м П Б
Массово-параллельныеРСУБД
ЦЕНА ТЕРАБАЙТА В
ХРАНИЛИЩЕ
… н а п р и м е р е л и н е й к и T e r a d a t a ( 2 0 1 4 )
Изображение: Teradata, 2014
ЗВЁЗДНЫЕ ПРОЕКТЫ HADOOP:
ЛИНГВИСТИЧЕСКОЕ
СТРЕМЛЕНИЕ К РСУБД
HBase
• 2007
Hive
• 2009
Impala
• 2011
Spark
• 2013
Presto
• 2015
Phoenix
• 2017
BigTable-
стиль
HiveQL SQL
МЕТОДОЛОГИИ ХРАНИЛИЩ
ДРУЖЕСТВЕННЫ HADOOP
Звёзды,
снежинки
Измерения,
иерархии,
факты, меры
Ветвь
Кимболла Своды данных
• DataVault 2.0 → 3.0
Якорные
модели
Ветвь
Инмона
ОБХОДИМ ВСЕ ИСТОЧНИКИ
ОДНИМ ЗАПРОСОМ
Apache
Drill
HDFS
HBase
Hive
RDBMS
MongoDB
Pivotal HDB
(Apache Hawq)
Hadoop
Greenplum
Database
Gemfire
Teradata
SQL-H
Hadoop
Aster Data
Teradata
Database
Oracle Big
Data SQL
Hadoop
Oracle
Database
HADOOP И РСУБД В DWH
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
ЦИФРОВОЙ БАЗИС
Электронный
бизнес и
интернет
вещей
Родина
NoSQL
С большой традицией
свободных РСУБД
(MySQL, PostgreSQL)
NOSQL [И УЖЕ SQL] В IOT
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
NOSQL: ОТ
САМООГРАНИЧЕНИЙ К
ПОЛНОФУНКЦИОНАЛЬНОСТИ
SQL-
подобие
CQL
N1QL
AQL
SQL
Tarantool
ACID
FoundationDB
Tarantool
CouchDB
NOSQL-СВОЙСТВА В РСУБД
Горизонтальная
масштабируемость
Мультимастер
Автосегментация
Агрегатная модель
(JSON)
JSONB
SQL-JSON
Бессхемность
Полугибкие
схемы
Свод данных, EAV
ОПЕРАЦИОННЫЕСУБД:
ОДИНСЕГМЕНТ
Изображение: Gartner, 2016
– Hadoop
– РСУБД
СУБДДЛЯАНАЛИТИКИ:
ПОЧТИТЕЖЕ(ИHADOOP)
Изображение: Gartner, 2017
ОБЪЁМ РЫНКА
IDC: рынок СУБД в 2016
году – $45,7 млрд
451 Research: к 2016 году
объём рынка NoSQL
превзойдёт $1 млрд
IDC: рынок больших
данных к 2016 году
– $16 млрд
Gartner: резидентные СУБД в
2015 году – $6 млрд
МАСШТАБ ПО 451 RESEARCH
Изображение ©451 Research, 2012Изображение: 451 Research, 2015
…и «программатике» с
применением непрерывно
обучаемых моделей
АНАЛИТИКА ВГЛУБЬ
Наука о
данных
От статпакета на
рабочей станции в
масштабеОЗУ узла
[над экстрактом данных]
…к аналитике над
всем массивом…
БОЛЬШИЕ ДАННЫЕ
→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
HADOOP И НОВЫЕ
ИНСТРУМЕНТЫ ML (И DL):
ВЗАИМОИНТЕГРАЦИЯ
Средства
экосистемы
Hadoop
Mahout
H2O
…над Spark
Spark MLLib
Intel BigDL
Масштабируемые
по узлам Hadoop-
кластера
Deeplearning4j
Radoop
Доступ к Hadoop
«из коробки»
Tensorflow
MXNet
БОЛЬШИЕ ДАННЫЕ
ДЛЯ DATA SCIENCE
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
DATA-SCIENCE-ПРОГНОЗЫ –
2020 (GARTNER)
Конвергенция в
одном
инструменте
Hadoop/Spark
Поисковая
аналитика
Визуальный BI
Рост числа
пользователей:
На x для
классических
платформ
На 2x для
“продвинутых
платформ”
Прирост числа
аналитиков
(data scientists):
На x –
профессио-
нальных
На 5x –
непрофес-
сиональных
(citizen data
scientists)
90%
современных
платформ
будут
поддерживать:
Запросы на
естественном
языке
Искусственный
интеллект
50% запросов
будут
формироваться
следующими
средствами:
Поисковой
запрос на
естественном
языке
[Голосовой]
аналитический
запрос
Алгорит-
мическая
автогенерация
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА
ЦИФРОВИЗАЦИЯ
Информационные
системы
Электронный
бизнес и интернет
вещей
Хранилища
данных,
отчётность, BI
Наука о данных
корпоративный стиль
цифровой стиль
NoSQL
Tensorflow
Theano
MLLib
ЦИФРОВИЗАЦИЯ
КЛАССИЧЕСКИХ НАПРАВЛЕНИЙ
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
ОПЕРАЦИОНАЛИЗАЦИЯ
АНАЛИТИКИ
Информационные
системы
Электронный
бизнес и интернет
вещей
Хранилища
данных,
отчётность, BI
Наука о данных
операционная обработка
аналитика
БОЛЬШИЕ ДАННЫЕ
→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
OLAP+OLTP В ОДНОЙ МОДЕЛИ
ТЕКУЩАЯ ОБСТАНОВКА (1):
ПРИОРИТЕТ МЕТОДОЛОГИЙ
ПЕРЕД ИНСТРУМЕНТАМИ
• “инструмент из
экосистемы”
HBase +
MapReduce
• “Развитый CQL”
• “Spark-
дружественный”
Cassandra +
Spark • “Появился же
Phoenix!”
Снова HBase
?
Инструменты постоянно меняются даже в одном проекте
– и это объективная реальность
ТЕКУЩАЯ ОБСТАНОВКА (2)
Экосистема Hadoop включает значительную
часть инструментария больших данных
Инструментарий больших данных, не входящий
в экосистему, ищет пути интеграции с ней
Задача стандартизации: что значит «инструмент
интегрирован с Hadoop»?
(спойлер: ODPi.org)
ТЕМА ГОДА: СТАНДАРТИЗАЦИЯ
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
16:30
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:00
17:30 Закрытие
ТЕКУЩАЯ ОБСТАНОВКА (3):
NOSQL-ДВИЖЕНИЕ
ДЕФРАГМЕНТИРОВАНО
• Не сформулировано единых концепций – 4 разных класса и примыкающие
• Не возникло стандартов
Нет скрепляющей идеи
• Признание нарочитого отказа от них способом обратить внимание на
проблему горизонтального масштабирования
Всеобщее движение в сторону SQL и ACID
• Лучшие системы фактически стали восприниматься как одни из участников
рынка СУБД наряду с реляционными СУБД
• Часть систем застревает в развитии.Часть – уходит в небытие
Лучшие - входят в мейнстрим
ТЕКУЩАЯ ОБСТАНОВКА (4):
НАУКА О ДАННЫХ ВЕЗДЕ
BD, ML, DL, AI, DS всё чаще упоминаются вместе
и даже как синонимы единого движения
Текущий этап – становление инструментов и
взаимоинтеграция
Машинное обучение и нейросети над большими данными –
главная точка роста
СПАСИБО ЗА
ВНИМАНИЕ!
mailto:anikolaenko@ibs.ru
mailto:anikolaenko@acm.org

More Related Content

Similar to Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции

NoSQL - взрыв возможностей
NoSQL - взрыв возможностейNoSQL - взрыв возможностей
NoSQL - взрыв возможностейAleksey Solntsev
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БДAndrew Sovtsov
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopAlexey Bokov
 
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...Denis Kolegov
 
Облачные тренды 2015
Облачные тренды 2015Облачные тренды 2015
Облачные тренды 2015Michael Kozloff
 
AZadonsky New Cloud Services
AZadonsky New Cloud ServicesAZadonsky New Cloud Services
AZadonsky New Cloud ServicesVasily Demin
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
 
Нереляционный SQL
Нереляционный SQLНереляционный SQL
Нереляционный SQLAndrei Nikolaenko
 
Нереляционный SQL / Андрей Николаенко (IBS)
Нереляционный SQL / Андрей Николаенко (IBS)Нереляционный SQL / Андрей Николаенко (IBS)
Нереляционный SQL / Андрей Николаенко (IBS)Ontico
 
SDN&NFV: новые горизонты
SDN&NFV: новые горизонтыSDN&NFV: новые горизонты
SDN&NFV: новые горизонтыARCCN
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_seeElena Ometova
 
Architecture of NoSQL distributed clusters on AWS
Architecture of NoSQL distributed clusters on AWSArchitecture of NoSQL distributed clusters on AWS
Architecture of NoSQL distributed clusters on AWSAleksandr Maklakov
 
Облако рядом: от теории к кейсам
Облако рядом: от теории к кейсамОблако рядом: от теории к кейсам
Облако рядом: от теории к кейсамYuri Trukhin
 
Облако рядом. От теории к кейсам.
Облако рядом. От теории к кейсам.Облако рядом. От теории к кейсам.
Облако рядом. От теории к кейсам.Diana Dymolazova
 
BitByte Обзор платформы InfoboxCloud
BitByte Обзор платформы InfoboxCloudBitByte Обзор платформы InfoboxCloud
BitByte Обзор платформы InfoboxCloudYuri Trukhin
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данныхОмские ИТ-субботники
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
MongoDB basics in Russian
MongoDB basics in RussianMongoDB basics in Russian
MongoDB basics in RussianOleg Kachan
 

Similar to Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции (20)

Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 
NoSQL - взрыв возможностей
NoSQL - взрыв возможностейNoSQL - взрыв возможностей
NoSQL - взрыв возможностей
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and Hadoop
 
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...
Разработка и реализация механизма мандатного управления доступом в СУБД MySQL...
 
Облачные тренды 2015
Облачные тренды 2015Облачные тренды 2015
Облачные тренды 2015
 
AZadonsky New Cloud Services
AZadonsky New Cloud ServicesAZadonsky New Cloud Services
AZadonsky New Cloud Services
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
 
Нереляционный SQL
Нереляционный SQLНереляционный SQL
Нереляционный SQL
 
Нереляционный SQL / Андрей Николаенко (IBS)
Нереляционный SQL / Андрей Николаенко (IBS)Нереляционный SQL / Андрей Николаенко (IBS)
Нереляционный SQL / Андрей Николаенко (IBS)
 
SDN&NFV: новые горизонты
SDN&NFV: новые горизонтыSDN&NFV: новые горизонты
SDN&NFV: новые горизонты
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_see
 
Управление данными (sql)
Управление данными (sql)Управление данными (sql)
Управление данными (sql)
 
Architecture of NoSQL distributed clusters on AWS
Architecture of NoSQL distributed clusters on AWSArchitecture of NoSQL distributed clusters on AWS
Architecture of NoSQL distributed clusters on AWS
 
Облако рядом: от теории к кейсам
Облако рядом: от теории к кейсамОблако рядом: от теории к кейсам
Облако рядом: от теории к кейсам
 
Облако рядом. От теории к кейсам.
Облако рядом. От теории к кейсам.Облако рядом. От теории к кейсам.
Облако рядом. От теории к кейсам.
 
BitByte Обзор платформы InfoboxCloud
BitByte Обзор платформы InfoboxCloudBitByte Обзор платформы InfoboxCloud
BitByte Обзор платформы InfoboxCloud
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
MongoDB basics in Russian
MongoDB basics in RussianMongoDB basics in Russian
MongoDB basics in Russian
 

More from IBS

Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...
Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...
Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...IBS
 
Кейс: Внедрение системы управления HR-данными
Кейс: Внедрение системы управления HR-даннымиКейс: Внедрение системы управления HR-данными
Кейс: Внедрение системы управления HR-даннымиIBS
 
Создавайте хорошие таблицы
Создавайте хорошие таблицыСоздавайте хорошие таблицы
Создавайте хорошие таблицыIBS
 
Примеры использования HR-аналитики
Примеры использования HR-аналитикиПримеры использования HR-аналитики
Примеры использования HR-аналитикиIBS
 
Как запустить аналитику управления персоналом
Как запустить аналитику управления персоналомКак запустить аналитику управления персоналом
Как запустить аналитику управления персоналомIBS
 
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...IBS
 
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...IBS
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
 
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратора
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратораД.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратора
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратораIBS
 
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»IBS
 
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...IBS
 
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштаб
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштабАндрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштаб
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштабIBS
 
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализации
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализацииВ.Дубинкин (IBS). Триада SDN - от концепции к практической реализации
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализацииIBS
 
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...IBS
 
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...IBS
 
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...Inspur Smartrack – инновационное решение для горизонтального масштабирования ...
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...IBS
 
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...IBS
 
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...IBS
 
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...IBS
 
Современные флэш-технологии – от концепции к преимуществам использования // А...
Современные флэш-технологии – от концепции к преимуществам использования // А...Современные флэш-технологии – от концепции к преимуществам использования // А...
Современные флэш-технологии – от концепции к преимуществам использования // А...IBS
 

More from IBS (20)

Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...
Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...
Андрей Николаенко, IBS. DBMS Benchmarks in a Nutshell: концентрированное обоз...
 
Кейс: Внедрение системы управления HR-данными
Кейс: Внедрение системы управления HR-даннымиКейс: Внедрение системы управления HR-данными
Кейс: Внедрение системы управления HR-данными
 
Создавайте хорошие таблицы
Создавайте хорошие таблицыСоздавайте хорошие таблицы
Создавайте хорошие таблицы
 
Примеры использования HR-аналитики
Примеры использования HR-аналитикиПримеры использования HR-аналитики
Примеры использования HR-аналитики
 
Как запустить аналитику управления персоналом
Как запустить аналитику управления персоналомКак запустить аналитику управления персоналом
Как запустить аналитику управления персоналом
 
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...
Антон Боганов, IBS. Контроль и управление производительностью ИТ-инфраструкту...
 
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратора
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратораД.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратора
Д.Романченко, IBS. Аутсорсинг информационной безопасности: взгляд интегратора
 
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»
Конкурентоспособность российcких ИТ-решений в условиях «новой нормальности»
 
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...
Андрей Николаенко, IBS. Гиперконвергентная инфраструктура: миграция, технико-...
 
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштаб
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштабАндрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштаб
Андрей Николаенко, IBS. Гиперконвергентность - мягкое введение в веб-масштаб
 
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализации
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализацииВ.Дубинкин (IBS). Триада SDN - от концепции к практической реализации
В.Дубинкин (IBS). Триада SDN - от концепции к практической реализации
 
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...
П.Сычёв, И.Рогачев (IBS). Комплексная система управления жизненным циклом объ...
 
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...
Цифровые бизнес-модели, меняющие мир и IT-индустрию // Сергей Мацоцкий на Cne...
 
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...Inspur Smartrack – инновационное решение для горизонтального масштабирования ...
Inspur Smartrack – инновационное решение для горизонтального масштабирования ...
 
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...
Как за счет СУБД сохранить инвестиции в условиях снижения бюджетов // Руслан ...
 
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...
Информационная безопасность сегодня // Фёдор Дбар ("Код безопасности") на Int...
 
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...
Виртуализация инфраструктуры ЦОД российской разработки // Владимир Порохов (O...
 
Современные флэш-технологии – от концепции к преимуществам использования // А...
Современные флэш-технологии – от концепции к преимуществам использования // А...Современные флэш-технологии – от концепции к преимуществам использования // А...
Современные флэш-технологии – от концепции к преимуществам использования // А...
 

Андрей Николаенко, IBS. Инструменты больших данных: от конкуренции – к интеграции

  • 2. ПЛЕНАРНАЯ ЧАСТЬ 10:00 Андрей Николаенко (IBS) Инструменты больших данных: от конкуренции к интеграции 10:30 Максим Савченко (Сбербанк-Технологии) Модели нового поколения: принятие решений на основе поведенческой информации<…> 11:00 Денис Аникин (Mail.ru) Хранилище данных Интернета вещей 11:30 Олег Финошин (Vizex) Обнаружение скрытых закономерностей в больших массивах обезличенных данных 12:00 Кофе-пауза 12:30 Евгений Линник (Техносерв) Большие данные в системах противодействия мошенничеству 13:00 Валерий Артемьев (Банк России) Причины неудач проектов больших данных 13:30 Обед
  • 3. ПЛАТФОРМЫ И АРХИТЕКТУРЫ 14:15 Артём Данилов (Avito.ru) Развитие хранилища Avito.ru – от больших к очень большим данным 14:45 Сергей Золотарёв (Arenadata) Зачем нужен «стандартный» Hadoop? 15:15 Алексей Мергасов (NoXA DataLab) Бережливая (Lean) инфраструктура данных 15:45 Кофе-пауза 16:00 Юрий Петров (BigBigData Group ) Инфраструктура и организация работы на реальных проектах больших данных 16:30 Павел Клеменков (Rambler & Co) Машинное обучение: архитектура и конвейер больших данных 17:00 Никита Жаворонков (НИЯУ МИФИ) Большие распределенные реестры. Аналитика блокчейна 17:30 Закрытие
  • 4. БОЛЬШИЕ ДАННЫЕ НА ПРАКТИКЕ 14:15 Алексей Натекин (DM Labs, OpenDataScience) Вся правда о специалистах по данным 14:45 Дмитрий Бабаев (МТС) Организация больших данных для их эффективного использования в машинном обучении 15:15 Александр Сидоров (HeadHunter) Машинное обучение: умный поиск работников и работодателей 15:45 Кофе-пауза 16:00 Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг) Симбиоз реляционных СУБД и Hadoop на практике 16:30 Артем Ведерников (Data-CentricAlliance) Персонализация рекламных кампаний в реальном времени 17:00 ДенисТурдаков (ИСП РАН) Анализ социальных сетей: охота на ботов и троллей 17:30 Закрытие
  • 5. БОЛЬШИЕ ДАННЫЕ: ИСТОРИЧЕСКАЯ ДЕФИНИЦИЯ “данные такого объёма, разнообразия, и скорости прироста, что их обработка традиционными средствами неэффективна” [1V] [2V] [3V] McKinsey, PwC (2009–2010)
  • 7. СТРОЙБЛОКИ ЭФФЕКТИВНОСТИ Горизонтальная масштабируемость Узлы массового класса Накопители массового класса узлового подключения Стандартная сеть Кластер без общих ресурсовСвободное программное обеспечение Массово-параллельная обработка MapReduce DAG
  • 8. HADOOP: НЕ ТОЛЬКО MAPREDUCE, А “ЭКОСИСТЕМА” HDFS HBase S3 Gluster FS Swift Ceph FS … Yarn MapReduce Tez Spark MLLib Streaming GraphX Impala Drill Presto Dato Phoenix Giraph Mahout Pig Cascading Hive SparkSQL DataFu H2O SQL-движки Графовые движки Абстракции обработки Машинное обучение Хранение Kylin
  • 9. NOSQL: ТЕРМИНОЛОГИЧЕСКИЕ ТОНКОСТИ • Реляционные СУБД • Классические «SQL-серверы»S Q L • «Не SQL-сервер» • … но, возможно, с поддержкой языка SQLN o S Q L • “Not Only SQL” • …в поддержку языка SQL, но не реляционной модели N O S Q L • Горизонтально масштабируемые СУБД на реляционных движках • …или NoSQL-системы, говорящие на SQL N e w S Q L
  • 10. NOSQL: ВЫЯВЛЕННОЕ ОПРЕДЕЛЕНИЕ и иногда (в широком смысле) другие нереляционныеСУБД а также графовые СУБД …класс горизонтально масштабируемых СУБД с агрегатной моделью хранения и ограниченной транзакционностью «ключ – значение» документо- ориентированные «семейство столбцов»
  • 11. NOSQL-I: АГРЕГАТНЫЕ «Ключ – значение» DynamoDB Riak Berkeley DB Redis Aerospike Voldermort Tarantool MemcacheDB FoundationDB Документо- ориентированные MongoDB CouchDB и Couchbase SequoiaDB RavenDB «Семейство столбцов» BigTable HBase Cassandra SimpleDB Accumulo
  • 13. «Ключ – значение» Документо- ориентированные «Семейство столбцов» Графовые ХАРАКТЕРИСТИЧЕСКИЕ СВОЙСТВА NOSQL-I [II] Агрегатная модель хранения Бессхемность, комбинирование на стороне приложения Атомарный доступ Горизонтальная масштабируемость Ограниченная транзакционность Эффективная репликация
  • 14. NOSQL-III: «И ПРИМКНУВШИЕ К НИМ» Многозначные (multivalue) и иерархические Mumps Pick D3 Cachè Объектно- ориентированные Objectivity db4o Jasmine XML DB, RDF-DB (часто включены в сегмент «документо- ориентированных») Sedna xDB MarkLogic Системы полно- текстового поиска Lucene Solr Elasticsearch Распределённые файловые системы Hadoop + Hive + Pig
  • 15. …И ПРИМКНУВШИЕ К ДВИЖЕНИЮ БОЛЬШИХ ДАННЫХ Массово-параллельные аналитические РСУБД Greenplum DB Vertica ParAccel → RedShift DatAllegro → PDW ClickHouse Резидентные гриды данных (NoSQL «ключ – значение» по факту) Coherence Hazelcast Gridgain Gemfire Gigaspaces XAP Infinispan Резидентные РСУБД (“быстрые данные”) SAP Hana Exasol VoltDB MemSQL
  • 16. КАРТА КОНКУРЕНЦИИ Информационные системы Электронный бизнес и интернет вещей Хранилища данных, отчётность, BI Наука о данных операционная обработка аналитика корпоративный стиль цифровой стиль
  • 17. КОРПОРАТИВНАЯ КЛАССИКА Информационные системы Вотчина классических РСУБД Резидентные гриды данных «немного разгрузим основную базу “а нужна ли РСУБД?”
  • 18. РЕЗИДЕНТНЫЕ ГРИДЫ: СТАНОВЯТСЯ НЕОТЛИЧИМЫМИ ОТ РСУБД Поддержка SQL-92 Hazelcast Gridgain Infinispan Terracota Поддержка ACID Coherence Hazelcast Gridgain Gemfire Gigaspaces XAP Terracota …
  • 19. АНАЛИЗИРУЕМ ПЕТАБАЙТЫ Хранилища данных, отчётность, BI Де с я т к и – с о т н и Т Б К е д и н и ц а м П Б Массово-параллельныеРСУБД
  • 20. ЦЕНА ТЕРАБАЙТА В ХРАНИЛИЩЕ … н а п р и м е р е л и н е й к и T e r a d a t a ( 2 0 1 4 ) Изображение: Teradata, 2014
  • 21. ЗВЁЗДНЫЕ ПРОЕКТЫ HADOOP: ЛИНГВИСТИЧЕСКОЕ СТРЕМЛЕНИЕ К РСУБД HBase • 2007 Hive • 2009 Impala • 2011 Spark • 2013 Presto • 2015 Phoenix • 2017 BigTable- стиль HiveQL SQL
  • 22. МЕТОДОЛОГИИ ХРАНИЛИЩ ДРУЖЕСТВЕННЫ HADOOP Звёзды, снежинки Измерения, иерархии, факты, меры Ветвь Кимболла Своды данных • DataVault 2.0 → 3.0 Якорные модели Ветвь Инмона
  • 23. ОБХОДИМ ВСЕ ИСТОЧНИКИ ОДНИМ ЗАПРОСОМ Apache Drill HDFS HBase Hive RDBMS MongoDB Pivotal HDB (Apache Hawq) Hadoop Greenplum Database Gemfire Teradata SQL-H Hadoop Aster Data Teradata Database Oracle Big Data SQL Hadoop Oracle Database
  • 24. HADOOP И РСУБД В DWH 14:15 Алексей Натекин (DM Labs, OpenDataScience) Вся правда о специалистах по данным 14:45 Дмитрий Бабаев (МТС) Организация больших данных для их эффективного использования в машинном обучении 15:15 Александр Сидоров (HeadHunter) Машинное обучение: умный поиск работников и работодателей 15:45 Кофе-пауза 16:00 Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг) Симбиоз реляционных СУБД и Hadoop на практике 16:30 Артем Ведерников (Data-CentricAlliance) Персонализация рекламных кампаний в реальном времени 17:00 ДенисТурдаков (ИСП РАН) Анализ социальных сетей: охота на ботов и троллей 17:30 Закрытие
  • 25. ЦИФРОВОЙ БАЗИС Электронный бизнес и интернет вещей Родина NoSQL С большой традицией свободных РСУБД (MySQL, PostgreSQL)
  • 26. NOSQL [И УЖЕ SQL] В IOT 10:00 Андрей Николаенко (IBS) Инструменты больших данных: от конкуренции к интеграции 10:30 Максим Савченко (Сбербанк-Технологии) Модели нового поколения: принятие решений на основе поведенческой информации<…> 11:00 Денис Аникин (Mail.ru) Хранилище данных Интернета вещей 11:30 Олег Финошин (Vizex) Обнаружение скрытых закономерностей в больших массивах обезличенных данных 12:00 Кофе-пауза 12:30 Евгений Линник (Техносерв) Большие данные в системах противодействия мошенничеству 13:00 Валерий Артемьев (Банк России) Причины неудач проектов больших данных 13:30 Обед
  • 28. NOSQL-СВОЙСТВА В РСУБД Горизонтальная масштабируемость Мультимастер Автосегментация Агрегатная модель (JSON) JSONB SQL-JSON Бессхемность Полугибкие схемы Свод данных, EAV
  • 31. ОБЪЁМ РЫНКА IDC: рынок СУБД в 2016 году – $45,7 млрд 451 Research: к 2016 году объём рынка NoSQL превзойдёт $1 млрд IDC: рынок больших данных к 2016 году – $16 млрд Gartner: резидентные СУБД в 2015 году – $6 млрд
  • 32. МАСШТАБ ПО 451 RESEARCH Изображение ©451 Research, 2012Изображение: 451 Research, 2015
  • 33. …и «программатике» с применением непрерывно обучаемых моделей АНАЛИТИКА ВГЛУБЬ Наука о данных От статпакета на рабочей станции в масштабеОЗУ узла [над экстрактом данных] …к аналитике над всем массивом…
  • 34. БОЛЬШИЕ ДАННЫЕ → НАУКА О ДАННЫХ → “ПРОГРАММАТИКА” 10:00 Андрей Николаенко (IBS) Инструменты больших данных: от конкуренции к интеграции 10:30 Максим Савченко (Сбербанк-Технологии) Модели нового поколения: принятие решений на основе поведенческой информации<…> 11:00 Денис Аникин (Mail.ru) Хранилище данных Интернета вещей 11:30 Олег Финошин (Vizex) Обнаружение скрытых закономерностей в больших массивах обезличенных данных 12:00 Кофе-пауза 12:30 Евгений Линник (Техносерв) Большие данные в системах противодействия мошенничеству 13:00 Валерий Артемьев (Банк России) Причины неудач проектов больших данных 13:30 Обед
  • 35. HADOOP И НОВЫЕ ИНСТРУМЕНТЫ ML (И DL): ВЗАИМОИНТЕГРАЦИЯ Средства экосистемы Hadoop Mahout H2O …над Spark Spark MLLib Intel BigDL Масштабируемые по узлам Hadoop- кластера Deeplearning4j Radoop Доступ к Hadoop «из коробки» Tensorflow MXNet
  • 36. БОЛЬШИЕ ДАННЫЕ ДЛЯ DATA SCIENCE 14:15 Артём Данилов (Avito.ru) Развитие хранилища Avito.ru – от больших к очень большим данным 14:45 Сергей Золотарёв (Arenadata) Зачем нужен «стандартный» Hadoop? 15:15 Алексей Мергасов (NoXA DataLab) Бережливая (Lean) инфраструктура данных 15:45 Кофе-пауза 16:00 Юрий Петров (BigBigData Group ) Инфраструктура и организация работы на реальных проектах больших данных 16:30 Павел Клеменков (Rambler & Co) Машинное обучение: архитектура и конвейер больших данных 17:00 Никита Жаворонков (НИЯУ МИФИ) Большие распределенные реестры. Аналитика блокчейна 17:30 Закрытие
  • 37. DATA-SCIENCE-ПРОГНОЗЫ – 2020 (GARTNER) Конвергенция в одном инструменте Hadoop/Spark Поисковая аналитика Визуальный BI Рост числа пользователей: На x для классических платформ На 2x для “продвинутых платформ” Прирост числа аналитиков (data scientists): На x – профессио- нальных На 5x – непрофес- сиональных (citizen data scientists) 90% современных платформ будут поддерживать: Запросы на естественном языке Искусственный интеллект 50% запросов будут формироваться следующими средствами: Поисковой запрос на естественном языке [Голосовой] аналитический запрос Алгорит- мическая автогенерация
  • 38. 10:00 Андрей Николаенко (IBS) Инструменты больших данных: от конкуренции к интеграции 10:30 Максим Савченко (Сбербанк-Технологии) Модели нового поколения: принятие решений на основе поведенческой информации<…> 11:00 Денис Аникин (Mail.ru) Хранилище данных Интернета вещей 11:30 Олег Финошин (Vizex) Обнаружение скрытых закономерностей в больших массивах обезличенных данных 12:00 Кофе-пауза 12:30 Евгений Линник (Техносерв) Большие данные в системах противодействия мошенничеству 13:00 Валерий Артемьев (Банк России) Причины неудач проектов больших данных 13:30 Обед РОЛЬ ‘DATA SCIENTIST’ В УСПЕХЕ ПРОЕКТА
  • 39. 14:15 Алексей Натекин (DM Labs, OpenDataScience) Вся правда о специалистах по данным 14:45 Дмитрий Бабаев (МТС) Организация больших данных для их эффективного использования в машинном обучении 15:15 Александр Сидоров (HeadHunter) Машинное обучение: умный поиск работников и работодателей 15:45 Кофе-пауза 16:00 Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг) Симбиоз реляционных СУБД и Hadoop на практике 16:30 Артем Ведерников (Data-CentricAlliance) Персонализация рекламных кампаний в реальном времени 17:00 ДенисТурдаков (ИСП РАН) Анализ социальных сетей: охота на ботов и троллей 17:30 Закрытие РОЛЬ ‘DATA SCIENTIST’ В УСПЕХЕ ПРОЕКТА
  • 40. ЦИФРОВИЗАЦИЯ Информационные системы Электронный бизнес и интернет вещей Хранилища данных, отчётность, BI Наука о данных корпоративный стиль цифровой стиль NoSQL Tensorflow Theano MLLib
  • 41. ЦИФРОВИЗАЦИЯ КЛАССИЧЕСКИХ НАПРАВЛЕНИЙ 14:15 Алексей Натекин (DM Labs, OpenDataScience) Вся правда о специалистах по данным 14:45 Дмитрий Бабаев (МТС) Организация больших данных для их эффективного использования в машинном обучении 15:15 Александр Сидоров (HeadHunter) Машинное обучение: умный поиск работников и работодателей 15:45 Кофе-пауза 16:00 Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг) Симбиоз реляционных СУБД и Hadoop на практике 16:30 Артем Ведерников (Data-CentricAlliance) Персонализация рекламных кампаний в реальном времени 17:00 ДенисТурдаков (ИСП РАН) Анализ социальных сетей: охота на ботов и троллей 17:30 Закрытие
  • 43. БОЛЬШИЕ ДАННЫЕ → НАУКА О ДАННЫХ → “ПРОГРАММАТИКА” 14:15 Алексей Натекин (DM Labs, OpenDataScience) Вся правда о специалистах по данным 14:45 Дмитрий Бабаев (МТС) Организация больших данных для их эффективного использования в машинном обучении 15:15 Александр Сидоров (HeadHunter) Машинное обучение: умный поиск работников и работодателей 15:45 Кофе-пауза 16:00 Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг) Симбиоз реляционных СУБД и Hadoop на практике 16:30 Артем Ведерников (Data-CentricAlliance) Персонализация рекламных кампаний в реальном времени 17:00 ДенисТурдаков (ИСП РАН) Анализ социальных сетей: охота на ботов и троллей 17:30 Закрытие
  • 44. 14:15 Артём Данилов (Avito.ru) Развитие хранилища Avito.ru – от больших к очень большим данным 14:45 Сергей Золотарёв (Arenadata) Зачем нужен «стандартный» Hadoop? 15:15 Алексей Мергасов (NoXA DataLab) Бережливая (Lean) инфраструктура данных 15:45 Кофе-пауза 16:00 Юрий Петров (BigBigData Group ) Инфраструктура и организация работы на реальных проектах больших данных 16:30 Павел Клеменков (Rambler & Co) Машинное обучение: архитектура и конвейер больших данных 17:00 Никита Жаворонков (НИЯУ МИФИ) Большие распределенные реестры. Аналитика блокчейна 17:30 Закрытие OLAP+OLTP В ОДНОЙ МОДЕЛИ
  • 45. ТЕКУЩАЯ ОБСТАНОВКА (1): ПРИОРИТЕТ МЕТОДОЛОГИЙ ПЕРЕД ИНСТРУМЕНТАМИ • “инструмент из экосистемы” HBase + MapReduce • “Развитый CQL” • “Spark- дружественный” Cassandra + Spark • “Появился же Phoenix!” Снова HBase ? Инструменты постоянно меняются даже в одном проекте – и это объективная реальность
  • 46. ТЕКУЩАЯ ОБСТАНОВКА (2) Экосистема Hadoop включает значительную часть инструментария больших данных Инструментарий больших данных, не входящий в экосистему, ищет пути интеграции с ней Задача стандартизации: что значит «инструмент интегрирован с Hadoop»? (спойлер: ODPi.org)
  • 47. ТЕМА ГОДА: СТАНДАРТИЗАЦИЯ 14:15 Артём Данилов (Avito.ru) Развитие хранилища Avito.ru – от больших к очень большим данным 14:45 Сергей Золотарёв (Arenadata) Зачем нужен «стандартный» Hadoop? 15:15 Алексей Мергасов (NoXA DataLab) Бережливая (Lean) инфраструктура данных 15:45 Кофе-пауза 16:00 Павел Клеменков (Rambler & Co) Машинное обучение: архитектура и конвейер больших данных 16:30 Никита Жаворонков (НИЯУ МИФИ) Большие распределенные реестры. Аналитика блокчейна 17:00 17:30 Закрытие
  • 48. ТЕКУЩАЯ ОБСТАНОВКА (3): NOSQL-ДВИЖЕНИЕ ДЕФРАГМЕНТИРОВАНО • Не сформулировано единых концепций – 4 разных класса и примыкающие • Не возникло стандартов Нет скрепляющей идеи • Признание нарочитого отказа от них способом обратить внимание на проблему горизонтального масштабирования Всеобщее движение в сторону SQL и ACID • Лучшие системы фактически стали восприниматься как одни из участников рынка СУБД наряду с реляционными СУБД • Часть систем застревает в развитии.Часть – уходит в небытие Лучшие - входят в мейнстрим
  • 49. ТЕКУЩАЯ ОБСТАНОВКА (4): НАУКА О ДАННЫХ ВЕЗДЕ BD, ML, DL, AI, DS всё чаще упоминаются вместе и даже как синонимы единого движения Текущий этап – становление инструментов и взаимоинтеграция Машинное обучение и нейросети над большими данными – главная точка роста