2. ПЛЕНАРНАЯ ЧАСТЬ
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
3. ПЛАТФОРМЫ И АРХИТЕКТУРЫ
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
4. БОЛЬШИЕ ДАННЫЕ НА ПРАКТИКЕ
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
5. БОЛЬШИЕ ДАННЫЕ:
ИСТОРИЧЕСКАЯ ДЕФИНИЦИЯ
“данные такого объёма,
разнообразия,
и скорости прироста,
что их обработка
традиционными средствами
неэффективна”
[1V]
[2V]
[3V]
McKinsey, PwC (2009–2010)
8. HADOOP: НЕ ТОЛЬКО MAPREDUCE,
А “ЭКОСИСТЕМА”
HDFS
HBase
S3
Gluster
FS
Swift
Ceph
FS
…
Yarn
MapReduce Tez Spark
MLLib
Streaming
GraphX
Impala
Drill
Presto
Dato
Phoenix
Giraph
Mahout
Pig
Cascading
Hive
SparkSQL
DataFu
H2O
SQL-движки
Графовые движки
Абстракции обработки
Машинное обучение
Хранение
Kylin
9. NOSQL:
ТЕРМИНОЛОГИЧЕСКИЕ
ТОНКОСТИ
• Реляционные СУБД
• Классические «SQL-серверы»S Q L
• «Не SQL-сервер»
• … но, возможно, с поддержкой языка SQLN o S Q L
• “Not Only SQL”
• …в поддержку языка SQL, но не реляционной
модели
N O S Q L
• Горизонтально масштабируемые СУБД на
реляционных движках
• …или NoSQL-системы, говорящие на SQL
N e w S Q L
10. NOSQL:
ВЫЯВЛЕННОЕ ОПРЕДЕЛЕНИЕ
и иногда (в широком смысле)
другие нереляционныеСУБД
а также
графовые СУБД
…класс горизонтально масштабируемых СУБД с
агрегатной моделью хранения и ограниченной
транзакционностью
«ключ – значение»
документо-
ориентированные
«семейство
столбцов»
23. ОБХОДИМ ВСЕ ИСТОЧНИКИ
ОДНИМ ЗАПРОСОМ
Apache
Drill
HDFS
HBase
Hive
RDBMS
MongoDB
Pivotal HDB
(Apache Hawq)
Hadoop
Greenplum
Database
Gemfire
Teradata
SQL-H
Hadoop
Aster Data
Teradata
Database
Oracle Big
Data SQL
Hadoop
Oracle
Database
24. HADOOP И РСУБД В DWH
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
26. NOSQL [И УЖЕ SQL] В IOT
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
31. ОБЪЁМ РЫНКА
IDC: рынок СУБД в 2016
году – $45,7 млрд
451 Research: к 2016 году
объём рынка NoSQL
превзойдёт $1 млрд
IDC: рынок больших
данных к 2016 году
– $16 млрд
Gartner: резидентные СУБД в
2015 году – $6 млрд
33. …и «программатике» с
применением непрерывно
обучаемых моделей
АНАЛИТИКА ВГЛУБЬ
Наука о
данных
От статпакета на
рабочей станции в
масштабеОЗУ узла
[над экстрактом данных]
…к аналитике над
всем массивом…
34. БОЛЬШИЕ ДАННЫЕ
→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
35. HADOOP И НОВЫЕ
ИНСТРУМЕНТЫ ML (И DL):
ВЗАИМОИНТЕГРАЦИЯ
Средства
экосистемы
Hadoop
Mahout
H2O
…над Spark
Spark MLLib
Intel BigDL
Масштабируемые
по узлам Hadoop-
кластера
Deeplearning4j
Radoop
Доступ к Hadoop
«из коробки»
Tensorflow
MXNet
36. БОЛЬШИЕ ДАННЫЕ
ДЛЯ DATA SCIENCE
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
37. DATA-SCIENCE-ПРОГНОЗЫ –
2020 (GARTNER)
Конвергенция в
одном
инструменте
Hadoop/Spark
Поисковая
аналитика
Визуальный BI
Рост числа
пользователей:
На x для
классических
платформ
На 2x для
“продвинутых
платформ”
Прирост числа
аналитиков
(data scientists):
На x –
профессио-
нальных
На 5x –
непрофес-
сиональных
(citizen data
scientists)
90%
современных
платформ
будут
поддерживать:
Запросы на
естественном
языке
Искусственный
интеллект
50% запросов
будут
формироваться
следующими
средствами:
Поисковой
запрос на
естественном
языке
[Голосовой]
аналитический
запрос
Алгорит-
мическая
автогенерация
38. 10:00
Андрей Николаенко (IBS)
Инструменты больших данных: от конкуренции к интеграции
10:30
Максим Савченко (Сбербанк-Технологии)
Модели нового поколения: принятие решений на основе поведенческой информации<…>
11:00
Денис Аникин (Mail.ru)
Хранилище данных Интернета вещей
11:30
Олег Финошин (Vizex)
Обнаружение скрытых закономерностей в больших массивах обезличенных данных
12:00 Кофе-пауза
12:30
Евгений Линник (Техносерв)
Большие данные в системах противодействия мошенничеству
13:00
Валерий Артемьев (Банк России)
Причины неудач проектов больших данных
13:30 Обед
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА
39. 14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
РОЛЬ ‘DATA SCIENTIST’
В УСПЕХЕ ПРОЕКТА
41. ЦИФРОВИЗАЦИЯ
КЛАССИЧЕСКИХ НАПРАВЛЕНИЙ
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
43. БОЛЬШИЕ ДАННЫЕ
→ НАУКА О ДАННЫХ
→ “ПРОГРАММАТИКА”
14:15
Алексей Натекин (DM Labs, OpenDataScience)
Вся правда о специалистах по данным
14:45
Дмитрий Бабаев (МТС)
Организация больших данных для их эффективного использования в машинном обучении
15:15
Александр Сидоров (HeadHunter)
Машинное обучение: умный поиск работников и работодателей
15:45 Кофе-пауза
16:00
Руслан Хохлов (ВТБ24), Даниил Зайцев (ГлоуБайт Консалтинг)
Симбиоз реляционных СУБД и Hadoop на практике
16:30
Артем Ведерников (Data-CentricAlliance)
Персонализация рекламных кампаний в реальном времени
17:00
ДенисТурдаков (ИСП РАН)
Анализ социальных сетей: охота на ботов и троллей
17:30 Закрытие
44. 14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Юрий Петров (BigBigData Group )
Инфраструктура и организация работы на реальных проектах больших данных
16:30
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
17:00
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:30 Закрытие
OLAP+OLTP В ОДНОЙ МОДЕЛИ
45. ТЕКУЩАЯ ОБСТАНОВКА (1):
ПРИОРИТЕТ МЕТОДОЛОГИЙ
ПЕРЕД ИНСТРУМЕНТАМИ
• “инструмент из
экосистемы”
HBase +
MapReduce
• “Развитый CQL”
• “Spark-
дружественный”
Cassandra +
Spark • “Появился же
Phoenix!”
Снова HBase
?
Инструменты постоянно меняются даже в одном проекте
– и это объективная реальность
46. ТЕКУЩАЯ ОБСТАНОВКА (2)
Экосистема Hadoop включает значительную
часть инструментария больших данных
Инструментарий больших данных, не входящий
в экосистему, ищет пути интеграции с ней
Задача стандартизации: что значит «инструмент
интегрирован с Hadoop»?
(спойлер: ODPi.org)
47. ТЕМА ГОДА: СТАНДАРТИЗАЦИЯ
14:15
Артём Данилов (Avito.ru)
Развитие хранилища Avito.ru – от больших к очень большим данным
14:45
Сергей Золотарёв (Arenadata)
Зачем нужен «стандартный» Hadoop?
15:15
Алексей Мергасов (NoXA DataLab)
Бережливая (Lean) инфраструктура данных
15:45 Кофе-пауза
16:00
Павел Клеменков (Rambler & Co)
Машинное обучение: архитектура и конвейер больших данных
16:30
Никита Жаворонков (НИЯУ МИФИ)
Большие распределенные реестры. Аналитика блокчейна
17:00
17:30 Закрытие
48. ТЕКУЩАЯ ОБСТАНОВКА (3):
NOSQL-ДВИЖЕНИЕ
ДЕФРАГМЕНТИРОВАНО
• Не сформулировано единых концепций – 4 разных класса и примыкающие
• Не возникло стандартов
Нет скрепляющей идеи
• Признание нарочитого отказа от них способом обратить внимание на
проблему горизонтального масштабирования
Всеобщее движение в сторону SQL и ACID
• Лучшие системы фактически стали восприниматься как одни из участников
рынка СУБД наряду с реляционными СУБД
• Часть систем застревает в развитии.Часть – уходит в небытие
Лучшие - входят в мейнстрим
49. ТЕКУЩАЯ ОБСТАНОВКА (4):
НАУКА О ДАННЫХ ВЕЗДЕ
BD, ML, DL, AI, DS всё чаще упоминаются вместе
и даже как синонимы единого движения
Текущий этап – становление инструментов и
взаимоинтеграция
Машинное обучение и нейросети над большими данными –
главная точка роста