SlideShare a Scribd company logo
1 of 59
Download to read offline
Маленькие «секреты»
больших данных

Андрей Устюжанин
Руководитель совместных проектов Яндекс-ЦЕРН
Объем

•
•
•
•

пользователей Internet: 2 млрд
• листьев на дереве: ~1 млн
Сайтов Internet: 0.5 млрд
• травинок на футбольном
Страниц: 10 трлн
поле: ~100 млн
роликов YouTube: 0.5 трлн
• страниц в Ленинской
часов
библиотеке, песчинок на
• фотки Facebook: ~10 Pb
пляже, байт в геноме, ...
• аккаунтов Twitter: 200 млн

3
Объем + скорость + разнообразие

•Текст
•Фото
•Аудио
•Видео

•не только
Internet!

4

• в день:
лайков Facebook: 1 млрд
твитов: 100 млн
5
«Данные - это новая нефть!»

5
http://bit.ly/18SpwMF
6

Технологии Big Data
Метапереход: от статистики к
инженерии данных

Реальный мир
Мир
глазами аналитика

8
«How can we build computer
systems that automatically
improve with experience, and what
are the fundamental laws that
govern all learning processes?»
Tom Mitchell, CMU
9
«Как построить компьютерные
системы, которые
автоматически улучшаются с
накопленным опытом, и каким
законам подчинаются все
процессы обучения?»
Tom Mitchell, CMU
10
Реализации машинного обучения
TMVA http://tmva.sf.net
word2vec by Google http://code.google.com/p/word2vec
h2o by 0xdata http://0xdata.com/h2O
“The Berkeley Stack” by AMPLab
http://amplab.cs.berkeley.edu
Vorpal Wabbit by John Langford
http://github.com/JohnLangford/vowpal_wabbit
KNIME - http://knime.org
PMML - Predictive Model Markup Language
http://ibm.com/developerworks/industry/library/ind-PMML2/
scikit-learn for Python http://scikit-learn.org

17
iPython notebook
• Literation programming
• Literate computation

18
Метапереход: Информационные
системы

Экзоскелет
19

Нервная
система
20

Показ рекламы
21

Ранжирование
22

Размер «формулы» (модели)
Приложения машинного обучения
Поиск
Реклама
Маркет
Предсказание дорожных пробок
Перевод
Распознавание музыки, изображений, видео
Фильтрация спама
Кластеризация новостей
Определение аномалий
24

Deathly ones
25

LHCb events
26

Event Filtering (Bs→µ+µ-)
27

Анатомия приложения
1.Получить данные
2.Выбрать пространство признаков
3.Выбрать меры оценки качества
4.Выбрать параметры классификатора
5.Обучить модель
6.Оценка качества
7.Повторить

28

Анатомия приложения
29

Кто управляет кораблем?
30

Что такое матрица?
Метапереход

«Как автоматизировать
производство
обучение машин?»

31
Конвейер исследований
Data Science
Data Acquisition

Aggregation, Transforming

Model Training/Machine Learning

Application

Results
Конвейер исследований
Web Search
Logs, ...

Map, Reduce, Join

Matrixnet/Tensornet

Data Science
Data Acquisition

Aggregation, Transforming

Model Training/Machine Learning

Engine

Application

Search Quality

Results
Конвейер исследований
Web Search
Logs, ...

Map, Reduce, Join

Matrixnet/Tensornet

Data Science
Data Acquisition

Aggregation, Transforming

Model Training/Machine Learning

CERN
LHC

Filtering and Stripping

TMVA

Engine

Application

Fitting

Search Quality

Results

Publications
Конвейер исследований
Web Search
Logs, ...

Map, Reduce, Join

Matrixnet/Tensornet

Data Science
Data Acquisition

Aggregation, Transforming

Model Training/Machine Learning

CERN
LHC

Filtering and Stripping

TMVA

Engine

Application

Fitting

Search Quality

Results

Publications
Workflow model «A»
Workflow model «YDF»

LHCb Physics
Coordinator
Workflow scalability

LHCb Physics
Coordinator
Принц (Принцесса)

Король (Королева)

Бродяга (Стерва)

Тиран (Мачеха)

Шут (Жрица)

Воин (Охотница)

Черный маг (Ведьма)

Убийца (Амазонка)

36

Архетипы «Пути героя»
Принц (Принцесса)

Король (Королева)

Бродяга (Стерва)

Тиран (Мачеха)

Шут (Жрица)

Воин (Охотница)

Черный маг (Ведьма)

Убийца (Амазонка)

37

Архетипы «Пути героя»
38

Навыки инженера данных
From: Swami Chandrasekaran,Executive Architect

Программирование
Алгоритмы и структуры
данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка
текста
Распределенные системы
Инструменты Big Data
Визуализация данных
40

Учебные программы от индустрии
Международные курсы
• Университетские программы:

–
–
–
–
–

University of Washington: CertiUcate in Data Science
UC Berkeley: Master of information and data science program
New York University: Data Science at NYU
Columbia University: Institute for Data Sciences and Engineering
University of Southern California (UCS) : Master of Science in Data Science

• Онлайн курсы обучения:

–
–
–

Coursera
edX
Udacity

• Ускоренные образовательные программы (компании):

–
–
41

ZipUan Academy (12 weeks intensive program)
Insight Data Science Fellows program ( 6 weeks post doc training)
Яндекс.ШАД
Восстановление функциональных закономерностей из эмпирических данных.
Алгоритмы и структуры данных поиска
Вероятностно-статистические модели и анализ данных
Выпуклый анализ и оптимизация
Машинное обучение
Анализ символьных последовательностей с точки зрения биоинформатики
Дискретный анализ и теория вероятностей
Алгоритмы и структуры данных поиска
Автоматическая обработка текстов
Машинный перевод
Параллельные и распределенные вычисления
Комбинаторика и вероятность
Анализ изображений и видео
Алгоритмы для работы с большими объемами данных
...
42

http://bit.ly/18SyiKJ
Яндекс.ШАД
Восстановление функциональных закономерностей из эмпирических данных.
Алгоритмы и структуры данных поиска
Вероятностно-статистические модели и анализ данных
Выпуклый анализ и оптимизация
Машинное обучение
Анализ символьных последовательностей с точки зрения биоинформатики
Дискретный анализ и теория вероятностей
Алгоритмы и структуры данных поиска
Автоматическая обработка текстов
Машинный перевод
Параллельные и распределенные вычисления
Комбинаторика и вероятность
Анализ изображений и видео
Алгоритмы для работы с большими объемами данных
...
43

http://bit.ly/18SyiKJ
44

Вакансии «data science»
45

Предсказание вероятности преступлений
46

Крипта - определение социально-демографических факторов
47

Предсказание климата
48

Интерактивная инфографика
http://bit.ly/18SqoRy
49
http://slidesha.re/18SN3gm
50

Data-journalism
http://bit.ly/18Sp7K0
51

Демография РФ
Численные эксперименты/
исследования
Измеримость
Воспроизводимость
Читаемость/прозрачность
Совместная работа
Модульность
Автоматизируемость

52
53

Gartner Hype Cycle
Заключение
• Большие данные:
– скорость + размер + разнообразие
• «Секреты»:
– метапереход от статистики к модельному описанию
(инженерия данных, машинное обучение)
– алгоритмы и библиотеки построения моделей
– инфраструктура для встраивания моделей
– конвейрная обработка
• Новые подходы в естесственных и гуманитарных науках:
– инфографика
– воспроизводимые эксперименты
– журналистика данных
54
Андрей Устюжанин
Руководитель совместных проектов
Яндекс-ЦЕРН

anaderi@yandex-team.ru

Спасибо!

More Related Content

Viewers also liked

comScore online measurement - Russia RIW November 2010
comScore online measurement - Russia  RIW November 2010comScore online measurement - Russia  RIW November 2010
comScore online measurement - Russia RIW November 2010Osnat Ben-Nesher Zaretsky
 
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за Криптой
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за КриптойDigital без силикона: Виктория Кинаш - Яндекс о том, что стоит за Криптой
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за КриптойCossa
 
Роль мобильной аудитории в Рунете (myTarget)
Роль мобильной аудитории в Рунете (myTarget)Роль мобильной аудитории в Рунете (myTarget)
Роль мобильной аудитории в Рунете (myTarget)NetCampus
 
comScore: отчёт “Российская Digital индустрия в 2015 г.”
comScore: отчёт “Российская Digital индустрия в 2015 г.”comScore: отчёт “Российская Digital индустрия в 2015 г.”
comScore: отчёт “Российская Digital индустрия в 2015 г.”Игорь Назаров
 
Мобильный интернет в России, исследование
Мобильный интернет в России, исследованиеМобильный интернет в России, исследование
Мобильный интернет в России, исследованиеMail.ru Group
 
Критичные метрики веб-аналитики
Критичные метрики веб-аналитикиКритичные метрики веб-аналитики
Критичные метрики веб-аналитикиDmitriy Isaev
 
Встречайте myTarget!
Встречайте myTarget!Встречайте myTarget!
Встречайте myTarget!Dmitry Shkolnikov
 
Big Data & Big Image_Николай Киселев
Big Data & Big Image_Николай КиселевBig Data & Big Image_Николай Киселев
Big Data & Big Image_Николай Киселевiabrussiaprez
 
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
Онлайн-классификация пользователей в быстрой Крипте. Родион ЖелудковYandex
 
Дмитрий Пашутин, Ivi
Дмитрий Пашутин, IviДмитрий Пашутин, Ivi
Дмитрий Пашутин, IviCossa
 
Eduson - Kak German Gref reformiruet Sberbank
Eduson - Kak German Gref reformiruet SberbankEduson - Kak German Gref reformiruet Sberbank
Eduson - Kak German Gref reformiruet SberbankEduson.tv
 
Вы есть то, что вы измеряете!
Вы есть то, что вы измеряете!Вы есть то, что вы измеряете!
Вы есть то, что вы измеряете!Roman.ua
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleNetpeak
 
Я.крипта и Я.аудитории
Я.крипта и Я.аудиторииЯ.крипта и Я.аудитории
Я.крипта и Я.аудиторииiabrussiaprez
 
Viewability и расширенная аналитика от AdServer для Brand Perfomance
 Viewability и расширенная аналитика от AdServer для Brand Perfomance Viewability и расширенная аналитика от AdServer для Brand Perfomance
Viewability и расширенная аналитика от AdServer для Brand PerfomanceAdRiver
 
Покупка данных в AdRiver DMP
Покупка данных в AdRiver DMPПокупка данных в AdRiver DMP
Покупка данных в AdRiver DMPAdRiver
 
Рецепт Б-52 для programmatic
Рецепт Б-52 для programmaticРецепт Б-52 для programmatic
Рецепт Б-52 для programmaticAdRiver
 
AdRiver PMP для агентств и издателей
AdRiver PMP для агентств и издателейAdRiver PMP для агентств и издателей
AdRiver PMP для агентств и издателейAdRiver
 
AdRiver для агентств
AdRiver для агентствAdRiver для агентств
AdRiver для агентствAdRiver
 

Viewers also liked (20)

comScore online measurement - Russia RIW November 2010
comScore online measurement - Russia  RIW November 2010comScore online measurement - Russia  RIW November 2010
comScore online measurement - Russia RIW November 2010
 
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за Криптой
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за КриптойDigital без силикона: Виктория Кинаш - Яндекс о том, что стоит за Криптой
Digital без силикона: Виктория Кинаш - Яндекс о том, что стоит за Криптой
 
Роль мобильной аудитории в Рунете (myTarget)
Роль мобильной аудитории в Рунете (myTarget)Роль мобильной аудитории в Рунете (myTarget)
Роль мобильной аудитории в Рунете (myTarget)
 
comScore: отчёт “Российская Digital индустрия в 2015 г.”
comScore: отчёт “Российская Digital индустрия в 2015 г.”comScore: отчёт “Российская Digital индустрия в 2015 г.”
comScore: отчёт “Российская Digital индустрия в 2015 г.”
 
Мобильный интернет в России, исследование
Мобильный интернет в России, исследованиеМобильный интернет в России, исследование
Мобильный интернет в России, исследование
 
Критичные метрики веб-аналитики
Критичные метрики веб-аналитикиКритичные метрики веб-аналитики
Критичные метрики веб-аналитики
 
Встречайте myTarget!
Встречайте myTarget!Встречайте myTarget!
Встречайте myTarget!
 
Big Data & Big Image_Николай Киселев
Big Data & Big Image_Николай КиселевBig Data & Big Image_Николай Киселев
Big Data & Big Image_Николай Киселев
 
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 
Дмитрий Пашутин, Ivi
Дмитрий Пашутин, IviДмитрий Пашутин, Ivi
Дмитрий Пашутин, Ivi
 
Eduson - Kak German Gref reformiruet Sberbank
Eduson - Kak German Gref reformiruet SberbankEduson - Kak German Gref reformiruet Sberbank
Eduson - Kak German Gref reformiruet Sberbank
 
Вставить код Google analitycs
Вставить код Google analitycsВставить код Google analitycs
Вставить код Google analitycs
 
Вы есть то, что вы измеряете!
Вы есть то, что вы измеряете!Вы есть то, что вы измеряете!
Вы есть то, что вы измеряете!
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Я.крипта и Я.аудитории
Я.крипта и Я.аудиторииЯ.крипта и Я.аудитории
Я.крипта и Я.аудитории
 
Viewability и расширенная аналитика от AdServer для Brand Perfomance
 Viewability и расширенная аналитика от AdServer для Brand Perfomance Viewability и расширенная аналитика от AdServer для Brand Perfomance
Viewability и расширенная аналитика от AdServer для Brand Perfomance
 
Покупка данных в AdRiver DMP
Покупка данных в AdRiver DMPПокупка данных в AdRiver DMP
Покупка данных в AdRiver DMP
 
Рецепт Б-52 для programmatic
Рецепт Б-52 для programmaticРецепт Б-52 для programmatic
Рецепт Б-52 для programmatic
 
AdRiver PMP для агентств и издателей
AdRiver PMP для агентств и издателейAdRiver PMP для агентств и издателей
AdRiver PMP для агентств и издателей
 
AdRiver для агентств
AdRiver для агентствAdRiver для агентств
AdRiver для агентств
 

Similar to Маленькие секреты больших данных

Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...AINL Conferences
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Andzhey Arshavskiy
 
!Predictive analyticbasics part1
!Predictive analyticbasics part1!Predictive analyticbasics part1
!Predictive analyticbasics part1Vladimir Krylov
 
Что такое системная инженерия
Что такое системная инженерияЧто такое системная инженерия
Что такое системная инженерияAnatoly Levenchuk
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер итThe Skolkovo Foundation
 
Ситуационные гис. Новый уровень
Ситуационные гис. Новый уровеньСитуационные гис. Новый уровень
Ситуационные гис. Новый уровеньООО "ИНТРО-ГИС"
 
Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Marina Payvina
 
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 Презентация Сколково на конференции Перспективные системы и задачи упралвления Презентация Сколково на конференции Перспективные системы и задачи упралвления
Презентация Сколково на конференции Перспективные системы и задачи упралвленияAlbert Yefimov
 
День инноваций Сколково в МИРЭА
День инноваций Сколково в МИРЭАДень инноваций Сколково в МИРЭА
День инноваций Сколково в МИРЭАAlbert Yefimov
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture ArchiveEOS-soft
 
Hackathon KickOff - Azure/Startups part
Hackathon KickOff - Azure/Startups partHackathon KickOff - Azure/Startups part
Hackathon KickOff - Azure/Startups partMicrosoft
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТVasily Ryzhonkov
 
03 ананьев сиис13
03 ананьев сиис1303 ананьев сиис13
03 ананьев сиис13Marina_creautor
 

Similar to Маленькие секреты больших данных (20)

Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...
 
магистратура итс (09.04.01)
магистратура итс (09.04.01)магистратура итс (09.04.01)
магистратура итс (09.04.01)
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
!Predictive analyticbasics part1
!Predictive analyticbasics part1!Predictive analyticbasics part1
!Predictive analyticbasics part1
 
Что такое системная инженерия
Что такое системная инженерияЧто такое системная инженерия
Что такое системная инженерия
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер ит
 
Ситуационные гис. Новый уровень
Ситуационные гис. Новый уровеньСитуационные гис. Новый уровень
Ситуационные гис. Новый уровень
 
Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?
 
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 Презентация Сколково на конференции Перспективные системы и задачи упралвления Презентация Сколково на конференции Перспективные системы и задачи упралвления
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 
День инноваций Сколково в МИРЭА
День инноваций Сколково в МИРЭАДень инноваций Сколково в МИРЭА
День инноваций Сколково в МИРЭА
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture Archive
 
Hackathon KickOff - Azure/Startups part
Hackathon KickOff - Azure/Startups partHackathon KickOff - Azure/Startups part
Hackathon KickOff - Azure/Startups part
 
Akavita Tutejshyja
Akavita TutejshyjaAkavita Tutejshyja
Akavita Tutejshyja
 
technekon
technekontechnekon
technekon
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
03 ананьев сиис13
03 ананьев сиис1303 ананьев сиис13
03 ананьев сиис13
 

Маленькие секреты больших данных