Революция Больших Данных

Революция

Больших
Данных

Революция
Больших
Данных

фото

фото

Май 2011 
Высшая школа экономики, Москва, 2013

фото

Революция
Больших
Данных

фото

фото

фото

Gartner
Hype
cycle
2013

www.gartner.com

Прогноз
рынка

Gartner: 2016- $55B

www.wikibon.com

Data is the new oil.
—European Consumer Commissioner Meglena Kuneva

Week of Aug 14, 2006:

XOM 69.10

AAPL 67.91

9K%
8K%
7K%
6K%

Капитализация:

–  Exxon - $387.2 B
–  Apple - $472.3 B

5K%
4K%
3K%
2K%
1K%
0%
© 2013 Yahoo! Inc.
2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

Volume: 24,392,640
60.0M
40.0M
20.0M

Большие
Данные

Явление характеризуемое быстрым увеличением объема
накапливаемых данных, скорости их поступления и
разнообразии источников

•  «Три V» характеристика:
•  Объем (Volume)
•  Скорость ( Velocity)
•  Разнообразие (Variety)


Источники
данных

фото

фото

фото

Скорость
накопления
данных

Библиотека Конгресса США содержит 33 млн книг,
всего 150 млн печатных изданий: 235 TB
2012:
•  Twitter: 175 млн tweet сообщений в день
•  Facebook: 300 млн загруженных фото в день
•  Google: 24 PB ежедневно
•  AT&T передает 30 PB в день
•  Walmart > 1 млн продаж в час
•  Кредитные карты > 10,000 транзакций в секунду
•  Boing 787 передает 0.5 TB телеметрических данных за
полет, 100 тыс. рейсов в день


фото

фото

Объемы
данных

В 2011г «Цифровая Вселенная»

фото

1.8 ZETTABYTES
фото

1,800,000,000,000,000,000,000
Zetta

Exa

Peta

Tera

Giga

9 млн Библиотек Конгресса США

Mega

Kilo

Byte

60 млрд iPhone 32 GB
фото

К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB

Технологии
Больших
Данных

• 
• 
• 
• 
• 
• 
• 

Основы технологии разработаны в
Google 2003, MapReduce
Открытое ПО, Hadoop (Yahoo)
Система массивно параллельной
обработки данных на кластерах дешевых
компьютеров
Значительное удешевление хранения
Экосистема Биг Дата стартапов:
Cloudera, MapR, HortonWorks
Крупные вендоры EMC, IBM, HP, Oracle
Большой вклад в открытые проекты:
Facebook, Twitter, Amazon, LinkedIn

фото

фото

фото

Big
Data
Landscape
2012

www.bigdatalandscape.com

Big
Data
Landscape
2013

www.bigdatalandscape.com

Подход
Больших
Данных

Уникальность подхода Больших Данных
заключается в агрегировании огромной
информации из разных источников в
одном месте

•  Обобщенные вид на данные позволяет находить
скрытые связи и закономерности
•  Данные обладают огромной предсказательной силой
•  Доступны вычислительные мощности достаточные
для очень детальных расчетов

фото

фото

фото

Перспективы
Больших
Данных

www.gartner.com

Бизнес
данных

•  Большие данные:
•  Хранение данных
•  Анализ данных
•  Data driven companies:
•  Принятие стратегических решений на основе данных
•  Создания продуктов основанные на данных
•  Предсказательная аналитика

Прикладные
задачи

•  Маркетинг:
•  Сегментация рынка
•  Моделирование приобретения и оттока клиентов
•  Рекомендательные системы
•  Анализ социальных медиа

•  Финансовые и страховые компании:
•  Предотвращение fraud
•  Детектирование аномального поведения
•  Анализ кредитных рисков
•  Страховые моделирование

•  Здравоохранение и Фармакология:
•  Генетический анализ
•  Анализ клинических испытаний
•  Клинические системы принятия решений

•  Оптимизация портфолио

Портрет
компании:
Amazon

Рекомендательная
система

Product
A

Product
B

Product
C

Портрет
компании:
LinkedIn

Люди, которых вы можете знать

238 mln members

Портрет
компании:
Target

“How companies learn your secrets”
•  Уникальный Guest ID
•  Транзакции по кредитной карте
•  Примеры факторов (сигналов):
• 
• 

Пищевые добавки кальций,
цинк, магний

• 
• 

Покупка крема без запаха

Мыло без запаха

Предсказательный «индекс»
беременности и ожидаемая
дата рождения

Предсказательное
моделирование

•  Обучение
модели

•  Применение
модели

from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”

Операторы
мобильной
связи

• 

Churn prediction: моделирование оттока клиентов

• 

Закономерности поведения подписчиков с течением времени

• 

Положительные и отрицательные примеры

Факторы модели:
•  История пользования сервисом (число звонков, смс)
•  История платежей за сервис
•  История обращений в службу поддержки
•  История изменений в контракте
•  Граф звонков (поведение друзей)

Моделирование
убеждаемости

2012 US Presidential Elections:
• 

Предвыборная кампания Барака Обамы: 50 data scientists

• 

Собраны исторические данные exit polls

• 

Данные из открытых источников, соц. Сетей

• 

Предсказательные модели:
• 

Кто вероятно будет голосовать за Обаму?

• 

Кто вероятно будет голосовать за Ромни ?

• 

Кто придет в день голосование на участки?

• 

Кого можно убедить голосовать за Обаму в случае
личного общения?

Галерея
проектов

Примеры небольших компаний и проектов создающих data driven products
Сбор и обработка массивов данных
•  Стартапы, небольшие проекты

фото

•  Частное и государственное финансирование
•  Social course ( социальная направленность)

фото

Большие
Данные
в
городе:
удобный
город

Сан-Франциско: датчики парковки, датчики скорости
транспортных потоков, GPS в общественном
транспорте

фото

фото

Использование:
•  нахождение свободных парковок
•  точное время прибытия общественного
транспорта

фото

Большие
Данные
в
городе:
безопасный

город

Лос-Анджелес: предсказания преступлений
LAPD (predictive policing, 2011-2013):

фото

•  Определение мест и времени с повышенной
вероятностью совершения преступлений
•  Исторические данные о преступности в городе
(80 месяцев), демографические и др. данные,
социологические модели

фото

•  Преступления против собственности снизились
за год на 12%
•  UCLA, UC Santa Cruz


фото

Большие
Данные
в
экономике

•  MIT научный проект, Billion Prices Project
•  Ежедневно собирают с е-магазинов цены на
товары:
фото
•  > 900 магазинов, 70 стран, 5 млн товаров
•  Автоматически вычисляют:
•  Индекс потребительских цен
•  Уровень инфляции
•  Бюро Статистики труда: 90 городов, 80,000 The key advantage of our series is the ability to anticipate major
shifts in underlying inflation trends
фото
товаров, сотни сотрудников, $250 млн
в год,
задержка 2-4 недели
Example: State Street PriceStats US Aggregate Inflation Series

May 2011

Jan 2012

online

09/15/2008
Lehman’s Bankruptcy

January 2011

12/20/2008

фото
Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)


7

Большие
Данные
и
здоровье

Платформa
мониторинга
астмы
и
других

респираторных
заболеваний

•  Помогать
пациентам
и
врачам
лучше
справляется
с

заболеванием

фото

•  Ингаляторы
с
встроенными
сенсорами,
мобильные

приложения

•  Дневник
пациента,
доступен
врачу
онлайн

•  Неотложная
помощь

•  Глобальная
аналитика
по
заболеванию

фото

Системы

self-‐мониторинга
(quanXfy-‐self):

•  Fitbit,
Jawbone:
физические
нагрузка

•  Wahoo:
сердечный
ритм

•  Zeo:
ночной
сон
(EEG)

•  AliveCor:
одноканальная
кардиограмма
(ECG)

фото

Большие
Данные
в
образовании

Платформа онлайн обучения
• 

MOOC (Massive Online Open Course)

• 

“Ivy League” для масс

• 

Лучшие курсы лучших университетов

• 

Повсеместная доступность

• 

Универсальность программы обучения

• 

Бесплатное обучение

• 

Coursera, edX, Udemy

фото

фото

Coursera:
•  Первые 2 курса из Стэнфорда в 2012
•  80 университетов, 400 курсов
•  200,000 студентов на курсе
•  4.5млн обучаемых

фото

st

Century

The
Sexiest
Job
of
the
21

McKinsey оценивает
нехватку в
140,000-190,000
специалистов к 2018г

Контакты

•  Леонид
Жуков,

Ph.D

•  Профессор,
Отделение
Прикладной
Математики
и
Информатики,

Высшая
Школа
Экономики
(НИУ-‐ВШЭ)

•  Director
Data
Science,
Ancestry.com

•  lzhukov@hse.ru

•  www.leonidzhukov.ru

Революция Больших Данных

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

Viewers also liked

Viewers also liked (17)

Similar to Революция Больших Данных

Similar to Революция Больших Данных (20)

Революция Больших Данных