Что такое Big Data и чем они прекрасны	

Андрей Себрант,
Директор по маркетингу сервисов
Для разогрева
Case: магазин Target и беременная девочка
(США, 2012 год)
Еще для разогрева

Case: Jawbone UP
Есть такой браслет (точнее, 100 000)
60 лет каждую ночь
«Jawbone’s significant share of a growing market gives
it quite a lot of data to mine. According to Rogati, the
company collects the equivalent of 60 years of sleep
data every night.
Sleep, of course, is only a part of what the band
monitors. For Rogati, Jawbone’s data trove was too
good an opportunity to pass up. She joined the company
this past summer from LinkedIn, another data-driven
powerhouse.»
http://venturebeat.com/2013/11/06/how-jawbone-is-using-big-data-to-lead-the-personal-fitness-wearable-industry/
Включите фантазию
Что можно придумать, если знать когда,
сколько, насколько глубоко спят люди.
С точностью до дня, с точностью до
города.
Уточнение	
  термина	
  Big	
  Data	
  

Часто	
  говорят	
  про	
  3	
  V	
  –	
  дело	
  не	
  
просто	
  в	
  размере	
  
•  Volume	
  Действительно	
  большие	
  (хотя	
  размер	
  
зависит	
  от	
  доступных	
  ресурсов	
  для	
  их	
  обработки)	
  
•  Variety	
  Слабо	
  структурированные	
  и	
  разнородные	
  
•  Velocity	
  Обрабатывать	
  надо	
  очень	
  быстро	
  
(причем	
  и	
  результаты	
  часто	
  нужны	
  оперативно,	
  
если	
  речь	
  об	
  онлайновых	
  сервисах)	
  

7
Четыре	
  самых	
  продвинутых	
  отрасли	
  
В	
  мире	
  (но	
  не	
  обязательно	
  у	
  нас):	
  
	
  

•  Финансы	
  
•  Медицина	
  
•  Государство	
  
•  High-­‐tech	
  и	
  интернет-­‐компании	
  
Впрочем,	
  и	
  прочие	
  подтягиваются	
  

8
Ancestry.com: от рукописных
данных до ДНК-анализа

9	


http://wiki.yandex-team.ru/users/asebrant/BigDataSF-2013/.files/ancestry.pdf
Машинное
обучение
Неприятные	
  свойства	
  данных	
  
и	
  что	
  с	
  ними	
  делать	
  
Данные часто неполны
Данные содержат ошибки
Данные очень разнородны

Машинное обучение
Нечеткие связи и соответствия
Постоянно искать обратную связь
Построение семейной истории
человечества

1.
Генеалогические
деревья и
установление
родства

2.

3.

Миграция
глобальная и
внутри стран

Историческая
картина
демографии
Оцифрованная романтика:
eHarmony
•  Относительная
площадь лица на
фотографии уже не
столь очевидно
влияет на
вероятность
контакта, и это –
полезный инсайт

1
Атом будущего
История о цвете кнопки:
	

1. Дремучая:
«Я так сказал!»
2. Продвинутая:
«Мы провели A/B test»
3. Технологичная и современая:
«Мы знаем, какую ты любишь»
Вернемся к братьям

Антропоморфизм – штука рискованная	

Следит ли за нами Большой Брат?
Как это работает?

Есть дисциплина, называемая
Machine Learning, машинное обучение
МАШИННОЕ ОБУЧЕНИЕ В РЕКЛАМЕ

КАК
НАЙТИ
МОЮ
АУДИТОРИЮ?
Спам
Поиск похожих картинок
Распознавание рукописного текста
Поиск
Реклама
Мамы с детьми 0-3
года
[годовалый]
[ходунок]
[котофей]
[бебиблог]
[брокколи]
[дом2новости]
[джигурда]
On-line
gamers

[dota] [кпд] [массовка] [cheat] [эмулятор]
[варфэйс] [капа][паркур] [гайд] [дрифт]
[замужество] [партнерка] [прицел] [приворот]
Выпендрежники
Выпендрежники
[уильямс] [рафаэль]
[инканто] [азур]
[бирюза]
[топхотелс]
[татуаж] [пегий]
[центробанк]
[старец] [нептун]
[парадиз] [арго]
[slender] [ларедут]
[вепрь]
Задача: 	

найти на десктопе
владельцев iPhone,
iPad и Android	


33

3 кампании: 	

-  Без таргетинга	

-  С таргетингом Крипты	

-  С таргетингом по логину
CTR
0,23

34

Все

Android (login) Android (Crypta)
CTR

0,36

0,23

35

Все

Android (login) Android (Crypta)
CTR

0,36

0,38

0,23

36

Все

Android (login) Android (Crypta)
37
Уровень телесмотрения

-  99% россиян смотрят ТВ ежемесячно*
-  30% пользователей Рунета проводят у
экрана ТВ менее часа в день**

38

*По данным TNS России
** По данным OMI и TNS
Light TV: методология исследования
Анкетирование	
  

• Анкета	
  TNS	
  
• 4	
  вопроса	
  	
  
• Опрос	
  
проведен	
  OMI	
  
• 28’000	
  
респондентов	
  

39

Cookie	
  matching	
  
OMI-­‐Яндекс	
  

• Совмещение	
  
панелистов	
  
OMI	
  и	
  
пользователей	
  
Яндекса	
  

Анализ	
  
поведения	
  
выборки	
  в	
  
интернете	
  
• Крипта	
  
• 200	
  
факторов	
  
поведения	
  
Heavy TV viewers

Light TV viewers

«сбербанк», «коммунальный»,
«шарлотка», «выкройка»,
«биглион», «irr», «заработать»

Больше запросов кириллицей
40

«книга», «переводчик»,
«словарь», «формула»,
«японский», «французский»,
«немецкий», «такси»
Много запросов латиницей
Heavy TV viewers

«тнт», «дом-2»,
«телепрограмма», «стс»

41

Light TV viewers

«С++», «wi-fi»,
«фотошоп», «torrent»,
«adobe»
Heavy TV viewers

«спартак», «цска», «пиво»

42

Light TV viewers

«загранпаспорт», «авиабилет»,
«виза», «самолет»,
«аэропорт», «ржд»
Домашнее чтение
Большие данные. Революция,
которая изменит то, как мы
живем, работаем и мыслим	

Виктор Майер-Шенбергер, Кеннет Кукьер	

	

	

http://www.livelib.ru/book/1000755419 	


	


43
Data is new oil

44


	

Data is just like crude. It’s valuable, but if
unrefined it cannot really be used. It has to be
changed into gas, plastic, chemicals, etc., to
create a valuable entity that drives profitable
activity; so must data be broken down, analyzed
for it to have value.	

	

Michael Palmer, 2006
Спасибо!
Вопросы?
Андрей Себрант
asebrant@yandex-­‐team.ru	
  
Twiyer:	
  @asebrant	
  
Facebook:	
  hyps://www.facebook.com/asebrant	
  
	
  
	
  

Андрей Себрант - Что такое Big data и почему это страшно интересно