0
Как мы построили дешевую
инфраструктуру для анализа
трафика
Sports.ru & Tribuna.com
О нас
Олег
Новиков
Илья
Салтанов
Руководитель
отдела аналитики,
Аспирант
кафедры
«Кибернетики»
ВШЭ
Директор по
развитию,
E...
Кто мы?
caйта
sports.ru
ua.tribuna.com
by.Tribuna.com
12 000 000 посетителей
400 000 000 хитов
мобильных
приложений
потоко...
• Много разных источников данных
• Нужен интенсивный экспорт статистики
• Нужны сырые данные
• Нужны единые отчеты, систем...
Решение
Хранилище RedShift
Сырые данные
– Кликстрим
– Активность
– Подписки + установки
Агрегаты
– Сессии
– По дням/неделям/месяца...
Как устроены сайты?
Весь контент нанизан на теги:
– Новости, тексты, посты в блогах, фотографии, видео на
«Спартак», «прем...
1 – Adhoc-анализ
• SQL-интерфейс
• Любые аналитические запросы OnDemand
• Анализ сырых данных с точностью до
clientID
• Бе...
2 – Бизнес-анализ
Панели для всех отделов:
– Трафик
– Пользовательская активность
– Популярное #прямосейчас
– Соцсети
– Мо...
3 – Регулярный обзор
Недельный обзор деятельности всех отделов:
– Маркетинг
– Продажи
– Редакция
– Продукт
– Социальная ре...
4 – Почтовые
рассылки
Компейнинг подписчиков:
– По интересам (тегам)
– По активности
– По пользовательскому профилю
5 – Рекомендации
• Единицы контента в конце текстов
• Подписки на блоги
• Часто используемые теги
• Общие друзья
• Общие и...
6 – Поиск ботов
Проблема:
• Рейтинг контента (плюсы/минусы)
• Карма пользователей
• Ботнеты в экосистеме
Решение:
• Просты...
Расходы
3 человеко-месяца разработки:
– Фронтенд счетчика piwik
– Парсер кликстрима из логов nginx
– Агрегирующие функции ...
Расходы
Ежемесячно #прямосейчас:
$500 Chart.io 10 пользователей
$180x4 ноды Amazon Redshift
$300x2 фронтенд-сервера для ло...
Контакты
«Как мы используем инфраструктуру
обработки данных?», «Как устроена
инфраструктура анализа данных?»
http://habrah...
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)
Upcoming SlideShare
Loading in...5
×

Илья Салтанов, Олег Новиков (Sports.ru)

3,266

Published on

Published in: Internet

Transcript of "Илья Салтанов, Олег Новиков (Sports.ru)"

  1. 1. Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com
  2. 2. О нас Олег Новиков Илья Салтанов Руководитель отдела аналитики, Аспирант кафедры «Кибернетики» ВШЭ Директор по развитию, Ex-CTO Wikimart.ru, Sports.ru
  3. 3. Кто мы? caйта sports.ru ua.tribuna.com by.Tribuna.com 12 000 000 посетителей 400 000 000 хитов мобильных приложений потоков в соцсетях
  4. 4. • Много разных источников данных • Нужен интенсивный экспорт статистики • Нужны сырые данные • Нужны единые отчеты, система координат и интерфейс • ПОТОМУ ЧТО МОЖЕМ! Зачем?
  5. 5. Решение
  6. 6. Хранилище RedShift Сырые данные – Кликстрим – Активность – Подписки + установки Агрегаты – Сессии – По дням/неделям/месяцам – Профили пользователей
  7. 7. Как устроены сайты? Весь контент нанизан на теги: – Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов» Из тегов собираются: – Подсайты sports.ru/spartak – Мобильные приложения iPhone, Android «Спартак+» – Потоки в соцсетях twitter.com/fcspartaknews Все посетители – clientID, все пользователи – userID
  8. 8. 1 – Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы OnDemand • Анализ сырых данных с точностью до clientID • Без семплирования!
  9. 9. 2 – Бизнес-анализ Панели для всех отделов: – Трафик – Пользовательская активность – Популярное #прямосейчас – Соцсети – Мобильные приложения – Инвентарь продаж – Редакционный процесс
  10. 10. 3 – Регулярный обзор Недельный обзор деятельности всех отделов: – Маркетинг – Продажи – Редакция – Продукт – Социальная редакция – Разработка – ИТ – Финансы – Кадры
  11. 11. 4 – Почтовые рассылки Компейнинг подписчиков: – По интересам (тегам) – По активности – По пользовательскому профилю
  12. 12. 5 – Рекомендации • Единицы контента в конце текстов • Подписки на блоги • Часто используемые теги • Общие друзья • Общие интересы
  13. 13. 6 – Поиск ботов Проблема: • Рейтинг контента (плюсы/минусы) • Карма пользователей • Ботнеты в экосистеме Решение: • Простые эвристики над данными • Быстрый поиск коллизий
  14. 14. Расходы 3 человеко-месяца разработки: – Фронтенд счетчика piwik – Парсер кликстрима из логов nginx – Агрегирующие функции в Redshift – Экспорт/импорт данных – Визуализация Chart.io
  15. 15. Расходы Ежемесячно #прямосейчас: $500 Chart.io 10 пользователей $180x4 ноды Amazon Redshift $300x2 фронтенд-сервера для логов ---------------------- $1,820
  16. 16. Контакты «Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?» http://habrahabr.ru/company/sports_ru/ Илья Салтанов https://facebook.com/isaltanov Олег Новиков https://facebook.com/oleg.novikov.5074
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×