Илья Салтанов, Олег Новиков (Sports.ru)

4,045 views
3,885 views

Published on

Published in: Internet
0 Comments
47 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,045
On SlideShare
0
From Embeds
0
Number of Embeds
405
Actions
Shares
0
Downloads
54
Comments
0
Likes
47
Embeds 0
No embeds

No notes for slide

Илья Салтанов, Олег Новиков (Sports.ru)

  1. 1. Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com
  2. 2. О нас Олег Новиков Илья Салтанов Руководитель отдела аналитики, Аспирант кафедры «Кибернетики» ВШЭ Директор по развитию, Ex-CTO Wikimart.ru, Sports.ru
  3. 3. Кто мы? caйта sports.ru ua.tribuna.com by.Tribuna.com 12 000 000 посетителей 400 000 000 хитов мобильных приложений потоков в соцсетях
  4. 4. • Много разных источников данных • Нужен интенсивный экспорт статистики • Нужны сырые данные • Нужны единые отчеты, система координат и интерфейс • ПОТОМУ ЧТО МОЖЕМ! Зачем?
  5. 5. Решение
  6. 6. Хранилище RedShift Сырые данные – Кликстрим – Активность – Подписки + установки Агрегаты – Сессии – По дням/неделям/месяцам – Профили пользователей
  7. 7. Как устроены сайты? Весь контент нанизан на теги: – Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов» Из тегов собираются: – Подсайты sports.ru/spartak – Мобильные приложения iPhone, Android «Спартак+» – Потоки в соцсетях twitter.com/fcspartaknews Все посетители – clientID, все пользователи – userID
  8. 8. 1 – Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы OnDemand • Анализ сырых данных с точностью до clientID • Без семплирования!
  9. 9. 2 – Бизнес-анализ Панели для всех отделов: – Трафик – Пользовательская активность – Популярное #прямосейчас – Соцсети – Мобильные приложения – Инвентарь продаж – Редакционный процесс
  10. 10. 3 – Регулярный обзор Недельный обзор деятельности всех отделов: – Маркетинг – Продажи – Редакция – Продукт – Социальная редакция – Разработка – ИТ – Финансы – Кадры
  11. 11. 4 – Почтовые рассылки Компейнинг подписчиков: – По интересам (тегам) – По активности – По пользовательскому профилю
  12. 12. 5 – Рекомендации • Единицы контента в конце текстов • Подписки на блоги • Часто используемые теги • Общие друзья • Общие интересы
  13. 13. 6 – Поиск ботов Проблема: • Рейтинг контента (плюсы/минусы) • Карма пользователей • Ботнеты в экосистеме Решение: • Простые эвристики над данными • Быстрый поиск коллизий
  14. 14. Расходы 3 человеко-месяца разработки: – Фронтенд счетчика piwik – Парсер кликстрима из логов nginx – Агрегирующие функции в Redshift – Экспорт/импорт данных – Визуализация Chart.io
  15. 15. Расходы Ежемесячно #прямосейчас: $500 Chart.io 10 пользователей $180x4 ноды Amazon Redshift $300x2 фронтенд-сервера для логов ---------------------- $1,820
  16. 16. Контакты «Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?» http://habrahabr.ru/company/sports_ru/ Илья Салтанов https://facebook.com/isaltanov Олег Новиков https://facebook.com/oleg.novikov.5074

×