Илья Салтанов, Олег Новиков (Sports.ru)
Upcoming SlideShare
Loading in...5
×
 

Илья Салтанов, Олег Новиков (Sports.ru)

on

  • 1,321 views

 

Statistics

Views

Total Views
1,321
Views on SlideShare
1,237
Embed Views
84

Actions

Likes
20
Downloads
17
Comments
0

2 Embeds 84

http://ritconf.ru 69
http://www.slideee.com 15

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Илья Салтанов, Олег Новиков (Sports.ru) Илья Салтанов, Олег Новиков (Sports.ru) Presentation Transcript

  • Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com
  • О нас Олег Новиков Илья Салтанов Руководитель отдела аналитики, Аспирант кафедры «Кибернетики» ВШЭ Директор по развитию, Ex-CTO Wikimart.ru, Sports.ru
  • Кто мы? caйта sports.ru ua.tribuna.com by.Tribuna.com 12 000 000 посетителей 400 000 000 хитов мобильных приложений потоков в соцсетях
  • • Много разных источников данных • Нужен интенсивный экспорт статистики • Нужны сырые данные • Нужны единые отчеты, система координат и интерфейс • ПОТОМУ ЧТО МОЖЕМ! Зачем?
  • Решение
  • Хранилище RedShift Сырые данные – Кликстрим – Активность – Подписки + установки Агрегаты – Сессии – По дням/неделям/месяцам – Профили пользователей
  • Как устроены сайты? Весь контент нанизан на теги: – Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов» Из тегов собираются: – Подсайты sports.ru/spartak – Мобильные приложения iPhone, Android «Спартак+» – Потоки в соцсетях twitter.com/fcspartaknews Все посетители – clientID, все пользователи – userID
  • 1 – Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы OnDemand • Анализ сырых данных с точностью до clientID • Без семплирования!
  • 2 – Бизнес-анализ Панели для всех отделов: – Трафик – Пользовательская активность – Популярное #прямосейчас – Соцсети – Мобильные приложения – Инвентарь продаж – Редакционный процесс
  • 3 – Регулярный обзор Недельный обзор деятельности всех отделов: – Маркетинг – Продажи – Редакция – Продукт – Социальная редакция – Разработка – ИТ – Финансы – Кадры
  • 4 – Почтовые рассылки Компейнинг подписчиков: – По интересам (тегам) – По активности – По пользовательскому профилю
  • 5 – Рекомендации • Единицы контента в конце текстов • Подписки на блоги • Часто используемые теги • Общие друзья • Общие интересы
  • 6 – Поиск ботов Проблема: • Рейтинг контента (плюсы/минусы) • Карма пользователей • Ботнеты в экосистеме Решение: • Простые эвристики над данными • Быстрый поиск коллизий
  • Расходы 3 человеко-месяца разработки: – Фронтенд счетчика piwik – Парсер кликстрима из логов nginx – Агрегирующие функции в Redshift – Экспорт/импорт данных – Визуализация Chart.io
  • Расходы Ежемесячно #прямосейчас: $500 Chart.io 10 пользователей $180x4 ноды Amazon Redshift $300x2 фронтенд-сервера для логов ---------------------- $1,820
  • Контакты «Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?» http://habrahabr.ru/company/sports_ru/ Илья Салтанов https://facebook.com/isaltanov Олег Новиков https://facebook.com/oleg.novikov.5074