Илья Салтанов, Олег Новиков (Sports.ru)
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Илья Салтанов, Олег Новиков (Sports.ru)

on

  • 2,333 views

 

Statistics

Views

Total Views
2,333
Views on SlideShare
2,232
Embed Views
101

Actions

Likes
44
Downloads
37
Comments
0

3 Embeds 101

http://ritconf.ru 80
http://www.slideee.com 19
https://twitter.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Илья Салтанов, Олег Новиков (Sports.ru) Presentation Transcript

  • 1. Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com
  • 2. О нас Олег Новиков Илья Салтанов Руководитель отдела аналитики, Аспирант кафедры «Кибернетики» ВШЭ Директор по развитию, Ex-CTO Wikimart.ru, Sports.ru
  • 3. Кто мы? caйта sports.ru ua.tribuna.com by.Tribuna.com 12 000 000 посетителей 400 000 000 хитов мобильных приложений потоков в соцсетях
  • 4. • Много разных источников данных • Нужен интенсивный экспорт статистики • Нужны сырые данные • Нужны единые отчеты, система координат и интерфейс • ПОТОМУ ЧТО МОЖЕМ! Зачем?
  • 5. Решение
  • 6. Хранилище RedShift Сырые данные – Кликстрим – Активность – Подписки + установки Агрегаты – Сессии – По дням/неделям/месяцам – Профили пользователей
  • 7. Как устроены сайты? Весь контент нанизан на теги: – Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов» Из тегов собираются: – Подсайты sports.ru/spartak – Мобильные приложения iPhone, Android «Спартак+» – Потоки в соцсетях twitter.com/fcspartaknews Все посетители – clientID, все пользователи – userID
  • 8. 1 – Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы OnDemand • Анализ сырых данных с точностью до clientID • Без семплирования!
  • 9. 2 – Бизнес-анализ Панели для всех отделов: – Трафик – Пользовательская активность – Популярное #прямосейчас – Соцсети – Мобильные приложения – Инвентарь продаж – Редакционный процесс
  • 10. 3 – Регулярный обзор Недельный обзор деятельности всех отделов: – Маркетинг – Продажи – Редакция – Продукт – Социальная редакция – Разработка – ИТ – Финансы – Кадры
  • 11. 4 – Почтовые рассылки Компейнинг подписчиков: – По интересам (тегам) – По активности – По пользовательскому профилю
  • 12. 5 – Рекомендации • Единицы контента в конце текстов • Подписки на блоги • Часто используемые теги • Общие друзья • Общие интересы
  • 13. 6 – Поиск ботов Проблема: • Рейтинг контента (плюсы/минусы) • Карма пользователей • Ботнеты в экосистеме Решение: • Простые эвристики над данными • Быстрый поиск коллизий
  • 14. Расходы 3 человеко-месяца разработки: – Фронтенд счетчика piwik – Парсер кликстрима из логов nginx – Агрегирующие функции в Redshift – Экспорт/импорт данных – Визуализация Chart.io
  • 15. Расходы Ежемесячно #прямосейчас: $500 Chart.io 10 пользователей $180x4 ноды Amazon Redshift $300x2 фронтенд-сервера для логов ---------------------- $1,820
  • 16. Контакты «Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?» http://habrahabr.ru/company/sports_ru/ Илья Салтанов https://facebook.com/isaltanov Олег Новиков https://facebook.com/oleg.novikov.5074