Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Разработка 
аналитической системы 
для высоконагруженного 
медиа 
Олег Новиков
Обо мне 
! 
! 
Олег Новиков, 
руководитель отдела аналитики Sports.ru, 
автор кандидатской диссертации 
«Высоконагруженные...
Зачем? 
caйта 
sports.ru ua.tribuna.com by.tribuna.com 
мобильных приложений 
потоков в соцсетях 
• Много разных сервисов ...
Где хранить данные? 
• Нужен удобный доступ (SQL) 
• Возможность обрабатывать много данных, 
например, clickstream 
• Прос...
Amazon Redshift – плюсы 
Распределенная колоночная СУБД 
Поддерживает много функций и типов данных из 
PostgreSQL 
Очень б...
Amazon Redshift – минусы 
Не поддерживает ограничения целостности и триггеры 
Не поддерживает много функций и типов данных...
Amazon Redshift 
• DISTKEY и SORTKEY 
• Гибкие настройки пользователей 
и ресурсов
Источники данных
Посещаемость
Хранилище 
Сырые данные 
• Clickstream 
• Активность 
• Подписки + установки
Хранилище 
Сырые данные 
• Clickstream 
(старые ! 
только за последний месяц, 
данные – в Amazon Glacier) 
• Активность 
•...
Ввод данных
PROFIT! 
• Adhoc-анализ 
• Дашборды для всех отделов 
• Персонализация 
• Поиск ботов в системе рейтингов на сайте
Adhoc-анализ 
• SQL-интерфейс 
• Любые аналитические запросы 
• Анализ сырых данных 
• Без семплирования
2 – Бизнес-анализ 
Панели для всех отделов: 
• Трафик 
• Пользовательская активность 
• Популярное #прямосейчас 
• Соцсети...
Хранение персональных данных 
Федеральный закон № 242-ФЗ 
• У Amazon нет серверов в России 
• В Redshift не отправляются п...
Персонализация 
• Нарезка пользователей 
для рассылок 
• Персональные 
рекомендации
Расходы 
Ежемесячно #прямосейчас: 
$500 
$180x4 
$300x2 
_________ 
$1 820 
! 
Chart.io 10 пользователей 
ноды Amazon Reds...
«Как мы используем инфраструктуру обработки данных» 
«Как устроена инфраструктура анализа данных?» 
habrahabr.ru/company/s...
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Upcoming SlideShare
Loading in …5
×

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

1,705 views

Published on

Доклад Олега Новикова и Ильи Салтанова на HighLoad++ 2014.

Published in: Internet
  • Be the first to comment

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

  1. 1. Разработка аналитической системы для высоконагруженного медиа Олег Новиков
  2. 2. Обо мне ! ! Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики
  3. 3. Зачем? caйта sports.ru ua.tribuna.com by.tribuna.com мобильных приложений потоков в соцсетях • Много разных сервисов для аналитики ! • Нет доступа к «сырым» данным • Нужны свои отчеты и метрики • Нельзя делать запросы к данным из разных источников
  4. 4. Где хранить данные? • Нужен удобный доступ (SQL) • Возможность обрабатывать много данных, например, clickstream • Простота внедрения • Способность легко масштабироваться
  5. 5. Amazon Redshift – плюсы Распределенная колоночная СУБД Поддерживает много функций и типов данных из PostgreSQL Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей Очень легко мастштабируется, стоимость зависит от объема данных
  6. 6. Amazon Redshift – минусы Не поддерживает ограничения целостности и триггеры Не поддерживает много функций и типов данных из PostgreSQL Медленно выполняет запросы с участием нескольких полей (select * from table where id=<> будет работать несколько секунд) Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3
  7. 7. Amazon Redshift • DISTKEY и SORTKEY • Гибкие настройки пользователей и ресурсов
  8. 8. Источники данных
  9. 9. Посещаемость
  10. 10. Хранилище Сырые данные • Clickstream • Активность • Подписки + установки
  11. 11. Хранилище Сырые данные • Clickstream (старые ! только за последний месяц, данные – в Amazon Glacier) • Активность • Подписки + установки Агрегаты • Сессии • По дням/неделям/ месяцам • Профили пользователей
  12. 12. Ввод данных
  13. 13. PROFIT! • Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте
  14. 14. Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования
  15. 15. 2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс
  16. 16. Хранение персональных данных Федеральный закон № 242-ФЗ • У Amazon нет серверов в России • В Redshift не отправляются персональные данные, только id • Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift
  17. 17. Персонализация • Нарезка пользователей для рассылок • Персональные рекомендации
  18. 18. Расходы Ежемесячно #прямосейчас: $500 $180x4 $300x2 _________ $1 820 ! Chart.io 10 пользователей ноды Amazon Redshift фронтенд-сервера для логов !
  19. 19. «Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?» habrahabr.ru/company/sports_ru ! ! facebook.com/oleg.v.novikov

×