Data Science and Machine learning overview by CleverDATA Data Scientist Konstantin Obukhov for meet up with Moscow Economics and Statistic Institute's students in Dec 2014
Презентация "Big Data: Как принести пользу бизнесу" вице-президента ЛАНИТ Дениса Реймера на Международной конференции "Стойкость сложных социо-технических систем - Resilience2014"
Описание бизнес-кейса проведения сегментации клиентской базы для выявления наиболее склонной к покупке страховых продуктов аудитории и последующей целевой коммуникации
Как управлять клиентским опытом? Что такое Customer Experience Management? Переход к парадигме Customer Centric. Построение единого профиля клиента. Использование внешних данных о клиентах. Ключевой инструмент - платформа 1DMP.RU для управления данными. Кейсы по использованию данных из различных источников.
Реклама со скоростью света. Презентация Сергея Жемжицкого на High Load++ 2014CleverDATA
1 ноября 2014 г. CTO CleverDATA Сергей Жемжицкий в рамках конференции High Load 2014 представил аудитории презентацию по построении DMP платформы с возможностью обработки 100% входящих запросов на базе продукта Aerospike
CleverDATA shares its expertise in developing the real time user profile enrichment service, tells about the technologies that have been used in project and the reason Aerospike’s solution has been chosen as NoSQL database. Different charts and figures comparing functional and non-functional requirements of Aerospike, MongoDB, Redis will also be demonstrated
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
Digital Marketing Analytics on Splunk platformCleverDATA
Ключевые тренды Digital
Не зная своего клиента, компания его потеряет
От Product-centric К Customer-centric
Вы уверены, что знаете своего клиента?
Построение Единого профиля клиента –
Ключ к построению Customer-centric организации
Моделирование отклика по различным каналам
Оптимизация Digital каналов
Что такое Digital Intelligence
Платформа для Digital Intelligence
Use cases использования Splunk - клиентская аналитика, бизнес-аналитика, мульти канальная аналитика и пр.
Подробнее о Splunk для digital маркетинга http://cleverdata.ru/splunktech/dm-analytics/
Презентация "Big Data: Как принести пользу бизнесу" вице-президента ЛАНИТ Дениса Реймера на Международной конференции "Стойкость сложных социо-технических систем - Resilience2014"
Описание бизнес-кейса проведения сегментации клиентской базы для выявления наиболее склонной к покупке страховых продуктов аудитории и последующей целевой коммуникации
Как управлять клиентским опытом? Что такое Customer Experience Management? Переход к парадигме Customer Centric. Построение единого профиля клиента. Использование внешних данных о клиентах. Ключевой инструмент - платформа 1DMP.RU для управления данными. Кейсы по использованию данных из различных источников.
Реклама со скоростью света. Презентация Сергея Жемжицкого на High Load++ 2014CleverDATA
1 ноября 2014 г. CTO CleverDATA Сергей Жемжицкий в рамках конференции High Load 2014 представил аудитории презентацию по построении DMP платформы с возможностью обработки 100% входящих запросов на базе продукта Aerospike
CleverDATA shares its expertise in developing the real time user profile enrichment service, tells about the technologies that have been used in project and the reason Aerospike’s solution has been chosen as NoSQL database. Different charts and figures comparing functional and non-functional requirements of Aerospike, MongoDB, Redis will also be demonstrated
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
Digital Marketing Analytics on Splunk platformCleverDATA
Ключевые тренды Digital
Не зная своего клиента, компания его потеряет
От Product-centric К Customer-centric
Вы уверены, что знаете своего клиента?
Построение Единого профиля клиента –
Ключ к построению Customer-centric организации
Моделирование отклика по различным каналам
Оптимизация Digital каналов
Что такое Digital Intelligence
Платформа для Digital Intelligence
Use cases использования Splunk - клиентская аналитика, бизнес-аналитика, мульти канальная аналитика и пр.
Подробнее о Splunk для digital маркетинга http://cleverdata.ru/splunktech/dm-analytics/
Знаете ли вы своего клиента?
Основные признаки не могут представить потребности клиента
Создаем Customer Experience Profile
Собираем данные по десяткам заранее определенных метрик
Обновляем профиль в реальном времени
Формируем "живые" рабочие данные для маркетинговой коммуникации
Предиктивная аналитика. В чем отличие от традиционных BI систем?
Построение предиктивных моделей поведения клиента
Как предсказать отклик клиента на предложение?
Комплексные решения CleverDATA на базе продуктов партнера Teradata для автоматизации маркетинга
cleverdata.ru
Predictive models for Operational analyticsCleverDATA
Чем занимается Data Science, в чем отличия от традиционной аналитики? Как работают предиктивная аналитика и моделирование? Проблематика управления ИТ операциями. Прогнозирование сбоев в работе ИТ-систем с помощью аналитики и моделирования. Этапы построения прогнозных моделей. Результаты применения и эффективность. Подробнее http://cleverdata.ru/splunk-it-operations/
Презентация Дениса Афанасьева для конференции HybridConf'16. Заходите на 1DMC.io и станьте клиентом Биржи данных, первой в России облачной независимой платформы для монетизации ваших данных об аудитории!
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...Yuryy Granovsky
В 3й раз рассказал о том, каким образом можно и нужно использовать инструменты веб-аналитики для анализа поведения пользователей на сайте. Показал разные неочевидные приёмы и ноу-хау нашей компании. Также кратко прошёлся по сценарию корректного поведения сплит-тестов.
Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики.
Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...Mail.ru Group
Расскажу про различные полезные библиотеки и функции Python: от простых и известных, до специфичных и редких. Поделюсь тем, какие технологии мы используем при разработке, обучении и деплое наших моделей: что помогало улучшить качество, а что тормозило разработку.
Об особенностях работы с GoogleAdwords и подходах к созданию и настройки поисковых кампаний Google AdWords как для десктопный кампаний, так и для кампаний mobile app install.
Знаете ли вы своего клиента?
Основные признаки не могут представить потребности клиента
Создаем Customer Experience Profile
Собираем данные по десяткам заранее определенных метрик
Обновляем профиль в реальном времени
Формируем "живые" рабочие данные для маркетинговой коммуникации
Предиктивная аналитика. В чем отличие от традиционных BI систем?
Построение предиктивных моделей поведения клиента
Как предсказать отклик клиента на предложение?
Комплексные решения CleverDATA на базе продуктов партнера Teradata для автоматизации маркетинга
cleverdata.ru
Predictive models for Operational analyticsCleverDATA
Чем занимается Data Science, в чем отличия от традиционной аналитики? Как работают предиктивная аналитика и моделирование? Проблематика управления ИТ операциями. Прогнозирование сбоев в работе ИТ-систем с помощью аналитики и моделирования. Этапы построения прогнозных моделей. Результаты применения и эффективность. Подробнее http://cleverdata.ru/splunk-it-operations/
Презентация Дениса Афанасьева для конференции HybridConf'16. Заходите на 1DMC.io и станьте клиентом Биржи данных, первой в России облачной независимой платформы для монетизации ваших данных об аудитории!
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...Yuryy Granovsky
В 3й раз рассказал о том, каким образом можно и нужно использовать инструменты веб-аналитики для анализа поведения пользователей на сайте. Показал разные неочевидные приёмы и ноу-хау нашей компании. Также кратко прошёлся по сценарию корректного поведения сплит-тестов.
Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики.
Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...Mail.ru Group
Расскажу про различные полезные библиотеки и функции Python: от простых и известных, до специфичных и редких. Поделюсь тем, какие технологии мы используем при разработке, обучении и деплое наших моделей: что помогало улучшить качество, а что тормозило разработку.
Об особенностях работы с GoogleAdwords и подходах к созданию и настройки поисковых кампаний Google AdWords как для десктопный кампаний, так и для кампаний mobile app install.
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
Мы в Авито часто сталкиваемся с ситуацией, когда нужно быстро придумать алгоритм, решающий некоторую бизнес задачу на основе анализа больших объёмов данных. Придумать какой-то алгоритм не сложно, но каждый раз возникает вопрос — а вдруг можно решить эту же задачу в разы более качественно. Исследования можно вести годами, но это рискованно — лучшего решения может и не быть, и будет затрачено много времени.
На помощь приходят конкурсы по анализу данных. Мы устраивали конкурсы на построение алгоритмов, работающих с совершенно различными типами и объемами данных:
+ Выявление запрещенных объявлений.
+ Прогнозирование вероятности клика на рекламное объявление.
+ Обнаружение телефонов на изображениях.
+ Прогнозирование инкрементального эффекта от скидочных акций.
Какие-то были более удачными, какие-то — менее. Расскажем про основные этапы подготовки задач к конкурсу, а также про основные трюки, используемые для победы в таких конкурсах
Машинное обучение в электронной коммерции — практика использования и подводны...Ontico
HighLoad++ 2017
Зал «Найроби+Касабланка», 7 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/2851.html
Анализ, проектирование, разработка и эксплуатация моделей предиктивной аналитики в Битрикс24.
В докладе расскажем, как мы создали несколько хайлоад-моделей для предсказания платных клиентов, потенциальной прибыли клиентов и клиентов, вероятно покидающих сервис. Поделимся опытом выбора алгоритмов, библиотек, тонкой настройки моделей в Spark MLib, фильтрации и обработки бигдаты на кластерах Spark в Amazon Web Services и всем тем, что необходимо для доведения "предиктивных" моделей до работающего при высоких нагрузках сервиса.
Самое важное в докладе - опыт доведения алгоритмов до прикладного бизнес-применения, тонкости и техники выжимания из данных самой ценной информации.
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
"Контекстная реклама в Avito: что под капотом?"
Вадим Аюев и Андрей Остапец (Avito)
Из этого доклада вы узнаете об основных этапах создания и обучения моделей, на основе которых работает контекстная реклама в Avito: как собираем и готовим данные, обучаем модели, как реализовано тестирование и внедрение.
Python Data Science meetup @ Avito 13.08.2016
CRM onboarding - оффлайн данные для онлайн рекламы CleverDATA
Александр Кириллов, Head of data monetization CleverDATA, рассказал на семинаре IAB Russia в рамках курса Use Data об особенностях CRM Onboarding и новых вызовах перед рынком данных
Data exchange как ключевой элемент экосистемы обмена даннымиCleverDATA
Андрей Евтихов, исполнительный директор CleverDATA, рассказал о Бирже данных (Data exchange) на семинаре IAB Russia «Рынок обмена данными: состояние, участники, тенденции».
Продемонстрированы 4 основных модели обмена данными (Data provider, Data aggregator, Data marketplace, Data exchange), отражены основные тенденции рынка данных и их влияние на развитие модели Data exchange.
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...CleverDATA
Презентация Артема Просветова, data scientist CleverDATA, о технологии анализа данных на примере работы с бьюти-блогами для конференции Data Science Weekend (3-4 марта 2017).
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
Презентация Константина Ткачева, архитектора решений CleverDATA по платформе Splunk (функционал, источники данных, возможности масштабируемости, примеры панелей управления, возможности интеграции, аналитика данных и предиктивные возможности).
Д.Афанасьев_ CleverDATA_Охота за даннымиCleverDATA
Эффективность использования внешних источников для пополнения знаний о вашей аудитории и таргетированного маркетинга/управления рисками/поведением клиентов
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA
Как не упустить момент и не дать погибнуть Банку в эпоху цифровой трансформации. Как управлять данными клиентов и научиться извлекать из них знания для выстраивания эффективных целевых коммуникаций
Технологии Больших Данных для банков и страховых компаний. Какие задачи решают? Как монетизировать Большие Данные? Бизнес-кейсы и конкретные примеры. Концепция 3D профиля клиента. Точная сегментация и персонифицированный маркетинг. Управление данными на Oracle Big Data Appliance
Презентация о платформе управления данными 1DMP.io (разработка компании CleverDATA) во время бизнес-завтрака для партнеров 15/09/2015 совместно с Oracle и ФОРС Дистрибуция.
Как использовать внешние данные при найме сотрудников на работу? Какие источники данных могут быть полезны? Как строится аналитическая предиктивная модель для HR скоринга? Опыт реализации проекта от компании CleverDATA
Описание аспектов портирования и тестирования выполнения задачи построения клиентских профилей платформой управления данными 1DMP на программно-аппаратном комплексе Oracle Big Data Appliance. Топология развертывания. Hardware. Software. Результаты тестирования.
Тема: Spark - сегментация пользовательской аудитории в онлайн-рекламе.
Одной из задач проведения рекламной кампании является формирование предложения для посетителя какого-либо веб-ресурса, в соответствии с его текущим потребностями.
Интересы и потребности посетителей с достаточно высокой степенью вероятности удается определить не всегда, из-за чего может возникнуть ряд вопросов: как найти тех, кто кликнул на баннер, но так и не совершил никакой покупки; как определить тех, кто видел баннер несколько раз, но так на него и не отреагировал и т.п. В докладе будет рассказано про практический опыт решения таких и схожих задач при помощи Apache Spark.
Ключевые вопросы:
• Введение в RTB;
• Потоки данных;
• Типы данных;
• Монетизация данных;
• Hadoop vs. Spark;
• Что дальше.
Julia Tuzin teradata omnichannel_interactionsCleverDATA
- Выстраивание мульти канального взаимодействия,
-Интернет статистика по России
-Москва идет в мобильный интернет
- Лояльные клиенты общаются по многим каналам
- Зачем строить омни-канальное взаимодействие
- Этапы омни-канального взаимодействия
- Ориентируемся на продукт, а не на клиента
- Примеры проектов омни-канального взаимодействия
Karel jabornik teradata real-time-interaction_mngmtCleverDATA
How to built real-time customer interactions - right place. right place. right channel
Why Real-Time ? Our view. The Analyst view.
Positive impact on Marketing Efficiency.
Teradata Real Time Interactions Marketing product- the best decision, for each customer interaction - right now & across all channels.
Example use Case: Multichannel Interaction
Пилоты и проекты Teradata Aster в области анализа больших данных:
Колл-Центр
Aster nPath цепочки
Анализ IVR
Мошенничество в банках логистика и сети
Отток клиентов
Диагностика сотовых станций
Анализ социальных сетей
Анализ API Logs
Teradata AppCenter
Яркие примеры, иллюстрирующие ключевые ошибки в анализе данных:
1/Опускать поправку на априорные распределения
2/ Использовать для анализа неслучайную выборку
3/ Неверная визуализация
4/ Считать корреляцию причинной связью
5/ Неверно выбранная целевая переменная
6/ Допускать переобучение модели
7/ Оставить выбросы и шумы в данных
8/ Неверно разделить исследование и оптимизацию
9/ Делать поспешные выводы
10/Выбор неправильного инструмента для анализа
2. Данные
растут
с
невероятной
скоростью
cleverdata.ru
|
info@cleverdata.ru
Каждую
минуту:
2
миллиона
поисковых
запросов
72
часа
видео
загружается
на
YouTube
500К
+
твитов
90%
всех
данных
было
создано
за
последние
2
года
3. Big
Data
–
объем,
скорость,
разнообразие
cleverdata.ru
|
info@cleverdata.ru
Real
Time
Periodic
Batch
PB
GB
MB
Unstructured
Web,
Photo,
Audio
Tables
4. cleverdata.ru
|
info@cleverdata.ru
Data
Science
для
бизнеса
Data
Science
превращает
объем,
скорость
и
разнообразие
Big
Data
в
знания,
которые
позволяют
вывести
бизнес
на
новый
уровень
5. Data
Analygcs
vs
Data
Science
cleverdata.ru
|
info@cleverdata.ru
Гипотеза
Данные
Ответ
Данные
сами
порождают
анализ
6. cleverdata.ru
|
info@cleverdata.ru
Что
изучает
Data
Science?
Теория
вероятностей
и
математическая
статистика
Машинное
обучение
и
распознавание
образов
Глубинное
обучение
(Deep
Learning)
Обработка
естественного
языка
(NLP)
7. cleverdata.ru
|
info@cleverdata.ru
Машинное
обучение
Машинное
обучение
изучает
методы
построения
моделей
и
алгоритмов,
способных
обучаться
на
данных
Данные
Алгоритм
Модель
8. cleverdata.ru
|
info@cleverdata.ru
Supervised
Learning
• Необходимо
задать
обучающую
выборку
–
набор
данных
признаки
:
результат
• Алгоритм
применяется
для
распознавания
неизвестных
объектов
Классификация
Регрессия
9. cleverdata.ru
|
info@cleverdata.ru
Unsupervised
Learning
• Для
обучения
нужна
выборка
только
признаков
• Алгоритм
применяется
для
обнаружения
взаимосвязей
и
закономерностей
между
объектами
Кластеризация
Поиск
ассоциативных
правил
11. Шаг
1.
Собрать
обучающую
выборку
cleverdata.ru
|
info@cleverdata.ru
1.4
м
0.35
м
# Вес
Рост
Длина
0.5
м
0.25
м
Наличие
хвоста
Положение
Длина
хвоста
Класс
Пространство
признаков
Целевая
переменная
3
кг
12. cleverdata.ru
|
info@cleverdata.ru
Шаг
2.
Убрать
выбросы
Вес
(кг)
2.8
1.9
25
2.4
1.6
Среднее
=
6,7
кг
Медиана
=
2,4
кг
выброс
Медиана
не
чувствительна
к
выбросам
13. Шаг
3.
Найти
предиктивные
признаки
cleverdata.ru
|
info@cleverdata.ru
Вес
Рост
Длина
Наличие
хвоста
Положение
Длина
хвоста
Вес
Рост
Длина
Длина
хвоста
Feature
Selecgon
Отбор
релевантных
признаков,
влияющих
на
целевую
переменную
14. cleverdata.ru
|
info@cleverdata.ru
Шаг
4.
Обучить
алгоритм
Алгоритмы
классификации
KNN
Decision
Trees
Logisvc
Regression
Naïve
Bayes
SVM
Train
Set
Test
Set
С
помощью
кросс
валидации
достигается
максимальная
точность
на
тестовых
данных
15. cleverdata.ru
|
info@cleverdata.ru
Что
такое
переобучение?
Недообучение
Переобучение
У
переобученной
модели
очень
низкая
точность
на
тестовой
выборке
16. Шаг
5.
Провести
анализ
результатов
Вероятностные
модели
сопоставляют
объекту
вероятность
класса
P(Кошка)
P(Собака)
75%
25%
13%
87%
40%
60%
90%
10%
50%
50%
cleverdata.ru
|
info@cleverdata.ru
Модель
сопоставляет
новому
объекту
его
класс
17. cleverdata.ru
|
info@cleverdata.ru
Статистическая
среда
R
Статистическая
обработка
данных
Построение
моделей
машинного
обучения
Работа
с
графикой,
аналитика
Распознавание
текста
Рекомендательные
системы
Скоринговые
модели
18. cleverdata.ru
|
info@cleverdata.ru
Распознавание
текста
Text
mining
-‐
выявление
информации
из
текстовых
документов
и
классификация
их
в
рамках
заданной
таксономии