SlideShare a Scribd company logo
BA for Data Science
& Machine Learning
Гузенко Дмитрий
 Инструктор IT Education Academy
 Аналитик Luxoft
 Специалист по проектированию, разработке и
внедрению IT проектов
 24 года в ИТ
 15 лет БA
КОНТАКТНЫЕ ДАННЫЕ
fb.com/dmitry.guzenko
d.guzenko@outlook.com
ERP Ирбис
предприятие
75 / 300
implementations
ERP SiReD
5000 users
Brunei Telecom
Solution
25 Systems
АПУ, МОН,
КМДА, Антонов
Luxoft
Bank Domain
Medical
Statistic System
1992 201820122008
What we can
deliver now…
What we deliver? Free Time
What we can
deliver now…
(не)Новые технологии
Machine Learning
Data Science
(не)Новые роли
Data Scientist
Data Analyst
Who Is mr. Data Scientist
Specialized knowledge
 Understanding theoretical concepts of statistics/probability, data mining, machine learning
 Understanding how these theoretical concepts could be applied to real world problems
 Ability to understand the nature of business problems and see the place of analytical models in the
solution
 Knowledge and hands-on experience with one or more of the following: Matlab/Octave, R, Python
 Familiarity with the concept of HPC, parallel computing
 Knowledge and hands-on experience with one or more of the following for data analytics:
Spark/Theano/TensorFlow/Caffee
Skills and abilities
 Strong English verbal and written communication
skills
 Deep analytical skills
 Self-organization, self-management
 Ability to work independently with limited
supervision
 Ability to handle multi-tasking activities
 Ability to learn quickly
 Following academic research and trends as a
habit
 Initiative and pro-active skills and flexibility
Experience
•Track record in data analysis, data science,
artificial intelligence
Personal characteristics
•Passion for learning and education
•Business orientation
•Result orientation
Job Context
•Customer facing role
•Sole responsibility over the analytical project
•High level of responsibility
•Simultaneous handling and fast processing of
multiple tasks
•Lots of educational and self-educational
activities
•Culture of knowledge sharing
Вывод
Конец рабочего дня!!!
Вывод
BA knowledge as a base
BA + DS = новые возможности
(не)Новые инновации
Что происходит
1924 - Present 2001 - Present 2015 - Present
Data-Driven Approach
Сбор всех данных
Какие именно –
рецепта нет
Data-Driven Approach
Объединение
данных
различного типа
The Evolution of Data-Driven Company
(не)Новые возможности
Вопросы
Предсказания
Data Science — это наука о
методах анализа данных и
извлечения из них ценной
информации, знаний.
Data Science Process
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
Cross-Industry
Standard Process for
Data Mining
Brussels, 1999
CRISP-DM
Data Science Process
Business
Analysis
Development
Evaluation
Deployment Data
Business
Understanding
Data
Understanding
Data
Preparation
Modeling
Data Science Pipeline
Вывод
Вывод
Больше половины нам и так знакомо
Пока все понятно.
Принцип машинного обучения
Предсказания
Варианты использования
Очевидные и невероятные
Персонализация
Рекомендация
Оптимизация
Безопасность
Автоматизация
Генерация
Прикладное применение
Индустрии
На какие вопросы отвечает Data Science?
На какие вопросы отвечает Data Science?
Это A или B?
Является ли это странным?
Сколько?
Как это организовано?
Что делать дальше?
Classification
Anomaly Detection
Regression
Clustering
Recommendation
1
2
3
4
5
На какие вопросы отвечает Data Science?
Сколько? Regression
Пример 2-х мерного пространства
Характеристик много, реальное
пространство многомерное
На какие вопросы отвечает Data Science?
Сколько? Regression
•Какой доход принесет клиент?
•Какой возраст у клиента?
•Сколько стоит этот объект (недвижимости)?
•Какая оптимальная стоимость услуги?
На какие вопросы отвечает Data Science?
Сколько? Regression
•Какой объем продаж будет в следующем месяце?
•Сколько сотрудников уволится в следующем
месяце?
•Прогноз прибыли или убытков по
филиалам/направлениями/продуктам/менеджерам?
Кластеризация
Как это организовано? Clustering
На какие вопросы отвечает Data Science?
Это A или B? Classification
•Какой категории этот клиент?
•Сотрудник уволится в следующем месяце?
•Вернет ли этот клиент кредит банку: Да или Нет?
1
•Какой пол клиента?
На какие вопросы отвечает Data Science?
Является ли это странным? Anomaly Detection2
Нормально ли это сообщение внутри интернет трафика?
Могли ли вы рассчитаться кредитной картой одновременно
из двух разных мест?
Нормально ли то, что клиент летит в Египет но заказал
экскурсию в Турции?
Рекомендательная система Collaborative Filtering
Рекомендательная система Collaborative Filtering
На какие вопросы отвечает Data Science?
Что добавить еще? Recommendation
•Какой товар можно еще докупить
•Какой контент можно просмотреть еще?
•Каким клиентам еще можно предложить эту услугу?
•Рекомендация друзей, специалистов (FB, LinkedIn)?
Case: Такси Uklon
Задачи:
• Сократить время ожидания
• Повысить кол-во заказов
Бизнес модель: Клиент имеет возможность сам назначить цену поездки
Проблема: Низкий % вывоза из определенных точек города
Решение: сервис прогноза оптимальной стоимости поездки
Целевые переменные:
• Ожидаемое время прибытия
• Процент выполнения заказа, план
Case: Такси Uklon
Features:
цена, конечная точка маршрута, марка машины, место прибытия, время суток, время года
Dataset:
Size = 20 Gb;
Count = 20 000 000 поездок;
Features = 20 характеристик;
Подходы:
Кластеры: отличаются от стандартного разделения города
на административные районы
Подходы:
Создание временных групп:
Сезоны, дни недели, время в сутках
Подходы:
300 ветвей дерева принятия решений
Архитектура:
Результаты
A/B testing:
В 75% случаев клиент не торгуется
Время ожидания и KPI улучшились на 5-15%
Bank & Finances
Николай Щербина
Попасть в девяточку: как с
помощью сегментации увеличить
конверсию на 473%
Персонализация коммуникаций:
как достучаться до каждого
Поток: CRM & Лояльность
На какие вопросы отвечает Data Science?
Как это организовано? Clustering
Демократизация технологий
Tools for quick starting
Tools for Machine Learning
Frameworks
Value
Data Science
Project Stages
Challenges
Фокус не на алгоритм а на результат
Эксперты не хотят терять монополию на
экспертизу
Размерность спринта иногда большая
Отсутствие данных
Challenges
Данные собираются для отчетности а не для анализа
Нет чистых данных
Требования объяснить результат
Попытка повлиять на полученные предсказания
Ответственность аналитика не за инсайт а за результат
Заказчик считает что данных предостаточно
Иногда нужна не аналитика а отчетность (30 вагонов продукции)
Советы
Использовать «пилоты»
Кол-во данных может быть небольшим
• 100% данных дают 100% результат
• 20% дают 80% результат
• 4% дают 60-70% результата (проверка гипотезы)
Работаем через гипотезы
Решать задачу бизнеса
• Например, остаток кеша в банкоматах не полезен для бизнеса.
Необходимо понимать изменение стоимости пролеживания
денег, штрафы за банкомат без денег, стоимость логистики
инкассации. Т.е. термины и показатели бизнеса
Вопросы
На какие вопросы отвечает Data Science?
Что делать дальше? Recommendation5
•Для робота-пылесоса: продолжить уборку или вернуться к зарядной станции?
•Для автомобиля с автономным управлением: при желтом сигнале светофора
затормозить или ускориться?
•Для боевого дрона: внизу это колонна боевиков или это дети из школы идут?
AI in Marketing
Meet Albert™
the First Artificial Intelligence Marketing
Platform for the Enterprise
Save Time More Accurate
Desigions
Increase
Revenue
Smart
Storage
Delight
Customers
High Value
Problem
Solving
Meet Albert™
Анализ
аудитории
Аналитика и
insights
Тестирование и
оптимизация
Исполнение
кампаний
Автозакупка
медиаресурсов
Client Success Story

More Related Content

Similar to Dsml for business.full version

развитие бизнеса си масштабирование
развитие бизнеса си масштабированиеразвитие бизнеса си масштабирование
развитие бизнеса си масштабирование
APPAU_Ukraine
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Newprolab
 
Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Anton Petrov
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
Cisco Russia
 
CleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.Obukhov
CleverDATA
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
SQALab
 
Анализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft biАнализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft bi
Максим Войцеховский
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
Evgeniy Pavlovskiy
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience Technologies
AIST
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
BranchMarketing
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
Ilya Gershanov
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
AlgoMost
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
Alina Sobolevskaya
 
Готовность предприятий к Индустрии 4-0 - результаты опроса
Готовность предприятий к Индустрии 4-0 - результаты опросаГотовность предприятий к Индустрии 4-0 - результаты опроса
Готовность предприятий к Индустрии 4-0 - результаты опроса
APPAU_Ukraine
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
BI-проекты глазами аналитика
BI-проекты глазами аналитикаBI-проекты глазами аналитика
BI-проекты глазами аналитика
SQALab
 
Не вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат СемаковНе вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат Семаков
web2win
 

Similar to Dsml for business.full version (20)

развитие бизнеса си масштабирование
развитие бизнеса си масштабированиеразвитие бизнеса си масштабирование
развитие бизнеса си масштабирование
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
 
Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
 
CleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.Obukhov
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
Анализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft biАнализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft bi
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience Technologies
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
 
Готовность предприятий к Индустрии 4-0 - результаты опроса
Готовность предприятий к Индустрии 4-0 - результаты опросаГотовность предприятий к Индустрии 4-0 - результаты опроса
Готовность предприятий к Индустрии 4-0 - результаты опроса
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Bi
BiBi
Bi
 
BI-проекты глазами аналитика
BI-проекты глазами аналитикаBI-проекты глазами аналитика
BI-проекты глазами аналитика
 
go to us
go to usgo to us
go to us
 
Не вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат СемаковНе вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат Семаков
 

Dsml for business.full version