Яркие примеры, иллюстрирующие ключевые ошибки в анализе данных:
1/Опускать поправку на априорные распределения
2/ Использовать для анализа неслучайную выборку
3/ Неверная визуализация
4/ Считать корреляцию причинной связью
5/ Неверно выбранная целевая переменная
6/ Допускать переобучение модели
7/ Оставить выбросы и шумы в данных
8/ Неверно разделить исследование и оптимизацию
9/ Делать поспешные выводы
10/Выбор неправильного инструмента для анализа
Исследование было подготовлено по инициативе рабочей группы по имиджевой рекламе IAB Russia с целью формирования списка лояльных рекламных форматов IAB Russia Loyal Ads и является частью глобальной инициативы IAB по борьбе с блокировщиками рекламы.
Cemec jornada tv a cabo aula 2 - ambiente legal - gilberto toscano - maio 2014Cultura e Mercado
O mercado audiovisual brasileiro vive um momento de grandes expectativas. A nova lei de TV por assinatura transfigurou as relações de mercado e ampliou consideravelmente o investimento público no setor, por meio do Fundo Setorial do Audiovisual (FSA). Um dos maiores desafios das produtoras têm sido a criação e formatação de seriados e programas de TV que atendam as necessidades dos programadores, em busca de projetos com potencial de público e no perfil de seus canais para cumprir cotas exigidas pela nova Lei da TV. O sucesso comercial de um projeto passa, portanto, pela preparação de seu conteúdo e o foco de seu resultado.
A Jornada TV por Assinatura tem por objetivo preparar roteiristas, diretores e produtores para fazer uma abordagem comercial a partir do conceito do projeto, de forma a torná-lo potencialmente competitivo e bem direcionado para vencer os pitchings do FSA. Inclusive como o produtor pode se preparar para obter uma boa defesa do seu projeto oral para os analistas do FSA.
AULA 2 | Introdução ao Ambiente Legal | Gilberto Toscano de Brito | Órgãos governamentais e regularização de direitos em uma obra audiovisual. O sistema de cotas criados pela Lei de TV a cabo (1ª parte).
Исследование было подготовлено по инициативе рабочей группы по имиджевой рекламе IAB Russia с целью формирования списка лояльных рекламных форматов IAB Russia Loyal Ads и является частью глобальной инициативы IAB по борьбе с блокировщиками рекламы.
Cemec jornada tv a cabo aula 2 - ambiente legal - gilberto toscano - maio 2014Cultura e Mercado
O mercado audiovisual brasileiro vive um momento de grandes expectativas. A nova lei de TV por assinatura transfigurou as relações de mercado e ampliou consideravelmente o investimento público no setor, por meio do Fundo Setorial do Audiovisual (FSA). Um dos maiores desafios das produtoras têm sido a criação e formatação de seriados e programas de TV que atendam as necessidades dos programadores, em busca de projetos com potencial de público e no perfil de seus canais para cumprir cotas exigidas pela nova Lei da TV. O sucesso comercial de um projeto passa, portanto, pela preparação de seu conteúdo e o foco de seu resultado.
A Jornada TV por Assinatura tem por objetivo preparar roteiristas, diretores e produtores para fazer uma abordagem comercial a partir do conceito do projeto, de forma a torná-lo potencialmente competitivo e bem direcionado para vencer os pitchings do FSA. Inclusive como o produtor pode se preparar para obter uma boa defesa do seu projeto oral para os analistas do FSA.
AULA 2 | Introdução ao Ambiente Legal | Gilberto Toscano de Brito | Órgãos governamentais e regularização de direitos em uma obra audiovisual. O sistema de cotas criados pela Lei de TV a cabo (1ª parte).
This PowerPoint will help you to:
-Cite the factors affecting the Behavior of your Working colleagues;
-Describe the role of the leader in Creating Motivations for the working Staff; and Members
-Apply the Techniques of Enriching Work to Give work motivation for the Staff.
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...WG_ Events
Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспечения
Медицина, как и ожидалась, подходит к фазе "Платформизации" и "Цифровой экономики". Что меняется в ИТ инфраструктуре, какие решения и алгоритмы повлияют на применение инструментов BigData и BI при автоматизации в клинических и административных процессах ?
Video http://confhall.hse.ru/videos/video/824/ at 12 min
Большие данные: как могут навредить и ка могут помочь?etyumentcev
Большие данные — модная и быстро распространяющаяся концепция, которая позволяет нам извлекать разные полезные факты из окружающей нас информации. На конкретных примерах покажу как можно большие данные использовать, а также к каким проблемам может привести неверная интерпретация полученных результатов.
This PowerPoint will help you to:
-Cite the factors affecting the Behavior of your Working colleagues;
-Describe the role of the leader in Creating Motivations for the working Staff; and Members
-Apply the Techniques of Enriching Work to Give work motivation for the Staff.
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...WG_ Events
Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспечения
Медицина, как и ожидалась, подходит к фазе "Платформизации" и "Цифровой экономики". Что меняется в ИТ инфраструктуре, какие решения и алгоритмы повлияют на применение инструментов BigData и BI при автоматизации в клинических и административных процессах ?
Video http://confhall.hse.ru/videos/video/824/ at 12 min
Большие данные: как могут навредить и ка могут помочь?etyumentcev
Большие данные — модная и быстро распространяющаяся концепция, которая позволяет нам извлекать разные полезные факты из окружающей нас информации. На конкретных примерах покажу как можно большие данные использовать, а также к каким проблемам может привести неверная интерпретация полученных результатов.
Пилоты и проекты Teradata Aster в области анализа больших данных:
Колл-Центр
Aster nPath цепочки
Анализ IVR
Мошенничество в банках логистика и сети
Отток клиентов
Диагностика сотовых станций
Анализ социальных сетей
Анализ API Logs
Teradata AppCenter
Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики.
Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.
Predictive models for Operational analyticsCleverDATA
Чем занимается Data Science, в чем отличия от традиционной аналитики? Как работают предиктивная аналитика и моделирование? Проблематика управления ИТ операциями. Прогнозирование сбоев в работе ИТ-систем с помощью аналитики и моделирования. Этапы построения прогнозных моделей. Результаты применения и эффективность. Подробнее http://cleverdata.ru/splunk-it-operations/
Логическая витрина для доступа к большим даннымSergey Gorshkov
Как компании получить максимальную выгоду от накопленной информации? Как интегрировать данные из хранилищ Big Data с традиционной аналитической информацией?
2013 Разработка программно-математического комплекса поддержки скоринга востр...RF-Lab
ДИПЛОМНЫЙ ПРОЕКТ
на тему
«Разработка программно-математического комплекса поддержки скоринга востребования»
Выполнил: Царьков Юрий Александрович Руководитель: Мельников Алексей Олегович
CRM onboarding - оффлайн данные для онлайн рекламы CleverDATA
Александр Кириллов, Head of data monetization CleverDATA, рассказал на семинаре IAB Russia в рамках курса Use Data об особенностях CRM Onboarding и новых вызовах перед рынком данных
Data exchange как ключевой элемент экосистемы обмена даннымиCleverDATA
Андрей Евтихов, исполнительный директор CleverDATA, рассказал о Бирже данных (Data exchange) на семинаре IAB Russia «Рынок обмена данными: состояние, участники, тенденции».
Продемонстрированы 4 основных модели обмена данными (Data provider, Data aggregator, Data marketplace, Data exchange), отражены основные тенденции рынка данных и их влияние на развитие модели Data exchange.
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...CleverDATA
Презентация Артема Просветова, data scientist CleverDATA, о технологии анализа данных на примере работы с бьюти-блогами для конференции Data Science Weekend (3-4 марта 2017).
Презентация Дениса Афанасьева для конференции HybridConf'16. Заходите на 1DMC.io и станьте клиентом Биржи данных, первой в России облачной независимой платформы для монетизации ваших данных об аудитории!
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
Презентация Константина Ткачева, архитектора решений CleverDATA по платформе Splunk (функционал, источники данных, возможности масштабируемости, примеры панелей управления, возможности интеграции, аналитика данных и предиктивные возможности).
Д.Афанасьев_ CleverDATA_Охота за даннымиCleverDATA
Эффективность использования внешних источников для пополнения знаний о вашей аудитории и таргетированного маркетинга/управления рисками/поведением клиентов
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA
Как не упустить момент и не дать погибнуть Банку в эпоху цифровой трансформации. Как управлять данными клиентов и научиться извлекать из них знания для выстраивания эффективных целевых коммуникаций
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
Технологии Больших Данных для банков и страховых компаний. Какие задачи решают? Как монетизировать Большие Данные? Бизнес-кейсы и конкретные примеры. Концепция 3D профиля клиента. Точная сегментация и персонифицированный маркетинг. Управление данными на Oracle Big Data Appliance
Презентация о платформе управления данными 1DMP.io (разработка компании CleverDATA) во время бизнес-завтрака для партнеров 15/09/2015 совместно с Oracle и ФОРС Дистрибуция.
Описание бизнес-кейса проведения сегментации клиентской базы для выявления наиболее склонной к покупке страховых продуктов аудитории и последующей целевой коммуникации
Как использовать внешние данные при найме сотрудников на работу? Какие источники данных могут быть полезны? Как строится аналитическая предиктивная модель для HR скоринга? Опыт реализации проекта от компании CleverDATA
Описание аспектов портирования и тестирования выполнения задачи построения клиентских профилей платформой управления данными 1DMP на программно-аппаратном комплексе Oracle Big Data Appliance. Топология развертывания. Hardware. Software. Результаты тестирования.
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
10 Critical Mistakes in Data Analysis
1. 10 основных ошибок,
которые нельзя допускать
в анализе данных
Константин Обухов
Data Scientist в компании CleverDATA
Презентация для ИТ-лектория
НИУ ВШЭ
02.03.2015
2. Немного о CleverDATA
Развитие бизнеса
на международном
рынке с 2012 года
Входит в тройку
лидеров российских ИТ компаний
43 подразделения в России и за
рубежом
Более 5500 сотрудников
100 тыс.проектов для 10 тыс.заказчиков
Инновационная платформа
управления данными
«Биржа» данных
Облачный сервис
Открытые технологии
Создана в 2014 г.
Фокус на работе с «Big Data»
Собственные центры разработки
Партнерство с мировыми лидерами
и научными институтами
Центр экспертизы по
технологиям Big Data и
Digital Marketing
3. Мы знаем все о больших данных и их обработке
ВЫСОКАЯ СКОРОСТЬ
БОЛЬШОЙ ОБЪЕМ
ЗНАЧИТЕЛЬНАЯ ВАРИАТИВНОСТЬ
Web логи
Финансовые транзакции
Социальные сети
Web контент
Машинные данные
Открытые данные
Hadoop
MPP (Vertica, Exadata, Greenplum,
Teradata)
NoSQL (Key-Value, Document-
oriented, Column-based, Graph-
oriented)
In-memory Data Grids, Calculation
Grids
Data Mining
Machine Learning / Statistics / Natural
Language Processing
Event-Stream Processing
Ценность данных в том, как вы их
анализируете и применяете для развития
своего бизнеса
Понимание клиента и его поведения
Информационная безопасность
Управление рисками
Повышение операционной эффективности
“Потенциал Big Data раскрывается в полной мере при взаимодействии с
другими данными корпорации.” Билл Фрэнкс.
4. Задача
• В городе проживает миллион человек
• 200 из них заболели неизвестным вирусом
• Изобретен тест на наличие болезни с точностью 97%
Вопрос:
Какая вероятность, что вы заболели, если тест дал положительный результат?
3) 0.64%
0.64%
1) 97%
2) 32.14%
5. Решение
1 000 000
200
999 800
194
6
29 994
969 806
Больные
Здоровые
Тест положительный
Тест отрицательный
Тест отрицательный
Тест положительный
0.64%
7. Ошибки I и II рода
Наличие болезни
Результаттеста
Больной Здоровый
Положительный
194
True
Positives
29 994
False
Positives
Отрицательный
6
False
Negatives
969 806
True
Negatives
Ошибка I рода
Ошибка II рода
16. Вот это поворот
1. У бедных нет телефона
2. Бедные голосуют за Трумэна
Фактически нет
данных по бедным
избирателям
Голоса за Дьюи
по обзвону
Голоса за Трумэна
по обзвону
17. 10 основных ошибок, которые нельзя
допускать в анализе данных
2. Использовать для анализа неслучайную выборку
18. Bias Sample
Выборка
1 Выборка
2
Выборка
3
Все данные
• Данные для анализа нужно выбирать
случайно из генеральной совокупности
• Проверять гипотезу нужно на
контрольных данных – тоже выбранных
случайно из всего множества
19. Как убедиться в том, что выборка случайная?
Dataset 1: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Dataset 2: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Признаки в обоих выборках должны принадлежать одному распределению
хорошо плохо
20. Как посчитать функцию распределения
Закон Больших Чисел:
X = rnorm(100,10,1)
Y = rnorm(100,10,2)
X = rnorm(100,10,1)
Y = rnorm(100,9.9,1.1)
41. Как узнать, где причина, а где следствие?
Тест Грэнджера на причинностьКоличество куриц в момент t
Количество яиц в момент времени t
Гипотеза 1: x не является причиной y
Гипотеза 2: y не является причиной x
44. Supervised Learning
• Необходимо задать обучающую выборку –
набор данных признаки : результат
• Алгоритм применяется для распознавания
неизвестных объектов
Классификация Регрессия
45. Unsupervised Learning
• Для обучения нужна выборка только
признаков
• Алгоритм применяется для обнаружения
взаимосвязей и закономерностей между
объектами
Кластеризация Поиск ассоциативных
правил
46. 10 основных ошибок, которые нельзя
допускать в анализе данных
5. Неверно выбранная целевая переменная
47. Прогнозирование оттока клиентов
• Необходимо выявить клиентов, которые с большой вероятностью прекратят
взаимодействие с компанией
• Предиктивная модель обучается на уже ушедших клиентах, ищет признаки оттока
• Каждому клиенту сопоставляется вероятность уйти в отток через какой-то промежуток
времени
57. Еще раз теорема Байеса
Априорная вероятность
(до наблюдения)
Эффект наблюдаемых данных
Апостериорная вероятность
(после наблюдения)
Функция правдоподобия описывает насколько вероятны наблюдаемые
данные при различных значениях весов w
59. Как подобрать нужные параметры модели
Тюнинг модели заключается в подборе таких параметров
λ и M, при которых ошибка на тестовой выборке
минимальная – кросс-валидация
60. 7. Оставить выбросы и шумы в данных
10 основных ошибок, которые нельзя
допускать в анализе данных
62. Задача поиска аномалий
Аномалии – это те события или наблюдения, которые не соответствуют
ожидаемому паттерну других событий в данных
• Intrusion detection
• Fraud detection
• Fault detection
• System monitoring
• Event detection
• Data preprocessing
Очистка от шумов позволяет значительно увеличить
точность предиктивной модели
64. 4 этапа построения модели
1. Необходимо правильно обработать данные
• Модель структурирования потоковых данных позволяет извлечь из
машинных данных важные признаки
• Без обработки данных увеличивается погрешность прогнозирования
Паттерн сбоя
До обработки После обработки
65. 4 этапа построения модели
2. Необходимо найти сбои в исторических данных
• Для того, чтобы прогнозировать сбои в
будущем, необходимо «обучиться» на
прошлых ошибках.
• Вероятностная модель определяет сбои как
значимые отклонения от нормального
состояния работы систем (one class SVM)
Детектирование значимых отклонений от нормы
66. Подход к решению
3. Выявление значимых признаков сбоев
• Выявив сбои, необходимо автоматически
найти причины их возникновения
• Методы корреляционного анализа позволяют
найти причины прошедших сбоев
Корреляционная матица признаков сбоев
67. Подход к решению
4. Построение предиктивной модели
Прошлые наблюдения Будущая вероятность сбоя
Триггеры (предикторы)
ошибок
• Модель обучается на исторических данных, сопоставляя прошлым
наблюдениям будущую вероятность сбоя в различных временных интервалах
• В реальном времени модель отслеживает показатели систем и триггеры
ошибок, рассчитывая будущую вероятность сбоя
68. 8. Неверно разделить исследование и оптимизацию
10 основных ошибок, которые нельзя
допускать в анализе данных
69.
70. Снова ошибки I и II рода
Реальность
Гипотеза
Верная Неверная
Верна
True
Positives
False
Positives
Неверна
False
Negatives
True
Negatives
Exploration
Error
Exploitation
Error
75. Основные этапы построения
предиктивных моделей
Data
Preprocessing
Feature
Engineering
Feature
Selection
Machine Learning
Back Testing
• Необходимая обработка данных: очистка шумов, выбросов.
Приведение данных к нормальному виду
• Генерация факторов и признаков в модели.
Поиск скрытых паттернов
• Выбор предикторов, выявление
значимых закономерностей
• Построение модели алгоритмами
машинного обучения, тюнинг модели
• Тестирование модели на реальных данных
76. 10. Выбор неправильного инструмента для анализа
10 основных ошибок, которые нельзя
допускать в анализе данных
78. 10 основных ошибок, которые нельзя
допускать в анализе данных
1. Опускать поправку на априорные распределения
2. Использовать для анализа неслучайную выборку
3. Неверная визуализация
4. Считать корреляцию причинной связью
5. Неверно выбранная целевая переменная
6. Допускать переобучение модели
7. Оставить выбросы и шумы в данных
8. Неверно разделить исследование и оптимизацию
9. Делать поспешные выводы
10. Выбор неправильного инструмента для анализа
Вопросы?