SlideShare a Scribd company logo
1 of 12
Download to read offline
1
Garbage IN Garbage OUT
Евгений Линник, БКС
Cекреты очистки данных
Евгений Линник
Экспертиза: большие данные, машинное обучение,
компьютерное зрение, дополненная реальность, построение процессов в
организации, цифровая трансформация, управление данными
MBA: CIO РАНХиГС
Опыт: более 6 лет проектной практики BigData
Разработка IT-решений для аналитики и работы с цифровыми массивами информации с
последующим внедрением результатов
в процессы организации – вот чем я занимаюсь каждый день!
2
3
Авиакомпания
Промышленность
Задача: поиск аномалий
Проблема: отсутствие данных о единицах
продукции
Решение: счетчик единиц продукции был
добавлен аналитически
4
Система источник: IBA PDA (АСУТП 1-3 уровень)
5
Банк
Задача: поиск фрода
Проблема: малое количество целевых событий
Решение: первым этапом был применен
алгоритм «обучения без учителя» для
выявления случаев похожих на на целевые.
Система источник: Единый фронт и ABS
Задача: предсказание перетоков электроэнергии
Проблема: низкое качество предсказания
Решение: учли сезонность и тренды при
формировании прогноза
6
Энергетическая компания
Выделение сезонной компоненты
Исходный временной ряд
Тренд
Сезонная компонента
Остаток
Задача: определение места нахождения абонентов
Проблема: абоненты находятся в реках и озерах
Решение: применили еще один слой с ГЕО
7
Система источник: Пребиллинг (TDR)
Телеком
Задача: маркетинговые коммуникации на основе
данных о поведении в цифровых каналах
Проблема: источник без гарантии доставки
Решение: проблема решена на уровне бизнес-логики
8
Система источник: логи приложения
Финансовый сервис
Задача: витрина для маркетинговых коммуникаций
Проблема: внешние данные в модели
Решение: регулярное тестирование остаточной
значимости переменных
9
Система источник: внешние данные
Авиакомпания
Задача: online2offline и indoor
проходимость
Проблема: ограничения технологии
Решение: отказ от части бизнес-кейсов
10
Система источник: Wi-Fi сканер
Ритейл
• Выделяйте недостающие критерии аналитически, если есть
возможность.
• Плохая разметка данных не приговор, просто нужно будет
больше работать.
• Попробуйте очистить данные от помех, вызванных
прогнозируемыми факторами.
• Учитывайте особенности источников данных, особенно для
event based кейсов.
• Следите за изменением в алгоритмах формирования
комплексных измерений, регулярно тестируйте модель.
• Разберитесь в технологии, на которой основан источник и в ее
ограничениях.
11
Выводы
• Используйте внешние данные для уточнения результатов
аналитики, если это возможно.
12
Евгений Линник
БКС
email: ealinnik@gmail.com
Вместо заключения

More Related Content

Similar to Евгений Линник. БКС. GIGO — секреты очистки данных

Андрей Новиков RKM-2016 - Socialnaya analitika & Big Data
Андрей Новиков RKM-2016 - Socialnaya analitika & Big DataАндрей Новиков RKM-2016 - Socialnaya analitika & Big Data
Андрей Новиков RKM-2016 - Socialnaya analitika & Big Datavalveindustryhub
 
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятий
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятийОн-лайн сервис для овышение эффективности бизнеса малых и средних предприятий
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятийstartuptour
 
Qlik: новый подход к бизнес-аналитике фармацевтических компаний
Qlik: новый подход к бизнес-аналитике фармацевтических компанийQlik: новый подход к бизнес-аналитике фармацевтических компаний
Qlik: новый подход к бизнес-аналитике фармацевтических компанийMarina Payvina
 
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"Expolink
 
Информационные технологии как инструмент повышения производительности труда в...
Информационные технологии как инструмент повышения производительности труда в...Информационные технологии как инструмент повышения производительности труда в...
Информационные технологии как инструмент повышения производительности труда в...Максим Войцеховский
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...it-network
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlDmitry Guzenko
 
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...Несовершенство компьютерных технологий - почему так много до сих пор зависит ...
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...Pavel Cherkashin
 
YouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииAlexander Barakov
 
Microsoft BigData event @ Bibliotech
Microsoft BigData event @ BibliotechMicrosoft BigData event @ Bibliotech
Microsoft BigData event @ BibliotechAndrey Burlutskiy
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияDell_Russia
 
Big Data Technology - Solit 2015 Conference
Big Data Technology - Solit 2015 ConferenceBig Data Technology - Solit 2015 Conference
Big Data Technology - Solit 2015 ConferenceDmitry Tolpeko
 
Аналитика для больших проектов
Аналитика для больших проектовАналитика для больших проектов
Аналитика для больших проектовVit Cheremisinov
 
Как выбирать задачи, полезные для продукта
Как выбирать задачи, полезные для продуктаКак выбирать задачи, полезные для продукта
Как выбирать задачи, полезные для продуктаSQALab
 
Лучшие практики мобильного маркетинга: как стать №1
Лучшие практики мобильного маркетинга: как стать №1Лучшие практики мобильного маркетинга: как стать №1
Лучшие практики мобильного маркетинга: как стать №1Eugene Lisovskiy
 
Не вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат СемаковНе вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат Семаковweb2win
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данныхYuri Yashkin
 

Similar to Евгений Линник. БКС. GIGO — секреты очистки данных (20)

Андрей Новиков RKM-2016 - Socialnaya analitika & Big Data
Андрей Новиков RKM-2016 - Socialnaya analitika & Big DataАндрей Новиков RKM-2016 - Socialnaya analitika & Big Data
Андрей Новиков RKM-2016 - Socialnaya analitika & Big Data
 
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятий
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятийОн-лайн сервис для овышение эффективности бизнеса малых и средних предприятий
Он-лайн сервис для овышение эффективности бизнеса малых и средних предприятий
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
Qlik: новый подход к бизнес-аналитике фармацевтических компаний
Qlik: новый подход к бизнес-аналитике фармацевтических компанийQlik: новый подход к бизнес-аналитике фармацевтических компаний
Qlik: новый подход к бизнес-аналитике фармацевтических компаний
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
 
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"
Microsoft. Анна Даскал. "Решения Microsoft для финансового сектора"
 
Информационные технологии как инструмент повышения производительности труда в...
Информационные технологии как инструмент повышения производительности труда в...Информационные технологии как инструмент повышения производительности труда в...
Информационные технологии как инструмент повышения производительности труда в...
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsml
 
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...Несовершенство компьютерных технологий - почему так много до сих пор зависит ...
Несовершенство компьютерных технологий - почему так много до сих пор зависит ...
 
YouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиа
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной Компании
 
Microsoft BigData event @ Bibliotech
Microsoft BigData event @ BibliotechMicrosoft BigData event @ Bibliotech
Microsoft BigData event @ Bibliotech
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
Big Data Technology - Solit 2015 Conference
Big Data Technology - Solit 2015 ConferenceBig Data Technology - Solit 2015 Conference
Big Data Technology - Solit 2015 Conference
 
Аналитика для больших проектов
Аналитика для больших проектовАналитика для больших проектов
Аналитика для больших проектов
 
Как выбирать задачи, полезные для продукта
Как выбирать задачи, полезные для продуктаКак выбирать задачи, полезные для продукта
Как выбирать задачи, полезные для продукта
 
Лучшие практики мобильного маркетинга: как стать №1
Лучшие практики мобильного маркетинга: как стать №1Лучшие практики мобильного маркетинга: как стать №1
Лучшие практики мобильного маркетинга: как стать №1
 
Не вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат СемаковНе вся аналитика одинаково полезна - Ренат Семаков
Не вся аналитика одинаково полезна - Ренат Семаков
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
 

More from Global Innovation Labs

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Global Innovation Labs
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийGlobal Innovation Labs
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Global Innovation Labs
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Global Innovation Labs
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Global Innovation Labs
 
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Global Innovation Labs
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceGlobal Innovation Labs
 
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Global Innovation Labs
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныGlobal Innovation Labs
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компанийGlobal Innovation Labs
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Global Innovation Labs
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Global Innovation Labs
 

More from Global Innovation Labs (20)

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
 
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
 
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
 

Евгений Линник. БКС. GIGO — секреты очистки данных

  • 1. 1 Garbage IN Garbage OUT Евгений Линник, БКС Cекреты очистки данных
  • 2. Евгений Линник Экспертиза: большие данные, машинное обучение, компьютерное зрение, дополненная реальность, построение процессов в организации, цифровая трансформация, управление данными MBA: CIO РАНХиГС Опыт: более 6 лет проектной практики BigData Разработка IT-решений для аналитики и работы с цифровыми массивами информации с последующим внедрением результатов в процессы организации – вот чем я занимаюсь каждый день! 2
  • 4. Промышленность Задача: поиск аномалий Проблема: отсутствие данных о единицах продукции Решение: счетчик единиц продукции был добавлен аналитически 4 Система источник: IBA PDA (АСУТП 1-3 уровень)
  • 5. 5 Банк Задача: поиск фрода Проблема: малое количество целевых событий Решение: первым этапом был применен алгоритм «обучения без учителя» для выявления случаев похожих на на целевые. Система источник: Единый фронт и ABS
  • 6. Задача: предсказание перетоков электроэнергии Проблема: низкое качество предсказания Решение: учли сезонность и тренды при формировании прогноза 6 Энергетическая компания Выделение сезонной компоненты Исходный временной ряд Тренд Сезонная компонента Остаток
  • 7. Задача: определение места нахождения абонентов Проблема: абоненты находятся в реках и озерах Решение: применили еще один слой с ГЕО 7 Система источник: Пребиллинг (TDR) Телеком
  • 8. Задача: маркетинговые коммуникации на основе данных о поведении в цифровых каналах Проблема: источник без гарантии доставки Решение: проблема решена на уровне бизнес-логики 8 Система источник: логи приложения Финансовый сервис
  • 9. Задача: витрина для маркетинговых коммуникаций Проблема: внешние данные в модели Решение: регулярное тестирование остаточной значимости переменных 9 Система источник: внешние данные Авиакомпания
  • 10. Задача: online2offline и indoor проходимость Проблема: ограничения технологии Решение: отказ от части бизнес-кейсов 10 Система источник: Wi-Fi сканер Ритейл
  • 11. • Выделяйте недостающие критерии аналитически, если есть возможность. • Плохая разметка данных не приговор, просто нужно будет больше работать. • Попробуйте очистить данные от помех, вызванных прогнозируемыми факторами. • Учитывайте особенности источников данных, особенно для event based кейсов. • Следите за изменением в алгоритмах формирования комплексных измерений, регулярно тестируйте модель. • Разберитесь в технологии, на которой основан источник и в ее ограничениях. 11 Выводы • Используйте внешние данные для уточнения результатов аналитики, если это возможно.