SlideShare a Scribd company logo
1 of 14
Станислав Семёнов
ICBDA, 2016
Использование целевой переменной
для улучшения прогноза в
прикладных задачах анализа данных
Кейс
 Вам нужно решить стандартную задачу машинного обучения
с учителем
 У вас уже есть готовый набор с данными, придуманы и
построены все признаки, определён наиболее подходящий
метод машинного обучения
 Можно ли улучшить прогноз не используя новые данные и
другие методы машинного обучения?
Данные
Город Возраст Должность Зарплата Одобрение
Санкт-
Петербург
25 Программист 100000 1
Обучающая
выборка
Москва 36 Аналитик 80000 0
Москва 32 Менеджер 150000 1
Волгоград 30 - 10000 0
Новосибирск 42 Водитель 30000 1
Ивановка 35 Продавец 10000 0
… … … … …
Уфа 30 Продавец 20000 ?
Тестовая
выборка
Москва 32 Менеджер 120000 ?
Москва 50 Директор 250000 ?
Новосибирск 40 Разнорабочий - ?
… … … … …
Использование целевой переменной
 Goods – число единиц в каждой группе, Bads – число нулей
 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 =
𝐺𝑜𝑜𝑑𝑠
𝐺𝑜𝑜𝑑𝑠+𝐵𝑎𝑑𝑠
= 𝑚𝑒𝑎𝑛 𝑡𝑎𝑟𝑔𝑒𝑡
 𝑊𝑒𝑖𝑔ℎ𝑡 𝑜𝑓 𝐸𝑣𝑖𝑑𝑒𝑛𝑐𝑒 = ln
𝐺𝑜𝑜𝑑𝑠
𝐵𝑎𝑑𝑠
∗ 100
 𝐶𝑜𝑢𝑛𝑡 = 𝐺𝑜𝑜𝑑𝑠 = 𝑠𝑢𝑚(𝑡𝑎𝑟𝑔𝑒𝑡)
 𝐷𝑖𝑓𝑓 = 𝐺𝑜𝑜𝑑𝑠 − 𝐵𝑎𝑑𝑠
Основная проблема
 Переобучение
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
10 20 30 40 50 60 70 80 90 100
Валидация Тест
Решение
 Для построения признаков каждой строки нельзя
использовать целевую переменную этой же строки
 Представьте что вы используете любой метод разбивки для
кросс-валидации
Проблемы
 В отличие от обычных признаков, нам нужно их по-разному
рассчитывать для обучающей и для тестовой выборки
 Могут быть новые значения признаков в тестовой выборке,
которые не встречались в обучающей
 Может быть разная частота вхождения тех или иных
значений признаков в обучающей выборке
Решение
 𝑆𝑚𝑜𝑜𝑡ℎ𝑒𝑑 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 =
𝑚𝑒𝑎𝑛 𝑡𝑎𝑟𝑔𝑒𝑡 ∗ 𝑛𝑟𝑜𝑤𝑠+𝑔𝑙𝑜𝑏𝑎𝑙𝑚𝑒𝑎𝑛 ∗𝑎𝑙𝑝ℎ𝑎
𝑛𝑟𝑜𝑤𝑠+𝑎𝑙𝑝ℎ𝑎
 g𝑙𝑜𝑏𝑎𝑙𝑚𝑒𝑎𝑛 – среднее значение целевой переменной по
всей выборке, 𝑎𝑙𝑝ℎ𝑎 – коэффициент регуляризации
Город Число строк Likelihood Smoothed Likelihood
Москва 100 0.74 0.72
Санкт-Петербург 50 0.66 0.64
Новосибирск 10 0.8 0.67
Ивановка 1 0. 0.57
Уфа 5 1. 0.68
Владивосток 0 - 0.6
Непрерывные признаки
 Что делать если есть непрерывные признаки?
Например: возраст, зарплата.
1. Оставить как есть
2. Создать группы руками (возраст больше 18, зарплата
больше 100000, и т.д.)
3. Использовать округление (возраст / 5, зарплата / 20000)
4. Посчитать перцентили для каждого признака
Результаты
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
XGBoost RF NN
Метрика качества - LogLoss
Оригинальные данные Данные с использованием целевой переменной
В среднем улучшает результат на 10-15%
Плюсы метода
 Не нужно использовать много памяти, как в случае с One-
Hot-Encoding
 Можно добавлять такие признаки сразу по нескольким
целевым переменным, находя дополнительные
взаимодействия между ними
 Метод показывает значительный прирост без использования
новых данных
 Метод может быть применен автоматически к текущему
решению
Минусы метода
 Сложно валидировать модели - остаётся шанс переобучения
 Плохо работает на небольшом количестве данных
Область применимости
Задачи с большим количеством строк и категориальных
признаков:
Предсказание CTR, предсказание поведения пользователя в
интернете, кредитный скоринг
Спасибо за внимание
 Вопросы?

More Related Content

Viewers also liked

Viewers also liked (19)

Наталья Полковникова – Global Innovation Labs – ICBDA2016
Наталья Полковникова – Global Innovation Labs – ICBDA2016Наталья Полковникова – Global Innovation Labs – ICBDA2016
Наталья Полковникова – Global Innovation Labs – ICBDA2016
 
Евгений Быков – Телум – ICBDA2016
Евгений Быков – Телум – ICBDA2016Евгений Быков – Телум – ICBDA2016
Евгений Быков – Телум – ICBDA2016
 
Александр Яшкин – FANUC Russia – ICBDA2016
Александр Яшкин – FANUC Russia – ICBDA2016Александр Яшкин – FANUC Russia – ICBDA2016
Александр Яшкин – FANUC Russia – ICBDA2016
 
Евгений Власов — CallTouch — ICBDA 2015
Евгений Власов — CallTouch — ICBDA 2015Евгений Власов — CallTouch — ICBDA 2015
Евгений Власов — CallTouch — ICBDA 2015
 
Артем Плешаков — Intency DSP — ICBDA 2015
Артем Плешаков — Intency DSP — ICBDA 2015Артем Плешаков — Intency DSP — ICBDA 2015
Артем Плешаков — Intency DSP — ICBDA 2015
 
Ксения Ачкасова — TNS Россия — ICBDA 2015
Ксения Ачкасова — TNS Россия — ICBDA 2015Ксения Ачкасова — TNS Россия — ICBDA 2015
Ксения Ачкасова — TNS Россия — ICBDA 2015
 
Антон Бут — Auditorius — ICBDA 2015
Антон Бут — Auditorius — ICBDA 2015Антон Бут — Auditorius — ICBDA 2015
Антон Бут — Auditorius — ICBDA 2015
 
Андрей Калинин, Современное текстовое ранжирование, Optimization 2016
Андрей Калинин, Современное текстовое ранжирование, Optimization 2016Андрей Калинин, Современное текстовое ранжирование, Optimization 2016
Андрей Калинин, Современное текстовое ранжирование, Optimization 2016
 
Николай Марин — IBM — ICBDA2016
Николай Марин — IBM — ICBDA2016Николай Марин — IBM — ICBDA2016
Николай Марин — IBM — ICBDA2016
 
Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016
Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016
Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016
 
Александр Белоцерковский — Microsoft — ICBDA2016
Александр Белоцерковский — Microsoft — ICBDA2016Александр Белоцерковский — Microsoft — ICBDA2016
Александр Белоцерковский — Microsoft — ICBDA2016
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015
 
Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015
 
Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015
 
Евгений Смирнов — Numbuster — ICBDA 2015
Евгений Смирнов — Numbuster — ICBDA 2015Евгений Смирнов — Numbuster — ICBDA 2015
Евгений Смирнов — Numbuster — ICBDA 2015
 
Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015Василий Суханов — SAP — ICBDA 2015
Василий Суханов — SAP — ICBDA 2015
 
Монетизация данных: могут ли банки зарабатывать на информации
Монетизация данных: могут ли банки зарабатывать на информацииМонетизация данных: могут ли банки зарабатывать на информации
Монетизация данных: могут ли банки зарабатывать на информации
 
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтовАлександр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
 
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
 

Similar to Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBDA'15, #1 в рейтинге Kaggle — ICBDA2016

FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
Khryashchev
 
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
Ontico
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
LiloSEA
 

Similar to Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBDA'15, #1 в рейтинге Kaggle — ICBDA2016 (17)

Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Crowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкойCrowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкой
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
Адаптивная оптимизация запросов в реляционных СУБД / Олег Иванов (Postgres Pr...
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & Tricks
 
C&B basics: основы компенсаций и льгот. Элеонора Якименко.
C&B basics: основы компенсаций и льгот. Элеонора Якименко.C&B basics: основы компенсаций и льгот. Элеонора Якименко.
C&B basics: основы компенсаций и льгот. Элеонора Якименко.
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
 
Денис Баталов
Денис БаталовДенис Баталов
Денис Баталов
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
Ts navigator v211111
Ts navigator v211111Ts navigator v211111
Ts navigator v211111
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 
Прогнозирование результатов деятельности маркетолога. Практический подход
Прогнозирование результатов деятельности маркетолога. Практический подходПрогнозирование результатов деятельности маркетолога. Практический подход
Прогнозирование результатов деятельности маркетолога. Практический подход
 
Branchmarketing2014
Branchmarketing2014Branchmarketing2014
Branchmarketing2014
 

More from rusbase

Алексей Благирев, "Открытие" — FinTech Russia 2017
Алексей Благирев, "Открытие" — FinTech Russia 2017Алексей Благирев, "Открытие" — FinTech Russia 2017
Алексей Благирев, "Открытие" — FinTech Russia 2017
rusbase
 

More from rusbase (20)

Робоэдвайзинг
РобоэдвайзингРобоэдвайзинг
Робоэдвайзинг
 
Как чат-боты меняют банковское обслуживание
Как чат-боты меняют банковское обслуживание Как чат-боты меняют банковское обслуживание
Как чат-боты меняют банковское обслуживание
 
Как удаленная идентификация повлияет на бизнес модели в финансовой сфере
Как удаленная идентификация повлияет на бизнес модели в финансовой сфере Как удаленная идентификация повлияет на бизнес модели в финансовой сфере
Как удаленная идентификация повлияет на бизнес модели в финансовой сфере
 
Как социальные сети влияют на скоринг
Как социальные сети влияют на скоринг Как социальные сети влияют на скоринг
Как социальные сети влияют на скоринг
 
Искусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скорингеИскусственный интеллект в кредитном скоринге
Искусственный интеллект в кредитном скоринге
 
P2P кредитование и народное поручительство
P2P кредитование и народное поручительство P2P кредитование и народное поручительство
P2P кредитование и народное поручительство
 
Francis Bakos, Vitality - FinTech Russia
Francis Bakos, Vitality - FinTech RussiaFrancis Bakos, Vitality - FinTech Russia
Francis Bakos, Vitality - FinTech Russia
 
Руслан Юсуфов, Страхование от кибер-атак - FinTech Russia
Руслан Юсуфов, Страхование от кибер-атак - FinTech RussiaРуслан Юсуфов, Страхование от кибер-атак - FinTech Russia
Руслан Юсуфов, Страхование от кибер-атак - FinTech Russia
 
Алексей Краснопольский, Онлайн-кассы - FinTech Russia
Алексей Краснопольский, Онлайн-кассы - FinTech RussiaАлексей Краснопольский, Онлайн-кассы - FinTech Russia
Алексей Краснопольский, Онлайн-кассы - FinTech Russia
 
Иван Беров, Digital Identity - FinTech Russia
Иван Беров, Digital Identity - FinTech RussiaИван Беров, Digital Identity - FinTech Russia
Иван Беров, Digital Identity - FinTech Russia
 
Алексей Катрич, IoT в InsurTech - FinTech Russia
Алексей Катрич, IoT в InsurTech - FinTech RussiaАлексей Катрич, IoT в InsurTech - FinTech Russia
Алексей Катрич, IoT в InsurTech - FinTech Russia
 
Алексей Архипов, Мастерчейн - FinTech Russia
Алексей Архипов, Мастерчейн  - FinTech RussiaАлексей Архипов, Мастерчейн  - FinTech Russia
Алексей Архипов, Мастерчейн - FinTech Russia
 
Максим Григорьев, Удаленная идентификация - FinTech Russia
Максим Григорьев, Удаленная идентификация - FinTech RussiaМаксим Григорьев, Удаленная идентификация - FinTech Russia
Максим Григорьев, Удаленная идентификация - FinTech Russia
 
Александр Кузьмин, PSD2 - FinTech Russia
Александр Кузьмин, PSD2 - FinTech RussiaАлександр Кузьмин, PSD2 - FinTech Russia
Александр Кузьмин, PSD2 - FinTech Russia
 
Алексей Благирев, "Открытие" — FinTech Russia 2017
Алексей Благирев, "Открытие" — FinTech Russia 2017Алексей Благирев, "Открытие" — FinTech Russia 2017
Алексей Благирев, "Открытие" — FinTech Russia 2017
 
Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017
Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017
Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017
 
Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016
Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016
Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016
 
Анатолий Климчук – ARTOX Media International – ICBDA 2016
Анатолий Климчук – ARTOX Media International – ICBDA 2016Анатолий Климчук – ARTOX Media International – ICBDA 2016
Анатолий Климчук – ARTOX Media International – ICBDA 2016
 
Алексей Смирнов – Актион – ICBDA 2016
Алексей Смирнов – Актион – ICBDA 2016Алексей Смирнов – Актион – ICBDA 2016
Алексей Смирнов – Актион – ICBDA 2016
 
Александр Воронов – BURDA – ICBDA 2016
Александр Воронов – BURDA – ICBDA 2016Александр Воронов – BURDA – ICBDA 2016
Александр Воронов – BURDA – ICBDA 2016
 

Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBDA'15, #1 в рейтинге Kaggle — ICBDA2016

  • 1. Станислав Семёнов ICBDA, 2016 Использование целевой переменной для улучшения прогноза в прикладных задачах анализа данных
  • 2. Кейс  Вам нужно решить стандартную задачу машинного обучения с учителем  У вас уже есть готовый набор с данными, придуманы и построены все признаки, определён наиболее подходящий метод машинного обучения  Можно ли улучшить прогноз не используя новые данные и другие методы машинного обучения?
  • 3. Данные Город Возраст Должность Зарплата Одобрение Санкт- Петербург 25 Программист 100000 1 Обучающая выборка Москва 36 Аналитик 80000 0 Москва 32 Менеджер 150000 1 Волгоград 30 - 10000 0 Новосибирск 42 Водитель 30000 1 Ивановка 35 Продавец 10000 0 … … … … … Уфа 30 Продавец 20000 ? Тестовая выборка Москва 32 Менеджер 120000 ? Москва 50 Директор 250000 ? Новосибирск 40 Разнорабочий - ? … … … … …
  • 4. Использование целевой переменной  Goods – число единиц в каждой группе, Bads – число нулей  𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 = 𝐺𝑜𝑜𝑑𝑠 𝐺𝑜𝑜𝑑𝑠+𝐵𝑎𝑑𝑠 = 𝑚𝑒𝑎𝑛 𝑡𝑎𝑟𝑔𝑒𝑡  𝑊𝑒𝑖𝑔ℎ𝑡 𝑜𝑓 𝐸𝑣𝑖𝑑𝑒𝑛𝑐𝑒 = ln 𝐺𝑜𝑜𝑑𝑠 𝐵𝑎𝑑𝑠 ∗ 100  𝐶𝑜𝑢𝑛𝑡 = 𝐺𝑜𝑜𝑑𝑠 = 𝑠𝑢𝑚(𝑡𝑎𝑟𝑔𝑒𝑡)  𝐷𝑖𝑓𝑓 = 𝐺𝑜𝑜𝑑𝑠 − 𝐵𝑎𝑑𝑠
  • 6. Решение  Для построения признаков каждой строки нельзя использовать целевую переменную этой же строки  Представьте что вы используете любой метод разбивки для кросс-валидации
  • 7. Проблемы  В отличие от обычных признаков, нам нужно их по-разному рассчитывать для обучающей и для тестовой выборки  Могут быть новые значения признаков в тестовой выборке, которые не встречались в обучающей  Может быть разная частота вхождения тех или иных значений признаков в обучающей выборке
  • 8. Решение  𝑆𝑚𝑜𝑜𝑡ℎ𝑒𝑑 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 = 𝑚𝑒𝑎𝑛 𝑡𝑎𝑟𝑔𝑒𝑡 ∗ 𝑛𝑟𝑜𝑤𝑠+𝑔𝑙𝑜𝑏𝑎𝑙𝑚𝑒𝑎𝑛 ∗𝑎𝑙𝑝ℎ𝑎 𝑛𝑟𝑜𝑤𝑠+𝑎𝑙𝑝ℎ𝑎  g𝑙𝑜𝑏𝑎𝑙𝑚𝑒𝑎𝑛 – среднее значение целевой переменной по всей выборке, 𝑎𝑙𝑝ℎ𝑎 – коэффициент регуляризации Город Число строк Likelihood Smoothed Likelihood Москва 100 0.74 0.72 Санкт-Петербург 50 0.66 0.64 Новосибирск 10 0.8 0.67 Ивановка 1 0. 0.57 Уфа 5 1. 0.68 Владивосток 0 - 0.6
  • 9. Непрерывные признаки  Что делать если есть непрерывные признаки? Например: возраст, зарплата. 1. Оставить как есть 2. Создать группы руками (возраст больше 18, зарплата больше 100000, и т.д.) 3. Использовать округление (возраст / 5, зарплата / 20000) 4. Посчитать перцентили для каждого признака
  • 10. Результаты 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 XGBoost RF NN Метрика качества - LogLoss Оригинальные данные Данные с использованием целевой переменной В среднем улучшает результат на 10-15%
  • 11. Плюсы метода  Не нужно использовать много памяти, как в случае с One- Hot-Encoding  Можно добавлять такие признаки сразу по нескольким целевым переменным, находя дополнительные взаимодействия между ними  Метод показывает значительный прирост без использования новых данных  Метод может быть применен автоматически к текущему решению
  • 12. Минусы метода  Сложно валидировать модели - остаётся шанс переобучения  Плохо работает на небольшом количестве данных
  • 13. Область применимости Задачи с большим количеством строк и категориальных признаков: Предсказание CTR, предсказание поведения пользователя в интернете, кредитный скоринг