SlideShare a Scribd company logo
Пилоты HRM:
Общие подходы и краткий обзор результатов
Управление инструментов и моделей
Департамента интегрированного риск-менеджмента, Сбербанк
ЦК исследований и разработки моделей, СберТех
2
Особенности моделей HRM
1. В большом количестве развитых стран существуют законы, направленные на борьбу с расовой,
религиозной, половой и возрастной дискриминацией. Подобные законы затрагивают не только
вопросы HRM (управление персоналом), но и такие сферы как розничное кредитование (напр.,
ECOA в США, Закон о равных кредитных возможностях, от 1974 г.). В общем случае такие законы
предъявляют требования к интерпретируемости моделей
2. В настоящее время, в связи с бурным развитием ML-технологий, в ряде юрисдикций
принимаются законы, направленные на регулирование защиты персональной информации (см
.например, GDPR, General Data Protection Regulation), при этом акценты постепенно смещаются
с вопросов сбора, хранения и обработки данных, на вопрос принятия решения в широком круге
задач (инициативы типа European Union regulations on algorithmic decision-making). Ключевое
требование этих инициатив – интерпретируемость моделей (“right to explanation”)
Корпорации, действующие в нескольких юрисдикциях, из-за особенностей международного
корпоративного права и бизнес-соображений, вынуждены вырабатывать общие подходы (в том
числе в моделировании), которые легко тиражировать
3
Проблемы разработки интерпретируемых моделей. Часть 1
Существует лишь два класса моделей, позволяющих создавать интерпретируемые модели:
регрессионные подходы и деревья решений. Каждый из них имеет свои преимущества и недостатки.
Деревья решений Регрессионные подходы
(параметрические)
Способ решения проблемы при использовании
регрессионных подходов
Более эффективны, когда
взаимосвязь между
предиктором и зависимой
переменной является
нелинейной
Более эффективны, если связь носит
линейный характер
Конструирование сложных признаков,
построение моделей на основе WOE, а не
исходных переменных (При конструировании
сложных признаков и при дискретизации
признаков на основе WOE часто используются
деревья решений)
Эффективны в задачах, где есть
взаимодействие высоких
порядков
Не позволяют выявить факт такого
взаимодействия, если аналитик не
решит проверить такую гипотезу,
создав соответствующие признаки, или
не проведет разведочный анализ с
использованием других методов
анализа
Использование кроссов и/или сплайнов (если
использования WOE недостаточно для учета
нелинейности взаимодействия). Примечание: в
задачах HRM, СRM, кредитного скоринга
требуется очень редко, но часто необходимо в
биомедицинских задачах
4
Проблемы разработки интерпретируемых моделей. Часть 2
Деревья решений Регрессионные подходы
(параметрические)
Способ решения проблемы при использовании регрессионных
подходов
Эффективнее, если есть
большое количество
коррелированных
переменных
Методы пошаговой
регрессии эффективно
работают, пока задача
хорошо обусловлена (в
частности, если низкий VIF)
Отказ от отбора переменных с помощью пошаговых методов:
отбор переменных с помощью Random Forest по Variable
Importance плюс использование L2-регуляризации при
определении весов, использование L1-регуляризации или Elastic
Net, позволяющих отбирать переменные и т.д. (есть несколько
подходов, дающих практически идентичное качество)
Эффективно справляются
с задачами, где
сравнительно много
аномальных значений
Зависит от метода (наиболее
чувствительны к выбросам
методы, использующие
МНК)
Использование робастных регрессионных методов (логрегрессия),
построение моделей на основе WOE, а не исходных переменных,
использование эвристик типа "logical WOE"
Наглядны, но модель
обычно нельзя выразить в
виде простого
решающего правила
Менее наглядны, но легко
интерпретируются, модель
можно выразить в виде
простого решающего
правила (легко внедрять,
легко тестировать, легко
проверять соответствие
предметной экспертизе)
При внедрении аналитики в операционный контур регрессионные
подходы предпочтительнее, если невозможно обеспечить
бесшовное внедрение. Однако деревья решений могут быть
очень ценны в некоторых задачах разведочного анализа, где
ценна именно наглядность
5
Проблемы разработки интерпретируемых моделей. Часть 3
Деревья решений Регрессионные подходы
(параметрические)
Способ решения проблемы при использовании
регрессионных подходов
Хорошо справляются с задачами,
где переменные имеют
несимметричные распределения
Могут быть
чувствительны к
выполнению
предпосылок
регрессионных методов
В зависимости от задачи - предварительное
преобразование переменных, имеющих тяжелые
хвосты (логарифмирование, извлечение
кубического корня или более сложная
трансформация), использование ансамбля из
дерева решения и логрегрессии (в задачах с U-
образным распределением) и т.п.
Чувствительны, но нестабильны (в
CHAID выбор разбиения при
расщеплении узла делается в
пользу переменных, у которых
большее количество уровней и
т.д.), склонны к переобучению (RF
решает проблему переобучения,
но делает модель практически
неинтерпретируемой)
Логрегрессия отличается
меньшей
чувствительностью, но
высокой робастностью
В задачах с большим окном созревания (perfomance
window), где зависимости могут меняться за время
наблюдения, регрессионные методы, как правило,
предпочтительнее (задачи HRM, кредитный скоринг,
актуарные задачи, биомедицинские задачи). При
использовании чувствительных подходов есть риск,
что будет найдена зависимость, которая была когда-
то в прошлом, но никогда не повторится в будущем
Кейс 1. Благонадежность кандидатов –
борьба с внутренним фродом
7
Постановка задачи:
Разработать статистическую модель оценки риска благонадёжности кандидатов массовых
специальностей для регулярного использования на этапе подбора персонала на основе данных HR,
внутренних данных банка (риски) и данных из внешних источников.
Два определения целевой переменной:
Базовое определение : увольнение по факту совершения
мошеннических действий, либо факт увольнения по инициативе
работодателя по статьям, отражающим неблагонадёжность сотрудника
· – нарушение правил указанных в ТД
· – неоднократное неисполнение трудовых обязанностей
· – разглашение тайны
· – хищение или уничтожение чужого имущества
· – нарушения, повлёкшие тяжёлые последствия
· – утрата доверия
· – нанесение ущерба имуществу
· – однократное грубое нарушение трудовых обязанностей
· – предоставление ложных сведений
· – по приговору суда
· – дисквалификация, административное наказание
Расширенное определение:
кейсы казуального фрода персонала.
(навязывание услуг, подключение
автоплатежа без ведома клиента и т.д.)
При разработке модели на
внутренних данных подтвердилась
гипотеза о том, что профили риска
(в части социально-
демографических факторов) по
расширенному определению
мошенничества совпадают с
профилями по более серьёзным
случаям, приводящим к увольнению.
!
8
Доступные данные:
Данные кадровой
учетной системы
Данные внутренней и внешней
кредитной истории
Данные Кредитной
Фабрики
2. Некоторые данные кадровой учетной системы (проблемы с выгрузкой данных)
3. Данные, на обработку которых кандидаты не давали согласия на момент устройства
на работу
В моделях нельзя было использовать:
!
1. Данные по результатам психологического тестирования кандидатов.
(тестирование в новом формате было запущено сравнительно недавно)
9
Основные результаты:
• Удалось разработать модель стабильно
хорошего качества (коэффициент Джини до
50 в зависимости от определения
мошенничества).
• Удалось обеспечить улучшение (~12 ед.
Джини) модели выявления «базового» фрода
за счёт использования дополнительных
внешних данных (бюро). На графике
красным (Джини ~ 47) обозначена модель
базового фрода на внутренних данных,
синим (Джини ~ 40) - модель на данных
Бюро и зеленым (Джини ~ 59) интегральная
модель.
№ Выборка
Определение
фрода
Коэффициент
Джини
2 Тестовая Расширенное 50.4
4 Тестовая Базовое 47.2
10
Качество модели на внутренних данных – детально:
Доля
клиентов
с низким
баллом
Доля фрода по
базовому
определению
Доля фрода по
расширенному
определению
5% 19.0% 16.9%
10% 31.9% 28.3%
15% 39.9% 41.1%
20% 42.9% 45.9%
25% 52.1% 57.2%
30% 56.4% 62.3%
35% 59.5% 67.5%
40% 65.0% 70.9%
45% 69.3% 77.2%
50% 71.2% 79.0%
Отказав в приеме на работу всего 5 % кандидатов с наиболее низкой оценкой благонадежности, можно
избавиться от 17-20% потенциальных мошенников. Отказав 10% - от 30% потенциальных фродстеров.
(Использование данных бюро несколько улучшает оценку, но на порядок величин влияния не оказывает)
11
1. Вероятность мошенничества персонала значимо не коррелирует с внутренней кредитной истории СБРФ:
потенциальные мошенники не портят отношения с банком ДО устройства на работу.
2. Внешняя кредитная история оказалась существенной для выявления серьезного мошенничества (базовое
определение фрода), но не позволяет улучшить модель выявления менее серьезных нарушений
(расширенное определение фрода). При этом в модель благонадежности персонала вошли агрегаты КИ,
которые НЕ входят в модели БКИ, применяющиеся в кредитном процессе.
Связь есть – но другая. Для оценки благонадежности персонала требуется разрабатывать отдельные
модели.
3. Анализ вошедших в модель благонадежности данных внешней кредитной истории указывает,
что на благонадежность персонала могут влиять факторы, которые можно назвать «способность
потенциального сотрудника жить по средствам» или «финансовая дисциплина» : отсутствие серьезных
просрочек, длительный опыт выплаты кредитов, имеющийся на момент трудоустройства, способность
контролировать собственную кредитную нагрузку и т.д.. Возможно, такие качества можно выявлять в
ходе тестирования при приеме на работу (отношение к отложенному вознаграждению, модель
потребления и т.д.)
Немного о частных результатах (часть 1):
12
4. Вероятность мошенничества персонала при массовом подборе ПОВЫШАЕТСЯ при повышении дохода.
Дело в том, что наименее оплачиваемый (низовой) персонал просто технически не имеет возможности
совершать серьезные виды мошенничества, это следует учитывать при внедрении технологии и стоит
исследовать отдельно. Есть также веские основания полагать, что на мошенничество людей толкает
скорее стремление к «красивой жизни», чем нужда (также с учетом п.3).
5. Модель кредитного антифрод (FDC) не позволяет улучшить модель благонадежности кандидата.
Еще раз акцентируем внимание, что для оценки благонадежности персонала требуется разрабатывать
отдельные модели, т.к. на вероятность мошенничества сотрудников влияют иные факторы, чем в
кредитовании.
6. Остальные результаты сравнительно тривиальны: зрелые люди реже идут на мошенничество, чем
молодежь, семейные и вдовые люди более благонадежны, наличие большого стажа по профессии
положительно характеризует кандидатов, специалисты, которые устраиваются на почасовую оплату
менее надежны, чем те, кто устраивается работать по постоянному контракту. Все это верно и для
базового и для расширенного определения мошенничества.
Немного о частных результатах (часть 2):
Кейс 2. Выявление факторов, влияющих на
эффективность подразделений
центрального аппарата банка
14
Постановка задачи, доступные данные, результат
Задача: исследовать, как атрибуты сотрудников подразделения влияют на эффективность
подразделения
Источники данных: данные кадровой системы SAP (анкетные данные, отпуска и т.д.), данные о
трудовой дисциплине, результаты анкетирования, данные Скоринговой Платформы
Целевая переменная: эффективность подразделения. Определялась через оценку руководителя
подразделения
Модель строилась на данных первых трех кварталов 2015 года (25360 записей, 1027 «плохих)» и
тестировалась на данных 4 кв. 2015 и 1 кв. 2016 (19708 записей, 1156 «плохих») - из-за проблем с
качеством данных применялся подход, подобный технике oversampling. Часть данных
анализировалась отдельно с использованием непараметрических статистик с поправками на малое
количества наблюдений
Удалось разработать стабильную модель среднего качества (Gini 0,3). Примечание: для проведения
тонкого анализа переменная Блок исключалась, так как этот фактор сам по себе хорошо определяет
исход (качество порядка 0,5).
15
Некоторые результаты интерпретации модели
1. Крайне негативно влияют на результативность подразделения значительные переработки
(свыше 11 часов) сотрудников. Вероятно, это ранний индикатор проблем, связанных с
системными просчетами при реализации критичных проектов и инициатив или попытками
решить задачи, для которых в подразделении отсутствуют компетенции или ресурсы. Для того,
чтобы исключить вариант «точечная нехватка ресурсов в небольшом подразделении ухудшает
оценку» строилась отдельная модель на данных, из которых были исключены руководители
низового звена (менее 12 подчиненных). Переменная оставалась значимой и в таком случае.
2. Негативно сказывается на работе подразделения наличие работников, имеющих стаж в СБРФ
менее семи месяцев - сотрудникам требуется время, чтобы войти в курс дел и т.д. Наиболее
эффективны сотрудники в первые 3 года, затем результативность снижается (интересно, что
принцип UP or OUT в некоторых западных компаниях также оперирует границей в 3 года).
Причины этого (потеря мотивации, увольнение людей, которые не видят для себя перспективы)
требуется выяснять отдельно. Высокую эффективность показывают также люди,
проработавшие в аппарате более 18 лет. Предположительно, очень высокая текучка или
взрывной рост численности подразделения в короткие сроки может иметь негативные
последствия для эффективности подразделения. Также важно соблюдать баланс между
наличием кадрового ядра и обновлением/ротацией персонала.
16
Некоторые результаты интерпретации модели 2
3. Положительно на эффективность работы подразделение сказывается наличие у сотрудников
ипотеки, если выплаты по ипотечному кредиту составляют значительную часть его дохода.
Вероятно, в этом случае сотрудники сильнее опасаются потерять работу.
4. Негативно сказываются на работе подразделения длительные отпуски (свыше 16 дней)
сотрудников (аппарата). По видимому, либо за время длительного отсутствия ключевых
специалистов происходят какие-то негативные события и отсутствие этих сотрудников
приводит к неэффективному решению возникших вопросов, либо специалистам потом
труднее вернуться в рабочий график. Необходимо исследовать отдельно.
5. Негативно сказывается на работе подразделения наличие в нем сотрудников, которые часто
отсутствуют на работе (менее 54 отработанных дней за квартал). Необходимо исследовать
отдельно.

More Related Content

Viewers also liked

TalentHunting
TalentHuntingTalentHunting
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
RTC
 
Роли и задачи HR в работе IT-компаний
Роли и задачи HR в работе IT-компанийРоли и задачи HR в работе IT-компаний
Роли и задачи HR в работе IT-компаний
Tech Talks @NSU
 
Рекомендательный рекрутинг 2.0 (employee referral program)
Рекомендательный рекрутинг 2.0 (employee referral program)Рекомендательный рекрутинг 2.0 (employee referral program)
Рекомендательный рекрутинг 2.0 (employee referral program)
Олег Шатковский
 
Оценка эффективности рекрутинга. Топилина Ирина.
Оценка эффективности рекрутинга. Топилина Ирина.Оценка эффективности рекрутинга. Топилина Ирина.
Оценка эффективности рекрутинга. Топилина Ирина.
IT-Доминанта
 
Реферальные технологии в HR
Реферальные технологии в HRРеферальные технологии в HR
Реферальные технологии в HR
Олег Шатковский
 
Конструктивная обратная связь
Конструктивная обратная связьКонструктивная обратная связь
Конструктивная обратная связь
Maria Makarova
 
Вирусный рекрутинг в GoIT
Вирусный рекрутинг в GoITВирусный рекрутинг в GoIT
Вирусный рекрутинг в GoIT
GoIT
 
10 способов помешать себе закрыть вакансию
10 способов помешать себе закрыть вакансию10 способов помешать себе закрыть вакансию
10 способов помешать себе закрыть вакансию
Maria Makarova
 
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.Kate Potyomkina
 
HR инструменты для руководителя компании/проекта
HR инструменты для руководителя компании/проектаHR инструменты для руководителя компании/проекта
HR инструменты для руководителя компании/проекта
Pavel Obod
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Newprolab
 
Позиционирование работодателя
Позиционирование работодателяПозиционирование работодателя
Позиционирование работодателяMaria Makarova
 
Легенды и мифы вашей компании
Легенды и мифы вашей компанииЛегенды и мифы вашей компании
Легенды и мифы вашей компании
Maria Makarova
 
Позиционирование работодателя (для выступления)
Позиционирование работодателя (для выступления)Позиционирование работодателя (для выступления)
Позиционирование работодателя (для выступления)
Maria Makarova
 
А кем будете вы?
А кем будете вы?А кем будете вы?
А кем будете вы?
Maria Makarova
 

Viewers also liked (18)

TalentHunting
TalentHuntingTalentHunting
TalentHunting
 
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
HR-IT'2013. Леся Бобык. Доклад "Компенсационные пазлы в It"
 
Роли и задачи HR в работе IT-компаний
Роли и задачи HR в работе IT-компанийРоли и задачи HR в работе IT-компаний
Роли и задачи HR в работе IT-компаний
 
Рекомендательный рекрутинг 2.0 (employee referral program)
Рекомендательный рекрутинг 2.0 (employee referral program)Рекомендательный рекрутинг 2.0 (employee referral program)
Рекомендательный рекрутинг 2.0 (employee referral program)
 
Оценка эффективности рекрутинга. Топилина Ирина.
Оценка эффективности рекрутинга. Топилина Ирина.Оценка эффективности рекрутинга. Топилина Ирина.
Оценка эффективности рекрутинга. Топилина Ирина.
 
Hex it v.2.0_ua
Hex it v.2.0_uaHex it v.2.0_ua
Hex it v.2.0_ua
 
Реферальные технологии в HR
Реферальные технологии в HRРеферальные технологии в HR
Реферальные технологии в HR
 
Конструктивная обратная связь
Конструктивная обратная связьКонструктивная обратная связь
Конструктивная обратная связь
 
Вирусный рекрутинг в GoIT
Вирусный рекрутинг в GoITВирусный рекрутинг в GoIT
Вирусный рекрутинг в GoIT
 
10 способов помешать себе закрыть вакансию
10 способов помешать себе закрыть вакансию10 способов помешать себе закрыть вакансию
10 способов помешать себе закрыть вакансию
 
Первые шаги
Первые шагиПервые шаги
Первые шаги
 
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.
ПОДБОР ПЕРСОНАЛА НА ВЫЖИВАНИЕ 1.0.
 
HR инструменты для руководителя компании/проекта
HR инструменты для руководителя компании/проектаHR инструменты для руководителя компании/проекта
HR инструменты для руководителя компании/проекта
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
 
Позиционирование работодателя
Позиционирование работодателяПозиционирование работодателя
Позиционирование работодателя
 
Легенды и мифы вашей компании
Легенды и мифы вашей компанииЛегенды и мифы вашей компании
Легенды и мифы вашей компании
 
Позиционирование работодателя (для выступления)
Позиционирование работодателя (для выступления)Позиционирование работодателя (для выступления)
Позиционирование работодателя (для выступления)
 
А кем будете вы?
А кем будете вы?А кем будете вы?
А кем будете вы?
 

Similar to Автоматизация подбора: оценка кандидатов с использованием методов машинного обучения

СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
Ольга Кракашова
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
WG_ Events
 
Webinar_FORMATTA_Turn-the-scale (rus)
Webinar_FORMATTA_Turn-the-scale (rus)Webinar_FORMATTA_Turn-the-scale (rus)
Webinar_FORMATTA_Turn-the-scale (rus)
FORMATTA
 
Эффективная оценка кредитоспособности
Эффективная оценка кредитоспособностиЭффективная оценка кредитоспособности
Эффективная оценка кредитоспособностиАртем Ковтун
 
Борис Фадичев, Relation rate: Анализ данных социальных сетей
 Борис Фадичев,  Relation rate: Анализ данных социальных сетей Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Борис Фадичев, Relation rate: Анализ данных социальных сетей
web2win
 
современные тенденции на рынке Hr аналитики
современные тенденции на рынке  Hr аналитикисовременные тенденции на рынке  Hr аналитики
современные тенденции на рынке Hr аналитики
Edward Babushkin
 
10 ключевых трендов в мировом hr
10 ключевых трендов в мировом hr10 ключевых трендов в мировом hr
10 ключевых трендов в мировом hrEdward Babushkin
 
Системы оценки персонала
Системы оценки персоналаСистемы оценки персонала
Системы оценки персонала
Yevgen Tkachenko
 
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
RISClubSPb
 
Управление элементами оборотных активов
Управление элементами оборотных активовУправление элементами оборотных активов
Управление элементами оборотных активов
Нижегородский институт управления
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организацииAlexey Fedorischev
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE
 
Мотивация персонала с применением метода грейдирования
Мотивация персонала с применением метода грейдированияМотивация персонала с применением метода грейдирования
Мотивация персонала с применением метода грейдирования
HRedu.ru
 
White paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом сектореWhite paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом секторе
МФИ Софт
 
White paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом сектореWhite paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом секторе
МФИ Софт
 
получение знаний о поведении абонентов
получение знаний о поведении абонентовполучение знаний о поведении абонентов
получение знаний о поведении абонентов
Fedor Krasnov
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
Serge Terekhov
 
Ot usability-k-analizu-digital-consumer-experience
Ot usability-k-analizu-digital-consumer-experienceOt usability-k-analizu-digital-consumer-experience
Ot usability-k-analizu-digital-consumer-experienceYanina Trofimenko
 

Similar to Автоматизация подбора: оценка кандидатов с использованием методов машинного обучения (20)

СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ АПРИОРНОЙ ОЦЕНКИ РИСКОВ ФИНАНСОВЫХ ИНСТИТУТОВ, ...
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
 
Webinar_FORMATTA_Turn-the-scale (rus)
Webinar_FORMATTA_Turn-the-scale (rus)Webinar_FORMATTA_Turn-the-scale (rus)
Webinar_FORMATTA_Turn-the-scale (rus)
 
Эффективная оценка кредитоспособности
Эффективная оценка кредитоспособностиЭффективная оценка кредитоспособности
Эффективная оценка кредитоспособности
 
Ковтун
КовтунКовтун
Ковтун
 
Борис Фадичев, Relation rate: Анализ данных социальных сетей
 Борис Фадичев,  Relation rate: Анализ данных социальных сетей Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Борис Фадичев, Relation rate: Анализ данных социальных сетей
 
современные тенденции на рынке Hr аналитики
современные тенденции на рынке  Hr аналитикисовременные тенденции на рынке  Hr аналитики
современные тенденции на рынке Hr аналитики
 
10 ключевых трендов в мировом hr
10 ключевых трендов в мировом hr10 ключевых трендов в мировом hr
10 ключевых трендов в мировом hr
 
Системы оценки персонала
Системы оценки персоналаСистемы оценки персонала
Системы оценки персонала
 
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
Проблемы взаимодействия ИБ и ИТ департаментов: взгляд со стороны ИБ/очный сем...
 
Управление элементами оборотных активов
Управление элементами оборотных активовУправление элементами оборотных активов
Управление элементами оборотных активов
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организации
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Мотивация персонала с применением метода грейдирования
Мотивация персонала с применением метода грейдированияМотивация персонала с применением метода грейдирования
Мотивация персонала с применением метода грейдирования
 
White paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом сектореWhite paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом секторе
 
White paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом сектореWhite paper: Защита информации в финансовом секторе
White paper: Защита информации в финансовом секторе
 
получение знаний о поведении абонентов
получение знаний о поведении абонентовполучение знаний о поведении абонентов
получение знаний о поведении абонентов
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Ot usability-k-analizu-digital-consumer-experience
Ot usability-k-analizu-digital-consumer-experienceOt usability-k-analizu-digital-consumer-experience
Ot usability-k-analizu-digital-consumer-experience
 

Автоматизация подбора: оценка кандидатов с использованием методов машинного обучения

  • 1. Пилоты HRM: Общие подходы и краткий обзор результатов Управление инструментов и моделей Департамента интегрированного риск-менеджмента, Сбербанк ЦК исследований и разработки моделей, СберТех
  • 2. 2 Особенности моделей HRM 1. В большом количестве развитых стран существуют законы, направленные на борьбу с расовой, религиозной, половой и возрастной дискриминацией. Подобные законы затрагивают не только вопросы HRM (управление персоналом), но и такие сферы как розничное кредитование (напр., ECOA в США, Закон о равных кредитных возможностях, от 1974 г.). В общем случае такие законы предъявляют требования к интерпретируемости моделей 2. В настоящее время, в связи с бурным развитием ML-технологий, в ряде юрисдикций принимаются законы, направленные на регулирование защиты персональной информации (см .например, GDPR, General Data Protection Regulation), при этом акценты постепенно смещаются с вопросов сбора, хранения и обработки данных, на вопрос принятия решения в широком круге задач (инициативы типа European Union regulations on algorithmic decision-making). Ключевое требование этих инициатив – интерпретируемость моделей (“right to explanation”) Корпорации, действующие в нескольких юрисдикциях, из-за особенностей международного корпоративного права и бизнес-соображений, вынуждены вырабатывать общие подходы (в том числе в моделировании), которые легко тиражировать
  • 3. 3 Проблемы разработки интерпретируемых моделей. Часть 1 Существует лишь два класса моделей, позволяющих создавать интерпретируемые модели: регрессионные подходы и деревья решений. Каждый из них имеет свои преимущества и недостатки. Деревья решений Регрессионные подходы (параметрические) Способ решения проблемы при использовании регрессионных подходов Более эффективны, когда взаимосвязь между предиктором и зависимой переменной является нелинейной Более эффективны, если связь носит линейный характер Конструирование сложных признаков, построение моделей на основе WOE, а не исходных переменных (При конструировании сложных признаков и при дискретизации признаков на основе WOE часто используются деревья решений) Эффективны в задачах, где есть взаимодействие высоких порядков Не позволяют выявить факт такого взаимодействия, если аналитик не решит проверить такую гипотезу, создав соответствующие признаки, или не проведет разведочный анализ с использованием других методов анализа Использование кроссов и/или сплайнов (если использования WOE недостаточно для учета нелинейности взаимодействия). Примечание: в задачах HRM, СRM, кредитного скоринга требуется очень редко, но часто необходимо в биомедицинских задачах
  • 4. 4 Проблемы разработки интерпретируемых моделей. Часть 2 Деревья решений Регрессионные подходы (параметрические) Способ решения проблемы при использовании регрессионных подходов Эффективнее, если есть большое количество коррелированных переменных Методы пошаговой регрессии эффективно работают, пока задача хорошо обусловлена (в частности, если низкий VIF) Отказ от отбора переменных с помощью пошаговых методов: отбор переменных с помощью Random Forest по Variable Importance плюс использование L2-регуляризации при определении весов, использование L1-регуляризации или Elastic Net, позволяющих отбирать переменные и т.д. (есть несколько подходов, дающих практически идентичное качество) Эффективно справляются с задачами, где сравнительно много аномальных значений Зависит от метода (наиболее чувствительны к выбросам методы, использующие МНК) Использование робастных регрессионных методов (логрегрессия), построение моделей на основе WOE, а не исходных переменных, использование эвристик типа "logical WOE" Наглядны, но модель обычно нельзя выразить в виде простого решающего правила Менее наглядны, но легко интерпретируются, модель можно выразить в виде простого решающего правила (легко внедрять, легко тестировать, легко проверять соответствие предметной экспертизе) При внедрении аналитики в операционный контур регрессионные подходы предпочтительнее, если невозможно обеспечить бесшовное внедрение. Однако деревья решений могут быть очень ценны в некоторых задачах разведочного анализа, где ценна именно наглядность
  • 5. 5 Проблемы разработки интерпретируемых моделей. Часть 3 Деревья решений Регрессионные подходы (параметрические) Способ решения проблемы при использовании регрессионных подходов Хорошо справляются с задачами, где переменные имеют несимметричные распределения Могут быть чувствительны к выполнению предпосылок регрессионных методов В зависимости от задачи - предварительное преобразование переменных, имеющих тяжелые хвосты (логарифмирование, извлечение кубического корня или более сложная трансформация), использование ансамбля из дерева решения и логрегрессии (в задачах с U- образным распределением) и т.п. Чувствительны, но нестабильны (в CHAID выбор разбиения при расщеплении узла делается в пользу переменных, у которых большее количество уровней и т.д.), склонны к переобучению (RF решает проблему переобучения, но делает модель практически неинтерпретируемой) Логрегрессия отличается меньшей чувствительностью, но высокой робастностью В задачах с большим окном созревания (perfomance window), где зависимости могут меняться за время наблюдения, регрессионные методы, как правило, предпочтительнее (задачи HRM, кредитный скоринг, актуарные задачи, биомедицинские задачи). При использовании чувствительных подходов есть риск, что будет найдена зависимость, которая была когда- то в прошлом, но никогда не повторится в будущем
  • 6. Кейс 1. Благонадежность кандидатов – борьба с внутренним фродом
  • 7. 7 Постановка задачи: Разработать статистическую модель оценки риска благонадёжности кандидатов массовых специальностей для регулярного использования на этапе подбора персонала на основе данных HR, внутренних данных банка (риски) и данных из внешних источников. Два определения целевой переменной: Базовое определение : увольнение по факту совершения мошеннических действий, либо факт увольнения по инициативе работодателя по статьям, отражающим неблагонадёжность сотрудника · – нарушение правил указанных в ТД · – неоднократное неисполнение трудовых обязанностей · – разглашение тайны · – хищение или уничтожение чужого имущества · – нарушения, повлёкшие тяжёлые последствия · – утрата доверия · – нанесение ущерба имуществу · – однократное грубое нарушение трудовых обязанностей · – предоставление ложных сведений · – по приговору суда · – дисквалификация, административное наказание Расширенное определение: кейсы казуального фрода персонала. (навязывание услуг, подключение автоплатежа без ведома клиента и т.д.) При разработке модели на внутренних данных подтвердилась гипотеза о том, что профили риска (в части социально- демографических факторов) по расширенному определению мошенничества совпадают с профилями по более серьёзным случаям, приводящим к увольнению. !
  • 8. 8 Доступные данные: Данные кадровой учетной системы Данные внутренней и внешней кредитной истории Данные Кредитной Фабрики 2. Некоторые данные кадровой учетной системы (проблемы с выгрузкой данных) 3. Данные, на обработку которых кандидаты не давали согласия на момент устройства на работу В моделях нельзя было использовать: ! 1. Данные по результатам психологического тестирования кандидатов. (тестирование в новом формате было запущено сравнительно недавно)
  • 9. 9 Основные результаты: • Удалось разработать модель стабильно хорошего качества (коэффициент Джини до 50 в зависимости от определения мошенничества). • Удалось обеспечить улучшение (~12 ед. Джини) модели выявления «базового» фрода за счёт использования дополнительных внешних данных (бюро). На графике красным (Джини ~ 47) обозначена модель базового фрода на внутренних данных, синим (Джини ~ 40) - модель на данных Бюро и зеленым (Джини ~ 59) интегральная модель. № Выборка Определение фрода Коэффициент Джини 2 Тестовая Расширенное 50.4 4 Тестовая Базовое 47.2
  • 10. 10 Качество модели на внутренних данных – детально: Доля клиентов с низким баллом Доля фрода по базовому определению Доля фрода по расширенному определению 5% 19.0% 16.9% 10% 31.9% 28.3% 15% 39.9% 41.1% 20% 42.9% 45.9% 25% 52.1% 57.2% 30% 56.4% 62.3% 35% 59.5% 67.5% 40% 65.0% 70.9% 45% 69.3% 77.2% 50% 71.2% 79.0% Отказав в приеме на работу всего 5 % кандидатов с наиболее низкой оценкой благонадежности, можно избавиться от 17-20% потенциальных мошенников. Отказав 10% - от 30% потенциальных фродстеров. (Использование данных бюро несколько улучшает оценку, но на порядок величин влияния не оказывает)
  • 11. 11 1. Вероятность мошенничества персонала значимо не коррелирует с внутренней кредитной истории СБРФ: потенциальные мошенники не портят отношения с банком ДО устройства на работу. 2. Внешняя кредитная история оказалась существенной для выявления серьезного мошенничества (базовое определение фрода), но не позволяет улучшить модель выявления менее серьезных нарушений (расширенное определение фрода). При этом в модель благонадежности персонала вошли агрегаты КИ, которые НЕ входят в модели БКИ, применяющиеся в кредитном процессе. Связь есть – но другая. Для оценки благонадежности персонала требуется разрабатывать отдельные модели. 3. Анализ вошедших в модель благонадежности данных внешней кредитной истории указывает, что на благонадежность персонала могут влиять факторы, которые можно назвать «способность потенциального сотрудника жить по средствам» или «финансовая дисциплина» : отсутствие серьезных просрочек, длительный опыт выплаты кредитов, имеющийся на момент трудоустройства, способность контролировать собственную кредитную нагрузку и т.д.. Возможно, такие качества можно выявлять в ходе тестирования при приеме на работу (отношение к отложенному вознаграждению, модель потребления и т.д.) Немного о частных результатах (часть 1):
  • 12. 12 4. Вероятность мошенничества персонала при массовом подборе ПОВЫШАЕТСЯ при повышении дохода. Дело в том, что наименее оплачиваемый (низовой) персонал просто технически не имеет возможности совершать серьезные виды мошенничества, это следует учитывать при внедрении технологии и стоит исследовать отдельно. Есть также веские основания полагать, что на мошенничество людей толкает скорее стремление к «красивой жизни», чем нужда (также с учетом п.3). 5. Модель кредитного антифрод (FDC) не позволяет улучшить модель благонадежности кандидата. Еще раз акцентируем внимание, что для оценки благонадежности персонала требуется разрабатывать отдельные модели, т.к. на вероятность мошенничества сотрудников влияют иные факторы, чем в кредитовании. 6. Остальные результаты сравнительно тривиальны: зрелые люди реже идут на мошенничество, чем молодежь, семейные и вдовые люди более благонадежны, наличие большого стажа по профессии положительно характеризует кандидатов, специалисты, которые устраиваются на почасовую оплату менее надежны, чем те, кто устраивается работать по постоянному контракту. Все это верно и для базового и для расширенного определения мошенничества. Немного о частных результатах (часть 2):
  • 13. Кейс 2. Выявление факторов, влияющих на эффективность подразделений центрального аппарата банка
  • 14. 14 Постановка задачи, доступные данные, результат Задача: исследовать, как атрибуты сотрудников подразделения влияют на эффективность подразделения Источники данных: данные кадровой системы SAP (анкетные данные, отпуска и т.д.), данные о трудовой дисциплине, результаты анкетирования, данные Скоринговой Платформы Целевая переменная: эффективность подразделения. Определялась через оценку руководителя подразделения Модель строилась на данных первых трех кварталов 2015 года (25360 записей, 1027 «плохих)» и тестировалась на данных 4 кв. 2015 и 1 кв. 2016 (19708 записей, 1156 «плохих») - из-за проблем с качеством данных применялся подход, подобный технике oversampling. Часть данных анализировалась отдельно с использованием непараметрических статистик с поправками на малое количества наблюдений Удалось разработать стабильную модель среднего качества (Gini 0,3). Примечание: для проведения тонкого анализа переменная Блок исключалась, так как этот фактор сам по себе хорошо определяет исход (качество порядка 0,5).
  • 15. 15 Некоторые результаты интерпретации модели 1. Крайне негативно влияют на результативность подразделения значительные переработки (свыше 11 часов) сотрудников. Вероятно, это ранний индикатор проблем, связанных с системными просчетами при реализации критичных проектов и инициатив или попытками решить задачи, для которых в подразделении отсутствуют компетенции или ресурсы. Для того, чтобы исключить вариант «точечная нехватка ресурсов в небольшом подразделении ухудшает оценку» строилась отдельная модель на данных, из которых были исключены руководители низового звена (менее 12 подчиненных). Переменная оставалась значимой и в таком случае. 2. Негативно сказывается на работе подразделения наличие работников, имеющих стаж в СБРФ менее семи месяцев - сотрудникам требуется время, чтобы войти в курс дел и т.д. Наиболее эффективны сотрудники в первые 3 года, затем результативность снижается (интересно, что принцип UP or OUT в некоторых западных компаниях также оперирует границей в 3 года). Причины этого (потеря мотивации, увольнение людей, которые не видят для себя перспективы) требуется выяснять отдельно. Высокую эффективность показывают также люди, проработавшие в аппарате более 18 лет. Предположительно, очень высокая текучка или взрывной рост численности подразделения в короткие сроки может иметь негативные последствия для эффективности подразделения. Также важно соблюдать баланс между наличием кадрового ядра и обновлением/ротацией персонала.
  • 16. 16 Некоторые результаты интерпретации модели 2 3. Положительно на эффективность работы подразделение сказывается наличие у сотрудников ипотеки, если выплаты по ипотечному кредиту составляют значительную часть его дохода. Вероятно, в этом случае сотрудники сильнее опасаются потерять работу. 4. Негативно сказываются на работе подразделения длительные отпуски (свыше 16 дней) сотрудников (аппарата). По видимому, либо за время длительного отсутствия ключевых специалистов происходят какие-то негативные события и отсутствие этих сотрудников приводит к неэффективному решению возникших вопросов, либо специалистам потом труднее вернуться в рабочий график. Необходимо исследовать отдельно. 5. Негативно сказывается на работе подразделения наличие в нем сотрудников, которые часто отсутствуют на работе (менее 54 отработанных дней за квартал). Необходимо исследовать отдельно.