ДИПЛОМНЫЙ ПРОЕКТ
на тему
«Разработка программно-математического комплекса поддержки скоринга востребования»
Выполнил: Царьков Юрий Александрович Руководитель: Мельников Алексей Олегович
2013 Разработка программно-математического комплекса поддержки скоринга востребования
1. МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ПРИБОРОСТРОЕНИЯ И ИНФОРМАТИКИ
Кафедра ИТ6 «Управление и моделирование систем»
ДИПЛОМНЫЙ ПРОЕКТ
на тему
«Разработка программно-математического комплекса
поддержки скоринга востребования»
Выполнил:
Руководитель:
Царьков Юрий Александрович
Мельников Алексей Олегович
Москва, 2013
2. Скоринг
(от англ.
score - счет)
Кредитный
система оценки заемщика, основанная на
численных статистических методах
оценка кредитоспособности заемщика при
выдаче кредита
Мошенничеств
а
оценка вероятности мошеннических действий
со стороны потенциального заемщика
Поведенческий
анализ кредитной истории с целью изменения
стратегии взаимодействия с заемщиком
Востребования
анализ информации о заемщике с целью
возврата просроченного платежа
Прекратить
взыскание
Продолжить
прежним методом
Установка
контакта с
должником
Анализ
результатов
Принятие
стратегическог
о решения
Изменить метод
взыскания
Списать
задолженность
2
3. Разработка программно-математического комплекса,
выполняющего кластеризацию новых
задолженностей,
основываясь на статистической
информации о ранее
осуществленных контактах с
должниками
Задачи:
1
• изучение существующих программных средств и математических
методов скоринга
2
• выбор математического метода для использования в дипломном
проекте
3
• разработка алгоритмов для реализации выбранного метода
4
• описание структуры программного комплекса и написание
программного кода, реализующего разработанные алгоритмы
5
• анализ опасных для пользователя ПЭВМ факторов и разработка
комплекса мероприятий по обеспечению безопасности эксплуатации
ПЭВМ
6
• расчет экономической эффективности от реализации проекта
3
4. Разработать эффективный механизм
кластеризации вновь поступивших задолженностей,
основывающийся на информации, полученной в ходе
работы по возврату других задолженностей, в
результате работы которого, каждый долг можно было
отнести к одной из двух групп – «плохие» или
Критерий качества
«хорошие»
задолженностей
«плохие»
задолженности работа по
взысканию признана
неуспешной
«хорошие»
задолженности работа по
взысканию признана
успешной
Да
«Хороший»
Нет
«Плохой»
4
5. линейная регрессия
логистическая регрессия
метод ближайших соседей
линейное
программирование
генетические алгоритмы
Математические
методы скоринга
нейронные сети
деревья решений
байесовский подход
Таблица 1 – Сравнение точности классификации различных методов*, %
Линейная
регрессия
Логистическ
ая регрессия
Метод
ближайш
их
соседей
[43,4 – 87,5]
68,66
[43,3 – 89,3]
66,63
[43,8 –
93,2]
68,32
Линейное
программ
ирование
Нейронны
е сети
[74,7 –
86,1]
80,4
[62 - 64]
63
Генетическ
ий
алгоритм
Деревья
решений
64,5
[78,5 –
92,1]
83,88
* Значения точности классификации для всех методов получены путем вычисления среднего
арифметического результатов тестов, приведенных в таблице 1 пояснительной записки
дипломного проекта.
5
6. IBM SPSS, пакет
Clementine
Scorto Ample
Collection, пакет
Loan Decision
SAS, пакет
Enterprise Miner
Ksema TERN Group,
пакет KXEN Analytic
Framework
Таблица 2 – Сравнительная характеристика программных продуктов в области ско
Продукт
Scorto
IBM SPSS
SAS
KSEN
Возможность
Построен
интеграции
ие
со
стратеги
сторонними
й
АС
есть
нет
нет
есть
есть
нет
нет
есть
Наличие
АРМ
Используемые
алгоритмы обработки
данных
Стоимость
(минималь
ная
стоимость
пакета,
руб.)
есть
лог. регрессия, деревья
решений
65 000
есть
лог. регрессия, деревья
решений, нейронные
сети
82 000
нет
лог. регрессия, деревья
решений, нейронные
сети
600 000
нет
лог. регрессия, деревья
решений, нейронные
сети, сети Байеса
2 700 000
6
7. I >> 1
Коллектор
Коллектор
Контакт I
Результат
контакта
(наблюдение)
Результат
контакта
(наблюдение)
БД
Контакт 1
Должник
Должник
t
I>1
Должник
t
7
16. Выбираются случайным
образом из всех долгов, по
которым уже завершена
работа
Отобрать 1000
задолженностей
из БД
По некоторым долгам Банки
присылают обновленную
информацию о погашении
до начала работ по
взысканию
Подготовка данных
Отфильтровать непригодные для
использования данные
Отобрать 15% в
тестовую группу
Выполнить сбор
статистики и расчет
параметров моделей по
обучающей группе
1000 долгов
Выполнить моделирование с
использованием полученных
входных параметров на
тестовой группе
Для того, чтобы в тестовой
группе присутствовали как
116
«плохие», так и «хорошие»
«хороших»
задолженности, отдельно
отбираются по 15% долгов с
хорошими и плохими
17 для
признаками
тестирования
57 непригодных
943
831 «плохих»
99 для
расчета
параметров
108 для
тестирования
723 для
расчета
параметров
16
18. Таблица 14– Смета затрат на разработку и внедрение ПО
Наименование
Обозначение
статей
Основная
Сосн
заработная плата
Дополнительная
Сдоп
заработная плата
Отчисления
на
Ссоц
социальные нужды
Материалы
Смат
Сумма, руб.
210000
В % к итогу
45,15
21000
4,6
78540
16,89
2750
0,59
Стоимость
С
машинного времени маш.вр
26850
5,77
Накладные расходы Сн
126000
27
Итого:
465140
100
Спр
Ленточный график разработки ПО
Таблица 15– Основные технико-экономические показатели
Наименован
ие
показателя
Способ
обработки
информации
Ед.
измерения
-
Базовый
вариант
Проектный
вариант
Проектный
вариант в %
к базовому
В ручную
С
применением
ЭВМ и
программных
средств
-
Используемо
Пишущие
ПЭВМ,
е
машинки
принтер
оборудование
Годовые
затраты на
Чел. ч.
1798
7192
обработку
Маш. ч.
1259
информации
Количество
Чел
4
1
работников
Потребность
в
производстве
м2
12
6
нных
площадях
Капитальные
Руб.
180000
238217,22
вложения
Годовые
текущие
затраты на
Руб.
4511508
1132384,75
обработку
информации
Годовые
приведенные
затраты на
Руб.
4538508
1158117,33
обработку
информации
Расчетные результаты внедрения:
Годовой
• экономически
годовой экономический эффект в размере 3380390,67
Руб.
3380390,67
рубля
й эффект
• снижение следующих экономических показателей:
годовые приведенные затраты труда на 75%
количество работников на 75%
годовые текущие затраты на 75%
-
25
25
50
132
25
25
-
18
19. В рамках дипломного проекта разработан программно-математический
комплекс, использующий аппарат скрытых марковских моделей для
кластеризации задолженностей, не требующий обучения по алгоритму
Баума-Велча
В ходе тестирования установлено, что разработанный комплекс
выполняет кластеризацию с высокой точностью, позволяющей повысить
эффективность работы специалистов за счет выявления перспективных
задолженностей на ранних стадиях работы по взысканию
Созданное ПО может быть использовано как в качестве
самостоятельного средства анализа данных, так и в комплексе с
системами учета проблемных активов
19