Анджей Аршавский, Директор ЦК, ЦК по супермассивам данных, Сбербанк-Технологии. "Типы данных и корпоративная платформа для полного цикла работы с данными"
•19:20-19:40 Максим Еременко, Управляющий директор-начальник управления, Управление инструментов и моделей, Сбербанк. "Как модели могут сохранять или зарабатывать деньги?"
•19:40-20:00 Тихонов Роман, Управляющий директор — директор управления, Управление валидации, Сбербанк. "Кейсы Сбербанка: от предсказания дефолта в реальном времени до глубинного обучения на данных естественного языка".
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...Newprolab
Презентация Андрея Иванова, Директора по продукту DCA.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Технологическая платформа DataLift.DCA обеспечивает быструю и безопасную интеграцию в экосистему programmatic и позволяет компаниям, обладающим большими массивами аудиторных данных получать дополнительный доход за счет их монетизации.
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Data Science Week 2016. DCA. "Ваш телефон вас понимает. Персонализированные п...Newprolab
Презентация Андрея Иванова, Директора по продукту DCA.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Технологическая платформа DataLift.DCA обеспечивает быструю и безопасную интеграцию в экосистему programmatic и позволяет компаниям, обладающим большими массивами аудиторных данных получать дополнительный доход за счет их монетизации.
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Медиаэксперт programmatic-платформы Exebid.DCA Наталья Калайтанова, специально для Фестиваля Больших Данных Билайн подготовила презентацию о том, куда движется мир медиа и почему нам это понравится)
Предлагаем большие данные агентствам, у которых есть собственная DSP. Данные «Соловья» помогут оптимизировать рекламные кампании ваших клиентов: находить аудиторию с высокой конверсией и выставлять результативные ставки при выкупе показов. Данные об аудитории «Соловья» продаются через AdRiver DMP.
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...Newprolab
Презентация Вадима Челышкова, Technology Solutions Professional, Microsoft. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Newprolab
Александр Ларьяновский, управляющий партнер, SkyEng.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Медиаэксперт programmatic-платформы Exebid.DCA Наталья Калайтанова, специально для Фестиваля Больших Данных Билайн подготовила презентацию о том, куда движется мир медиа и почему нам это понравится)
Предлагаем большие данные агентствам, у которых есть собственная DSP. Данные «Соловья» помогут оптимизировать рекламные кампании ваших клиентов: находить аудиторию с высокой конверсией и выставлять результативные ставки при выкупе показов. Данные об аудитории «Соловья» продаются через AdRiver DMP.
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...Newprolab
Презентация Вадима Челышкова, Technology Solutions Professional, Microsoft. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Newprolab
Александр Ларьяновский, управляющий партнер, SkyEng.
Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
A presentation by Neil Frost (Chief Executive Officer: iSAHA), at the Transport Forum SIG: "Cost Effective Public Transport Management Systems" on 12 May 2016 hosted by University of Johannesburg. The theme of the presentation was: "Big Data and Public Transport."
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системеNewprolab
Анатолий Востряков, Руководитель направления диалоговых систем и умных помощников, Segmento. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Newprolab
Павел Клеменков, Head of machine learning department, Rambler & Co. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Newprolab
Антон Джораев, Senior Enterprise Business Development Manager, NVIDIA. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Newprolab
Светлана Крылова, Руководитель аналитического центра, Brand Analytics. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыNewprolab
Александр Сербул, Руководитель направления, 1С-Битрикс. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
Данный аналитический обзор посвящен рынку Больших Данных.
В обзоре освящена текущая ситуация на международном и российском рынках.
Также описаны тенденции рынка и его прогноз.
https://bit.ly/2X6Domb
В нашу эпоху головокружительных достижений в области искусственного интеллекта, облачных вычислений и передовой аналитики, как ни странно, многие организации по-прежнему полагаются на архитектуры данных, построенные в прошлом веке. Однако, ситуация быстро меняется с ростом применения виртуализации данных в реальном времени для обеспечения безопасного, логического доступа к информации. Данный подход позволяет отказаться от физической трансформации и перемещения данных в хранилище, прежде чем они могут быть использованы бизнесом.
Посетите этот новый вебинар на русском языке, чтобы узнать:
- Что такое виртуализация данных?
- Чем данный подход отличается от других корпоративных технологий интеграции данных, таких как ETL
- Почему крупнейшие организации используют виртуализацию в масштабах всего предприятия
Узнайте больше о проблемах интеграции данных, решаемых с помощью виртуализации и вариантах применения этой динамично развивающейся технологии.
Логическая витрина для доступа к большим даннымSergey Gorshkov
Как компании получить максимальную выгоду от накопленной информации? Как интегрировать данные из хранилищ Big Data с традиционной аналитической информацией?
Watch full webinar here: https://bit.ly/3LIBVKd
По данным аналитической компании Gartner, "к 2022 году 60% предприятий включат виртуализацию данных в качестве основного метода доставки данных в свою интеграционную архитектуру". Компания Gartner назвала Denodo лидером в Магическом квадранте 2020 года по инструментам интеграции данных.
В ходе этого 1,5-часового занятия вы узнаете, как виртуализация данных революционизирует бизнес и ИТ-подход к доступу, доставке, потреблению, управлению и защите данных, независимо от возраста вашей технологии, формата данных или их местонахождения. Эта зрелая технология устраняет разрыв между ИТ и бизнес-пользователями и обеспечивает значительную экономию средств и времени.
Решения HPE Software для Больших данныхYuri Yashkin
Аналитика Больших данных позволяет улучшить бизнеспроцессы и операционную деятельность, повысить эффективность управления рисками и добиться дополнительной экономии средств. В документе описаны восемь подводных камней на пути к внедрению аналитики Больших данных
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
Восемь подводных камней на пути к внедрению аналитики Больших данныхElizaveta Alekseeva
Приручить Большие данные, аналитику и искусственный интеллект и добиться от них пользы для бизнеса не так-то просто. Узнайте, какие «подводные камни» ожидают тех, кто решил внедрять аналитику Больших данных, и – главное – как их преодолеть.
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Newprolab
Артем Просветов, Data Scientist, CleverDATA. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanNewprolab
Евгений Гапон, Директор по аналитике, Qlean. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Newprolab
Артем Пичугин, Head of data-related programs, New Professions Lab. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Newprolab
Юрий Макаров, Data Scientist, E-Contenta. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Newprolab
Андрей Уваров, Руководитель по аналитическим сервисам, МегаФон. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Newprolab
Дмитрий Гармашев, Руководитель отдела исследований и монетизации данных, QIWI. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. GlowByte, "Культура работы с данными"Newprolab
Презентация Андрея Котова, бизнес-аналитика GlowByte. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Newprolab
Презентация директора по развитию E-Contenta Александра Атцика. Если вы хотите получить доступ к видео выступления, напишите нам на datascienceweek2016@gmail.com.
2. До Big Data и Deep Machine Learning
С ростом объѐма данных и появлением технологий Big Data, сократился путь от данных к мудрости за счет развития технологий
машинного обучения
WISDOM
KNOWLEDGE
INFORMATION
DATA
WISDOM
DATA
Информационный актив организации
DATA
Machine
Learning
После Big Data и Deep Machine Learning
3. Рост возможностей по хранению и обработке данных
Существенно
снизилась
стоимость
хранения данных
Появилась возможность
обрабатывать Большие
данные
1,4
0,8
2015200519951985
40 00020 0000 100 00080 00060 00010 000 30 000 50 000 70 000 90 000
Teradata
Vertica
Greenplum
Oracle
Microsoft
Hadoop
USD
2009Сегодня
На сегодняшний день мировая вычислительная мощность
сопоставимая с 1,3 млрд ноутбуков
Стоимость хранения 1 ТБ данных
1
2
4. Определение Big Data
Данные:
большие массивы
цифровых
структурированных и
неструктурированных
данных
Технологии:
возможность хранить и
обрабатывать практически
неограниченные объемы
данных любой структуры
Существенное снижение
стоимости хранения
и обработки данных
Аналитика
и Машинное обучение:
выявление скрытых
зависимостей
на основе анализа всего
объема данных
Новое качество
результатов машинного
обучения
Big Data – это
Таблицы, Текст,
Изображение, Голос, Видео
Hadoop, Spark,..
Исследователи данных
открывают новые
закономерности и
возможности для бизнеса
5. Эволюция аналитики и организации
4
1.0 Традиционная аналитика
• Преимущественно описательная
аналитика и отчетность
• Данные из внутренних источников,
относительно небольшие,
структурированные
• Разрозненные группы аналитиков
• Аналитика вспомогательный
второстепенный инструмент
2.0 Большие данные
• Сложные, большие,
неструктурированные источники
данных
• Новые аналитические и
вычислительные возможности
• Появление «исследователей
данных»
• Продукты и услуги, основанных на
данных источник прибыли
3.0 Data-driven организация
• Целостное сочетание
традиционной аналитики и
больших данных
• Аналитика как неотъемлемый
компонент ведения бизнеса
• Быстрое и гибкое обеспечение
решения
• Аналитические инструменты
доступны в точке принятия
решений
• Аналитика интегрирована в
операционные процессы
Аналитика выполняет вспомогательную
и необязательную функцию
для принятия решений
Создание продуктов и услуг,
основанных на данных
Аналитика встроена во все
операционные и бизнес-процессы
Билл Фрэнкс, Революция в аналитике. Как в эпоху Big Data улучшить ваш
бизнес с помощью операционной аналитики
6. Основа Data Driven организации
5
Основные элементы:
Данные
Технологии работы с данными
Модели и аналитика
Принятие решений
Культура обращения с данными
Компетенция топ-менеджеров – выстроить
цепочку создания ценности на основе всех
элементов
ДАННЫЕ ТЕХНО
ЛОГИИ
РАБОТЫ С
ДАННЫМИ
МОДЕЛИ
ПРИНЯТИЕ
РЕШЕНИЙ
DATA DRIVEN ОРГАНИЗАЦИЯ
КУЛЬТУРА ОБРАЩЕНИЯ
С ДАННЫМИ
Билл Фрэнкс, ‘Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с
помощью операционной аналитики’
Том Дэвенпорт, Джоан Харрис ‘Аналитика как конкурентное преимущество. Новая наука
побеждать’
7. Транзакции по картам
6
Транзакции по картам это пример
структурированных, однородных
данных.
Нет «плохих» или «хороших» данных. Разные типы данных могут быть полезны для разного класса задач. Важно
уметь находить им применение.
Представление в таблице реляционной БД
Представление в файле:
Объем Малый Большой
Тип носителя Цифровые Аналоговые
Место генерации Внутренние Внешние
Способ генерации Машина Человек
Доступность Низкая Высокая
Качество Низкое Высокое
Структурированность Низкая Высокая
Однородность Низкая Высокая
Связность Низкая Высокая
8. КТО ОН?
С КЕМ ОН СВЯЗАН?
ЧТО ОН ДЕЛАЕТ?
Сбор на одной платформе всех доступных данных о клиенте
• Транзакции по картам и счетам
• Историю подключения услуг
• История посещения сайтов
• Данные дочерних компаний
• Открытые внешние данные
• ……
Очистка и объединение данных на уровне клиента в виде
аналитических представлений
Клиентский профиль
3
2
1
Связи
9. Аналитические представления
Связи
Цепочки событий
Интегральный профиль Идентификатор:
• MDM ID
• Id Соцсетей
• Cookie
(ClickStream)
Соц.дем.:
• Пол, возраст
• Место жительства
• Место работы
• Образование
• Уровень дохода
• Семья….
Контакты.:
• Email
• Телефоны
• Messenger IDs
• …….
Интересы:
• Автомобили
• Недвижимость
• Путешествия
• Спорт
• …….
~150 млн. профилей
Вершины:
• Физ. Лица (клиенты)
• Юр.лица
• Интернет-пользователи
Признак связи:
• Перевод денежных средств
• Владение активами
• Родственные связи
• Работа в одной организации
к ипотеке 5б Детским товарам 7б Путешествиям 4б
Кофе 1б Кино 2б Бензин 2б Одежду 9б
1
1 2
2 3
3 4
ЕдиныйID
Потратил деньги на:
Проявил интерес в
интернете к:
Последовательности действий по картам, счетам в интернет, агрегированные
из детальных данных в логически понятные события:
Связи физ. лиц, юр. лиц, профилей социальных сетей
Сводная информация по клиенту1
2
3
10. Данные как стратегический ресурс
9
Топливо и особенно каменный уголь в наше
время составляют первейшее – после людей –
условие всего промышленного развития всякой
страны и всякой ее части
Д.И. Менделеев, 1881 – 1883 г.
Кто владеет информацией, тот владеет миром
Натан Ротшильд, 1815 г.
Данные и нефть – это стратегический ресурсы
Владение большими объемами этих ресурсов дает владельцу потенциальное конкурентное преимущество.
При этом владение данными создают только расходы, а продажа сырых не приносит значимой прибыли.
Необходимо уметь извлекать из данных ценность за счет создания новых продуктов использующих
аналитику
11. Задачи технологий работы с данными
• Получить извне
• Передать между
системами
• Собрать в одном
месте
• Сохранить,
предоставить
доступ
• Быстро находить
нужное
• Объединить в
одной структуре
• Рассчитать
показатели
• Обучить модель
• Отчеты,
дашборды,
визуализация
• Предписание в
операционном
процессе
Загрузить Сохранить Обработать Принять решения
12. Классификация технологий для работы с данными
11
Массивно параллельные
системы управления
базами данных
Massive Parallel
Processing
(MPP)
Технологии и Инструменты Интеграции и Трансформации Данных
Extract Transform Load (ETL)
Технологии и Инструменты Анализа и Визуализации Данных
Business Intelligence (BI)
Реляционные системы
управления базами
данных
(RDBMS)
Специализированные
системы управления
базами данных
GraphDB
FastGraph
Распределенные
системы хранения и
обработки данных
любых форматов
Hadoop
Системы
распределенной
обработка данных в
оперативной памяти
InMemory
Машинное обучение и Искусственный интеллект
Machine Learning (ML) and Artificial Intelligence (AI)
13. Экосистема Hadoop
12
Определение технологий для работы в экосистеме – сложная задача, которая решается индивидуально исходя
из потребностей и особенностей компании
Управление ресурсам кластера
Распределенная файловая система кластера
Админист
рировани
е,
управлен
ие и
координа
ция
YARN
Вычисления
в памяти
Индексный
поиск
Машинное
обучение
NoSQL
СУБД
SQL аналитик
на данных
Hadoop
Скриптовые
языки
Интеграция и
потоковая
обработка
14. Продукты на основе данных
Ценность данных для Банка возрастает
за счет инвестиций в процессы и
инфраструктуру хранения и обработки
Данные для дескриптивной
и предсказательной
аналитики
Данные
для предписывающей
аналитики
Подготовленные
данные
• Обучение моделей
• Пилотирование.
• Регуляторная отчетность
• Управленческая отчетность
• Ad-hoc аналитика
• Принятие решений в
реальном времени.
Сырые данные
Системы источники
Копии источников
Консолидированные данные
DM (Витрины данных общего назначения)
DM (Специализированные витрины данных)
Модели / BI
Операционный процесс
13
• Проверка гипотез
15. Банковская платформа
ФАБРИКА ДАННЫХ
ПРОДУКТОВЫЕ ФАБРИКИ
БИЗНЕС-ХАБ
ЕФС
ТЕХНОЛОГИИ
• Презентационный слой
• Сценарии переходов между экранами
• Бизнес логика ЕФС
• Интеграционный слой
• Управление процессами
• Вычислительный грид
• Оперативные данные
• Аналитика данных
• Хранение больших объемов
данных
ЖЕЛЕЗО
Внутреннее
«ОБЛАКО»
DATA
Оборудование Teradata
Типовое оборудование
(архитектура x86)
Внешнее
«ОБЛАКО»
16. Большие зубы и новые технологии – это еще не все
Компании, которые не использует
новые технологии работы с
данными, уже проиграли
глобальную конкуренцию
Но даже использование новых
технологий – не залог выживания.
Уже недостаточно просто иметь
большие данные, нужно уметь их
использовать для повышения
эффективности операционных
процессов.
15
17. Сбербанк Технологии – Центр Компетенций Супермассивы
Специалисты по технологиям
хранения и обработки данных
• Hadoop/Spark, NoSQL
• Data Mining/Machine Learning
• Java/Scala/Python/R
• DevOps
16
20. Основные типы аналитики
Описание
Что происходит
сейчас?
Что произойдет
дальше?
Как мы можем
повлиять на события?
Выделение ключевых
характеристик, группировка
данных
Прогнозирование
вероятности наступления
будущих событий
Рекомендация
управляющих действий
Сегментация клиентов
Классификация типов
событий
Прогноз показателей
Прогноз банкротства
Предсказание надежности
клиента
Персонализация сайта
Блокировка мошеннических
транзакций
Примеры
Дескриптивная
аналитика
Предиктивная
аналитика
Предписывающая
аналитика
Принцип
22. Machine Learning
Gini = 55%
Time = 12-20 h
Gini = 80%
Time = 3-4 h
Отвечаем на вопросы:
• Что происходит сейчас
• Что вероятно произойдет дальше?
Отвечаем на вопросы:
• Что происходит сейчас
• Что вероятно произойдет дальше?
• Как мы можем повлиять на события?
23. Deep Learning
Deep Learning – способы воспроизведения системы связей
между событиями и результатом, в том числе скрытых связей
Генерация новых объектов
Супермассивы
данных
Связи ‘событие -
результат’
Распознавание образов,
звуков, текста
Системы связей
‘событие - результат’
24. Уже сегодня глубинные
нейросети способны
создавать ‘шедевры’, но
все еще под контролем
человека
Deep Learning: как это работает
Картина создана с помощью
алгоритмов машинного обучения
Рыцарь превратился в мутанта т.к.
в обучающей выборке было
слишком много фотографий собак
26. 2012 2013 2014 2015
Предотвращение
случаев мошенничества
с документами на
основе анализа фото и
данных клиента
Развитие технологии
для исходной
идентификации
клиентов
АС САФИ
Анализ и сравнение с
базой данных
метрических шаблонов
Итоговый
результат
модели
Анализ правил
текущей и
исторической заявок
Биометрический анализ образов
Система анализа фотоизображений ‘САФИ’
Запуск
САФИ
Ущерб от мошенничества с
паспортом
27. Запуск в промышленную эксплуатацию в сентябре 2015 года
Рост качества модели на +7 пп. Gini
Оценка кредитных рисков с использованием
данных мобильных операторов
Доходы
Кредитная история
Скоринг. модель
Заявка
одобрена
Скоринг. модель
+ данные моб.
операторов
Заявка
отклонена
Клиент имеет несколько тел. номеров одновременно
Клиент постоянно меняет тел. номера
Клиент пополнил счет своего моб. тел. менее чем на
10 р. за месяц
28. МОДЕЛЬ
ПРИНЯТИЯ
РЕШЕНИЙ
РУЧНАЯ
РАБОТА
ЭКПЕРТА
Модель
Затраты
Качество
Автоматизация процесса принятия
решений андеррайтинга
Задача Модель прогноза
решения андеррайтера
Источники Внешние и внутренние
данные
Результат Gini = 81%
Применение Оптимизация кредитного
процесса
Качество
Андеррайтер
Затраты
• Проверка
документов
• Проверка стоп
факторов
• Проверка в
других
источниках
• Проверка
работодателя
• Верификация
по телефону
Решение
по заявке
Решение
по заявке
◄◄ ► ►
29. Машинное обучение при оценке
кредитных рисков розничных клиентов (1/2)
Кредитная история
Данные отчѐтности
Качественные
факторы
Применение алгоритмов машинного обучения позволило повысить качество модели
за счет более точного отбора факторов
Модель с традиционным
отбором факторов
Gini = 71%
Рост качества
модели на 4 п.п.
Модель с отбором
факторов на основе ML
Gini = 75%
30. Преимущества Банка
Значительный поток заявок
50-60 тыс. в день
Наличие необходимых компетенций
Наличие необходимых данных
10-15 млн. карт. транзакций в день
Разнообразие инструментов
Адаптивные скоринговые модели
Решает задачу автоматической
разработки моделей оценки
кредитного риска
В основе системы - алгоритмы
машинного обучения
Машинное обучение при оценке
кредитных рисков розничных клиентов (2/2)
Gini = 67%
Gini = 66%
Разработка
модели
t = 3-4 недели
Разработка
модели
t = 3-4 часа
31. Моделирование вероятности дефолта для малого
бизнеса в режиме реального времени (1/2)
AS IS: ВНЕШНИЕ ИСТОЧНИКИ
оценка рисков – 1-2 дня
ОТЧЕТНОСТЬ
КАЧЕСТВЕННЫЕ
ФАКТОРЫ
Трудовые и временные
затраты
Недостоверность отчетности
Субъективность оценки
качеств. факторов
Смещенность оценки, если
нет кред. истории
Сбор полного комплекта
затруднителен
TO BE:ТРАНЗАКЦИОННЫЕ ДАННЫЕ
оценка рисков – real-time
НАЛОГИ
регулярность и величина выплат,
частота и величина штрафов
ВЫРУЧКА
равномерность/
стабильность/величина
ДОЛГ
выплаты в счет долга,
частота и величина
погашения просрочки и пр.
Пр. данные
доля поступлений
от инкассации,
срок
использования р/с
КРЕДИТНАЯ
ИСТОРИЯ
↓ Времени принятия
решения
↑ Прибыльности и
комиссионного дохода
↑ Эффективности
предодобренных
предложений
НЕДОСТАТКИ ПРИЕМУЩЕСТВА
32. Умные советы: генерация на основе анализа карточных
транзакций клиентов (1/2)
За 3 месяца до крупной
транзакции не было
покупок, связанных с
авто, а после появились
Дата генерации
совета
Расходная транзакция
≥100 000 ₱
≤ 3 мес.В течении 3-х
месяцев нет
транзакций на
авто
Регулярные транзакции на
авто (АЗС, мойка, парковка)
…2 нед.
Дата генерации
совета
Расходная
транзакция
≥100 000 ₱
1 мес.
Увеличение числа транзакций на ремонт /
мебель*
1 мес. 1 мес.
1 мес.
Паттерн покупки авто
Паттерн ремонта/покупки мебели
Паттерн затрат на лечение
≤3 мес.
Расходы на лечение
≥ 40 000 ₽
При сравнении месяца
крупной покупки и месяца
после наблюдается рост
числа транзакций на
ремонт, мебель
По истории транзакций
находим период в
который происходит
активная оплата
лечения в РФ (≥ K ₽)
1
2
3
33. Умные советы: генерация на основе анализа карточных
транзакций клиентов (2/2)
Паттерн
Количество
советов
(шт.)
ДМС 262 700
Налоговый вычет
за 2015 год
217 474
Налоговый вычет
01.2016 – 02.2016
45 226
Начало ремонта 39 900
Покупка мебели 22 578
Покупка авто 12 612
ИТОГО 600 490
Сколько можно было дать советов? Где можно использовать?
34. Deep learning позволяет разрабатывать модели анализируя
естественный язык общения людей
…организовывать
социальные и
профессиональные
сообщества…
Можно оценивать
настроения людей…
... и даже предсказывать
движение цен акций,
вероятность банкротства
публичных компании
35. Комбинация данных, технологий и машинного обучения открывают
принципиально новые возможности, но требуют:
• изменения бизнес-культуры:
• data driven менеджмент
• кросс-функциональные команды и сотрудничество
• включения в компанию специалистов нового типа
• приобретения и освоения новых средств IT и создания
целостной высокотехнологичной платформы организации
Начало работ в этом направлении – стратегическое, а не
техническое решение
Повышение роли искусственного интеллекта должно
сопровождаться повышением степени контроля соответствующих
модельных рисков
37. В 1628 году в Швеции новый
военный корабль «VASA»
затонул в свой первый рейс,
проплыв менее мили.
Причина аварии была в том,
что корабль ассиметричный:
будучи толще со стороны
одного из бортов.
Качество данных. Согласованность.
38. Во время Второй мировой войны командование английских ВВС проводило исследование
уязвимости английских бомбардировщиков . У многих возвращавшихся самолѐтов были
пробоины на крыльях и хвосте, и было принято решение укрепить их бронѐй.
Качество данных. Репрезентативность.