SlideShare a Scribd company logo
Корпоративные
данные и технологии
До Big Data и Deep Machine Learning
С ростом объѐма данных и появлением технологий Big Data, сократился путь от данных к мудрости за счет развития технологий
машинного обучения
WISDOM
KNOWLEDGE
INFORMATION
DATA
WISDOM
DATA
Информационный актив организации
DATA
Machine
Learning
После Big Data и Deep Machine Learning
Рост возможностей по хранению и обработке данных
Существенно
снизилась
стоимость
хранения данных
Появилась возможность
обрабатывать Большие
данные
1,4
0,8
2015200519951985
40 00020 0000 100 00080 00060 00010 000 30 000 50 000 70 000 90 000
Teradata
Vertica
Greenplum
Oracle
Microsoft
Hadoop
USD
2009Сегодня
На сегодняшний день мировая вычислительная мощность
сопоставимая с 1,3 млрд ноутбуков
Стоимость хранения 1 ТБ данных
1
2
Определение Big Data
Данные:
большие массивы
цифровых
структурированных и
неструктурированных
данных
Технологии:
возможность хранить и
обрабатывать практически
неограниченные объемы
данных любой структуры
Существенное снижение
стоимости хранения
и обработки данных
Аналитика
и Машинное обучение:
выявление скрытых
зависимостей
на основе анализа всего
объема данных
Новое качество
результатов машинного
обучения
Big Data – это
Таблицы, Текст,
Изображение, Голос, Видео
Hadoop, Spark,..
Исследователи данных
открывают новые
закономерности и
возможности для бизнеса
Эволюция аналитики и организации
4
1.0 Традиционная аналитика
• Преимущественно описательная
аналитика и отчетность
• Данные из внутренних источников,
относительно небольшие,
структурированные
• Разрозненные группы аналитиков
• Аналитика вспомогательный
второстепенный инструмент
2.0 Большие данные
• Сложные, большие,
неструктурированные источники
данных
• Новые аналитические и
вычислительные возможности
• Появление «исследователей
данных»
• Продукты и услуги, основанных на
данных источник прибыли
3.0 Data-driven организация
• Целостное сочетание
традиционной аналитики и
больших данных
• Аналитика как неотъемлемый
компонент ведения бизнеса
• Быстрое и гибкое обеспечение
решения
• Аналитические инструменты
доступны в точке принятия
решений
• Аналитика интегрирована в
операционные процессы
Аналитика выполняет вспомогательную
и необязательную функцию
для принятия решений
Создание продуктов и услуг,
основанных на данных
Аналитика встроена во все
операционные и бизнес-процессы
Билл Фрэнкс, Революция в аналитике. Как в эпоху Big Data улучшить ваш
бизнес с помощью операционной аналитики
Основа Data Driven организации
5
Основные элементы:
 Данные
 Технологии работы с данными
 Модели и аналитика
 Принятие решений
 Культура обращения с данными
Компетенция топ-менеджеров – выстроить
цепочку создания ценности на основе всех
элементов
ДАННЫЕ ТЕХНО
ЛОГИИ
РАБОТЫ С
ДАННЫМИ
МОДЕЛИ
ПРИНЯТИЕ
РЕШЕНИЙ
DATA DRIVEN ОРГАНИЗАЦИЯ
КУЛЬТУРА ОБРАЩЕНИЯ
С ДАННЫМИ
Билл Фрэнкс, ‘Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с
помощью операционной аналитики’
Том Дэвенпорт, Джоан Харрис ‘Аналитика как конкурентное преимущество. Новая наука
побеждать’
Транзакции по картам
6
Транзакции по картам это пример
структурированных, однородных
данных.
Нет «плохих» или «хороших» данных. Разные типы данных могут быть полезны для разного класса задач. Важно
уметь находить им применение.
Представление в таблице реляционной БД
Представление в файле:
Объем Малый Большой
Тип носителя Цифровые Аналоговые
Место генерации Внутренние Внешние
Способ генерации Машина Человек
Доступность Низкая Высокая
Качество Низкое Высокое
Структурированность Низкая Высокая
Однородность Низкая Высокая
Связность Низкая Высокая
КТО ОН?
С КЕМ ОН СВЯЗАН?
ЧТО ОН ДЕЛАЕТ?
Сбор на одной платформе всех доступных данных о клиенте
• Транзакции по картам и счетам
• Историю подключения услуг
• История посещения сайтов
• Данные дочерних компаний
• Открытые внешние данные
• ……
Очистка и объединение данных на уровне клиента в виде
аналитических представлений
Клиентский профиль
3
2
1
Связи
Аналитические представления
Связи
Цепочки событий
Интегральный профиль Идентификатор:
• MDM ID
• Id Соцсетей
• Cookie
(ClickStream)
Соц.дем.:
• Пол, возраст
• Место жительства
• Место работы
• Образование
• Уровень дохода
• Семья….
Контакты.:
• Email
• Телефоны
• Messenger IDs
• …….
Интересы:
• Автомобили
• Недвижимость
• Путешествия
• Спорт
• …….
~150 млн. профилей
Вершины:
• Физ. Лица (клиенты)
• Юр.лица
• Интернет-пользователи
Признак связи:
• Перевод денежных средств
• Владение активами
• Родственные связи
• Работа в одной организации
к ипотеке 5б Детским товарам 7б Путешествиям 4б
Кофе 1б Кино 2б Бензин 2б Одежду 9б
1
1 2
2 3
3 4
ЕдиныйID
Потратил деньги на:
Проявил интерес в
интернете к:
Последовательности действий по картам, счетам в интернет, агрегированные
из детальных данных в логически понятные события:
Связи физ. лиц, юр. лиц, профилей социальных сетей
Сводная информация по клиенту1
2
3
Данные как стратегический ресурс
9
Топливо и особенно каменный уголь в наше
время составляют первейшее – после людей –
условие всего промышленного развития всякой
страны и всякой ее части
Д.И. Менделеев, 1881 – 1883 г.
Кто владеет информацией, тот владеет миром
Натан Ротшильд, 1815 г.
Данные и нефть – это стратегический ресурсы
Владение большими объемами этих ресурсов дает владельцу потенциальное конкурентное преимущество.
При этом владение данными создают только расходы, а продажа сырых не приносит значимой прибыли.
Необходимо уметь извлекать из данных ценность за счет создания новых продуктов использующих
аналитику
Задачи технологий работы с данными
• Получить извне
• Передать между
системами
• Собрать в одном
месте
• Сохранить,
предоставить
доступ
• Быстро находить
нужное
• Объединить в
одной структуре
• Рассчитать
показатели
• Обучить модель
• Отчеты,
дашборды,
визуализация
• Предписание в
операционном
процессе
Загрузить Сохранить Обработать Принять решения
Классификация технологий для работы с данными
11
Массивно параллельные
системы управления
базами данных
Massive Parallel
Processing
(MPP)
Технологии и Инструменты Интеграции и Трансформации Данных
Extract Transform Load (ETL)
Технологии и Инструменты Анализа и Визуализации Данных
Business Intelligence (BI)
Реляционные системы
управления базами
данных
(RDBMS)
Специализированные
системы управления
базами данных
GraphDB
FastGraph
Распределенные
системы хранения и
обработки данных
любых форматов
Hadoop
Системы
распределенной
обработка данных в
оперативной памяти
InMemory
Машинное обучение и Искусственный интеллект
Machine Learning (ML) and Artificial Intelligence (AI)
Экосистема Hadoop
12
Определение технологий для работы в экосистеме – сложная задача, которая решается индивидуально исходя
из потребностей и особенностей компании
Управление ресурсам кластера
Распределенная файловая система кластера
Админист
рировани
е,
управлен
ие и
координа
ция
YARN
Вычисления
в памяти
Индексный
поиск
Машинное
обучение
NoSQL
СУБД
SQL аналитик
на данных
Hadoop
Скриптовые
языки
Интеграция и
потоковая
обработка
Продукты на основе данных
Ценность данных для Банка возрастает
за счет инвестиций в процессы и
инфраструктуру хранения и обработки
Данные для дескриптивной
и предсказательной
аналитики
Данные
для предписывающей
аналитики
Подготовленные
данные
• Обучение моделей
• Пилотирование.
• Регуляторная отчетность
• Управленческая отчетность
• Ad-hoc аналитика
• Принятие решений в
реальном времени.
Сырые данные
Системы источники
Копии источников
Консолидированные данные
DM (Витрины данных общего назначения)
DM (Специализированные витрины данных)
Модели / BI
Операционный процесс
13
• Проверка гипотез
Банковская платформа
ФАБРИКА ДАННЫХ
ПРОДУКТОВЫЕ ФАБРИКИ
БИЗНЕС-ХАБ
ЕФС
ТЕХНОЛОГИИ
• Презентационный слой
• Сценарии переходов между экранами
• Бизнес логика ЕФС
• Интеграционный слой
• Управление процессами
• Вычислительный грид
• Оперативные данные
• Аналитика данных
• Хранение больших объемов
данных
ЖЕЛЕЗО
Внутреннее
«ОБЛАКО»
DATA
Оборудование Teradata
Типовое оборудование
(архитектура x86)
Внешнее
«ОБЛАКО»
Большие зубы и новые технологии – это еще не все
Компании, которые не использует
новые технологии работы с
данными, уже проиграли
глобальную конкуренцию
Но даже использование новых
технологий – не залог выживания.
Уже недостаточно просто иметь
большие данные, нужно уметь их
использовать для повышения
эффективности операционных
процессов.
15
Сбербанк Технологии – Центр Компетенций Супермассивы
Специалисты по технологиям
хранения и обработки данных
• Hadoop/Spark, NoSQL
• Data Mining/Machine Learning
• Java/Scala/Python/R
• DevOps
16
Благодарим за внимание!
Аналитика и машинное обучение
Основные типы аналитики
Описание
Что происходит
сейчас?
Что произойдет
дальше?
Как мы можем
повлиять на события?
Выделение ключевых
характеристик, группировка
данных
Прогнозирование
вероятности наступления
будущих событий
Рекомендация
управляющих действий
Сегментация клиентов
Классификация типов
событий
Прогноз показателей
Прогноз банкротства
Предсказание надежности
клиента
Персонализация сайта
Блокировка мошеннических
транзакций
Примеры
Дескриптивная
аналитика
Предиктивная
аналитика
Предписывающая
аналитика
Принцип
Machine Learning
Machine Learning – способы воспроизведения связей между
событиями и результатом
Machine Learning
Gini = 55%
Time = 12-20 h
Gini = 80%
Time = 3-4 h
Отвечаем на вопросы:
• Что происходит сейчас
• Что вероятно произойдет дальше?
Отвечаем на вопросы:
• Что происходит сейчас
• Что вероятно произойдет дальше?
• Как мы можем повлиять на события?
Deep Learning
Deep Learning – способы воспроизведения системы связей
между событиями и результатом, в том числе скрытых связей
Генерация новых объектов
Супермассивы
данных
Связи ‘событие -
результат’
Распознавание образов,
звуков, текста
Системы связей
‘событие - результат’
Уже сегодня глубинные
нейросети способны
создавать ‘шедевры’, но
все еще под контролем
человека
Deep Learning: как это работает
Картина создана с помощью
алгоритмов машинного обучения
Рыцарь превратился в мутанта т.к.
в обучающей выборке было
слишком много фотографий собак
Примеры инициатив Сбербанка
2012 2013 2014 2015
Предотвращение
случаев мошенничества
с документами на
основе анализа фото и
данных клиента
Развитие технологии
для исходной
идентификации
клиентов
АС САФИ
Анализ и сравнение с
базой данных
метрических шаблонов
Итоговый
результат
модели
Анализ правил
текущей и
исторической заявок
Биометрический анализ образов
Система анализа фотоизображений ‘САФИ’
Запуск
САФИ
Ущерб от мошенничества с
паспортом
Запуск в промышленную эксплуатацию в сентябре 2015 года
Рост качества модели на +7 пп. Gini
Оценка кредитных рисков с использованием
данных мобильных операторов
Доходы
Кредитная история
Скоринг. модель
Заявка
одобрена
Скоринг. модель
+ данные моб.
операторов
Заявка
отклонена
Клиент имеет несколько тел. номеров одновременно
Клиент постоянно меняет тел. номера
Клиент пополнил счет своего моб. тел. менее чем на
10 р. за месяц
МОДЕЛЬ
ПРИНЯТИЯ
РЕШЕНИЙ
РУЧНАЯ
РАБОТА
ЭКПЕРТА
Модель
Затраты
Качество
Автоматизация процесса принятия
решений андеррайтинга
Задача Модель прогноза
решения андеррайтера
Источники Внешние и внутренние
данные
Результат Gini = 81%
Применение Оптимизация кредитного
процесса
Качество
Андеррайтер
Затраты
• Проверка
документов
• Проверка стоп
факторов
• Проверка в
других
источниках
• Проверка
работодателя
• Верификация
по телефону
Решение
по заявке
Решение
по заявке
◄◄ ► ►
Машинное обучение при оценке
кредитных рисков розничных клиентов (1/2)
Кредитная история
Данные отчѐтности
Качественные
факторы
Применение алгоритмов машинного обучения позволило повысить качество модели
за счет более точного отбора факторов
Модель с традиционным
отбором факторов
Gini = 71%
Рост качества
модели на 4 п.п.
Модель с отбором
факторов на основе ML
Gini = 75%
Преимущества Банка
Значительный поток заявок
50-60 тыс. в день
Наличие необходимых компетенций
Наличие необходимых данных
10-15 млн. карт. транзакций в день
Разнообразие инструментов
Адаптивные скоринговые модели
Решает задачу автоматической
разработки моделей оценки
кредитного риска
В основе системы - алгоритмы
машинного обучения
Машинное обучение при оценке
кредитных рисков розничных клиентов (2/2)
Gini = 67%
Gini = 66%
Разработка
модели
t = 3-4 недели
Разработка
модели
t = 3-4 часа
Моделирование вероятности дефолта для малого
бизнеса в режиме реального времени (1/2)
AS IS: ВНЕШНИЕ ИСТОЧНИКИ
оценка рисков – 1-2 дня
ОТЧЕТНОСТЬ
КАЧЕСТВЕННЫЕ
ФАКТОРЫ
Трудовые и временные
затраты
Недостоверность отчетности
Субъективность оценки
качеств. факторов
Смещенность оценки, если
нет кред. истории
Сбор полного комплекта
затруднителен
TO BE:ТРАНЗАКЦИОННЫЕ ДАННЫЕ
оценка рисков – real-time
НАЛОГИ
регулярность и величина выплат,
частота и величина штрафов
ВЫРУЧКА
равномерность/
стабильность/величина
ДОЛГ
выплаты в счет долга,
частота и величина
погашения просрочки и пр.
Пр. данные
доля поступлений
от инкассации,
срок
использования р/с
КРЕДИТНАЯ
ИСТОРИЯ
↓ Времени принятия
решения
↑ Прибыльности и
комиссионного дохода
↑ Эффективности
предодобренных
предложений
НЕДОСТАТКИ ПРИЕМУЩЕСТВА
Умные советы: генерация на основе анализа карточных
транзакций клиентов (1/2)
За 3 месяца до крупной
транзакции не было
покупок, связанных с
авто, а после появились
Дата генерации
совета
Расходная транзакция
≥100 000 ₱
≤ 3 мес.В течении 3-х
месяцев нет
транзакций на
авто
Регулярные транзакции на
авто (АЗС, мойка, парковка)
…2 нед.
Дата генерации
совета
Расходная
транзакция
≥100 000 ₱
1 мес.
Увеличение числа транзакций на ремонт /
мебель*
1 мес. 1 мес.
1 мес.
Паттерн покупки авто
Паттерн ремонта/покупки мебели
Паттерн затрат на лечение
≤3 мес.
Расходы на лечение
≥ 40 000 ₽
При сравнении месяца
крупной покупки и месяца
после наблюдается рост
числа транзакций на
ремонт, мебель
По истории транзакций
находим период в
который происходит
активная оплата
лечения в РФ (≥ K ₽)
1
2
3
Умные советы: генерация на основе анализа карточных
транзакций клиентов (2/2)
Паттерн
Количество
советов
(шт.)
ДМС 262 700
Налоговый вычет
за 2015 год
217 474
Налоговый вычет
01.2016 – 02.2016
45 226
Начало ремонта 39 900
Покупка мебели 22 578
Покупка авто 12 612
ИТОГО 600 490
Сколько можно было дать советов? Где можно использовать?
Deep learning позволяет разрабатывать модели анализируя
естественный язык общения людей
…организовывать
социальные и
профессиональные
сообщества…
Можно оценивать
настроения людей…
... и даже предсказывать
движение цен акций,
вероятность банкротства
публичных компании
Комбинация данных, технологий и машинного обучения открывают
принципиально новые возможности, но требуют:
• изменения бизнес-культуры:
• data driven менеджмент
• кросс-функциональные команды и сотрудничество
• включения в компанию специалистов нового типа
• приобретения и освоения новых средств IT и создания
целостной высокотехнологичной платформы организации
Начало работ в этом направлении – стратегическое, а не
техническое решение
Повышение роли искусственного интеллекта должно
сопровождаться повышением степени контроля соответствующих
модельных рисков
ДАННЫЕ
МОДЕЛИ
ПРОЦЕССЫ
МОДЕЛЬНЫЙ
РИСК
Модельный риск и его источники
В 1628 году в Швеции новый
военный корабль «VASA»
затонул в свой первый рейс,
проплыв менее мили.
Причина аварии была в том,
что корабль ассиметричный:
будучи толще со стороны
одного из бортов.
Качество данных. Согласованность.
Во время Второй мировой войны командование английских ВВС проводило исследование
уязвимости английских бомбардировщиков . У многих возвращавшихся самолѐтов были
пробоины на крыльях и хвосте, и было принято решение укрепить их бронѐй.
Качество данных. Репрезентативность.
Качество данных. Полнота и однородность.
Ошибки в моделях. Правомерность предпосылок.
1-й бросок 2-й бросок 3-й бросок 4-й бросок
?
?
?
«Закон»
МИДОУ
1 / 8 500
1 / 8 500
х
=
1 / 72 250 000
Ошибки в процессах применения моделей
Благодарим за внимание!

More Related Content

What's hot

Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
Банковское обозрение
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
Mikhail Alekseev
 
Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?
Michael Kozloff
 
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
BranchMarketing
 
Насколько велики Big Data?
Насколько велики Big Data?Насколько велики Big Data?
Насколько велики Big Data?Michael Kozloff
 
Будущее медиа в эпоху больших данных: ничего личного
Будущее медиа в эпоху больших данных: ничего личногоБудущее медиа в эпоху больших данных: ничего личного
Будущее медиа в эпоху больших данных: ничего личного
Data-Centric_Alliance
 
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
web2win
 
Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014
RTB-media RU
 
FACETz for business
FACETz for businessFACETz for business
FACETz for business
Kirill Chistov
 
Дмитрий Сидорин. Как применить Big Data для роста трафика и продаж
Дмитрий Сидорин. Как применить Big Data для роста трафика и продажДмитрий Сидорин. Как применить Big Data для роста трафика и продаж
Дмитрий Сидорин. Как применить Big Data для роста трафика и продаж
Дмитрий Шахов
 
Возможности монетизации мобильных приложений: структура доходов
Возможности монетизации мобильных приложений: структура доходовВозможности монетизации мобильных приложений: структура доходов
Возможности монетизации мобильных приложений: структура доходовКонсалт-Центр
 
RTB for Agency (presentation)
RTB for Agency (presentation)RTB for Agency (presentation)
RTB for Agency (presentation)
RTB Media
 
Покупка данных через AdRiver DMP
Покупка данных через AdRiver DMPПокупка данных через AdRiver DMP
Покупка данных через AdRiver DMP
Soloway
 
Запчасти онлайн
Запчасти онлайнЗапчасти онлайн
Запчасти онлайн
Basil Boluk
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
AlgoMost
 
Imedia
ImediaImedia
RIF CIB 2015 DCA Big Data Value
RIF CIB 2015 DCA Big Data ValueRIF CIB 2015 DCA Big Data Value
RIF CIB 2015 DCA Big Data Value
Kirill Chistov
 
Покупка данных в AdRiver DMP
Покупка данных в AdRiver DMPПокупка данных в AdRiver DMP
Покупка данных в AdRiver DMPAdRiver
 

What's hot (20)

Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
Презентация Никиты Шаблыкова с конференции «BIG DATA: банки, финансовые компа...
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?
 
Megatable
MegatableMegatable
Megatable
 
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
 
Насколько велики Big Data?
Насколько велики Big Data?Насколько велики Big Data?
Насколько велики Big Data?
 
Будущее медиа в эпоху больших данных: ничего личного
Будущее медиа в эпоху больших данных: ничего личногоБудущее медиа в эпоху больших данных: ничего личного
Будущее медиа в эпоху больших данных: ничего личного
 
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
 
Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014
 
FACETz for business
FACETz for businessFACETz for business
FACETz for business
 
Дмитрий Сидорин. Как применить Big Data для роста трафика и продаж
Дмитрий Сидорин. Как применить Big Data для роста трафика и продажДмитрий Сидорин. Как применить Big Data для роста трафика и продаж
Дмитрий Сидорин. Как применить Big Data для роста трафика и продаж
 
Возможности монетизации мобильных приложений: структура доходов
Возможности монетизации мобильных приложений: структура доходовВозможности монетизации мобильных приложений: структура доходов
Возможности монетизации мобильных приложений: структура доходов
 
RTB for Agency (presentation)
RTB for Agency (presentation)RTB for Agency (presentation)
RTB for Agency (presentation)
 
Покупка данных через AdRiver DMP
Покупка данных через AdRiver DMPПокупка данных через AdRiver DMP
Покупка данных через AdRiver DMP
 
Запчасти онлайн
Запчасти онлайнЗапчасти онлайн
Запчасти онлайн
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
 
Imedia
ImediaImedia
Imedia
 
RIF CIB 2015 DCA Big Data Value
RIF CIB 2015 DCA Big Data ValueRIF CIB 2015 DCA Big Data Value
RIF CIB 2015 DCA Big Data Value
 
Покупка данных в AdRiver DMP
Покупка данных в AdRiver DMPПокупка данных в AdRiver DMP
Покупка данных в AdRiver DMP
 
Big data, бизнес, CRM
Big data, бизнес, CRMBig data, бизнес, CRM
Big data, бизнес, CRM
 

Viewers also liked

Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Newprolab
 
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Newprolab
 
Big data and public transport
Big data and public transportBig data and public transport
Big data and public transport
Tristan Wiggill
 
кибербезопасность касперский Finopolis2016_13окт_rus
кибербезопасность касперский Finopolis2016_13окт_rusкибербезопасность касперский Finopolis2016_13окт_rus
кибербезопасность касперский Finopolis2016_13окт_rus
finopolis
 
финансовая доступность и защита прав тарусов Finopolis2016_13окт
финансовая доступность и защита прав тарусов Finopolis2016_13октфинансовая доступность и защита прав тарусов Finopolis2016_13окт
финансовая доступность и защита прав тарусов Finopolis2016_13окт
finopolis
 
Blockchain Эдди Астанин, НРД
Blockchain Эдди Астанин, НРДBlockchain Эдди Астанин, НРД
Blockchain Эдди Астанин, НРД
finopolis
 
финансовая доступность и защита прав томилова Finopolis2016_13окт
финансовая доступность и защита прав томилова Finopolis2016_13октфинансовая доступность и защита прав томилова Finopolis2016_13окт
финансовая доступность и защита прав томилова Finopolis2016_13окт
finopolis
 
финансовый рынок в 2026 nigel vooght finopolis2016_13окт
финансовый рынок в 2026 nigel vooght finopolis2016_13октфинансовый рынок в 2026 nigel vooght finopolis2016_13окт
финансовый рынок в 2026 nigel vooght finopolis2016_13окт
finopolis
 
финансовая доступность и защита прав мамута Finopolis2016_13окт
финансовая доступность и защита прав мамута Finopolis2016_13октфинансовая доступность и защита прав мамута Finopolis2016_13окт
финансовая доступность и защита прав мамута Finopolis2016_13окт
finopolis
 
Blockchain Nigel Vooght, PWC
Blockchain Nigel Vooght, PWCBlockchain Nigel Vooght, PWC
Blockchain Nigel Vooght, PWC
finopolis
 
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13октфинансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
finopolis
 
банк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13октбанк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13окт
finopolis
 
финансовый рынок в 2026 греф finopolis2016_13окт
финансовый рынок в 2026 греф finopolis2016_13октфинансовый рынок в 2026 греф finopolis2016_13окт
финансовый рынок в 2026 греф finopolis2016_13окт
finopolis
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Newprolab
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Newprolab
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"
Newprolab
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Newprolab
 
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Newprolab
 
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Newprolab
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Newprolab
 

Viewers also liked (20)

Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...Data Science Week 2016.  Microsoft. "Интернет вещей и предиктивная аналитика ...
Data Science Week 2016. Microsoft. "Интернет вещей и предиктивная аналитика ...
 
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"Data Science Week 2016. SkyEng. "Data-driven экономика компании"
Data Science Week 2016. SkyEng. "Data-driven экономика компании"
 
Big data and public transport
Big data and public transportBig data and public transport
Big data and public transport
 
кибербезопасность касперский Finopolis2016_13окт_rus
кибербезопасность касперский Finopolis2016_13окт_rusкибербезопасность касперский Finopolis2016_13окт_rus
кибербезопасность касперский Finopolis2016_13окт_rus
 
финансовая доступность и защита прав тарусов Finopolis2016_13окт
финансовая доступность и защита прав тарусов Finopolis2016_13октфинансовая доступность и защита прав тарусов Finopolis2016_13окт
финансовая доступность и защита прав тарусов Finopolis2016_13окт
 
Blockchain Эдди Астанин, НРД
Blockchain Эдди Астанин, НРДBlockchain Эдди Астанин, НРД
Blockchain Эдди Астанин, НРД
 
финансовая доступность и защита прав томилова Finopolis2016_13окт
финансовая доступность и защита прав томилова Finopolis2016_13октфинансовая доступность и защита прав томилова Finopolis2016_13окт
финансовая доступность и защита прав томилова Finopolis2016_13окт
 
финансовый рынок в 2026 nigel vooght finopolis2016_13окт
финансовый рынок в 2026 nigel vooght finopolis2016_13октфинансовый рынок в 2026 nigel vooght finopolis2016_13окт
финансовый рынок в 2026 nigel vooght finopolis2016_13окт
 
финансовая доступность и защита прав мамута Finopolis2016_13окт
финансовая доступность и защита прав мамута Finopolis2016_13октфинансовая доступность и защита прав мамута Finopolis2016_13окт
финансовая доступность и защита прав мамута Finopolis2016_13окт
 
Blockchain Nigel Vooght, PWC
Blockchain Nigel Vooght, PWCBlockchain Nigel Vooght, PWC
Blockchain Nigel Vooght, PWC
 
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13октфинансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
финансовый рынок в 2026 греф триважныхслайда_finopolis2016_13окт
 
банк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13октбанк как It компания алексеев-finopolis2016_13окт
банк как It компания алексеев-finopolis2016_13окт
 
финансовый рынок в 2026 греф finopolis2016_13окт
финансовый рынок в 2026 греф finopolis2016_13октфинансовый рынок в 2026 греф finopolis2016_13окт
финансовый рынок в 2026 греф finopolis2016_13окт
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
 
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
Data Science Week 2016. Inten.to. "Мессенджеры и персональные ассистенты"
 
Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"Data Science Week 2016. Segmento, "Digital Employee"
Data Science Week 2016. Segmento, "Digital Employee"
 
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache ...
 
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
Data Science Week 2016. NVIDIA. "Платформы и инструменты для реализации систе...
 
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
Data Science Weekend 2017. Brand Analytics. Исследование трендов потребления ...
 
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросыData Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
Data Science Weekend 2017. 1С-Битрикс. Чатбот для подсказки ответов на вопросы
 

Similar to Data Science Week 2016. Sberbank

Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
Andrey Kazakevich
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
Ipo Board
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
Denodo
 
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиDigital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиBBDO Group
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
Sergey Gorshkov
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
Liubov Baydalina
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
Ilya Gershanov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
CleverDATA
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
BranchMarketing
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Ilya Gershanov
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
Denodo
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
Yuri Yashkin
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
queryhunter
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Yury Petrov
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данных
Elizaveta Alekseeva
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взглядAndrey Korshikov
 

Similar to Data Science Week 2016. Sberbank (20)

Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиDigital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данных
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взгляд
 

More from Newprolab

Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данныхData Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Newprolab
 
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Newprolab
 
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanData Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Newprolab
 
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Newprolab
 
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Newprolab
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Newprolab
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Newprolab
 
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Newprolab
 
Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"
Newprolab
 
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Newprolab
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Newprolab
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Newprolab
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Newprolab
 

More from Newprolab (13)

Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данныхData Science Weekend 2017. Urbica. Дизайн города, основанный на данных
Data Science Weekend 2017. Urbica. Дизайн города, основанный на данных
 
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
Data Science Weekend 2017. CleverDATA. Text mining of beauty blogs: о чем гов...
 
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanData Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
 
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
 
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
 
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...Data Science Weekend 2017.  Intento. Machine to Machine Communication in the ...
Data Science Weekend 2017. Intento. Machine to Machine Communication in the ...
 
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
Data Science Week 2016. QIWI. "Поиск сообществ в графах пользователей переводов"
 
Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"Data Science Week 2016. GlowByte, "Культура работы с данными"
Data Science Week 2016. GlowByte, "Культура работы с данными"
 
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
Data Science Week 2016. RockStat. "Мультиканальная атрибуция на основе вовлеч...
 
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
 
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
Data Science Week 2016. Homeapp. "Создание розничного data-driven продукта"
 
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
Data Science Week 2016. E-Contenta. "Data science в медиа-компаниях"
 

Data Science Week 2016. Sberbank

  • 2. До Big Data и Deep Machine Learning С ростом объѐма данных и появлением технологий Big Data, сократился путь от данных к мудрости за счет развития технологий машинного обучения WISDOM KNOWLEDGE INFORMATION DATA WISDOM DATA Информационный актив организации DATA Machine Learning После Big Data и Deep Machine Learning
  • 3. Рост возможностей по хранению и обработке данных Существенно снизилась стоимость хранения данных Появилась возможность обрабатывать Большие данные 1,4 0,8 2015200519951985 40 00020 0000 100 00080 00060 00010 000 30 000 50 000 70 000 90 000 Teradata Vertica Greenplum Oracle Microsoft Hadoop USD 2009Сегодня На сегодняшний день мировая вычислительная мощность сопоставимая с 1,3 млрд ноутбуков Стоимость хранения 1 ТБ данных 1 2
  • 4. Определение Big Data Данные: большие массивы цифровых структурированных и неструктурированных данных Технологии: возможность хранить и обрабатывать практически неограниченные объемы данных любой структуры Существенное снижение стоимости хранения и обработки данных Аналитика и Машинное обучение: выявление скрытых зависимостей на основе анализа всего объема данных Новое качество результатов машинного обучения Big Data – это Таблицы, Текст, Изображение, Голос, Видео Hadoop, Spark,.. Исследователи данных открывают новые закономерности и возможности для бизнеса
  • 5. Эволюция аналитики и организации 4 1.0 Традиционная аналитика • Преимущественно описательная аналитика и отчетность • Данные из внутренних источников, относительно небольшие, структурированные • Разрозненные группы аналитиков • Аналитика вспомогательный второстепенный инструмент 2.0 Большие данные • Сложные, большие, неструктурированные источники данных • Новые аналитические и вычислительные возможности • Появление «исследователей данных» • Продукты и услуги, основанных на данных источник прибыли 3.0 Data-driven организация • Целостное сочетание традиционной аналитики и больших данных • Аналитика как неотъемлемый компонент ведения бизнеса • Быстрое и гибкое обеспечение решения • Аналитические инструменты доступны в точке принятия решений • Аналитика интегрирована в операционные процессы Аналитика выполняет вспомогательную и необязательную функцию для принятия решений Создание продуктов и услуг, основанных на данных Аналитика встроена во все операционные и бизнес-процессы Билл Фрэнкс, Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики
  • 6. Основа Data Driven организации 5 Основные элементы:  Данные  Технологии работы с данными  Модели и аналитика  Принятие решений  Культура обращения с данными Компетенция топ-менеджеров – выстроить цепочку создания ценности на основе всех элементов ДАННЫЕ ТЕХНО ЛОГИИ РАБОТЫ С ДАННЫМИ МОДЕЛИ ПРИНЯТИЕ РЕШЕНИЙ DATA DRIVEN ОРГАНИЗАЦИЯ КУЛЬТУРА ОБРАЩЕНИЯ С ДАННЫМИ Билл Фрэнкс, ‘Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики’ Том Дэвенпорт, Джоан Харрис ‘Аналитика как конкурентное преимущество. Новая наука побеждать’
  • 7. Транзакции по картам 6 Транзакции по картам это пример структурированных, однородных данных. Нет «плохих» или «хороших» данных. Разные типы данных могут быть полезны для разного класса задач. Важно уметь находить им применение. Представление в таблице реляционной БД Представление в файле: Объем Малый Большой Тип носителя Цифровые Аналоговые Место генерации Внутренние Внешние Способ генерации Машина Человек Доступность Низкая Высокая Качество Низкое Высокое Структурированность Низкая Высокая Однородность Низкая Высокая Связность Низкая Высокая
  • 8. КТО ОН? С КЕМ ОН СВЯЗАН? ЧТО ОН ДЕЛАЕТ? Сбор на одной платформе всех доступных данных о клиенте • Транзакции по картам и счетам • Историю подключения услуг • История посещения сайтов • Данные дочерних компаний • Открытые внешние данные • …… Очистка и объединение данных на уровне клиента в виде аналитических представлений Клиентский профиль 3 2 1 Связи
  • 9. Аналитические представления Связи Цепочки событий Интегральный профиль Идентификатор: • MDM ID • Id Соцсетей • Cookie (ClickStream) Соц.дем.: • Пол, возраст • Место жительства • Место работы • Образование • Уровень дохода • Семья…. Контакты.: • Email • Телефоны • Messenger IDs • ……. Интересы: • Автомобили • Недвижимость • Путешествия • Спорт • ……. ~150 млн. профилей Вершины: • Физ. Лица (клиенты) • Юр.лица • Интернет-пользователи Признак связи: • Перевод денежных средств • Владение активами • Родственные связи • Работа в одной организации к ипотеке 5б Детским товарам 7б Путешествиям 4б Кофе 1б Кино 2б Бензин 2б Одежду 9б 1 1 2 2 3 3 4 ЕдиныйID Потратил деньги на: Проявил интерес в интернете к: Последовательности действий по картам, счетам в интернет, агрегированные из детальных данных в логически понятные события: Связи физ. лиц, юр. лиц, профилей социальных сетей Сводная информация по клиенту1 2 3
  • 10. Данные как стратегический ресурс 9 Топливо и особенно каменный уголь в наше время составляют первейшее – после людей – условие всего промышленного развития всякой страны и всякой ее части Д.И. Менделеев, 1881 – 1883 г. Кто владеет информацией, тот владеет миром Натан Ротшильд, 1815 г. Данные и нефть – это стратегический ресурсы Владение большими объемами этих ресурсов дает владельцу потенциальное конкурентное преимущество. При этом владение данными создают только расходы, а продажа сырых не приносит значимой прибыли. Необходимо уметь извлекать из данных ценность за счет создания новых продуктов использующих аналитику
  • 11. Задачи технологий работы с данными • Получить извне • Передать между системами • Собрать в одном месте • Сохранить, предоставить доступ • Быстро находить нужное • Объединить в одной структуре • Рассчитать показатели • Обучить модель • Отчеты, дашборды, визуализация • Предписание в операционном процессе Загрузить Сохранить Обработать Принять решения
  • 12. Классификация технологий для работы с данными 11 Массивно параллельные системы управления базами данных Massive Parallel Processing (MPP) Технологии и Инструменты Интеграции и Трансформации Данных Extract Transform Load (ETL) Технологии и Инструменты Анализа и Визуализации Данных Business Intelligence (BI) Реляционные системы управления базами данных (RDBMS) Специализированные системы управления базами данных GraphDB FastGraph Распределенные системы хранения и обработки данных любых форматов Hadoop Системы распределенной обработка данных в оперативной памяти InMemory Машинное обучение и Искусственный интеллект Machine Learning (ML) and Artificial Intelligence (AI)
  • 13. Экосистема Hadoop 12 Определение технологий для работы в экосистеме – сложная задача, которая решается индивидуально исходя из потребностей и особенностей компании Управление ресурсам кластера Распределенная файловая система кластера Админист рировани е, управлен ие и координа ция YARN Вычисления в памяти Индексный поиск Машинное обучение NoSQL СУБД SQL аналитик на данных Hadoop Скриптовые языки Интеграция и потоковая обработка
  • 14. Продукты на основе данных Ценность данных для Банка возрастает за счет инвестиций в процессы и инфраструктуру хранения и обработки Данные для дескриптивной и предсказательной аналитики Данные для предписывающей аналитики Подготовленные данные • Обучение моделей • Пилотирование. • Регуляторная отчетность • Управленческая отчетность • Ad-hoc аналитика • Принятие решений в реальном времени. Сырые данные Системы источники Копии источников Консолидированные данные DM (Витрины данных общего назначения) DM (Специализированные витрины данных) Модели / BI Операционный процесс 13 • Проверка гипотез
  • 15. Банковская платформа ФАБРИКА ДАННЫХ ПРОДУКТОВЫЕ ФАБРИКИ БИЗНЕС-ХАБ ЕФС ТЕХНОЛОГИИ • Презентационный слой • Сценарии переходов между экранами • Бизнес логика ЕФС • Интеграционный слой • Управление процессами • Вычислительный грид • Оперативные данные • Аналитика данных • Хранение больших объемов данных ЖЕЛЕЗО Внутреннее «ОБЛАКО» DATA Оборудование Teradata Типовое оборудование (архитектура x86) Внешнее «ОБЛАКО»
  • 16. Большие зубы и новые технологии – это еще не все Компании, которые не использует новые технологии работы с данными, уже проиграли глобальную конкуренцию Но даже использование новых технологий – не залог выживания. Уже недостаточно просто иметь большие данные, нужно уметь их использовать для повышения эффективности операционных процессов. 15
  • 17. Сбербанк Технологии – Центр Компетенций Супермассивы Специалисты по технологиям хранения и обработки данных • Hadoop/Spark, NoSQL • Data Mining/Machine Learning • Java/Scala/Python/R • DevOps 16
  • 20. Основные типы аналитики Описание Что происходит сейчас? Что произойдет дальше? Как мы можем повлиять на события? Выделение ключевых характеристик, группировка данных Прогнозирование вероятности наступления будущих событий Рекомендация управляющих действий Сегментация клиентов Классификация типов событий Прогноз показателей Прогноз банкротства Предсказание надежности клиента Персонализация сайта Блокировка мошеннических транзакций Примеры Дескриптивная аналитика Предиктивная аналитика Предписывающая аналитика Принцип
  • 21. Machine Learning Machine Learning – способы воспроизведения связей между событиями и результатом
  • 22. Machine Learning Gini = 55% Time = 12-20 h Gini = 80% Time = 3-4 h Отвечаем на вопросы: • Что происходит сейчас • Что вероятно произойдет дальше? Отвечаем на вопросы: • Что происходит сейчас • Что вероятно произойдет дальше? • Как мы можем повлиять на события?
  • 23. Deep Learning Deep Learning – способы воспроизведения системы связей между событиями и результатом, в том числе скрытых связей Генерация новых объектов Супермассивы данных Связи ‘событие - результат’ Распознавание образов, звуков, текста Системы связей ‘событие - результат’
  • 24. Уже сегодня глубинные нейросети способны создавать ‘шедевры’, но все еще под контролем человека Deep Learning: как это работает Картина создана с помощью алгоритмов машинного обучения Рыцарь превратился в мутанта т.к. в обучающей выборке было слишком много фотографий собак
  • 26. 2012 2013 2014 2015 Предотвращение случаев мошенничества с документами на основе анализа фото и данных клиента Развитие технологии для исходной идентификации клиентов АС САФИ Анализ и сравнение с базой данных метрических шаблонов Итоговый результат модели Анализ правил текущей и исторической заявок Биометрический анализ образов Система анализа фотоизображений ‘САФИ’ Запуск САФИ Ущерб от мошенничества с паспортом
  • 27. Запуск в промышленную эксплуатацию в сентябре 2015 года Рост качества модели на +7 пп. Gini Оценка кредитных рисков с использованием данных мобильных операторов Доходы Кредитная история Скоринг. модель Заявка одобрена Скоринг. модель + данные моб. операторов Заявка отклонена Клиент имеет несколько тел. номеров одновременно Клиент постоянно меняет тел. номера Клиент пополнил счет своего моб. тел. менее чем на 10 р. за месяц
  • 28. МОДЕЛЬ ПРИНЯТИЯ РЕШЕНИЙ РУЧНАЯ РАБОТА ЭКПЕРТА Модель Затраты Качество Автоматизация процесса принятия решений андеррайтинга Задача Модель прогноза решения андеррайтера Источники Внешние и внутренние данные Результат Gini = 81% Применение Оптимизация кредитного процесса Качество Андеррайтер Затраты • Проверка документов • Проверка стоп факторов • Проверка в других источниках • Проверка работодателя • Верификация по телефону Решение по заявке Решение по заявке ◄◄ ► ►
  • 29. Машинное обучение при оценке кредитных рисков розничных клиентов (1/2) Кредитная история Данные отчѐтности Качественные факторы Применение алгоритмов машинного обучения позволило повысить качество модели за счет более точного отбора факторов Модель с традиционным отбором факторов Gini = 71% Рост качества модели на 4 п.п. Модель с отбором факторов на основе ML Gini = 75%
  • 30. Преимущества Банка Значительный поток заявок 50-60 тыс. в день Наличие необходимых компетенций Наличие необходимых данных 10-15 млн. карт. транзакций в день Разнообразие инструментов Адаптивные скоринговые модели Решает задачу автоматической разработки моделей оценки кредитного риска В основе системы - алгоритмы машинного обучения Машинное обучение при оценке кредитных рисков розничных клиентов (2/2) Gini = 67% Gini = 66% Разработка модели t = 3-4 недели Разработка модели t = 3-4 часа
  • 31. Моделирование вероятности дефолта для малого бизнеса в режиме реального времени (1/2) AS IS: ВНЕШНИЕ ИСТОЧНИКИ оценка рисков – 1-2 дня ОТЧЕТНОСТЬ КАЧЕСТВЕННЫЕ ФАКТОРЫ Трудовые и временные затраты Недостоверность отчетности Субъективность оценки качеств. факторов Смещенность оценки, если нет кред. истории Сбор полного комплекта затруднителен TO BE:ТРАНЗАКЦИОННЫЕ ДАННЫЕ оценка рисков – real-time НАЛОГИ регулярность и величина выплат, частота и величина штрафов ВЫРУЧКА равномерность/ стабильность/величина ДОЛГ выплаты в счет долга, частота и величина погашения просрочки и пр. Пр. данные доля поступлений от инкассации, срок использования р/с КРЕДИТНАЯ ИСТОРИЯ ↓ Времени принятия решения ↑ Прибыльности и комиссионного дохода ↑ Эффективности предодобренных предложений НЕДОСТАТКИ ПРИЕМУЩЕСТВА
  • 32. Умные советы: генерация на основе анализа карточных транзакций клиентов (1/2) За 3 месяца до крупной транзакции не было покупок, связанных с авто, а после появились Дата генерации совета Расходная транзакция ≥100 000 ₱ ≤ 3 мес.В течении 3-х месяцев нет транзакций на авто Регулярные транзакции на авто (АЗС, мойка, парковка) …2 нед. Дата генерации совета Расходная транзакция ≥100 000 ₱ 1 мес. Увеличение числа транзакций на ремонт / мебель* 1 мес. 1 мес. 1 мес. Паттерн покупки авто Паттерн ремонта/покупки мебели Паттерн затрат на лечение ≤3 мес. Расходы на лечение ≥ 40 000 ₽ При сравнении месяца крупной покупки и месяца после наблюдается рост числа транзакций на ремонт, мебель По истории транзакций находим период в который происходит активная оплата лечения в РФ (≥ K ₽) 1 2 3
  • 33. Умные советы: генерация на основе анализа карточных транзакций клиентов (2/2) Паттерн Количество советов (шт.) ДМС 262 700 Налоговый вычет за 2015 год 217 474 Налоговый вычет 01.2016 – 02.2016 45 226 Начало ремонта 39 900 Покупка мебели 22 578 Покупка авто 12 612 ИТОГО 600 490 Сколько можно было дать советов? Где можно использовать?
  • 34. Deep learning позволяет разрабатывать модели анализируя естественный язык общения людей …организовывать социальные и профессиональные сообщества… Можно оценивать настроения людей… ... и даже предсказывать движение цен акций, вероятность банкротства публичных компании
  • 35. Комбинация данных, технологий и машинного обучения открывают принципиально новые возможности, но требуют: • изменения бизнес-культуры: • data driven менеджмент • кросс-функциональные команды и сотрудничество • включения в компанию специалистов нового типа • приобретения и освоения новых средств IT и создания целостной высокотехнологичной платформы организации Начало работ в этом направлении – стратегическое, а не техническое решение Повышение роли искусственного интеллекта должно сопровождаться повышением степени контроля соответствующих модельных рисков
  • 37. В 1628 году в Швеции новый военный корабль «VASA» затонул в свой первый рейс, проплыв менее мили. Причина аварии была в том, что корабль ассиметричный: будучи толще со стороны одного из бортов. Качество данных. Согласованность.
  • 38. Во время Второй мировой войны командование английских ВВС проводило исследование уязвимости английских бомбардировщиков . У многих возвращавшихся самолѐтов были пробоины на крыльях и хвосте, и было принято решение укрепить их бронѐй. Качество данных. Репрезентативность.
  • 39. Качество данных. Полнота и однородность.
  • 40. Ошибки в моделях. Правомерность предпосылок. 1-й бросок 2-й бросок 3-й бросок 4-й бросок ? ? ? «Закон» МИДОУ 1 / 8 500 1 / 8 500 х = 1 / 72 250 000
  • 41. Ошибки в процессах применения моделей