Голограмма коллектива
Руководитель проекта магистерской программы
«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений Николаевич
Директор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.
Или какая нам от этого польза?
Экспасофт
· 2010, ЛША
· «Исследовательские системы», 2011 – н.в.
· FRiS – уникальная методология анализа данных,
школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика,
медицина, безопасность, нефтедобыча, финансы, ритейл,
облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
А.Д.
биоинформатика
медицина
безопасность
криминалистика
нефтедобыча
финансы
маркетинг
ритейл
облачные
вычисления
образование
Бизнес-домены
А.Д. – анализ данных
• Сложные продажи
• Неочевидная бизнес-польза
• НИР и ОКР
Услуги Экспасофта
· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков
· алгоритм распознавания клиентов, которые воспользуются дополнительными услугами
только после коммуникации с ними
· прогнозирование экспрессии генов, связь транскрипционных факторов
· распознавание марок автомашин по фотографии
· прогнозирование нагрузки на сервера
· распознавание и идентификация посетителей сети магазинов
· скоринговая модель по микрокредитам
· Программное обеспечение:
· библиотека алгоритмов Expasoft FRiS Studio
· представление текста в виде сетевой модели, пополнение базы данных извлечёнными из
текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование
Машинное обучение
Кластеризация Распознавание Прогнозирование Цензурирование
Выбор
информативных
признаков
Феномен Больших данных
· 50 лет
· 2002, 50% в цифре
· 2008, Nature
· 2011, McKinsey
4V
· Volume
· Объём данных
· Velocity
· Скорость создания и обработки данных
· Variety
· Разнообразие источников и форм
хранения данных
· Value
· Ценность
2014
2015
Особенности
больших данных
Чем отличаются от маленьких по существу?
Отказ от структурированности
N = всё
 сбор данных впрок
 не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение
 Отказ от структуры
 Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System
 Параллелизм обработки
 Резервирование
Неперемещаемость
· идея использовать вычислительные мощности на месте хранения
· MapReduce
· Hadoop
· TeraData Hortonworks
· IBM BigInsights
· Cloudera
· Spark
· реально быстро!
· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга
реального времени »)
Новые источники достоверных
данных
· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между
устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
Сокращение сроков вычислений
· in-memory
· SAP HANA
· 256Tb RAM
· Oracle TimesTen
· Опыт в РФ
· СургутНефтегаз
· опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)
· сокращение сроков формирования отчётов на порядки
· MapReduce
· Hadoop
Статистификация
· обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights)
· неожиданные связи в данных
· скрытые закономерности
· отказ от причинности
Какие отрасли первыми
будут пытаться внедрять
эти технологии?
наличие реального спроса в РФ
Спрос
РЕАЛЬНЫЙ
· 1) Банковский сектор, скоринг
· 2) Real time bidding (RTB)
платформы
· 3) Микрофинансы
· 4) Ведомственные структуры
(РКН, МВД, ФСБ и др.) +
телекомы
· 5) Авиакопании
ОПАЗДЫВАЮЩИЙ
· 1) Медицина. Текущий этап:
сбор данных. Региональные
дата-центры. НИР.
2) Госуслуги. Рекомендации.
Оценка качества. СМЭВ. 300млрд.
Электронная Москва.
Маркетинговое "давление"
· 1) реклама и продвижение вендоров:
· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights), SAP HANA, EMC
Pivotal HD
· 2) "вольные" евангелисты:
· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры
· Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло-
машина, Сноуден
Реальные основания для "давления"
· Потенциальные рынки данных:
· Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др.
· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.)
· Рыночные факторы:
· Снижение себестоимости хранения, вычислений
· Возможность получать "всю" информацию о явлении (богатство сенсоров)
· Отход от структурированности (NoSQL базы) и синхронности (отход от ACID)
· Уход в параллелизм (закон Мура перестал действовать)
Отвечаем на вызов
"Кадры решают всё!" (на основе данных)
•самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайн
Онлайн-курсы
bit.ly/IntuitBDA
•вовлекаем в мобильность
•готовим для индустрии и для науки
Магистратура
bigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образование
expasoft.com/edu
Образовательная стратегия в Экспасофт
Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
Первый в России онлайн-курс по
Big Data Analytics
Загоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин Юрий
Александрович
Зырянов Александр
Олегович
д. т. н., академик МАИ, профессор,
зав. лаб. анализа данных ИМ СО РАН
к.ф.-м.н., директор по развитию
«Экспасофт»
к.т.н., ассистент кафедры
общей информатики ФИТ
НГУ
к.т.н., преподаватель кафедры
общей информатики ФИТ НГУ
Data-аналитик,
ООО Экспасофт
Введение в
когнитивный анализ
данных
Введение в «большие
данные»
Области применения
больших данных
Основы языка R
Разработка
алгоритмов на
базе FRiS-
функции
Обзор технологий
хранения больших
данных
Программирование
на языке R
Инструменты Data
Mining
http://bit.ly/IntuitBDA
Учебный план магистратуры
Data
BUSINESS
UNDERSTANDING
DATA UNDERSTANDING
DATA PREPARATION
MODELING
EVALUATION
DEPLOYMENT
CRISP-DM
https://infocus.emc.com/william_schmarzo/bills-most-excellent-data-scientist-adventure/
Команда
Конкурсы
· 1е место, 2015, AVITO
· 1е место, 2015, eKapusta
· 4е место среди 619 команд, 2009, Data Mining Cup
Чай-перерыв
Кейсы
Анализа больших данных
НГУ-Parallels
· Прогнозирование нагрузок на
сервера по характеру запросов к
ним
Препринт научной статьи
Выбор жены
http://www.wired.com/2014/01/how-to-hack-okcupid/all/
Chris McKinlay. Математик, 35 лет. Сайт знакомств
OkCupid. Алгоритмы рекомендаций. Послал десятки
писем рекомендованным. Сходил на 6 свиданий.
Базовый алгоритм OkCupid определил менее 100 анкет
(из 80000 в Лос-Анджелесе) с совместимостью более
90%.
Выбор жены
Python для обработки анкет.
12 ложных своих анкет.
Боты для ответов на вопросы (чтобы увидеть ответы
просматриваемых). Забанили. Научил их вести себя по-
человечески. (Понаблюдал за другом, сымитировал его
поведение).
Через 3 недели получил 6 000 000 ответов от более чем
20 000 женщин.
Не спал ночами, отложил диссертацию.
Кластеризация K-Modes.
5000 анкет собрал для контроля.
Получилось 7 кластеров.
Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.
· Text-mining двух кластеров - ключевые интересы.
· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
Навигация
· 1839 год. Мори Мэтью Фонтейн, ВМС
США, позже начальник архива морских
карт в Вашингтоне.
· «Датифицировал» архивы моряков.
· «Физическая география моря» в 1855
году
1. Карта навигации, короткие пути
(из Нью-Йорка к экватору вместо 40
суток только 24)
2. Потоки течений, океанография
3. Закладка трансатлантического
телеграфного кабеля
Нефть,
это наше всё
Востребованы конкурентоспособные решения
Восстановление данных фракционного
состава добываемой смеси
Данные:
· 3 исходных параметра ($10k)
· 3 целевых параметра ($200k)
· 5 участков данных
· Частота измерений – раз в минуту
· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
Сравнение алгоритмов
Алгоритмы прогнозирования gas oil water
LinearRegression 0,0326 0,1734 0,2018
ZeroR 0,0652 0,1022 0,1103
M5P 0,0326 0,1695 0,1619
MultilayerPerceptron 0,0426 0,3623 0,3484
IsotonicRegression 0,06 0,143 0,1439
LeastMedSq 0,02 0,281 0,3569
PaceRegression 0,0281 0,1993 0,3656
RBFNetwork 0,0651 0,1023 0,1105
SimpleLinearRegression 0,027 0,1939 0,227
SMOreg 0,0229 0,3306 0,4426
IBk 0,0635 0,1519 0,1528
LWL 0,0633 0,112 0,1164
ConjunctiveRule 0,0637 0,1042 0,1173
M5Rules 0,0326 0,1695 0,1601
DecisionTable 0,062 0,104 0,1124
DecisionStump 0,063 0,1099 0,1125
REPTree 0,0616 0,1416 0,1595
KStar 0,0645 0,1041 0,1124
Неожиданные
открытия
Кейсы из книги
«Прогнозируя Будущее: Кто кликнет, купит, соврет
или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Чем больше общих генов в паре, тем
больше вероятность неверности жены
Молодцы пускают слюни по поводу
спортивных автомобилей
Курильщики реже страдают от туннельного
синдрома запястья
Террористы-смертники
жизнь не страхуют
После выборов преступность увеличивается
Желтые и оранжевые автомобили реже
попадают в аварию
· реже всего в аварии попадают автомобили оранжевого,
желтого, коричневого и фиолетового цвета. Так, на общее
количество желтых машин, имеющих страховку, приходится
только 1% страховых возмещений, на автомобили оранжевого
цвета немного больше — 8%.
· одна из ведущих страховых компаний в России
· Часто в аварии попадают машины красных оттенков (в общем
количестве страховых возмещений по ДТП их доля составляет
62%)
· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.
· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если
владелец красного авто и едет спокойно и правила соблюдает,
надо быть внимательным к другим участникам дороги.
CAPEX & OPEX
Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
Как делает Beeline?
BigData-процесс в Вымпелкоме (2014)
«Фабрика идей»
•Формализация
•Анализ
•План
Фабрика
идей
•Источники
•Пилот
•Доработка
•Оценка
•Выпуск
решения
Реализация
•Актуальность
•Доступность
•Производительность
•Масштабируемость
•Работа с
инцидентами
Результат
Секретные ингредиенты от Билайна
· Инфраструктура для БД
· «Фабрика идей»
· Вовлечённость всех подразделений
· Команда, мотивированная на результат и открытия
· Соответствие потребностям бизнеса
· Получить быстрый результат
https://events.yandex.ru/lib/talks/2948/
, НГУ
Зачем управленцам математика? - HBR
• Подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
• Пройдите программу статистики для руководящих
работников или онлайновый курс обучения или
поучитесь у своих аналитиков, поработав с ними
вместе над проектами
• Обратиться к специалистам по планированию
экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей
специализации
• Гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи
• гипотезы
• донесение результатов до заинтересованных лиц
• Задавайте по ходу дела много вопросов
• больше деталей
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
http://bit.ly/HBRbigdata
Материалы для повышения
квалификации по направлению курса
· Видео лекции ШАД по машинному
обучению
· http://shad.yandex.ru/lectures/mac
hine_learning.xml
· Курс по большим данным на Интуит
· http://bit.ly/IntuitBDA
· Курс по озёрам данных
· https://educast.emc.com/learn/dat
a-lakes-for-big-data-may-june
Курсы на Coursera.org
· Introduction to Data Science
· https://www.coursera.org/course/datasci
· Machine Learning
· https://www.coursera.org/course/ml
· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm
· Natural Language processing
· https://www.coursera.org/course/nlp
· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data,
Exploratory Data Analysis, Reproducible Research, Statistical
Inference, Regression Models, Practical Machine Learning,
Developing Data Product, Capstone Project
· Core Concepts of Data Analysis
· https://www.coursera.org/course/datan
Запишитесь на курс
Только хардкор – только офлайн
Курс «Аналитика больших данных для
бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС
10:00 – 11:20
18:00 – 19:20 18:00 – 19:20 11:30 – 13:00
19:30 – 21:00 19:30 – 21:00
• Диплом НГУ о повышении квалификации на 96 часов
• с 20 октября по 20 декабря
• Проектная работа над известными кейсами и кейсом вашей компании
Нити-дисциплины
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
Роли – голограмма коллектива
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
DataScientist
CIO
Бизнес-
аналитик, дата-
аналитик
Разработчик
DBA
Научитесь делать
· Ставить задачи в области больших данных.
· Понимать и самостоятельно писать программы на языке Python.
· Работать в студии анализа данных Orange.
· Работать с Tableau (визуализация, представление данных).
· Представлять результаты анализа внутренним и внешним заказчикам.
Принесёте в компанию
· Новое понимание ролей всех участников процесса работы с большими
данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для
решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов
анализа данных.
· Понимание создания новых бизнес-моделей на основе данных
Ждём вас на курсах

2015 голограмма коллектива

  • 1.
    Голограмма коллектива Руководитель проектамагистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт» Открытый семинар по кейсам больших данных. Или какая нам от этого польза?
  • 2.
    Экспасофт · 2010, ЛША ·«Исследовательские системы», 2011 – н.в. · FRiS – уникальная методология анализа данных, школа Н.Г. Загоруйко · 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг · Услуги по анализу данных
  • 3.
  • 4.
    Услуги Экспасофта · Построениепрогнозных моделей: · прогнозирование биофизических свойств по аминокислотному составу белков · алгоритм распознавания клиентов, которые воспользуются дополнительными услугами только после коммуникации с ними · прогнозирование экспрессии генов, связь транскрипционных факторов · распознавание марок автомашин по фотографии · прогнозирование нагрузки на сервера · распознавание и идентификация посетителей сети магазинов · скоринговая модель по микрокредитам · Программное обеспечение: · библиотека алгоритмов Expasoft FRiS Studio · представление текста в виде сетевой модели, пополнение базы данных извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения · Образование
  • 5.
    Машинное обучение Кластеризация РаспознаваниеПрогнозирование Цензурирование Выбор информативных признаков
  • 6.
    Феномен Больших данных ·50 лет · 2002, 50% в цифре · 2008, Nature · 2011, McKinsey
  • 7.
    4V · Volume · Объёмданных · Velocity · Скорость создания и обработки данных · Variety · Разнообразие источников и форм хранения данных · Value · Ценность
  • 9.
  • 10.
  • 11.
  • 13.
    Отказ от структурированности N= всё  сбор данных впрок  не знаем, какие вопросы будем задавать NoSQL - Not Only SQL: документо-ориентированные, ключ-значение  Отказ от структуры  Отказ от консистентности в пользу доступности или параллелизма HDFS – Hadoop Distributed File System  Параллелизм обработки  Резервирование
  • 14.
    Неперемещаемость · идея использоватьвычислительные мощности на месте хранения · MapReduce · Hadoop · TeraData Hortonworks · IBM BigInsights · Cloudera · Spark · реально быстро! · (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)
  • 15.
    Новые источники достоверных данных ·Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами. · Социальные сети (скоринг по соц. профилю, RTB) · Открытые данные: http://data.gov.ru/, http://data.mos.ru/
  • 16.
    Сокращение сроков вычислений ·in-memory · SAP HANA · 256Tb RAM · Oracle TimesTen · Опыт в РФ · СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”) · сокращение сроков формирования отчётов на порядки · MapReduce · Hadoop
  • 17.
    Статистификация · обращение кстатистическим методам · обращение к интеллектуальному анализу данных (Data Mining) · поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности · отказ от причинности
  • 18.
    Какие отрасли первыми будутпытаться внедрять эти технологии? наличие реального спроса в РФ
  • 19.
    Спрос РЕАЛЬНЫЙ · 1) Банковскийсектор, скоринг · 2) Real time bidding (RTB) платформы · 3) Микрофинансы · 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) + телекомы · 5) Авиакопании ОПАЗДЫВАЮЩИЙ · 1) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР. 2) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.
  • 20.
    Маркетинговое "давление" · 1)реклама и продвижение вендоров: · Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights), SAP HANA, EMC Pivotal HD · 2) "вольные" евангелисты: · В. Майер-Шёнбергер, Р. Смолан и др. · 3) осознание возможностей BigData в обществе, подтверждающие примеры · Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло- машина, Сноуден
  • 21.
    Реальные основания для"давления" · Потенциальные рынки данных: · Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др. · Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.) · Рыночные факторы: · Снижение себестоимости хранения, вычислений · Возможность получать "всю" информацию о явлении (богатство сенсоров) · Отход от структурированности (NoSQL базы) и синхронности (отход от ACID) · Уход в параллелизм (закон Мура перестал действовать)
  • 22.
    Отвечаем на вызов "Кадрырешают всё!" (на основе данных)
  • 23.
    •самая широкая аудитория(школьники, разработчики, бакалавры) •средство привлечения из онлайн в офлайн Онлайн-курсы bit.ly/IntuitBDA •вовлекаем в мобильность •готовим для индустрии и для науки Магистратура bigdatansu.ru •укрепление научных школАспирантура •повышение квалификации в области обработки больших данных Доп. Образование expasoft.com/edu Образовательная стратегия в Экспасофт
  • 24.
    Орг-формы ИППК или ЦДОНГУ ГАУ «Центр» - межвуз. маг. КА Сухорукова Компетенции ЦЕРН Нейросети ФЭЧ ИЯФ Спутники Нейросети Военка ИАЭ FRiS, оптим. алг, онтологии, логика Распознавание ИМ Банки данных CUDA, DNA Биоинформатика ИЦиГ, УНИПРО, НПС Архивы Онтологии, логика Информатика ИСИ СО РАН ССКЦ Информатика ИВТ, ИВМиМГ СОРМ Сбор, хранение Безопасность Сигнатек ? Безопасность Безопасность СИБ Инициативы Магистерская программа Аспирантура Краткосрочные курсы СХД 1 Pb Хранение Кардиология, Радиология НИИПК ? Хранение Медицина НИИТО FRiS, оптим. алг, онтологии, логика, управление BDA Безопасность, медицина, финансы, сервера Экспасофт Приборы ? Унискан, ТИОН Игры Slpunk Игры Alawar МТС Транзакции Таргетинг Eyeline Банки Транзакции Финансы ЦФТ ? Вычисления, хранение ИЦКТ Потребители ? Обработка, образование Медицина, биология, физика, ИТ, и др. НГУ Карты Геопространство Карты DataEast
  • 25.
    Первый в Россиионлайн-курс по Big Data Analytics Загоруйко Николай Григорьевич Павловский Евгений Николаевич Борисова Ирина Артёмовна Аникин Юрий Александрович Зырянов Александр Олегович д. т. н., академик МАИ, профессор, зав. лаб. анализа данных ИМ СО РАН к.ф.-м.н., директор по развитию «Экспасофт» к.т.н., ассистент кафедры общей информатики ФИТ НГУ к.т.н., преподаватель кафедры общей информатики ФИТ НГУ Data-аналитик, ООО Экспасофт Введение в когнитивный анализ данных Введение в «большие данные» Области применения больших данных Основы языка R Разработка алгоритмов на базе FRiS- функции Обзор технологий хранения больших данных Программирование на языке R Инструменты Data Mining http://bit.ly/IntuitBDA
  • 26.
  • 27.
  • 28.
  • 29.
  • 32.
    Конкурсы · 1е место,2015, AVITO · 1е место, 2015, eKapusta · 4е место среди 619 команд, 2009, Data Mining Cup
  • 33.
  • 34.
  • 35.
    НГУ-Parallels · Прогнозирование нагрузокна сервера по характеру запросов к ним Препринт научной статьи
  • 36.
    Выбор жены http://www.wired.com/2014/01/how-to-hack-okcupid/all/ Chris McKinlay.Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий. Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.
  • 37.
    Выбор жены Python дляобработки анкет. 12 ложных своих анкет. Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по- человечески. (Понаблюдал за другом, сымитировал его поведение). Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин. Не спал ночами, отложил диссертацию. Кластеризация K-Modes. 5000 анкет собрал для контроля. Получилось 7 кластеров.
  • 38.
    Выбор жены · Понравилосьдва кластера. Создал и оптимизировал под них профили A и B. · Text-mining двух кластеров - ключевые интересы. · Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
  • 40.
    Навигация · 1839 год.Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне. · «Датифицировал» архивы моряков. · «Физическая география моря» в 1855 году 1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24) 2. Потоки течений, океанография 3. Закладка трансатлантического телеграфного кабеля
  • 41.
    Нефть, это наше всё Востребованыконкурентоспособные решения
  • 42.
    Восстановление данных фракционного составадобываемой смеси Данные: · 3 исходных параметра ($10k) · 3 целевых параметра ($200k) · 5 участков данных · Частота измерений – раз в минуту · Всего 66052 измерения 12мм 13мм 11мм 12мм 13мм
  • 43.
    Сравнение алгоритмов Алгоритмы прогнозированияgas oil water LinearRegression 0,0326 0,1734 0,2018 ZeroR 0,0652 0,1022 0,1103 M5P 0,0326 0,1695 0,1619 MultilayerPerceptron 0,0426 0,3623 0,3484 IsotonicRegression 0,06 0,143 0,1439 LeastMedSq 0,02 0,281 0,3569 PaceRegression 0,0281 0,1993 0,3656 RBFNetwork 0,0651 0,1023 0,1105 SimpleLinearRegression 0,027 0,1939 0,227 SMOreg 0,0229 0,3306 0,4426 IBk 0,0635 0,1519 0,1528 LWL 0,0633 0,112 0,1164 ConjunctiveRule 0,0637 0,1042 0,1173 M5Rules 0,0326 0,1695 0,1601 DecisionTable 0,062 0,104 0,1124 DecisionStump 0,063 0,1099 0,1125 REPTree 0,0616 0,1416 0,1595 KStar 0,0645 0,1041 0,1124
  • 44.
    Неожиданные открытия Кейсы из книги «ПрогнозируяБудущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 45.
    Чем больше общихгенов в паре, тем больше вероятность неверности жены
  • 46.
    Молодцы пускают слюнипо поводу спортивных автомобилей
  • 47.
    Курильщики реже страдаютот туннельного синдрома запястья
  • 48.
  • 49.
  • 50.
    Желтые и оранжевыеавтомобили реже попадают в аварию · реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%. · одна из ведущих страховых компаний в России · Часто в аварии попадают машины красных оттенков (в общем количестве страховых возмещений по ДТП их доля составляет 62%) · Объясняется это тем, что красный выбирают в основном водители молодые, имеющий маленький водительский стаж. · Другая возможная причина: красный цвет вызывает у человека активизацию процессов, возбуждённость. Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги.
  • 51.
  • 52.
    Big Data проекты сборданных (CAPEX) • Сервера • Облака • Инфраструктура извлечение пользы (value) (OPEX) • команда • Data Scientist • Data Engineer • Manager • процесс • сбор данных • инвентаризация источников • доступ к данным • физический • юридический • мощности по обработке данных • Hadoop - обрабатываем прямо там, где хранятся • в облаках • на локальных машинах • аналитические инструменты • Splunk • PreCog • BigML
  • 53.
  • 54.
    BigData-процесс в Вымпелкоме(2014) «Фабрика идей» •Формализация •Анализ •План Фабрика идей •Источники •Пилот •Доработка •Оценка •Выпуск решения Реализация •Актуальность •Доступность •Производительность •Масштабируемость •Работа с инцидентами Результат
  • 55.
    Секретные ингредиенты отБилайна · Инфраструктура для БД · «Фабрика идей» · Вовлечённость всех подразделений · Команда, мотивированная на результат и открытия · Соответствие потребностям бизнеса · Получить быстрый результат
  • 56.
  • 57.
    Зачем управленцам математика?- HBR • Подучите азы регрессионного анализа, статистического анализа и планирования экспериментов • Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами • Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании) • Сотрудничайте с аналитиками подходящей специализации • Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент • Наладить контакты между аналитиками и всеми службами (матричная организация) - чтобы были коммуникации • Сосредоточьтесь на начальной и конечной стадиях • постановка задачи • гипотезы • донесение результатов до заинтересованных лиц • Задавайте по ходу дела много вопросов • больше деталей • Создавайте культуру исследования, а не защиты • поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные http://bit.ly/HBRbigdata
  • 58.
    Материалы для повышения квалификациипо направлению курса · Видео лекции ШАД по машинному обучению · http://shad.yandex.ru/lectures/mac hine_learning.xml · Курс по большим данным на Интуит · http://bit.ly/IntuitBDA · Курс по озёрам данных · https://educast.emc.com/learn/dat a-lakes-for-big-data-may-june Курсы на Coursera.org · Introduction to Data Science · https://www.coursera.org/course/datasci · Machine Learning · https://www.coursera.org/course/ml · Probabilistic Graphical Models · https://www.coursera.org/course/pgm · Natural Language processing · https://www.coursera.org/course/nlp · Data Science Specialization – 9 курсов + проект · Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project · Core Concepts of Data Analysis · https://www.coursera.org/course/datan
  • 59.
    Запишитесь на курс Толькохардкор – только офлайн
  • 60.
    Курс «Аналитика большихданных для бизнеса» ПН ВТ СР ЧТ ПТ СБ ВС 10:00 – 11:20 18:00 – 19:20 18:00 – 19:20 11:30 – 13:00 19:30 – 21:00 19:30 – 21:00 • Диплом НГУ о повышении квалификации на 96 часов • с 20 октября по 20 декабря • Проектная работа над известными кейсами и кейсом вашей компании
  • 61.
    Нити-дисциплины BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML АлгоритмыМодели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum
  • 62.
    Роли – голограммаколлектива BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML Алгоритмы Модели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum DataScientist CIO Бизнес- аналитик, дата- аналитик Разработчик DBA
  • 63.
    Научитесь делать · Ставитьзадачи в области больших данных. · Понимать и самостоятельно писать программы на языке Python. · Работать в студии анализа данных Orange. · Работать с Tableau (визуализация, представление данных). · Представлять результаты анализа внутренним и внешним заказчикам.
  • 64.
    Принесёте в компанию ·Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели. · Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании. · Предметные знания всех основных направлений машинного обучения. · Понимание областей применения «джентельменского набора» алгоритмов анализа данных. · Понимание создания новых бизнес-моделей на основе данных
  • 65.

Editor's Notes

  • #3 Знают как «Исследовательские системы» Строго придерживаемся методов анализа данных Прошли достаточно большой путь обкатки мат.методов для бизнеса и понимания проблем предприятий Сформировали уникальную экспертизу по прогнозной аналитике
  • #8 Третьей характеристикой выделяют разнообразие. Действительно, мы наблюдаем большое количество оцифрованной информации в виде каких-то документов, таблиц, баз данных, сайтов и т.п. Если базы данных достаточно понятны в машинной обработке, то XML (полуструктурированные данные) и текстовые документы (неструктурированная информация) представляют определённую проблему, т.к. для них таких нет универсальных методов таких, как SQL для СУБД. Если они и разрабатываются где-то, то ещё так не распространены. Основной проблемой в обработке неструктурированной информации представляется извлечение смыслов текстов, решению которой посвящено целое направление научных исследований (Semantic Web), в т.ч. в корпорациях Google и Яндекс. Есть и другие проблемы с обработкой неструктурированной информации, об этом позже.