SlideShare a Scribd company logo
ААннааллиизз ддаанннныыхх
ии
ББооллььшшииее ддаанннныыее
ДДььяяккоонноовв АА..ГГ..
ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт
ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))
VVIIII ММеежжддууннааррооддннааяя ннааууччнноо--ппррааккттииччеессккааяя ккооннффееррееннцциияя ппааммяяттии АА..ОО.. ККррыышшттааннооввссккооггоо
««ММееттооддыы ии ппррооццееддууррыы ссооццииооллооггииччеессккиихх ииссссллееддоовваанниийй»»
Анализ данных и большие данные 2 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Сразу пример
2009 г. – новый штамм вируса гриппа H1N1
Необходима локализация, но мед. статистика опаздывает на 10 дней
https://www.google.org/flutrends/about/
Анализ данных и большие данные 3 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Google Flu Trends
Прогноз распространения заболевания по анализу запросов
«высокая температура»
«что делать при насморке»
...
Какие запросы?
Корреляция с распространением уже известных заболеваний
Признаки того, что потом назовут Big Data-аналитикой
 не строим модель
 используем все данные
 ищем закономерности для аналитики
2009–2011 – удивительно точный прогноз
2012–2013 – огромные ошибки при прогнозе (проект закрыт)
Анализ данных и большие данные 4 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Приводимые примеры
 научные проекты
 соревнования по анализу данных
 построение системы анализа больших данных в ИМ Озон
 проекты компании OOO АлгоМост
 книга В. Майер-Шенбергер, К. Кукьер Большие данные. Революция, которая изменит то, как мы живем,
работаем и мыслим, Манн, Иванов и Фербер, 2013.
Анализ данных и большие данные 5 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Когда появился анализ данных
3000/6000 лет до н. э. – письменность
2000 лет до н. э. – протоматематика, протоастрономия
3000 лет до н. э. – протохимия (умели получать медь, серебро,
свинец)
5–6 в. до н.э. – математика как наука
5–2 в. до н.э. – физика (Китай, Греция)
19 в. – протоанализ данных
Анализ данных и большие данные 6 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Вспышка холеры на Брод-стрит в 1854 году
Джон Сноу
((1155..0033..11881133 —— 1166..0066..11885588))
ббррииттааннссккиийй вврраачч,, ооддиинн иизз ппииооннеерроовв
ммаассссооввооггоо ввннееддрреенниияя ааннеессттееззииии ии
ммееддииццииннссккоойй ггииггииеенныы
Анализ данных и большие данные 7 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Исследования начальника Архива морских карт в Вашингтоне
Сокращение времени плавания судов,
пользуясь попутными ветрами и
течениями
Мэтью-Фонтейн Мори
((1144..0011..11880077 —— 0011..0022..11887733))
ааммееррииккааннссккиийй ммооррссккоойй ооффииццеерр,,
аассттрроонноомм,, ииссттоорриикк,, ооккееааннооггрраафф,,
ммееттееооррооллоогг,, ккааррттооггрраафф,, ггееооллоогг
Анализ данных и большие данные 8 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Исследования начальника Архива морских карт в Вашингтоне
Первые «большие данные» в
картографии – сбор сведений
морских журналов
Первая профессиональная
соцсеть – обмен информацией,
сотрудничество в анализе
течений (бутылочная почта)
Анализ данных и большие данные 9 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Математический аппарат – первые работы
Иоганн Карл Фридрих
Гаусс
(30.04.1977 –
23.02.1855)
Адриен Мари Лежандр
(18.09.1752 –
10.01.1833)
1795– 1805 Метод наименьших квадратов
Фрэнсис Гальтон
(16.02.1822 – 17.01.1911)
1886, Регрессия
Анализ данных и большие данные 10 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Причины появления «Больших данных»
VELOCITY скорость
поступления
VOLUME объёмы
VARIETY разнообразие
VERACITY достоверность
 удешевление средств хранения
информации
 ускорение средств обработки
информации
 миниатюризация устройств
(смартфоны, датчики и т.п.)
 новые форматы / неструктурированные
данные
 новые технологии (GPS)
 появление заинтересованных
компаний/лиц
 успехи отдельных подходов в ML
(например, DL)
Анализ данных и большие данные 11 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Особенности Big Data
1. Использование ВСЕХ данных, а не случайных выборок
2. Меньшие требования к точности
3. Не ищем причины, а корреляции
4. Важна Датификация
по книге Виктор Майер-Шенбергер и Кеннет Кукьер Большие данные:
Революция, которая изменит то, как мы живем, работаем и мыслим
Big Data – больше коммерческий и технологический термин
Visa: с помощью Hadoop сокращение времени обработки тестовых
записей за 2 года с 1 месяца до 13 минут
Анализ данных и большие данные 12 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Корреляция – не зависимость
ттррааттыы ннаа ннааууккуу // ппооввеешшееннььяя
hhttttpp::////ttyylleerrvviiggeenn..ccoomm//ssppuurriioouuss--ccoorrrreellaattiioonnss
Анализ данных и большие данные 13 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Корреляция – не зависимость
ддооккттооррссккииее ссттееппееннии вв ссооццииооллооггииии // ннееккооммммееррччеессккииее ззааппууссккии
ррааккеетт
hhttttpp::////ttyylleerrvviiggeenn..ccoomm//ssppuurriioouuss--ccoorrrreellaattiioonnss
Анализ данных и большие данные 14 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Встречаемость слов в книгах
hhttttppss::////bbooookkss..ggooooggllee..ccoomm//nnggrraammss
Анализ данных и большие данные 15 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Особенности Big Data в социологии
1) данные формируются без участия человека
2) данные совсем другие (более детальные, от новых источников,
новых форматов и т.п.)
3) собираются б.м. для других целей
Проблемы Big Data для науки
1) данные собираются динамическими системами
что посмотрит пользователь определяется текущими рекомендациями
как изменит запрос пользователь определяется подсказками
2) в многомерных данных проще найти корреляции
3) вопросы собственности / персональных данных
Анализ данных и большие данные 16 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Дальше...
Задачи анализа данных из опыта автора доклада
@Slanecartoons
Анализ данных и большие данные 17 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ поведения людей
Задача: оценка миграционных потоков, их изменение в зависимости
от политики и административных решений
Анализ данных и большие данные 18 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ поведения людей
по данным городских служб
Задача: согласование данных разных источников
(иногда несоответствие очень большое)
Анализ данных и большие данные 19 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ поведения клиентов
Интересно: счётчики посещения есть даже в обычных магазинах
Задачи: анализ конверсии / трафика
Анализ данных и большие данные 20 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Обнаружение аномалий: нетипичных точек продаж
Площадь Персонал Трафик Остановка Конкурент Магазин_продукты
Красноармейская, 10 40 4 5000 2 0 1
Просп. Ленина, 10 32 3 4000 3 1 1
Просп. Ленина, 15 30 3 15000 3 1 1
Ул. Л. Чайкиной 35 4 4000 2 2 2
Обнаружение аномалий: выявление нетипичного поведения
 подозрительное поведение в толпе
 подозрительные финансовые операции
 выявления инсайдеров
Анализ данных и большие данные 21 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ поведения клиентов
 нахождение целевой аудитории
 определение интересов клиента
(рекомендательные системы)
 кросс-продажи
 дополнительные услуги
 прогнозирование спроса
 повышение конверсии,
управление ценой
 оптимальный контент
(исследование – использование)
Задача: предсказание визита клиента и суммы покупки
http://www.kaggle.com/c/dunnhumbychallenge/
Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и
плотностей // Бизнес-информатика. 2014. №1 (27) С.68-77.
Анализ данных и большие данные 22 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Предложение дополнительных услуг
Есть статистика – кто и когда покупал страховку,
а кто – нет
Анализ данных и большие данные 23 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ поведения клиентов
Рекомендации: статистика + контент
Amazon: продажи ×100 по сравнению с рекомендациями аналитиков
Netflix: 75% продаж по рекомендациям
Анализ данных и большие данные 24 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ открытых данных
 Анализ данных счётчиков парковок, предложение маршрутов
 сервис по пробкам / прогноз пробок
 прогноз задержек транспорта и планирование маршрутов
Задача: прогноз задержек общественного транспорта
Анализ данных и большие данные 25 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Задача: прогноз криминальной активности
Анализ данных и большие данные 26 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Интернет как источник данных
 Определение возраста по сообщениям в форуме
 Детектирование оскорблений
 Анализ отношения к бренду
 Анализ политической активности населения
 Рекомендации групп / новостей
Анализ данных и большие данные 27 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Банковские задачи
 скоринг
 предсказание погашений
кредитов
 предсказание сумм снятий
с банкоматов
https://alexanderdyakonov.files.wordpress.com/2015/07/dyakonovfunnydm.pdf
Анализ данных и большие данные 28 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Автоматическая диагностика двигателей
Автоматическая классификация и категоризация
WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics // Lecture Notes in
Computer Science, том 8787, с. 541-548.
Анализ данных и большие данные 29 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Оценка персонала
 мониторинг качества
обслуживания в колл-центрах
 оценка эффективности
менеджеров
 система автоматического
доступа к ресурсам
Методы решения задач классификации с категориальными признаками // Прикладная математика
и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В.
Ломоносова, № 46, с. 103-127
Анализ данных и большие данные 30 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ социальных сетей
 Выявление сообществ в
социальной сети
 Предсказание событий
 Рекомендации
Граф цитирований Börner и др.
Анализ данных и большие данные 31 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Валидация данных
Конкурс Аvito:
Есть ли реклама на
изображениях, выкладываемых
на сайте
Анализ данных и большие данные 32 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ данных в медицине: Brain Computer Interface
Анализ данных и большие данные 33 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ данных в медицине: Проект СardioQvark
1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
x 10
4
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
время
уровеньсигнала
сигнал 8
сигнал 41
сигнал 1
 Мониторинг состояния
 Предсказание осложнений
 Исследование ЭКГ
 (Big Data: постоянный поток
данных от каждого пациента)
 Классификация (детекция
курильщика по ЭКГ)
http://cardioqvark.ru
Анализ данных и большие данные 34 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ данных в медицине: анализ фотоплетизмограмм
(Ангиоскан+АлгоМост)
0 20 000 40 000 60 000 80 000 90 000
7.3
7.4
7.5
7.6
7.7
7.8
7.9
x 10
4
время
проницаемость
2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6
x 10
4
-3000
-2000
-1000
0
1000
2000
время
проницаемость
сигнал
максимумы
0 20 40 60 80 100
-40
-20
0
20
40
время
давление(ву.е.)
первый пациент
второй пациент
А.М. Головина, А.Г. Дьяконов, О.А. Харациди Анализ схожести пульсовых волн в
фотоплетизмограммах // в печати
Анализ данных и большие данные 35 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ данных в образовании
Philip J. Guo, Juho Kim, Rob Rubin How video production affects student engagement: an empirical
study of MOOC videos // L@S '14 Proceedings of the first ACM conference on Learning @ scale
conference
короткие видео (<6 мин) эффективнее
Лучше лектор + слайды
Студийный видео менее привлекательней любительских
Рисование от руки более привлекательно, чем спецэффекты
Быстрый темп речи и энтузиазм более привлекательны
Анализ данных и большие данные 36 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Анализ данных в образовании
Задача: предсказание ответов студентов на вопросы теста
для рекомендательной системы
(алгоритм решает за студента
тест и сообщает ему
«потенциально неприятные для
него» вопросы).
http://www.kaggle.com/c/WhatDoYouKnow
Анализ данных и большие данные 37 слайд из 37 Дьяконов А.Г. (Москва, МГУ)
Методы и процедуры социологических исследований 23 сентября 2016 года
Резюме
 Анализ данных – молодая область ...
 Задач много, особенно в бизнесе
 В России существенно хуже с отрытыми данными,
соревнованиями
 Не было про ИИ, умные города и дома (специфика России)
 Не всегда актуальные задачи аналитики связаны с BIG DATA
Спасибо за внимание
Об авторе
Дьяконов Александр Геннадьевич
д.ф.-м.н., профессор РАН
Профессор кафедры мат. методов прогнозирования ВМК МГУ
Директор по науке компании АлгоМост
блог: http://alexanderdyakonov.wordpress.com/
почта: djakonov (a) mail (.) ru

More Related Content

Similar to Анализ данных и большие данные

Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Mail.ru Group
 
Otkrytoe mnenie
Otkrytoe mnenieOtkrytoe mnenie
Otkrytoe mnenieFOM-MEDIA
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинараWitology
 
Аналитические возможности системной социологии в исследовании проблем управления
Аналитические возможности системной социологии в исследовании проблем управленияАналитические возможности системной социологии в исследовании проблем управления
Аналитические возможности системной социологии в исследовании проблем управления
Andrey54
 
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
HRPR Camp - Самое технологичное событие в HR
 
Открытые данные - годовой отчёт 2015
Открытые данные - годовой отчёт 2015Открытые данные - годовой отчёт 2015
Открытые данные - годовой отчёт 2015
KomitetGI
 
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
Anatol Alizar
 
Разработка стратегии проекта «Общественное достояние» и оценка экономического...
Разработка стратегии проекта «Общественное достояние» и оценка экономического...Разработка стратегии проекта «Общественное достояние» и оценка экономического...
Разработка стратегии проекта «Общественное достояние» и оценка экономического...
Vladimir Haritonov
 
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
Moscow Urban Forum
 
Города, управляемые данными. Сравнение городов по уровню развития концепции D...
Города, управляемые данными. Сравнение городов по уровню развития концепции D...Города, управляемые данными. Сравнение городов по уровню развития концепции D...
Города, управляемые данными. Сравнение городов по уровню развития концепции D...
Moscow Urban Forum
 
Давыдов Экономика Рунета 6.03.2014
Давыдов Экономика Рунета 6.03.2014Давыдов Экономика Рунета 6.03.2014
Давыдов Экономика Рунета 6.03.2014
Сергей Давыдов
 
Бродовская Е.В Стратегии формирования установок протестного поведения в сет...
Бродовская Е.В   Стратегии формирования установок протестного поведения в сет...Бродовская Е.В   Стратегии формирования установок протестного поведения в сет...
Бродовская Е.В Стратегии формирования установок протестного поведения в сет...fuuuup
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...ivanov1566353422
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...efwd2ws2qws2qsdw
 
Исследование восприятия брендов в соцмедиа
Исследование восприятия брендов в соцмедиаИсследование восприятия брендов в соцмедиа
Исследование восприятия брендов в соцмедиа
Alexey Orap
 
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отраслиМЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
Михаил Тукнов
 
Опыт разработки стратегии пространственного развития, методические находки, т...
Опыт разработки стратегии пространственного развития, методические находки, т...Опыт разработки стратегии пространственного развития, методические находки, т...
Опыт разработки стратегии пространственного развития, методические находки, т...
urbanbairam
 
Моногорода. Перезагрузка
Моногорода. ПерезагрузкаМоногорода. Перезагрузка
Моногорода. Перезагрузка
basel_ru
 
Vol 2-no-19-19-2018
Vol 2-no-19-19-2018Vol 2-no-19-19-2018
Vol 2-no-19-19-2018
The scientific heritage
 
Города, управляемые данными
Города, управляемые даннымиГорода, управляемые данными
Города, управляемые данными
Moscow Urban Forum
 

Similar to Анализ данных и большие данные (20)

Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
 
Otkrytoe mnenie
Otkrytoe mnenieOtkrytoe mnenie
Otkrytoe mnenie
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
Аналитические возможности системной социологии в исследовании проблем управления
Аналитические возможности системной социологии в исследовании проблем управленияАналитические возможности системной социологии в исследовании проблем управления
Аналитические возможности системной социологии в исследовании проблем управления
 
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
 
Открытые данные - годовой отчёт 2015
Открытые данные - годовой отчёт 2015Открытые данные - годовой отчёт 2015
Открытые данные - годовой отчёт 2015
 
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
Отчёт «Разработка стратегии проекта «Общественное достояние» и оценка экономи...
 
Разработка стратегии проекта «Общественное достояние» и оценка экономического...
Разработка стратегии проекта «Общественное достояние» и оценка экономического...Разработка стратегии проекта «Общественное достояние» и оценка экономического...
Разработка стратегии проекта «Общественное достояние» и оценка экономического...
 
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
Москва: курс на полицентричность. Оценка эффектов градостроительных проектов ...
 
Города, управляемые данными. Сравнение городов по уровню развития концепции D...
Города, управляемые данными. Сравнение городов по уровню развития концепции D...Города, управляемые данными. Сравнение городов по уровню развития концепции D...
Города, управляемые данными. Сравнение городов по уровню развития концепции D...
 
Давыдов Экономика Рунета 6.03.2014
Давыдов Экономика Рунета 6.03.2014Давыдов Экономика Рунета 6.03.2014
Давыдов Экономика Рунета 6.03.2014
 
Бродовская Е.В Стратегии формирования установок протестного поведения в сет...
Бродовская Е.В   Стратегии формирования установок протестного поведения в сет...Бродовская Е.В   Стратегии формирования установок протестного поведения в сет...
Бродовская Е.В Стратегии формирования установок протестного поведения в сет...
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...
 
550.применение математических методов при анализе геологической информации у...
550.применение математических методов при анализе геологической информации  у...550.применение математических методов при анализе геологической информации  у...
550.применение математических методов при анализе геологической информации у...
 
Исследование восприятия брендов в соцмедиа
Исследование восприятия брендов в соцмедиаИсследование восприятия брендов в соцмедиа
Исследование восприятия брендов в соцмедиа
 
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отраслиМЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
МЕДИА И КОММУНИКАЦИИ: НОВЫЙ МИР. НОВЫЕ ПРАВИЛА. Аналитический обзор отрасли
 
Опыт разработки стратегии пространственного развития, методические находки, т...
Опыт разработки стратегии пространственного развития, методические находки, т...Опыт разработки стратегии пространственного развития, методические находки, т...
Опыт разработки стратегии пространственного развития, методические находки, т...
 
Моногорода. Перезагрузка
Моногорода. ПерезагрузкаМоногорода. Перезагрузка
Моногорода. Перезагрузка
 
Vol 2-no-19-19-2018
Vol 2-no-19-19-2018Vol 2-no-19-19-2018
Vol 2-no-19-19-2018
 
Города, управляемые данными
Города, управляемые даннымиГорода, управляемые данными
Города, управляемые данными
 

Анализ данных и большие данные

  • 1. ААннааллиизз ддаанннныыхх ии ББооллььшшииее ддаанннныыее ДДььяяккоонноовв АА..ГГ.. ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя)) VVIIII ММеежжддууннааррооддннааяя ннааууччнноо--ппррааккттииччеессккааяя ккооннффееррееннцциияя ппааммяяттии АА..ОО.. ККррыышшттааннооввссккооггоо ««ММееттооддыы ии ппррооццееддууррыы ссооццииооллооггииччеессккиихх ииссссллееддоовваанниийй»»
  • 2. Анализ данных и большие данные 2 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Сразу пример 2009 г. – новый штамм вируса гриппа H1N1 Необходима локализация, но мед. статистика опаздывает на 10 дней https://www.google.org/flutrends/about/
  • 3. Анализ данных и большие данные 3 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Google Flu Trends Прогноз распространения заболевания по анализу запросов «высокая температура» «что делать при насморке» ... Какие запросы? Корреляция с распространением уже известных заболеваний Признаки того, что потом назовут Big Data-аналитикой  не строим модель  используем все данные  ищем закономерности для аналитики 2009–2011 – удивительно точный прогноз 2012–2013 – огромные ошибки при прогнозе (проект закрыт)
  • 4. Анализ данных и большие данные 4 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Приводимые примеры  научные проекты  соревнования по анализу данных  построение системы анализа больших данных в ИМ Озон  проекты компании OOO АлгоМост  книга В. Майер-Шенбергер, К. Кукьер Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, Манн, Иванов и Фербер, 2013.
  • 5. Анализ данных и большие данные 5 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Когда появился анализ данных 3000/6000 лет до н. э. – письменность 2000 лет до н. э. – протоматематика, протоастрономия 3000 лет до н. э. – протохимия (умели получать медь, серебро, свинец) 5–6 в. до н.э. – математика как наука 5–2 в. до н.э. – физика (Китай, Греция) 19 в. – протоанализ данных
  • 6. Анализ данных и большие данные 6 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Вспышка холеры на Брод-стрит в 1854 году Джон Сноу ((1155..0033..11881133 —— 1166..0066..11885588)) ббррииттааннссккиийй вврраачч,, ооддиинн иизз ппииооннеерроовв ммаассссооввооггоо ввннееддрреенниияя ааннеессттееззииии ии ммееддииццииннссккоойй ггииггииеенныы
  • 7. Анализ данных и большие данные 7 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Исследования начальника Архива морских карт в Вашингтоне Сокращение времени плавания судов, пользуясь попутными ветрами и течениями Мэтью-Фонтейн Мори ((1144..0011..11880077 —— 0011..0022..11887733)) ааммееррииккааннссккиийй ммооррссккоойй ооффииццеерр,, аассттрроонноомм,, ииссттоорриикк,, ооккееааннооггрраафф,, ммееттееооррооллоогг,, ккааррттооггрраафф,, ггееооллоогг
  • 8. Анализ данных и большие данные 8 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Исследования начальника Архива морских карт в Вашингтоне Первые «большие данные» в картографии – сбор сведений морских журналов Первая профессиональная соцсеть – обмен информацией, сотрудничество в анализе течений (бутылочная почта)
  • 9. Анализ данных и большие данные 9 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Математический аппарат – первые работы Иоганн Карл Фридрих Гаусс (30.04.1977 – 23.02.1855) Адриен Мари Лежандр (18.09.1752 – 10.01.1833) 1795– 1805 Метод наименьших квадратов Фрэнсис Гальтон (16.02.1822 – 17.01.1911) 1886, Регрессия
  • 10. Анализ данных и большие данные 10 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Причины появления «Больших данных» VELOCITY скорость поступления VOLUME объёмы VARIETY разнообразие VERACITY достоверность  удешевление средств хранения информации  ускорение средств обработки информации  миниатюризация устройств (смартфоны, датчики и т.п.)  новые форматы / неструктурированные данные  новые технологии (GPS)  появление заинтересованных компаний/лиц  успехи отдельных подходов в ML (например, DL)
  • 11. Анализ данных и большие данные 11 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Особенности Big Data 1. Использование ВСЕХ данных, а не случайных выборок 2. Меньшие требования к точности 3. Не ищем причины, а корреляции 4. Важна Датификация по книге Виктор Майер-Шенбергер и Кеннет Кукьер Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим Big Data – больше коммерческий и технологический термин Visa: с помощью Hadoop сокращение времени обработки тестовых записей за 2 года с 1 месяца до 13 минут
  • 12. Анализ данных и большие данные 12 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Корреляция – не зависимость ттррааттыы ннаа ннааууккуу // ппооввеешшееннььяя hhttttpp::////ttyylleerrvviiggeenn..ccoomm//ssppuurriioouuss--ccoorrrreellaattiioonnss
  • 13. Анализ данных и большие данные 13 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Корреляция – не зависимость ддооккттооррссккииее ссттееппееннии вв ссооццииооллооггииии // ннееккооммммееррччеессккииее ззааппууссккии ррааккеетт hhttttpp::////ttyylleerrvviiggeenn..ccoomm//ssppuurriioouuss--ccoorrrreellaattiioonnss
  • 14. Анализ данных и большие данные 14 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Встречаемость слов в книгах hhttttppss::////bbooookkss..ggooooggllee..ccoomm//nnggrraammss
  • 15. Анализ данных и большие данные 15 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Особенности Big Data в социологии 1) данные формируются без участия человека 2) данные совсем другие (более детальные, от новых источников, новых форматов и т.п.) 3) собираются б.м. для других целей Проблемы Big Data для науки 1) данные собираются динамическими системами что посмотрит пользователь определяется текущими рекомендациями как изменит запрос пользователь определяется подсказками 2) в многомерных данных проще найти корреляции 3) вопросы собственности / персональных данных
  • 16. Анализ данных и большие данные 16 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Дальше... Задачи анализа данных из опыта автора доклада @Slanecartoons
  • 17. Анализ данных и большие данные 17 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ поведения людей Задача: оценка миграционных потоков, их изменение в зависимости от политики и административных решений
  • 18. Анализ данных и большие данные 18 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ поведения людей по данным городских служб Задача: согласование данных разных источников (иногда несоответствие очень большое)
  • 19. Анализ данных и большие данные 19 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ поведения клиентов Интересно: счётчики посещения есть даже в обычных магазинах Задачи: анализ конверсии / трафика
  • 20. Анализ данных и большие данные 20 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Обнаружение аномалий: нетипичных точек продаж Площадь Персонал Трафик Остановка Конкурент Магазин_продукты Красноармейская, 10 40 4 5000 2 0 1 Просп. Ленина, 10 32 3 4000 3 1 1 Просп. Ленина, 15 30 3 15000 3 1 1 Ул. Л. Чайкиной 35 4 4000 2 2 2 Обнаружение аномалий: выявление нетипичного поведения  подозрительное поведение в толпе  подозрительные финансовые операции  выявления инсайдеров
  • 21. Анализ данных и большие данные 21 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ поведения клиентов  нахождение целевой аудитории  определение интересов клиента (рекомендательные системы)  кросс-продажи  дополнительные услуги  прогнозирование спроса  повышение конверсии, управление ценой  оптимальный контент (исследование – использование) Задача: предсказание визита клиента и суммы покупки http://www.kaggle.com/c/dunnhumbychallenge/ Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. №1 (27) С.68-77.
  • 22. Анализ данных и большие данные 22 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Предложение дополнительных услуг Есть статистика – кто и когда покупал страховку, а кто – нет
  • 23. Анализ данных и большие данные 23 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ поведения клиентов Рекомендации: статистика + контент Amazon: продажи ×100 по сравнению с рекомендациями аналитиков Netflix: 75% продаж по рекомендациям
  • 24. Анализ данных и большие данные 24 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ открытых данных  Анализ данных счётчиков парковок, предложение маршрутов  сервис по пробкам / прогноз пробок  прогноз задержек транспорта и планирование маршрутов Задача: прогноз задержек общественного транспорта
  • 25. Анализ данных и большие данные 25 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Задача: прогноз криминальной активности
  • 26. Анализ данных и большие данные 26 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Интернет как источник данных  Определение возраста по сообщениям в форуме  Детектирование оскорблений  Анализ отношения к бренду  Анализ политической активности населения  Рекомендации групп / новостей
  • 27. Анализ данных и большие данные 27 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Банковские задачи  скоринг  предсказание погашений кредитов  предсказание сумм снятий с банкоматов https://alexanderdyakonov.files.wordpress.com/2015/07/dyakonovfunnydm.pdf
  • 28. Анализ данных и большие данные 28 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Автоматическая диагностика двигателей Автоматическая классификация и категоризация WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics // Lecture Notes in Computer Science, том 8787, с. 541-548.
  • 29. Анализ данных и большие данные 29 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Оценка персонала  мониторинг качества обслуживания в колл-центрах  оценка эффективности менеджеров  система автоматического доступа к ресурсам Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова, № 46, с. 103-127
  • 30. Анализ данных и большие данные 30 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ социальных сетей  Выявление сообществ в социальной сети  Предсказание событий  Рекомендации Граф цитирований Börner и др.
  • 31. Анализ данных и большие данные 31 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Валидация данных Конкурс Аvito: Есть ли реклама на изображениях, выкладываемых на сайте
  • 32. Анализ данных и большие данные 32 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ данных в медицине: Brain Computer Interface
  • 33. Анализ данных и большие данные 33 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ данных в медицине: Проект СardioQvark 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 x 10 4 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 время уровеньсигнала сигнал 8 сигнал 41 сигнал 1  Мониторинг состояния  Предсказание осложнений  Исследование ЭКГ  (Big Data: постоянный поток данных от каждого пациента)  Классификация (детекция курильщика по ЭКГ) http://cardioqvark.ru
  • 34. Анализ данных и большие данные 34 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ данных в медицине: анализ фотоплетизмограмм (Ангиоскан+АлгоМост) 0 20 000 40 000 60 000 80 000 90 000 7.3 7.4 7.5 7.6 7.7 7.8 7.9 x 10 4 время проницаемость 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 x 10 4 -3000 -2000 -1000 0 1000 2000 время проницаемость сигнал максимумы 0 20 40 60 80 100 -40 -20 0 20 40 время давление(ву.е.) первый пациент второй пациент А.М. Головина, А.Г. Дьяконов, О.А. Харациди Анализ схожести пульсовых волн в фотоплетизмограммах // в печати
  • 35. Анализ данных и большие данные 35 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ данных в образовании Philip J. Guo, Juho Kim, Rob Rubin How video production affects student engagement: an empirical study of MOOC videos // L@S '14 Proceedings of the first ACM conference on Learning @ scale conference короткие видео (<6 мин) эффективнее Лучше лектор + слайды Студийный видео менее привлекательней любительских Рисование от руки более привлекательно, чем спецэффекты Быстрый темп речи и энтузиазм более привлекательны
  • 36. Анализ данных и большие данные 36 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Анализ данных в образовании Задача: предсказание ответов студентов на вопросы теста для рекомендательной системы (алгоритм решает за студента тест и сообщает ему «потенциально неприятные для него» вопросы). http://www.kaggle.com/c/WhatDoYouKnow
  • 37. Анализ данных и большие данные 37 слайд из 37 Дьяконов А.Г. (Москва, МГУ) Методы и процедуры социологических исследований 23 сентября 2016 года Резюме  Анализ данных – молодая область ...  Задач много, особенно в бизнесе  В России существенно хуже с отрытыми данными, соревнованиями  Не было про ИИ, умные города и дома (специфика России)  Не всегда актуальные задачи аналитики связаны с BIG DATA Спасибо за внимание Об авторе Дьяконов Александр Геннадьевич д.ф.-м.н., профессор РАН Профессор кафедры мат. методов прогнозирования ВМК МГУ Директор по науке компании АлгоМост блог: http://alexanderdyakonov.wordpress.com/ почта: djakonov (a) mail (.) ru