More Related Content Similar to нил тбд нтс_10-13
Similar to нил тбд нтс_10-13 (20) нил тбд нтс_10-131.
Лаборатория
технологий
больших
данных
Big
Data
Technologies
Lab
создана
приказом
ректора
НГТУ
от
4
сентября
2013
г.
№298
10/10/13
©Крылов-‐2013
1
3. Большие
данные
действительно
большие
• В
мире
гигантский
объем
данных:
в
2003
году
записывалось
около
5
млрд
гигабайт
(экзабайт)
данных
в
2011
такой
объем
создавался
каждые
два
дня,
в
в
2013
году
такой
объем
создается
каждые
10
минут
10/10/13
©Крылов-‐2013
3
4. Wiki
-‐
БОЛЬШИЕ
ДАННЫЕ
Термин
обозначеначающий
множество
наборов
данных
столь
объемных
и
сложных,
что
делает
невозможным
применение
имеющихся
традиционных
инструментов
управления
базами
данных
и
приложений
для
их
обработки.
Проблему
представляют
сбор,
очистка,
хранение,
поиск,
доступ,
передача,
анализ
и
визуализация
таких
наборов
как
целостной
сущности,
а
не
локальных
фрагментов.
В
качестве
определяющих
характеристик
для
больших
данных
отмечают
«три
V»:
объём
(англ.
volume,
в
смысле
величины
физического
объёма),
скорость
(англ.
velocity
в
смыслах
как
скорости
прироста,
так
и
необходимости
высокоскоростной
обработки
и
получения
результатов),
многообразие
(англ.
variety,
в
смысле
возможности
одновременной
обработки
различных
типов
структурированных
и
полуструктурированных
данных)
10/10/13
©Крылов-‐2013
4
5. Техники
и
технологии
• Техника
(чего-‐либо)
–
способ
или
процедура
выполнения
какой-‐либо
задачи
• Технология
–
приложение
результатов
науки,
чаще
всего
к
промышленным
или
коммерческим
целям
10/10/13
©Крылов-‐2013
5
6. Основные
техники
работы
с
большими
данными
А/В
тестирование
Изучение
правил
ассоциации
Классификация
Кластерный
анализ
Краудсорсинг
–
сбор
данных
от
большлго
числа
источников
• Интеграция
и
слияние
данных
• Извлечение
данных
•
•
•
•
•
10/10/13
©Крылов-‐2013
6
7. •
•
•
•
•
•
•
•
•
•
•
•
•
Машинное
обучение
(
с
учителем
и
без
учителя)
Генетические
алгоритмы
NLP
–
Обработка
естественного
языка
Нейронные
сети
Анализ
сетей
Оптимизация
Распознавание
образов
Предиктивное
моделирование
Регрессионный
анализ
Обработка
сигналов
и
анализ
временных
рядов
Сентиментный
анализ
–
извлечение
«чувств»
Пространственный
анализ
Визуализация
10/10/13
©Крылов-‐2013
7
8. Технологии
больших
данных
• Big
Table
-‐
СУБД
Hbase
Google
File
System
• BI
–
Business
Intelligence
–
приложения
для
анализа
и
представления
данных
•
Cassandra
–
открытая
СУБД
для
распределенного
хранения
данных
• Облачный
компьютинг
–
парадигма
использования
компьютеров
как
предоставления
компьютерных
услуг
• Хранилища
данных
• Распределенные
компьютерные
системы
• Dynamo
–
система
хранения
данных
от
Amazon
• ETL
–
extract-‐transform-‐load
компьютерные
приложеня
работы
с
БД
• Hadoop
–
открытая
программный
каркас
(framework)
для
работы
с
гигантскими
объемами
данных
10/10/13
©Крылов-‐2013
8
9. • Hbase
–
открытая
распределенная
нереляционная
СУБД,
входящая
в
Hadoop
• MapReduce
–
программный
каркас
(framework)
для
обработки
гигантских
наборов
данных
в
распределенных
системах,
имплементированная
в
Hadoop
• Mushup
–
приложение
использующее
и
комбинирующее
представление
данных
или
функциональности
от
двух
и
более
источников
• Metadata
–
данные
для
описание
данных
• Нереляционные
СУБД
• R
–
язык
программирования
для
статистической
обработки
и
графики
• Stream
Processing
-‐
обработка
потоков
данных
• Визуализация
–
приложения
для
графического
представления
данных
и
их
взаимосвязей
• Структурированные
и
неструктурированные
данные
• Полуструктурированные
данные
–
не
разместимые
в
фиксированных
полях,
но
содержащие
тэги
и
разделители
10/10/13
©Крылов-‐2013
9
10. Классы
решаемых
задач
• Поиск
нового:
редких
фактов,
один
из
миллионов
или
миллиардов
объектов
и
событий
• Поиск
классов:
нахождение
новых
классов
объектов
и
поведений
• Поиск
ассоциаций:
нахождение
необычных
невероятных
совместно
случающихся
ассоциаций
идентификация
связей
между
различными
вещами,
людьми
или
событиями,
которые
много
ближе
чем
шесть
ступеней
разделения
тесного
мира
10/10/13
©Крылов-‐2013
10
11. Примеры
применений
•
•
•
Среди
конкретных
примеров
использования
больших
данных
—
мониторинг
Twi–er
и
Facebook
правительством
Кении
во
время
прошедших
недавно
президентских
выборов.
Социальные
сети
анализировались
на
предмет
вспышек
ненависти
и
призывов
к
насилию.
(h–p://www.reuters.com/ar—cle/2013/02/05/
net-‐us-‐kenya-‐elec—ons-‐socialmedia-‐idUSBRE9140IS20130205)
Другой
пример
использования
больших
данных:
система
CancerLinQ
от
Американского
общества
медицинской
онкологии,
которая
собирает
и
анализирует
неперсонализированные
данные
от
ста
тысяч
пациентов,
которые
болеют
раковыми
заболеваниями.
Информация
включает
в
себя
показания
лабораторных
тестов
и
заметки
врачей.
Результаты
анализируются
в
реальном
времени
и,
основываясь
на
похожих
случаях,
позволяют
назначать
пациентам
более
точный
курс
лечения
(h–p://mashable.com/2013/03/29/cancer-‐data/)
Информацию,
из
которой
состоят
большие
данные,
получают
не
только
в
Интернете:
с
ускорением
оцифровки
мира
вокруг
нас
она
начала
скапливаться
в
библиотеках,
аэропортах,
крупных
торговых
центрах,
университетах,
государственных
организациях.
Множество
электронных
систем
накапливает
информацию,
которая
потом
становится
предметом
для
исследования.
10/10/13
©Крылов-‐2013
11
12. Экономика
больших
данных
Согласно
исследованиям
агентства
Wikibon
research,
сегодня
компании
не
получают
должной
отдачи
от
инвестиций
в
технологии
Big
Data.
От
каждого
вложенного
доллара
пока
возвращается
половина,
а
то
и
вовсе
считанные
центы.
Однако,
по
мнению
аналитиков,
скоро
ситуация
кардинально
изменится
(h–p://www.computerra.ru/83558/wikibon-‐big-‐data-‐forecast/
10/10/13
©Крылов-‐2013
12
14. Говорят
о
Big
Data
o Профессор
Слоановской
школы
бизнеса
MIT
E.Brynjolfsson
сказал:
«Микроскоп
четыре
века
назад
позволил
людям
увидеть
то,
что
они
никогда
не
видели.
В
итоге
родилась
современная
медицина.
Интеллектуальная
обработка
больших
данных
–
это
современный
эквивалент
микроскопа.
В
бизнесе,
экономике
и
других
областях
решения
теперь
будут
опираться
не
только
на
опыт
и
интуицию,
но
и
на
анализ
и
прогнозирование
на
основе
больших
данных».
o По
мнению
участников
Всемирного
экономического
форума
в
Давосе,
те,
кто
оседлает
тему
интеллектуального
анализа
больших
данных,
станут
хозяевами
информационного
пространства.
Этой
теме
был
посвящен
специальный
доклад
на
Форуме
«Большие
данные
–
большое
влияние».
Ключевой
вывод
доклада
–
цифровые
активы
становятся
не
менее
значимым
экономическим
активом,
чем
золото
или
валюта
10/10/13
©Крылов-‐2013
14
15. Говорят
о
Big
Data
o Исследования,
проведенные
профессором
E.Brynjolfsson
и
двумя
его
коллегами
в
прошлом
году,
показали,
что
анализ
и
прогнозирование
на
основе
больших
данных
берется
на
вооружение
корпоративной
Америкой.
Они
изучили
179
крупных
компаний
и
обнаружили,
что
те
из
них,
кто
взял
в
последние
год-‐полтора
на
вооружение
интеллектуальный
анализ
больших
данных
получил
немедленное
улучшение
экономических
показателей
на
5-‐6%.
С
учетом
оборота
и
размеров
этих
компаний
это
очень
и
очень
много
и
показывает
сумасшедшую
рентабельность
вложений
в
интеллектуальный
анализ
больших
данных.
o Книга
Майкла
Льюиса
«Moneyball»
описывает
реальный
случай,
как
малобюджетная
оклендская
команда
по
бейсболу,
опираясь
на
помощь
местного
университета,
смогла
в
итоге
стать
чемпионом
лиги.
Секрет
состоял
в
том,
что
исследовательская
лаборатория
обрабатывала
большие
данные
обо
всех
командах,
матчах
и
игроках
лиги.
В
итоге
провинциальная
команда
была
укреплена
недооцененными
игроками,
а
план
на
каждую
игру
строился
с
учетом
детального
цифрового
портрета
противника.
10/10/13
©Крылов-‐2013
15
16. Говорят
о
Big
Data
o Одним
из
наиболее
известных
молодых
политологов
является
Джастин
Гример,
28-‐летний
исследователь
из
Стэнфорда,
который
объединил
математику
и
политическую
науку.
Его
исследования
базируются
на
обработке
больших
данных,
включая
структурированную
и
неструктурированную
информацию
из
соцсетей,
блогов,
форумов,
выступлений
в
Конгрессе,
новостных
порталов.
Суть
его
работы
состоит
в
том,
чтобы
определить,
как
действуют
прямые
и
обратные
связи,
выражающиеся
в
тех
или
иных
политических
решениях,
между
людьми
в
Конгрессе
и
их
избирателями
o Гарвардский
университет
в
прошлом
годы
открыл
институт
количественных
социальных
наук.
Его
директор
Гарри
Кинг
говорит:
«
Это
революция,
и
она
только
началась.
Эта
революция
стала
реальностью
благодаря
возможности
обработки
огромного
количества
источников
данных
самого
различного
формата,
как
структурированных,
так
и
неструктурированных,
как
вычислимых,
так
и
невычислимых»
10/10/13
©Крылов-‐2013
16
17. Говорят
о
Big
Data
o Анализируя
большие
данные
интернет-‐запросов,
исследователи
обнаружили
странный
феномен.
Уже
несколько
лет
всплеск
поисковых
запросов
Google
по
таким
терминам,
как
лечение
гриппа,
симптомы
гриппа
и
т.п.
на
несколько
недель
предваряет
начало
стремительного
нарастания
эпидемии
гриппа.
Эта
закономерность
уже
сегодня
используется
для
проведения
превентивных
мер
по
предотвращению
во
многих
штатах
эпидемии
гриппа,
подготовке
врачей,
освобождению
лечебных
коек
и
т.п.
Следует
отметить,
что
используемая
до
этого
информация,
поступающая
от
участковых
врачей
и
пунктов
неотложной
помощи,
как
правило,
отставала
от
реальной
картины.
o Инициатива
ООН
«Глобальный
пульс».
В
рамках
этой
программы
ведется
мониторинг
веб
2,
включая
социальные
сети,
микроблоггинг,
аудио
и
видео
контент.
На
основе
мониторинга
осуществляется
предсказание
грядущих
потерь
рабочих
мест
в
тех
или
иных
регионах,
вспышек
заболеваемости,
волн
преступности
и
т.п.
10/10/13
©Крылов-‐2013
17
18. Говорят
о
Big
Data
o Специалисты
Федеральной
резервной
системы
выяснили,
что
статистика
поисковых
запросов
Google
относительно
покупки
домов
является
более
надежным
источником
для
определения
тенденций
в
увеличении
или
уменьшении
объемов
продаж
недвижимости
и
динамики
жилищного
строительства,
чем
прогнозы
наиболее
известных
экономистов.
10/10/13
©Крылов-‐2013
18
19. Говорят
о
Big
Data
o Джон
Клейнберг,
профессор
Корнелльского
университета
сказал:
«Большие
данные
позволяют
мне
определить
горячие
точки,
в
которых
начинаются
процессы,
которые
станут
господствующими
в
будущем.
Если
бы
интернета
с
социальными
сетями
не
было,
если
бы
не
существовало
подхода
больших
данных,
я
бы
никогда
не
смог
инструментально
определить
эти
горячие
точки».
o Эндрю
Гельман,
один
из
наиболее
авторитетных
статистиков
и
политологов
Америки
говорит:
«Методы
не
изменились,
но
большие
данные
сделали
их
эффективными.
Теперь
математика
и
статистика
–
это
интересно
и
весело.
Это
просто
круто»
10/10/13
©Крылов-‐2013
19
21. Director,
McKincey
Global
Ins—tute
James
Manyika
Советник
президента
США
по
Digital
Economics@Big
Data
10/10/13
©Крылов-‐2013
21
22. Мегатренды
по
MIT
Technology
Review
• Гиперсвязанный
мир:
от
«Больших
данных
к
Интернету
вещей»
• Нанотехнологии
и
новые
материалы
• Власть
потребителя
• Новая
эра
производства
10/10/13
©Крылов-‐2013
22
24. 10/10/13
©Крылов-‐2013
«Game
changers:
Five
opportuni„es
for
US
growth
and
renewal»
рассмотрено
пять
ключевых
факторов,
которые
окажут
наибольшее
влияние
на
экономикуи
социальную
жизнь
США
в
среднесрочной
перспективе,до
2020
года
Прогнозы
McKinsey
24
25. Прогнозы
McKinsey
• Среди
пяти
ключевых
факторов,
призванных
спасти
экономическую
ситуацию
в
Штатах,
значатся
и
«большие
данные».
Более
того,
McKinsey
подсчитала,
что
Big
Data
добавят
$325
млрд
к
ВВП
к
2020
году.Другими
факторами,
которые
окажут
влияние
на
экономику,
названы
энергетика
(шельфовая
добыча
нефти
и
газа),
торговля,
инфраструктура
(инвестирование
в
транспортную
сеть,
строительство
дорог
и
железнодорожных
путей),
а
также
образование
и
трудоустройство.
• Области,
на
которые
Big
Data
оказывают
наибольшее
воздействие
-‐
это
продуктивность,
предпринимательство
и
инновации.
Именно
эти
области
являются
болевыми
точками
экономики.
Вот,
скажем,
есть
у
Штатов
такая
проблема:
рабочая
сила
вслед
за
населением
стареет.
То
есть
средний
возраст
сотрудника
американской
компании
превышает
допустимую
норму.
По
прогнозам,
ситуация
в
ближайшее
время
будет
только
ухудшаться
—
и,
чтобы
поддерживать
рост
ВВП
на
прежнем
уровне,
необходимо
увеличить
производительность
на
30%.
Выполнимая
ли
это
задача?
Если
подключить
к
делу
«большие
данные»,
то
—
более
чем!
По
прогнозам
McKinsey,
в
одном
только
ритейле
Big
Data
могут
сгенерировать
дополнительные
$55
млрд:
10/10/13
©Крылов-‐2013
25
26. Потенциал
выгод
от
использования
Больших
данных
в
государственном
секторе
Евросоюза:
экономия
от
150
до
300
млрд
евро
В
Росии
развитие
индустрии
Big
Data
в
первую
очередь
повлияет
на
Нефтегазовый,
финансовый
и
телекоммуникационный
секторы.
Уникальной
и
насущной
задачей
станет
разработка
методов
обработки
данных,
полученных
компаниями
от
своих
потребителей
10/10/13
©Крылов-‐2013
26
27. Профессия
Data
Scien—st
• Gartner
сказал,
что
в
2018
году
в
США
будет
нехватка
190000
специалистов
со
знаниями
data
analysis,
data
science.
Что
такое
data
scien—st?
Люди,
которые
понимают
машинное
обучение,
которые
знают,
как
анализировать
данные,
знают
статистику,
обладают
навыками
программиста,
знают
технологии.
10/10/13
©Крылов-‐2013
27
31. Программа
курсов
"Introduc—on
to
Data
Science"
• Занятие
1.Вводная
лекция
• Занятие
2.
Задача
машинного
обучения
на
практике.Предобработка
данных,
выбор
алгоритма,
проверка
качества
и
обеспечение
устойчивости.
•
Занятие
3.
Neural
Networks.Bayesian
Network
• .Занятие
4.
Self-‐organizing
map
(Kohonen
map).Decision
trees.
• Занятие
5.
Gene—c
algorithmsFuzzy
logic
• Занятие
6.Задание
на
мини-‐проект
и
брейнсторминг.
• Занятие
7.Сдача
мини-‐проектов,
выдача
дипломов.
10/10/13
©Крылов-‐2013
31