SlideShare a Scribd company logo
 	
  	
  Лаборатория	
  технологий	
  
больших	
  данных	
  
	
  Big	
  Data	
  Technologies	
  Lab	
  
создана	
  приказом	
  ректора	
  НГТУ	
  
от	
  4	
  сентября	
  2013	
  г.	
  №298	
  

10/10/13	
  

©Крылов-­‐2013	
  

1	
  
Большие	
  данные	
  на	
  цикле	
  Гартнера	
  
Big	
  Data	
  	
  

10/10/13	
  

©Крылов-­‐2013	
  

2	
  
Большие	
  данные	
  действительно	
  
большие	
  
•  В	
  мире	
  гигантский	
  объем	
  
данных:	
  	
  в	
  2003	
  году	
  
записывалось	
  	
  около	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
5	
  	
  млрд	
  гигабайт	
  
(экзабайт)	
  данных	
  	
  	
  	
  в	
  2011	
  
такой	
  объем	
  создавался	
  
каждые	
  два	
  дня,	
  в	
  в	
  2013	
  
году	
  такой	
  объем	
  
создается	
  каждые	
  10	
  
минут	
  	
  
10/10/13	
  

©Крылов-­‐2013	
  

3	
  
Wiki	
  -­‐	
  БОЛЬШИЕ	
  ДАННЫЕ	
  
	
   Термин	
   обозначеначающий	
   множество	
   наборов	
   данных	
   столь	
   объемных	
   и	
  
сложных,	
  что	
  делает	
  невозможным	
  применение	
  имеющихся	
  традиционных	
  
инструментов	
  управления	
  базами	
  данных	
  и	
  приложений	
  для	
  их	
  обработки.	
  
Проблему	
  представляют	
  сбор,	
  очистка,	
  хранение,	
  поиск,	
  доступ,	
  передача,	
  
анализ	
   и	
   визуализация	
   таких	
   наборов	
   как	
   целостной	
   сущности,	
   а	
   не	
  
локальных	
  фрагментов.	
  
	
   	
  В	
  качестве	
  определяющих	
  характеристик	
  для	
  больших	
  данных	
  отмечают	
  
«три	
   V»:	
   объём	
   (англ.	
   volume,	
   в	
   смысле	
   величины	
   физического	
   объёма),	
  
скорость	
   (англ.	
   velocity	
   в	
   смыслах	
   как	
   скорости	
   прироста,	
   так	
   и	
  
необходимости	
   высокоскоростной	
   обработки	
   и	
   получения	
   результатов),	
  
многообразие	
   (англ.	
   variety,	
   в	
   смысле	
   возможности	
   одновременной	
  
обработки	
  
различных	
  
типов	
  
структурированных	
  
и	
  
полуструктурированных	
  данных)	
  

10/10/13	
  

©Крылов-­‐2013	
  

4	
  
Техники	
  и	
  технологии	
  
•  Техника	
  (чего-­‐либо)	
  –	
  способ	
  или	
  
процедура	
  выполнения	
  какой-­‐либо	
  задачи	
  
•  Технология	
  –	
  приложение	
  результатов	
  
науки,	
  чаще	
  всего	
  к	
  промышленным	
  или	
  
коммерческим	
  целям	
  

10/10/13	
  

©Крылов-­‐2013	
  

5	
  
Основные	
  техники	
  работы	
  с	
  
большими	
  данными	
  
А/В	
  тестирование	
  
Изучение	
  правил	
  ассоциации	
  
Классификация	
  
Кластерный	
  анализ	
  
Краудсорсинг	
  –	
  сбор	
  данных	
  от	
  большлго	
  
числа	
  источников	
  
•  Интеграция	
  и	
  слияние	
  данных	
  
•  Извлечение	
  данных	
  
• 
• 
• 
• 
• 

10/10/13	
  

©Крылов-­‐2013	
  

6	
  
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 

Машинное	
  обучение	
  (	
  с	
  учителем	
  и	
  без	
  учителя)	
  
Генетические	
  алгоритмы	
  
NLP	
  –	
  Обработка	
  естественного	
  языка	
  
Нейронные	
  сети	
  
Анализ	
  сетей	
  
Оптимизация	
  
Распознавание	
  образов	
  
Предиктивное	
  моделирование	
  
Регрессионный	
  анализ	
  
Обработка	
  сигналов	
  и	
  анализ	
  временных	
  рядов	
  
Сентиментный	
  анализ	
  –	
  извлечение	
  «чувств»	
  
Пространственный	
  анализ	
  
Визуализация	
  

10/10/13	
  

©Крылов-­‐2013	
  

7	
  
Технологии	
  больших	
  данных	
  
•  Big	
  Table	
  -­‐	
  	
  СУБД	
  Hbase	
  Google	
  File	
  System	
  

•  BI	
  –	
  Business	
  Intelligence	
  –	
  приложения	
  для	
  анализа	
  и	
  
представления	
  данных	
  
•  	
  Cassandra	
  –	
  открытая	
  СУБД	
  для	
  распределенного	
  хранения	
  
данных	
  
•  Облачный	
  компьютинг	
  –	
  парадигма	
  использования	
  
компьютеров	
  как	
  предоставления	
  компьютерных	
  услуг	
  
•  Хранилища	
  данных	
  
•  Распределенные	
  компьютерные	
  системы	
  
•  Dynamo	
  –	
  система	
  хранения	
  данных	
  от	
  Amazon	
  
•  ETL	
  –	
  extract-­‐transform-­‐load	
  компьютерные	
  приложеня	
  работы	
  с	
  
БД	
  
•  Hadoop	
  –	
  открытая	
  программный	
  каркас	
  (framework)	
  для	
  
работы	
  с	
  гигантскими	
  объемами	
  данных	
  
10/10/13	
  

©Крылов-­‐2013	
  

8	
  
•  Hbase	
  –	
  открытая	
  распределенная	
  нереляционная	
  	
  СУБД,	
  
входящая	
  в	
  Hadoop	
  
•  MapReduce	
  –	
  программный	
  каркас	
  (framework)	
  для	
  обработки	
  
гигантских	
  наборов	
  данных	
  в	
  распределенных	
  системах,	
  
имплементированная	
  в	
  Hadoop	
  
•  Mushup	
  –	
  приложение	
  использующее	
  и	
  комбинирующее	
  
представление	
  данных	
  или	
  функциональности	
  от	
  двух	
  и	
  более	
  
источников	
  
•  Metadata	
  –	
  данные	
  для	
  описание	
  данных	
  
•  Нереляционные	
  СУБД	
  
•  R	
  –	
  язык	
  программирования	
  для	
  статистической	
  обработки	
  и	
  
графики	
  
•  Stream	
  Processing	
  -­‐	
  обработка	
  потоков	
  данных	
  	
  
•  Визуализация	
  –	
  приложения	
  для	
  графического	
  представления	
  
данных	
  и	
  их	
  взаимосвязей	
  
•  Структурированные	
  и	
  неструктурированные	
  данные	
  
•  Полуструктурированные	
  данные	
  –	
  не	
  разместимые	
  в	
  
фиксированных	
  полях,	
  но	
  содержащие	
  тэги	
  и	
  разделители	
  
10/10/13	
  

©Крылов-­‐2013	
  

9	
  
Классы	
  решаемых	
  задач	
  
•  Поиск	
  нового:	
  редких	
  фактов,	
  один	
  из	
  
миллионов	
  или	
  миллиардов	
  объектов	
  и	
  
событий	
  
•  Поиск	
  классов:	
  нахождение	
  	
  новых	
  классов	
  
объектов	
  и	
  поведений	
  
•  Поиск	
  ассоциаций:	
  нахождение	
  необычных	
  
невероятных	
  совместно	
  случающихся	
  
ассоциаций	
  идентификация	
  связей	
  между	
  
различными	
  вещами,	
  людьми	
  или	
  событиями,	
  
которые	
  много	
  ближе	
  чем	
  шесть	
  ступеней	
  
разделения	
  тесного	
  мира	
  
10/10/13	
  

©Крылов-­‐2013	
  

10	
  
Примеры	
  применений	
  
• 

• 

• 

Среди	
  конкретных	
  примеров	
  использования	
  больших	
  данных	
  —	
  мониторинг	
  
Twi–er	
  и	
  Facebook	
  правительством	
  Кении	
  во	
  время	
  прошедших	
  недавно	
  
президентских	
  выборов.	
  Социальные	
  сети	
  анализировались	
  на	
  предмет	
  
вспышек	
  ненависти	
  и	
  призывов	
  к	
  насилию.	
  (h–p://www.reuters.com/ar—cle/2013/02/05/
net-­‐us-­‐kenya-­‐elec—ons-­‐socialmedia-­‐idUSBRE9140IS20130205)	
  
Другой	
  пример	
  использования	
  больших	
  данных:	
  система	
  CancerLinQ	
  от	
  
Американского	
  общества	
  медицинской	
  онкологии,	
  которая	
  собирает	
  и	
  
анализирует	
  неперсонализированные	
  данные	
  от	
  ста	
  тысяч	
  пациентов,	
  
которые	
  болеют	
  раковыми	
  заболеваниями.	
  Информация	
  включает	
  в	
  себя	
  
показания	
  лабораторных	
  тестов	
  и	
  заметки	
  врачей.	
  Результаты	
  анализируются	
  
в	
  реальном	
  времени	
  и,	
  основываясь	
  на	
  похожих	
  случаях,	
  позволяют	
  назначать	
  
пациентам	
  более	
  точный	
  курс	
  лечения	
  (h–p://mashable.com/2013/03/29/cancer-­‐data/)	
  
Информацию,	
  из	
  которой	
  состоят	
  большие	
  данные,	
  получают	
  не	
  только	
  в	
  
Интернете:	
  с	
  ускорением	
  оцифровки	
  мира	
  вокруг	
  нас	
  она	
  начала	
  скапливаться	
  
в	
  библиотеках,	
  аэропортах,	
  крупных	
  торговых	
  центрах,	
  университетах,	
  
государственных	
  организациях.	
  Множество	
  электронных	
  систем	
  накапливает	
  
информацию,	
  которая	
  потом	
  становится	
  предметом	
  для	
  исследования.	
  

10/10/13	
  

©Крылов-­‐2013	
  

11	
  
Экономика	
  больших	
  данных	
  
Согласно	
  исследованиям	
  агентства	
  Wikibon	
  research,	
  сегодня	
  компании	
  не	
  
	
  получают	
  должной	
  отдачи	
  от	
  инвестиций	
  в	
  технологии	
  Big	
  Data.	
  От	
  каждого	
  
	
  вложенного	
  доллара	
  пока	
  возвращается	
  половина,	
  а	
  то	
  и	
  вовсе	
  считанные	
  центы.	
  
	
  Однако,	
  по	
  мнению	
  аналитиков,	
  скоро	
  ситуация	
  кардинально	
  изменится	
  	
  
(h–p://www.computerra.ru/83558/wikibon-­‐big-­‐data-­‐forecast/	
  

10/10/13	
  

©Крылов-­‐2013	
  

12	
  
Место	
  больших	
  данных	
  в	
  ВВП	
  США	
  

10/10/13	
  

©Крылов-­‐2013	
  

13	
  
Говорят	
  о	
  Big	
  Data	
  
o  Профессор	
  Слоановской	
  школы	
  бизнеса	
  MIT	
  E.Brynjolfsson	
  	
  
сказал:	
  «Микроскоп	
  четыре	
  века	
  назад	
  позволил	
  людям	
  
увидеть	
  то,	
  что	
  они	
  никогда	
  не	
  видели.	
  В	
  итоге	
  родилась	
  
современная	
  медицина.	
  Интеллектуальная	
  обработка	
  
больших	
  данных	
  –	
  это	
  современный	
  эквивалент	
  микроскопа.	
  
В	
  бизнесе,	
  экономике	
  и	
  других	
  областях	
  решения	
  теперь	
  
будут	
  опираться	
  не	
  только	
  на	
  опыт	
  и	
  интуицию,	
  но	
  и	
  на	
  
анализ	
  и	
  прогнозирование	
  на	
  основе	
  больших	
  данных».	
  
o  По	
  мнению	
  участников	
  Всемирного	
  экономического	
  форума	
  в	
  
Давосе,	
  те,	
  кто	
  оседлает	
  тему	
  интеллектуального	
  анализа	
  
больших	
  данных,	
  станут	
  хозяевами	
  информационного	
  
пространства.	
  Этой	
  теме	
  был	
  посвящен	
  специальный	
  доклад	
  
на	
  Форуме	
  «Большие	
  данные	
  –	
  большое	
  влияние».	
  Ключевой	
  
вывод	
  доклада	
  –	
  цифровые	
  активы	
  становятся	
  не	
  менее	
  
значимым	
  экономическим	
  активом,	
  чем	
  золото	
  или	
  валюта	
  

10/10/13	
  

©Крылов-­‐2013	
  

14	
  
Говорят	
  о	
  Big	
  Data	
  
o  Исследования,	
  проведенные	
  профессором	
  E.Brynjolfsson	
  	
  и	
  двумя	
  его	
  
коллегами	
  в	
  прошлом	
  году,	
  показали,	
  что	
  анализ	
  и	
  прогнозирование	
  
на	
  основе	
  больших	
  данных	
  берется	
  на	
  вооружение	
  корпоративной	
  
Америкой.	
  Они	
  изучили	
  179	
  крупных	
  компаний	
  	
  и	
  обнаружили,	
  что	
  те	
  
из	
  них,	
  кто	
  взял	
  в	
  последние	
  год-­‐полтора	
  на	
  вооружение	
  
интеллектуальный	
  анализ	
  больших	
  данных	
  получил	
  немедленное	
  
улучшение	
  экономических	
  показателей	
  на	
  5-­‐6%.	
  С	
  учетом	
  оборота	
  и	
  
размеров	
  этих	
  компаний	
  это	
  очень	
  и	
  очень	
  много	
  и	
  показывает	
  
сумасшедшую	
  рентабельность	
  вложений	
  в	
  интеллектуальный	
  
анализ	
  больших	
  данных.	
  
o  Книга	
  Майкла	
  Льюиса	
  «Moneyball»	
  описывает	
  реальный	
  случай,	
  как	
  
малобюджетная	
  оклендская	
  команда	
  по	
  бейсболу,	
  опираясь	
  на	
  
помощь	
  местного	
  университета,	
  смогла	
  в	
  итоге	
  стать	
  чемпионом	
  
лиги.	
  Секрет	
  состоял	
  в	
  том,	
  что	
  исследовательская	
  лаборатория	
  
обрабатывала	
  большие	
  данные	
  обо	
  всех	
  командах,	
  матчах	
  и	
  
игроках	
  лиги.	
  В	
  итоге	
  провинциальная	
  команда	
  была	
  укреплена	
  
недооцененными	
  игроками,	
  а	
  план	
  на	
  каждую	
  игру	
  строился	
  с	
  
учетом	
  детального	
  цифрового	
  портрета	
  противника.	
  
10/10/13	
  

©Крылов-­‐2013	
  

15	
  
Говорят	
  о	
  Big	
  Data	
  
o  Одним	
  из	
  наиболее	
  известных	
  молодых	
  политологов	
  является	
  
Джастин	
  Гример,	
  28-­‐летний	
  исследователь	
  из	
  Стэнфорда,	
  который	
  
объединил	
  математику	
  и	
  политическую	
  науку.	
  Его	
  исследования	
  
базируются	
  на	
  обработке	
  больших	
  данных,	
  включая	
  
структурированную	
  и	
  неструктурированную	
  информацию	
  из	
  
соцсетей,	
  блогов,	
  форумов,	
  выступлений	
  в	
  Конгрессе,	
  новостных	
  
порталов.	
  Суть	
  его	
  работы	
  состоит	
  в	
  том,	
  чтобы	
  определить,	
  
как	
  действуют	
  прямые	
  и	
  обратные	
  связи,	
  выражающиеся	
  в	
  тех	
  или	
  
иных	
  политических	
  решениях,	
  между	
  людьми	
  в	
  Конгрессе	
  и	
  их	
  
избирателями	
  
o  Гарвардский	
  университет	
  в	
  прошлом	
  годы	
  открыл	
  институт	
  
количественных	
  социальных	
  наук.	
  Его	
  директор	
  Гарри	
  Кинг	
  говорит:	
  
«	
  Это	
  революция,	
  и	
  она	
  только	
  началась.	
  Эта	
  революция	
  стала	
  
реальностью	
  благодаря	
  возможности	
  обработки	
  огромного	
  
количества	
  источников	
  данных	
  самого	
  различного	
  формата,	
  как	
  
структурированных,	
  так	
  и	
  неструктурированных,	
  как	
  вычислимых,	
  
так	
  и	
  невычислимых»	
  

10/10/13	
  

©Крылов-­‐2013	
  

16	
  
Говорят	
  о	
  Big	
  Data	
  
o  Анализируя	
  большие	
  данные	
  интернет-­‐запросов,	
  
исследователи	
  обнаружили	
  странный	
  феномен.	
  Уже	
  
несколько	
  лет	
  всплеск	
  поисковых	
  запросов	
  Google	
  по	
  таким	
  
терминам,	
  как	
  лечение	
  гриппа,	
  симптомы	
  гриппа	
  и	
  т.п.	
  на	
  
несколько	
  недель	
  предваряет	
  начало	
  стремительного	
  
нарастания	
  эпидемии	
  гриппа.	
  Эта	
  закономерность	
  уже	
  
сегодня	
  используется	
  для	
  проведения	
  превентивных	
  мер	
  по	
  
предотвращению	
  во	
  многих	
  штатах	
  эпидемии	
  гриппа,	
  
подготовке	
  врачей,	
  освобождению	
  лечебных	
  коек	
  и	
  т.п.	
  
Следует	
  отметить,	
  что	
  используемая	
  до	
  этого	
  информация,	
  
поступающая	
  от	
  участковых	
  врачей	
  и	
  	
  пунктов	
  неотложной	
  
помощи,	
  как	
  правило,	
  отставала	
  от	
  реальной	
  картины.	
  
o  Инициатива	
  ООН	
  «Глобальный	
  пульс».	
  В	
  рамках	
  этой	
  
программы	
  ведется	
  мониторинг	
  веб	
  2,	
  включая	
  социальные	
  
сети,	
  микроблоггинг,	
  аудио	
  и	
  видео	
  контент.	
  На	
  основе	
  
мониторинга	
  осуществляется	
  предсказание	
  грядущих	
  
потерь	
  рабочих	
  мест	
  в	
  тех	
  или	
  иных	
  регионах,	
  вспышек	
  
заболеваемости,	
  волн	
  преступности	
  и	
  т.п.	
  
10/10/13	
  

©Крылов-­‐2013	
  

17	
  
Говорят	
  о	
  Big	
  Data	
  
o  Специалисты	
  Федеральной	
  резервной	
  
системы	
  выяснили,	
  что	
  статистика	
  
поисковых	
  запросов	
  Google	
  относительно	
  
покупки	
  домов	
  является	
  более	
  надежным	
  
источником	
  для	
  определения	
  тенденций	
  в	
  
увеличении	
  или	
  уменьшении	
  объемов	
  
продаж	
  недвижимости	
  и	
  динамики	
  
жилищного	
  строительства,	
  чем	
  прогнозы	
  
наиболее	
  известных	
  экономистов.	
  
10/10/13	
  

©Крылов-­‐2013	
  

18	
  
Говорят	
  о	
  Big	
  Data	
  
o  Джон	
  Клейнберг,	
  профессор	
  Корнелльского	
  
университета	
  сказал:	
  «Большие	
  данные	
  позволяют	
  
мне	
  определить	
  горячие	
  точки,	
  в	
  которых	
  
начинаются	
  процессы,	
  которые	
  станут	
  
господствующими	
  в	
  будущем.	
  Если	
  бы	
  интернета	
  с	
  
социальными	
  сетями	
  не	
  было,	
  если	
  бы	
  не	
  
существовало	
  подхода	
  больших	
  данных,	
  я	
  бы	
  никогда	
  
не	
  смог	
  инструментально	
  определить	
  эти	
  горячие	
  
точки».	
  
o  Эндрю	
  Гельман,	
  один	
  из	
  наиболее	
  авторитетных	
  
статистиков	
  и	
  политологов	
  Америки	
  говорит:	
  
«Методы	
  не	
  изменились,	
  но	
  большие	
  данные	
  сделали	
  
их	
  эффективными.	
  Теперь	
  математика	
  и	
  
статистика	
  –	
  это	
  интересно	
  и	
  весело.	
  Это	
  просто	
  
круто»	
  
10/10/13	
  

©Крылов-­‐2013	
  

19	
  
Форум	
  «Open	
  Innova—ons»,	
  Москва,	
  31.10-­‐1.11	
  2013	
  

10/10/13	
  

©Крылов-­‐2013	
  

20	
  
Director,	
  McKincey	
  Global	
  Ins—tute	
  	
  James	
  Manyika	
  
Советник	
  президента	
  США	
  по	
  Digital	
  Economics@Big	
  Data	
  

10/10/13	
  

©Крылов-­‐2013	
  

21	
  
Мегатренды	
  по	
  MIT	
  Technology	
  Review	
  
•  Гиперсвязанный	
  мир:	
  от	
  «Больших	
  данных	
  к	
  
Интернету	
  вещей»	
  
•  Нанотехнологии	
  и	
  новые	
  материалы	
  
•  Власть	
  потребителя	
  
•  Новая	
  эра	
  производства	
  

10/10/13	
  

©Крылов-­‐2013	
  

22	
  
10/10/13	
  

©Крылов-­‐2013	
  

23	
  
10/10/13	
  
©Крылов-­‐2013	
  

«Game	
  changers:	
  Five	
  opportuni„es	
  for	
  US	
  growth	
  and	
  renewal»	
  
	
  рассмотрено	
  пять	
  ключевых	
  факторов,	
  которые	
  окажут	
  
	
  наибольшее	
  влияние	
  на	
  экономикуи	
  социальную	
  
	
  жизнь	
  США	
  в	
  среднесрочной	
  перспективе,до	
  2020	
  года	
  

Прогнозы	
  McKinsey	
  

24	
  
Прогнозы	
  McKinsey	
  
•  Среди	
  пяти	
  ключевых	
  факторов,	
  призванных	
  спасти	
  экономическую	
  
ситуацию	
  в	
  Штатах,	
  значатся	
  и	
  «большие	
  данные».	
  Более	
  того,	
  
McKinsey	
  подсчитала,	
  что	
  Big	
  Data	
  добавят	
  $325	
  млрд	
  к	
  ВВП	
  к	
  2020	
  
году.Другими	
  факторами,	
  которые	
  окажут	
  влияние	
  на	
  экономику,	
  
названы	
  энергетика	
  (шельфовая	
  добыча	
  нефти	
  и	
  газа),	
  торговля,	
  
инфраструктура	
  (инвестирование	
  в	
  транспортную	
  сеть,	
  строительство	
  
дорог	
  и	
  железнодорожных	
  путей),	
  а	
  также	
  образование	
  и	
  
трудоустройство.	
  	
  
•  Области,	
  на	
  которые	
  Big	
  Data	
  оказывают	
  наибольшее	
  воздействие	
  -­‐	
  
это	
  продуктивность,	
  предпринимательство	
  и	
  инновации.	
  Именно	
  эти	
  
области	
  являются	
  болевыми	
  точками	
  экономики.	
  Вот,	
  скажем,	
  есть	
  у	
  
Штатов	
  такая	
  проблема:	
  рабочая	
  сила	
  вслед	
  за	
  населением	
  стареет.	
  То	
  
есть	
  средний	
  возраст	
  сотрудника	
  американской	
  компании	
  превышает	
  
допустимую	
  норму.	
  По	
  прогнозам,	
  ситуация	
  в	
  ближайшее	
  время	
  будет	
  
только	
  ухудшаться	
  —	
  и,	
  чтобы	
  поддерживать	
  рост	
  ВВП	
  на	
  прежнем	
  
уровне,	
  необходимо	
  увеличить	
  производительность	
  на	
  30%.	
  
Выполнимая	
  ли	
  это	
  задача?	
  Если	
  подключить	
  к	
  делу	
  «большие	
  
данные»,	
  то	
  —	
  более	
  чем!	
  По	
  прогнозам	
  McKinsey,	
  в	
  одном	
  только	
  
ритейле	
  Big	
  Data	
  могут	
  сгенерировать	
  дополнительные	
  $55	
  млрд:	
  
10/10/13	
  

©Крылов-­‐2013	
  

25	
  
Потенциал	
  выгод	
  от	
  использования	
  Больших	
  данных	
  в	
  
государственном	
  секторе	
  Евросоюза:	
  экономия	
  от	
  150	
  до	
  300	
  млрд	
  
евро

	
  

В	
  Росии	
  развитие	
  индустрии	
  Big	
  Data	
  	
  в	
  первую	
  очередь	
  повлияет	
  на	
  	
  
Нефтегазовый,	
  финансовый	
  и	
  телекоммуникационный	
  секторы.	
  	
  
Уникальной	
  и	
  насущной	
  задачей	
  станет	
  разработка	
  методов	
  обработки	
  	
  
данных,	
  полученных	
  компаниями	
  от	
  своих	
  потребителей	
  

10/10/13	
  

©Крылов-­‐2013	
  

26	
  
Профессия	
  Data	
  Scien—st	
  
•  Gartner	
  сказал,	
  что	
  в	
  2018	
  году	
  в	
  США	
  будет	
  	
  
нехватка	
  190000	
  специалистов	
  со	
  знаниями	
  
data	
  analysis,	
  data	
  science.	
  Что	
  такое	
  data	
  
scien—st?	
  Люди,	
  которые	
  понимают	
  
машинное	
  обучение,	
  которые	
  знают,	
  как	
  
анализировать	
  данные,	
  знают	
  статистику,	
  
обладают	
  навыками	
  программиста,	
  знают	
  
технологии.	
  	
  
10/10/13	
  

©Крылов-­‐2013	
  

27	
  
10/10/13	
  

©Крылов-­‐2013	
  

28	
  
10/10/13	
  

©Крылов-­‐2013	
  

29	
  
10/10/13	
  

©Крылов-­‐2013	
  

30	
  
Программа	
  курсов	
  "Introduc—on	
  to	
  Data	
  Science"	
  
•  Занятие	
  1.Вводная	
  лекция	
  
•  Занятие	
  2.	
  Задача	
  машинного	
  обучения	
  на	
  
практике.Предобработка	
  данных,	
  выбор	
  алгоритма,	
  
проверка	
  качества	
  и	
  обеспечение	
  устойчивости.	
  
•  	
  Занятие	
  3.	
  Neural	
  Networks.Bayesian	
  Network	
  
•  .Занятие	
  4.	
  Self-­‐organizing	
  map	
  (Kohonen	
  map).Decision	
  
trees.	
  
•  Занятие	
  5.	
  Gene—c	
  algorithmsFuzzy	
  logic	
  
•  Занятие	
  6.Задание	
  на	
  мини-­‐проект	
  и	
  брейнсторминг.	
  
•  Занятие	
  7.Сдача	
  мини-­‐проектов,	
  выдача	
  дипломов.	
  
10/10/13	
  

©Крылов-­‐2013	
  

31	
  

More Related Content

Similar to нил тбд нтс_10-13

Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
Ipo Board
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
BranchMarketing
 
графовый грааль для фрии (2014)
графовый грааль   для фрии (2014)графовый грааль   для фрии (2014)
графовый грааль для фрии (2014)Vic N
 
Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)
Vic N
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
Evgeniy Pavlovskiy
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
SQALab
 
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиDigital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиBBDO Group
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
Andrey Kazakevich
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
Mikhail Alekseev
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
 
Big Data с точки зрения конечного пользователя
Big Data с точки зрения конечного пользователяBig Data с точки зрения конечного пользователя
Big Data с точки зрения конечного пользователя
Собака Павлова
 
Машинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандартыМашинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандарты
Anatoly Levenchuk
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Provectus
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Techart Marketing Group
 
Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)
Vic N
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
Andzhey Arshavskiy
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
Newprolab
 
Открытые данные: от теории к практике
Открытые данные: от теории к практикеОткрытые данные: от теории к практике
Открытые данные: от теории к практике
Moscow IT Department
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
queryhunter
 
перспективные технологии
перспективные технологииперспективные технологии
перспективные технологии
Olena Sukhina
 

Similar to нил тбд нтс_10-13 (20)

Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
графовый грааль для фрии (2014)
графовый грааль   для фрии (2014)графовый грааль   для фрии (2014)
графовый грааль для фрии (2014)
 
Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентамиDigital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
Big Data с точки зрения конечного пользователя
Big Data с точки зрения конечного пользователяBig Data с точки зрения конечного пользователя
Big Data с точки зрения конечного пользователя
 
Машинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандартыМашинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандарты
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
 
Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 
Открытые данные: от теории к практике
Открытые данные: от теории к практикеОткрытые данные: от теории к практике
Открытые данные: от теории к практике
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
перспективные технологии
перспективные технологииперспективные технологии
перспективные технологии
 

нил тбд нтс_10-13

  • 1.      Лаборатория  технологий   больших  данных    Big  Data  Technologies  Lab   создана  приказом  ректора  НГТУ   от  4  сентября  2013  г.  №298   10/10/13   ©Крылов-­‐2013   1  
  • 2. Большие  данные  на  цикле  Гартнера   Big  Data     10/10/13   ©Крылов-­‐2013   2  
  • 3. Большие  данные  действительно   большие   •  В  мире  гигантский  объем   данных:    в  2003  году   записывалось    около                     5    млрд  гигабайт   (экзабайт)  данных        в  2011   такой  объем  создавался   каждые  два  дня,  в  в  2013   году  такой  объем   создается  каждые  10   минут     10/10/13   ©Крылов-­‐2013   3  
  • 4. Wiki  -­‐  БОЛЬШИЕ  ДАННЫЕ     Термин   обозначеначающий   множество   наборов   данных   столь   объемных   и   сложных,  что  делает  невозможным  применение  имеющихся  традиционных   инструментов  управления  базами  данных  и  приложений  для  их  обработки.   Проблему  представляют  сбор,  очистка,  хранение,  поиск,  доступ,  передача,   анализ   и   визуализация   таких   наборов   как   целостной   сущности,   а   не   локальных  фрагментов.      В  качестве  определяющих  характеристик  для  больших  данных  отмечают   «три   V»:   объём   (англ.   volume,   в   смысле   величины   физического   объёма),   скорость   (англ.   velocity   в   смыслах   как   скорости   прироста,   так   и   необходимости   высокоскоростной   обработки   и   получения   результатов),   многообразие   (англ.   variety,   в   смысле   возможности   одновременной   обработки   различных   типов   структурированных   и   полуструктурированных  данных)   10/10/13   ©Крылов-­‐2013   4  
  • 5. Техники  и  технологии   •  Техника  (чего-­‐либо)  –  способ  или   процедура  выполнения  какой-­‐либо  задачи   •  Технология  –  приложение  результатов   науки,  чаще  всего  к  промышленным  или   коммерческим  целям   10/10/13   ©Крылов-­‐2013   5  
  • 6. Основные  техники  работы  с   большими  данными   А/В  тестирование   Изучение  правил  ассоциации   Классификация   Кластерный  анализ   Краудсорсинг  –  сбор  данных  от  большлго   числа  источников   •  Интеграция  и  слияние  данных   •  Извлечение  данных   •  •  •  •  •  10/10/13   ©Крылов-­‐2013   6  
  • 7. •  •  •  •  •  •  •  •  •  •  •  •  •  Машинное  обучение  (  с  учителем  и  без  учителя)   Генетические  алгоритмы   NLP  –  Обработка  естественного  языка   Нейронные  сети   Анализ  сетей   Оптимизация   Распознавание  образов   Предиктивное  моделирование   Регрессионный  анализ   Обработка  сигналов  и  анализ  временных  рядов   Сентиментный  анализ  –  извлечение  «чувств»   Пространственный  анализ   Визуализация   10/10/13   ©Крылов-­‐2013   7  
  • 8. Технологии  больших  данных   •  Big  Table  -­‐    СУБД  Hbase  Google  File  System   •  BI  –  Business  Intelligence  –  приложения  для  анализа  и   представления  данных   •   Cassandra  –  открытая  СУБД  для  распределенного  хранения   данных   •  Облачный  компьютинг  –  парадигма  использования   компьютеров  как  предоставления  компьютерных  услуг   •  Хранилища  данных   •  Распределенные  компьютерные  системы   •  Dynamo  –  система  хранения  данных  от  Amazon   •  ETL  –  extract-­‐transform-­‐load  компьютерные  приложеня  работы  с   БД   •  Hadoop  –  открытая  программный  каркас  (framework)  для   работы  с  гигантскими  объемами  данных   10/10/13   ©Крылов-­‐2013   8  
  • 9. •  Hbase  –  открытая  распределенная  нереляционная    СУБД,   входящая  в  Hadoop   •  MapReduce  –  программный  каркас  (framework)  для  обработки   гигантских  наборов  данных  в  распределенных  системах,   имплементированная  в  Hadoop   •  Mushup  –  приложение  использующее  и  комбинирующее   представление  данных  или  функциональности  от  двух  и  более   источников   •  Metadata  –  данные  для  описание  данных   •  Нереляционные  СУБД   •  R  –  язык  программирования  для  статистической  обработки  и   графики   •  Stream  Processing  -­‐  обработка  потоков  данных     •  Визуализация  –  приложения  для  графического  представления   данных  и  их  взаимосвязей   •  Структурированные  и  неструктурированные  данные   •  Полуструктурированные  данные  –  не  разместимые  в   фиксированных  полях,  но  содержащие  тэги  и  разделители   10/10/13   ©Крылов-­‐2013   9  
  • 10. Классы  решаемых  задач   •  Поиск  нового:  редких  фактов,  один  из   миллионов  или  миллиардов  объектов  и   событий   •  Поиск  классов:  нахождение    новых  классов   объектов  и  поведений   •  Поиск  ассоциаций:  нахождение  необычных   невероятных  совместно  случающихся   ассоциаций  идентификация  связей  между   различными  вещами,  людьми  или  событиями,   которые  много  ближе  чем  шесть  ступеней   разделения  тесного  мира   10/10/13   ©Крылов-­‐2013   10  
  • 11. Примеры  применений   •  •  •  Среди  конкретных  примеров  использования  больших  данных  —  мониторинг   Twi–er  и  Facebook  правительством  Кении  во  время  прошедших  недавно   президентских  выборов.  Социальные  сети  анализировались  на  предмет   вспышек  ненависти  и  призывов  к  насилию.  (h–p://www.reuters.com/ar—cle/2013/02/05/ net-­‐us-­‐kenya-­‐elec—ons-­‐socialmedia-­‐idUSBRE9140IS20130205)   Другой  пример  использования  больших  данных:  система  CancerLinQ  от   Американского  общества  медицинской  онкологии,  которая  собирает  и   анализирует  неперсонализированные  данные  от  ста  тысяч  пациентов,   которые  болеют  раковыми  заболеваниями.  Информация  включает  в  себя   показания  лабораторных  тестов  и  заметки  врачей.  Результаты  анализируются   в  реальном  времени  и,  основываясь  на  похожих  случаях,  позволяют  назначать   пациентам  более  точный  курс  лечения  (h–p://mashable.com/2013/03/29/cancer-­‐data/)   Информацию,  из  которой  состоят  большие  данные,  получают  не  только  в   Интернете:  с  ускорением  оцифровки  мира  вокруг  нас  она  начала  скапливаться   в  библиотеках,  аэропортах,  крупных  торговых  центрах,  университетах,   государственных  организациях.  Множество  электронных  систем  накапливает   информацию,  которая  потом  становится  предметом  для  исследования.   10/10/13   ©Крылов-­‐2013   11  
  • 12. Экономика  больших  данных   Согласно  исследованиям  агентства  Wikibon  research,  сегодня  компании  не    получают  должной  отдачи  от  инвестиций  в  технологии  Big  Data.  От  каждого    вложенного  доллара  пока  возвращается  половина,  а  то  и  вовсе  считанные  центы.    Однако,  по  мнению  аналитиков,  скоро  ситуация  кардинально  изменится     (h–p://www.computerra.ru/83558/wikibon-­‐big-­‐data-­‐forecast/   10/10/13   ©Крылов-­‐2013   12  
  • 13. Место  больших  данных  в  ВВП  США   10/10/13   ©Крылов-­‐2013   13  
  • 14. Говорят  о  Big  Data   o  Профессор  Слоановской  школы  бизнеса  MIT  E.Brynjolfsson     сказал:  «Микроскоп  четыре  века  назад  позволил  людям   увидеть  то,  что  они  никогда  не  видели.  В  итоге  родилась   современная  медицина.  Интеллектуальная  обработка   больших  данных  –  это  современный  эквивалент  микроскопа.   В  бизнесе,  экономике  и  других  областях  решения  теперь   будут  опираться  не  только  на  опыт  и  интуицию,  но  и  на   анализ  и  прогнозирование  на  основе  больших  данных».   o  По  мнению  участников  Всемирного  экономического  форума  в   Давосе,  те,  кто  оседлает  тему  интеллектуального  анализа   больших  данных,  станут  хозяевами  информационного   пространства.  Этой  теме  был  посвящен  специальный  доклад   на  Форуме  «Большие  данные  –  большое  влияние».  Ключевой   вывод  доклада  –  цифровые  активы  становятся  не  менее   значимым  экономическим  активом,  чем  золото  или  валюта   10/10/13   ©Крылов-­‐2013   14  
  • 15. Говорят  о  Big  Data   o  Исследования,  проведенные  профессором  E.Brynjolfsson    и  двумя  его   коллегами  в  прошлом  году,  показали,  что  анализ  и  прогнозирование   на  основе  больших  данных  берется  на  вооружение  корпоративной   Америкой.  Они  изучили  179  крупных  компаний    и  обнаружили,  что  те   из  них,  кто  взял  в  последние  год-­‐полтора  на  вооружение   интеллектуальный  анализ  больших  данных  получил  немедленное   улучшение  экономических  показателей  на  5-­‐6%.  С  учетом  оборота  и   размеров  этих  компаний  это  очень  и  очень  много  и  показывает   сумасшедшую  рентабельность  вложений  в  интеллектуальный   анализ  больших  данных.   o  Книга  Майкла  Льюиса  «Moneyball»  описывает  реальный  случай,  как   малобюджетная  оклендская  команда  по  бейсболу,  опираясь  на   помощь  местного  университета,  смогла  в  итоге  стать  чемпионом   лиги.  Секрет  состоял  в  том,  что  исследовательская  лаборатория   обрабатывала  большие  данные  обо  всех  командах,  матчах  и   игроках  лиги.  В  итоге  провинциальная  команда  была  укреплена   недооцененными  игроками,  а  план  на  каждую  игру  строился  с   учетом  детального  цифрового  портрета  противника.   10/10/13   ©Крылов-­‐2013   15  
  • 16. Говорят  о  Big  Data   o  Одним  из  наиболее  известных  молодых  политологов  является   Джастин  Гример,  28-­‐летний  исследователь  из  Стэнфорда,  который   объединил  математику  и  политическую  науку.  Его  исследования   базируются  на  обработке  больших  данных,  включая   структурированную  и  неструктурированную  информацию  из   соцсетей,  блогов,  форумов,  выступлений  в  Конгрессе,  новостных   порталов.  Суть  его  работы  состоит  в  том,  чтобы  определить,   как  действуют  прямые  и  обратные  связи,  выражающиеся  в  тех  или   иных  политических  решениях,  между  людьми  в  Конгрессе  и  их   избирателями   o  Гарвардский  университет  в  прошлом  годы  открыл  институт   количественных  социальных  наук.  Его  директор  Гарри  Кинг  говорит:   «  Это  революция,  и  она  только  началась.  Эта  революция  стала   реальностью  благодаря  возможности  обработки  огромного   количества  источников  данных  самого  различного  формата,  как   структурированных,  так  и  неструктурированных,  как  вычислимых,   так  и  невычислимых»   10/10/13   ©Крылов-­‐2013   16  
  • 17. Говорят  о  Big  Data   o  Анализируя  большие  данные  интернет-­‐запросов,   исследователи  обнаружили  странный  феномен.  Уже   несколько  лет  всплеск  поисковых  запросов  Google  по  таким   терминам,  как  лечение  гриппа,  симптомы  гриппа  и  т.п.  на   несколько  недель  предваряет  начало  стремительного   нарастания  эпидемии  гриппа.  Эта  закономерность  уже   сегодня  используется  для  проведения  превентивных  мер  по   предотвращению  во  многих  штатах  эпидемии  гриппа,   подготовке  врачей,  освобождению  лечебных  коек  и  т.п.   Следует  отметить,  что  используемая  до  этого  информация,   поступающая  от  участковых  врачей  и    пунктов  неотложной   помощи,  как  правило,  отставала  от  реальной  картины.   o  Инициатива  ООН  «Глобальный  пульс».  В  рамках  этой   программы  ведется  мониторинг  веб  2,  включая  социальные   сети,  микроблоггинг,  аудио  и  видео  контент.  На  основе   мониторинга  осуществляется  предсказание  грядущих   потерь  рабочих  мест  в  тех  или  иных  регионах,  вспышек   заболеваемости,  волн  преступности  и  т.п.   10/10/13   ©Крылов-­‐2013   17  
  • 18. Говорят  о  Big  Data   o  Специалисты  Федеральной  резервной   системы  выяснили,  что  статистика   поисковых  запросов  Google  относительно   покупки  домов  является  более  надежным   источником  для  определения  тенденций  в   увеличении  или  уменьшении  объемов   продаж  недвижимости  и  динамики   жилищного  строительства,  чем  прогнозы   наиболее  известных  экономистов.   10/10/13   ©Крылов-­‐2013   18  
  • 19. Говорят  о  Big  Data   o  Джон  Клейнберг,  профессор  Корнелльского   университета  сказал:  «Большие  данные  позволяют   мне  определить  горячие  точки,  в  которых   начинаются  процессы,  которые  станут   господствующими  в  будущем.  Если  бы  интернета  с   социальными  сетями  не  было,  если  бы  не   существовало  подхода  больших  данных,  я  бы  никогда   не  смог  инструментально  определить  эти  горячие   точки».   o  Эндрю  Гельман,  один  из  наиболее  авторитетных   статистиков  и  политологов  Америки  говорит:   «Методы  не  изменились,  но  большие  данные  сделали   их  эффективными.  Теперь  математика  и   статистика  –  это  интересно  и  весело.  Это  просто   круто»   10/10/13   ©Крылов-­‐2013   19  
  • 20. Форум  «Open  Innova—ons»,  Москва,  31.10-­‐1.11  2013   10/10/13   ©Крылов-­‐2013   20  
  • 21. Director,  McKincey  Global  Ins—tute    James  Manyika   Советник  президента  США  по  Digital  Economics@Big  Data   10/10/13   ©Крылов-­‐2013   21  
  • 22. Мегатренды  по  MIT  Technology  Review   •  Гиперсвязанный  мир:  от  «Больших  данных  к   Интернету  вещей»   •  Нанотехнологии  и  новые  материалы   •  Власть  потребителя   •  Новая  эра  производства   10/10/13   ©Крылов-­‐2013   22  
  • 24. 10/10/13   ©Крылов-­‐2013   «Game  changers:  Five  opportuni„es  for  US  growth  and  renewal»    рассмотрено  пять  ключевых  факторов,  которые  окажут    наибольшее  влияние  на  экономикуи  социальную    жизнь  США  в  среднесрочной  перспективе,до  2020  года   Прогнозы  McKinsey   24  
  • 25. Прогнозы  McKinsey   •  Среди  пяти  ключевых  факторов,  призванных  спасти  экономическую   ситуацию  в  Штатах,  значатся  и  «большие  данные».  Более  того,   McKinsey  подсчитала,  что  Big  Data  добавят  $325  млрд  к  ВВП  к  2020   году.Другими  факторами,  которые  окажут  влияние  на  экономику,   названы  энергетика  (шельфовая  добыча  нефти  и  газа),  торговля,   инфраструктура  (инвестирование  в  транспортную  сеть,  строительство   дорог  и  железнодорожных  путей),  а  также  образование  и   трудоустройство.     •  Области,  на  которые  Big  Data  оказывают  наибольшее  воздействие  -­‐   это  продуктивность,  предпринимательство  и  инновации.  Именно  эти   области  являются  болевыми  точками  экономики.  Вот,  скажем,  есть  у   Штатов  такая  проблема:  рабочая  сила  вслед  за  населением  стареет.  То   есть  средний  возраст  сотрудника  американской  компании  превышает   допустимую  норму.  По  прогнозам,  ситуация  в  ближайшее  время  будет   только  ухудшаться  —  и,  чтобы  поддерживать  рост  ВВП  на  прежнем   уровне,  необходимо  увеличить  производительность  на  30%.   Выполнимая  ли  это  задача?  Если  подключить  к  делу  «большие   данные»,  то  —  более  чем!  По  прогнозам  McKinsey,  в  одном  только   ритейле  Big  Data  могут  сгенерировать  дополнительные  $55  млрд:   10/10/13   ©Крылов-­‐2013   25  
  • 26. Потенциал  выгод  от  использования  Больших  данных  в   государственном  секторе  Евросоюза:  экономия  от  150  до  300  млрд   евро   В  Росии  развитие  индустрии  Big  Data    в  первую  очередь  повлияет  на     Нефтегазовый,  финансовый  и  телекоммуникационный  секторы.     Уникальной  и  насущной  задачей  станет  разработка  методов  обработки     данных,  полученных  компаниями  от  своих  потребителей   10/10/13   ©Крылов-­‐2013   26  
  • 27. Профессия  Data  Scien—st   •  Gartner  сказал,  что  в  2018  году  в  США  будет     нехватка  190000  специалистов  со  знаниями   data  analysis,  data  science.  Что  такое  data   scien—st?  Люди,  которые  понимают   машинное  обучение,  которые  знают,  как   анализировать  данные,  знают  статистику,   обладают  навыками  программиста,  знают   технологии.     10/10/13   ©Крылов-­‐2013   27  
  • 31. Программа  курсов  "Introduc—on  to  Data  Science"   •  Занятие  1.Вводная  лекция   •  Занятие  2.  Задача  машинного  обучения  на   практике.Предобработка  данных,  выбор  алгоритма,   проверка  качества  и  обеспечение  устойчивости.   •   Занятие  3.  Neural  Networks.Bayesian  Network   •  .Занятие  4.  Self-­‐organizing  map  (Kohonen  map).Decision   trees.   •  Занятие  5.  Gene—c  algorithmsFuzzy  logic   •  Занятие  6.Задание  на  мини-­‐проект  и  брейнсторминг.   •  Занятие  7.Сдача  мини-­‐проектов,  выдача  дипломов.   10/10/13   ©Крылов-­‐2013   31