SlideShare a Scribd company logo
Управление в меняющемся мире

   Большие данные, облака и
         вычисления




                Microsoft, Анджей Аршавский
                andzhey@microsoft.com
Business is a dogfight.
Your job as a leader:
Outmaneuver the competition, respond
decisively to fast-changing conditions, and
defeat your rivals. That's why the OODA loop,
the brainchild of "40 Second" Boyd, an
unconventional fighter pilot, is one of today's
most important ideas in battle or in business.

                        Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast
                                                          Company, June 2002.
Цикл Бойда

   Наблюдение                             Ориентация                          Решение                   Действие
                          Явное                                                       Неявное
Наблюдение             управление &           Культ .
                                                                                     управление
  событий                контроль            традиции                                & контроль


                                      наследие          Анализ и
             Наблюдения                                                          Решения                   Действие
                                                        синтез
                                                                                (Гипотезы)                  (тест)
                                        Новая
                                      информация      Прошлый
  Внешняя                                               опыт                                                    Раскрытие
информация                                                                                                     взаимодейст
                                                                                                                  вий со
          Измерение
                                                                                                                  средой
         взаимодейст                             ос
             вия с
         окружением                                     ос




    Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через
    обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в
    поле зрения системы.
    Также отметьте как весь цикл является непрекращающимся многосторонним неявным
    многосвязным процессом ориентации, фокусировки, корреляции и фильтрации.
                                                   From “The Essence of Winning and Losing,” John R. Boyd, January 1996
                                                                   “Organic Design for Command and Control”, Boyd .
Знания из данных для OODA цикла
 1. Наблюдение           2. Гипотеза                 Observe




                                           Act     OODA        Orient




                                                     Decide
4. Проверка           3. Предсказание


4ая парадигма                                        Data
науки:
                     Knowledge



                                        Validate   Analytics   Model
              Info

                           Data
                                                    Predict
Терабайты и Петабайты данных…
   Поступающих ежедневно….
НАУКА

 В 2000 телескоп Sloan Digital Sky Survey за первую
 неделю работы собрал больше данных чем было
      накоплено за всю историю астрономии


К 2016 новый телескоп Large Synoptic Survey в Китае
планирует собрать 140 терабайт за первые 5 дней –
        больше чем собрал Sloan за 10 лет


LHC в CERN получает 40 терабайт данных за секунду
БИЗНЕС

      Интернет


   Социальные сети


     Транзакции

        CRM


Датчики/Камеры/RFID/…
Больше, больше и еще больше….
•    1 EB = 10^18 байт = 1000000 терабайт
•    1 ZB = 10^21 байт
•    1.2 ZB новых байт информации в 2010
    Источник: IDC, as reported in The Economist, Feb 25, 2010

•    Более 1.8 ZB в 2011
•    120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011)
•    2TB Cloud Storage: £10: www.livedrive.com
•    К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео
     – 18 EB в месяц. Мобильный трафик -2 EB в месяц
•    Facebook перенес 30 PB на Hadoop (Jul. 27, 2011)
•    Источники разнообразны
       – Сенсоры, crawler-ы, устройства,
        приложения, документы
       – ERP, CRM, PLM, HRM, LOB
•    Хранение данных стоит почти $0.00
       – Хранение сырых данных
       – Можно экспериментировать с аналитикой
Big Data = 3V

 • Volume
 • Velocity
 • Variety



       "...data that is too large to process and manage using
       conventional database management technologies. Big
       data has numerous attributes in addition to its large size,
       including it is typically unstructured and often dispersed.“
                                                      -David Valante
Озера данных

   Единый источник
   Большой объем
   Неочищенный резервуар
   Может быть исследован
   Есть 0-2 озера на компанию          Источники данных:
   Не вмещаются в традиционные RDBMS
   Содержат известные и неизвестные     Transactional
    ответы                                   Financial
                                             retail
                                         Non Transactional
                                             Web pages, blogs…
                                             Documents
                                             Physical events
                                             Applications events
                                             Machine events
Чтобы лучше понять свой бизнес

Исследования IDC:

“In 2012 a healthy chunk of IT spending -- as
much as 20%, -- will be driven by a handful of
technologies that are reshaping the IT industry”:

•   smartphones
•   media tablets
•   mobile networks
•   social networking
•   big data analytics
Использование Big Data

            • Финансы (risk management, real time
              trades)
            • Здравоохранение
            • Розничная торговля
            • Подразделения продаж
Data
preprocessing
                 Структура подходов к анализу данных
Cleaning
Data Integration                                                       Predictive analysis
Data reduction                                                         • Regressions, Classifications
               Data Mining                                             • To get model from data
               • Class/Concept detection                               • Neural networks
               • Finding Patterns, associations, correlations          • Statistics
               • Regressions                                           Descriptive analysis
               • Cluster Analysis                                      • Look at data thru different angles
               • Outliner Analysis                                     • Distribution shapes, trends, …
                                                                       Prescriptive analysis
 Outliners-> Anomaly Detection
                                                                       • Decision making models
 • Rare Class Mining
                                                                       • Optimization
 • Chance discovery
                                                                       • Simulation
 • Novelty Detection
 • Exception Mining
 • Noise Removal                                                              Application Examples
 • Black Swan                                                                 • Load forecasting
                                                                              • Diagnosis
                        Applications of Anomaly Detection                     • Marketing and Sales
                        Network intrusion detection                           • Behavior prediction
                        Insurance / Credit card fraud detection               • Market prediction
                        Healthcare Informatics / Medical diagnostics          • Engineering
                        Industrial Damage Detection                           • Finance
                        Fraud Detection                                       • Failure management
                        Image Processing / Video surveillance                 • Consumption demand
                        Novel Topic Detection in Text Mining
Новые направления Machine Learning


•   Распознавание речи
•   Компьютерное зрение
•   Bio-surveillance
•   Robot control
•   Ускорение эмпирической науки
Традиционный HPC
                                                       эргономика
                                                           тепло

•   Моделирование объектов и процессов
•   Высокая стоимость оборудования
•   Требует редких умений для разработки ПО               нефть
•   От разработки новых Hi-Tech решений к принятию
    повседневных бизнес решений
                                          Геном, медицина, лекарства

    Фильмы
                CFD
                                  SPI Planning
                                                 Материаловедение
HPC для всех?

         Вычислительные ресурсы



      1M         80%


     14M          20%




                        Полное отсутствие или
     70M
     55M                ограниченность доступа к
                        ресурсам high performance
                        data-intensive




 Ученные & Инженеры
Стоимость вычислений




                 $3 billion per Genome
$3,000,000,000

  $60,000,000

   $1,000,000

     $48,000                         $45,000 per Genome

     $10,000

      $2,500                                 $500-$10,000 per Genome

        $500

        $100                                               $100 per Genome?
Принципиальная доступность


                                               Today




                              X64 Server        Cloud



  $40,000,000   $1,000,000     < $4,000     ~$.10/hr/core
                 (40x drop)   (250x drop)
Закон Мура жив
      1.E+07


      1.E+06


      1.E+05
                                    Transistors (in
      1.E+04                        thousands)


      1.E+03

                                                      Frequency
      1.E+02                                          (MHz)

      1.E+01

                                           Cores
      1.E+00


      1.E-01
          1970           1980            1990           2000           2010

    …a hardware issue just became a software problem
“The era of single processor systems is over; the multi- and many-core systems
world is here. If you're not ready for this change, there's an IT train wreck in your
future.                                           - HPC Wire
Big Data & HPC

• Big Data увеличивает спрос на распределённые
  вычисления
   – noSQL, Map/Reduce, MPI, …
   – Desktop более не могут быть бутылочным горлом
• Предпосылки для больших вычислений
   – Big Data, Регуляция, Симуляция
      • Симуляция может генерировать Big Data
      • Пре и пост симуляционные стадии могут требовать интенсивных
        вычислений
• Новые возможности
   – Повышение надежности и скорости принятия решений
   – Переход от элементарных моделей к оптимизационным и
     исследовательским
Cloud
    или HSC (High Scalability Computing)

•   Доступность
•   Масштабируемость
•   Простота
•   Экономия
•   Надежность
Флуктуация объемов вычислений




                                Нехватка ресурсов
Ресурсы стандартного кластера

   Неиспользуемый ресурс
Opportunities for Innovations
PPAAS


PPaaS
PaaS
IaaS
ТЕХНОЛОГИИ РАЗРАБОТКИ
Несовпадения компетенций



      Разработчик                        Предметный эксперт
      •   Знает как работать с           •   Ограниченное знание
          параллельными и                    вычислительных
          распределенными системами          вычислительной
      •   Знает “настоящие” языки            инфраструктуры
          программирования               •   Знают высоко продуктивные
      •   Имеют лишь небольшое               языки программирования
          понимание предметной области   •   Знают как применять
                                             математику и статистику

Как дать возможность предметным экспертам
эффективно работать с большими данными и
использовать большие вычислительные ресурсы?
Map/Reduce и MPI
Map/Reduce                 MPI
Big Data
Isotope на Windows Azure
TechTalk @ Harvard Feb 2, 2012   33
Microsoft Cloud Numerics
Microsoft Cloud Numerics это платформа позволяющая
масштабировать модели анализа данных на Azure из
.Net приложения
  – Простая программная модель защищающая
    пользователя от сложности разработки
    распределенных приложений
  – Расширенный набор библиотек численных методов
    способных работать с распределенными структурами
    данных
  – Простота развертывания приложений на Azure и
    Windows HPC Server
  – Дополняет и интегрируется с экосистемой Map/Reduce

                    TechTalk @ Harvard Feb 2, 2012       34
Сценарий обработки больших данных
     Сырые данные           Цель – улучшение качества поиска
                            патентов
        Map/Reduce          •   Международные патенты
                                – 621 GB XML файлов – 19M док.
                            •   Построение документов из
                                матриц
                                – Лексический анализ каждого файла
   Обработанные данные          – Усредненные результаты в
                                  разреженных матрицах – размер
                                  данных: несколько GB
          анализ            •   Поиск наилучшего алгоритма
     Microsoft.Numerics         поиска
                                – Латентное Семантическое
                                  Индексирование
                                – Использование Sparse SVD для
                                  поиска общих и уникальных
   Конечные материалы             свойств в тексте патента
 Отчеты, графики, решения
Анализ социальных сетей
Рекомендация по открытию привлекательных позиций найма на
базе анализа сети связей в социальных сетях – “В какой работе
мне наилучшим образом может помочь моя социальная сеть?”

1) Facebook / LinkedIn data O(1PB)
2) Job-posting data O(1-19GB)

         Map/Reduce




Полученный граф O(60MB)
1) Социальная сеть нанимающих
руководителей
2) Моя социальная сеть

Поиск наиболее релевантного
работодателя
Архитектура “Cloud Numerics”
                   C# API to Runtime and Libraries                                    Deployment




                                              Linear Algebra
                   Mathematics




                                                               Time Series
                                 Statistics




                                                                             Signal
Нативный код




                   OSS and 3rd party Numerical Libraries

               Project “Cambridge” runtime                                            Visual Studio

                                                                    Microsoft MPI

                                 Windows Azure or Windows HPC Server
Предложение для Сколково
До 4ех XL машин в Windows Azure для тех
кто попробует использовать Cloud Numerics
в своих задачах!
Российский финал: 14 апреля 2012 г.
Регистрация: http://bit.ly/cupfinals2012   МФТИ-МГУ
Начало: 11:00                              МАИ-МИЭМ
Место: Digital October, м. Кропоткинская   ННГУ
Онлайн: http://www.imaginecup.ru           СПбГПУ
                                           СГТУ
                                           ИГУ
                                           ЮУрГУ
                                           ТУСУР
                                           ТГУ-ТПУ

More Related Content

Viewers also liked

Ola Moema
Ola MoemaOla Moema
Ola Moema
Moemaeilma
 
How your sales systems can supercharge your business presentation
How your sales systems can supercharge your business presentationHow your sales systems can supercharge your business presentation
How your sales systems can supercharge your business presentationrepspark
 
QuickBooks Now Online Mkt Case Study
QuickBooks Now Online Mkt Case StudyQuickBooks Now Online Mkt Case Study
QuickBooks Now Online Mkt Case Studypennylanecrull
 
Rebeca salas y hilary jimenes
Rebeca salas y hilary jimenesRebeca salas y hilary jimenes
Rebeca salas y hilary jimenes
Rebeca Salas
 
Technology and Education
Technology and EducationTechnology and Education
Technology and Educationrogersc05
 
1 bgu pazmiño
1 bgu pazmiño1 bgu pazmiño
1 bgu pazmiñogabycarli1
 

Viewers also liked (12)

Ola Moema
Ola MoemaOla Moema
Ola Moema
 
How your sales systems can supercharge your business presentation
How your sales systems can supercharge your business presentationHow your sales systems can supercharge your business presentation
How your sales systems can supercharge your business presentation
 
Introduktion til slideshare net
Introduktion til slideshare netIntroduktion til slideshare net
Introduktion til slideshare net
 
Intasc6 ppt
Intasc6 pptIntasc6 ppt
Intasc6 ppt
 
QuickBooks Now Online Mkt Case Study
QuickBooks Now Online Mkt Case StudyQuickBooks Now Online Mkt Case Study
QuickBooks Now Online Mkt Case Study
 
학원다나와
학원다나와학원다나와
학원다나와
 
11
1111
11
 
Tema
TemaTema
Tema
 
Mmm which one
Mmm which oneMmm which one
Mmm which one
 
Rebeca salas y hilary jimenes
Rebeca salas y hilary jimenesRebeca salas y hilary jimenes
Rebeca salas y hilary jimenes
 
Technology and Education
Technology and EducationTechnology and Education
Technology and Education
 
1 bgu pazmiño
1 bgu pazmiño1 bgu pazmiño
1 bgu pazmiño
 

Similar to Big data, Clouds & HPC

Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организацииAlexey Fedorischev
 
Применение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитикиПрименение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитики
DialogMarketingDays
 
Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...
DialogMarketingDays
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплеваgalkina
 
03 элементы business intelligence в работе аналитика ч1
03 элементы business intelligence в работе аналитика ч103 элементы business intelligence в работе аналитика ч1
03 элементы business intelligence в работе аналитика ч1
Natalya Sveshnikova
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
Liubov Baydalina
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
Evgeniy Pavlovskiy
 
Информационные технологии в экономике. Обзор основных продуктов, используемых...
Информационные технологии в экономике. Обзор основных продуктов, используемых...Информационные технологии в экономике. Обзор основных продуктов, используемых...
Информационные технологии в экономике. Обзор основных продуктов, используемых...
Vladimir Melnikov
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
Andrey Kazakevich
 
Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспекты
Evgeniy Pavlovskiy
 
Исследование защищенности ИС
Исследование защищенности ИСИсследование защищенности ИС
Исследование защищенности ИСAlexey Kachalin
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Techart Marketing Group
 
тема 1
тема 1 тема 1
тема 1
Diabolik Stek
 
Решение Informatica для миграции данных
Решение Informatica для миграции данных Решение Informatica для миграции данных
Решение Informatica для миграции данных Oleksii Tsipiniuk
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
Andzhey Arshavskiy
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных
Roman Brovko
 

Similar to Big data, Clouds & HPC (20)

Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
Персональные данные организации
Персональные данные организацииПерсональные данные организации
Персональные данные организации
 
Применение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитикиПрименение технологии data mining для решения задач клиентской аналитики
Применение технологии data mining для решения задач клиентской аналитики
 
Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...Мастер-класс Применение технологии data mining для решения задач клиентской а...
Мастер-класс Применение технологии data mining для решения задач клиентской а...
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплева
 
03 элементы business intelligence в работе аналитика ч1
03 элементы business intelligence в работе аналитика ч103 элементы business intelligence в работе аналитика ч1
03 элементы business intelligence в работе аналитика ч1
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Informatica datawarehouse
Informatica datawarehouseInformatica datawarehouse
Informatica datawarehouse
 
Информационные технологии в экономике. Обзор основных продуктов, используемых...
Информационные технологии в экономике. Обзор основных продуктов, используемых...Информационные технологии в экономике. Обзор основных продуктов, используемых...
Информационные технологии в экономике. Обзор основных продуктов, используемых...
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 
Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспекты
 
Исследование защищенности ИС
Исследование защищенности ИСИсследование защищенности ИС
Исследование защищенности ИС
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
 
тема 1
тема 1 тема 1
тема 1
 
Решение Informatica для миграции данных
Решение Informatica для миграции данных Решение Informatica для миграции данных
Решение Informatica для миграции данных
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 

More from Andzhey Arshavskiy

Digital Society Lab (about)
Digital Society Lab (about)Digital Society Lab (about)
Digital Society Lab (about)
Andzhey Arshavskiy
 
Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)
Andzhey Arshavskiy
 
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETINGWHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
Andzhey Arshavskiy
 
Ispras (трудаков, коршунов)
Ispras (трудаков, коршунов)Ispras (трудаков, коршунов)
Ispras (трудаков, коршунов)
Andzhey Arshavskiy
 
Dmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNADmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNA
Andzhey Arshavskiy
 
Дмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNAДмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNA
Andzhey Arshavskiy
 
мосты
мостымосты
мосты
Andzhey Arshavskiy
 

More from Andzhey Arshavskiy (11)

dsl & bigdata
dsl & bigdatadsl & bigdata
dsl & bigdata
 
BigData in Banking
BigData in BankingBigData in Banking
BigData in Banking
 
Dsl public
Dsl publicDsl public
Dsl public
 
Digital Society Lab (about)
Digital Society Lab (about)Digital Society Lab (about)
Digital Society Lab (about)
 
Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)
 
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETINGWHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
 
Ispras (трудаков, коршунов)
Ispras (трудаков, коршунов)Ispras (трудаков, коршунов)
Ispras (трудаков, коршунов)
 
Dmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNADmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNA
 
Дмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNAДмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNA
 
мосты
мостымосты
мосты
 
Japan creativity.pps
Japan creativity.ppsJapan creativity.pps
Japan creativity.pps
 

Big data, Clouds & HPC

  • 1. Управление в меняющемся мире Большие данные, облака и вычисления Microsoft, Анджей Аршавский andzhey@microsoft.com
  • 2. Business is a dogfight. Your job as a leader: Outmaneuver the competition, respond decisively to fast-changing conditions, and defeat your rivals. That's why the OODA loop, the brainchild of "40 Second" Boyd, an unconventional fighter pilot, is one of today's most important ideas in battle or in business. Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast Company, June 2002.
  • 3. Цикл Бойда Наблюдение Ориентация Решение Действие Явное Неявное Наблюдение управление & Культ . управление событий контроль традиции & контроль наследие Анализ и Наблюдения Решения Действие синтез (Гипотезы) (тест) Новая информация Прошлый Внешняя опыт Раскрытие информация взаимодейст вий со Измерение средой взаимодейст ос вия с окружением ос Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в поле зрения системы. Также отметьте как весь цикл является непрекращающимся многосторонним неявным многосвязным процессом ориентации, фокусировки, корреляции и фильтрации. From “The Essence of Winning and Losing,” John R. Boyd, January 1996 “Organic Design for Command and Control”, Boyd .
  • 4. Знания из данных для OODA цикла 1. Наблюдение 2. Гипотеза Observe Act OODA Orient Decide 4. Проверка 3. Предсказание 4ая парадигма Data науки: Knowledge Validate Analytics Model Info Data Predict
  • 5. Терабайты и Петабайты данных… Поступающих ежедневно….
  • 6. НАУКА В 2000 телескоп Sloan Digital Sky Survey за первую неделю работы собрал больше данных чем было накоплено за всю историю астрономии К 2016 новый телескоп Large Synoptic Survey в Китае планирует собрать 140 терабайт за первые 5 дней – больше чем собрал Sloan за 10 лет LHC в CERN получает 40 терабайт данных за секунду
  • 7. БИЗНЕС Интернет Социальные сети Транзакции CRM Датчики/Камеры/RFID/…
  • 8. Больше, больше и еще больше…. • 1 EB = 10^18 байт = 1000000 терабайт • 1 ZB = 10^21 байт • 1.2 ZB новых байт информации в 2010 Источник: IDC, as reported in The Economist, Feb 25, 2010 • Более 1.8 ZB в 2011 • 120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011) • 2TB Cloud Storage: £10: www.livedrive.com • К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео – 18 EB в месяц. Мобильный трафик -2 EB в месяц • Facebook перенес 30 PB на Hadoop (Jul. 27, 2011) • Источники разнообразны – Сенсоры, crawler-ы, устройства, приложения, документы – ERP, CRM, PLM, HRM, LOB • Хранение данных стоит почти $0.00 – Хранение сырых данных – Можно экспериментировать с аналитикой
  • 9.
  • 10. Big Data = 3V • Volume • Velocity • Variety "...data that is too large to process and manage using conventional database management technologies. Big data has numerous attributes in addition to its large size, including it is typically unstructured and often dispersed.“ -David Valante
  • 11. Озера данных  Единый источник  Большой объем  Неочищенный резервуар  Может быть исследован  Есть 0-2 озера на компанию Источники данных:  Не вмещаются в традиционные RDBMS  Содержат известные и неизвестные  Transactional ответы  Financial  retail  Non Transactional  Web pages, blogs…  Documents  Physical events  Applications events  Machine events
  • 12. Чтобы лучше понять свой бизнес Исследования IDC: “In 2012 a healthy chunk of IT spending -- as much as 20%, -- will be driven by a handful of technologies that are reshaping the IT industry”: • smartphones • media tablets • mobile networks • social networking • big data analytics
  • 13. Использование Big Data • Финансы (risk management, real time trades) • Здравоохранение • Розничная торговля • Подразделения продаж
  • 14. Data preprocessing Структура подходов к анализу данных Cleaning Data Integration Predictive analysis Data reduction • Regressions, Classifications Data Mining • To get model from data • Class/Concept detection • Neural networks • Finding Patterns, associations, correlations • Statistics • Regressions Descriptive analysis • Cluster Analysis • Look at data thru different angles • Outliner Analysis • Distribution shapes, trends, … Prescriptive analysis Outliners-> Anomaly Detection • Decision making models • Rare Class Mining • Optimization • Chance discovery • Simulation • Novelty Detection • Exception Mining • Noise Removal Application Examples • Black Swan • Load forecasting • Diagnosis Applications of Anomaly Detection • Marketing and Sales Network intrusion detection • Behavior prediction Insurance / Credit card fraud detection • Market prediction Healthcare Informatics / Medical diagnostics • Engineering Industrial Damage Detection • Finance Fraud Detection • Failure management Image Processing / Video surveillance • Consumption demand Novel Topic Detection in Text Mining
  • 15. Новые направления Machine Learning • Распознавание речи • Компьютерное зрение • Bio-surveillance • Robot control • Ускорение эмпирической науки
  • 16. Традиционный HPC эргономика тепло • Моделирование объектов и процессов • Высокая стоимость оборудования • Требует редких умений для разработки ПО нефть • От разработки новых Hi-Tech решений к принятию повседневных бизнес решений Геном, медицина, лекарства Фильмы CFD SPI Planning Материаловедение
  • 17. HPC для всех? Вычислительные ресурсы 1M 80% 14M 20% Полное отсутствие или 70M 55M ограниченность доступа к ресурсам high performance data-intensive Ученные & Инженеры
  • 18. Стоимость вычислений $3 billion per Genome $3,000,000,000 $60,000,000 $1,000,000 $48,000 $45,000 per Genome $10,000 $2,500 $500-$10,000 per Genome $500 $100 $100 per Genome?
  • 19. Принципиальная доступность Today X64 Server Cloud $40,000,000 $1,000,000 < $4,000 ~$.10/hr/core (40x drop) (250x drop)
  • 20. Закон Мура жив 1.E+07 1.E+06 1.E+05 Transistors (in 1.E+04 thousands) 1.E+03 Frequency 1.E+02 (MHz) 1.E+01 Cores 1.E+00 1.E-01 1970 1980 1990 2000 2010 …a hardware issue just became a software problem “The era of single processor systems is over; the multi- and many-core systems world is here. If you're not ready for this change, there's an IT train wreck in your future. - HPC Wire
  • 21. Big Data & HPC • Big Data увеличивает спрос на распределённые вычисления – noSQL, Map/Reduce, MPI, … – Desktop более не могут быть бутылочным горлом • Предпосылки для больших вычислений – Big Data, Регуляция, Симуляция • Симуляция может генерировать Big Data • Пре и пост симуляционные стадии могут требовать интенсивных вычислений • Новые возможности – Повышение надежности и скорости принятия решений – Переход от элементарных моделей к оптимизационным и исследовательским
  • 22. Cloud или HSC (High Scalability Computing) • Доступность • Масштабируемость • Простота • Экономия • Надежность
  • 23.
  • 24. Флуктуация объемов вычислений Нехватка ресурсов Ресурсы стандартного кластера Неиспользуемый ресурс
  • 28. Несовпадения компетенций Разработчик Предметный эксперт • Знает как работать с • Ограниченное знание параллельными и вычислительных распределенными системами вычислительной • Знает “настоящие” языки инфраструктуры программирования • Знают высоко продуктивные • Имеют лишь небольшое языки программирования понимание предметной области • Знают как применять математику и статистику Как дать возможность предметным экспертам эффективно работать с большими данными и использовать большие вычислительные ресурсы?
  • 29.
  • 33. TechTalk @ Harvard Feb 2, 2012 33
  • 34. Microsoft Cloud Numerics Microsoft Cloud Numerics это платформа позволяющая масштабировать модели анализа данных на Azure из .Net приложения – Простая программная модель защищающая пользователя от сложности разработки распределенных приложений – Расширенный набор библиотек численных методов способных работать с распределенными структурами данных – Простота развертывания приложений на Azure и Windows HPC Server – Дополняет и интегрируется с экосистемой Map/Reduce TechTalk @ Harvard Feb 2, 2012 34
  • 35. Сценарий обработки больших данных Сырые данные Цель – улучшение качества поиска патентов Map/Reduce • Международные патенты – 621 GB XML файлов – 19M док. • Построение документов из матриц – Лексический анализ каждого файла Обработанные данные – Усредненные результаты в разреженных матрицах – размер данных: несколько GB анализ • Поиск наилучшего алгоритма Microsoft.Numerics поиска – Латентное Семантическое Индексирование – Использование Sparse SVD для поиска общих и уникальных Конечные материалы свойств в тексте патента Отчеты, графики, решения
  • 36. Анализ социальных сетей Рекомендация по открытию привлекательных позиций найма на базе анализа сети связей в социальных сетях – “В какой работе мне наилучшим образом может помочь моя социальная сеть?” 1) Facebook / LinkedIn data O(1PB) 2) Job-posting data O(1-19GB) Map/Reduce Полученный граф O(60MB) 1) Социальная сеть нанимающих руководителей 2) Моя социальная сеть Поиск наиболее релевантного работодателя
  • 37. Архитектура “Cloud Numerics” C# API to Runtime and Libraries Deployment Linear Algebra Mathematics Time Series Statistics Signal Нативный код OSS and 3rd party Numerical Libraries Project “Cambridge” runtime Visual Studio Microsoft MPI Windows Azure or Windows HPC Server
  • 38. Предложение для Сколково До 4ех XL машин в Windows Azure для тех кто попробует использовать Cloud Numerics в своих задачах!
  • 39. Российский финал: 14 апреля 2012 г. Регистрация: http://bit.ly/cupfinals2012 МФТИ-МГУ Начало: 11:00 МАИ-МИЭМ Место: Digital October, м. Кропоткинская ННГУ Онлайн: http://www.imaginecup.ru СПбГПУ СГТУ ИГУ ЮУрГУ ТУСУР ТГУ-ТПУ